留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于贝叶斯分区数据挖掘的光纤网络异常分析算法

刘云朋 霍晓丽 刘智超

刘云朋, 霍晓丽, 刘智超. 基于贝叶斯分区数据挖掘的光纤网络异常分析算法[J]. 红外与激光工程, 2021, 50(8): 20210121. doi: 10.3788/IRLA20210121
引用本文: 刘云朋, 霍晓丽, 刘智超. 基于贝叶斯分区数据挖掘的光纤网络异常分析算法[J]. 红外与激光工程, 2021, 50(8): 20210121. doi: 10.3788/IRLA20210121
Liu Yunpeng, Huo Xiaoli, Liu Zhichao. Optical fiber network anomaly analysis algorithm based on Bayesian partition data mining[J]. Infrared and Laser Engineering, 2021, 50(8): 20210121. doi: 10.3788/IRLA20210121
Citation: Liu Yunpeng, Huo Xiaoli, Liu Zhichao. Optical fiber network anomaly analysis algorithm based on Bayesian partition data mining[J]. Infrared and Laser Engineering, 2021, 50(8): 20210121. doi: 10.3788/IRLA20210121

基于贝叶斯分区数据挖掘的光纤网络异常分析算法

doi: 10.3788/IRLA20210121
基金项目: 国家自然科学基金(61703056);吉林省优秀青年人才基金(20190103154JH)
详细信息
    作者简介:

    刘云朋,男, 副教授,硕士,主要从事计算机技术应用方面的研究

    通讯作者: 刘智超,男,副教授,博士,主要从事光纤传感技术、光谱分析等方面的研究。
  • 中图分类号: TP311

Optical fiber network anomaly analysis algorithm based on Bayesian partition data mining

  • 摘要: 光纤网络通信中异常信息的快速、准确识别是保证通信稳定的关键,随着光纤网络通信数据的激增,也成为了近年来的一个研究热点。文中结合异常信息识别算法的精度与收敛速度之间的制约机理,提出了基于贝叶斯分区数据挖掘的异常信息识别算法。首先,采用贝叶斯定量完成数据样本的特征分类,通过极大化分析修正先验概率;然后,依据异常信息的不同类型设置挖掘特征参数及概率化系数;最后,依据贝叶斯分区分别对样本数据进行具有针对性的数据挖掘。实验以光纤局域网的通信状态数据为样本,将该算法与人工神经网络算法和遗传算法的识别结果进行对比,计算了三种算法的识别正确率、收敛速度以及算法稳定性。该算法的识别正确率均值为93.83%,在数据量增大时未发生明显的降低。收敛速度与遗传算法相近,均值为3.25 s。漏检率和误检率均值分别为0.10%和0.54%。结果表明:该算法识别正确率与收敛速度均得到了提高,稳定性好,并能够在漏检率与误检率之间通过参数控制进行微调,具有较好的应用价值。
  • 图  1  基于贝叶斯分区数据挖掘算法流程图

    Figure  1.  Flow chart of data mining algorithm based on Bayesian partition

    图  2  识别正确率对比

    Figure  2.  Comparison of recognition accuracy rate

    图  3  不同算法处理速度对比

    Figure  3.  Comparison of processing speed of different algorithms

    图  4  算法可靠性对比

    Figure  4.  Comparison of algorithms reliability

  • [1] Ramezani M, Yaghmaee F. A review on human action analysis in videos for retrieval applications [J]. Artificial Intelligence Review, 2016, 46(4): 485-514. doi:  10.1007/s10462-016-9473-y
    [2] Wang Hui, Zhang Cuiyu. Differences between network data mining algorithm based on improved genetic algorithm [J]. Computer Simulation, 2015, 32(5): 311-314. (in Chinese)
    [3] Kuang Y, Guo Y, Xiong L, et al. Packaging and temperature compensation of fiber Bragg grating for strain sensing: A survey [J]. Photonic Sensors, 2018, 8(4): 320-331. doi:  10.1007/s13320-018-0504-y
    [4] Jia Q. Location and monitoring of fiber optic line faults [J]. China New Telecommunications, 2017, 19(1): 74-74.
    [5] Yeung S, Russakovsky O, Jin N, et al. Every moment counts: dense detailed labeling of actions in complex videos [J]. International Journal of Computer Vision, 2018, 126(24): 375-389.
    [6] Chen Yang, Zhao Shanghong, Wang Xiang, et al. BER analysis of high-altitude OFDM-FSO modulation system under exponentiated weibull atmospheric turbulence model [J]. Laser & Infrared, 2018, 48(7): 832-837.
    [7] Chen Y, Li L J. Very fast decision tree classification algorithm based on Red-Black tree for data stream with continuous attributes [J]. Journal of Nanjing University of Posts and Telecommunications (Natural Science Edition), 2017, 37(2): 86- 90.
    [8] Liu Y, Wang C R. An improved big data clustering method based on sampling fusion [J]. Microelectronics & Computer, 2017, 34(4): 17- 21.
    [9] Gu X Q, Jiang Y Z, Wang S T. Zero-order TSK-type fuzzy system for imbalanced data classification [J]. Acta Automatica Sinica, 2017, 43(10): 1773-1788.
    [10] Lee J, Lee S, Hwang I. Hybrid system modeling and estimation for arrival time prediction in terminal airspace [J]. Journal of Guidance Control & Dynamics, 2016, 39(4): 903-910.
    [11] Sun B C, Li J Z, Zhang W T. Fiber Bragg grating sensor [J]. Optical Fiber Sensing and Structural Health Monitoring Technology, 2019, 26(4): 77-148.
    [12] Huang X, Wang Z, Li Y, et al. Design of fuzzy state feedback controller for robust stabilization of uncertain fractional-order chaotic systems [J]. Journal of the Franklin Institute, 2015, 351(12): 5480-5493.
    [13] Shang F, Yi J, Xiong A, et al. A node localization algorithm based on multi-granularity regional division and the lagrange multiplier method in wireless sensor networks [J]. Sensors, 2016, 16(11): 1934. doi:  10.3390/s16111934
    [14] Pan Q K, Sang H Y, Duan J H, et al. An improved fruit fly optimization algorithm for continuous function optimization problems [J]. Knowledge-Based Systems, 2014, 62(1): 69- 83.
    [15] Guan L, Hu G J, Wang Zh. Research on network security situational awareness technology based on big data [J]. Netinfo Security, 2016, 1(9): 45-50.
    [16] Guo H, Liu H, Wu C, et al. Logistic discrimination based on G-mean and F-measure for imbalanced problem [J]. Journal of Intelligent and Fuzzy Systems, 2016, 31 (3): 1155-1166. doi:  10.3233/IFS-162150
  • [1] 罗霄, 张民, 蒋啸天, 宋裕琛, 张希萌, 王丹石.  物理信息神经网络驱动的光纤非线性建模 . 红外与激光工程, 2023, 52(12): 20230188-1-20230188-11. doi: 10.3788/IRLA20230188
    [2] 李东亮, 卢贝.  基于深度神经网络的光纤传感识别算法 . 红外与激光工程, 2022, 51(9): 20210971-1-20210971-6. doi: 10.3788/IRLA20210971
    [3] 游丽.  基于块稀疏贝叶斯学习的SAR图像目标方位角估计方法 . 红外与激光工程, 2022, 51(4): 20210282-1-20210282-6. doi: 10.3788/IRLA20210282
    [4] 王春霞, 刘云朋.  基于光纤传感的工业生产线智能装配系统 . 红外与激光工程, 2022, 51(10): 20210695-1-20210695-6. doi: 10.3788/IRLA20210695
    [5] 李芳丽.  监控视频中采用深度支持向量数据描述的异常检测 . 红外与激光工程, 2021, 50(9): 20210094-1-20210094-7. doi: 10.3788/IRLA20210094
    [6] 王文君, 徐娜.  一种面向光纤网络路径优化的机器学习改进算法 . 红外与激光工程, 2021, 50(10): 20210185-1-20210185-6. doi: 10.3788/IRLA20210185
    [7] 刘云朋, 霍晓丽, 刘智超.  基于深度学习的光纤网络异常数据检测算法 . 红外与激光工程, 2021, 50(6): 20210029-1-20210029-6. doi: 10.3788/IRLA20210029
    [8] 张旭, 于明鑫, 祝连庆, 何彦霖, 孙广开.  基于全光衍射深度神经网络的矿物拉曼光谱识别方法 . 红外与激光工程, 2020, 49(10): 20200221-1-20200221-8. doi: 10.3788/IRLA20200221
    [9] 刘松林, 胡俊, 张丽, 巩丹超.  基于证据网络的场景可识别性分析 . 红外与激光工程, 2020, 49(S2): 20200187-20200187. doi: 10.3788/IRLA20200187
    [10] 裴晓敏, 范慧杰, 唐延东.  多通道时空融合网络双人交互行为识别 . 红外与激光工程, 2020, 49(5): 20190552-20190552-6. doi: 10.3788/IRLA20190552
    [11] 苏本跃, 郑丹丹, 汤庆丰, 盛敏.  单传感器数据驱动的人体日常短时行为识别方法 . 红外与激光工程, 2019, 48(2): 226003-0226003(9). doi: 10.3788/IRLA201948.0226003
    [12] 刘天赐, 史泽林, 刘云鹏, 张英迪.  基于Grassmann流形几何深度网络的图像集识别方法 . 红外与激光工程, 2018, 47(7): 703002-0703002(7). doi: 10.3788/IRLA201847.0703002
    [13] 裴晓敏, 范慧杰, 唐延东.  时空特征融合深度学习网络人体行为识别方法 . 红外与激光工程, 2018, 47(2): 203007-0203007(6). doi: 10.3788/IRLA201847.0203007
    [14] 马鹏阁, 陈恩庆, 庞栋栋, 羊毅.  基于快速贝叶斯匹配追踪的激光大气信道估计 . 红外与激光工程, 2017, 46(9): 922002-0922002(7). doi: 10.3788/IRLA201746.0922002
    [15] 陈荷, 乔洋, 陈晶, 赵艳彬.  面向空间信息网络的骨干接入一体化MEO卫星系统设计 . 红外与激光工程, 2016, 45(8): 822003-0822003(6). doi: 10.3788/IRLA201645.0822003
    [16] 刘俊良, 陈尚锋, 卢焕章, 赵本东, 毋亚北.  弹道目标识别的红外辐射数据仿真研究 . 红外与激光工程, 2016, 45(10): 1004002-1004002(7). doi: 10.3788/IRLA201645.1004002
    [17] 赵卫虎, 赵静, 赵尚弘, 李勇军, 董毅, 李轩.  自适应遗传算法的数据中继卫星光网络资源调度算法 . 红外与激光工程, 2015, 44(4): 1311-1316.
    [18] 孔云波, 王华兵, 冯新喜, 鹿传国.  基于信息散度的雷达/红外数据关联算法 . 红外与激光工程, 2014, 43(11): 3775-3782.
    [19] 龚靖棠, 屈惠明, 陈钱, 王新涛.  体内异常热源信息的红外无损探测模拟 . 红外与激光工程, 2014, 43(8): 2477-2481.
    [20] 叶函函, 王先华, 吴军, 方勇华.  大气二氧化碳贝叶斯反演中误差矩阵的构建方法研究 . 红外与激光工程, 2014, 43(1): 249-253.
  • 加载中
图(4)
计量
  • 文章访问数:  261
  • HTML全文浏览量:  75
  • PDF下载量:  25
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-04-06
  • 修回日期:  2021-05-12
  • 刊出日期:  2021-08-25

基于贝叶斯分区数据挖掘的光纤网络异常分析算法

doi: 10.3788/IRLA20210121
    作者简介:

    刘云朋,男, 副教授,硕士,主要从事计算机技术应用方面的研究

    通讯作者: 刘智超,男,副教授,博士,主要从事光纤传感技术、光谱分析等方面的研究。
基金项目:  国家自然科学基金(61703056);吉林省优秀青年人才基金(20190103154JH)
  • 中图分类号: TP311

摘要: 光纤网络通信中异常信息的快速、准确识别是保证通信稳定的关键,随着光纤网络通信数据的激增,也成为了近年来的一个研究热点。文中结合异常信息识别算法的精度与收敛速度之间的制约机理,提出了基于贝叶斯分区数据挖掘的异常信息识别算法。首先,采用贝叶斯定量完成数据样本的特征分类,通过极大化分析修正先验概率;然后,依据异常信息的不同类型设置挖掘特征参数及概率化系数;最后,依据贝叶斯分区分别对样本数据进行具有针对性的数据挖掘。实验以光纤局域网的通信状态数据为样本,将该算法与人工神经网络算法和遗传算法的识别结果进行对比,计算了三种算法的识别正确率、收敛速度以及算法稳定性。该算法的识别正确率均值为93.83%,在数据量增大时未发生明显的降低。收敛速度与遗传算法相近,均值为3.25 s。漏检率和误检率均值分别为0.10%和0.54%。结果表明:该算法识别正确率与收敛速度均得到了提高,稳定性好,并能够在漏检率与误检率之间通过参数控制进行微调,具有较好的应用价值。

English Abstract

    • 光纤网络具有传输数据量大、交互节点多等特点,并广泛应用于通信领域,而随着客户端的不断增多以及原有设备的磨损老化,会出现断路、串联、跳线等错误,随之而来产生异常数据[1-2]。为了提高光纤网络通信的稳定性,对光纤网络中存在的异常信息进行快速识别具有重要意义。

      光纤网络中异常信息的产生往往是由于设备故障或通信数据冲突造成的[3],故其输出数据具有明显的特征,只要能够在海量的网络传输状态数据中进行快速分类,就能完成对异常位置、类型及其数据量的分析。对异常信息的识别,首先要从当前的信息中将错误信息的特征、类别进行先验分析,从而为异常信息的判别提供初始依据,再通过分析算法完成不同类型数据状态信息的判断。这个过程要将异常信息的特征与识别模型中的特征进行概率化匹配,从而完成对光纤网络中异常信息的精准识别。光纤网络状态信息监测算法有很多,诸如人工神经网络(Artificial Neural Network, ANN)[4-5]、遗传算法(Genetic Algorithm,GA)[6-7]、数据挖掘(Data Mining, DM)[8-10]等。人工神经网络的自主学习能力强,通过自适应分类可以对无序数据有效分类,具有很好的普适性,但对于数据量巨大的光纤网络数据,其容易产生局部最优的问题;遗传算法是通过模拟自然进化寻找最优解的,对于多元问题具有很好的适用性,对相似的光纤异常信息具有更好的区分性,但其遗传过程中必须携带一定量的上一代信息,这样会对异常信息的分类造成偏向性,影响新类型异常信息的识别。数据挖掘包括了多种数据分类方法,实际上是一种综合的数据分类手段,并且可以与不同的数据处理算法相结合,具有更高的兼容性。文中就是通过贝叶斯分区对数据进行预处理,再通过数据挖掘的手段进行分区识别,由此达到测试结果最优化的目的。

    • 贝叶斯分类[11]的核心思想是通过已知概率分布中存在的误判损失去完成数据分类的最优化。基于贝叶斯定理可知,在特征样本的条件下的类别概率P(K|X)可以表示为:

      $$P(K\left| X \right.) = \frac{{P(K)P(X\left| K \right.)}}{{P(X)}}$$ (1)

      式中:K表示类别;X表示样本特征;P(K)表示可以预先获取的先验概率;P(X|K)表示关于样本特征的类别概率;P(X)表示算法设置系数。由上式可知将对类别概率的计算转化成了对先验概率与特征因子的计算。

    • 在光纤网络中,异常数据往往是具有一定特征的,并且产生的异常数据形式具有一定的相关性,从而采用先验概率去识别异常信息是有一定优势的。而在光纤网络中的异常信息往往是由于网络中错误代码、数据冲突等造成的,这些异常基本上是独立存在的,故在文中采用朴素贝叶斯策略[12]进行分区,具有稳定性强、准确度高等特性。在这里想要计算类别概率时,所对应的类别就是算法的控制变量k,由于控制变量并不唯一,故采用下标区分不同控制变量,m个控制变量k,即k1k2k3、···k m,其对应的特征矢量分别为k1k2k3、···k n。设样本为X={x1, x2, x3, ···, xn},包括了则对于Ki满足在此条件下,其贝叶斯分类概率可表示为:

      $$P({K_i}\left| X \right.) = \frac{{P({K_i})P(X\left| {{K_i}} \right.)}}{{P(X)}}$$ (2)

      式中:P(X)为设置系数。故当公式(2)中分子满足极大化时,则该式也能够满足。在光纤网络传输的通常情况下控制变量的概率是由于硬件设备决定的,换言之从概率分布的角度而言,这个也往往被看作是常量。故最终实际上是在计算P(X|Ki)的,则其可表达为:

      $$P(X\left| {{K_i}} \right.) = \prod\limits_{k - 1}^n {P({X_k}\left| {{K_i}} \right.)} $$ (3)

      在计算样本数据时可以获取公式(3)中不同X赋值时的P(X|Ki),故当其符合公式(3)时样本数据被分类到Ki中,从而样本符合极大化要求。

      针对样本的先验概率[13],如果样本集合中所有的样本或训练集都没有出现某个分量值,则检测结果为0。并且采用拉氏平滑[14]修正先验概率,从而防止非特征数据占据特征数据类别的问题。如果训练样本D中类别量为N,则对应的第i个特征值对应数值为Ni,由此获得修正结果:

      $$P(X\left| {{K_i}} \right.) = \left( {\left| {{D_c}} \right| + 1} \right){\left( {\left| {{D_c}} \right| + {N_i}} \right)^{ - 1}}$$ (4)

      由上式可知,当样本总数增大时,修正过程中的先验效应造成的影响会越来小,其估计值与真实概率会无限逼近。

    • 在通过贝叶斯定理完成异常信息分区后,对已完成分区的样本数据进行数据挖掘,挖掘过程主要分为:特征数据提取、数据预处理、分区分类、模型构建。首先,对已完成的分区进行信息类型趋势分析,从而对不同的异常信息的数据格式与类型进行分类;然后,对异常信息进行概率化处理,将异常信息的概率属性叠加概率化系数上;最后,利用贝叶斯拓扑结构[15],将概率化[16]的数据分布转化为数据特征向量,形成数据挖掘的边界条件。

      设数据集合为A,挖掘特征参数为B,异常信息的分类系数为n,概率化系数为l,则数据挖掘的计算规律满足:

      $$\int {\bar P} = \left\{ {P({a_n})\sum\limits_{i \in n}^{{B_i}} {l\left( {{A_i},{B^n}} \right)\forall } } \right\}$$ (5)

      为了提高数据挖掘的精度与挖掘速度之间的制约关系,采用贝叶斯分区将初始海量光纤网络数据进行分区,这样在数据挖掘过程中不同分区的侧重是不同的,针对不同异常信息类型其概率化值不同(该概率化系数可以理解为每个数据点的权值),从而挖掘深度和速度可以达到最优化配置,避免无效挖掘,从而保证挖掘速度。

      设任意贝叶斯分区中数据集合为X,而对应的X中可以展开成n×n的矩阵形式,与第1节中的样本数据集对应,则满足其分区数据挖掘的概率关系有:

      $$X = \sum\limits_{n \in N} {\left( {\begin{array}{*{20}{c}} {{x_{11}}}&{{x_{12}}}&{...}&{{x_{1n}}} \\ {{x_{21}}}&{{x_{22}}}&{...}&{{x_{2n}}} \\ {...}&{...}&{...}&{...} \\ {{x_{n1}}}&{{x_{n2}}}&{...}&{{x_{nn}}} \end{array}} \right)} $$ (6)

      根据以上步骤完成迭代每一个贝叶斯分区中的数据集合,就能快速地获得全部的异常数据集合。

    • 为了提高光纤网络中异常信息识别精度与收敛速度,将贝叶斯分区应用于数据挖掘前的数据分区,从而使不同分区中异常信息类型的识别概率可以根据分区属性进行调节,这样就能提高异常信息的识别精度与收敛速度。挖掘算法的流程如图1所示,实现步骤如下:

      图  1  基于贝叶斯分区数据挖掘算法流程图

      Figure 1.  Flow chart of data mining algorithm based on Bayesian partition

      (1) 对光纤网络中异常信息的种类与数据格式进行分类,并根据以往异常信息出现频次的差异设定不同的先验概率P(X);

      (2) 设置分区内样本数据集X={x1, x2, x3, ···, xn},依据异常信息特征设置m个控制变量k,即k1k2k3、···、km

      (3) 循环判断符合控制变量条件下数据集的概率,当其满足极大化条件时,输出贝叶斯分类概率值P(Ki|X);

      (4) 训练样本数据D,设置其需要处理的数据的类别量N和其对应数值Ni,从而对原有的贝叶斯分类概率值进行修正,随着数据量不断增大,修正效果将无限逼近真实概率,从而提高系统分区精度,最终确定所以数据的区域划分;

      (5) 在具有明确分区的基础上,将数据挖掘的计算规律给出,并将贝叶斯分区作为其边界条件,对不同区域的异常信息进行概率化分类,分类依据为公式(5),对数据集合A中的n个类别进行挖掘;

      (6) 通过分区数据挖掘的概率关系作为收敛条件对所有分区进行分段迭代,将光纤网络中数据遍历后输出异常信息结果。

    • 采用实验室内光纤局域网模拟光纤通信网络,计算机采用32位Windows 10系统,主频3.0 GHz双核处理器,内存2.0 GB为硬件基础。以网络延迟、光开关断路、数据信道占用率为主要标志参数,本算法数据挖掘语言采用VS平台C++实现,数据服务器的处理器选用至强E5型。为了对比异常信息识别效果,针对相同的光纤通信数据,分别采用人工神经网络(Artificial Neural Network, ANN)和遗传算法(Genetic Algorithm, GA)进行异常信息提取与识别。

    • 首先对算法的识别正确率进行比较,比较的指标采用识别正确率P表示,识别正确率定义为判定为异常信息的数据样本为真的个数与判定数据样本的总数的比值,每个样本为光纤网络传输数据包,包含一个通信时刻所有的状态参数信息,则分析1 000个数据包样本的测试结果如图2所示。

      图  2  识别正确率对比

      Figure 2.  Comparison of recognition accuracy rate

      图2可知,在数据样本总量大幅增加的情况下,该算法的识别正确率基本保持不变,平均值为93.83%,而ANN算法和GA算法的平均值分别为83.34%和82.92%,可以看出该算法的识别正确率明显优于两种传统识别算法。

    • 在保证识别精度的基础上,算法收敛速度就成为了判断算法优劣的第二个重要指标,同样将三种算法对同一组数据的处理时间进行比较,结果如图3所示。

      图  3  不同算法处理速度对比

      Figure 3.  Comparison of processing speed of different algorithms

      由测试结果可知,当数据样本小于400时,三种算法的收敛时间基本一致,当数据样本大于400后,ANN算法的收敛时间明显增大,而GA算法与该算法的收敛时间相近。分析认为,由于这个值并不是单纯的400个点,而是400个数据单元,每个单元中处理数据信息还有状态参数的,当超过400时,其数据运算量就会显著增大,故计算周期由此发生较大差异。表明该算法测试速度方面符合设计要求。

    • 对算法可靠性分析主要从漏检率与误检率两个方面进行评价,漏检是将异常信息判定为正常信息,其比率为漏检信息数量与总检测信息数量的比值,误检是将正确信息错误判断成异常信息,其比率为误检信息数量与总检测信息数量的比值,对比三种算法的可靠性如图4所示。

      图4(a)可知,本算法的漏检率平均值为0.10%,ANN和GA算法的平均值为0.58%和0.43%,在数据量增大时,算法的漏检率没有明显增大,具有较好的可靠性。由图4(b)可知,该算法的误检率平均值为0.54%,ANN和GA算法的平均值为1.26%和0.72%,总体变化趋势平稳。分析认为误检率高于漏检率的原因是数据挖掘的控制因子设置较大,侧重全部检出。若当实际情况要求尽量避免误检时,可以通过调小控制因子,使算法结果侧重避免错检。

      图  4  算法可靠性对比

      Figure 4.  Comparison of algorithms reliability

    • 文中针对在光纤网络通信中异常信息的识别正确率与收敛速度之间的制约问题,提出了基于贝叶斯分区数据挖掘的异常信息识别算法。该算法将贝叶斯分区应用于数据样本分类,再通过分区数据挖掘实现异常信息的快速识别。实验将该算法与两种常用的识别分类算法进行比较,结果显示:该算法的识别正确率、收敛速度以及稳定性均具有一定优势,在光纤网络通信异常分析中具有一定的实用价值。

参考文献 (16)

目录

    /

    返回文章
    返回