多层实时网络加密数据流频繁项集挖掘方法*

蔡中民

(河南牧业经济学院 信息工程学院,郑州 450044)

要: 针对多层实时网络加密数据流频繁项集常受码间干扰,现有挖掘方法缺少对干扰的抑制而导致挖掘输出效果不好、传输误码率偏高、滤波效果差的问题,提出一种基于集对分析的挖掘方法.构建频繁项集的传输信道模型,对频繁项集的输出进行聚簇性设计和跟踪识别,根据空频结构在簇首节点完成集成处理;在近场源中提取频繁项集的平均集对特征量,通过自适应滤波器进行码间干扰抑制;对经干扰抑制的加密大数据流频繁项集进行集对分析,提取频繁项集的平均集对特征量,优化挖掘函数.结果表明,该方法的抗干扰能力强,传输误码率较低,滤波效果好.

词: 集对分析; 多层实时网络; 加密数据流; 频繁项集; 挖掘; 干扰滤波; 关联规则; 最小支持度

频繁项集挖掘是数据挖掘的一个主要分支,是很多数据分析的基础内容[1].随着多层实时网络的大规模应用,如何从数据流中实现频繁项集的挖掘引起了人们越来越多的关注.与静态数据不同的是,加密数据流是一组随着时间的推移连续不断产生的加密数据序列.由于其具有连续性、数据量大、保密级别高等性质,导致其中的数据难以完整储存,只能在数据流入时进行扫描处理[2],使得普通的数据挖掘算法无法直接应用.

对此,国内外相关研究学者们提出了一些数据流频繁项集挖掘方法.茹蓓等[3]提出了一种基于改进FPTree的高效实时数据流完全频繁项集挖掘方法.使用改进的FPTree表示数据流中的所有数据,并建立完整的数据基树,利用字母顺序实现基树的插入与删除操作,再利用分组Tree结构对基树进行由上而下的遍历,通过较低的计算成本实现完全频繁项集的挖掘.马力[4]提出了一种基于预裁剪的不确定数据流频繁项集挖掘方法,并通过Prep-UF-Streaming算法过滤出非频繁项集,缩减挖掘时间.朱付保等[5]提出一种基于MapReduce的数据流频繁项集挖掘方法,对数据进行分块压缩和传输,将频繁项的计算置于节点上,通过一次调度处理合并频繁项集.

通常加密数据流的传输受码间干扰的影响较大,如果不对干扰进行滤除,会影响后续的挖掘过程.上述方法虽在不同程度上完善了频繁项集的挖掘,但均缺少干扰滤除过程,导致挖掘输出效果不好、传输误码率偏高.基于此,本文设计一种新的基于集对分析的多层实时网络加密数据流频繁项集挖掘方法,在挖掘过程前利用自适应滤波器对码间干扰进行抑制,增加加密数据流频繁项集挖掘过程的抗干扰能力,降低传输误码率,且滤波效果好,使挖掘输出效果更加理想.

1 建模及干扰抑制

1.1 信道模型设计与分析

为了实现基于集对分析的多层实时网络加密大数据流频繁项集挖掘,构建多层实时网络加密数据流频繁项集的信道模型,本文结合信道结构进行控制.采用随机链路转发控制协议进行多层实时网络加密大数据流频繁项集传输的优化聚类处理,提取数据流频繁项集的关联特征量,对多层实时网络加密输出的大数据流频繁项集进行时间反转处理,以时间反转的尺度为挖掘窗口,对关联特征量进行卷积处理,实现大数据流频繁项集的配置.

对多层实时网络传输信息特征量进行自适应调制和模糊聚类处理,得到多层实时网络加密大数据流频繁项集挖掘的冲激响应为

(1)

式中:n为网络加密数据;N为网络加密数据量;τ为数据频繁项集;r(N)(τ)和r(N+1)(τ)为NN+1个加密数据的频繁项集模糊聚类函数;c(N)(τ)为N个加密数据的频繁项集自适应调制函数.

根据上述分析,构建多层实时网络加密数据流频繁项集的信道模型,如图1所示.

图1 信道模型
Fig.1 Channel model

根据信道模型,采用自适应判决反馈滤波方法进行多层实时网络加密大数据流频繁项集的输出跟踪识别.根据多层实时网络加密大数据流频繁项集的空频结构,在簇首节点中进行大数据流频繁项集集成处理[6],对数据流频繁项集输出频谱进行分块,构建的分块模型可描述为

(2)

式中:E(p)为输出频谱分块模型;γth为频繁项集输出频谱系数;σ为功率谱密度;hi为链路增益值;G为集成量.

通过对多层实时网络加密大数据流频繁项集进行分块匹配,在转发节点对数据流频繁项集进行链路设计,采用相关功率谱密度匹配方法,构建最佳博弈模型[7],得到信道传输功率谱密度为

(3)

式中,N(l)为网络加密数据链路.令pi(l+1)=0,采用窄带波束形成算法进行空时结构加权处理,提取空时结构特征量,以此得到数据信息融合的全局性寻优返回值为pi(l+1)=min(pmaxΩi(l+1)),将大数据流频繁项集输入到缓冲器中,得到多层实时网络加密大数据流频繁项集的链路增益值hihmin(l)且Ωi(l)>0.根据上述分析,将加权输出信号合成,构建多层实时网络加密大数据流频繁项集传输信道模型,对数据流频繁项集进行挖掘.

1.2 加密数据流频繁项集传输的滤波处理和干扰抑制

在传输信道模型中,需要在大规模MIMO信道的近场源中提取数据流频繁项集的平均集对特征量[8],采用IIR滤波器进行码间干扰滤波.

提取多层实时网络加密大数据流频繁项集存储链路层中的实信号特征量x(t),定义多层实时网络加密大数据流频繁项集输出的斜度和峰度分别为

Sx=E[x3(t)]

(4)

Kx=E[x4(t)]-3E2[x2(t)]

(5)

式中,E[x2(t)]、E[x3(t)]和E[x4(t)]分别为链路层不同数量实信号特征输出频谱分块模型.

利用DFT将接收的多层实时网络加密数据进行自适应加权学习,将频域信号变换成时域信号[9],得到每个子带中多层实时网络加密的波束旁瓣权值为

(6)

式中:at(θ0)为经过变换后所得到的时域信号参数集;C=(c1c2,…,cg)为各个信源的调制参数;为信号调制函数.此时利用迭代最小二乘法对多层实时网络加密数据流频繁项集进行空间加权处理,即

(7)

式中:ncj为数据迭代系数;为空间加权系数;∂vi为不同子带的数据加密系数.

计算多层实时网络加密波束旁瓣的冲激响应特征量,采用波束赋形方法提取多层实时网络加密大数据流频繁项集的相关功率谱[10],得到多层实时网络加密大数据流频繁项集的干扰滤波输出描述为

(8)

式中:ASM为每个子带数据流频繁项集的加权输出幅值;ρSM为输入缓冲器结构中多层实时网络加密数据流频繁项集的自适应调节参数;DSM为不等式约束条件.采用滑窗处理器进行滤波处理,得到发射数据流频繁项集包,多层实时网络路由终端进行大数据流频繁项集控制的时间窗口描述为

Tc=ent(Tf/Nc)

(9)

式中:Nc为大数据流频繁项集终端数量;Tf为频繁项集控制时间.

采用自适应滤波器实现对多层实时网络加密大数据流频繁项集的码间干扰抑制,利用Ns表示宽带波束赋形的码元个数,计算多层实时网络加密大数据流频繁项集波束旁瓣的码元数量,即

f(θ)=Q+(θ)Tc

(10)

式中,Q+(θ)为宽带波束函数.令当多层实时网络加密大数据流频繁项集的传输码元速率Rb小于QPSK调制速率时,对主瓣进行展宽处理,得到多层实时网络加密大数据流频繁项集的时频联合分布特征为

(11)

通过相关功率谱调制,实现对多层实时网络加密数据流频繁项集传输的滤波处理和干扰抑制[11].

2 挖掘方法设计

2.1 加密大数据流频繁项集的码间干扰输出

在上述构建模型与抗干扰设计的基础上,对经干扰抑制的加密大数据流频繁项集进行集对分析,通过提取多层实时网络加密大数据流频繁项集的平均集对特征量[12],得到多层实时网络加密大数据流频繁项集并行挖掘的期望输入和测量误差分别为

(12)

式中:为加密大数据流的并行特征;μ为误差系数.

针对多层实时网络加密大数据流频繁项集的集对簇,对加密序列x的值减1,对空频结构权值进行IDFT处理,调整迭代步长,如果x=0,更新多层实时网络加密大数据流频繁项集的抽头延迟[13],通过集对特征值形成零陷以抑制强转发干扰,其迭代函数为

(13)

基于散射簇的有效概率分析方法进行多层实时网络加密大数据流频繁项集挖掘的集对分析和三维空间散射簇建模[14],平均集对特征量的调节因子计算公式为

(14)

可见,通过多层实时网络加密大数据流频繁项集的集对分析,可以提高多层实时网络加密大数据流频繁项集挖掘能力[15].

实现数据流频繁项集集对分析,多层实时网络加密大数据流频繁项集的码间干扰输出为

(15)

式中:αl为码间干扰量;l为编码数;L为编码数最大值.

2.2 挖掘函数优化

采用波束赋形方法得到多层实时网络加密大数据流频繁项集挖掘的边界条件为

Yβ=ph(t)(mi+mj)

(16)

对于阵列加权输出特征块mimj,得到控制波束旁瓣的关联规则量为mij(1≤in,1≤jk),关联规则的确定时常伴随着最小支持度的选取问题,挖掘关联规则时,最小支持度用来对搜索空间进行简化处理,并控制规则的产生数量.在加密数据流频度相差很多的情况下,若将最小支持度设置得过高,则频度较小的数据就可能会丢失;若将最小支持度设置得过低,则有可能会产生过多的冗余关联规则.本文通过调整支持度阈值的方法选取出最佳的最小支持度,即

(17)

式中,为支持度阈值.空域维导向矢量和时域维导向矢量之间的匹配程度为

(18)

式中,为空域维导向矢量和时域维导向矢量关联函数.

在大规模MIMO信道的近场源中提取多层实时网络加密大数据流频繁项集的平均集对特征量,得到多层实时网络加密大数据流频繁项集挖掘尺度特征为

(19)

式中:o(ij)为多层实时网络挖掘尺度约束值;oij为频繁项集尺度值.

对于每个时帧A上,得到多层实时网络加密输出通道的空频结构权值为

W=w1Z+w2D+w3M

(20)

式中:wi为阵元间距;Z为子带中心频率;D为挖掘时间尺度;M为线性约束参量.结合多尺度调节方法,在多层实时网络加密输出通道中采用空频结构与空时结构权值转换方法实现多层实时网络加密大数据流频繁项集集对分析和挖掘,优化的挖掘函数为

(21)

当码元周期大于时间延迟时,多层实时网络加密大数据流频繁项集挖掘满足收敛条件.

3 仿真实验分析

为了测试本文方法在实现多层实时网络加密大数据流频繁项集挖掘中的应用性能,进行了实验分析.实验采用Matlab设计,多层实时网络加密采样的数据流频繁项集长度为5 000,中心频率为5 GHz,结构波束权值为1.25,波束指向为0,噪声增益为-12 dB,期望响应为1.56,均衡系数为2.15,根据上述仿真环境和参数设定,进行多层实时网络加密大数据流频繁项集挖掘.

测试通过加密大数据流频繁项集挖掘输出码元的误码率,得到对比结果如图2所示.分析图2可知,采用本文方法进行集对分析时,多层实时网络加密大数据流频繁项集输出的误码率较低,提高了输出的稳定性.

图2 输出误码率对比
Fig.2 Comparison of transmission BER

对比不同支持度下挖掘大数据流频繁项集数目,本次实验与上述实验参数一致,表1给出了相应的实验结果.

表1 不同支持度下挖掘大数据流频繁项集数目
Tab.1 Number of frequent item sets for mining big datastream under different support degrees

方法支持度10-310-210-1100本文方法2079899862321文献[3]1911499452300文献[4]1855435411261

由表1可以看出,本文方法与其他两种方法产生的频繁项集数目均有较大差距.这一结果从某种意义上说明,本文方法具有较高的精确度,因此,本文设计的改进方法对数据流挖掘是可行的.为了进一步验证改进挖掘方法的挖掘输出效果,在不同支持度下对不同方法的运行时间进行对比,如图3所示.

图3 不同支持度下不同方法运行时间对比
Fig.3 Comparison of running time with various methods under different support degrees

由图3可以看出,在不同支持度下,改进挖掘方法的运行时间较少,且处于相对平稳的状态,不随支持度的变化而发生过大改变.其他两种方法运行时间或变化速率较大,或始终处于较长耗时状态,因而本文方法对于数据挖掘的时间更短,效果更好.主要原因在于本文在完善了频繁项集挖掘的基础上,增加干扰滤除过程,导致挖掘输出效果较好,传输误码率较低,节省了挖掘时间.

为进一步验证本文方法的有效性,对本文方法的数据流频繁项集干扰滤波效果进行分析.根据式(8)可知,数据流频繁项集干扰滤波效果与ASM呈正相关关系,需要注意的是,当ASM的取值低于1.0时,ASM与滤波结果呈负相关关系;当ASM的取值低于1.0时,ASM与滤波结果呈正相关关系.本次实验分析中,主要通过对ASM的对比分析来验证本文方法的滤波效果,结果如图4所示.

图4 不同方法的频繁项集滤波效果对比
Fig.4 Comparison of filtering effect for frequent item sets with different methods

分析图4可以看出,本文方法进行数据流频繁项集干扰滤波中,加权输出幅值的变化较为稳定,且在1.0以上,而文献[4]和文献[3]两种方法的加权输出幅值较低,文献[4]方法的输出幅值在0.5~1.0之间,滤波效果相对较好,而文献[3]方法的加权输出幅值始终在1.0以下,表明其滤波效果不佳.

4 结 论

在多层实时网络加密大数据流频繁项集挖掘中,受到码间干扰以及多径特征的影响,导致挖掘输出效果不好,本文设计改进方法实现多层实时网络加密大数据流频繁项集集对分析和挖掘.实验研究可知,本文方法能有效实现多层实时网络加密大数据流频繁项集挖掘,传输误码率较低,数据挖掘过程耗时较少,滤波效果好,整体性能优越.

参考文献References

[1]马婷婷,佟首峰,南航,等.信号光偏振特性对空间相干探测混频效率的影响 [J].激光与光电子进展,2017,54(2):104-110.

(MA Ting-ting,TONG Shou-feng,NAN Hang,et al.Effect of signal light polarization on mixing efficiency of spatial coherent detection [J].Progress in Laser and Optoelectronics,2017,54(2):104-110.)

[2]陈素华.探究光通信中DOPSK信号的解调与传输性能 [J].激光杂志,2016,36(9):115-117.

(CHEN Su-hua.To explore the demodulation and transmission performance of DOPSK signal in optical communication [J].Laser Magazine,2016,36(9):115-117.)

[3]茹蓓,贺新征.高效的数据流完全频繁项集挖掘算法 [J].计算机工程与设计,2017,38(10):2759-2766.

(RU Bei,HE Xin-zheng.Efficient algorithm for mining full frequent itemsets in data streams [J].Computer Engineering and Design,2017,38(10):2759-2766.)

[4]马力.一种基于预裁剪的不确定数据流频繁项集挖掘算法 [J].科学技术与工程,2016,16(23):229-233.

(MA Li.An algorithm for mining frequent itemsets in uncertain data streams based on precutting [J].Science,Technology and Engineering,2016,16(23):229-233.)

[5]朱付保,白庆春,汤萌萌,等.基于MapReduce的数据流频繁项集挖掘算法 [J].华中师范大学学报(自然科学版),2017,51(4):429-434.

(ZHU Fu-bao,BAI Qing-chun,TANG Meng-meng,et al.Algorithm for mining frequent itemsets in data streams based on MapReduce [J].Journal of Central China Normal University(Natural Sciences),2017,51(4):429-434.)

[6]于粉娟.基于多元异构网络安全数据的可视化融合分析方法研究 [J].自动化与仪器仪表,2018(7):22-25.

(YU Fen-juan.Research on visual fusion analysis method based on multivariate heterogeneous network security data [J].Automation and Instrumentation,2018(7):22-25.)

[7]张新琳,张锐.多目标跟踪中基于结构化学习的目标身份感知网络流量技术研究 [J].中国电子科学研究院学报,2018,13(3):284-290.

(ZHANG Xin-lin,ZHANG Rui.Research on target identity-aware network traffic technology based on structured learning in multi-target tracking [J].Journal of China Institute of Electronic Science,2018,13(3):284-290.)

[8]田星星,李征,李利明.计及微电网并离网两种工况的储能容量优化配置 [J].电源学报,2018,16(4):62-70.

(TIAN Xing-xing,LI Zheng,LI Li-ming.Optimal allocation of energy storage capacity taking into account the two working conditions of microgrid and off-grid [J].Journal of Power Supply,2018,16(4):62-70.)

[9]Bertlein S,Brown G,Lim K S,et al.Thiol-ene clickable gelatin:a platform bioink for multiple 3D biofabrication technologies [J].Advanced Materials,2017,29(44):1-6.

[10]费贤举,李虹,田国忠.基于特征加权理论的数据聚类算法 [J].沈阳工业大学学报,2018,40(1):77-81.

(FEI Xian-ju,LI Hong,TIAN Guo-zhong.Data clustering algorithm based on feature weighting theory [J].Journal of Shenyang University of Technology,2018,40(1):77-81.)

[11]冯忠慧,尹绍宏.数据流中闭频繁项集的并行挖掘算法 [J].软件工程,2018,21(8):10-14.

(FENG Zhong-hui,YIN Shao-hong.Parallel mining algorithm for closed frequent itemsets in data streams [J].Software Engineering,2018,21(8):10-14.)

[12]刘文,徐科军,乐静,等.科氏流量计幅值控制中两类关键参数的确定 [J].电子测量与仪器学报,2018,32(10):183-189.

(LIU Wen,XU Ke-jun,LE Jing,et al.Determination of two kinds of key parameters in Coriolis flowmeter amplitude control [J].Journal of Electronic Measurement and Instruments,2018,32(10):183-189.)

[13]王红梅,李芬田,王泽儒.基于滑动窗口数据流频繁项集挖掘模型综述 [J].长春工业大学学报,2017,38(5):484-490.

(WANG Hong-mei,LI Fen-tian,WANG Ze-ru.Summary of frequent itemsets mining models based on sliding window data streams [J].Journal of Changchun University of Technology,2017,38(5):484-490.)

[14]苏日建,孟得光,李思,等.基于LabVIEW的直流磁场发生装置的设计 [J].微型机与应用,2017,36(7):78-80.

(SU Ri-jian,MENG De-guang,LI Si,et al.Design of DC magnetic field generator based on LabVIEW [J].Microcomputers and Applications,2017,36(7):78-80.)

[15]王谦.基于网络流量异常检测的电网工控系统安全监测技术 [J].网络安全技术与应用,2017(10):129-147.

(WANG Qian.Safety monitoring technology of power network industrial control system based on network traffic anomaly detection [J].Network Security Technology and Application,2017(10):129-147.)

Mining method for frequent item sets of encrypted data stream in multi-layer real-time network

CAI Zhong-min

(Information Engineering College, Henan University of Animal Husbandry and Economy, Zhengzhou 450044, China)

Abstract In order to solve the problem that the frequent item sets of encrypted data stream in multi-layer real-time network are often subjected to inter-symbol interference, while the existing mining methods lack the interference suppression, resulting in poor mining output effect, high transmission bit error rate (BER) and poor filtering effect, a mining method based on set pair analysis was proposed. A transmission channel model for the frequent item sets was constructed, the clustering design and tracking recognition for the output of frequent item sets were carried out, and the integration treatment of frequent item sets was completed at the cluster head nodes according to space-frequency structure. The feature quantity of average set pairs of frequent item sets was extracted from near-field sources, and the inter-symbol interference was suppressed by an adaptive filter. The set pair analysis was carried out for the frequent item sets of encrypted large data streams with suppressed interference, the feature quantity of average set pairs of frequent item sets was extracted, and the mining function was optimized. The results show that the as-proposed method has strong anti-interference ability, low transmission BER and good filtering effect.

Key words set pair analysis; multi-layer real-time network; encrypted data stream; frequent item set; mining; interference filtering; association rule; minimum support degree

收稿日期 2019-04-26.

基金项目 河南省科技厅公关项目(172102310554).

作者简介 蔡中民(1976-),男,河南商丘人,副教授,硕士,主要从事计算机网络等方面的研究.

*本文已于2020-10-20 10∶11在中国知网优先数字出版. 网络出版地址: http:∥kns.cnki.net/kcms/detail/21.1189.T.20210421.1352.022.html

doi:10.7688/j.issn.1000-1646.2021.03.11

中图分类号: TN 911.7

文献标志码: A

文章编号: 1000-1646(2021)03-0301-06

(责任编辑:钟 媛 英文审校:尹淑英)