大数据下监控网络混合入侵信息检索仿真*

何保荣

(河南牧业经济学院 软件学院,郑州 450046)

摘 要:针对传统的监控入侵信息检索方法存在检索精度低、召回率高、检索耗时长等问题,提出一种大数据下监控网络混合入侵信息检索方法.采用遗传算法对特征集进行优化选择,引入偏F检验对选择最优子集,组成优化特征集,并构建冗余信息消除模型,消除混合入侵信息中的冗余信息.以信息检索理论为依据,引用LDA模型对文档的话题进行建模,构建入侵信息检索模型,完成大数据下监控网络混合入侵信息检索.结果表明,所提方法的检索精度较高,能够有效提高入侵信息检索效率,降低检索耗时,且召回率平均值约为24%,优于其他方法,具有一定可行性.

关键词:大数据;监控网络;混合入侵信息;冗余;检索;特征集;LDA模型;召回率

计算机、互联网技术的飞速发展促使各种类型的数据也在不断增长,大数据时代正在到来.数据已经从初始阶段的简单处理变为一种基础性资源[1],如何能够更好地管理这些数据已经成为当前关注的热点话题.在对上述数据进行管理的过程中,如果数据受到入侵,将造成巨大的损失,信息系统的入侵信息检索已经成为人们关注的焦点.百度、谷歌等检索浏览器的发展使得搜索工具门槛降低[2],而非专业的工作人员在进行信息搜索时存在安全意识不足问题,难以避免恶意入侵带来的干扰[3],所以,需要研究一种新的入侵信息检索方法,保证人们日常搜索和应用数据过程中的数据安全.

目前,国内外已有学者进行了相关研究,例如文献[4]提出一种基于反馈算法的监控网络混合入侵信息检索方法,引用反馈算法计算入侵数据复杂度,并按照最小经验损失进行排序,获取入侵数据特征,实现网络入侵数据检索,但该方法的检索精度较低;文献[5]提出一种基于云环境下的监控网络混合入侵信息检索方法,该方法通过构建安全索引,完成入侵数据搜索功能,实现监控网络混合入侵信息检索,但该方法的检索耗时较高.针对上述方法存在的问题,提出了一种基于大数据的监控网络混合入侵信息检索方法.

1 混合入侵信息冗余消除处理

1.1 特征集寻优选择

入侵特征选择是指选择一个有效的属性子集,用来描述一个较大的含有多余以及不相关属性数据的有效数据集模式,并且规定在有效的时间内,可以在设定的范围内找到最小的、描述能力最强的入侵特征子集,使选择的每一个子集不是多余或者是不相关的[6].

遗传算法是一种以自然选择理论为基础,将生物进化过程中适者生存规则以及群体内部染色体的随机信息交换机制相结合的高效寻优搜索方法,并且搜索范围较广,具有较强的鲁棒性[7].本章节利用遗传算法对入侵特征进行寻优.

在进行入侵信息检索过程中,将任意一个入侵特征选择的问题设定为二值问题,引用二进制一维编码,不同染色体对应相应的入侵特征集.假设M为入侵特征总数,则染色体是一个长度分别为ab的0、1字串,不同的字串对应不同的入侵特征.

B(x)为个体x中包括的特征对应攻击信息,假设该取值大于设定阈值εi的特征占比为eN(x),且有效入侵特征集为L′,则判断个体中含有的优良基因越多,对应入侵特征被选中的可能性也就越大,适应度函数S(x)可表示为

(1)

每个个体中特征所含有的信息量为H(x),假设该值大于设定阈值εi的特征占比为p(εi),则将其作为选择概率.

载入入侵信息特征集,设定初始参数r的表达式为

(2)

建立初始种群中染色体节点c的表达式为

(3)

选取适应度函数值最大的前n个个体组成集合G,并利用遗传算法对入侵特征集进行优化,获取最优入侵特征子集为

(4)

1.2 冗余信息消除模型构建

本文采用遗传算法对特征集进行优化选择,选取最优入侵特征子集构建入侵信息消除模型,将信息集中无效的、多余的信息进行删除[8].具体过程如下:

设定特征值v中含有攻击信息数量为vivi出现的概率为p(vi),则有

(5)

式中:T为特征v的信息熵;I为数据源.

针对于特征vu,则有

(6)

式中:p(viuj)为取值的联合概率;p(uj)为取值uj出现概率.

判断一个新的特征变量是否有必要进入模型或某个特征变量是否可以从模型中删除,需要利用偏F检验的方法,根据其显著性进行判断,根据判别的结果能够获取入侵特征集[9].假设有m个自变量x1x2,…,xmβi表示变量系数,引用m的冗余信息消除模型表示为

(7)

2 混合入侵信息检索模型

2.1 信息检索理论

入侵检测属于分类问题,将网络中的正常数据流与异常数据流区分开来,将用户操作与黑客操作区分开来.入侵检测技术可以分为两类,分别是特征检测以及异常检测,特征检测主要用于网络中已存在入侵信息的情况,而异常检测则是主要分析当前网络信息,一旦网络信息出现异常,即将其当做入侵信号进行处理,将该活动判别为“入侵行为”.信息集合主要是数据集合体,是一种公共知识结构,可以对知识结构缺陷进行弥补.匹配与选择的主要作用是比较信息集合与需求集合,按照相应选择标准找到符合要求的信息[10].

入侵检测系统在处理海量数据时实时性以及灵敏度较差,针对此问题,本文采用默认推理逻辑予以解决.对于证据不充分的入侵数据,结合默认推理逻辑的入侵检测技术可以对入侵行为进行准确判断,使检测速度以及精确度都得到较大提高.该检测方法既可以实时了解网络系统的变更,还可以制定网络安全策略,更重要的一点是管理以及配置简单,可以使非专业人员较为容易获得安全的网络资源.入侵检测的规模要根据网络威胁、系统构造以及安全需求的改变而改变,入侵系统在发现入侵后,要及时做出响应,包括切断网络连接、记录事件以及报警等.

2.2 入侵信息检索模型构建

引用LDA模型作为基础构建入侵信息检索框架,基于检测框架以及LDA模型共同构建入侵信息检索模型.

召回率也叫查全率,是检索出的相关文档数和文档库中所有的相关文档数的比率.入侵信息检索框架是由N个文档构成,其中文档一共含有K个话题.引用LDA模型建立不同话题与不同文档间的关系,则话题与文档的连线代表该文档属于相应话题的概率.在用户输入关键字进行查询的时候,需要在话题集合中选择带有关键字的话题,并对选取的话题查找包含相应文件的概率.通过文档与入侵信息之间的概率关系对返回的文档进行排序,具体过程如下:

在构建LDA模型中,所引用的话题组合主要来自于Dirichlet相关知识,这些知识在所有的文档中是一样的.设定参数f为概率分布,z为话题数量,N为文档数量,则多项式分布可表示为

(8)

文档d选择多项式分布概率为

(9)

将文档中所有的单词标记为w,在引用语言模型进行信息检索时,通过各个文档模型计算查询项Q的概率为

(10)

式中:D为不同类型的文档数;q为查询分项;p(qD)为文档中含有查询项的概率.如果查询项是独立的个体,则有

(11)

式中:p(w|D)为入侵信息检索评价信息;pML(w|D)为入侵信息w在文档中的最大似然估计;μ为先验知识;Nd为个体信息量.

在上述基础上,对文档进行建模.与传统的检索模型相比,本文提出了一种新型的文档建模模型,利用该模型与初始文档、LDA模型进行线性组合.此外,算法的复杂性是设计信息检索模型必须考虑的重点.在进行扫描或者迭代过程中,所提方法的运行时间与文档的个数呈正比.为了减少算法的运行时间,将式(11)简化为

(12)

然后对入侵信息进行检索,可描述为

(13)

3 实验结果与分析

为了验证所提基于大数据的监控网络混合入侵信息检索方法的综合有效性,采用实验进行分析.实验电脑配置环境为:处理器Inter(R)Core(TM)2Duo2.8GHzPC,内存2 Gbit,操作系统为Windows7,编程语言为C#,采用数据库SQL Server2000中的入侵信息.信息总量6 000个,其中包含5 000个正常数据和1 000个入侵异常数据,共划分为6组样本数据,每组样本含有1 000个数据.具体参数设置如表1所示.

表1 参数设置
Tab.1 Parameter setting

入侵信息空间维度信息消除次数检索时间间隔/s入侵信息误差/%信息总量阈值文档查询概率4~91000大于0.5小于2.5600030~400.5~1.0

根据参数设置,将检索精度η作为实验指标,设定J表示检索出的入侵数据量;Z表示总入侵数据量,则检索精度η的计算公式为

(14)

在混合入侵信息数量一定的情况下,将本文方法与基于反馈算法的监控网络混合入侵信息检索方法、基于云环境下的监控网络混合入侵信息检索方法的检索精度进行对比分析,对比结果如图1所示.

图1 检索精度对比
Fig.1 Comparison of retrieval precision

由图1可知,随着检索信息量的不断增加,不同方法的检索精度也在不断发生变化.在进行大规模入侵数据检索时,所提基于大数据的监控网络混合入侵信息检索方法的检索精度随着检索信息量的增加而增加,最高的检索精度接近94%;由于冗余信息的干扰,基于反馈算法的监控网络混合入侵信息检索方法与基于云环境下的监控网络混合入侵信息检索方法虽整体呈现上升趋势,但这两种方法的最大检索精度不超过40%.通过实验数据对比可知,所提基于大数据的监控网络混合入侵信息检索方法的检索精度较高,很大程度提升了入侵信息检索性能.

为了验证本文方法的有效性,本文针对三种算法的的召回率进行对比分析,对比结果如图2所示.

图2 召回率对比
Fig.2 Comparison of recall rates

由图2可知,在2~4 s中,本文方法的召回率较基于反馈算法的监控网络混合入侵信息检索方法高,但是在4 s之后,本文方法的召回率呈现下降趋势,而其他两种方法的召回率均呈现上升趋势,上升幅度较大.本文方法的召回率平均值约为24%,远低于其他两种方法,表明本文方法的检索性能较好.

为进一步验证本文方法的优越性,分别对比了3种检索方法的耗时,对比结果如表2所示.在表2中,AF代表所提基于大数据的监控网络混合入侵信息检索方法,BF代表基于反馈算法的监控网络混合入侵信息检索方法,CF代表基于云环境下的监控网络混合入侵信息检索方法,t代表检索耗时.

表2 检索耗时对比
Tab.2 Comparison of retrieval time

信息数量检索方法t/s30006000AF3.8BF8.5CF8.1AF3.9BF8.7CF8.9

分析表2可知,不同检索方法的检索耗时存在较大差距,所提基于大数据的监控网络混合入侵信息检索方法的耗时较低,且随着信息量的增加,检索耗时变化较小.而其他两种入侵信息检索方法的耗时随着信息数量的增加而增加,最大耗时与所提方法的耗时相差了4 s以上.所提基于大数据的监控网络混合入侵信息检索方法的检索耗时较短,能够快速检索监控网络下的入侵信息.

4 结 论

针对传统网络混合入侵信息检索方法存在的一系列问题,本文提出了一种基于大数据的监控网络混合入侵信息检索方法.首先利用特征集寻优选择,消除冗余信息,提取大数据中入侵信息的特征,然后将LDA模型与联合模型结合,利用最优引用组合模型实现入侵数据的检索.利用该模型与其他两种模型实验结果对比表明,所提方法检索精度较高,检索耗时短,能够提高检索效率,可以更加准确地进行入侵数据检索.

参考文献(References):

[1] 吴永亮,陈建平,贾志杰,等.地质数据本体构建及其在数据检索中的应用 [J].地质通报,2018,37(5):945-953.

(WU Yong-liang,CHEN Jian-ping,JIA Zhi-jie,et al.Geological data ontology construction and its application in data retrieval [J].Geological Bulletin of China,2018,37(5):945-953.)

[2] 王东旭,诸云强,潘鹏,等.地理数据空间本体构建及其在数据检索中的应用 [J].地球信息科学学报,2016,18(4):443-452.

(WANG Dong-xu,ZHU Yun-qiang,PAN Peng,et al.Construction of geodata spatial ontology and its appli-cation in data retrieval [J].Journal of Geo-Information Science,2016,18(4):443-452.)

[3] 杜朝晖,朱文耀.云存储中利用属性基加密技术的安全数据检索方案 [J].计算机应用研究,2016,33(3):860-865.

(DU Zhao-hui,ZHU Wen-yao.Implementation of secure data retrieval schema in cloud storage by using ABE technology [J].Application Research of Computers,2016,33(3):860-865.)

[4] 陈松乐,孙正兴,张岩,等.一种运动数据检索的相关反馈算法 [J].电子学报,2016,44(4):868-872.

(CHEN Song-le,SUN Zheng-xing,ZHANG Yan,et al.A relevance feedback algorithm for motion data retrieval [J].Acta Electronica Sinica,2016,44(4):868-872.)

[5] 敖章衡,张应辉,郑东.适用于电子医疗环境下的数据检索方案 [J].计算机工程与设计,2017,38(7):1709-1713.

(AO Zhang-heng,ZHANG Ying-hui,ZHENG Dong.Data search scheme in e-health environment [J].Computer Engineering and Design,2017,38(7):1709-1713.)

[6] 夏栋梁,刘玉坤,鲁书喜.基于蚁群算法和改进 SSO 的混合网络入侵检测方法 [J].重庆邮电大学学报(自然科学版),2016,28(3):406-413.

(XIA Dong-liang,LIU Yu-kun,LU Shu-xi,et al.Hybrid network intrusion detection method based on ant colony algorithm and improved simplified swarm optimization [J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2016,28(3):406-413.)

[7] 楼凤丹,裴旭斌,王志强,等.基于云计算及大数据技术的电力搜索引擎技术研究 [J].电网与清洁能源,2016,32(12):86-92.

(LOU Feng-dan,PEI Xu-bin,WANG Zhi-qiang,et al.Research on power search engine technology based on cloud computing and big data technology [J].Grid and Clean Energy,2016,32(12):86-92.)

[8] 黄美东,谢维信,张鹏.云存储中加密数据的相似检索技术应用研究 [J].信号处理,2017,33(4):472-479.

(HUANG Mei-dong,XIE Wei-xin,ZHANG Peng.Research on application of similar retrieval technology for encrypted data in cloud storage [J].Signal Processing,2017,33(4):472-479.)

[9] 张兴旺,郑聪,黄婷婷.基于大数据的视觉搜索应用与组织模式研究 [J].情报理论与实践,2017,40(1):104-109.

(ZHANG Xing-wang,ZHENG Cong,HUANG Ting-ting.Study on visual search application and organization pattern based on big data [J].Information Theory and Practice,2017,40(1):104-109.)

[10] 邢文凯.基于云计算数据查询的安全索引构建方法 [J].沈阳工业大学学报,2018,40(2):198-202.

(XING Wen-kai.A secure index construction method based on cloud computing data query [J].Journal of Shenyang University of Technology,2018,40(2):198-202.)

Simulation on hybrid invading information retrieval of monitoring network under big data

HE Bao-rong

(Software College,Henan University of Animal Husbandry and Economy,Zhengzhou 450046,China)

AbstractAiming at the problems of low retrieval precision,high recall rate and long retrieval time by traditional invading information retrieval methods,a hybrid invading information retrieval method under the big data was proposed.The genetic algorithm was used to optimize feature set;partial F test was introduced to select optimal subset and form the optimal feature set.In addition,the redundant information eliminating model was constructed to eliminate redundant information within hybrid invading information.Based on information retrieval theory,the LDA model was adopted for the modeling of document topic;the invading information retrieval model was constructed to complete the hybrid invading information retrieval of monitoring network under the big data.The results show that the as-proposed method has high retrieval precision,and can effectively improve the retrieval efficiency of invading information and reduce the retrieval time.The average recall rate is about 24%,superior to those obtained with other methods and proving its certain feasibility.

Key wordsbig data;monitoring network;hybrid invading information;redundancy;retrieval;feature set;LDA model;recall rate

中图分类号:TP 393

文献标志码:A

文章编号:1000-1646(2019)06-0654-05

收稿日期2018-07-14.

基金项目河南省科技攻关计划项目(142102210607);河南省高等学校重点科研项目(15A520002).

作者简介何保荣(1965-),女,河南郑州人,副教授,硕士,主要从事计算机软件开发、计算机应用等方面的研究.

** 本文已于2019-10-28 17∶20在中国知网优先数字出版.

网络出版地址:http:∥kns.cnki.net/kcms/detail/21.1189.T.20191028.1400.036.html

doi:10.7688/j.issn.1000-1646.2019.06.11

(责任编辑:景 勇 英文审校:尹淑英)