信息科学与工程

网络数据中心IT设备人工智能化运维应用

张华兵1,2, 周英耀2, 徐 磊2, 石宏宇2, 孙 滨3

(1. 北京大学 信息科学技术学院, 北京 100871; 2. 南方电网 数字电网研究院有限公司, 广州 510663;3. 郑州工业应用技术学院 信息工程学院, 郑州 451150)

摘 要: 现有智能化运维应用在测试过程中抗噪声能力差、测试精度低、稳定性差,并且花费时间较长,影响测试效果,因此对网络数据中心IT设备人工智能化运维应用进行研究.通过VRNN算法定位网络数据中心IT设备中的异常数据,结合可量化的安全评估模型进行人工智能化的运维应用测试.通过实验能够证明,提出方法的抗噪声能力较好,测试精度最高能够达到92%以上,测试过程μzt值可达到0.39,稳定性较好,并且测试所需时间短,最快在60 s可以完成3 000个数据的测试,说明提出方法具有较好的实用性.

关 键 词: 网络数据; 网络测试; 运维应用; 异常数据; 抗噪声能力; 测试精度; 安全性能; VRNN模型

近年来,智能网络领域的技术水平发展迅速,网络已经走进千家万户[1].随着网络的不断推广使用,网络故障产生较为频繁,这就需要网络数据中的IT设备对其进行人工智能化的运维应用,所以要寻找一种更加高效的网络运维应用新方法[2].

曾治安等[3]采用移动互联网技术对继电保护设备运维进行分析,该运维方法主要以智能运维平台为核心,智能分析实施检测数据和全过程业务数据,实现设备的在线监测、缺陷故障告警及核心运维业务的全过程管控.蒲天骄等[4]指出了人工智能关键技术框架及各类算法的应用特点和范围,总结了各类典型运维场景中的人工智能应用进展与困难,并提出了解决思路.郭江博等[5]以通用技术架构模型、视图和控制器为基础,结合微信小程序,用Php语言设计开发了基于云服务的医院IT运维平台,通过此平台可实现工单报修、巡检、监控、报警及知识管理等功能,缩短维修响应时间,但存在稳定性验证不全的问题.为解决并改进上述运维数据应用测试方法中存在的问题,本文进行了网络数据中心IT设备人工智能化运维应用测试研究.

1 异常数据定位

本文将VRNN算法以及分层剪枝策略相结合,对网络中心IT设备的异常数据进行定位.

1.1 训练模型

本文以VRNN为基础模型,将深度生成模型与长短期记忆网络相结合提出新的模型结构,并对其进行训练.由于该模型是VAE与长短期记忆网络结合的产物,所以在网络数据中心,每一时刻t都包含着自编码网络单元,该单元依赖于长短期记忆网络中时刻状态变量[6],因此在构建VRNN模型时需全面考虑序列数据的时间依赖.

设定网络中心IT设备的输入数据为x,由于网络数据中心IT设备的检测指标为每一时刻t的标量,所以需要使用滑动窗口技术[7],将t时刻的输入数据x转化为长度W矢量表现形式,即W=(xt-W+1xt-W,…,xt).

在VRNN模型中,将隐变量z设定为正态先验分布,ht-1表示基于长短期记忆网络的隐藏状态,对神经网络进行必要的映射变换[8].linear表示线性变换函数,relu以及softplus表示非线性激活函数.神经网络的隐藏层状态为ht-1.神经网络需要使用线性单元对非线性激活函数进行表示[9],即

(1)

网络序列的上一时刻隐藏状态ht-1可由非线性的映射获取,为规避网络中经常出现的梯度消失问题,利用relu激活函数对其进行线性变换[10].通过线性的变换函数获取隐变量zt的分布均值μzt,最后通过对ht-1的线性变换以及非线性激活函数映射,获取隐变量zt的标准差σzt.

过程中隐变量zt的先验分布参数设定表达式为

(2)

式中:φ为神经网络的神经元;NI为两个隐变量之间的中间数和系数.由于网络数据中心的局部变化较小,所以经过计算的σZ值可能会趋近于0,从而导致log2σz值接近负无穷,所以在对高斯变量的似然性进行计算时,会产生数值问题[11],因此要对网络的后验状态以及模型分布进行方差计算.

1.2 获取参数分布

在VRNN的重构过程中,需要依赖于隐变量zt以及网络的隐藏状态ht-1.设定重建的VRNN模型数据为xt,且服从高斯分布.首先要对隐变量zt的后验分布进行数据采集,并将采集的数据进行映射变换处理[12],从而获取重建xt的分布参数,整个过程计算表达式为

(3)

式中:为重构xt时高斯分布的均值和标准差;*为卷积运算;为第i层的第j个卷积核参数;为偏置参数;为提取的隐变量数据特征.

基于线性单元、非线性的激活函数relu以及softplus对进行表示,即

(4)

式中:ε为分布的采样数据;zt为上一刻隐藏变量.基于式(4)对隐变量zt的后验分布数据进行采集,并利用模型中梯度下降法对采集的数据进行训练[13].在长短期记忆的解码网络中,需要经过两次的非线性映射将采集的zt进行变换,获取的均值最后通过变量的线性变换以及softplus的映射获取重建的标准差

基于VRNN模块的隐藏状态对时刻状态变量ht进行计算,计算表达式为

(5)

式中,fθ为长短期记忆网络中神经元激活函数.在对VRNN隐藏层状态以及ht-1更新过程中,需要利用输入变量xt以及隐变量zt对其进行计算.通过编码网络对输入数据进行映射处理,学习网络数据中心后验分布逼近隐变量zt的真实分布,并让其服从高斯分布,过程计算表达式为

(6)

依据式(6)对输入数据进行非线性的映射处理[14],利用中间变量来保证编码网络的函数逼近能力,再对中间变量进行变换,获取隐变量zt的分布均值μzt,最后对经过变换的中间变量进行softplus函数映射处理,从而获取隐变量的后验分布标准差σzt.

1.3 异常数据剔除

基于上述VRNN模型训练效果,利用分层剪枝策略对网络中心IT设备运维应用中的异常数据进行定位搜索,实现异常数据的剔除.首先利用数据挖掘中的Apriori算法,设定网络数据中心IT设备的数据元素为e,中心的层数为ll+1层为网络中心元素的高潜在层,该网络中心的数据集为BSet(l).若高潜在层中的元素e分数较高,则可将该元素看作根本原因元素.若获取的l层元素不存在于BSet(l)中,要利用分层剪枝策略将获取的子集合进行修剪,从而缩减搜索空间,并对数据集中的异常数据进行定位、剔除,从而形成新的网络数据中心IT设备的数据集A.异常数据定位流程图如图1所示.

图1 异常数据定位流程
Fig.1 Flow chart of abnormal data location

2 网络测试方法设计

利用数据中心IT设备获取数据的安全类型指标,利用可量化的安全评估模型[15]对其进行运维应用测试.

2.1 安全类型指标

首先设定安全评估模型为P,且该模型是由各个安全段组合构成的P={P1P2,…,PN}.Pi包含了不同的安全指标.安全扫描引擎会对网络数据中心IT设备中的数据集合A={A1A2,…,AN}中各个数据的安全状态进行检测,扫描引擎的状态分析表达式为

S=[SijLijOij]

(7)

式中:Sij为安全数据检测的分数;Lij为安全的漏洞级别;Oij为数据的固定方式.Oij中,0为弱点数据,1为安全数据.

2.2 应用测试过程

将网络数据中心的IT设备数据集作为UP访问的数据集合,Pi对应于UPi,可将设备中的数据资源视图作为全局的数据资源视图的子集,获取实际的安全分数USij.依据数据的安全分数,采用“一票否决”的策略降低数据严重漏洞得分.在该项决策中,获取的关键检查项分数若低于设定阈值,则Lij为0,与之相关的USi也为0.

当进行网络数据中心IT设备漏洞修复时[16],安全修复引擎会依据Oij对设备中的漏洞进行修复,从而完成网络数据中心IT设备人工智能化的运维应用.

3 实验仿真

为了验证上述测试方法的整体有效性,对使用本文方法前后的异常数据定位时间进行测试.同时,将文献[3]、文献[4]、文献[5]方法与本文提出方法进行对比,分别针对信噪比、测试精度以及稳定性进行测试.本次仿真实验的操作系统为Windows 10,搭载i7处理器,计算机的内存为16 GB,硬盘存储空间为2 T,在MATLAB仿真平台进行实验.

3.1 异常数据定位前后测试时间对比与分析

在网络数据中心IT设备中随机选取3 000个数据,对比异常数据定位前后测试时间,测试结果如表1所示.

依据表1可知,异常数据进行定位前所需花费的检测时间要远远高于异常数定位后的测试时间,这主要是因为本文方法利用VRNN算法对网络数据中心IT设备中的异常数据进行了定位,并将其剔除数据集,在定位后可以缩减运维应用所需的测试时间.

表1 异常数据定位前后测试时间对比结果
Tab.1 Comparative results of test time before and after abnormal data location

数据数量异常数据定位测试时间/s定位前定位后1001125005012100010321200020543300030260

3.2 信噪比测试结果与分析

在进行运维应用测试时,容易受到噪声的影响,因此本文将4种方法在运维应用测试时的信噪比情况进行对比分析.在测试过程中,将噪声频谱扩展至100 MHz,选取3 000组的实验数据进行测试,信噪比值越高,说明抗噪声能力越好;信噪比值越低,说明抗噪声能力越低.测试结果如图2所示.

图2 不同方法的信噪比测试结果
Fig.2 Test results of signal to noise ratio with different methods

由图2可以看出,4种方法的信噪比随着测试数据的增加呈逐渐下降趋势.本文方法的信噪比值整体来看较为平稳,并且随着数据量的增加,可将信噪比稳定在110 dB以上.文献[3]方法在测试初期信噪比能略低于本文方法,但随着数据量的增加,信噪比呈快速下降趋势.文献[5]方法的信噪比是最差的,低于前3种方法,最后只能将信噪比值能控制在60 dB.

3.3 精度测试结果与分析

选取3 000组实验数据进行测试,在进行测试时有可能会受信号通道的影响,在设备数据中添加随机信号干扰源对4种方法的平均测试精度进行测试,测试结果如图3所示.

由图3可知,4种测试方法的平均测试精度均在80%以上,文献[5]和文献[4]方法在测试初期的平均测试精度不相上下,但是随着测试时间的增加,文献[4]的测试精度逐渐低于文献[5]的精度.本文方法在测试初期的测试平均精度浮动较大,但是随着测试时间的增加,所检测的平均测试精度也随之增加,波动逐渐趋向平稳,精度最高可达92%以上.

图3 不同方法的平均测试精度检测结果
Fig.3 Test results of average test accuracy with different methods

3.4 稳定性测试结果与分析

运维应用测试过程的稳定性受到μzt值的影响,μzt值越高,稳定性越好,说明测试的安全性越好.因此本文对4种方法在运维应用测试时的μzt值进行检测,检测结果如图4所示.

图4 不同方法运维应用测试时μzt
Fig.4 Test results of μzt value for operation and maintenance application with different methods

由图4可知,μzt值随着测试次数的增加呈下降的趋势.本文方法虽也处于下降趋势,但是其μzt值最低也未低于0.30,最高可达到0.39,相对来讲测试过程最稳定,安全性最好.文献[3]在测试初期的μzt值与本文方法的相接近,但随着测试次数的增加,文献[3]的μzt值呈急速下降的趋势.文献[5]的μzt值始终低于其他方法,说明该方法稳定性能最差.综上所述,本文方法的μzt值要高于其他方法,可达到0.39,证明本文方法的测试过程最稳定,安全性最好.

4 结 论

为了解决传统测试方法中存在的问题,本文提出网络数据中心IT设备人工智能化运维策略.首先利用VRNN算法对网络数据中心IT设备中的异常数据进行定位;再利用可量化的安全评估模型对其进行运维应用测试.对比实验证明,本文提出方法抗噪声性能较好,检测精度最高可达92%以上,μzt值能够达到0.39,稳定性较好,具有较高的实用性能.但所提方法对异常数据定位因素的研究不够充分,今后会针对这一问题继续对该方法进行优化处理.

参考文献(References):

[1] 王兴伟,李丹,苏金树,等.2019智能网络理论与关键技术专题前言 [J].计算机研究与发展,2019,56(5):907-908.

(WANG Xing-wei,LI Dan,SU Jin-shu,et al.2019 intelligent network theory and key technology as topic [J].Journal of Computer Research and Development,2019,56(5):907-908.)

[2] 韩颖,庄贵军,董滨.IT能力调节作用下网络交互媒介使用对企业间信息分享的影响研究 [J].管理学报,2019,16(11):1694-1702.

(HAN Ying,ZHUANG Gui-jun,DONG Bin.The impact of Internet interactive media on inter-organization information sharing with the moderation of IT capability [J].Chinese Journal of Management,2019,16(11):1694-1702.)

[3] 曾治安,姚树友,郑晓玲,等.基于移动互联网技术的继电保护设备智能运维管理模式探讨 [J].电力系统保护与控制,2019,47(16):80-86.

(ZENG Zhi-an,YAO Shu-you,ZHENG Xiao-ling,et al.Discussion on intelligent operation and maintenance management mode of relay protection equipment based on mobile Internet technology [J].Power System Protection and Control,2019,47(16):80-86.)

[4] 蒲天骄,乔骥,韩笑,等.人工智能技术在电力设备运维检修中的研究及应用 [J].高电压技术,2020,46(2):369-383.

(PU Tian-jiao,QIAO Ji,HAN Xiao,et al.Research and application of artificial intelligence in operation and maintenance for power equipment [J].High Voltage Engineering,2020,46(2):369-383.)

[5] 郭江博,蒋昆,徐家富,等.医院IT运维云服务平台的实现与应用 [J].中国医疗设备,2020,35(11):129-132.

(GUO Jiang-bo,JIANG Kun,XU Jia-fu,et al.Realization and application of hospital IT operation and maintenance cloud service platform [J].China Medical Devices,2020,35(11):129-132.)

[6] 田伟宏,李喜旺,司志坚.基于长短期记忆网络的工控网络异常流量检测 [J].计算机系统应用,2020,29(9):266-271.

(TIAN Wei-hong,LI Xi-wang,SI Zhi-jian.Detection of abnormal traffic in industrial control network based on LSTM network [J].Computer Systems & Applications,2020,29(9):266-271.)

[7] 李艳梅,殷新春,邵梦丽.基于多基表示的滑动窗口椭圆曲线多标量乘算法 [J].计算机与现代化,2019(1):11-16.

(LI Yan-mei,YIN Xin-chun,SHAO Meng-li.Multi-scalar multiplication algorithm for elliptic curve based on MBNS and sliding window [J].Computer and Modernization,2019(1):11-16.)

[8] 刘孝保,陆宏彪,阴艳超,等.基于多元神经网络融合的分布式资源空间文本分类研究 [J].计算机集成制造系统,2020,26(1):161-170.

(LIU Xiao-bao,LU Hong-biao,YIN Yan-chao,et al.Distributed resource spatial text classification based on multivariate neural network fusion [J].Computer Integrated Manufacturing Systems,2020,26(1):161-170.)

[9] 康彩丽.遗传算法优化BP神经网络非线性函数拟合的研究 [J].忻州师范学院学报,2019,35(5):22-25.

(KANG Cai-li.Research on optimizing the nonlinear function fitting of BP neural network by genetic algorithm [J].Journal of Xinzhou Teachers University,2019,35(5):22-25.)

[10] 智伟威,周新星.神经网络在数据中心能耗模型研究中的应用 [J].计算机仿真,2020,37(10):273-277.

(ZHI Wei-wei,ZHOU Xin-xing.Application of neural network algorithm in data center energy consumption model research [J].Computer Simulation,2020,37(10):273-277.)

[11] 冯泽彪,汪建均,马义中.基于多变量高斯过程模型的贝叶斯建模与稳健参数设计 [J].系统工程理论与实践,2020,40(3):703-713.

(FENG Ze-biao,WANG Jian-jun,MA Yi-zhong.Bayesian modeling and robust parameter design based on multivariate Gaussian process model [J].Systems Engineering-Theory & Practice,2020,40(3):703-713.)

[12] 张根保,金传喜,冉琰,等.基于FMA分解的关键质量特性映射变换技术 [J].重庆大学学报,2019,42(3):1-14.

(ZHANG Gen-bao,JIN Chuan-xi,RAN Yan,et al.Mapping technique of key quality characteristics based on FMA decomposition [J].Journal of Chongqing University,2019,42(3):1-14.)

[13] 阚涛,高哲,杨闯.采用分数阶动量的卷积神经网络随机梯度下降法 [J].模式识别与人工智能,2020,33(6):559-567.

(KAN Tao,GAO Zhe,YANG Chuang.Stochastic gradient descent method of convolutional neural network using fractional-order momentum [J].Pattern Recognition and Artificial Intelligence,2020,33(6):559-567.)

[14] 胡建,曹喜望.几类低差分一致性映射与完全非线性函数 [J].数学进展,2020,49(6):756-760.

(HU Jian,CAO Xi-wang.Several classes of mappings with low differential uniformity and complete PN functions [J].Advances in Mathematics,2020,49(6):756-760.)

[15] 曹露,汪政,都泓蔚,等.智能分布式馈线自动化系统验收与运维测试研究 [J].供用电,2019,36(9):40-45.

(CAO Lu,WANG Zheng,DU Hong-wei,et al.Research on acceptance and operation testing of intelligent distributed feeder automation system [J].Distribution & Utilization,2019,36(9):40-45.)

[16] 秦丞,贺渝镔.IT资产高速探查及漏洞发现系统的研究 [J].软件,2019,40(12):167-170.

(QIN Cheng,HE Yu-bin.Research on high speed IT asset detection and vulnerability discovery system [J].Computer Engineering & Software,2019,40(12):167-170.)

Artificial intelligence operation and maintenance applications of IT equipment in network data center

ZHANG Hua-bing1,2, ZHOU Ying-yao2, XU Lei2, SHI Hong-yu2, SUN Bin3

(1. School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China; 2. Digital Grid Research Institute, China Southern Power Grid, Guangzhou 510663, China; 3. College of Information Engineering, Zhengzhou University of Industrial Technology, Zhengzhou 451150, China)

Abstract In order to solve the problem that the existing intelligent operation and maintenance applications have poor anti-noise ability, low test accuracy, poor stability and long test time affecting the test effect, the artificial intelligent operation and maintenance applications of IT equipment in network data center were studied. The abnormal data in the IT equipment of the network data center were located through the VRNN algorithm, and the operation and maintenance applications of artificial intelligence were tested in combination with the quantifiable security evaluation model. Through experiments, it can be proved that the as-proposed method has good anti-noise ability, the highest test accuracy can reach more than 92%, the test process value μzt can reach 0.39 with good stability, and the test time is shorter. The test of 3 000 data can be completed within 60 s, showing that the as-proposed method has good practicability.

Key words network data; network test; operation and maintenance application; abnormal data; anti-noise ability; test accuracy; safety performance; VRNN model

中图分类号: TP 274

文献标志码: A

文章编号: 1000-1646(2022)05-0541-05

收稿日期 2021-08-05.

基金项目 河南省科技厅科技攻关支持项目(202102210361).

作者简介 张华兵(1988-),男,浙江衢州人,高级工程师,硕士,主要从事IT信息技术开发、IT运维等方面的研究.

doi:10.7688/j.issn.1000-1646.2022.05.11

(责任编辑:景 勇 英文审校:尹淑英)