远程虚拟教育通信中异常数据挖掘技术*
杨琼1,2, 况姗芸3
1. 华东师范大学 教育科学学院, 上海 200062
2. 琼台师范学院 信息技术系, 海口 571127
3. 华南师范大学 教育信息技术学院, 广州 510631

作者简介: 杨 琼(1974-),女,云南大理人,副教授,硕士,主要从事信息技术与多媒体应用等方面的研究.

摘要

针对现有挖掘方法应用到远程虚拟教育通信异常数据挖掘时,其挖掘准确率及应用效率偏低的问题,提出一种基于空间聚类算法(FWSCA)与差分进化法的远程虚拟教育中异常数据挖掘方法.采用信息增益法提取远程虚拟教育通信数据特征,引入WTA规则对在线通信的数据特征进行聚类,在此基础上,采用稀疏分数方法对数据进行区分,采用FWSCA与差分进化法相结合对运程虚拟教育通信异常数据进行挖掘.结果表明,采用该挖掘方法进行异常数据挖掘,挖掘精度相比传统挖掘算法精度高、时间短,具有一定的优势.

关键词: 远程虚拟教育; 通信; 异常数据; 挖掘; 数据特征; 聚类; 区分; 精度
中图分类号:TP391 文献标志码:A 文章编号:1000-1646(2017)04-0412-05 doi: 10.7688/j.issn.1000-1646.2017.04.10
Abnormal data mining technology in remote virtual education communication
YANG Qiong1,2, KUANG Shan-yun3
1. College of Education and Science, East China Normal University, Shanghai 200062, China
2. Department of Information Technology, Qiongtai Normal University, Haikou 571127, China
3. School of Educational Information Technology, South China Normal University, Guangzhou 510631, China
Abstract

Aiming at the low accuracy and poor efficiency problems when the traditional mining methods are applied to the abnormal data mining in the remote virtual education communication, an abnormal data mining method based on FWSCA and differential evolution method in the remote virtual education was proposed. The data characteristics of remote virtual education communication were extracted with the information gain method. In addition, the data characteristics of online communication were clustered with the introduction of WTA rule. On this basis, the data were distinguished with the sparse score method, and the FWSCA in combination with the differential evolution method was adopted to conduct the abnormal data mining in the remote virtual education communication. The results show that when it is used for data mining, the proposed method exhibits higher mining precision and short mining time, and has certain advantages compared with the traditional mining algorithm.

Keyword: remote virtual education; communication; abnormal data; mining; data characteristic; clustering; distinguish; precision

随着计算机网络、多媒体和虚拟现实技术的不断进步, 网络远程教育作为一种现代化的教育手段得到了快速发展[1, 2].如何实现安全的远程网络教学, 使远程虚拟教育被广泛地使用到实践性要求较高的学科中, 成为该领域亟待解决的问题[3, 4].而对远程虚拟教育通信中异常数据进行挖掘是解决此问题最有效的方法, 近年来也受到广大学者的重点关注[5, 6, 7, 8].

文献[9]提出基于信息熵的异常数据挖掘方法, 该方法通过定义信息熵的异常度来判断通信数据间的异常情况, 并根据异常等级进行挖掘, 但是该方法对等级划分计算较为繁琐, 实效性不强; 文献[10]提出一种基于机器学习的挖掘方法, 依据机器学习的相关原理得到标准方程组, 建立异常数据挖掘最优模型, 经过计算数据的特征向量得到异常数据库, 最后根据计算得到的概率值对异常数据进行挖掘, 但是该方法主要针对固定的结构模型, 难以大规模推广应用; 文献[11]提出了基于物联网的异常数据挖掘方法, 借助物联网中的无线传感器网络技术实现对异常数据的挖掘, 但是该方法需要大量训练数据, 且挖掘效率较低.针对上述问题, 本文提出一种基于空间聚类算法(FWSCA)与差分进化法的远程虚拟教育通信中异常数据挖掘方法.

1 通信数据特征提取及聚类
1.1 数据特征提取

在进行远程虚拟教育通信异常数据挖掘时, 首先需要提取通信数据特征.设可描述虚拟远程教育通信数据的数值矩阵为M={ gij1≤ in, 1≤ jm}, 其中, m为样本个数; n为通信数据量; gij为第i通信数据在j个样本中的表达值.增加样本属性后的数据矩阵可进一步表示为

M0= l1l2lmg11g12g1mgn1gn2gnm(1)

式中, lm为第m个样本的属性.在此基础上, 采用信息增益法对样本矩阵进行分类, 得到分类期望信息表达式为

I(s1, s2, …, sm)=-pilog2pi (i=1, 2, …, m) (2)

式中:sm为数据集合中样本数量; pi为样本被选择的概率.令xy为随机变量, 则可得到通信数据的信息熵表达式为

H(xy)=-ip(xi)ip(xiyi)log2[p(xiyj)](3)

式中:p(xi)为x的先验概率; p( xiyi)为检测到随机变量( xiyi)的概率.此时通信数据特征提取表达式为

zab=i(Ea-Eb)+j(Ba, Bb)(4)

式中:ab为两个数据对象; E为数据集中的连续属性集; B为离散属性集.在获得教育通信数据的基础上需要进行特征聚类分析, 以提高数据特征的显著性.

1.2 数据特征聚类

在提取远程虚拟教育通信数据特征的基础上, 可引入WTA规则对特征进行聚类, 为特征选择提供基础依据.

假设训练集生成原始树为T, 某叶子结点实例个数为n(t), 错误分类个数为e(t).由于训练数据是用来生成决策树的, 而基于此训练数据集的误差率r(t)=e(t)/n(t)存在偏差, 无法精确地选择最优决策树, 因此将误差率修改为

r'(t)= e(t)+12/n(t) (5)

定义此时的适应值函数为

F(v) H-LvH+(1)O(D, A(v)) (6)

式中:α 为权重因子; H为条件属性集基数; Lv为通信数据基数; O为距离递归函数; D为传递距离; A(v)为位串所表示的条件属性子集.本文将WTA规则聚类算法引入到通信数据中[12], 得到中心递归方程为

vi(t)=vi(t-1)-η D(vi(t-1), xnt) (7)

式中:vi(t-1)为t-1时刻第i个聚类中心; xntt时刻第n个到达的数据样本; η 为递归因子; D(vi(t-1), xnt)为样本xnt与中心vi(t-1)的距离.

设有N个样本数据流, t时刻获得N_t 个新的远程通讯样本, 新获得的样本权值 qj(t)=1, j=1, 2, , Nt则可以得到此时的加权聚类中心 vi(t-1)及其被选中概率 pi(t-1), i=1, 2, , C.vi(0)初始化空集, 采用FWSCA算法将Nt 个数据样本划分为C个聚类中心, 其相应聚类概率可表示为

pi(1)=j=1Ntuijqj(1)+i=1Cpi0(8)

式中, uij为样本xj(1)属于聚类中心vi(1)的模糊隶属度, 1≤ iC, 1≤ jNt.

2 通信异常数据挖掘方法
2.1 通信异常数据区分

在对远程数据特征聚类基础上, 采用稀疏分数方法对通信数据进行区分, 为异常数据挖掘提供依据.若共有c类远程通信数据集, 对于第ω 类的远程通讯数据集合则有ω =1, 2, …, c.设样本个数为hω , 第r维特征均值为μ ω r, 方差为 σωr2, 则可得第r维特征的Fisher分数为

Fr=ω=1chω(μωr-μr)2ω=1chωσωr2(9)

式中, μ r为整个远程通信数据样本第r维特征均值.以此稀疏表示为基础, 使用L1范数最小化的优化方法确定获取数据是否存在异常.

假设远程通信数据集{xi}, 且xiRd, 令数据矩阵X=[x1, x2, …, xn]∈ Rd× n中每一列为此数据集里的一个数据向量, 然后获取每个远程通讯数据量xi对应的重构数据si, 即求解远程通信数据间L1范数最小化线性规划问题, 其表达式为

式中:X'X不包括第ixi的数据矩阵; si=[si1, …, sii-1, 0, sii+1, …, sin]T为一个n维系数向量.由于计算si时, X'不包括在X里, 所以si中第i个元素设置成0, sij(ji)为远程通信数据集的第j个数据量xj重构后对xi的贡献.获得整体远程通讯数据集在稀疏表示下重构的系数矩阵.

以得到的稀疏重构系数为基础, 对整体数据样本的重构误差进行累加, 当一个特征及获取的重构特征误差较小时, 则证明此特征在整体数据集上具备较好的稀疏表示水平, 稀疏分数目标函数[13]可表示为

S(r)=i=1n(xir-(X'si)r)2Frvar(X(r, ))(11)

式中: i=1n(xir-(X'si)r)2为计算整个样本集第r维特征xir与第r维重构特征 (X'si)r的累积误差; var(X(r, ))为数据集第r维特征的方差.

由式(11)可知, 异常数据的确认与Fr有直接的关系, Fr越大, 则此特征越重要, 说明此数据为正常数据; 反之, 值越小, 特征越不显著, 说明此数据为异常数据.

2.2 异常数据挖掘

在对通讯异常数据进行区分后, 将FWSCA与差分进化法相结合对异常数据进行挖掘.假设数据集 X={xixiRd, i=1, 2, , n}分为k个异常数据簇W1, W2, …, Wk, 且它们的中心数据依次是b1, b2, …, bk, 其中, bj=1gjxiWjxi, gj为数据簇Wj中异常对象的个数, 则远程虚拟教育通信数据目标函数可表示为

J=i=1kj=1gjdij(xi, bj)(12)

式中, dij(xi, bj)为异常数据对象xi与异常中心数据bj的欧氏距离.在式(12)基础上进行迭代计算, 所有的异常数据簇势的平均值为

Cavg(itr)=j=1gji=1kuijc(itr)(13)

式中:itr为FWSCA算法的迭代索引指数; c(itr)为第itr次迭代时的异常数据簇个数.第itr次迭代时, 异常数据簇的阈值可表示为

MCT(itr)=δ Cavg(itr) (14)

式中, δ 为合并阈值参数, 为保证实验效果, 本文取值为0.5.在确定阈值的基础上, 采用差分进化法进行异常数据挖掘, 在异常数据集内随机初始化异常数据库X0=[ x10, x20, …, xG0], 其中, G为条件属性集的基数, xi0=[ xi, 1, 0xi, 20, …, xi, R0]为异常数据特征, R为可行解维数.对第T代的异常数据 xiT进行挖掘, 其表达式为

viT+1= xr1T+f( xr2T- xr3T) (15)

式中:r1, r2, r3∈ {1, 2, …, G}, 三者互不相同且和i不同; xr1T为基量; xr2T- xr3T为差分量; f为缩放比例因子.模糊隶属度表达式需满足

uijT+1= vijT+1 (rand(j)CR)xijT(其他)(16)

式中:rand(j)为[0, 1]间均匀分布的随机数; CR为异常数据挖掘概率.CR越大, 异常数据挖掘越全面, 得到的结果越准确; 反之, CR越小, 挖掘的异常数据越少, 得到结果准确率越低.

3 实验仿真分析

为了验证本文提出的异常数据挖掘方法的有效性, 将其与信息熵法、机器学习法进行对比研究.实验以远程虚拟教育通信数据集为研究对象进行异常数据挖掘分析, 该数据集包括1610个样本, 7个异常数据簇, 各异常数据簇里有230个样本, 异常数据样本均是40个.不同的异常数据簇包括的子特征构造也不一样, 7个异常数据特征分布图如图1所示.对于各异常数据簇, 若其在相关子空间中, 则数据特征服从高斯分布; 若在无关子空间中, 则数据特征服从均匀分布.

图1 异常数据特征分布Fig.1 Characteristic distribution of abnormal data

在异常数据集范围一定的情况下, 以异常数据挖掘所需时间为考核量进行挖掘效率方面的对比分析, 不同方法挖掘时间对比结果如图2所示.由图2可知, 采用改进方法挖掘时, 其异常数据挖掘时间相比信息熵法和机器学习法有了大幅降低, 传统机器学习方法遍历所有数据集, 不仅增加了硬件成本, 同时也降低了挖掘效率, 而改进方法利用WTA规则对数据集规划聚类, 之后通过机器对异常数据进行判断, 效率得到提高.

图2 异常数据挖掘时间对比Fig.2 Comparison in mining time of abnormal data

为了进一步验证改进方法的有效性及可行性, 分别对改进方法与信息熵法及机器学习法进行挖掘精度方面的对比.在异常数据集范围一定的情况下, 异常数据挖掘精度对比分析如图3所示(图3a利用3类异常数据簇, 3b利用5类异常数据簇).

图3 异常数据挖掘精度对比Fig.3 Comparison in mining precision of abnormal data

总体比较, 相对于机器学习法和信息熵法, 采用改进方法进行异常数据挖掘时, 其挖掘出的异常数据与实际异常数据更加接近.其他两种算法挖掘过于保守, 能够挖掘的异常数据较为有限, 而本文所提出的方法在某些异常数据簇中的表现过于激进, 挖掘精确度有待进一步提高, 针对不同异常数据簇进行权重与阈值的调整将是下一步主要研究目标.

4 结 论

针对传统异常数据挖掘方法存在挖掘精度低, 效率差的问题, 提出了基于FWSCA与差分进化法的远程虚拟教育中异常数据挖掘方法, 通过实验分析得到如下结论:

1) 采用改进异常数据挖掘方法时, 其数据挖掘时间相比信息熵法和机器学习法有了大幅降低, 提高了数据挖掘效率.

2) 改进方法总体的挖掘精度要优于传统方法, 但在某些异常数据簇中表现过于激进, 而传统方法过于保守, 需要在权重与阈值方面进一步调整.

The authors have declared that no competing interests exist.

参考文献
[1] 牛耕, 吴亮. 论计算机远程教育与多媒体技术[J]. 科技经济市场, 2015(4): 87-88.
(NIU Geng, WU Liang. Theory of computer remote education and multimedia technology[J]. Science & Technology Economy Market, 2015(4): 87-88. ) [本文引用:1]
[2] 黄兴, 孟威, 董宏宇, . 电力信息网和通信数据网融合的探索[J]. 电力信息与通信技术, 2014, 21(5): 45-48.
(HUANG Xing, MENG Wei, DONG Hong-yu, et al. Exploration of electric power information network and communication of data fusion[J]. Electric Power Information and Communication, 2014, 21(5): 45-48. ) [本文引用:1]
[3] 郑羽洁, 李茜. 基于大数据混沌特性的分区域异常数据挖掘[J]. 河池学院学报, 2015, 21(5): 68-73.
(ZHENG Yu-jie, LI Qian. Regional anomaly data mining based on chaotic characteristics of big data[J]. Journal of Hechi University, 2015, 21(5): 68-73. ) [本文引用:1]
[4] 龚健虎. 基于双曲游散牵引的飞行异常操作数据挖掘[J]. 控制工程, 2014, 21(4): 617-620.
(GONG Jian-hu. Flight abnormal operation data mining based on stray traction in hyperbolic[J]. Control Engineering of China, 2014, 21(4): 617-620. ) [本文引用:1]
[5] 杨庭庭, 徐凯. 人工智能用于异常数据挖掘研究综述[J]. 电子技术与软件工程, 2014(8): 198-200.
(YANG Ting-ting, XU Kai. Artificial intelligence for abnormal data mining research[J]. Electronic Technology & Software Engineering, 2014(8): 198-200. ) [本文引用:1]
[6] 王传玉, 刘震, 王怀彬. 一种基于OPTICS和IncLOF的异常数据挖掘算法[J]. 天津理工大学学报, 2015, 31(6): 14-18.
(WANG Chuan-yu, LIU Zhen, WANG Huai-bin. An outlier data mining algorithm based on OPTICS and IncLOF[J]. Journal of Tianjin University of Techno-logy, 2015, 31(6): 14-18. ) [本文引用:1]
[7] 郭黎利, 张海龙, 孙志国, . 一种高频带利用率的PCSS-OFDM通信技术[J]. 沈阳工业大学学报, 2015, 37(5): 542-547.
(GUO Li-li, ZHANG Hai-long, SUN Zhi-guo, et al. A PCSS-OFDM communication technology with high band efficiency[J]. Journal of Shenyang University of Technology, 2015, 37(5): 542-547. ) [本文引用:1]
[8] 王远亮, 葛建华. 一种QoS网络路由通信数据时延WRR算法优化研究[J]. 计算机光盘软件与应用, 2014(15): 287-288.
(WANG Yuan-liang, GE Jian-hua. QoS routing network communication data delay WRR algorithm optimization research[J]. Computer CD Software and Applications, 2014(15): 287-288. ) [本文引用:1]
[9] 陈鹏, 司健, 于子桓, . 基于信息熵的网络流异常监测和三维可视方法[J]. 计算机工程与应用, 2015, 51(12): 88-93.
(CHEN Peng, SI Jian, YU Zi-huan, et al. Flow abnormity supervision based on information entropy and 3D visualization[J]. Computer Engineering and Applications, 2015, 51(12): 88-93. ) [本文引用:1]
[10] 韩莹, 李姗姗, 陈福明. 基于机器学习的地震异常数据挖掘模型[J]. 计算机仿真, 2014, 31(11): 319-322.
(HAN Ying, LI Shan-shan, CHEN Fu-ming. The seismic anomaly data mining model based on machine learning[J]. Computer Simulation, 2014, 31(11): 319-322. ) [本文引用:1]
[11] 潘俊方, 樊阿娇, 茹艳, . 基于物联网的智慧交通大数据挖掘系统[J]. 无线互联科技, 2016, 12(5): 25-26.
(PAN Jun-fang, FAN A-jiao, RU Yan, et al. Intelligent traffic big data mining system based on iot[J]. Wireless Internet Technology, 2016, 12(5): 25-26. ) [本文引用:1]
[12] 董本清, 彭健钧. 复杂网络数据流中的异常数据挖掘算法仿真[J]. 计算机仿真, 2016, 33(1): 434-437.
(DONG Ben-qing, PENG Jian-jun. Abnormal data mining algorithm in complex network data flow simulation[J]. Computer Simulation, 2016, 33(1): 434-437. ) [本文引用:1]
[13] 王莉君, 何政伟, 冯平兴. 基于ICA的异常数据挖掘算法研究[J]. 电子科技大学学报, 2015, 44(2): 211-214.
(WANG Li-jun, HE Zheng-wei, FENG Ping-xing. Study of outlier data mining algorithm based on ICA[J]. Journal of University of Electronic Science and Technology of China, 2015, 44(2): 211-214. ) [本文引用:1]