一种基于网民行为的倾向性密度聚类方法

徐 春, 王 昭, 孙 彬

(新疆财经大学 信息管理学院, 乌鲁木齐 830011)

摘 要: 针对传统舆情检测方法存在检测指标单一、适用面窄、效率不高、预测滞后和结论不准确等缺陷,提出一种基于网民行为的倾向性密度聚类方法.采用网民行为与心智倾向的超大规模数据集,设计分布式架构的密度聚类算法.仿真结果表明,分布式聚类架构适用于超大规模的网民行为与心智倾向的预测需要,能够高效提取聚簇中心和实现仿真性链路预测目标,显著提高舆情新动向预测的实际功效.

关 键 词: 舆情; 密度; 聚类; 网民行为; 心智倾向; 聚簇中心; 链路预测

在自媒体新技术日益进步发展的形势下,网络空间治理问题已受全球各地广泛瞩目.网民行为及心智倾向的链路预测问题成为推进网络空间共同体建设的重要内容.在网络新技术形势下,网民交互行为与心智倾向检测涉及到网络舆情链路预测、网民交互行为密度测算、网络资源密度聚类和分布式架构等多个技术层面.当前舆情检测及链路预测方案较多依赖“网络流量异常”和“文本关键字比较”等检测技术,检测指标单一、适用面窄、效率不高,有预测滞后和结论不准确等缺陷.随着大数据聚类和人工智能等技术的发展,网络舆情形势越来越复杂,传统舆情监管及网民行为倾向的预测方法呈现许多适用性不足的问题.

网络舆情检测与异常网络活动、网络资源聚类特征紧密关联.现有的典型研究有:1)基于舆情信息、舆情主体、舆情传播、网民行为的网络舆情演化机制.例如:基于舆情主题、舆情内容、传播过程、传播媒介及舆情受众等建构指标体系和舆情演化机制[1];基于在线检测与自动识别实现网络检测的动态聚合机制[2];一种集识别、监控、预测、评级、治理于一体的网络集群行为的监测及预警模型[3];利用LDA(latent dirichlet allocation)方法构建研究模型,挖掘出舆情传播的主题结构、观点脉络和特征[4];在人群密集场景中,通过标注真实图谱的方法,实现有效的网民密度监督等[5].2)应用网络舆情监测来反映网民交互行为与心智变化的倾向,舆情密度聚类算法被广泛应用.例如基于网络活动敏感密度的舆情评价方法[6]、基于不同时空窗口对网民行为密度进行量化监测[7]、网民复杂交互情境下的舆情博弈分析[8]等.3)利用大数据舆情聚类算法提取聚簇中心与聚类效率.例如基于K近邻的多类合并密度峰值聚类算法[9]、基于平均差异度的舆情聚类算法与信息熵聚簇中心选取模型[10]、不设定聚类个数的大规模数据聚簇中心算法[11]和简易提取密度峰值聚类中心算法[12]等.4)舆情聚类采用分布式架构进行研究.例如基于R+Hadoop的微信平台舆情挖掘框架[13]、分布式K-menus聚类算法与Spark并行架构的大数据聚类[14]和分布式网络协同的并行聚类模型[15]等.

通过上述梳理可知,网民行为及心智倾向监测方法存在较大技术瓶颈,亟需改良舆情信息聚类算法.主要表现在:1)提升网民行为及心智倾向的链路检测实效;2)提升舆情数据密度聚类的适用性和聚类质量;3)进一步探究快速定位舆情聚簇中心的有效办法,升级舆情网络的链路检测效率.

1 舆情信息密度聚类架构

基于网民行为倾向的关键特征,设计倾向集指标,实现适用性舆情密度聚类架构,助力自媒体网络的新观念、新苗头预测工作.

1.1 网民行为倾向聚类

基于体验式交互风格的自媒体空间,形成了众多网民行为指标.在不同软件空间和不同地域环境下,人们所关注的舆情指标差异性较大,许多网民行为指标未被充分重视.

1) 关键指标与检测图.抽取关键部分的舆情信息指标,形成舆情监测的关键测算指标覆盖.通过关键子集的饱和度检测,把控全局舆情信息可靠度,围绕网民行为倾向的核心指标,以具体的交互端“软件应用操作”为“观测节点”,以用户行为异常传播为“观测边”、以用户流量为“观测权重”构建网状的舆情监测有向图.基于舆情监测有向图的链路检测过程,要求约简次要指标,形成关键要素子集,以提升链路预测的实效.

2) 倾向度.在网民行为倾向的有向图中,基于多项关键性舆情监测目标,构建倾向度参量.舆情信息集有向图描述为T={Gij},其中,Gij表示第j个软件应用系统的第i个网民行为(发帖、举赞、时长、频率和敏感文本等观察指标).有向图节点Gij正常活动发生量为vij,而实际发生量为uij,定义倾向度的计算公式为

(1)

一系列网民行为的倾向度描述构成网民心智倾向的有向图描述.在网民行为有向图中,将效能边上的n种网络行为进行倾向度的负载合计,即

(2)

式中,ci为流量权重系数,∑ci=1.

3) 舆情分布.对一个具体软件系统而言,聚合在该软件系统上的网民,可以实现自由度较大的信息传播活动.对第j种应用软件系统而言,一条舆情传播链路可表示为xj,该传播链路相对于m种应用软件系统的舆情分布.

对舆情信息有向图中的任意两个舆情链路(xy),可以分别计算其舆情分布:P(x)、P(y)和P(xy).基于舆情数据集T,可计算信息熵损失量为

(3)

参量SM能体现出两条舆情链路联合分布的关联性.当链路x和链路y的舆情相互独立(无相关性)时,SM将为0.使用SM能高效估计链路x和链路y之间熵值差异.根据最大熵原理启示,一个网络节点上各种应用软件系统的舆情倾向熵值较大,则标志着各种软件系统之间的传播状态接近,发生群体观念极化的可能性较低;相反,各种软件系统之间的倾向熵值较小,标志着各个链路的行为观念差异较大,舆情异常传播(群体极化)的可能较大.使用“舆情倾向熵”能分析出舆情链路的群体观念差异性,用dxy表示网民心智观念的倾向距离为

dxy=|SMT-{y}(xy)-SMT-{x}(xy)|

(4)

式中:T-{y}为去除链路y后的舆情数据集;T-{x}为去除链路x后的舆情数据集.

4) 舆情密度.在自媒体网络环境下,网民行为数据稀疏性较大,需要约简数据集.一方面,通过密度指标来约简舆情监测的指标数量;另一方面,通过密度来保障舆情动向的全覆盖,以便捕捉量小而行为特征典型的舆情监测指标.设倾向观念距离的阈值参量为dc,统计舆情数据集中超越预定阈值的链路数量.定义舆情链路的密度ρx

(5)

(6)

式中:k为舆情链路总数;E为判别函数.舆情密度ρx表征与链路x同类的链路数量,密度值越大,所聚集的链路数就越多.

5) 聚簇中心.具有密度极大值的节点,即为该类的聚簇中心.在密度聚类过程中,阈值参量dc取值过小,会造成聚簇中心太多的情况;阈值参量dc过大,会造成中心捕捉失败、聚类失败.针对阈值参量dc往往需要较多的实验来确定的情况,通过对2 427条舆情链路的密度测算,对已有链路的倾向距离升序排列,结果如图1所示.观察适用聚簇中心所处的阈值参量定位发现dc取6.6%~6.7%位序处所对应的距离数值、准确率指数和兰德指数均达到较好的状态,准确率达到94.2%.

图1 距离参量效用
Fig.1 Distance parameter utility

6) 疑似强度与权值参量.为快速完成舆情聚类,区分聚簇中心链路与一般舆情链路的密度差别,构建疑似强度参量.如果一个舆情链路的密度高于预定链路的密度,则认为聚簇中心的疑似强度较大.定义δx为聚簇中心疑似强度,即

(7)

式中,参量max(ρ)为局域的密度极值.

聚簇中心疑似强度标识出一个舆情链路x与其他多条舆情链路y的密度差距.通过对1 948条交互软件链路进行嫌疑强度比较,结果如图2所示.图2的结果表明,δx具有较好的聚簇中心(局部中心)甄别作用.

为进一步提升聚簇中心的甄别效率,设置舆情链路的权值参量为

ξx=ρxδx

(8)

通过对1 846条链路数据实测发现权值参量ξx具有高效甄别聚簇中心的作用,权值参量曲线如图3所示.

图2 密度与嫌疑度分布关系
Fig.2 Distribution relationship between density and suspicion

图3 权值参量曲线
Fig.3 Weight parameter curve

1.2 分布式聚类架构

在自媒体网络环境下,网民行为倾向数据集规模庞大,需要构建分布式聚类架构,克服单机聚类的困境.分布式架构的关键问题是将庞大数据计算任务负载均衡地划分为并行子任务.通常情况下,需要实现合理的数据块分布,基于数据耦合,保障各个数据块的负载均衡性,以便发挥出分布式计算的优势.面对网民行为倾向数据集,分布式聚类架构包括数据块划分、耦合设计和聚簇流存储等3个主要部分.

1) 数据块划分.围绕网络流量特征,可以把网民行为数据集T分解为N个子集si,并要求每个数据块子集消耗的网络传输流量基本相当,以均衡负载各个子集的计算任务.在数据块划分中,每个数据项需要保持独立性,即任意一个数据链路项只能属于1个实际的数据块.

2) 耦合设计.每个计算单元均由两个“数据块”耦合而成,数据块SiSj耦合成计算单元Wij,记为Wij=〈SiSj.将计算单元的组合映射过程和聚簇中心参量的汇聚过程组合,形成分布式MapReduce架构,数据块耦合过程如图4所示.

分布式耦合计算过程为:将每个计算单元Wij优化布局到不同服务器Map,并完成所属块内的密度聚簇任务;基于计算单元Wij获得本域舆情密度序列ρij和疑似中心强度序列δij;用f(Si)流存储汇集计算单元内数据块Si的各个聚簇结果和权值参量序列ξx;将各个数据块Si的聚簇中心参量ξx整合,形成全局性密度聚簇中心的权值参量序列;最后依据聚簇中心权值参量序列,实现网民行为倾向的密度聚类.

图4 数据块耦合
Fig.4 Data block coupling process

3) 聚簇流存储.为提高聚簇运算实际效能,设计聚簇流存储机制,以降低网络传输的开销.在计算单元完成各自的聚簇中心鉴别任务后,将各个数据块所涉及的聚簇参量进行存储地址规划,有序地实现高效率全局性汇聚.聚簇流存储以键值对〈Key,Value〉结构来快速检索聚簇节点密度序列ρx和疑似中心强度序列δx,其中,Key是计算单元Wij的聚簇地址Idij,Value是对应的权值参量ξx.计算单元聚簇地址为

(9)

式中:ij分别为Wij耦合数据块编号(i<j);Q为数据块总数量;L为可信传输参量.

依据聚簇流存储结构,能高效完成各个数据块的权值参量序列ξx的全局性合并,为舆情数据的高效归集奠定基础.

1.3 链路检测

本文利用虚拟网民行为来仿真信息传播链路,实现链路预测效用.链路预测的实际目标就是鉴别舆情新动向和新苗头.仿真网民行为、仿真舆情链路的主要过程是:在某些网民活动相对集中的软件系统中,提取典型网民行为(或网络节点),加载到倾向密度较低的舆情链路中,估算舆情密度的变化情况;或者虚拟构建一种软件交互场景,吸引特殊嗜好的网民进行蜜罐监护,测试新舆情类别产生的可能性.由此,通过虚拟舆情链路或虚拟网民行为仿真出新舆情事件的发生过程,为面对舆情新动向、新苗头及早制定预案.

2 实践结果分析

在自媒体网络环境中,网民行为复杂、舆情链路多变.以网络社区个体网民为调查对象,采集相关性网民活动内容,包括微信交互、今日头条、QQ群、微博交互、朋友圈、网站贴吧和热文评论等交互端活动,并涉及异常流量、评价、敏感文本、发帖、跟帖、赞和删帖等行为特征.在舆情网络有向图中,形成200多万个网民活动节点.为保障舆情密度聚类运算需要,集群服务器部署Hadoop 2.7.18和Spark 2.11.8系统,通过Standalone配置,实现1个主节点和9个从节点的集群架构,共为集群服务器分配720 GB内存和1 000 Mb/s连接速度.追踪调查网民52 685人,形成大规模的网民行为与心智倾向数据集,完成分布式网民行为与心智倾向的分布式密度聚类与仿真实验分析.

1) 分布式聚类效率分析.实验中,按照可信传播流量的硬件条件,将网民数据集划分成4~10个数据块进行网民行为倾向的密度聚类.通过权值参量强化聚簇实效,获得舆情中心节点26~233个.对比不同聚簇中心数的单机聚类的运算效果,分布式算法的效率明显升高,结果对比如表1所示.当舆情数据集不断扩大时,分布式运算的优势越显著,分布式密度聚类的准确度也越高,而单机聚类的劣势比较明显.

表1 运算效能对比
Tab.1 Comparison of computing performance

算法聚簇中心数聚类时间/s数据块数量实际链路数准确率指数/%兰德指数/%单机聚类121165-684587.491.2单机聚类2245768-1455064.367.2分布式聚类1202814684587.391.8分布式聚类2213218101455085.789.8

2) 舆情链路聚类效果分析.在网民行为倾向的聚类分析过程中,结合仿真性链路检测技术,检验预测舆情新动向和新苗头.在10个数据块的聚类规模情景下,面对网民自媒体交互行为,检测出舆情链路5.2万多条.虚拟增加或删除部分网民行为和部分网络节点,舆情聚类结果变化显著,聚类结果如表2所示.

通过分布式密度聚类计算和虚拟仿真过程,目标网络的舆情动向得到掌控.测试结果表明:①舆情链路数量与聚簇中心数量没有线性关系,仿真网络新节点或网民交互行为有利于舆情新动向、新苗头的发现.②对于自媒体下的舆情链路而言,网民行为倾向的密度极值越大,发生群体观念极化的可能性越大,产生负向消极影响的可能性也越大.③舆情链路数量较少的网络,不意味着群体观念极化的可能性低.④潜在的舆情新苗头、新动向数量与聚簇的极大密度类值有近似正向线性关系.

表2 舆情聚类情况
Tab.2 Situations of public opinion clustering

数据块聚簇中心链路数量密度极值S1483552319S2463139184S3342813242S4622332188S5612161216S6432322328S7632802484S8312106317S9573302316S10652184292

3) 运算效能比较.将聚类准确度限定在85%以上的水平,比较分布式密度聚类、单机密度聚类、DisAP近邻传播聚类和PK-Means聚类等算法的实效,效能对比情况如图5所示.总体上看,分布式架构的网民行为倾向密度聚类,对网民舆情数据集密度聚类的适用性最好.

图5 聚类时效对比
Fig.5 Comparison of clustering time effectiveness

随着舆情数据集的扩大,各种聚类算法耗用时间均呈现较快攀升态势.在限定1万个节点的规模下,分布式架构与单机架构的耗用时间大体相当;在限定2万个节点的规模条件下,分布式架构的耗用时间是单机架构的1/3;在限定2.5万个节点的规模条件下,分布式架构的耗用时间增加量不大,但单机架构耗用时间远远超出适用的范围.由于PK-Means聚类算法迭代运算特点,在节点规模超过2万个以上时,才能呈现出分布式的优势,而DisAP聚类算法在节点规模超过2万个以上时,已经不具备适用性,耗时超出可用范围.在大规模数据集情境下,分布式密度聚类的实效强于PK-Means聚类.单机密度算法及传统DisAP聚类算法均不适用于大规模数据集的聚类任务.分布式密度聚类算法的优势在于高效提取聚簇中心,而PK-Means聚类算法的优势是数据归集,有充分融合的优化潜力.

3 结 论

分布式密度聚类架构具有时耗优化的优势,能保障自媒体网络下的网民行为与心智倾向的大规模聚类和舆情链路预测任务,能发现潜在的舆情新动向和新苗头.与传统聚类方法相比,基于网民行为与心智倾向的分布式密集聚类算法表现出提取聚簇中心快速和模拟仿真节点灵活等优点.面对网民行为倾向性的分布式密度聚类和针对网民行为的仿真实验,丰富了自媒体网络情境下舆情链路预测技术的探究视角.

参考文献(References):

[1]王兰成,陈立富.国内外网络舆情演化、预警和应对理论研究综述 [J].图书馆杂志,2018,37(12):4-13.

(WANG Lan-cheng,CHEN Li-fu.A summary of theo-retical research on internet public opinion evolution,early warning and coping at home and abroad [J].Library Journal,2018,37(12):4-13.)

[2]丁伟祥.基于Web身份特征的网络视频监控设备识别 [J].沈阳工业大学学报,2020,42(4):427-431.

(DING Wei-xiang.Network video surveillance equipment identification based on Web identity characteristic [J].Journal of Shenyang University of Technology,2020,42(4):427-431.)

[3]祁凯,彭程.基于OCS-EGM模型的网络集群行为监测及预警体系研究 [J].情报杂志,2019,38(9):134-141.

(QI Kai,PENG Cheng.Research on network cluster behavior monitoring and public opinion alert system based on OCS-EGM model [J].Journal of Intelligence,2019,38(9):134-141.)

[4]何保荣.大数据下监控网络混合入侵信息检索仿真 [J].沈阳工业大学学报,2019,41(6):654-658.

(HE Bao-rong.Simulation on hybrid invading information retrieval of monitoring network under big data [J].Journal of Shenyang University of Technology,2019,41(6):654-658.)

[5]刘砚,雷印杰,宁芊.基于深度神经网络的“弱监督”密集场景人群计数算法 [J].计算机科学,2020,47(4):184-188.

(LIU Yan,LEI Yin-jie,NING Qian.Study of crowd counting algorithm of “weak supervision” dense scene based on deep neural network [J].Computer Science,2020,47(4):184-188.)

[6]Juho J,Tomi R.Clustering structure analysis in time-series data with density-based cluster ability measure [J].IEEE/CAA Journal of Automatica Sinica,2019,6(6):1332-1343.

[7]张阳,李雄飞.基于时间窗口的舆情异动量化模型 [J].计算机工程,2019,45(3):315-320.

(ZHANG Yang,LI Xiong-fei.Quantitative model of public opinion change based on time window [J].Computer Engineering,2019,45(3):315-320.)

[8]林燕霞,谢湘生,张德鹏.复杂交互行为影响下的网络舆情演化分析 [J].中国管理科学,2020,28(1):212-221.

(LIN Yan-xia,XIE Xiang-sheng,ZHANG De-peng.Analysis of online public opinion evolution under the influence of complex interaction behaviors [J].Chinese Journal of Management Science,2020,28(1):212-221.)

[9]薛小娜,高淑萍,彭弘铭,等.基于K近邻和多类合并的密度峰值聚类算法 [J].吉林大学学报(理学版),2019,57(1):111-120.

(XUE Xiao-na,GAO Shu-ping,PENG Hong-ming,et al.Density peaks clustering algorithm based on K-nearest neighbors and classes merging [J].Journal of Jilin University(Science Edition),2019,57(1):111-120.)

[10]石鸿雁,徐明明.基于平均差异度的改进k-prototypes聚类算法 [J].沈阳工业大学学报,2019,41(5):555-559.

(SHI Hong-yan,XU Ming-ming.Improved k-prototypes clustering algorithm based on average difference degree [J].Journal of Shenyang University of Technology,2019,41(5):555-559.)

[11]Akash O M,Ahmad S,Azmi M S B.A new similarity measure based affinity propagation for data clustering [J].Advanced Science Letters,2018,24(2):1130-1133.

[12]陈叶旺,申莲莲,钟才明,等.密度峰值聚类算法综述 [J].计算机研究与发展,2020,57(2):378-394.

(CHEN Ye-wang,SHEN Lian-lian,ZHONG Cai-ming,et al.Survey on density peak clustering algorithm [J].Journal of Computer Research and Deve-lopment,2020,57(2):378-394.)

[13]于卫红.基于R+Hadoop框架的微信舆情热点挖掘 [J].情报杂志,2017,36(2):97-101.

(YU Wei-hong.WeChat public opinion hot spots mining based on R+Hadoop framework [J].Journal of Intelligence,2017,36(2):97-101.)

[14]杨杰明,吴启龙,曲朝阳,等.MapReduce框架下基于抽样的分布式K-Means聚类算法 [J].吉林大学学报(理学版),2017,55(1):109-115.

(YANG Jie-ming,WU Qi-long,QU Zhao-yang,et al.Distributed K-means clustering algorithm based on sampling under MapReduce framework [J].Journal of Jilin University(Science Edition),2017,55(1):109-115.)

[15]郑怀宇.基于用户聚类的二分图网络协同推荐算法 [J].沈阳工业大学学报,2018,40(3):316-321.

(ZHENG Huai-yu.Collaborative recommendation algorithm for bipartite networks based on user clustering [J].Journal of Shenyang University of Technology,2018,40(3):316-321.)

A tendency density clustering method based on netizen behavior

XU Chun, WANG Zhao, SUN Bin

(College of Information Management, Xinjiang University of Finance & Economics, Urumqi 830011, China)

Abstract Aiming at the defects of traditional public opinion detection methods such as single detection index, narrow application area, low efficiency, lagging prediction and inaccurate conclusions, a tendency density clustering method based on the netizen behavior was proposed. An ultra-large-scale data set of netizen behavior and mental tendencies was used to design a density clustering algorithm based on distributed architecture. The simulation results show that the distributed clustering architecture is suitable for the prediction of ultra-large-scale netizen behavior and mental tendencies, and can efficiently extract cluster centers and achieve simulation link prediction goals, significantly improving the actual effect of predicting new trends in public opinion.

Key words public opinion; density; clustering; netizen behavior; mental tendency; cluster center; link prediction

收稿日期 2020-07-17.

基金项目 国家社会科学基金项目(18XXW013); 新疆自治区自然科学基金项目(2019QQ1A23).

作者简介 徐 春(1977-),女,新疆伊宁人,教授,博士,主要从事网络舆情管理等方面的研究.

doi:10.7688/j.issn.1000-1646.2022.01.12

中图分类号: TP 311.13

文献标志码: A

文章编号: 1000-1646(2022)01-0068-06

(责任编辑:景 勇 英文审校:尹淑英)