密钥共享下跨用户密文数据去重挖掘方法*

高永强

(吕梁学院 计算机科学与技术系,山西 离石 033000)

摘 要: 针对当前密文数据去重挖掘方法存在去重效果较差、特征聚合能力低的问题,提出一种密钥共享下跨用户密文数据去重挖掘方法.结合非线性统计序列分析方法对密钥共享下跨用户密文数据的统计特征进行采样,通过识别不同领域的统计特征进行密文数据的线性编码设计,抽取密钥共享下跨用户密文数据的平均互信息特征量.采用匹配滤波方法实现密钥共享下跨用户密文数据的去重处理.仿真结果表明,采用该方法的去重效果较好,特征聚合能力较强.

关 键 词: 密钥共享; 跨用户; 密文数据; 去重; 挖掘; 特征提取; 统计特征; 匹配滤波

大数据信息处理过程中,数据通过密文的形式存储在云空间中,因此,需要对密钥共享下跨用户密文数据进行优化挖掘,相关密钥共享下跨用户密文数据去重挖掘方法研究受到学者的主要关注[1].对密钥共享下跨用户密文数据的去重挖掘处理是建立在对数据的特征提取和分类识别基础上的,传统方法中,对密钥共享下跨用户密文数据去重挖掘分析方法主要有模糊C均值去重挖掘方法、K均值去重挖掘方法、网格去重挖掘方法等[2-3].采用模糊C均值聚类识别方法提取密钥共享下跨用户密文数据的特征量,根据特征提取结果进行数据的去重挖掘,采用主成分分析法进行特征提取,但该方法在处理密钥共享下跨用户密文数据时模糊度较大,自适应性能不好.本文提出了基于关联信息特征提取的密钥共享下跨用户密文数据去重挖掘方法,结合非线性统计序列分析方法进行密钥共享下跨用户密文数据的统计特征采样,分析跨用户密文数据的随机编码特征分布结构;采用空间欠采样方法进行密钥共享下跨用户密文数据的关联特征检测,结合深度学习方法进行密钥共享下跨用户密文数据挖掘过程中的自适应寻优和数据挖掘优化,展示了本文方法在提高密钥共享下跨用户密文数据去重挖掘能力方面的优越性能.

1 数据的存储配置结构和特征分析

1.1 密文数据分布式存储结构模型

为了实现对密钥共享下跨用户密文数据去重挖掘算法的优化设计,对密钥共享下跨用户密文数据存储结构模型进行特征重组[4],建立密钥共享下跨用户密文数据体系结构模型,假设Φ(z)=(h(z),h(φ1(z)),…,h(φ2d(z)))T表示一个采样节点分布集,则密钥共享下跨用户密文数据采集的标签分布集为

(1)

式中:ω为标签分布权重;yi为跨用户密文数据i的自相关函数集合;a为跨用户密文数据标签相关性参数;bi为密文数据尺度系数;γij为密文数据.

结合向量量化分析方法,构建密钥共享下跨用户密文数据存储节点最优分布模型,用一个二元有向图G=(V,E)表示密钥共享下跨用户密文数据的图模型结构,其中,V为部署存储链路中的顶点集;E为密钥共享下跨用户密文数据在有限域分布区域G中所有边的集合.假设M1,M2,…,MN为密钥共享下跨用户密文数据的Sink节点,采用欧式距离表示密钥共享下跨用户密文数据传输节点的模糊关联集,采用分块区域融合方法进行数据的量化配置和线性加密[5],自适应加权系数为W={w1,w2,…,wk}.在密钥共享下跨用户密文数据的信息覆盖区域,假设M个节点的加密关联配对集为x(k-1),x(k-2),…,x(k-M),特征筛选的空间分布权系数为xs=[x11),x22),…,x(ηN)]T,则相似度特征值估计式为

(2)

式中:Yi为特征向量矩阵;|M|为节点间欧式距离.

根据源域和目标域的关联规则属性,得到密钥共享下跨用户密文数据的统计特征集为

(3)

式中:A′为跨用户密文数据的模糊项;r为关联规则.

利用含有枢纽特征的样本进行存储结构的分布式设计[6],得到分布式存储结构模型为

(4)

式中:e为数据预测特征;α为密文数据的置信度;p为密钥共享下跨用户密文数据SourceSink节点之间的负载;ε(t)为概率t分布值;K为密钥共享下跨用户密文数据在分布式存储结构模型中的嵌入维数;τ为密钥共享下跨用户密文数据在高维相空间中的嵌入延迟.

根据上述分析构建密钥共享下跨用户密文数据存储结构模型,根据数据存储的节点分布属性进行去重挖掘[7].

1.2 跨用户密文数据的随机编码特征分布

结合非线性统计序列分析方法进行密钥共享下跨用户密文数据的统计特征采样,分析跨用户密文数据的随机编码特征分布结构,在密钥共享跨用户密文数据的关联调度集中[8],模糊调度点集满足D∈Rm×M,得到数据的类标信息和词性分布关系为

(5)

根据目标域的文本进行特征变换,密钥共享下跨用户密文数据最优去重挖掘特征分量为

(6)

式中,dk为目标域的数据点与第k个聚类中心间的距离.

采用特征集成及样本选择算法,得到随机编码特征值为

f=R{[i,C][j,C]}

(7)

式中,C=[c1,c2,…,cg]为密钥共享下跨用户密文数据的分块匹配集,采用向量量化编码方法进行数据的密钥构造[9],得到密钥构造协议表达式为

(8)

式中:∂为分块匹配系数;β为映射系数.计算非枢纽映射特征,根据密钥构造协议进行联合关联挖掘,得到互信息量为

(9)

式中:B为密钥共享下跨用户密文数据的检测幅值;ρ为信源域与目标域的迁移调节参数,根据随机编码特征检测结果进行密文数据的去重挖掘设计[10];θ为时间.

2 数据去重挖掘优化

2.1 密文数据的关联特征检测

在结合非线性统计序列分析方法进行用户密文数据统计特征分析的基础上,本文进行了密文数据的去重挖掘设计,提出了基于关联信息特征提取的密钥共享下跨用户密文数据去重挖掘方法.通过识别不同领域的主题特征量进行密文数据的线性编码设计[11],抽取密钥共享下跨用户密文数据的平均互信息特征量,输出密钥共享下跨用户密文数据的属性分布互信息.采用标签识别技术进行数据编码的融合处理[12],得到密钥共享下跨用户密文数据的模糊C均值聚类分布集为

(10)

式中,q为融合特征.使用源域的领域特有特征进行密钥共享下跨用户密文数据融合[13],需要同时满足

(11)

式中,E为收敛性判断阈值.

对密钥共享下跨用户密文数据模糊信息进行主成分分析,根据多种词汇语义关系进行线性映射,设{u1,u2,…,uN}表示包含元素节点集合的密钥共享下跨用户密文数据的空间分布集合,{v1,v2,…,vM}表示源域的领域特征分布集合,O=[Ou,v]N×M表示密钥共享下跨用户密文数据的用户行为集,对挖掘的数据进行特征筛选和属性聚类[14],实现数据去重挖掘中心的自适应寻优,采用深度学习算法得到寻优迭代式为

(12)

式中:为xj的范数;S为迭代函数.利用上述算法实现了密钥共享下跨用户密文数据的去重挖掘的关联特征检测,根据特征检测结果进行去重滤波处理.

2.2 数据去重挖掘输出

假设待挖掘的密钥共享下跨用户密文数据信息流的统计分布序列为{z1,z2,…,zN},令z(n)为一组回归分析特征量,在重构相空间中进行密钥共享下跨用户密文数据的稀疏散乱点映射,得到密钥共享下跨用户密文数据的分布式重组结构式,并将领域共有词作为枢纽特征,得到密钥共享下跨用户密文数据的概念集表达式,最后根据枢纽特征最相似性,得到第i个密钥共享下跨用户密文数据的稀疏散乱点集Pi.根据领域共有词的特征分布集进行密钥共享下跨用户密文数据的回归分析和重构,在同一近义词簇中得到密钥共享下跨用户密文数据的加密密钥关系为A→B,B→C,结合深度学习方法进行密钥共享下跨用户密文数据挖掘过程中的自适应寻优,采用匹配滤波方法实现密文数据的去重处理,得到去重挖掘输出为

(13)

式中:dA,i为第A个聚类区间的聚类中心与第i个数据之间的聚类;dB,i为第B个聚类区间的聚类中心与第i个数据之间的聚类;为第A个聚类区间的类均值;为第B个聚类区间的类均值.根据上述算法设计实现密钥共享下跨用户密文数据的去重处理优化.

3 仿真实验与结果分析

为了验证本文方法在实现密钥共享下跨用户密文数据去重挖掘中的应用性能,结合MatlabC++编程软件进行仿真实验分析,密钥共享下跨用户密文数据的采样样本数据库来自于云组合数据库Pearson Database.跨用户密文数据集为800个,从中随机选取训练数据集,训练数据集规模为100×100,向量维度为3,设定跨用户密文数据采样的时间为5 s,迭代次数为500次,密文数据的采样时间延迟为0.18 s,信源域与目标域的迁移调节参数为255,收敛性判断阈值为60.根据上述仿真环境和参数设定对密钥共享下跨用户密文数据进行去重挖掘处理,得到数据分布的时域波形如图1所示.

从图1中可以看出密文数据分布的时域波形变化较为剧烈,波形边缘出现大量离散点.以图1数据为研究对象,抽取密钥共享下跨用户密文数据的平均互信息特征量,结合深度学习方法进行密钥共享下跨用户密文数据挖掘过程中的自适应寻优,在尺度系数为0.2和0.4情况下对密文数据进行特征重构,得到数据挖掘的特征重构输出如图2所示.

图1 密文数据分布时域波形
Fig.1 Time domain waveform of ciphertext data distribution

图2 密文数据的特征重构
Fig.2 Feature reconstruction of ciphertext data

由图2可以看出,特征重构后的密文数据波形幅度较为一致,边缘离散数据与图1相比改善效果明显.尺度系数为0.2时,密文数据特征重构的效果更好,但从波形范围来说,仍具有多样特征重合的特性,数据去重不够准确,因此选用尺度系数为0.4的密文数据特征重构结果与粒子群去重挖掘方法及K均值去重挖掘方法进行对比分析,得到的输出结果如图3所示.

分析图3可知,所提方法的据挖掘优化输出幅值波动较小,稳定性较高.在密钥共享下跨用户密文数据挖掘的去重性较好,测试挖掘误差对比结果如表1所示.

分析表1可知,本文方法经过多次迭代,挖掘误差始终低于K均值去重挖掘方法和粒子群去重挖掘方法,说明本文方法的去重性较好,误差较低.在单位数据空间下,采用本文方法与其他两种算法对100个数据集进行聚合能力测试,所得结果如图4所示.

由图4可以看出,采用本文方法数据较为聚拢,数据簇没有出现离散数据点;粒子群去重挖掘方法数据簇出现少量离散点;K均值去重挖掘方法数据簇中出现了大量离散点,由此可以看出所提方法比其他两种算法的数据聚合能力强.

图3 不同方法的数据挖掘优化输出
Fig.3 Data mining optimization and output of different methods

表1 误差对比
Tab.1 Error comparison %

迭代次数本文方法K均值去重挖掘方法粒子群去重挖掘方法2000.1140.5650.3583000.0370.3560.2624000.0070.2760.20950000.1420.115

图4 数据聚合能力对比
Fig.4 Comparison of data aggregation capabilities

4 结 论

本文构建了密钥共享下跨用户密文数据的并行聚类分析模型,建立了密钥共享协议,并采用网格分区域调度方法实现密文数据编码和优化调度.结合非线性统计序列分析方法进行密钥共享下跨用户密文数据的统计特征采样,分析跨用户密文数据的随机编码特征分布结构,结合深度学习方法进行密钥共享下跨用户密文数据挖掘过程中的自适应寻优,采用匹配滤波方法实现密钥共享下跨用户密文数据的去重处理.通过仿真研究得知,本文方法在进行密文数据挖掘时,去重性较好,误差较低,且数据聚合能力强.

参考文献

[1]叶福兰.基于核函数的高维离散数据聚类算法研究与应用 [J].长春工程学院学报(自然科学版),2018,19(3):79-81.

(YE Fu-lan.The research and application of high dimensional discrete data clustering algorithm based on kernel function [J].Journal of Changchun Institute of Technology(Natural Science Edition),2018,19(3):79-81.)

[2]毕猛,王安迪,徐剑,等.基于离散马尔科夫链的数据库用户异常行为检测 [J].沈阳工业大学学报,2018,40(1):70-76.

(BI Meng,WANG An-di,XU Jian,et al.Anomaly behavior detection of database user based on discrete-time Markov chain [J].Journal of Shenyang University of Technology,2018,40(1):70-76.)

[3]赵慧珍,刘付显,李龙跃.Parzen窗确定系数的协同模糊C均值算法 [J].重庆邮电大学学报(自然科学版),2017,29(2):272-278.

(ZHAO Hui-zhen,LIU Fu-xian,LI Long-yue.Novel collaboration fuzzy C-means algorithm with Parzen window determined collaboration coefficient [J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2017,29(2):272-278.)

[4]向桢,向守兵.基于模糊遗传算法的数据库异常数据挖掘 [J].控制工程,2017,24(5):947-951.

(XIANG Zhen,XIANG Shou-bing.Data mining based on fuzzy genetic algorithm [J].Control Engineering of China,2017,24(5):947-951.)

[5]李顺勇,张苗苗.一种带权的混合数据聚类个数确定算法 [J].计算机应用与软件,2019,36(1):284-290.

(LI Shun-yong,ZHANG Miao-miao.A weighted clustering number determining algorithm for mixed data [J].Computer Applications and Software,2019,36(1):284-290.)

[6]王刚,郭雪梅.社交网络环境下基于用户行为分析的个性化推荐服务研究 [J].情报理论与实践,2018,41(8):102-107.

(WANG Gang,GUO Xue-mei.Personalized recommendation service based on user behavior analysis in social network environment [J].Information Studies:Theory & Application,2018,41(8):102-107.)

[7]柳益君,何胜,吴智勤,等.基于用户社交网络分析的高校图书馆主题多样性阅读推荐 [J].图书情报工作,2018,62(8):67-73.

(LIU Yi-jun,HE Sheng,WU Zhi-qin,et al.Reading recommendation with subject diversity of university libraries based on analysis of user social network [J].Library and Information Service,2018,62(8):67-73.)

[8]马友忠,张智辉,林春杰.大数据相似性连接查询技术研究进展 [J].计算机应用,2018,38(4):978-986.

(MA You-zhong,ZHANG Zhi-hui,LIN Chun-jie.Research progress in similarity join query of big data [J].Journal of Computer Applications,2018,38(4):978-986.)

[9]米捷,张鹏.粒子群差分扰动优化的聚类算法研究 [J].河南工程学院学报,2016,28(1):63-68.

(MI Jie,ZHANG Peng.Research of data clustering algorithm based on particle swarm differential perturbation optimization [J].Journal of Hennan Institute of Engineering,2016,28(1):63-68.)

[10]韦海宇,王勇,柯文龙,等.基于改进极端随机树的异常网络流量分类 [J].计算机工程,2018,44(11):33-39.

(WEI Hai-yu,WANG Yong,KE Wen-long,et al.Abnormal network traffic classification based on improved extremely random tree [J].Computer Engineering,2018,44(11):33-39.)

[11]刘测,韩家新.面向新闻文本的分类方法的比较研究 [J].智能计算机与应用,2018,8(5):38-41.

(LIU Ce,HAN Jia-xin.A comparative study of classification methods for news texts [J].Intelligent Computer and Applications,2018,8(5):38-41.)

[12]文政颖,李运娣.语义指向性特征聚类的图像检索算法研究 [J].计算机技术与发展,2017,27(4):83-88.

(WEN Zheng-ying,LI Yun-di.Investigation on image retrieval algorithm with semantic directed feature clustering [J].Computer Technology and Development,2017,27(4):83-88.)

[13]于彦伟,贾召飞,曹磊.面向位置大数据的快速密度聚类算法 [J].软件学报,2018,29(8):2470-2484.

(YU Yan-wei,JIA Zhao-fei,CAO Lei.Fast density-based clustering algorithm for location big data [J].Journal of Software,2018,29(8):2470-2484.)

[14]易利容,王绍宇,殷丽丽,等.基于多变量LSTM的工业传感器时序数据预测 [J].智能计算机与应用,2018,8(5):13-16.

(YI Li-rong,WANG Shao-yu,YIN Li-li,et al.Forecasting of industrial sensor time series based on multivariable LSTM [J].Intelligent Computer and Applications,2018,8(5):13-16.)

Deduplication mining method for cross-user ciphertext data under key sharing

GAO Yong-qiang

(Department of Computer Science and Technology, Lüliang University, Lishi 033000, China)

Abstract Aiming at the problems of poor deduplication effect and low feature aggregation ability existing in the current ciphertext data deduplication mining methods, a deduplication mining method for cross-user ciphertext data under key sharing was proposed. Combined with the nonlinear statistical sequence analysis method, the statistical features of cross-user ciphertext data under key sharing were sampled, the linear coding design of ciphertext data was accomplished by indentifying the statistical characteristics of different fields, and the average mutual information feature amount of cross-user ciphertext data under key sharing was extracted. In addition, the deduplication processing of cross-user ciphertext data under key sharing was implemented with a matched filtering method. The simulation results show that the as-proposed method has better deduplication effect and strong feature aggregation ability.

Key words key sharing; cross-user; ciphertext data; deduplication; mining; feature extraction; statistical feature; matching filtering

中图分类号: TP 391

文献标志码:A

文章编号:1000-1646(2020)02-0203-05

收稿日期 2019-06-05.

基金项目 山西省教育厅教改项目(J2018196).

作者简介 高永强(1974-),男,山西临县人,副教授,硕士,主要从事计算机应用及大数据处理等方面的研究.

*本文已于2020-03-18 16∶03在中国知网优先数字出版. 网络出版地址: http:∥kns.cnki.net/kcms/detail/21.1189.T.20200317.1537.022.html

doi:10.7688/j.issn.1000-1646.2020.02.15

(责任编辑:景 勇 英文审校:尹淑英)