信息科学与工程

基于数据挖掘的开源电子资源访问行为统计模型*

李 杨,夏文秀

(东北大学 图书馆,沈阳 110819)

摘 要:为了解决当前图书馆资源个性化推荐过程中存在推荐的准确率、召回率以及效率较低的问题,采用二维距离模型构建用户社区模型,用于描述访问用户与图书馆开源电子资源之间的关系,并对互联网用户需求和访问行为进行模糊规则推理.依据互联网用户属性和图书馆资源访问需求属性之间的模糊规则,建立图书馆开源电子资源访问行为统计模型,并利用该模型向用户提供个性化推荐服务.仿真结果表明,所建模型的推荐召回率高达98.4%,推荐准确率为99.2%,运行时间小于0.04 s.所建模型能够为互联网用户提供准确、高效地图书馆资源个性化推荐服务.

关键词:数据挖掘;开源电子资源;访问行为;统计模型;二维距离模型;互联网;模糊规则;个性化推荐

自上世纪90年代至今,互联网技术的迅猛发展使得开源电子资源呈爆炸式增长,其中图书馆开源电子资源占比逐渐增大,其开发和利用已经成为当今信息化社会发展的必然趋势.借助移动通讯技术、多媒体应用软件,信息化时代用户突破了时间和空间的阻碍,实现了随时随地访问图书馆开源电子资源的目标[1-2].传统在线图书馆信息管理系统只是简单地根据来访人员记录用户个人信息和浏览记录,没有更加深入地挖掘用户需求与图书馆资源之间的相关性,导致了用户在二次进入图书馆寻找符合自己需求的推荐时,需要重新开始检索,在一定程度上浪费了用户的查询时间,且浪费了公共资源.

互联网环境下图书馆开源电子资源来源众多,互联网用户不仅仅只满足于简单资源的获取,而是想要获得更为深层次的图书馆开源电子资源、更加专业化的服务.但由于互联网环境下用户对图书馆开源电子资源的需求和偏好并非一成不变,而是随着用户个人所处文化背景、工作要求等变化而动态变化的,如果在线图书馆无法及时有效感知和掌握用户的需求和偏好变化,则很难实现下一步的个性化推荐服务[3].

文献[4]提出并构建了基于社会认知理论的网络资源统计模型,通过三元模型对网络资源用户浏览、访问信息的行为理论进行构建模型.将意见领袖引入到研究中,并深入探析意见领袖在网络资源统计模型中的影响,有效地对网络资源进行大规模的收集,但这种方法存在信息召回率不高的缺点.文献[5]提出并构建了基于EZproxy日志的图书馆开源电子资源访问行为统计模型.该模型利用EZproxy代理服务器日志记录提取和分析用户异常访问行为特征,并设计开发了EZproxy代理服务器日志分析系统.但本文方法的推荐准确率偏低,仍需要对该缺陷进行改善.文献[6]提出并构建了基于融合上下文的图书馆开源电子资源访问行为统计模型,利用ASCF-Mine算法在不同的时间和空间上挖掘和统计用户对图书馆开源电子资源的访问行为,ASCF-Mine算法在获取信息的同时,采用协同过滤实现了个性化需求资源推荐.

上述模型在实现图书馆资源个性化推荐过程中虽然有效解决了一些基本问题,但是仍然存在准确率、召回率不高的问题,为此本文提出并建立了基于数据挖掘的开源电子资源访问行为统计模型.

1 开源电子资源访问行为统计模型

1.1 用户社区模型构建

为了更加准确地描述访问用户与图书馆开源电子资源之间的关系,根据用户的访问路径,采用二维距离模型构建用户社区模型[7],在用户社区模型建立过程中,有3个重要问题需要解决:

1)图书馆开源电子资源之间的关系主要由两方面因素决定,一方面是由专家评价的相关性参数,参数依据主题、种类及内容共同确定;另一方面是访问用户浏览图书馆开源电子资源时表现出的关注相关性,即同一用户的访问关注度联系.图书馆电子资源关系度表达式为

Rij=l+αPij

(1)

式中:ij为两个不同类别的图书馆资源;l为专家评价相关性参数,包括摘要、类别、内容等;α为加权系数;Pij为互联网用户对ij的访问概率.

2)互联网用户与图书馆开源电子资源之间的相关性特征主要表现在用户对某一类图书馆资源访问的动作上,访问频率越高说明关注度越高.通过计算用户访问该类图书馆资源的频率和时间频度加权获得,具体计算表达式为

RPi=α(TPi|Tall)+β(FPi/Fall)

(2)

式中:β为加权系数,且满足α+β=1;TPiTall分别为某类图书资源访问时间与总访问时间;FPiFall分别为某类图书资源访问次数与总访问次数.

3)互联网用户与图书馆开源电子资源之间的相关性特征通过互联网用户对相关图书馆资源的共同关注来表现.如果互联网用户所关注的图书馆资源类别相近,则认为互联网用户属于同一用户社区,采用K邻近算法中群落距离和用户距离的概念计算,具体表达式为

(3)

式中:ab为两个相关互联网用户;vajvbj分别为互联网用户ab对于图书馆资源j的隶属函数;分别为互联网用户ab对于图书馆开源电子资源关注的概率.

在上述基础上可以通过用户社区距离描述两个用户社区之间的关系,构建用户社区模型,具体表达式为

(4)

式中:AB分别为两个用户社区;vAivBi分别为用户社区A和用户社区B对于图书馆资源i的隶属函数.

1.2 开源电子资源数据库建立

将数据挖掘技术应用于图书馆开源电子资源访问行为统计的首要前提是建立数据库.在线图书馆系统中业务信息量庞大,数据种类繁多,各个信息之间存在着错综复杂的关系,但这种关系主要可以划分为3大类别,分别是互联网用户个人信息、图书馆开源电子资源信息和互联网用户访问信息[8],具体关系如图1所示.

图1 在线图书馆系统中的业务信息记录关系
Fig.1 Recorded relationship among business information in online library system

根据图1关系能够在庞大的信息网中清晰地了解到互联网用户个人信息、图书馆开源电子资源信息和互联网用户访问信息这三者之间的细化关系,建立数据库具体步骤如下:

1)对在线图书馆中的各种开源电子资源数进行数据建模,确定在线图书馆数据库主题;

2)设计在线图书馆数据库中的数据转换程序;

3)设置在线图书馆数据库元数据,对系统中的业务信息进行元数据描述,建立系统中各个组件之间的协调关系;

4)选择合适的数据挖掘分析工具,在完成在线图书馆数据库设计基础上,建立支持检索的数据库结构体系,为实现用户访问行为统计提供支持.

1.3 基于模糊推理的用户访问行为挖掘

在社区建模和数据库设计基础上,获取和描述互联网用户需求、用户社区,对互联网用户需求和访问行为进行模糊规则推理.根据互联网用户属性和图书馆资源访问需求属性之间的模糊规则,建立图书馆开源电子资源访问行为统计模型[9].

1.3.1 互联网用户需求的获取和表达

假设C代表图书馆开源电子资源价值;D代表图书馆开源电子资源价值的利用率水平;Z代表互联网用户对于图书馆开源电子资源价值利用率水平的效用值,三者关系式可以写作Z=CD.

设图书馆开源电子资源的性能矩阵为Φ={Φxy|x>0,y>0},若Φxy=0,则代表该图书馆资源具有该属性的相应水平;若Φxy=1,则代表该图书馆资源不具有该属性的相应水平.在充分考虑同类图书馆资源价值相互作用基础上,采用交合分析法可得出用户社区对图书馆资源价值利用水平的效用值,其计算表达式为

U=∑ΦxyE

(5)

式中,E为互联网用户需求效用值矩阵.

1.3.2 用户社区及其表达

互联网用户在浏览某一类图书馆开源电子资源时寻求的价值是用户社区存在的真正原因.用户社区效用值矩阵(即互联网寻求的图书馆资源价值)可以将图书馆资源效用值相同或相近的互联网用户划分为一个用户社区,并应用模糊逻辑神经元分析用户社区对图书馆资源效用值矩阵的需求,获得的聚类中心即为用户社区的需求效用值.

设q为互联网用户属性,W为互联网用户属性的效用值;K={W}表示图书馆资源效用值矩阵,若设q=0表示该互联网用户拥有属性,q=1表示该互联网用户不具有属性,则可采用交合分析法计算该特定互联网用户对该用户社区的隶属程度,即

I=∑qW

(6)

在实际应用过程中,一个特定的互联网用户并不能准确地将其隶属于某个用户社区,用户社区本身即为一个比较模糊的概念.此时可以采用模糊推理的方法计算某个互联网用户所属的用户社区,本文参考文献[10],具体赋值参数为K={1.0,0.3,0.6,0.1}.

设Q为互联网用户属性集合,Qe为集合中第e个元素,即互联网用户的第e个属性,Xe为元素Qe的论域,则可以将用户社区效用值矩阵视为用户社区对各个属性的模糊集合;同理,设H为图书馆开源电子资源价值属性集合,Hi表示集合H中的第i个元素,即图书馆开源电子资源的第i个属性价值,Y表示Hi的论域,则可以将图书馆开源电子资源效用值矩阵视为互联网用户需求对各个属性的模糊集合.

若已知一个用户社区的效用值矩阵和需求效用值分别为TY,则互联网用户属性和图书馆资源访问需求属性分别为{T1,T2,…,Tm}和{Y1,Y2,…,Yn},根据互联网用户属性和图书馆资源访问需求属性之间的模糊规则建立图书馆开源电子资源访问行为统计模型,具体建模规则为

R=[(T1T2…Tm)→Y1]∪[(T1T2…Tm)→Y2]∪,

…,∪[(T1T2…Tm)→Yn]

(7)

2 仿真实验与结果分析

实验选取某理工科大学在线图书馆中2017年3月1日至7月1日和2017年7月30日至8月30日两个时间段的开源电子资源浏览记录共10 000条.选取这两个时间段主要是出于以下两方面考虑:一方面是2017年3月1日至7月1日这段时间为大学生在校期间,用户在图书馆浏览的书籍多数与自己的就读专业相关,且浏览频率较高;2017年7月30日至8月30日这段时间是大学生暑假期间,用户在图书馆浏览的书籍大部分更多倾向于个人兴趣爱好.通过统计和分析上述两个时间段的图书馆开源电子资源访问行为数据能够获取到互联网用户的背景知识以及个人偏好.为了检验上述提出的基于数据挖掘开源电子资源访问行为统计模型的有效性,选取推荐准确率(TP)、推荐召回率(TN)和推荐耗时作为衡量指标,准确率及召回率具体计算公式为

(8)

(9)

式中:n为准确推荐(满足用户需求)的推荐次数;N为总次数;m为所选择的数据集中符合要求的数据量;M为整体数据库中符合要求的推荐数据量.

将本文提出模型与文献[4]、文献[5]模型进行个性化推荐性对比测试,结果如图2~6所示.

图2 文献模型的推荐准确率
Fig.2 Recommendation accuracy of literature models

图3 所建模型的推荐准确率
Fig.3 Recommendation accuracy of as-proposed model

根据图2~6的实验对比结果可以看出,相比于文献[4]模型和文献[5]模型,所建模型的推荐准确率和推荐召回率都是最高的,且没有随着实验次数的增多而发生大幅度变化,稳定性较好.这是由于统计模型充分考虑了用户需求和资源价值,大大提高了推荐准确率和推荐召回率.另外,所建模型的推荐效率是最高的,相比于其他两种对比模型,所提模型并没有受到在线图书馆开源电子资源规模的影响而发生大幅度变化,提升了用户体验.

图4 文献模型的推荐召回率
Fig.4 Recommendation recall rate of literature models

图5 所建模型的推荐召回率
Fig.5 Recommendation recall rate of as-proposed model

图6 三种不同模型的推荐耗时对比
Fig.6 Comparison of recommendation time consumption by three different models

3 结 论

本文提出并构建了基于数据挖掘的开源电子资源访问行为统计模型,在建立数据库存储用户个人信息和浏览记录基础上,统计了图书馆资源访问记录,深度挖掘了用户需求与馆藏资源之间的关系,为个性化推荐服务奠定了基础.对本文提出的方法进行仿真实验,结果表明,所建模型能够实现高质量个性化推荐,具有较高的推荐准确率、推荐召回率和推荐效率,为高校图书馆服务决策和制定未来发展目标提供了指导方向.

参考文献(References):

[1] 文雨,王伟平,孟丹.面向内部威胁检测的用户跨域行为模式挖掘 [J].计算机学报,2016,39(8):1555-1569.

(WEN Yu,WANG Wei-ping,MENG Dan.Mining user cross-domain behavior patterns for insider threat detection [J].Chinese Journal of Computers,2016,39(8):1555-1569.)

[2] 谷红勋,杨珂.基于大数据的移动用户行为分析系统与应用案例 [J].电信科学,2016,32(3):139-146.

(GU Hong-xun,YANG Ke.Mobile user behavior analysis system and applications based on big data [J].Telecommunications Science,2016,32(3):139-146.)

[3] 王末,王卷乐.Web环境下地学数据共享用户行为模式分析 [J].地球信息科学学报,2016,18(9):1174-1183.

(WANG Mo,WANG Juan-le.A study on the user behavior of geoscience data sharing based on Web usage mining [J].Journal of Geo-Information Science,2016,18(9):1174-1183.)

[4] 汤胤,徐永欢,张萱.基于社会认知理论的社交媒体用户转发行为研究 [J].图书馆工作与研究,2016,6(1):68-76.

(TANG Yin,XU Yong-huan,ZHANG Xuan.Research on social media users’ forwarding behavior based on social cognitive theory [J].Library Work and Study,2016,6(1):68-76.)

[5] 雷东升,郭振英.基于EZproxy日志的电子资源异常访问行为研究 [J].现代情报,2016,36(7):101-106.

(LEI Dong-sheng,GUO Zhen-ying.Research on abnormal access to electronic resources based on EZproxy logs [J].Journal of Modern Information,2016,36(7):101-106.)

[6] 王佳秋,于浩,王忠杰.基于融合上下文的移动用户行为过程挖掘与预测 [J].计算机集成制造系统,2016,22(2):302-311.

(WANG Jia-qiu,YU Hao,WANG Zhong-jie.Beha-vioral process mining and predicting of mobile users based on context-fusion [J].Computer Integrated Manufacturing Systems,2016,22(2):302-311.)

[7] 黄文彬,吴家辉,徐山川,等.数据驱动的移动用户行为研究框架与方法分析 [J].情报科学,2016,34(7):14-20.

(HUANG Wen-bin,WU Jia-hui,XU Shan-chuan,et al.Data-driven mobile user behavior analysis framework and methods [J].Information Science,2016,34(7):14-20.)

[8] 林媛.非结构化网络中有价值信息数据挖掘研究 [J].计算机仿真,2017,34(2):414-417.

(LIN Yuan.Research on data mining of valuable information in unstructured network [J].Computer Simulation,2017,34(2):414-417.)

[9] 杨品林.彩色图像数据库中目标特征数据挖掘方法 [J].沈阳工业大学学报,2018,40(1):60-64.

(YANG Pin-lin.Minig method for target feature data in color image database [J].Journal of Shenyang University of Technology,2018,40(1):60-64.)

[10] 程舒杨,熊锦华,公帅,等.基于内容和用户行为的查询聚类 [J].中文信息学报,2016,30(2):121-127.

(CHENG Shu-yang,XIONG Jin-hua,GONG Shuai,et al.Query clustering based on content and user be-havior [J].Journal of Chinese Information Processing,2016,30(2):121-127.)

Statistical model for accessing behavior of open source electronic resources based on data mining

LI Yang,XIA Wen-xiu

(Library,Northeastern University,Shenyang 110819,China)

AbstractIn order to solve the problems of low recommendation accuracy,low recall rate and poor efficiency in the process of personalized recommendation of library resources,a user community model was constructed with a two-dimensions distance model to describe the relationship between visiting users and open source electronic resources of libraries.The requirements and accessing behavior of Internet users were inferred with fuzzy rules.According to the fuzzy rules between the attributes of Internet users and the attributes of library resource accessing requirements,a statistical model for accessing behavior of open source electronic resources of libraries was established and applied to provide personalized recommendation service to users.The results show that the recommendation recall rate of the as-proposed model is 98.4%;the recommendation accuracy is 99.2%;the running time is less than 0.04 s.The as-proposed model can provide personalized recommendation service for Internet users accurately and efficiently.

Key wordsdata mining;open source electronic resource;accessing behavior;statistical model;two-dimensions distance model;Internet;fuzzy rule;personalized recommendation

中图分类号:TP 393

文献标志码:A

文章编号:1000-1646(2019)06-0643-05

收稿日期2018-12-21.

基金项目国家自然科学基金资助项目(51874074);辽宁省高等学校图书情报工作委员会基金资助项目(LTB201620).

作者简介李 杨(1982-)女,辽宁沈阳人,工程师,硕士,主要从事数字资源阅读推广行为研究、大数据挖掘技术等方面的研究.

** 本文已于2019-10-30 15∶29在中国知网优先数字出版.

网络出版地址:http:∥kns.cnki.net/kcms/detail/21.1189.T.20191030.1131.002.html

doi:10.7688/j.issn.1000-1646.2019.06.09

(责任编辑:景 勇 英文审校:尹淑英)