基于用户行为的学术文献个性化推荐研究

2015-06-24 11:15肖诗伯等
电脑知识与技术 2015年2期
关键词:推荐系统个性化大数据

肖诗伯等

摘要:为帮助科研用户解决在海量文献检索中遇到的信息过载等问题,该文从用户使用文献的行为出发,运用大数据分析中随机游走的二分图算法分析处理,通过协同过滤的方式预测用户未来的文献需求。评价指标显示本模型准确率为72.4%、覆盖率为14.6%、召回率为69.1%。能较好完成对文献的预测,实现对用户的个性化推荐,主动改善用户的文献检索环境。

关键词:二分图;随机游走;大数据;个性化;文献;推荐系统

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)02-0008-03

Abstrac: This paper for helps researcher solve the information overload problems in vast literature search. From the user's literature use behavior, use the Random-Walk bipartite graph theory of big data analysis to analysis and processing, Through collaborative filtering approach to predict user future literature needs. Evaluating indicator shows the model: Precision rate of 72.4%,Coverage rate of 14.6%,Recall rate of 69.1%. It can be better to complete the predict for literature, to realize the individuation recommendation for user, initiative to improve the user's literature retrieval environment.

Key words: bipartite graph; random walk; big data; individuation; literature; recommendation system

随着“中国创造”的不断提升和发展,科研工作中各学科的融合性和精细度越来越受到重视,海量的科研学术文献也日益涌现。然而,科研用户的文献检索方法仍多采用关键字检索,而简单同质的关键字检索:一方面不能充分表达用户的科研特色、侧重点及知识需求;另一方面检索结果过多而发生信息过载现象,造成用户花费大量时间筛选无关文献。同时通过期刊分类导航获得的文献也有科学局限性,无法很好服务于融合多学科的科研工程。

随着大数据、机器学习、web2.0等技术的出现与成熟,可通过人工智能的方式解决此类问题[1,2]。本文运用二分图模型算法,分析用户的文献使用行为特征、个人属性和文献特征。一方面通过用户之间的行为相似度,分析用户兴趣,预测用户真实及潜在需求的文献需求并向其主动推荐,以帮助用户面对海量文献资源不易找到适合自身需求文献的信息现象;另一方面挖掘每篇文献的知识价值,将适合的文献推荐给适合的用户,而不仅仅推荐新、热方向的学术文献,解决因海量文献所产生的长尾效应(The Long Tail)。

1 研究思路

将用户对文献的使用行为(如:下载、阅读),视为用户对具体某文献的兴趣和知识需求。在多用户使用文献的行为中,行为相似性越高,表明其行为和知识需求越相似。通过对行为相似度分析,发现用户还未产生行为而有知识需求的文献,这类文献或是用户当前研究点中需要的知识,也或是下一步研究领域中的潜在需求知识。最终将满足用户个性化需求的文献主动推荐给用户。让用户从知识圈、兴趣圈的角度获取文献,这属于大数据分析中以协同过滤方式对海量“用户-文献”行为进行分析的方法。

本文运用大数据分析技术中的二分图模型算法[3],来分析“用户-文献”之间的概率相关性。这是用顶点和边来表示概率分布的技术。将用户与文献2变量之间的关系独立编码在“图”中表示,使概率分布的表达表示成因子乘积的形式。其优点是可以更好的捕获随机变量间的关系。应用方法为:将用户使用行为转换为一系列无向二元组表达,单个二元组用V(u,l)表示用户阅读过文献l,阅读行为通过“边”e(u,l)来连接。“用户-文献”二分图模型如下图1示例:

其中un为具体用户顶点,ln为具体文献顶点。Vu为用户顶点集合,Vl为文献顶点集合。e为通过使用行为连接用户与文献的边。用户u1与l2、l3相连,表示该用户对这2篇文献产生过使用行为。文献l2与u1、u2、u3相连,表示该文献被这3名用户使用过。

3个性化推荐方法

为在二分图模型上分析用户文献使用行为,实现个性化推荐。首先将用户u的文献推荐任务转换为:度量与用户顶点u没有“边”相连的文献顶点l与用户u的相关性。对相关性的计算采用一种概率系数的方式[4]。然后将用户u对所有文献的相关概率进行排序,概率系数越高表示用户u选择某文献l的可能性越大。最后取概率最高的前30篇文献作为推荐列表向用户展示,来实现用户个性化文献推荐。

影响用户与未产生行为的文献之间相关概率的因素有:1从用户顶点到文献顶点间“边”的数量;2用户顶点与文献顶点间“边”的长度;3同类2顶点之间“边”经过的异类顶点数。

具有较高相关概率的2顶点的特征有:12顶点之间的“边”长度较短;22顶点之间“边”的路径较多;32顶点之间的“边”未经过较大Out-Degree(出度)的顶点。

3.1数据准备

将“用户-文献”行为数据集按行为产生的时间轴分为8份。先产生行为的7份作训练样本,用来计算用户对未行为文献的相关性。最后1份作测试样本,与训练样本计算出的文献作对比验证,以评价算法的计算准确性。通过创建Numpy运算符和科学计算包以调用函数。采用二分图模型中基于随机游走的Personalrank算法来计算“图”中2顶点之间的相关概率[5]。初始化各顶点的初始概率值:用户u顶点的初始游走概率α=1,文献顶点的初始访问概率β=0,定义“边”的权重为1,然后运用迭代公式处理。

3.2算法实施

第一步,运用随机游走的路径选择方式,从用户un顶点开始,在“用户-文献”二分图中随机选择“边”e游走到下一个顶点[6]。到达一个顶点后,首先计算概率α=1-d判断是否继续游走。若继续游走:则又按照随机路径选择的方式,在当前顶点上选择一条“边”e向下一个顶点游走,到达后继续计算概率α重复下去。若计算出的概率α为停止:则回到用户un顶点,重新进行下一轮游走。针对某用户un经过这样多次随机游走后,将每篇文献顶点的被访问到的概率迭代到一起,就能获得一个收敛的稳定值。通过对文献访问概率排序,提取概率最高的30篇用户un未产生行为的文献,就能预测到与某用户高度相关的、有需求文献。

4.2实验结果

本实验采用CiteULike提供的数据集,该数据集含有1800多用户对1.2万篇文献的行为数据,其中包含“用户-文献”无向图数据6万多条。未人为去除噪音数据,计算结果能体现真实行为情况。对计算模型汇总的随机游走参数α,在多次测试计算中对比认为取0.87为最佳。

将本文构建的计算模型对训练样本进行计算,得出的推荐列表通过评价公式验证,其结果如下表1所示:

通过与理想状态下的朴素贝叶斯、K-NN算法比较,本模型的准确率和召回率差异不是太大,能较好实现对用户行为的分析和预测。覆盖率为14.6%说明计算模型能较好挖掘长尾文献。通过实验,发现数据维度的向量大小与时间、空间复杂度有很大关系。

5总结

本文针对海量学术文献的检索过程中,科研用户常遇到信息过载等现象而无法较好获取适合自身需求的文献的问题。结合当前大数据、机器学习技术中的二分图模型算法,分析多用户对文献的使用行为,发现用户未来的文献需求。实验结果反映算法能较好完成预测质量,达到向用户推荐文献的要求。能帮助用户解决信息过载问题,发掘相对较低流行度文献,体现科研内容价值。下一步研究中:一方面,可通过增加文献内容特征,提高计算准确率;另一方面,可运用基于位置敏感的LSH(哈希函数)来降低运算的空间、时间复杂度。

参考文献:

[1] 王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7):66-76.

[2] 肖诗伯,杨玉梅,兰鹰,等.基于多标签属性的学术文献推荐研究[J].情报探索,2015,(04):8-10.

[3] 张宏毅,王立威,陈瑜希, 等.概率图模型研究进展综述[J].软件学报,2013,(11):2476-2497.

[4] 刘建伟,黎海恩,罗雄麟, 等.概率图模型表示理论[J].计算机科学,2014,41(9):1-17.

[5] 原福永,蔡红蕾. 一种在信任网络中随机游走的推荐算法[J].现代图书情报技术,2014,30(10):70-75.

[6] 赵悦. 概率图模型学习理论及其应用[M].北京:清华大学出版社,2012:52-61

[7] 刘建国,周涛,郭强, 等. 个性化推荐系统评价方法综述[J].复杂系统与复杂性科学,2009,6(3):1-10.

猜你喜欢
推荐系统个性化大数据
坚持个性化的写作
新闻的个性化写作
基于用户偏好的信任网络随机游走推荐模型
上汽大通:C2B个性化定制未来
基于个性化的协同过滤图书推荐算法研究
个性化推荐系统关键算法探讨
浅谈Mahout在个性化推荐系统中的应用
基于大数据背景下的智慧城市建设研究
满足群众的个性化需求