叶加加++赵逢禹
摘要:兴趣模型是一种根据用户的行为和偏好建立起来的数学模型,它反映用户在一段时期内对信息需求的主要倾向。通常的兴趣模型推荐主要基于用户兴趣,没有考虑到热点信息对用户的影响以及存在冷启动的问题。提出一种基于兴趣预测和热点分析的联合推荐算法,利用贝叶斯网络对用户兴趣进行预测,并利用基于速度增长的预测方法对当前的热点信息进行预测。该方法综合考虑了兴趣预测与热点预测,能够有效增强用户兴趣预测准确度。实验证明,该方法(BPUR)比传统的Bayesian方法准确率更高,能够有效避免新用户的冷启动问题。
关键词:贝叶斯网络;兴趣预测;热点信息;联合推荐
DOIDOI:10.11907/rjdk.161375
中图分类号:TP312
文献标识码:A文章编号文章编号:16727800(2016)009002504
基金项目基金项目:国家质检公益性行业科研专项(201310032-3)
作者简介作者简介:叶加加(1991-),男,安徽合肥人,上海理工大学光电信息与计算机学院硕士研究生,研究方向为人工智能推荐系统;赵逢禹(1963-),男,山东济南人,博士,上海理工大学光电信息与计算机工程学院教授、硕士生导师,研究方向为计算机软件与软件系统安全、软件工程与软件质量控制、软件可靠性。
0引言
网络包含了海量信息,但缺乏高效的工具把有用的信息推送给用户。搜索引擎技术的出现,方便了人们对海量信息的筛选,但搜索引擎面向的是所有用户,是将通用性的结果返回给用户,难以满足用户的个性化需求。个性化推荐技术的出现在一定程度上解决了这些问题,它通过用户行为数据分析,自动生成用户比较感兴趣的内容并直接向用户推荐,为用户提供个性化、有特色的信息服务。
Philip使用贝叶斯层次模型[1]将显式与隐式反馈互相混合来创建用户的兴趣模型,通过向其他用户借用类似兴趣,向新用户推荐合适的内容,从而避免新用户的冷启动问题。Mariam等[2]利用图来表示用户的搜索兴趣模型,使用等级相关性度量方法来划分用户会话,将相关性较强、能够以确定用户兴趣的搜索划分到同一个会话中。Peilin[3]提出一种基于用户对地点评价的方法建立用户的兴趣模型,以基于用户所处地理位置对项目的评价来分析用户的喜好,以达到更精确推荐的目的。
系统的推荐性能容易受到热点信息的影响。Cataldi等[4] 针对热点话题提出了时序与社会关系混合评价的方法。在一个时段内,某个话题被检测多次,但在此之前很少被检测到,则可认为该话题有较大几率成为热点话题。Phuvipadawat等[5]提出了一种对Twitter中检测具有爆炸性新闻的方法,利用采集、分类和排列等方法进行检测。基于空间向量模型,文献[6]介绍了基于SP&HA算法的热点话题检测。文献[7]中提出的热点话题发现方法采用了垂直搜索引擎、文本分析法和挖掘技术。
可以看出,基于用户行为的兴趣模型研究与基于时序与空间向量的热点话题发现在用户个性化推荐上取得了一定的成果。但笔者认为目前大部分推荐模型只是基于用户本身的兴趣进行推荐。实际上,热点信息对用户兴趣也会产生一定的影响。当新用户仅有少量文档时,兴趣模型和热点推荐存在盲区,系统无法给出即时的信息推荐,存在冷启动问题。
针对以上问题,本文提出基于用户兴趣预测和热点分析的联合推荐算法,通过记录用户行为来构造用户的兴趣模型,并使用贝叶斯网络来预测用户兴趣,在此基础上,利用基于速度增长的热点预测方法预测当前信息的流行趋势,给用户推荐近邻热点信息。考虑到新用户创建时文档较少,无法产生推荐信息,为避免冷启动,本文引入近邻热点推荐算法。
1相关工作
对于个性化推荐系统,用户兴趣模型作用非常重要。早期的个性化推荐系统中,研究者主要关注信息的筛选和过滤,用户兴趣以记录文本信息的方式存在。后来,随着研究的深入,有些学者将机器学习的相关技术运用到个性化兴趣建模中[8]。构建兴趣模型主要是从一系列纷乱繁杂的数据记录中发现用户偏好,而机器学习在处理这类问题上有着天然的优势。贝叶斯网络是基于概率推理的图形化概率网络,是不确定知识表达与推理领域最有效的理论模型之一,它将经典的概率论与图论结合起来,用于发现随机变量之间的潜在关系,适用于表述和分析不确定的事件,可以从分散的、粗糙的信息中作出推理。
系统的推荐性能容易受到热点话题影响。话题探测与追踪技术为网络热点话题发现提供了技术支持。话题检测与跟踪是在没有人工干涉的情况下研究如何自动发现新闻信息中的话题[9]。如今话题探测与追踪技术在网络媒体上的应用已层出不穷。
4结语
针对现有兴趣模型中没有考虑到新闻热点对用户
的影响以及存在冷启动的问题,本文提出一种基于兴趣预测的联合推荐算法。首先,基于用户行为建立用户兴趣模型,采用基于平均阅读时长的方法估计用户对目标的兴趣高低,从而产生隐性评分。在兴趣预测阶段,考虑用户兴趣的多样性与非相关性,引入朴素贝叶斯方法预测用户兴趣集,并综合一定时间内的新闻热点,给用户作出联合推荐。实验结果证明,本文方法较传统的基于贝叶斯预测的推荐方法有着更高的预测推荐精度。下一步研究工作将在用户兴趣模型建立阶段引入更能表征用户兴趣变化的方法,以建立能更准确地反映用户兴趣转移和变化的模型,以提高预测推荐精确性。
参考文献:
[1]ZIGORIS P, ZHANG Y. Bayesian adaptive user profiling with explicit & implicit feedback[C].Proc of the 15th ACM International Conference on Information And Knowledge Management. ACM, 2006: 397404.
[2]DAOUD M, LECHANI L T, BOUGHANEM M. Towards a graphbased user profile modeling for a sessionbased personalized search[J]. Knowledge and Information Systems, 2009, 21(3): 365398.
[3]YANG PEILIN,FANG HUI.Opinionbased user profile modeling for contextual suggestions[C].In:Proceedings of the 2013 Conference on the Theory of Information Retrieval,ACM,2013:18.
[4]CATALDI M, CARO L D, SCHIFANELLA C. Emerging topic detection on twitter based on temporal and social terms evaluation[C].Proceedings of the Tenth International Workshop on Multimedia Data Mining.ACM,2010:110.
[5]PHUVIPADAWAT S, MURATA T. Breaking news detection and tracking in twitter[C].Web Intelligence and Intelligent Agent Technology (WIIAT), 2010 IEEE/WIC/ACM International Conference on. IEEE, 2010:120123.
[6]孙胜平. 中文微博客热点话题检测与跟踪技术研究[D]. 北京:北京交通大学, 2011.
[7]张劭捷. 基于微博社交网络的舆情分析模型及实现[D]. 广州:华南理工大学, 2011.
[8]胡昌平, 胡吉明. 个性化服务中基于支持向量机的用户兴趣挖掘分析[J]. 情报学报, 2009, 28(4):543547.
[9]R NALLAPATI, A FENG, F C PENG, et al. Event threading within news topics[C]. Proceedings of the Thirteenth ACM Conference on Information and Knowledge Management, Washington DC, New York: Association for Computing Machinery, 2004: 446453.
[10]CLAYPOOL M, LE P, WASEDA M, et al. Implicit interest indicators[C].Proceeding of the ACM Intelligent User Interfaces Conference(IU).New York:ACM Press,2001:1417.
[11]薛素芝, 鲁燃, 任圆圆. 基于速度增长的微博热点话题发现[J]. 计算机应用研究, 2013, 30(9):25982601.
责任编辑(责任编辑:杜能钢)