安丽达 王娟
摘要:随着互联网的发展,人们获取信息的方式发生了巨大变化,但也伴随着信息量过载的问题。推荐系统帮助用户在海量信息中获取自身所需的数据,而新闻领域的独特性成为推荐系统发展的一个重要方向。本文重点介绍了传统的推荐算法包括基于内容的推荐、基于协同推荐和混合推荐的主要内容和在新闻领域中的研究现状,然后对比不同推荐算法在新闻领域应用的优缺点,并简要介绍基于人工智能的推荐系统。
关键字:新闻推荐;基于内容推荐;基于协同推荐;混合推荐
引言
随着互联网技术的迭代更新,传统的纸媒、电视获取新闻逐步变成了通过网站在线阅读新闻,同时也伴随着另一个问题的出现——信息过载,解决该问题的一种方法就是推荐系统。一个好的新闻推荐系统除了能为用户推荐喜欢的新闻,与用户建立密切的关系,让用户对系统推荐产生依赖性,还能为新闻网站带来更多的流量和可观的经济效益。与电影推荐等其他领域的推荐系统相比,新闻推荐具有时效性高、项目相关性变化快等独特性。本文分别介绍基于内容推荐、基于协同推荐和混合推荐的主要研究内容和方法,以及三者在新闻领域中的研究现状,分析和对比三者之间的差异。
1. 传统的推荐算法
1.1 基于内容的推荐算法
基于内容的推荐算法是以用户产生过阅读行为的项目为中心,通过提取项目的特征值来搜寻其他相似的项目,然后生成一个推荐列表并推送给用户。对于新闻文章不受限制的自由文本数据而言,最基础的提取项目特征的做法是将文章看作词的集合,将用户看作浏览历史的文本所包含词的结合,根据两者的相关性进行匹配再推荐,在获取新闻的特征向量时可以采用将推荐内容转换成若干关键词的形式[1]。
YourNews個性化新闻访问系统,为不同主题分别维护单独的兴趣记录,用户对这些主题的兴趣信息可以从用户的新闻浏览历史记录中抽取的加权词向量表示,系统在收集用户过去浏览的N篇文章中,抽取权重最高的100个词来生成用户最终的原型向量[2]。许多个性化推荐系统使用文本数据中单词的词根形式将非结构化数据转化为结构化数据,而其对应的值使用TF-IDF权重值(词频-逆文件频率),词的TF-IDF权重值越大代表词在文章中的重要性越高,值较大的几个词,就是文章的关键词。文献[3]使用TF-IDF方法为新闻标题中的每个单词赋予权重,并使用余弦相似性计算文章之间的相似性来推荐新闻,并验证其推荐结果与在线新闻门户网站Microsoft News上的读者新闻历史使用命中率为80.77%。
1.2 协同过滤推荐算法
协同过滤推荐算法的基本思想是根据用户历史行为和兴趣偏好,发现和分析用户之间的相似性,进而推荐给用户与他们兴趣相似的项目。该算法分为基于用户、基于项目的协同过滤算法。
1.2.1 基于用户的协同过滤
基于用户的协同过滤是依据用户的行为信息,利用用户的兴趣爱好构建用户之间的共同特征,再利用特征,把类似用户的偏好推荐给用户。不同于基于内容的推荐算法,基于协同过滤算法与领域无关,除了用户对项目的评分信息外,协同过滤不需要任何的项目描述信息。
GroupLens[4]是一个使用协作过滤推荐网络新闻的系统,旨在帮助人们在大量可用文章中找到他们喜欢的文章,系统使用评级服务器(better bit bureaus)收集和传播对个人用户和文章的评级和预测的结果。使用线性模型将MinHash聚类算法、潜在概率索引算法(PLSI)和协同访问计数结合起来形成推荐结果,该方法与内容无关,因此易于适应其他应用和语言[5]。
1.2.2 基于项目的协同过滤
该方法是根据用户有过访问行为的项目,寻找与其具有相似度的其他项目,然后计算项目之间的相似度,通过这些相似项目产生推荐给用户的项目集。如果越来越多的用户同时喜欢这两个项目,就表示两个项目之间的相似度高。对于新用户或新闻,由于新闻数量大,用户对大部分新闻没有访问,缺乏历史访问记录,难以进行个性化推荐,会造成冷启动问题;随着用户和项目不断地增长,基于项目的协同推荐算法存在数据稀疏问题,以及无法捕捉用户兴趣变化问题[6]。由于新闻种类多、数量大并且更新速度快,如果使用基于项目的协同推荐算法,则建立的新闻评分矩阵和新闻相关度表需要实时更新,实时刷新的相似度表会成为灾难。因此,在新闻领域中,需要结合其他推荐算法和技术成为混合推荐算法,以克服基于项目的协同过滤推荐算法的局限性[7]。
1.3 混合推荐
混合推荐就是将多种不同的推荐算法进行组合,结合它们的优点来推荐,从而使推荐效果更准确。总结了七种组合方法:加权混合(weighted)、切换混合(switching)、合并混合(mixed)、特征组合混合(feature combination)、层叠组合混合(cascade)、特征增强混合(feature augmentation)、元级混合(meta-level)[8]。本文简单列举其中较流行的组合。
(1)加权混合(weighted):把多种推荐技术的结果以分数或者投票的形式按照加权混合产生推荐结果,其中最简单的是线性混合方法。加权混合的好处在于系统的性能与推荐过程相关,这样很容易进行事后贡献度分配并相应地调整混合模型。
(2)切换混合(switching):允许根据不同的问题背景和实际情况,切换不同的推荐算法,选择最适合的进行计算。因为需要设置转换标准,所以该方法会增加算法的复杂度和参数化。切换混合的好处是对各种推荐技术的优点和弱点比较敏感。
(3)特征扩充混合(feature augmentation):使用一种方法对项目进行评分或分类,然后将该信息嵌入另一个推荐技术的特征输入。特征扩充与特征组合都是用于提升系统的性能,特征组合是将来自不同来源的原始数据进行合并,而扩充技术是通过中介使用其他技术来增强数据本身,从而添加附加功能。文献[9]将基于内容过滤算法的覆盖率和速度与协同过滤的深度相结合,应用于在线报纸,通过计算基于内容的过滤和协同过滤的加权平均来进行混合,从而实现预测的个性化和准确性。文献[10]设计的Daily Learner采用基于内容和基于协作的切换混合模型,优先采用基于内容的推荐算法,如果基于内容的推荐算法不能充分地进行推荐,则尝试基于协同推荐算法。文献[11]研究表明GroupLens研究团队与Usenet新闻过滤合作,使用特征扩充混合模型实现了基于知识的“过滤机器人”,使用“拼写错误的数量”和“包含的消息大小”等特定的标准,向评级数据库提供评级来协作部分的系统,用来改善电子邮件过滤的性能。
结语
基于内容的推荐算法根据用户过去行为记录推荐相似的新闻,因此推荐结果往往缺乏多样性,新闻覆盖率不高。在新闻领域中,协同推荐算法使用的是系统记录的用户行为,存在冷启动、数据稀疏和难以捕捉用户兴趣变化的问题,融入时间因素、信任因子和知识图谱等基于协同过滤的改进算法往往能取得较满意的推荐效果。混合推荐是结合两者优点。随着人工智能技术的发展,将人工智能技术融入推荐系统可以大幅提升系统的性能。深度学习可以表征与用户和项目相关的海量数据,从丰富的多源异构的数据中获得数据深层次的特征表示;知识图谱可以快速挖掘用户和项目相关的实体、关系,为推荐系统提供更丰富、更有效的信息,缓解传统推荐的不足,提高推荐系统的精准性和推荐结果的可解释性;强化学习技术可以通过模型与用户的交互,实时优化推荐策略,提升推荐系统的准确性和用户的满意程度。融入各种人工智能技术的新闻推荐系统将是研究的重要方向。本文重点介绍和分析了传统推荐方法:基于内容推荐、协同推荐和混合推荐,整理总结了不同推荐模型在新闻领域中应用的优缺点,对未来新闻推荐系统发展进行了展望。
参考文献:
[1]刘维超,杨有,余平.基于内容的新闻推荐系统研究综述[J].福建电脑,2019, 35(9):71-74.
[2]何颖,刘英华,邹妍.基于内容推荐的新闻推荐策略优化和实现研究[J].现代计算机,2021,(4):117-120.
[3]蒲彬.基于社交信号的个性化新闻推荐系统的设计与实现[D].北京:中国科学院大学,2015.
[4]白莉婷.用户画像构建与社群推荐技术研究[D].西安:西安电子科技大学,2021.
[5]刘金亮.基于主题模型的个性化新闻推荐系统的研究与实现[D].北京:北京邮电大学,2013.
[6]蒋宗礼,汪瑜彬.一种个性化协同过滤混合推薦算法[J].软件导刊,2016,15(3):52-56.
[7]吴彦文,齐旻,杨锐.一种基于改进型协同过滤算法的新闻推荐系统[J].计算机工程与科学,2017,39(6):1179-1185.
[8]Burke R.Hybrid Recommender Systems:Survey and Experiments.User Modeling and User-Adapted Interaction[J].The Journal of Personalization Research,2002,12(4):331-370.
[9]陈铭权.基于主题模型的用户兴趣建模及在新闻推荐中的应用[D].广州:华南理工大学,2015.
[10]张兰兰.基于协同过滤的个性化新闻推荐系统的研究与实现[D].重庆:重庆大学,2016.
[11]纪幼纯.基于主题建模和分层隐变量模型的新闻推荐系统研究[D].厦门:厦门大学,2017.
作者简介:安丽达,硕士,助教,研究方向:人工智能、数据分析;王娟,硕士,讲师,研究方向:人工智能。