题网络新闻个性化推荐系统策略研究

2017-09-09 00:05刘世杰程齐凯
软件导刊 2017年8期
关键词:协同过滤网络新闻

刘世杰+程齐凯

摘 要:网络新闻是目前最重要的网络应用之一,其巨大的信息量产生了信息过载问题。为有效缓解信息过载问题,通过网络调查、文献研究、对比分析等研究方法分析了网络新闻推荐中的相关策略,并利用系统分析的方法研究推荐系统模型。总结出可应用于网络新闻领域的个性化推荐系统的推荐策略,构建基于不同推荐策略的推荐系统模型,并分析了网络新闻个性化推荐系统存在的问题和难点,提出其未来发展方向。

关键词:网络新闻;推荐策略;基于内容推荐;协同过滤;混合式推荐

DOIDOI:10.11907/rjdk.171364

中图分类号:TP319

文献标识码:A 文章编号文章编号:1672-7800(2017)008-0146-03

0 引言

随着互联网的高速发展和移动设备的快速普及,网络新闻已经成为最重要的网络应用之一,根据CNNIC第38次中国互联网络发展状况统计,截至2016年6月,我国网络新闻用户规模为5.79亿,网民的网络新闻使用率达到了81.6%,而且,用户规模还将持续高速增长。

与此同时,互联网每天都会产生海量的信息,呈现几何级数增长,网络新闻亦是如此。海量的新闻信息在满足用户信息需求的同时,也产生了信息过载(Information Overlord)问题:受众在将大量的信息转化的过程中存在着“瓶颈”和“障碍”,无法将其内化为自己所需知识而加以有效吸纳,导致了“过载”[1]。简言之,过量的新闻信息使得人们选择自己所需新闻的难度越来越大,严重影响了用户对新闻信息的阅读和获取体验。

针对信息过载问题,目前主要的解决方案是信息检索技术和个性化推荐技术。以搜索引擎为代表的信息检索技术,用户可以通过关键字检索获取自己所需信息,但同一关键字搜索的结果是一致的,无法满足个性化的信息需求。而个性化推荐系统很好地解决了这一问题,它依据用户的个性化需求、兴趣爱好等,使用不同的推荐算法,自动将用户感兴趣的信息和产品推荐给用户,为用户提供个性化的服务,同时也能增加用户依赖,提高用户忠诚度[2]。

个性化推荐系统最早起源于B2C电子商务,电商平台通过推荐系统推送用户感兴趣的商品,进一步转化为商品购买,从而提高销售量。随着互联网的快速发展,个性化推荐系统从电子商务延伸到了音乐、电影、广告以及网络新闻等领域,为用户提供更加个性化的信息和产品服务。

本文对网络推荐系统做了调查和分析,从宏观视角综述了网络新闻个性化推荐系统的策略,总结了推荐策略存在的问题和难点,提出了未来发展方向。

1 体系结构

一般而言,推荐系统由3个部分组成:用户模块、推荐对象模块和推荐算法模块(或叫推荐策略),这一系统的组成具有通用性[3]。在网络新闻推荐系统中,与之对应的是新闻用户建模模块、网络新闻模块以及推荐算法模块,这一推荐系统的模型如图1。

新闻用户建模模块利用用户偏好获取系统收集用户兴趣爱好,建立用户特征数据库;网络新闻建模模块提取、描述、建立网络新闻的内容特征;推荐算法模块根据特定的模型,计算网络新闻的内容特征与用户阅读兴趣特征之间的相似性,将相似性较大的网络新闻推荐给用户。

2 推荐策略

讨论网络新闻的个性化推荐策略,要把通用推荐系统的一般性和网络新闻推荐的特殊性相结合。网络新闻的时效性很强,新闻的发布速度快,更新速度快,生命周期非常短,不同于音乐、电影等。此外,用户的阅读兴趣也很容易受当前热点事件的影响。

传统的网络新闻推荐策略主要是对热门新闻的推送和RSS订阅。热门新闻推送方式下,所有用户得到的推荐结果都是相同的,缺乏个性化,而RSS订阅是一种被动的推送,两者都不是很好的推荐方式。目前在网络推荐中应用较多的推荐方式有4种:基于内容的推荐(Content-based Recommendation)、协同过滤推荐(Collaborative Filtering Recommendation)、混合式推荐策略(Hybrid Recommendation)以及近几年兴起的基于社会化网络的推荐(Social Network-based Recommendation)。这些推荐策略在网络新闻推荐中广泛应用。

2.1 基于内容的推荐

基于内容的推荐方式借鉴了信息检索的一些思想,根据用户的历史使用信息,检索与用户历史使用信息相似度最大的产品和信息,将其推荐给用户。这一推荐方式在网络新聞的推荐中应用较为广泛,根据用户阅读过、评论、分享或者收藏的新闻,提取共性,建立用户新闻偏好文件,根据一定的计算方法,计算用户的偏好特征与待推荐新闻内容特征的相似性,最后将相似性较大的网络新闻推荐给用户。

基于内容的推荐方式的系统模型如图2,设用户s对于对象c的效用度,即两者的特征匹配度为函数u(s,c),用户的偏好特征为函数Preference(s),新闻的内容特征为函数Content(c),则效用度u(s,c)是Preference(s)和Content(c)的函数[4],即:

u(s,c)=score(Preference(s),Content(c))

score的计算方法有很多种,较为简单的有计算向量夹角的余弦方法[5]等。

新闻阅读中,用户关注的是网络新闻的内容,因而,基于内容的推荐方式是目前网络新闻个性化推荐的主流方式。譬如,在移动端网络新闻推荐中广为应用的基于新闻主题检测和跟踪的推荐方式,就是基于内容推荐的方式。目前,很多移动新闻客户端都采用这一推荐方式,提供给用户主题和内容相似度较高的新闻推荐。

2.2 协同过滤推荐

协同过滤推荐方式是较早出现的一种推荐策略,是目前较为成熟、且应用最为广泛的一种推荐策略,在B2C电商中被大量应用,在网络新闻推荐中也有着重要应用。endprint

协同过滤是一种基于兴趣相同的用户以及喜好相同的项目进行的推荐,它依据与目标用户兴趣相似的用户(邻居用户)的偏好信息,依据一定的规则,提供对目标用户的推荐信息[6]。具体到网络新闻推荐,先根据新闻用户的历史阅读、分享、评论以及评价等使用信息,计算出用户相似度,找出与其兴趣相似的邻居用户集,再利用邻居用户的兴趣偏好来预测目标用户可能喜欢的新闻,并将其推荐给目标用户。

协同过滤的推荐系统的简单模型如图3,目标用户为u,邻居用户为n,邻居用户集为N,其算法核心是通过用户相似度计算,得到u的邻居用户集N,借助邻居用户ui(s,c),预测目标用户u的效用值u(s,c)[6]。

协同过滤推荐的方式可进一步分为两种:基于记忆(或叫启发式)的协同推荐(Memory-based)、基于模型的协同推荐(Model-based)[4,7]。两者的主要区别在于:基于记忆的协同推荐是先找出目标用户u的邻居用户集N,然后根据邻居用户ui对推荐对象s的使用和评价信息,预测s对u的效用值,从而判断是否把s推荐给u;而基于模型的协同推荐则是利用目标用户u已知的兴趣偏好数据,训练、学习一个新的模型unew[3],使用特定的计算模型,计算、预测模型unew对推荐对象s的效用值,从而判断是否推荐。

新聞受众的需求具有一定的稳定性,即他们总是对特定主题和特定内容的新闻拥有持久的兴趣,比如追星族和军迷,前者需求的新闻总是与特定明星相关的娱乐新闻,后者则对军事新闻需求较为稳定。协同过滤推荐的方式很好地满足了新闻受众需求稳定性的特征。对于某一网络用户,通过用户相似度计算,分析其所属的新闻用户群体,提供特定主题和内容的新闻,满足用户需求。

2.3 基于社会网络的推荐

基于社会网络的推荐是近几年兴起的一种推荐方式,Web2.0时代,网络社交应用盛行,网民的行为越来越网络化和社区化[8]。社会网络分析(SNA)的研究表明,网络社区中关系密切的群体往往会有相似的兴趣爱好,社会化推荐系统正是基于这一研究成果,根据目标用户的社会关系信息,构建用户的社会关系网络模型,根据这一模型和已知的用户兴趣模型,提供信息和产品推荐。

如图4,社会化推荐系统可大致分为4个层次[8]:

(1)数据采集层。获取用户的社会网络信息、使用和评价信息等。

(2)数据预处理层。筛选、处理数据,建立社会化网络模型等。

(3)推荐生成层。依据社会化网络模型计算匹配数据,提取推荐对象。

(4)用户层。接受、评价和反馈推荐结果等。

随着社交应用的盛行,社交应用和新闻类应用存在功能上的融合,在社交平台阅读新闻的用户比率越来越高。企鹅智库2016年的调查显示:2015年,有70.2%的用户比过去更频繁地用社交应用看新闻,社交平台逐渐成为网络新闻的重要阅读平台之一,社会化推荐系统在社交平台的网络新闻推荐中的作用也将越来越大。

2.4 混合式推荐

混合式推荐,也叫组合推荐,将多种推荐方式结合使用,取长补短,弥补各自推荐技术的弱点,得到最佳推荐结果。组合推荐中应用较多的是内容推荐和协同过滤推荐的组合,以及协同过滤中基于记忆推荐和基于模型推荐的组合。

混合式推荐可以分为横向和纵向组合。横向组合是将多种推荐系统的推荐结果按照权重组合,提取最佳推荐结果。纵向组合是一种分层过滤方式,将一种推荐方式的推荐结果作为另一种推荐方式的推荐对象,过滤掉匹配度较低的推荐结果,获取最佳推荐。

3 问题与难点

本文简单介绍了4种不同的网络新闻个性化推荐方式,虽然以这些推荐方式为基础的推荐系统都已经广泛应用,但它们依旧存在一些问题与难点,无法满足网络用户和网络新闻的高速增长需求,笔者总结了几种典型问题。

(1)隐私和安全问题。个性化推荐系统需要利用用户的使用记录、兴趣偏好等用户信息,而很多用户不愿意暴露自己的个人信息,因此推荐系统难以获取完整的用户行为和历史记录数据。再者,由于推荐系统中存在大量用户的个人信息,一旦泄露和被窃取,极易形成犯罪,危害社会公共安全。

此外,推荐系统也会有推荐攻击的安全问题,推荐攻击是指攻击者恶意制造虚假数据,通过向推荐系统注入虚假用户,以使系统的推荐结果产生偏差[9]。

(2)冷启动问题。所谓冷启动问题,即新用户和新对象由于没有历史数据,系统无法提供推荐,这是在协同过滤推荐中面临的主要问题[10]。

在网络新闻的个性化推荐中,新的用户和最新的新闻加入推荐系统后,由于没有历史使用数据,无法建立相关模型,直到新用户有一定的使用信息,以及新的新闻有了阅读、评论、分享等使数据时,推荐系统才有可能推荐它。

(3)稀疏性问题。 协同过滤推荐中也存在稀疏性问题,稀疏性问题是指:在推荐系统中,用户已经评价的产品相比所有产品总量,数量要少得多,影响了推荐效果[11]。以网络新闻推荐为例,海量的网络新闻中,用户阅读、收藏和评价过的新闻十分有限,这就使得用户-新闻评分矩阵的数据极端稀疏,导致用户和新闻相似性计算结果的准确率比较低,降低了推荐系统的推荐精准度。

(4)扩展性问题。随着网络新闻用户的日益增多,以及网络新闻数据量的飞速增加,推荐系统的规模不断扩大,推荐算法的数据压力不断增大,扩展性问题凸显。推荐算法的扩展性问题不能得到很好的解决,将直接影响推荐系统的实时性和准确度,成为制约网络新闻个性化推荐系统性能的技术瓶颈。

4 总结与展望

在互联网的迅猛发展下,随着信息过载问题的逐渐凸显,用户对推荐系统的需求越来越大,网络新闻的个性化推荐也得到了广泛的应用,但有很多问题尚待改善。除上文提到的问题有待解决外,笔者也列举了网络新闻个性化推荐的一些发展方向。endprint

(1)优化推荐算法,提高推荐的效率和精准度。推荐的核心在于算法,未来需要进一步提高目前推荐算法的性能,探究高性能算法,比如基于上下文感知、基于复杂网络和图的理论等推荐方式应得到研究和应用,提高新闻推荐的精准度。

(2)增强用户交互,提升用户体验。通过用户交互的方式,让用户通过自身的体验主动地调节和改善推荐系统,激发用户的参与性。目前已有部分移动新闻平台开始尝试这一方式,未来应当得到进一步推广和优化,既能提高推荐结果的准确度,也有助于提升用户体验。

(3)移动新闻推荐将是主流方向。随着移动设备的快速普及和移动互联网快速发展,移动端网络新闻的阅读量的占比越来越高,未来,移动新闻推荐将是网络新闻推荐的主流方向。

参考文献:

[1] 蔺丰奇,刘益.信息过载问题研究述评[J].情报理论与实践,2007,30(5):710-714.

[2] 王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012,48(7):66-76.

[3] 许海玲,吴潇,李晓东,等.互联网推荐系统比较研究[J].软件学报,2009,20(2):350-362.

[4] ADOMAVICIUS G,TUZHILIN A.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].IEEE Transactions on Knowledge & Data Engineering,2005,17(6):734-749.

[5] 陳雅茜,刘韬,方诗虹.推荐系统及其相关技术研究[J].西南民族大学学报:自然科学版,2014,40(3):439-442.

[6] 马宏伟,张光卫,李鹏.协同过滤推荐算法综述[J].小型微型计算机系统,2009,30(7):1282-1288.

[7] 刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展,2009,19(1):1-15.

[8] 孟祥武,刘树栋,张玉洁,等.社会化推荐系统研究[J].软件学报,2015,26(6):1356-1372.

[9] 余力,董斯维,郭斌.电子商务推荐攻击研究[J].计算机科学,2007,34(5):134-138.

[10] RESNICK P,VARIAN H R.Recommender systems[J].Communications of the Acm,1997,40(3):56-58.

[11] 代金龙.协同过滤算法中数据稀疏性问题研究[D].重庆:重庆大学,2013.endprint

猜你喜欢
协同过滤网络新闻
网络新闻在公共管理中的作用及影响
改进的协同过滤推荐算法
分析网络新闻的感性面对及思考
浅析网络新闻编撰的发展演变
采写网络新闻要成为“多面手”
网络新闻的交互性应用
如何写好网络新闻