基于内容推荐的新闻推荐策略优化和实现研究

2021-03-25 04:06何颖刘英华邹妍
现代计算机 2021年4期
关键词:感兴趣标签物品

何颖,刘英华,邹妍

(赤峰学院数学与计算机科学学院,赤峰024000)

0 引言

推荐系统(Recommendation System)是一种信息过滤系统,根据分析用户的兴趣特点和历史行为数据可以预测用户对物品的评分或偏好,帮助用户决策分析[1]。推荐系统具有以下两个最显著的特性:①主动化。从用户的角度来看,传统搜索引擎解决信息过载是最直接,最有效的方式,但它需要用户有明确的目标,然后输入目标关键词进行搜索相似的内容,但是在实际生活应用中,用户有时不明确自己的需求甚至存在潜在的隐形需求,传统搜索引擎就无法向用户提供准确的服务。而推荐系统可以不必掌握用户的明确需求,而是通过分析用户的历史行为数据,主动为用户推荐用户感兴趣的信息。②个性化。推荐系统适合挖掘长尾数据[2](Long tail data),将用户感兴趣的信息个性化推送给用户,满足不同用户不同的需求。推荐系统已经开始广泛运用在各个领域,但是对于推荐系统的优化仍然是一个难以解决的问题,目前主流的推荐系统技术是协同过滤推荐[3](Collaborative Filtering Recommendation)技术或基于内容推荐(Content-based Recommendations)技术。协同过滤推荐技术一般又可细分为基于物品的协同过滤(Item-Based)和基于用户(User-Based)的协同过滤推荐,二者本质上没有区别,一般都是采用最近领[4](KNN)算法,只是各自侧重点不同,前者侧重于搜索物品相似度,后者侧重于搜索相似用户。内容推荐技术其主要思想是根据用户过去喜欢的物品,为用户推荐和用户过去喜欢的物品相似的物品。

在新闻领域,推荐系统将用户的特征作为依据,利用用户历史行为数据进而挖掘用户可能感兴趣的文章内容并推送给用户,以减少用户在新闻搜索上花费的时间和精力。基于内容推荐系统是当下最符合解决新闻信息在传播过程降低价值和效率的有效解决方式,考虑到单一推荐算法的不足,本系统根据用户自定义标签、行为属性以及兴趣爱好作为特征,将用户感兴趣的新闻推送给用户,对推荐系统进行了个性化推荐策略优化,解除了传统搜索引擎对明确目标需求的依赖,获得了有针对性地、用户喜爱的信息内容。该系统的实现对于提升新闻信息在用户中的推送效果、为用户增加良好的用户体验都有着较高的参考价值。

1 推荐策略优化

1.1 构建新闻的特征

在真实应用场景中,往往会使用一系列具有代表性的属性去描述物品的特征,这些属性通常可分为结构化属性和非结构化属性。本系统构建了新闻热度值属性与新闻标签属性来描述新闻特征。

(1)新闻热度值计算。对于特定新闻领域,其热度的公式计算是:

其中,hotValue 是新闻热度分,indexValue 表示初始新闻热度分,userValue 是用户交互产生的热度分,timeValue 代表随时间衰弱的热度分。新闻入库后,首先对新闻进行聚类分析,对于不同类型的新闻系统要为其赋予相应的初始热度值,随后该新闻进入推荐列表进行热度值排序;随着新闻不断被用户浏览、评价、收藏、阅读等,这些用户行为可被视为帮助提升新闻热度。由于新闻具有较强的时效性,因此新闻发布后,热度需随着时间推移而衰弱。

(2)新闻标签统计。构建自定义标签是为解决新用户加入系统后遇到冷启动问题,用户选择标签后系统生成“为你推荐”内容,这里为用户选取具有代表性的标签供用户选择:AI、技术、综艺、互联网、字节跳动、金融、特朗普、脱贫、公益、美国、新冠肺炎、文化、音乐、电影等标签。这些社会化的标签既可以作为新闻资源分类的工具,也可以侧面反映用户个人喜爱偏好。这部分伪代码如下:

1.2 计算新闻内容之间的相似度

在确定好新闻的特征和用户的偏好模型后,需要计算新闻之间的相似度。可以使用新闻主题词或者正文内容的重合度来衡量新闻的相似度。新闻标题是新闻正文的高度概括,当两则新闻标题重合度越高,新闻正文内容相似度也越高。因此本系统对新闻标题进行分词处理并提取出关键词,对于关键词相似度计算采用切比雪夫距离[5](Chebyshev Distance)计算方法。在二维平面中,计算点a(x1,y1)与b(x2,y2)横纵坐标差的最大值的计算公式如下:

1.3 评判用户是否喜欢

在推荐算法中评价用户是否喜欢物品主流技术是利用监督学习(Supervised Learning)或非监督学习(Unsupervised Learning),评判用户对物品的喜好程度,根据用户的喜好程度,为用户生成一个偏好模型,进而对未知的物品进行分析预测评判。

在基于内容推荐系统中,使用监督学习,利用用户历史阅读数据,学习用户对各种新闻的偏好程度,然后结合新闻标签特征计算出用户对新闻的偏好程度。

2 个性化推荐系统研究与实现

2.1 解决冷启动问题

推荐系统是基于用户大量的历史行为数据为用户进行相应的推荐,但是对于新加入系统的用户,系统中尚未存储新用户的历史行为数据,这就是冷启动问题。常见的解决冷启动实现方法如下:

(1)基于热门数据推荐实现冷启动。热门数据是指(某类)物品依照事先预定好的规则排序得到的排名靠前的数据。在冷启动时,推送的热门数据需要具有多样性,系统事先不知道用户的兴趣,而用户可能拥有很多不同的兴趣甚至潜在的兴趣,为了匹配到用户复杂多样的兴趣,系统同样需要提供多样的热门数据。热门数据反映大众的偏好,虽然不能个性化推荐给用户,但是当用户与热门数据进行交互,产生了历史行为数据之后,即可进行针对用户历史行为数据的个性化推荐,如图1 所示。

图1 个性化新闻推荐系统的热门数据

(2)利用用户注册信息。用户注册信息是指当新用户加入系统中所填写的信息。这些注册信息是用户与系统连接的桥梁,系统根据用户注册填写的信息分析用户感兴趣的新闻领域,并把属于用户感兴趣的领域的新闻推送给用户。在本系统中新用户在加入系统时,可以选择感兴趣的自定义标签,个性化推荐系统根据用户的注册时选择的自定义标签推送相应的新闻。此外,某些推荐系统将用户的注册信息以及第三方社交平台的个人信息采集起来,利用大数据技术构建一个包括但不限于用户性别、职业、收入、兴趣点等属性的精准用户画像[6],这种基于大数据用户画像的推荐系统,其推荐精度得到了大幅提升,收到用户广泛好评,如图2 所示。

图2 新用户选择感兴趣的自定义标签

2.2 个性化推荐策略

个性化推荐系统需要灵活多变的推荐策略以满足不同的用户的不同需求,系统需要根据用户的兴趣特点推荐其感兴趣的对象的活动。个性化推荐策略既能丰富新闻推荐系统的维度,又能满足不同维度偏好的用户在浏览过程中激发其潜在的兴趣发展需求。系统的构建策略和使用流程主要可分为以下几个阶段:

①用户登录个性化新闻推荐网站,②网站自动检测用户是否注册,③不同用户不同的推荐策略,对于新用户进行注册并让用户选择感兴趣的新闻领域,即选择自定义新闻标签。如果不选择自定义标签,则自动推荐实时热门数据;对于已经注册过用户,检测数据库是否存储用户的历史行为数据,以分析用户对新闻的偏好程度并把用户感兴趣的新闻推送给用户。如果用户虽然已经注册,但是数据库尚未存储用户的历史行为数据,则检测该用户是否选择了自定义标签,若存在自定义标签,则按自定义标签予以推荐,没有选择自定义标签则推荐热门数据,如图3 所示。

图3 个性化推荐策略流程图

2.3 基于Vue.js框架搭建前端界面

Vue.js 是一套轻量级的基于MVVM[7](Model View ViewModel)设计构建用户界面的渐进式JavaScript 框架,与其他重量级框架不同的是,因其被设计为可自底向上增量开发的逐层应用,使其具有高性能、灵活性强的特点,现如今已被各大互联网公司和组织采用。Vue.js 的主要优点有:①双向数据绑定,Vue.js 会实时自动响应数据的变化情况,Vue 通过Object.defineProperty()方法监考数据变化并更新视图,视图变化更新数据则可以通过事件监听实现,通常是使用input 标签监听input 事件,这也是Vue.js 最大的优点,通过MVVM思想实现数据的双向绑定,简化了Web 前端开发流程,大大提高开发效率。②组件化开发,Vue.js 通过组件把一个整体应用中的各种模块拆分到一个一个单独的组件中,降低了耦合度,便于后期维护系统。③具有丰富的组件库,在实际的开发过程中,丰富的组件库可以大大减少开发成本,提高开发效率。基于上述优点,本系统使用了Vue.js 框架搭建前端界面,如图4 所示。

图4 个性化推荐系统展示界面(部分)

3 结语

本文提出了基于内容推荐系统的推荐策略优化方法,通过个性化新闻推荐系统把用户感兴趣的新闻及时推荐给用户,并且解决了传统推荐系统对目的搜索的依赖以及推荐系统的冷启动问题,极大提升了用户粘性,避免用户流失,因此对于新闻门户网站,基于内容推荐的个性化推荐系统具有广阔的应用前景。本文研究的不足之处在于基于内容推荐系统新颖性不足,只能根据用户的历史行为数据进行预测推荐,不利于发掘用户潜在的感兴趣的新闻,因此在实际开发中可以结合多种推荐算法对它进行改进,例如可以将协同过滤技术和基于内容的推荐技术结合起来混合使用,可以达到取长补短的效果。这种混合推荐技术[8]可以利用加权、分层等方式进一步提升推荐的精度。通过一系列加权计算,找出两个算法相应的权重比例组合处理,得到最优结果并推荐给用户,分层方式把一个算法的输出作为输入到另一个算法,逐步缩小推荐候选集,进一步得到更为精确的推荐结果。

猜你喜欢
感兴趣标签物品
对自己感兴趣
不害怕撕掉标签的人,都活出了真正的漂亮
图画捉迷藏
让衣柜摆脱“杂乱无章”的标签
科学家的标签
科学家的标签
找物品
创意,源自生活的可爱小物品
编读往来
现在是几点