陈学辉 陈少镇 王培彬 蓝汝琪 熊梓韬
摘要:它的设计基于内容推荐系统,联合内容的推荐算法技术解析用户大批的行为数据,在个性化推荐系统中将新的资讯、有意思领域的资讯推荐给用户并通过页面进行个性化展示,以及把用户关注领域的最新进展资讯、有价值的信息或者可能喜欢的资讯推荐给用户。按照设计思路实现的实例它能在文章数量充足的数据库当中根据用户自定义的标签或者阅读过的文章推荐类似的资讯给用户,并展示在系统的推荐页面。达到了提高信息传播的价值、准确率和降低信息传播的偶然性的效果。
关键词:个性化推荐系统;行为数据;余弦相似度;兴趣偏好点;标签
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2019)09-0014-03
Abstract: Its design is based on the content recommendation system, combined with the content recommendation algorithm technology to analyze a large number of user behavior data, in the personalized recommendation system to recommend new information, interesting areas of information about the user and personalized display through the page, and the user The latest progress information, valuable information or information you may like in the area of interest is recommended to the user. According to the design idea, it can recommend similar information about users in the database with sufficient number of articles based on user-defined tags or read articles, and display them in the system recommendation page. It has achieved the effect of improving the value, accuracy and reducing the contingency of information dissemination.
Key words: personalized recommendation system; behavioral data; cosine similarity; interest preference point; label
1 概述
随着移动互联网的蓬勃发展,用户对信息的需求在大规模的信息量中得到满足,但由于信息量的大幅增长,用户未能在自身偏好点或者真正需要的信息中得到满足,从而降低了信息传播的价值和传播效率。就目前来说基于内容的推荐是最符合解决这类似问题的方式,它根据用户的标记、收藏、需求、兴趣、浏览记录等行为数据,作为用户偏好点的根据,并联合算法进行个性化计算分析,得出用户的行为偏好点,将符合用户偏好点的信息形成个性化推荐系统推荐信息给用户。个性化推荐系统区别于传统信息推荐系统。传统的做法是基于用户对信息有明确的需求查询,例如各种搜索引擎,根据目的搜索快速的获得信息,这是它的优点也是它的缺点,它要求用户必须提供明确的需求信息,因此不能满足用户对信息多样性的需求。前者根据后者的不足,对推荐系统进行了个性化推荐的设计,改进了传统信息推荐系统对目的搜索获得需求的依赖。
2 基于内容推荐算法的推荐系统
2.1 主要解决的两个问题
2.1.1个性化资讯推荐系统如何获取用户喜欢资讯类型
就目前来说,最主流的做法主要分为以下3种:
1)机器学习模型。由于数据存在变动性,它需要持续的调整和调优模型参数和超参数的学习更新过程,将过程循环迭代获得最有效的评估模型。再通过验证和离线评估,参考评估指标在一個或多个评估模型中获得较为符合的模型。
2)产品数据。实质上机器学习模型的检测都需要产品数据的参与。它可以通过分析一系列的数据,而不是仅限于单一的分类模型。持续变更的用户历史数据,提取历史行为记录里能代表资讯内容的关键词(标题的关键词更为明确),比如“经济”“裁员”“演唱会”等,并统计关键词出现的次数计算关键词的权重或者统计资讯所属的领域在哪方面,比如“政治”“娱乐”“体育”等,获取用户浏览最多的领域。
3)用户调查。内容的分布变动性和眼球效应(产品数据显性而被动的局限性)会对内容的推荐质量产生长久的影响。它可以把评定需要的指标纳入KPI考核中,但要明确的是不能单凭单一的KPI来评定最终的资讯内容质量。
2.1.2资讯内容相似度计算
结合以上关于产品数据的解析不难想到,可以提取两个资讯内容的关键词,对比它们的关键词是否相同来评定两个资讯存在的相似性。但是考虑到不同资讯内容它表达的语态、语法等还有一篇资讯可以有好几个关键词,很难做到文章中所有的关键词都匹配准确。所以在内容相似度计算的设计中需要基于两篇资讯的关键词进行匹配度的合理量化。
3 资讯推荐系统的设计与实现
设计的系统需要在用户自定义的标签和历史阅读资讯中收集数据,通过分析用户的行为数据和资讯的文本内容,提取出能代表用户和文章的关键词,如图1:
它把用户自定义的标签和资讯内容出现的关键词作为属性,再把用户的行为数据和资讯内容分解成向量的形似,如图2:
这样它就把文本数据转变为向量,然后利用余弦相似度计算向量的距离(如下公式),得出用户偏好点和资讯的相似度。
相对应公式转换为如下代码实现余弦相似度计算方法(D表示资讯词集、w[i][j]表示第i篇资讯中的第j个词):
这种计算过程虽说简单,从图1和图2的关键词来看,如果资讯里同时有体育、足球、中超关键词,显然直接匹配关键词“中超”比匹配关键词“体育”和“足球”准确,这就很有必要获得关键词的权重了,它可以通过如下公式计算资讯中每个关键词所占据的权重,精确相似度。
sim(user,text) = 资讯内容相似度(user, text) * 权重
不过,它还需要考虑到以上关键词匹配方法的局限性。以足球球迷用户为例,如果用户的偏好点是足球,而资讯内容的关键词是中超联赛、英超联赛和西甲联赛等,关键词间显然无法得到关联。所以需要在原来关键词匹配的基础上,结合聚类(关键词聚类)与用户进行相似度计算。
先把资讯的关键词聚类到一个主题中,例如中超联赛、英超连死啊和西甲联赛等聚类到“足球”的主题中,还有各类篮球联赛等也同样聚类到“篮球”的主题中,再把各主题的内容与用户的关键词进行相似度计算。这种方法的实现如图5中的代码设计(z[i][j]表示第i篇资讯中第j个词属于的话题):
基于以上方法简单的实验,它设定“我的标签”中包含“足球”关键词,获取用户在 “新闻中心”的行为数据作为数据集,再基于以上余弦相似度计算方法获得推荐资讯,并把资讯标题展现在“猜你喜欢”页面。
进入实验测试系统后,在“我的标签”页面设置用户的各种偏好点,然后返回“新闻中心”浏览由资讯库提供的各类资讯。在这过程中,自动收集用户在系统的各种历史行为数据,进行上述设计实验的过程。
当用户进入“猜你喜欢”页面时,能够获得系统个性化推荐的资讯,点击标题方可进入阅读资讯,测试只显示少量资讯。实验发现,当用户在“新闻中心”的资讯阅读量越多时,系统推荐的资讯内容更准确。
4 结论
基于内容推荐算法的个性化推荐系统可以把资讯库最新的资讯个性化推荐给用户,而且新资讯被推荐的概率与旧资讯同等。它只需要依据每个用户本身的关键词获得推荐资讯,而不需要用户明确的需求和其他用户的关联,所以它解决了传统推荐系统对目的搜索的依赖和推荐系统的冷启动问题。它可以运用到各种新闻、读书、在线商城等网站和软件,还可以运用到跟资讯推荐有关的平台建设当中。但是,对于文本分词获得词流,再从词流中抽取关键词还是很难的,它很难精确的检测到描述资讯的特征,再者就是过于执着根据关键词推荐,从而失去了资讯推荐内容的多样性,还需要在实际的开发当中对它继续改进。
参考文献:
[1] 项亮.推荐系统实战[M].北京:人民邮电出版社, 2012:11-97.
[2] 张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008(9).
[3] 吾佳芬.基于内容的互联网推荐算法[J].科教导刊,2016(12).
[4] 王博.新闻内容推荐算法研究[J].信息与电脑,2016(6).
[5] 喜晶.个性化推荐技术的分析和比较[J].电脑编程技巧与维护,2016(22).
[6] 王嵘冰,安维凯,冯勇,等.基于标签和PageRank的重要微博用户推荐算法[J].计算机科学,2018(2).
[7] 刘辉,郭梦梦,潘伟强.个性化推荐系统综述[J].常州大学学报:自然科学版,2017(3).
[8] 邱爽,葛万成,汪亮友, 等.个性化推荐中基于用户协同过滤算法的优化[J].信息技术,2016(3).
[9] 許媛萍.基于内容的推荐与协同过滤融合的新闻推荐分析与探究[J].新闻研究导刊,2018(13).
【通联编辑:谢媛媛】