基于隐式用户行为的推荐系统研究

2016-06-27 02:08张天凡

湖北工程学院学报 2016年3期

关键词：推荐系统信任度支持向量机

卢　军，张天凡

(1.湖北工程学院计算机与信息科学学院，湖北孝感 432000;2.湖北工程学院新技术学院，湖北孝感 432000；3.西北工业大学自动化学院，陕西西安 710072)

基于隐式用户行为的推荐系统研究

卢军1，张天凡2，3

(1.湖北工程学院计算机与信息科学学院，湖北孝感 432000;2.湖北工程学院新技术学院，湖北孝感 432000；3.西北工业大学自动化学院，陕西西安 710072)

摘要：在现实生活中，用户经常在无意识中被周围的人或朋友的行为所影响，这种受群体行为影响的现象在社交网络系统中也得到体现，因此可以通过其相关用户的选择和行为构建推荐系统。提出一种通过挖掘相关用户的评价信息来构建输入数据的隐式推荐系统，该系统包括三个部分：首先根据交际活动评估用户之间的隐式信任度；然后通过评论获取语料的情绪关键词推断用户情绪等级；最后利用机器学习和回归算法识别情绪等级和用户之间信任度的影响程度，并由此给出推荐意见。通过对微博用户评论数据的分析，验证了算法的有效性，表明提出的算法能够正确反映隐式信任度和用户情绪，从而为决策推荐系统提供支持。

关键词：推荐系统；隐式社会关系；信任度；用户情绪；支持向量机

当前，随着社交网络中大量用户加入互动，用户间的关系呈现几何级增长，这样导致了两个突出的问题：用户感兴趣的内容具有大量的可替代品，用户难以选择；内容提供方如何为用户提供个性化的服务。当前，典型的推荐系统主要分为两类：协同过滤(Collaborative Filtering，CF)推荐系统和基于内容(Content-based, CB)的推荐系统[1]。CF使用量化的用户评级记录(如典型的淘宝评价模式)和分析用户评价，找到用户间的相似性，从而根据兴趣模式相近的原则为用户进行推荐[2]。而CB则使用了反向观点，即用户以前没有经历过的就是用户未来可能感兴趣的。

在近年的研究中，研究人员建议引入用户之间的信任关系改善RS[3]。文献[4]提出了使用自然语言处理技术来进一步量化用户评论的方法。而用户之间的信任关系和情绪是一种隐式社会关系，而且传统RS系统中评价信息是稀疏的，评价行为非常有限，这会对CF和CB算法的有效性产生影响[5]。由于新用户没有历史行为记录和评价，因此传统的CF存在冷启动问题[6]。

本文提出了一种新的方法，即基于新用户在其他社会系统(如微博)中的社会关系，为其在新系统中进行推荐。在这种基于社会信任增强的RS中，假设用户在系统中是朋友关系，因为他们通过社交平台进行了交流，但这并不能准确地反映现实世界中的实际社会关系[7]，这会导致一个问题，即使用户在网上的评价具有相似之处，但在现实世界中他们的行为可能完全不同，因此也就难以进行个性化推荐。此外，根据较短的评论所提取的词频可能并不是最合适的，而结构化的长评价(如典型的LibQUAL+)方式能够获得多维度的信息，不仅能够获取用户的喜好信息，还可能提取用户的情绪信息[8]。在短评价和非结构化语言中进行用户情绪分析与量化是本文所提出的具有挑战性的问题之一。

本文的目标是要解决上述不足，建立一种推荐系统模型，即便是在没有历史评价等信息的情况下可以通过在线社交网络获得用户的喜好。本文提出了一种基于RS的隐式社会信任和用户度[9-10]情绪的量化评价方法，该方法能够通过活动用户和他的朋友之间的信任级别揭示对相关产品的情绪化程度，即偏好程度[11]，从而改善现有的RS系统的性能。

1网络社交平台：微博

国内的在线社交网络的霸主是微博，是一种通过关注机制分享简短实时信息的广播式社交网络平台。国外最早最成熟的是2006年创建的Twitter，而国内主要以2009年的新浪微博为主，截至2013年，新浪微博注册用户达到5.36亿[12]。与传统的博客、网站评论系统不同，微博有140个字的长度限制，但具有发布速度快、传播范围广的优点。与Twitter一样，微博采用的是“背对脸”交流模式，用户可以关注另一些用户，当然也可能被另外其他用户所关注，这样用户可以根据自己的兴趣偏好自由选择关注对象，且关注者的质量和内容质量之间是存在正比关系。

由于微博用户量庞大，涉及很多兴趣领域的内容，因此笔者在其基础上开展推荐系统研究。信任是一个用户与另一个用户之间一种隐式、主观和模糊的感觉，要对其进行量化就需要从多角度评价用户当时的情绪。为了收集微博信息，本文使用网络爬虫来获取在线社交网络中的数据。

2隐式推荐系统的系统框架

本文研究在线社交网络中朋友对产品购买行为的影响。具体来说，用户会倾向于从可信的朋友那里选择产品或服务信息。分析朋友的选择和他们对产品的满意程度，以及还有朋友们写下的心情等信息，从而进行推荐。

在线社交网络提供了便捷的交流平台，允许朋友实时生成和发布他们对现实世界的看法，当然也包括当时的心情如图1所示。

图1　社交网络中典型的信息交互过程

图1中活动用户提供有趣的选择，这个用户可能从他的朋友的评论中发现感兴趣的内容或相关信息。以电影为例，朋友A和B分别推荐“疯狂动物城”和“美人鱼”，但由于与A、B的信任度不同，系统可能倾向推荐“疯狂动物城”而不是“美人鱼”，主要原因是A的信任度更高一些。

另一个挑战是分析在线社交网络中的用户情绪对信任度的影响，例如与朋友A的信任度较低，但A表现出较高的积极性看法，而与B具有更强的信任度，但存在一定负面性情绪，此时如何从A和B中选择就成为一个难点。本文更倾向于使用信任度高的朋友的意见。系统总体框架图如图2所示。

图2　系统总体框架图

首先使用爬虫对微博进行提取，以备实验分析用；然后收集、过滤所需数据，利用情感分析技术分析用户评价信息包含的情感倾向，并结合信任评级构建推荐系统模型。

2.1隐式社会信任关系

典型的信任模型主要基于两点：分析用户对某些项目之间的共同评价和用户对他人的直接信任评价。但是对其中一些项目的评价并不一定适合于其他项目。例如，有两个用户A和B，由于他们都喜欢惊悚片，A向B提供了信任分数，但不能保证B在选择动作片时的信任分数还可以提供给A。基于信任评价的RS系统根据B的喜好向A提供建议与评级，但是用户A可以完全不在乎这些建议。

为了更有效地获得信任度量，可以采用如下方法：人们倾向于向他们的亲戚和朋友获得新的体验，即使他们有不同的爱好。因此，受到多样性社会关系的影响，人们的喜好呈现多样化发展。从这种信任视角出发，RS的新用户可能获得如下好处：基于信任度模型所信任的人可能会影响新用户的选择，能够比在线社交网络中匿名的人提供更好的选择。相比较而言，被基于建议的信任度模型所信任的用户比那些在线社交网络中匿名的人能提供更好的选择，因为这是一种基于信任的RS行为。

微博平台中转发行为意味着用户将某条他/她感兴趣的内容转发给他/她的朋友，表示为RT。假设用户u和他的朋友圈F中一个朋友f之间的关系表示为f∈F。而微博好友列表中有两类人：关注“我”的人和“我”关注的人。有一大批追随者的人一定很关心他们的意见以及评论的内容(正面的或负面的)。因此，追随者较多的用户可能因他的朋友的评价获得更多的信任。关注者和被关注者之间的比例定义为L，因此有：

(1)

式中：RTu，f是给定时间内由u给朋友f转发的数量，RTu，F是给所有朋友发送的数量。因此L可以表示为：

(2)

式中：Listin是关注“我”的人数量，Listout是“我”关注的数量。用户u和f之间的关系可由L表达。因此，信任度可由RT和L两个因素的归一化均值表达，即为：

(3)

(4)

利用上式，可以检测u和f在时间T内各个时段的信任度如下：

(5)

式中：trustu，f是u和f在时间T内的总信任度。

2.2用户情绪分析

在本研究中，主要关注在线社交网络中较短的评论。如同现实世界人们所做的一样，人们在微博上征询朋友的意见以选择感兴趣的内容。从微博中提取用户情绪是具有挑战性的，因为与标准的长点评相比，微博中包含更多的短语和非正式的语言，微博被用户用来分享他们生活中的点点滴滴，如新闻、爱好和八卦等，一个内容中可能同时包含多个不相关的内容。

(6)

(7)

(8)

(9)

(10)

(11)

这样将SR分配到sc时，可能介于C中的相邻分类之间，如SR的预测值可能是1.25。

3项目推理评分

(12)

(13)

准备好上述条件后，可以使用三种典型的机器学习模型用求解未知函数g，其输出结果为评分的预测值。

4实验与分析

4.1数据集的获取

实验样本数据集必须包含朋友发布的内容、评论以及其他交流数据。为此，本文在网络爬虫的基础上进行了二次开发以符合研究需要，该部分算法伪代码如下：

Input 选择电影内容

output：相关主题和评论包括作者id

for 电影ido

if 相关主题和评论被找到 then

获取该主题/评论的作者idi

if idi不是名人/商业帐号 then

存储主题/评论+idi

end if

end for

社会关系数据集(SRD)的统计清单如表1所示。

表1　社会关系数据集统计清单

原始测试样本参考MovieLens，对微博上2016年1～3月热门电影数据进行了提取，并按照MovieLens数据格式进行重组。通过将电影名作为关键词进行过滤，将用户划分为若干个群通过用户ID构建其朋友圈，在此基础上进行信任度量。下面是收集数据并进行过滤的伪代码：

Input 内容相关的用户id

Output 所有idi和朋友fi的回复/评论

while idi没有受到保护或是公开的 do

根据idi获取朋友列表

Fin←根据idi获取所有关注者列表

Fou←根据idi获取关注对象列表

while fi在idi的朋友列表 do

if fi没有受到保护或公开的 then

for fi在时间段内的所有内容 do

if 内容可以访问/有效的 then

if 内容是一条回复 then

RT++

end if

if 内容的作者id=idithen

rt++

end if

end for

存储RT，rt，Fin，Fout

end while

获取下一个idi

end while

另外，为了对收集的信息进行正确的评价，本文使用三种不同的标注器，并且只保留那些每日更新数量在10条以上的活动用户信息。

相关系数结果表明，标注1～2之间的相关性是0.4；2～3之间是0.4；1～3之间是0.5，相关结果的平均值为0.44。超出这种关联性评价结果和评价在理论上表示人们的喜好或社交偏好，但在现实世界不太可能出现这样强烈的意见或关系。

4.2回归算法对比测试

使用三种不同的回归算法进行测试，并使用精度度量来指示三种算法在该测试集上的预测性能。在实验中，将数据集随机分割成五个非重叠的区域，然后分别对这五个区域进行测试，每个区域的测试结果用于对另外四个区域的数据进行交叉验证。使用绝对平均误差(Mean Absolute Error，MAE)来评价推荐算法的有效性，MAE定义为：

(14)

(15)

三种回归算法的测试结果如表2所示。

表2　三种回归算法结果比较

由表2结果可知，SVR的准确度要高于另外两种算法，误差率最低，因此在后续的测试中主要以SVR作为本文改进算法的测试基准。

4.3多种推荐算法多尺度横向对比

在进一步测试中，选择另外几种典型的推荐算法进行对比测试，分别是项目平均得分基准(Item Average Score baseline，IAS)、占主导地位的得分基准(Most Dominated Score baseline，MDS)、基于信任的加权平均法(Trust-based weighted mean，TBWM)、基于信任的协同过滤算法(Trust-based collaborative filtering，TBCF)和基于概率多点评价推荐算法(Probabilistic-based with multi-point，PBMP)。

为了更好的进行评价，在对比测试中考虑不同朋友数量对推荐结果的影响，以模拟推荐系统是否能有效根据朋友圈为一个新用户推荐一组项目。假设存在12名新用户，从数据集SD中抽取若干名用户形成朋友列表，然后分配给每个用户，则新用户与这些朋友构成了一个密切沟通的群体。具有10个好友的数据集的对比测试结果如表3所示。

表3　几种算法MAE对比

表3结果表明，本文算法IUBRS具有最低的MAE值0.352，而基于传统的协同过滤算法TBCF的MAE达到了1.632，原因在于TBCF没有考虑用户历史评价对预测结果的影响。

然后分别测试了好友数量为3、7和11的预测正确率和系统性能，结果分别如图3和图4所示。可看出本文算法具有较好的性能和较低的错误率。

图3　不同朋友数量的MAE对比

5总结

本文研究了在线社交网络中典型的推荐系统和协同过滤系统，在该基础上通过挖掘微博评论数据分析用户之间的隐式社会关系，并对该关系进行信任度量，构建一种增强的信任度推荐系统模型，同时基于概率方法和多点特征提取研究用户情绪，以进一步提高预测准确程度。测试结果表明，基于SVR的机器学习算法能获得最好的性能，并且在多种条件下具有较低的错误率。

图4　稀疏信息矩阵中的性能比较

[参考文献]

[1]Adomavicius, Tuzhilin A.Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering,2005,17(6), 734-749.

[2]刘淇.基于用户兴趣建模的推荐方法及应用研究[D].合肥：中国科学技术大学,2013.

[3]秦继伟,郑庆华,郑德立,等.结合评分和信任的协同推荐算法[J].西安交通大学学报, 2013, 47(4):100-104.

[4]董小妹.大数据环境下基于本体的协同过滤推荐算法改进研究[D].南京:南京工业大学,2013.

[5]姜维,庞秀丽.面向数据稀疏问题的个性化组合推荐研究[J].计算机工程与应用, 2012, 48(21):21-25.

[6]于洪,李俊华.一种解决新项目冷启动问题的推荐算法[J].软件学报, 2015, 26(6):1395-1408.

[7]郭磊,马军,陈竹敏,等.一种结合推荐对象间关联关系的社会化推荐算法[J].计算机学报, 2014, 37(1):219-228.

[8]马庆国,王凯,舒良超.积极情绪对用户信息技术采纳意向影响的实验研究——以电子商务推荐系统为例[J].科学学研究,2009,10:1557-1563.

[9]高涵.微博转发的从众心理研究[J].中州大学学报,2012,29(3):58-61.

[10]赵玲,张静.微博用户的从众行为特性与影响研究[J].中国电化教育,2013(9):60-64.

[11]李栋,李伟,郑志刚.从众心理引起博弈策略的同步振荡[J].复杂系统与复杂性科学,2009,6(1):29-35.

[12]微博.[EB/OL].[2016-04-08].http://baike.baidu.com/link?url=wIhU4ViqqJ4pVk8t12jt8av-AKv2t-3k3qlPh3R7utSHyvosBAB81mq4cnEVAIhV8dUaN3MVOoy7YF9mMd1liBN3mmefDkmIiun1fIin5TK.

(责任编辑：张凯兵)

Research of Recommendation System Based on Implicit User’s Behavior

Lu Jun1， Zhang Tianfan2,3

(1.SchoolofComputerandInformationScience,HubeiEngineeringUniversity,Xiaogan,Hubei432000,China; 2.CollegeofTechnology,HubeiEngineeringUniversity,Xiaogan,Hubei432000,China; 3.SchoolofAutomation,NorthwesternPolytechnicalUniversity,Xi’an,Shaanxi710072,China)

Abstract：Users are often unconsciously influenced by the behavior of their friends because of the group behavior. Recommendation systems can be built through the relevant user’s behavior. By evaluating mining group users’ information to build an implicit recommendation system algorithm, which consists of three parts, including the evaluation of communication activities based on implicit trust between users, obtaining emotional keywords to infer user’ s emotional level with the help of comments and using machine learning and regression algorithm to identify the level of emotion and the influence degree of trust between users and giving recommendations. By means of data analysis of the web-blog users’ comments, this paper verifies the effectiveness of the algorithm and it may exactly reflect the implicit trust and the user mood so as to provide support for the decision recommendation system.

Key Words：recommender system; implicit relationships; trust degree; users’ emotion; SVM

收稿日期：2016-02-08

基金项目：湖北省自然科学基金项目(2014CFB576)

作者简介：卢军(1975-)，男，湖北孝昌人，湖北工程学院计算机与信息科学学院副教授，硕士。

中图分类号：TP391.3

文献标志码：A

文章编号：2095-4824(2016)03-0022-06

张天凡(1982-)，男，湖北孝感人，湖北工程学院新技术学院讲师，西北工业大学自动化学院博士研究生。