俞 菲, 姜守旭
(1 常熟理工学院 计算机科学与工程学院, 江苏 常熟 215500; 2 哈尔滨工业大学 计算学部, 哈尔滨 150001)
地理社交网络(Geo-Social Networks, GeoSN)是当前移动互联网不断发展的衍生网络。 当前广泛应用的地理社交网络主要包括基于位置的社交网络(Location-Based Social Network,LBSN)和基于活动的社交网络(Event-Based Social Networks, EBSN)。当前基于位置的社交网络比较熟知的有:Foursquare、 Gowalla、Meituan 等;基于事件(活动)的社交网络当前应用广泛的有:Meetup、DoubanEvent、Plancast 等。 地理社交网络相比传统的社交网络主要区别在于:GeoSN 将物理世界和虚拟的社交网络融合在一起,记录了人们线上线下的活动行为,推动位置相关的推荐服务的产生。 当前在地理社交网络中的推荐服务主要是根据推荐内容分为潜在好友推荐、位置推荐、媒体推荐、活动推荐等;然而,这些推荐服务的共同特点是:服务对象都面向单个用户。事实上,人是具有社会属性的,即人都是作为每个群体的成员在生活、工作。
面向群体活动的推荐服务在近些年也逐渐成为社交媒体中主要的应用服务。 在已有的研究中,群体根据构成的方式可分为:临时用户群体和稳定用户群体。 临时用户群体是指群体中的用户是因为活动而临时组建的,当活动完成后,用户群体就会随着活动的完成而解散,这种群体典型的特点就是群体中的用户的不确定性;稳定用户群体是指群体中的用户大都是具有相同且稳定的偏好而组建的,这种偏好是一个长期的喜好,这种群体典型的特点是参加的活动大都是群体共同的偏好相关的。 然而,现有关于群体推荐的研究不仅没有给出群体活动中群体的组建方式,也没有考虑不同的组建方式会导致推荐的内容不同。 除此之外,群体推荐的研究中仍然存在一些问题:
(1)群体活动决策过程中群体成员对决策的贡献程度不能直接从数据中获得;
(2)已有的关于群体推荐的算法大都强调被推荐的群体是当前存在的。
本文将提供一个全面的文献回顾,主要从当前的已有研究中采用的方法和数据集两方面进行总结,并且对这些方法之间的异同给出详细的分析说明。
为了便于对地理社交网中群体推荐问题的理解,首先给出该问题的相关定义和符号说明。
地理社交网(Geo-Social Network,GeoSN)是一个有向加权图:
其中,是由用户节点集合和位置节点集合组成;表示相同类型节点间的链接和不同类型节点间的链接,包括:ε=E∪E,ε=E∪E;E和E分别表示用户间的社交关系、位置之间的序列关联关系;E和E分别表示用户与位置之间的签到关系、位置与用户的时空关联关系;表示相同类型节点间的链接和不同类型节点间的链接上的影响力权值:{w,w}。
地理社交网络中的群体:已知地理社交网络,,,群体v由中的n个节点组成,节点的种类(v){,},(v)是由v生成的子图,即(v) ∈,v⊆, 以及E⊆。 本文主要研究的推荐服务对象是用户群体U=v⊆。
地理社交网络中的群体推荐:已知地理社交网,,,目标用户群体U以及群体中用户的签到活动记录(U),常整数∈N,群体推荐是为目标用户群体U推荐个活动构成的列表S,使得被推荐的活动是目标用户群体可能喜欢、感兴趣的活动。
已有的地理社交网络中的面向群体活动的群体推荐算法,主要可以分为基于记忆的方法(memorybased methods)和基于模型的方法(model-based methods)。
现有,基于记忆的方法可分为基于记忆和基于模型两种,其中,基于记忆的方法又可分为偏好聚合方法和分数聚合方法。
偏好聚合方法是基于群体中所有用户偏好为用户群体推荐符合群体偏好的活动。 McCarthy 等人推出了一个在公共环境中协调组成员对音乐的偏好的系统,利用组成员偏好代理选择最适合组成员偏好的音乐;Yu 等人通过合并用户资料提供给多个观众,从而确保合并后的结果接近大多数用户的偏好;Wang 等人设计了一种基于信任感知的虚拟协调器的社会群体推荐方法,集成了结果聚合和汇总聚合两种不同的聚合策略;Zou 等人主要解决的问题是消除社会群体推荐过程中的偏差,通过利用子群体偏好计算项目相关性,设计了一个群体推荐的局部优化框架;Minz 等人提出了一种社会群体推荐的共识方案,将多个专家的共识汇集到一个整体推荐列表中,每个专家代表群体中的一个人;Du 等人将群体推荐问题形式化为一个排序问题,提出了一种基于学习排序技术的群体事件推荐模型。
分数聚合方法是先预测群体中每个用户在候选项目上的得分,通过预定义的策略来聚合群体内成员的预测得分,代表群体的偏好。 两种最受欢迎的得分汇总算法是Average (AVG) ,Least Misery(LM)。 AVG 算法的核心思想是将群体中所有用户个体对群体活动(item)打分取均值,将均值作为用户群体对群体活动的打分,该算法将群体的打分均值作为目标函数;LM 算法是在用户群体中选择对活动(item)的最低打分作为整个用户群体的打分,核心思想是让群体中最可能不满意的用户都尽可能的满意。
以上两种方法中存在不足。 具体地,AVG 算法可能会返回一些对群体中某些成员有利但对其他成员不利的活动,而LM 最终可能会推荐一些没有人喜欢的活动。 Baltrunas 等人指出,任何一种算法的表现都取决于群体规模和群体内用户间相似性;Yahia等人考虑了群体成员在每个项目上的偏好分歧是不可避免的,即群体中用户之间的相关性和不一致性,从而提高了AVG 和LM 算法的推荐质量。
基于模型的方法对群体推荐项目的决策过程建模。 Liu 等人提出了一个用于群体推荐的个人影响的主题模型,假设最有影响力的用户应该代表群体,并对群体的决策有很大的影响;Yuan 等人认为群体活动的决策过程是受到群体中每个用户对活动(item)的偏好主题以及整群体关于活动(item)的偏好主题的影响。 因此,提出一种综合考虑活动(item)主题的共识模型来解决群体推荐问题,Hu 等人引入了深度学习建模框架,该算法对用户群体中所有用户的偏好进行综合特征的学习与提取,该算法的优点是避免数据的脆弱性。
随着注意力机制在深度学习以及认知科学中的广泛应用,关于群体推荐研究中也开始将群体活动的决策过程通过注意力机制来体现和表示。 TRAN等人首次提出在群体活动中,群体中的成员往往可能只遵循少数用户的决策,这些用户是群体的领导者或专家,为了解决这一挑战,TRAN 等人提出使用注意机制来捕捉组中每个用户的影响;Yin 等人基于在群体活动中,每个用户在不同活动以及群体中对活动的决策作用应该是不同的,因此提出了一种新的群体推荐系统,以注意机制和二部图嵌入模型BGEM 为构建模块,该算法采用关注机制来学习每个用户的社会影响力,使其适应不同群体的社会影响力,并开发出一种新的深度社会影响力学习框架,挖掘和整合用户的全局和局部社会网络结构信息,进一步提高对用户社会影响力的估计。
虽然现有研究已经对群体活动中的决策过程进行了分析和表示学习,采用启发式或基于注意的偏好聚合策略来合成群体偏好,但是这些模型主要侧重于用户之间的成对连接,而忽略了群体内外复杂的高阶交互。 此外,由于用户群体-活动(item)之间的交互非常稀疏,使得群推荐存在严重的数据稀疏性问题。 Zhang 等人提出了一种用于群体推荐的自监督超图学习框架,通过捕获用户群体内和群体间的交互来缓解原始数据本身的数据稀疏问题;Guo 等人提出了一种基于群体之间的相似性的群体推荐HyperGroup,通过基于学习到的群体成员个人偏好的超边缘嵌入技术学习群体偏好,该方法主要目的也是克服群体活动中用户群体与活动之间的交互信息稀疏的问题。
当前,地理社交网络已经成为人们的主要社交平台,主要可以分为两种社交网络:基于位置的社交网络(LBSN)以及基于事件(活动)的社交网络(EBSN)。 其中,EBSN 是一种典型的面向群体活动的社交平台,因此,在异构地理社交网中做群体推荐相关研究时,主要在EBSN 的数据集上,由于部分研究需要考虑到EBSN关于单个用户的个性化偏好分析,LBSN 可以为单个用户的偏好建模提供相对完备的数据基础。 本文给出在异构地理社交网络中主要使用的公开数据集:Weeplace、Yelp、Mafengwo、CAMRa2011、Douban、Gowalla,以及数据中的统计内容。 具体信息见表1。
表1 群体推荐主要使用的实验数据集Tab. 1 The main experiment datasets in Group Recommendation Research
现有研究中,面向群体推荐的评价指标主要有:准确率、召回率、标准化贴现累积、命中率以及平均倒数排名。
准确率Precision Rate (Pre),式(1)~(2):
标准化贴现累积Normalized Discounted Cumulative Gainn (nDCG),式(5)~(7):
其中,rel表示对目标用户是否接受被推荐的内容:如果接受,则rel=1,反之,rel=0; maxDCG表示对目标用户的最优推荐列表的值,这样做的目的是为了保证nDCG@的取值范围在01 之间。
命中率Hit Ratio (HR):
其中,对于测试集中的每一个组-项交互(U,),#@是指在测试集中的数量,|D|表示测试用例的总数。
首先计算项目和所有候选项目的排名得分;选取排名分数最高的个项目作为Top推荐列表。 如果项目出现在这个列表中,就有一个命中。否则,就错过了。
平均倒数排名Mean Reciprocal Rank (MRR),表示正确检索结果值在检索结果中的排名,用来评估检索系统的性能,式(9):
其中,|D|表示测试用例的总数,表示测试用例中用户群体交互过的项目,在推荐列表中第一个在ground-truth 中的项目所在的排列位置。
一个好的推荐模型应该有较大的值。
根据本文对现有群体推荐相关研究的分析,发现大部分已有研究忽略了群体活动中用户群体的组建方式对推荐结果的影响,以及用户在个体活动和群体活动中的偏好区别上的分析。 事实上,在地理社交网络中面向群体活动的群体推荐应该考虑现实生活中,许多参加活动的群体都是因为活动本身而组建的。 因此,在面向这种情况的群体推荐,应该考虑群体组件与活动本身之间的相互影响、相互作用以及群体中的用户与活动之间历史的交互行为。
基于以上分析,关于地理社交网络中的群体推荐中关于群体组建过程与活动之间的因果关系的建模将成为接下来的亟待解决的问题。
本文对地理社交网络中群体推荐相关研究进行了全面的综述。 展示了在这个新兴的研究领域中,大量最近的研究论文的深刻发现;基于群体推荐算法的数据建模的机理,将群体推荐算法分为基于记忆的方法和基于模型的方法;介绍了群体推荐算法相关研究的数据集以及广泛使用的评价指标;最后,基于对已有研究的分析,本文提出了面向群体推荐,群体组建过程与活动之间的因果关系的建模将成为接下来的亟待解决的问题。