王洁 刘建国
摘要:在线评级系统由于水军和恶意打分者的存在而无法对物品给出客观评价,因此,建立一个基于打分行为的声誉度量模型对于在线评级系统的健康发展至关重要。现有的用户声誉度量方法仅依靠用户评分和商品质量之间的差异进行计算,忽略了用户的行为模式。将用户的评分偏差和行为模式相结合,提出了一种新的声誉度量方法,该方法不仅考虑了用户打分频率的极值,还考虑了用户打分总次数。在两个实证数据集上的实验结果表明,新方法对随机打分的识别准确率相较于经典算法最高可以提高 17%,对于解决冷启动和鲁棒性问题具有更好的表现。
关键词:用户声誉;在线评级系统;行为模式;恶意评级
中图分类号:G 35 文献标志码:A
Measurement of user reputation via users'behavior patterns
WANG Jie1, LIU Jianguo2,3
(1. Business School, University of Shanghaifor Science and Technology, Shanghai 200093, China;2. Institute ofAccounting andFinance, Shanghai University ofFinance and Economics, Shanghai 200433, China;3. Research Group of Computational and AICommunication at Institutefor Global Communications and Integrated Media, Fudan University, Shanghai 200433, China)
Abstract: Online rating systems fail to measure qualities of items due to attacks given by unfair raters,and it is crucial for the health of online rating systems to establish a reputation ranking system toidentify unfair raters. The existing user reputation measurement methods only take into account thedifference between the user's rating information and the item qualities, regardless of users' ratingbehavior patterns. Combining users' rating bias and behavioral patterns, a new reputation rankingmethod BPR was proposed, and the model considered not only the extremes of user rating frequency,but also the total number of user ratings. The extensive experimental results for empirical datasets showthat, comparing with the classical method, the accuracy of the BPR method for identifying randomratings by large-scale users could be improved by up to 17%, with better performance for cold start androbustness problems.
Keywords: user reputation; online rating systems; behavior pattern; malicious rating
互联网的快速发展导致人们对网络技术的依赖程度越来越高,同时也带动了在线评级系统的发展[1]。用户可以很容易地在互联网上获取商品和服务的相关信息。与此同时,信息超载的问题也逐渐暴露出来[2-3]。为此,用户面对大量商品而无从选择时,往往会根据评级系统提供的商品评价结果来作出消费决策[4-6]。然而,由于在线评级系统的虚拟性,商家和消费者之间存在着严重的信息不对称,导致电子商务平台出现严重的信用问题[7-8]。主要原因在于不是所有用户都会对商品给予合理的评价,他们可能由于判断力不佳,或者出于某些利益需求而给出极高或极低的分值[9]。而這些不合理的评分结果会误导其他用户选择低质量商品、错过高质量商品[10-12]。评分结果与实际不符,恶意评级用户难以识别,这些因素导致相应的电子商务平台逐渐失去消费者的信任,丧失竞争力[13]。因此,建立一个高效可靠的声誉体系,根据用户的打分行为度量用户声誉,对在线评级系统有着非常重要的意义[14-16]。
1相关工作
关于在线评级系统中的用户声誉问题,学者们从不同角度提出了多种度量方法。Laureti等[17]认为商品质量与用户评分差值越大,用户声誉越低,提出了 IR(iterative refinement)算法。 IR 算法将初始为1的用户声誉作为权重计算商品质量,商品质量与评分差值的倒数作为用户声誉,而后两者不断迭代至算法收敛。 Zhou 等[18]引入量化两变量相关程度的皮尔森相关系数,提出了 CR (correlation-based ranking)算法,其基本思想是打分和产品质量相似度越高的用户得到的声誉值也越高。在此基础上,考虑到系统中恶意用户的存在, Liao 等[19]提出了声誉值再分配迭代算法,简称 IARR(iterativerankingalgorithmwithreputation redistribution)算法,引入惩罚因子后又提出了 IARR2算法。两种算法增强了系统中高声誉或打分次数多的用户即高活跃度用户的影响力,将这类用户确定为系统中的高声誉用户。后来,Gao 等[20]提出了一种基于群组的 GR(group-based ranking)算法,算法通过用户的群组行为来评估用户的声誉,即如果用户总是属于大评级组,他们就会被赋予较高的声誉分数。在引入迭代机制后,Gao 等[21]提出了 IGR(iterativegroup-basedranking)算法。Fu 等[22]认为用户有自己的打分偏好,引入了基于用户评分偏差的 IGDR(iterativegroup-basedand difference ranking)算法,认为用户评分的偏差越小声誉越高。 Dai 等[23]认为每个人的打分偏好不一样,有的习惯打高分,有的习惯打低分,所以需要将用户给出的评级范围映射到相同的评级标准上,提出了 PGR(improvedgroup-basedrating method based on the user preference)算法。 Liu 等[24]基于貝叶斯分析,提出了一种无参数的在线用户声誉排序 BR(parameter-free algorithm based on the Bayesian analysis)算法,该算法基于用户评价与所有用户评价的主要部分一致的概率来计算用户声誉。 Lee 等[25]提出了一种基于偏差的排序方法,根据质量分类的准确性来分配每个用户的声誉指标,从用户评价标准函数的几个似是而非的假设出发,成功地推导出了一个新的声誉指数,用来衡量用户评价的统计意义,简称 DR(deviation-based spam-filtering)算法。 Sun 等[26]研究发现:可靠用户的评分偏差较小,且评分呈峰值分布;相反,恶意用户通常给出有偏见的评级,他们的评级分数几乎不遵循一个已知的模式。基于此,他们提出了通过评级统计模式评估在线评级系统用户声誉的 IOR(iterative optimization ranking)算法。之前的算法都局限于商品质量分与用户打分的相似度对比,而 IOR 算法则开创了新的思路,考虑用户所有评分的分布模式,使得该算法在大量恶意用户的进攻下仍旧能保持很好的鲁棒性。
然而, IOR 算法仅仅考虑了用户最大打分频率和最小打分频率的统计分布,忽略了用户打分的整体分布特征。算法的核心要素是用户的打分模式,打分总次数和打分频率的极值对于度量用户声誉也都具有重要作用。基于此,本文提出了考虑用户打分模式的 BPR(ranking method based onuser rating patterns)算法,不同实证数据集上的实验结果验证了本文算法的有效性。
2基于打分模式的算法
本文提出的基于用户行为模式的 BPR 算法中心思想是正常用户打分时经常喜欢给出自己习惯打的分值,而其他分值则较少给出,即用户的打分行为符合峰值分布。与正常用户不同,恶意用户给产品打分通常带有主观偏见,并且打分的行为模式不同于正常用户。为此,本文度量用户评分和物品质量之间的差异,进而考察用户的打分行为模式是否符合峰值分布,以区分正常用户与恶意用户。在此基础上,本文提出了 BPR 算法来度量物品的质量和用户的可信度,以下为具体的算法步骤。
Step 6根据式(6)计算用户声誉,再将得到的声誉值代入式(3),得到商品最终的质量分数。正常用户通常具有较小的评分偏差Ei和较大的Pi 值,而不公正评分者与正常用户相比,表现出相反的情况,用户i的声誉Ri可以由Ei和Pi决定。
通过人工加入失真评级者,利用算法基于用户的打分模式对所有用户的声誉进行评价,失真评级者应该具有更低的声誉值。图1给出了 BPR 算法的小样本示例。
图1中: U={ U1, U2, U3, U4, U5}代表用户集合, O={O1,O2,O3,O4}代表物品集合,二者的连边表示用户对物品的评分,这三者组成了一个加权的用户–物品二分网络,可以用于对在线评分系统进行表示; A 为用户的评分矩阵; A'为用户的评分次数矩阵,矩阵内元素记录了用户对不同种类分数的打分次数;矩阵 P 记录了每个用户的 P 值;Q 为商品的质量分数矩阵; D 为用户评分与商品质量的差异矩阵;E 为用户评分偏差的均值矩阵,为矩阵 D 内每行元素的均值; R 代表用户的声誉分数矩阵。示例最后对用户声誉从小到大进行排序,设置阈值 L 为2,则声誉最低的两名用户被视为算法识别出的失真评级者。
3实验结果分析
3.1数据集来源
MovieLens 25M 是发布于2019年12月份的数据集,由GroupLens (https://grouplens.org/datasets/movielens/)提供,拥有2500万条数据可供用户随机挑选(所有用户的评分次数均大于20),评分制度为0.5~5分的十级评分制。为了评估 BPR 方法的有效性,本文使用两个真实数据集Movielens 10W 和Movielens 100W 来验证所提新算法的性能。Movielens 10W 和Movielens 100W 分别为MovieLens 25M 数据集中提取的前10万条数据和前100万条数据。实验所用的两个数据集的基本统计数据汇总在表1中,所有数据均为网站提供的原始数据,未经过处理。
3.2用户打分模式
MovieLens 25M 数据集中大部分的用户是正常用户,因此,应用该数据集对用户行为模式进行探索得出的结论可以看作是正常用户的行为模式。本文将MovieLens 25M 数据集中的2500万条数据分为25份子数据集,每份包含100万条数据,并以数字1~25命名。同一个用户可能被分割在相邻数据集的首尾部分,为此,首先删掉每个数据集的首尾两个用户。然后,删掉评分种类小于2的用户,计算用户的最大最小打分频次占自身总评分次数的比例(Max1和 Min1),在每个数据集内对所有用户求均值。接着,删掉评分种类小于4的用户,计算用户的第二大第二小打分频次占自身总评分次数的比例(Max2和 Min2),在每个数据集内对所有用户求均值。最后,删掉评分种类小于6的用户,计算用户的第三大第三小打分频次占自身总评分次数的比例(Max3和 Min3),在每个数据集内对所有用户求均值。
实验结果如图2所示,MovieLens 25M 中正常用户的评分行为符合峰值分布,即用户会对习惯的少数分值打出较多的次数,而较少打出其他分值。值得注意的是,此处 Min3比 Min2的数值小,这是因为计算 Min3的数据集中删掉了评分种类小于6的用户,而评分种类越多,每种评分所占的比例自然会下降。
此外,本文还统计了MovieLens 100W 数据集内所有用户的不同种类分数的打分频率的散点图,如图3所示。
3.3异常用户
真实的评级系统中广泛存在着两种失真的评级,即恶意评级和随机评级。恶意评级者定义为那些只对物品给予最高或最低评分的用户;随机评级者定义为对物品没有偏好并随机打分的用户。这些异常用户的打分行为会导致物品质量分数的提高或降低,偏离物品真實的质量。
在实验中,随机选择数据集中的 d 个用户,并修改他们的评分为失真的评级。计算不同算法对这些用户的召回率,然后恢复数据集数据,再次随机选择 d 个用户,重复同样的操作,每个数据集的实验重复100次。在MovieLens 10W 和MovieLens 100W 数据集中生成人造失真评级者时,恶意评级者的打分为0.5或5,随机评级者的打分为集合{0.5, 1.0, 1.5, 2.0, 2.5, 3.0, 3.5, 4.0, 4.5, 5.0}中的任意一个数。
3.4评价指标
实验中,使用召回率 R(L)和 ROC 曲线下的面积 AUC ( area under curve )值来测量该方法的性能。召回率衡量在从小到大排序的用户声誉排名列表中,前 L 个用户里可以检测到的失真评级者个数占数据集中实际添加的失真评级者数量的比例。召回率 R(L)为
式中: d ′(L)表示该方法检测到的失真评级者数量; d 表示数据集中实际添加的失真评级者数量。召回率 R(L)的范围为[0,1],较高的召回率表示声誉排名拥有较高的准确度。
ROC 曲线下的面积 AUC 值是衡量整个排行榜排序情况的指标,它可以解释为随机选择的失真评级者声誉值低于随机选择的正常用户声誉值的概率。本文在失真评级者和正常用户里各随机选取一人并进行比较,实验重复 N 次(本文 N=10000),然后统计失真评级者的声誉值低于或等于正常用户的次数。 AUC 的值为
式中: SAUC 表示 AUC 的值; N 表示比较的总次数; N′表示失真评级者的声誉值低于正常用户声誉值的次数; N′′表示失真评级者的声誉值等于正常用户声誉值的次数。
SAUC 的值越高,表明该方法的效果越好,如果 SAUC 的值为0.5,则表明该方法对所有用户的声誉进行了随机排序。
3.5实验结果分析
基于 BPR 算法公式,计算Movielens 10W 和Movielens 100W 数据集的用户声誉分数,并按从小到大的顺序排列,将声誉最低的前 L 位用户视为算法检测出的失真评级者。接下来,选择 BR (基于贝叶斯的排名)、PGR (考虑用户偏好的基于组的排名)和 IOR(迭代优化排名)这3种算法与本文的 BPR 算法进行比较。
一个好的声誉度量方法不受数据集大小的影响,当数据量非常大且失真评级者数量非常少时仍可以准确识别出失真评级者。因此,首先在这两个数据集上添加50个相同类型的失真评级者,然后通过不同算法给出的声誉分数列表计算出失真评级者的召回率 R(L)。实验结果如图4所示,图中每条线均为100次独立实验的均值。
从图4中可以发现,无论对于恶意评级用户还是随机评级用户, BPR 和 IOR 算法的识别召回率都高于其他算法。在图4(a)和(b)中, BPR 和IOR 算法的召回率基本持平。图4(b)中, L=50时, BPR 算法相比于 IOR 算法,计算所得的恶意评级用户的召回率要高出4%。在图4(c)和(d)中可以发现,本文提出的算法在MovieLens 25M 数据集上识别随机评级者时具有显著优势。图4(c)中,L=50时, BPR 算法相比于 IOR 算法,计算所得的随机评级用户的召回率要高出15%。图4(d)中: L=100时, BPR 算法的随机评级用户的召回率比 IOR 算法的要高出21%;L=250时, BPR 算法的召回率达到了96%。
随着用户量的日益上涨和新产品的不断上市,用户的评分行为急剧增加,在线评级系统的数据体量从开放之日起,随时间流逝而不断变大。因此,面对庞大体量的数据集,算法的运行时间,即它的效率,也至关重要。本文统计了图4中每个算法分别在人工添加恶意评级和随机评级的数据集上,产出用户声誉排名列表的运行时间,并取两者平均值,具体结果见图5。该时间不包含导入数据和人工生成失真评级者的时间,只统计算法运行并导出用户声誉排名列表的时间。柱子上的数字表示运行时间的具体数值,该数值受不同机器性能的影响会有所不同,但不影响各个算法之间的比较。
因为 IOR 算法需要迭代至前后两次的物品质量分数差异小于10?4,更重要的是理论上无法保证所有的数据都能够收敛。而 BPR 算法不需要迭代,所以算法的运行时间明显低于召回率同样较高的 IOR 算法。从图5可以看出,相较于基于迭代的 IOR ,PGR 等算法,本文提出的 BPR 算法的计算复杂性大大低于已有的迭代算法。结合图4可以发现,本文提出的算法既可以提高计算所得的召回率,也可以大幅度节省计算时间。
接下来,实验验证了算法对大量失真评级者攻击时的鲁棒性。实验设置添加人造失真评级者的数量占数据集中用户总数的比例为{0.05, 0.10, 0.15, 0.20, 0.25, 0.30, 0.35, 0.40, 0.45, 0.50},设置每个节点的 L 值与添加的人造失真评级者的數量相等。图6给出了在不同比例的失真评级者攻击评级系统时,不同算法所得的召回率变化趋势,图中每个点均为100次独立实验的均值。
从图6(a)—(b)中可以发现, PGR 算法的召回率随系统中添加的失真评级者数量的增加而一直降低,而 BPR 和 IOR 算法的召回率始终保持在0.97以上。从图6(c)—(d)中可以看出,随着失真评级者的增加,所有方法的召回率都在小幅增加,而 BPR 算法的召回率一直高于 IOR , BR 和 PGR 算法。从图6(c)中可以发现:失真评级者比例为0.05时, BPR 算法的召回率比 IOR 高17%;当失真评级者比例为0.2~0.5时, BPR 算法的召回率比 IOR 平均高7%。从图6(d)可以发现:当失真评级者比例为0.05时, BPR 算法的召回率比 IOR 高14%;失真评级者比例为0.2~0.5时, BPR 算法的召回率比 IOR 平均高7%。上述实验结果表明,当系统中存在大量失真评级者时,本文所提出的 BPR 算法的召回率比 IOR , BR 和 PGR 算法都要好。
图7给出了不同算法的 AUC值,图中每个点均为100次独立实验的均值。在图7(a)—(b)中,当恶意评级用户的数量增加时, BPR 算法和 IOR 算法的 AUC 值都稳定地接近1,显著高于 BR 算法。而 PGR 算法的 AUC 值则随系统中恶意评级用户比例参数的增加而不断降低。从图7(c)—(d)中可以发现, BPR 算法的 AUC 值稳定为0.99,而 IOR 算法的 AUC 值则下降。
当用户新加入在线评级系统时,因为系统缺乏他们的评分数据,所以可能难以确认他们的身份,即冷启动问题。后续实验验证不同算法在冷启动问题上的表现。因为MovieLens 25M 数据集上没有评分次数小于20的用户,所以将数据集中评分次数小于25的用户设置为失真评级者,并计算召回率,如图8所示。两个数据集上评分次数少于25次的用户分别为69和714人,图中每条线均为100次独立实验的均值。每个子图中横坐标的两个节点分别为该数据集上添加的失真评级者数量的1倍和2倍。在图8(a)和(b)中, BPR 和 IOR 算法的召回率基本持平,稳定在0.96以上。在图8(c)和(d)中,阈值 L 等于失真评级者数量时, BPR 算法的召回率比 IOR 算法的高约6%。
准确识别在线评级系统中用户的声誉,进而识别正常用户和给出恶意评级与随机评级的不公正评分者,对于在线评级平台的健康发展具有重要意义。在线评级系统中存在失真评级者给出的随机或恶意评分,以扭曲正常的商品分数,从而影响消费者的决策。因此,为在线评级系统设计一个可以准确识别失真评级者声誉的排名方法,可以使其更公正地给出商品评分,增加正常用户对平台的信任。实证分析MovieLens 25M 上的2500万条真实数据发现,除了最高频和最低频打分,用户的整体打分行为具有非常稳定的行为模式,即不同频次的打分具有非常稳定的分布概率。考虑用户的打分模式,本文提出了基于用户行为模式的在线用户声誉度量方法,不仅考虑了用户的最高最低打分频次,还考虑了用户打分的总次数。在不同真实数据集上的实验结果表明,本文算法计算所得的召回率、 AUC 值等指标均优于其他算法,更重要的是本文提出的算法具有更低的计算复杂度和更高的准确率。进一步,对算法的鲁棒性和冷启动等问题进行实证分析后发现,本文提出的 BPR 算法在解决鲁棒性和冷启动问题中同样大幅度优于其他算法。
在未来的工作中,该领域还可从以下几方面开展进一步的研究: a.现实世界中,一些人为了自身的利益,通常会在一个连续时间段内雇佣大量水军进行虚假评分,造成某些或某个商品的实际质量与评分不一致的情况出现,因此,如何有效识别失真评级者团体将会是一个符合现实需求的研究方向。 b.由于用户的审美会随流行趋势的变化而变化,为此,在统计评分结果时,可以考虑对不同时间段的评分给予不同的权重。 c.大量恶意攻击发生时,失真评级者往往因为占据了“话语权”而难以被识别,所以还应通过寻找恶意评级者的固有属性而不是仅仅依靠其评分,来更有效地将其识别出来。
参考文献:
[1] LI M, JIANG Y X, DI Z R. Characterizing the reputation of evaluators using vectors in the object feature space[J]. Expert Systems with Applications, 2022, 201:117136.
[2] ZENGA,VIDMERA,MEDOM,etal. Information filteringbysimilarity-preferentialdiffusionprocesses[J]. Europhysics Letters, 2014, 105(5):58002.
[3] ZHANG F G, ZENG A. Improving information filtering vianetworkmanipulation[J]. EurophysicsLetters, 2012, 100(5):58005.
[4] ZHAO Y, WANG L, TANG H J, et al. Electronic word-of- mouthandconsumerpurchaseintentionsinsociale- commerce[J]. ElectronicCommerceResearchand Applications, 2020, 41:100980.
[5] WUX,LIAOH,TANGM. Decisionmakingtowards large-scale alternatives from multiple online platforms by a multivariate time-series-based method[J]. ExpertSystems with Applications, 2023, 212:118838.
[6] ESPOSITOC,GALLIA,MOSCATOV,etal. Multi- criteria assessment of user trust in social reviewing systems with subjective logic fusion[J]. Information Fusion, 2022,77:1–18.
[7] WANG L, WAN J, ZHANG Y Q, et al. Trustworthiness two-waygamesviamarginpolicyine-commerce platforms[J]. AppliedIntelligence, 2022, 52(3):2671–2689.
[8] URE?A R, KOU G, DONG Y C, et al. A review on trust propagation and opinion dynamics in social networks and groupdecisionmakingframeworks[J]. Information Sciences, 2019, 478:461–475.
[9] CHUNGCY,HSUPY,HUANGSH.βP: anovel approachtofilteroutmaliciousratingprofilesfrom recommender systems[J]. Decision Support Systems, 2013,55(1):314–325.
[10] ZHANG Y L, GUO Q, NI J, et al. Memory effect of the onlineratingformovies[J]. PhysicaA, 2015, 417:261–266.
[11] YANG Z M, ZHANG Z K, ZHOU T. Anchoring bias in online voting[J]. Europhysics Letters, 2012, 100(6):68002.
[12] SIDDIQUI S, FAISAL M S, KHURRAM S, et al. Quality prediction of weappsarable in theGoogle playstore[J]. IntelligentAutomation & SoftComputing, 2022, 32(2):877–892.
[13] AL-ADHAILEHMH,ALSAADEFW. Detectingand analysingfakeopinionsusingartificialintelligence algorithms[J]. Intelligent Automation & Soft Computing, 2022, 32(1):643–655.
[14] ZENG A, CIMINI G. Removing spurious interactions in complexnetworks[J]. PhysicalReviewE, 2012, 85(3):036101.
[15] ALLAHBAKHSHM,IGNJATOVICA,MOTAHARI- NEZHAD H R, et al. Robust evaluationof products and reviewersinsocial ratingsystems[J]. World Wide Web,2015, 18(1):73–109.
[16]劉晓露, 贾书伟, 刘建国, 等.基于 Skyline Query 的高声誉用户识别方法研究[J].复杂系统与复杂性科学, 2018,15(2):62–70.
[17] LAURETI P, MORET L, ZHANG Y C, et al. Information filteringviaiterativerefinement[J]. EurophysicsLetters,2006, 75(6):1006–1012.
[18] ZHOU Y B, LEI T, ZHOU T. A robust ranking algorithm to spamming[J]. Europhysics Letters, 2011, 94(4):48002.
[19] LIAO H, ZENG A, XIAO R, et al. Ranking reputation and quality in online rating systems[J]. PLoS One, 2014, 9(5):e97146.
[20] GAO J, DONG Y W, SHANG M S, et al. Group-based ranking method for online rating systems with spamming attacks[J]. Europhysics Letters, 2015, 110(2):28003.
[21] GAOJ,ZHOUT.Evaluatinguserreputationinonline ratingsystemsviaaniterativegroup-basedranking method[J]. Physica A, 2017, 473:546–560.
[22] FU Q Y, REN J F, SUN H L. Iterative group-based and difference ranking method for online rating systems with spammingattacks[J]. InternationalJournalofModernPhysics C, 2021, 32(5):2150059.
[23] DAI L, GUO Q, LIU X L, et al. Identifying online user reputation in terms of user preference[J]. Physica A,2018,494:403–409.
[24] LIU X L, LIU J G, YANG K, et al. Identifying online user reputation of user –object bipartite net.works[J] Physica A,2017, 467:508–516.
[25] LEE D, LEE M J, KIM B J. Deviation-spam-basedfiltering methodviastochasticapproach[J]. EurophysicsLetters, 2018, 121(6):68004.
[26] SUN H L, LIANG K P, LIAO H, et al. Evaluating user reputationofonlineratingsystemsbyratingstatistical patterns[J]. Knowledge-BasedSystems, 2021, 219:106895.
(编辑:丁红艺)