由明阳,黄飞虎(四川大学计算机学院,成都 610065)
基于观点动力学的电影在线评分预测
由明阳,黄飞虎
(四川大学计算机学院,成都610065)
随着国内外电影在线点评系统的快速发展,电影在线评论已成为电影消费者重要的信息来源。通过挖掘评分数据,可以分析用户的兴趣爱好、购买意图以及影响用户购买行为的因素[1]。这些研究内容对商家来说是十分有意义和价值的。
目前观点动力学的研究主要采用基于多主体建模和仿真方法,研究社会经济系统中个体之间的决策以及在外界公共信息作用下,人群中个体对某些特定事件或事物所持不同观点的形成和演化等现象。依据观点的描述方式,现有的观点动力学模型主要有两类:离散型和连续型。离散型模型主要包括Galam模型[2]、Sznajd模型[3]、Voter模型[4]和MajoritoryRule模型[5]。连续型模型主要包括基于有界信任假设的DW模型[6]和HK模型[7]等。在实际应用方面,主要集中于政治和营销领域,利用观点动力学研究用户评论行为的并不多。张涵提出了在线点评模式下的舆论动力学模型,并将其应用于淘宝环境中,与真实数据对比发现该模型取得了较好的效果[8]。苏炯明等建立了在线评分影响力模型[9],对在线评分人数进行预测,使用豆瓣网站的影片在线评分数据进行实验,分析评分观点变化对在线评分人数的影响,结果表明该模型可以有效的预测在线评分人数,同时发现群体中的评分观点对个体的最终观点有明显影响,而个体的初始观点对其最终观点的影响较小。
本文从观点动力学角度对个体评分行为建模,建立电影评分影响力模型,对电影评分情况进行预测,并采用豆瓣网站上的电影在线评分数据进行实验验证。
个体的评分过程分为两个阶段:观影前和观影后。观看电影之前,用户会搜集电影的相关信息,这里指浏览以前用户的评论,浏览之后用户会对该电影产生一个初始印象。观影之后,用户对电影有了体验感受,这个体验感受的好坏主要是由电影质量决定的。初始印象,电影质量和用户实际评分之间会存在一定的差距,这个差距的大小由用户的评分习惯决定。例如,用户习惯打高分,则在实际体验感受比初始印象差的情况下,用户也会给出稍微更好的评分;若实际体验感受比初始印象更好,用户则会给出更高的评分;如果用户习惯打低分,则用户对电影的评分会出现相反的情况。图1展示了用户对电影的评分过程。
图1 用户电影在线评分过程
1.1初始印象
消费者对电影的初始印象主要是通过浏览其他用户的评分记录产生的。由于电影属于体验型商品,只有在观看后才能有体验感受。所以,消费者会为了更充分地了解电影而浏览较多的用户评分。对消费者的初始印象进行描述,需要了解用户对电影的评分分布。为此,我们采用真实的电影在线评分数据,利用参数估计与假设检验方法,实证电影评分分布。
(1)电影评分分布实证
评分数据来源于三个著名的电影评分网站,分别是IMDB电影评分网,豆瓣电影网和MovieLens。其中MovieLens评分数据为公开数据集,IMDB电影评分网和豆瓣电影网评分数据为爬虫爬取。来自IMDB电影评分网的数据包含了4033部电影,电影类型有14种,包括战争、动作、科幻、爱情、喜剧和动画等。来自豆瓣电影网的数据包含4018部电影,类型为12种。IMDB网站评分数据为10分制,豆瓣电影网和MovieLens评分数据为5分制。豆瓣网和IMDB网站的每部电影评论条数较多,本文选取了评论条数在2W以上的电影。而MovieLens网站每部电影的评论条数相对较少,因此选取了评论条数不少于1000的电影。最终,选取了IMDB电影评分网中的2023部电影评分数据,豆瓣电影网中的1058部电影评分数据和MovieLens中的393部电影评分数据。为了统一评分分制,将IMDB网站评分数据映射为5分制,具体方式为10分制中1和2的映射为5分制中的1,以此类推。
已有的研究中,有学者提出电影评分分布有正态分布、幂律分布和alpha稳定分布。因此,我们分别对预处理过的电影评分数据进行了上述分布的参数估计和假设检验。利用MATLAB中的fminsearch函数对正态分布和幂律分布进行参数估计,利用fconsearch函数对alpha分布进行参数估计。上述三个分布的假设检验均用kstest函数进行显著水平为0.05的KS检验。表1展示了对三个电影评分数据集的三种分布的KS检验结果。
表1 电影评分分布KS检验结果
从表1的KS检验结果可以看出,正态分布在三个数据集中的效果是最好的。特别地,对于豆瓣电影网的评分数据,用正态分布可以描述88.75%的电影评分数据。因此,本文采用正态分布描述电影评分分布。
(2)用户对电影的初始印象
由上节的电影评分分布实证可知,可以用正态分布描述电影评分。即对于每部电影,将所有关于该部电影的评分数据当作样本点,组成的样本空间满足正态分布。则有,
将f(x)定义为用户的初始印象概率函数,μ为均值,δ为方差。通过参数估计可以得到μ和δ的估计值,进而量化用户对该电影的初始印象。参数估计选取的数据为用户浏览过的该电影的评分记录。
(3)电影质量
一般说来,电影质量的评价涉及到诸多因素,例如电影剧本、演员演技、拍摄技术和后期制作等,很难处理和量化。但实际电影评价的好坏,却是由观看电影后的消费者做出的。从电影在线评分的过程可知,大部分人在看电影前会先浏览其他用户的影评。因此,本文通
1.2评分习惯
人类动力学的研究表明,人类行为具有很强的规律性。现实生活中,每个人都有自己的习惯和特点。因此,我们认为用户在电影评分上也是具有一定规律的,即用户评分习惯。通过挖掘每个用户的评分数据,便可以得出该用户的评分特点。为此,我们采用获取的电影评分数据,实证用户评分分布。
(1)用户评分分布实证
采用的数据集有三个:分别是MovieLens中2000个用户在2005年的评分数据,MovieLens中6040个用户在2000年对3900部电影的评分数据和BookCrossing数据集。BookCrossing数据集包含了278858个用户的评分数据。
表2 用户评分分布KS检验结果
采用和1.1(1)小节相同的参数估计和KS检验方法。表2展示了对三个数据的三种分布的KS检验结果。从结果来看,正态分布取得了最高的匹配率和很好的效果。
(2)用户评分习惯
上节实证了用户评分分布,结果表明正态分布可以很好地匹配用户的评分。因此我们采用正态分布的概率密度函数刻画用户评分习惯,如公式(2)所示。
其中p(x)为用户评分习惯概率函数,μ为均值,δ为方差。由实证数据计算得出,μ≈3.56,σ≈1.39。
从前面对电影评分过程的描述可知,用户的评分是在用户电影的初始印象和电影质量的基础上,按照个人评分习惯给出的。在社会心理学中有两种效应:马太效应和木桶原理。这两种效应在评分系统中也有体现。有研究表明,人们在做出评价时很容易受到他人评价的影响,形成跟风,这也是马太效应产生的原因。然而,如果用户看到的评论中包含有差评,根据木桶原理,用户给出的评价也会受到这些差评的影响。有学者研究发现,用户在浏览评论时,会更愿意参考差评的评论。在实际的评论记录中,好评和差评几乎总是共存的。到底是参考好评和差评,对用户来说是一个矛盾的选择。因此,在评分建模时需要考虑矛盾性评价存在的现象。文章[10]提出了一个社交网络影响力模型解决了这个问题。该模型提出了舆论熵的概念,表述为:
其中,v+为社交网络中正观点的均值,v-为社交网络中负观点的均值。对应5分制的评分标准,v+等于评论分值为4和5的数目之和,v-等于评论分值为1和2的数目之和。
由1.3(2)的描述可知,用户评分习惯可以用正态分布刻画。所以,我们也采用这个结论,认为个体给出的评分是一个正态分布的样本点。评分影响力模型的概率密度函数如下:
结合社交网络影响力模型,μ和δ的计算方式如下:
其中u∧为初始印象均值,σ为初始印象方差,着为影响力因子,其计算方式如下:
f(X)为用户评分习惯的概率密度函数,Q为电影质量,f(Q)表示用户在观看电影后对电影的感受。e为舆论熵,c为评分制,这里取c=5;影响力因子着,用于描述用户在观影前后,其他用户评价与电影质量对用户产生的影响,该影响会促使用户产生新的印象,进而给出评价分数。影响力因子着的取值大小反映了观影前后初始印象与电影质量的差异性程度。着取值情况如图2所示。
图2 影响力因子取值情况
按照前面描述的电影评分过程,用户首先产生对电影的初始印象。在此阶段,进行正态分布参数估计,得出均值和方差的估计值u∧和σ∧
。同时根据评分数据计算出舆论熵e,用来描述评分中的矛盾性评价对用户产生的影响。2节的电影评分影响力模型是在用户在观看电影后对其产生的新的印象。这个印象由初始印象、电影质量和用户评论三个因素共同作用的。根据公式(6)计算新的均值和方差,从而产生新的评分模型h(x)。评分模型也是一个分布,因此本文从概率角度给出最终评分的算法描述如下:
我们选取了从豆瓣电影网爬取的4044部电影的用户评分数据。由于豆瓣网页的设置,我们只能获取评论的前200条记录,因此实验对每部电影只模拟200次评分。图3给出了本文模型与苏炯明论文中提出的电影评分预测模型(对比模型一)和张涵提出的在线点评模式下的观点影响力模型 (对比模型二)的预测结果。由于实验数据中存在没有通过KS检验的电影,因此本文又对这类电影分别做了基于正态分布和幂律分布的预测,如图4所示。实验结果表明对于通过KS检验的电影,利用本模型的预测结果在三组模型中是最好的,在浏览数m=70时可以达到68%的预测准确率。而对于没有通过KS检验的电影应用幂律分布预测的结果较好。
图3 模型预测准确率(通过KS检验电影)
图4 模型预测结果(未通过KS检验电影)
本文提出了一个新的基于观点动力学的适用于电影在线评分的影响力模型。分布从初始印象、用户评分习惯和电影质量三个方面进行数学描述,然后给出了影响力因子的计算方法,最后给出了评分影响力模型中均值和方差的计算方式,得出了评分的预测算法。通过真实的电影评分数据验证,本模型的预测准确率可以达到68%。相比于其他电影评分模型,本文的模型具有更好的效果。
[1]李亚琴.用户在线消费评论研究的国际进展与分布格局--基于Web of Science论文的计量分析[J],2013.
[2]GalamS.Application of Statistical Physics to Politics.Physica A:Statistical Mechanics and Its Applications,1999,274(1);132-139.
[3]Sznajd-Weron K,Sznajd J.Opinion Evolution in Closed Community[J].International Journal of Modern Physics C,2000,11(6):2000.
[4]Holley R,Liggett T.Ergodic Theorems for Weakly Interacting Infinite Systems and the Voter Model[J].Annals of Probability,1975,3 (4):643-663.
[5]Howe D A,Percival D B.Wavelet Variance,Allan Variance,Leakage[J].IEEE Transactions on Instrumentation and Measurement, 1996,44(2):94-97.
[6]Deffuant G,Neau D,Amblard F,et al.Mixing Beliefs Among Interacting Agents[J].Advances in Complex Systems,2011.
[7]Hegselmann R,Krause U.Opinion Dynamics and Bounded Confidence Models,Analysisand Simulation[J].Journal of Artificial Societies and Social Simulation,2002,5(3):1-8.
[8]张涵.基于舆论动力学的在线点评观点演化及影响研究[D].北京邮电大学,2013.
[9]苏炯铭,刘宝宏,李琦等.基于观点动力学的在线评分人数预测[J].计算机工程,2014.
[10]黄飞虎,彭舰,宁黎苗.基于信息熵的社交网络观点演化模型[J].物理学报,2014.
Movie Rating Score;Opinion Dynamics;Model Prediction;Normal Distribution
Online Rating Score Prediction for Movie Based on Opinion Dynamics
YOU Ming-yang,HUANG Fei-hu
(College of Computer Science,Sichuan University,Chengdu 610065)
1007-1423(2016)05-0007-05
10.3969/j.issn.1007-1423.2016.05.002
由明阳(1992-),男,河南开封人,硕士,研究方向为大数据分析和观点动力学
2015-12-31
2016-01-12
随着国内外电影在线点评系统的快速发展,电影在线评分已成为电影消费者的重要信息来源。在评分过程中,个体的观点受到电影质量,自身评分习惯和其他用户评分的共同影响。据此过程从观点动力学角度对个体评分行为建模,建立电影评分影响力模型,对电影评分情况进行预测。使用豆瓣网站的影片在线评分数据进行实验,相比其他模型,取得了更好的效果。
电影评分;观点动力学;模型预测;正态分布
黄飞虎(1990-),男,四川遂宁人,博士,研究方向为社会计算和观点动力学
With the rapid development of domestic and foreign online movie comment system,the comments have become an important source of information for the consumers.During the comment process,the individual's opinion is influenced by the movie quality,their own comment habits and other users'rating scores.According to this process,makes the model of individual's comment behavior by the viewpoint of opinion dynamics and builds an influenced model for the rating score of movie.Uses the data from douban website,the proposed model achieves better results compared to other models.