基于文本分析和线性回归研究电影口碑对评分、票房的影响

2018-05-14 08:55孟雪
财讯 2018年13期
关键词:向量神经网络评分

孟雪

随着互联网的发展,电影行业与互联网的联结也愈发紧密。电影网络口碑的两个维度为电影评分和电影评论,网络口碑在一定程度上会对购买决策产生作用。基于2017年贺岁档影片的整体情况,选择其中150部电影,运用神经网络文本分类模型进行文本数据分析,将评论内容分为三类并赋值。再结合多元线性回归模型,得到一个有关影片评论人数、评论内容、评论星级和主演受欢迎程度的影片评分计算公式。影片评分的评分是影响人们观影计划的重要因素,所以,本文进一步根据影片评分与票房之间的关系,实现影片票房的天体预测,个根据预测,可以实现影片宣传成本的调控。

电影口碑文本分析BP神经网络多元线性回归

普通大众在选择影片时,往往选择较热门的电影或者口碑良好的电影。在互联网时代,人们会参看类似“豆瓣”的电影网站中其他网友的评论制定观影计划,有以下两种情况:关注与自己态度一致的信息、关注与大多数人态度一致的信息。因此,我们认为电影的口碑是影响电影票房的重要因素,及时的预测票房趋势可以实时调整影片宣传策略,实现投资成本的最优规划。

数据来源本文选取了2017年1月?3月的150部上映电影,它们的评价人数、观众对主演的喜爱程度、评价内容和评价星级作为自变量,影片豆瓣评分为因变量。其中,评价内容和星级来自国泰安数据库。电影票房来自http://58921.com/电影票房数据库。

结果与分析

(1)变量的神经网络自动分类模型

人为的对多个变量进行分类是一个很大的工作量,我们利用BP神网络算法构建文本分类器,采用一种三层前馈型网络来进行自动知识获取,既令其获取其关键词,并自动归类。评价内容一般可分为三种情况,一种是有利评论,一个未看过某电影的人看到评论后会产生看该电影的计划;一种是不利评论,一个有看某电影计划的人会取消看该电影的计划。一种是客观评论,感情色彩不明确,或者观众各执一词,最终不会影响一个人的观影计划。在实际操作中,我们需要首先将变量名称的描述文字处理成神经网络可以接受的数值形式。

第一步,我们统计一部电影的所有评论的高频词汇,以“火锅英雄”为例,有182个高频词,但是其中包含了许多没有意義的词,例如:the,and,by,of等,将这些无意义的词作为停用词删去。

从剩余高频词中选取出其中能表现情感态度的高频词。以“火锅英雄”为例,其高频词有“good”、“hero”、“humor”、“vivid”、“hotpot”等。显然,电影“火锅英雄”的评论以有利评论为主,我们认为一个未看过“火锅英雄”的人,在看完所有评论后,会产生观看“火锅英雄”的计划。第二步,将所有电影的情感态度高频词统计出来以后,将所有有利词汇,例如:“good”,“humor”,“excellent”,共263个词汇提取出来,认为它们是有序的。然后将每一条电影评论转化为维度相同的向量,若含有这263个有利词汇的第一个词,则对应向量的第一个元素为1,否则为0,依次下去。可将所有评论转化为一个263维的、由0,1组成的向量。利用R语言编程将所有变量转化为向量。即神经网络自动分类模型的输入向量。第三步,选取60个向量作为训练集,人为将其赋值。我们规定,类似“火锅英雄”,以有利评论为主的电影评价内容定义为1,类似“谋杀似水年华”,以不利评论为主的电影评价内容定义为-1。则每个向量对应一个类别编码。即为输出向量。第四步,将隐藏层神经元设为6个,输出层神经元为设1个。学习率设为0.05,训练步数设为1000步,误差限制设为le-5。当误差小于le-5或步数到达1000步时结束训练。训练方法采用Levenberg-Marquardt,误差是逐渐减少的。这样就建立起了神经网络文本分类器。下面将剩余的90个向量输入神经网络文本分类器,就直接得出他们对应的组别代码,下面展示了部分结果。

(2)多元线性回归分析的模型

进行多元线性回归,选取评价人数、观众对主演的喜爱程度、评价星级和评价内容作为自变量,分别为x1,x2,x3,x4影片豆瓣评分为因变量y。计算变量间相关性,可知主演的喜爱程度变量与评分的相关性不大,其余自变量都与y有较强的相关性。再进行多元线性回归。主演的喜爱程度变量的t检验的p值为0.681,不显著,下面采用逐步回归法进行处理。新的变量系数拟合值均通过t检验,R2=0.8664,F检验的p值<2.2e-16,认为是显著的。进行回归诊断,有一个异常值,将其剔除。检查多重共线性,vif<2,说明没有多种共线性。故影片评分的表达式:y=3.666+0.002x1+1.278x3+0.046x4(1)

根据2016年1月《消费者报道》对195名消费者进行的问卷调查显示,超过83%的消费者会在观影前参考影片评分;超过96%的消费者表示观影意愿会受到评分高低的影响,仅有4.32%的人完全不受评分影响。可见,影片评分高低对票房具有一定影响,电影的票房一般与其评分成正比关系。计算各变量相关系数,我们发现票房与评论人数、评分具有相关性。评论人数的多少与票房都体现了一部电影的社会影响程度,为方便计算,将票房单位改为千万,可以得到票房与评论人数之间的关系式为:

y=0.286+0.3245x1,其中F检验p值=5.494e-09,认为是显著的。

结论

(1)一部电影的口碑十分重要,电影评论会影响一部电影的评分。在已知一部电影的各方面评价信息后,可以大致推测出一部电影的最终评分,即具有参考价值的电影评分。对于网络口碑与电影票房的关系,我们一般听到四种组合:即叫好,又叫座;只叫好,不叫座;不叫好,却叫座;不叫好,不叫座。通过实际案例分析,我们认为两者之间的关系难以这样简单概括,而是涉及多重的维度和多种因素介人。一般来说,评分与票房高低都呈现正比关系,存在两种特殊情况——对于评分高票房低的电影,一般话题性不够,营销能力不佳,题材“阳春白雪”尽管部分观众在观影之后有较好的体验,使电影评分较高,但是难以引起其他观众的共鸣,不具有吸引力。对于评分低,票房高的电影,一般影片艺术表达具有一定特色,能够满足部分群体的需求并引发话题争议,可以调动其他观众参与,从而促进电影票房的增长。还有一种情况是影片艺术水平低劣但具有迎合性和娱乐性,由于产生了负面话题,反而引起其他观众的注意与审丑冲动,在一边骂的同时一边买票进场观看,且在观影后参与到负面话题的讨论中,这种行为是不理性的。此外,也存在一些来自娱乐新闻的不确定性话题炒作带来的影响。

(2)随着电影市场的成熟,尽管炒作现象仍然严重,观众也越来越理性,口碑经不起推敲的影片会在短时期之内跌落。业内认为,与2016年相比,2017年评分与票房的相关系数有了一定提高,这种提高反应了电影市场的发展越来越健康。

(3)本文结论可应用与以下方面:第一,在电影上映之后,随时会出现有关该电影的评价,获取这些评价可以得到该电影的实时评分,但是随着观看人数的提高,电影的评价类别也有可能发生变化,因此利用公式(1)得到的评分具有时效性。第二,理想情况下,可以通过所求的评分来预测票房,从而制定合理的影片宣传策略,减少无用投资。通过计算电影评分与票房之间的相关系数值可以衡量我国电影市场的理性程度。

[1]可晓群,刘文卿,应用回归分析[M],4版,北京:中国人民大学,2015,3:132-157

[2]RobertI.Kabacoff.R语言实战(第二版).人民邮电出版社,2016,5.

[3]张杭,黄敏,《浙江艺术职业学院学报》[N],2016年3期.

猜你喜欢
向量神经网络评分
基于人工智能LSTM循环神经网络的学习成绩预测
向量的分解
基于图像处理与卷积神经网络的零件识别
APACHEⅡ评分在制定ICU患者护理干预措施中的应用研究
基于自适应神经网络的电网稳定性预测
双周最佳阵容
双周最佳阵容
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
双周最佳阵容
向量垂直在解析几何中的应用