连聪聪,杜仪,张辉
(中国传媒大学理学院,北京 100024)
电影营销因素是提升电影票房不可或缺的一个因素,积极的营销因素对票房能够有明显的提升效果,为了控制发行所带来的风险,保证电影的投资能够得到相应的回报,电影票房的收入预测成为一种必不可少的重要手段,对于投资方来说具有相当实际的意义。电影是一种生命周期较短的产品,绝大部分票房也全是在短短上映期间产生,因此,通过对营销因素的分析,做好票房的预测,才能对营销的过程进行调整,最终取得票房上的佳绩。本文充分考虑票房特点,基于clementine软件建立BP神经网络模型,并对票房进行了很好的预测。
本文样本数据选取2011年1月初至2014年12月底公开上映的102部国产电影进行分析并对票房进行预测。
对于收集到的样本数据,本文首先对其进行了简单的数据分析,利用SPSS软件对所有的类型变量做了一个频率分析,得到结果如表1:
表1 电影类型一频率分布表
本文所选的电影类型为:1喜剧片、2爱情片、3动作片、4惊悚片(悬疑片)、5动画片、6魔幻片(科幻片)、7战争片、8剧情片、9传记片(历史片)、10家庭片。从表1可以发现,电影的第一类型主要为爱情片,其次是剧情片、动作片、喜剧片,而魔幻片、动画片、战争片基本没有,这反映了在国内爱情、喜剧、动作电影更占主流,较受欢迎,而像战争题材、动画片则相对产片量较少,同时也可以看出国内的魔幻片数量极度紧缺,与好莱坞的大制作相比相差甚远。
首先为了预防因素之间的互相干扰,探讨因素之间的关系,本文利用SPSS软件对各个因素变量之间做了一个相关分析,研究各个因素之间是否存在某种依存关系,结果如表2:
表2 各因素相关性
从表2可以看出,导演与视频物料的支数相关性稍微较大,为0.409,但从实际来看,导演影响力与视频物料支数关系甚小,从而基本可以忽略其关系;其次为导演影响力与电影得分的相关性,其他变量的相关性皆小于0.3。从表格可以看出整体各个连续型因素之间的相关性并不显著,并不存在明显的依存关系,对于之后的分析影响并不大,可进行下一步。
人工神经网络系统由众多可调的神经元连接权值连接而成,人工神经网络作为一种并行分散的处理模式,具备大规模并行处理、分布式的信息存储以及良好的自组织自学习能力等特点。
BP算法作为人工神经网络的一种相对典型的学习算法,其拓扑结构组成主要包括一个输入层、一个或多个隐含层、一个输出层。
如下为基本的三层BP人工网络结构:
图1
4.2.1 数据指标选取
本文总结选取出了8个对电影票房有影响的营销因素,对于电影的广告费用等数据不可获得的变量本文则不进行选择。具体选出的这八个变量为:电影类型、电影档期、导演、第一主演微博粉丝数、第一主演所发电影相关微博的转发量、视频物料、IP电影、电影评分。
4.2.2 基于BP模型的电影票房预测
(1)确定网络结构
本文的输入变量分别是电影第一类型、电影第二类型、电影档期、电影得分、导演影响力、演员微博粉丝数、转发量、IP电影以及视频物料的支数,对于类型变量,软件对其进行自动处理成二分变量,最后变成输入节点数为28个。输出变量为电影票房的值,仅有一个神经元。神经网络的隐藏层介于输入层与输出层之间,本文选择一个隐层。
(2)权值调整
对于输出层的输出值,如果不是预期中的期望值,则会反向的对网络不断地进行修正,逐层修正各个连接的权值,并完成误差的修正过程。通过不停的修正,最后准确率也不断提高,直到达到期望值所在范围才终止学习。
(3)样本数据分割
为了得到相对准确的误差估计,建立Partition节点,并连接到数据流上的超节点上,选取70%为训练样本集,30%作为检验样本集。本文在神经网络节点的Expert选项中选择一个隐藏层,该层设置隐节点个数10个。
(4)预测结果
本文的输出变量是数值型变量,预测精度的方法是:
其中,表示第i个样本实际值与模型预测值的误差绝对值;Ymax表示最大的输出变量实际值,Ymin表示最小的输出变量的实际值。本文估计的预测精度为99.926%,该数据是基于训练样本计算的,结果比较乐观。如表3所示,本文原本输入节点为8个,对其中的分类变量进行转换为多个数值型变量,共有28个输入节点。除此之外,有1个隐层、10个隐节点、1个输出节点。
表3 分析结果输出
变量的敏感程度如表4所示。
从表4的预测结果可以看出,导演影响力是对票房影响最大的因素,其次为电影类型2以及档期,而视频物料支数及微博的转发量就显得不那么显著。
表4 各因素敏感度
摘取分析结果中的一部分预测结果如表5所示。其中$为预测值,预测值为标准化后的结果,通过(Ymax-Ymin)+Ymin还原。通过表5中可以看出,整体预测的准确性较高,误差较小。
表5 原始值与预测值对比
(5)模型调整
本文的精度达到99%以上,可能存在过度拟合的情况,为了克服过度拟合问题,本文在训练样本集中再抽取50%的样本训练模型。预测结果显示预测精度为86.508%,相比之前的精度,更加符合实际,得到新的敏感度如表6所示。
此外为了研究隐层节点数对预测精度的影响,本文对隐节点的个数进行调整,分别设置了5、10、15、20、25这5种,发现在多次试验中,当节点数为15时,预测精度较高,达到89.741%,其敏感度如表7所示。
表6 各因素敏感度
表7 各因素敏感度
对比表4、表6、表7,可以发现导演影响力、电影类型2以及电影档期这三种因素都位居前三,也就是说模型的调整对于该三个变量的敏感度影响都较小,意味着该三个变量对于票房的营销效果确实显著;而IP电影则在模型调整过程中都显现了较低的敏感度,说明是否为IP电影其实对于电影票房影响不大;相比之下其他变量的敏感度都有较大变动,不够显著。
(6)预测评估
本文以相对误差作为电影票房预测的一个衡量标准,相对误差的公式如下:
其中box为电影票房的实际值,Nbox为票房的预测值。选取的是训练样本集中再抽取50%的样本训练模型、隐层节点为15个时得出的预测值与实际值的对比。通过计算得到表8:
表8 相对误差值
从以上结果可以看出,本文的平均相对误差值在74.3%左右,对比参考阅读的其他文献的预测平均相对误差值,本文拥有较好的预测精度。
综上来说,BP神经网络模型对电影票房的预测精度还是相对较高的,具有一定的使用价值。通过本文的分析预测,可以知道导演的影响力对于电影票房来说起着至关重要的作用,明星的微博粉丝量其实不一定对于电影宣传有多大作用,反而应该是明星的互动性;本文预测的票房数据与实际值差别也较小,相对误差74.3%,预测精度将近90%,整体来说,本文模型较为合理,对于电影的票房预测有着一定的实用性,有利于制片方、宣传方等在进行电影各阶段工作的时候进行合理的评估。
本文立足于当前中国内地的电影市场,结合当下社会的热门话题,提出一种基于BP神经网络的票房预测模型,将电影档期、电影类型、导演影响力等营销相关的因素进行量化,对票房进行预测。本文模型的预测结果精度相对较高,而相对误差较小,预测效果较为理想。
通过这次的模型建立及实证研究,我们分析出对电影票房的各种影响因素,总结出以下几点建议:
导演对票房的影响有着最为重要的作用,制片方在电影开拍前,选择导演的时候应当选择具有相对有票房号召力的导演,减小投资带来的风险。
对于视频物料的支数,本文的分析结果显示,还是比较显著的。这也就意味着足够多的视频物料会越发地吸引观众进去影院观影。
[1]王大勇,艾兰.电影营销实务[M].北京:中国民主法制出版社,2011.
[2]王铮,徐敏.电影票房的影响因素分析-基于Logit模型的研究[J].经济问题探索,2013(11):96-102.
[3]杜思源.电影票房的影响因素分析——基于中国大陆电影市场[J].中国商贸,2013(10):184-187.
[4]郑坚,周尚波.基于神经网络的电影票房预测建模[J].计算机应用,2014(3):742-748.
[5]杨威.基于微博数据的电影票房预测模型研究[J].电子世界,2014(21):13 -16.
[6]尹一伊.影响中国电影经济成功的因素分析-从票房预测模型看中国电影新发展[J].当代电影,2013(7):18 -22.