基于多元线性回归算法的电影票房影响因素研究
——以2023 年“五一”长假电影票房为例

2023-10-10 11:57:38黄佳珺
传播力研究 2023年26期
关键词:电影票房五一长假

◎黄佳珺

(吉林大学,吉林 长春 130015)

一、研究背景、文献回顾及学术价值

(一)研究背景与意义

电影市场的蓬勃成长是时代发展的必然趋势。一方面,社会的进步和技术的发展让人们从繁重的、为生存需要所必须付出的必要劳动中解脱出来,从事自己喜欢的、并不创造直接功利价值的娱乐活动。另一方面,电影作为传媒业的重要组成部分,兼具文化产业属性和意识形态属性,在生产优质的影片获取票房收益的同时向观众传达积极的价值观,对社会情感代偿满足、维护社会稳定有重要作用。票房数据等于电影的售价乘以销售量,直接反映一部电影所带来的收益,间接反映消费者对该电影的市场需求,其高低成败直接影响到了电影产业后续的发展与定位。因此,研究后新冠疫情时期的第一个电影上映档期——2023 年“五一”长假的电影票房及其影响因素,在市场供给方角度上能为电影业经营者提供策略指导;在需求方角度上基于需求及影响因素的分析让经营者投其所好,能有效满足消费者精神生活需要,提高消费者从电影中得到的效用。

(二)文献回顾

当前,国内关于国产电影票房影响因素的研究多数采用定量方法,在研究内容上各有侧重。在大数据时代,相关研究基于网络平台共享的海量数据提出了众多可能影响电影票房的因素并展开了详尽的实证分析。沈建军、吴春集(2021)发现电影票房与短视频营销成正相关[1],并分析实证案例给出电影营销的策略建议。刘丰波、林映红(2021)构建多元回归模型得出在线评分对电影票房的重要性[2]。于兰婷(2021)运用以回归为主的分析方法探讨了电影产业链中的各决策因素对电影票房的影响程度,同时为防止年代不同对因变量的影响还进行了纵向比较,使结果更具普遍性和客观性[3]。

回顾近年来的相关量化研究发现,因样本数据年份和类型等方面的差异,部分研究对于相同的研究内容的结果都略有不同。对此,相继有学者提出,为增强研究的严谨性,需要缩小研究范围,针对某一具体类型的电影展开其票房影响因素的研究,通过控制某些特征从而尽可能规避无法定量的因素对结果的影响,同时能给电影经营者提供更具体更具现实指导性的建议。孔泽鸣(2020)针对刑侦题材电影这一特定内容类型,构建有序回归分析模型,开展电影票房与营销的关系研究[4],通过细化研究内容突破了我国当前关于电影票房影响因素的部分研究因样本不同和类型丰富而造成研究结果存在差异的盲点。赵新星、郭哲滔(2020)则针对“春节档”这一特定类型的国产电影,运用偏最小二乘回归模型实证分析宣传次数、导演影响力等因素对该类影片票房的影响[5]。

总而言之,国内当前相关研究的优势体现在三方面。第一,基于平台数据构建回归模型来实证分析影响电影票房的因素,研究结果具备客观性。第二,提出了众多可能影响电影票房的因素并展开了详尽的分析,议题丰富、研究内容具备多样性。第三,部分研究针对某一具体类型的电影展开票房研究,在前两点优势基础之上更兼具严谨性。

当前相关研究也存在盲点。第一,多数研究虽然提出了众多可能影响电影票房的因素并用实证定量分析,但自变量的提出缺少理论支撑,关于自变量的罗列缺少系统梳理。第二,2020 年开始的新冠疫情对电影市场产生了强烈的冲击,而当前研究所采用样本都是疫情之前的电影票房数据,无法对后疫情时期的电影市场复苏有现实的指导意义。

(三)学术价值和研究创新点

基于研究现状,笔者一方面借鉴国内当前研究的优势,运用多元线性回归算法针对五一长假这一具体类型的电影票房的影响因素开展研究,使结果兼具客观性和严谨性,提出的策略建议更有现实指导意义。另一方面针对当前的研究盲点,在研究上作出了如下创新。第一,本文提出的自变量有理论支持。本文探究可能影响电影票房的因素时采用传媒产品需求影响因素理论为基础模型。一方面相比相关研究采用单纯的量化分析或单纯的质化分析兼具理论支持和实证分析;另一方面相比以往对票房影响因素的孤立的研究,本文对自变量的提出更具系统性和客观性。第二,本文研究后新冠疫情时期的第一个电影上映档期——2023 年“五一”长假的电影票房及其影响因素,对后疫情时期电影市场复苏更具有现实指导意义。

二、研究概要设计

本研究以2023 年五一长假电影每日票房及相关数据为数据集,选择了需求影响因素模型为基础,运用多元线性回归机器学习算法构建2023 年“五一”长假电影单日票房影响因素模型,并分析影响票房因素得出各自变量影响程度的量化结果,得出结论并提出经营者提高票房收益的策略建议。

三、数据挖掘和数据预处理

(一)变量解释

票房数据等于电影的售价乘以销售量,间接反映消费者的市场需求。因此,本文探究可能影响电影票房的因素时采用传媒产品需求影响因素模型为基础模型。相关定义指出,需求是在一定时期内,在既定的价格水平下,消费者愿意并且能够购买的商品量。“愿意”代表主观倾向,“能够购买”代表客观购买力。因此,本文根据需求定义将自变量划分为两类,即主观倾向和客观购买力。再由传媒产品需求影响因素模型对自变量作出更细致的界定。

1.因变量

本文以一部电影的单日票房数据为因变量,单位为万元。需求是在一定时期内,在既定的价格下,消费者愿意且能够购买的商品数量。由于在一天之内电影价格不发生变动,因此单日电影销售额直接反映消费者实时需求。且票房数据等于电影的售价乘以销售量。因此,本研究的因变量即电影单日票房是消费者需求的反映。

2.自变量

由于因变量是消费者实时需求的反映,因此在考察其影响因素时,本文基于影响传媒产品需求的因素理论为基础模型,并综合现有相关研究成果,设定自变量是当日电影价格、消费者预期度、消费者偏好度、影片题材。

因变量和自变量表述见下图。

(二)对应各变量的数据挖掘和数据预处理

1.因变量的数据来源

猫眼电影成立于2014 年,是中国一家提供电影信息、在线购票、在线观影等服务的互联网公司。本文从猫眼电影平台上获取2023 年“五一”长假电影的每日票房。

2.自变量的数据预处理

(1)当日电影价格。从猫眼平台上获取每日票房、每日场次、每日场均人次、影片题材的原始数据,整理成表。由于电影票房=售价×销售量,运用每日票房/(每日场次×每日场均人次)公式可计算每部五一档电影当日的平均售价。

(2)吴发翔等指出,当日消费者预期度可综合当日电影的百度指数和当日微博话题阅读指数间接表示[6],经归一化和平均计算后结果值映射到[0,1]之间。其公式表述如下:

(3)豆瓣网是一个集结了大部分年轻人的社交平台[7]。黑珍珍、孙琦通过对豆瓣网短评进行文本情感分析得出结论[8],一部电影的评分与消费者情感偏好度呈紧密的正相关关系。因此,消费者偏好度可将豆瓣电影评分归一化映射在[-1,1]之间表示,[-1,0)间的数值属于消极情感、0 属于中性、(0,1]属于积极情感。其公式表述如下:

(4)影片类型。根据豆瓣网提供的影片类型划分,本文将2023 年“五一档”电影的归为12 类,分别是:剧情、动作、爱情、奇幻、动画、家庭、喜剧、灾难、冒险、科幻、悬疑、犯罪。2023 年“五一”档中一部电影可能涉及多个类型,因此调用python 环境中sklearn.feature_extraction.text 库的CountVectorizer.transform 方法对影片类型变量进行向量化处理,得到的向量化影片类型特征变量形式如下图所示:

其中,一行代表一部电影某天的影片类型描述,每行都有12 列分别代表12 种类型,将对应类型的元素赋值为1、不是则为0。

(三)数据挖掘结果

2023 年“五一”长假共上映10 部电影,下表分别是“五一”期间每部电影每日票房及相关因素的数值结果。

表1 五一长假电影当日票房和用于计算当日票价的数据

表2 电影当日的百度指数和微博话题阅读指数

表3 “五一”长假影片评分

四、运用多元线性回归机器学习算法构建模型

(一)基础模型

对于2023 年“五一”长假电影票房及影响因素的研究,采用传媒产品需求影响因素模型为基础模型。

(二)逻辑设计

基于基础模型的2023 年“五一”长假电影单日票房影响因素模型逻辑设计如下图所示,其中各变量在本文第3 章中已被详细解释。

(三)2023 年五一长假电影单日票房影响因素模型物理构建

多元回归是指因变量Y与多个自变量X1、X2......Xp有关[9]。可通过调用python 环境中sklearn.linear_model 库的多元回归机器学习算法、拟合数据,来得到因变量与多个自变量的等量关系,其一般形式为:

其中,X1、X2......Xp是p个可被量化的自变量,Y是因变量;a、b1......bp是多元(p元)线性回归方程的回归系数,可反映相应自变量对因变量的关系和影响程度。

笔者调用sklearn.linear_model 库的多元回归算法搭建回归模型并拟合处理后的数据:

由于单日票房单位远大于自变量单位,还要对因变量取10 的对数来让模型标准化,以便回归系数更好反映影响程度。

搭建成的多元线性回归模型如下:

五、2023年五一长假电影每日票房影响因素分析

笔者使用模型的coef_属性查看2023 年五一长假电影单日票房与影响因素的多元线性回归结果(见下表)。

自变量特征 具体因素 回归系数coef当日电影价格 0.0009318443732782023当日消费者预期度 0.37235185460018966消费者偏好度 -1.7887402565835517影片类型剧情 -0.026422022342088736动作 0.7378383804389359爱情 -0.8726244638046137奇幻 -0.23725678694483884动画 0.2861692589662949家庭 1.1485297778886947喜剧 0.6599173892713924灾难 -1.2589825844032914冒险 0.022490449679364664科幻 0.02249044967936461悬疑 -0.5026408562263485犯罪 -0.5026408562263486

其中,回归系数coef 表示各自变量的影响程度,回归系数为正数表示因变量与自变量成正相关线性关系,回归系数为负数表示因变量与该因素成反相关线性关系,且回归系数越大反映该因素对因变量的影响程度越大。

六、结论

第一,2023 年“五一”长假电影单日票房与当日电影价格呈极其轻微的正相关关系,电影票价对单日票房几乎没有影响。

第二,2023 年“五一”长假电影单日票房与消费者预期度呈正相关关系,消费者预期越高,2023 年“五一”长假电影单日票房越高。电影经营者为增加收益可适当加强全媒体电影营销,提高观众的预期度。

第三,2023 年“五一”长假电影单日票房与消费者偏好度呈显著的负相关关系,消费者偏好度越高,2023年“五一”长假电影单日票房反而越低。这反映了当前国产电影“叫座不叫好”的现状,电影经营者应当在追求经济效益的同时注意提高社会效益,应当注重作品质量的提升来满足受众的精神需求,而非一味炒作营销,过度追求经济效益。

第四,探究2023 年“五一”电影单日票房与影片类型的相关度发现,2023 年“五一”长假电影单日票房与动作、动画、家庭、喜剧、冒险、科幻呈显著的正相关关系,与剧情、爱情、奇幻、灾难、悬疑、犯罪呈负相关关系。且对票房正向影响程度由大到小的因素依次是:家庭>动作>喜剧>动画>冒险=科幻;对票房负向影响程度从大到小依次是:悬疑>犯罪>灾难>爱情>奇幻。

可见“五一”长假消费者倾向于选择轻松娱乐的家庭喜剧,阖家带孩子看动画片或者冒险动作片,而回避悬疑犯罪或者灾难的情绪严肃类电影和爱情片。电影经营者如果想以后在“五一”档上映电影获得不错的票房,应当在生产影片时把类型定位放在家庭、动作、喜剧、动画、冒险、科幻上面,让电影整体基调轻松欢快、富有刺激;减少情绪基调较为悲凉、严肃的电影。

七、结语

笔者以2023 年“五一”电影为研究对象,基于传媒产品需求影响因素模型构建因变量和自变量,运用多元线性回归算法拟合数据后,得到各自变量对2023 年“五一”电影单日票房的回归系数,经归纳得出以下结论。

对2023 年“五一”电影单日票房正向影响程度从大到小的因素是:家庭、动作、喜剧、消费者预期度。对2023年“五一”电影单日票房负向影响程度从大到小的因素是:消费者偏好度、灾难、爱情、悬疑、犯罪。因此,电影经营者在设计“五一”档电影时,首先,需把剧情内容放在首位,在剧情设置时突出家庭、动作、喜剧的元素;其次,加强影片上映前的全媒体渠道营销,拉高消费者预期度;最后,减少生产剧情紧张惊险的影片和爱情电影,从而增加票房收入,获取经济效益。同时,电影经营者如果想在谋取经济效益的同时取得后续持久的口碑,需要在导演、拍摄、剪辑时注重作品质量,给消费者以良好的视听体验。

猜你喜欢
电影票房五一长假
新年新气象,元旦来带头 2021年1月电影票房排行榜
打铁还需自身硬 2020年10月电影票房排行榜
意料之中,整体表现平淡 2020年9月电影票房排行榜
暑期档继续“遇冷”2019年7月电影票房排行榜
长假(外一首)
天津诗人(2017年2期)2017-11-29 01:24:28
长假
分忧(2017年5期)2017-05-05 14:45:44
年度拼假攻略
分身记