【摘 要】近些年来,大数据与电影产业的融合不断加深,如何在电影业中应用大数据成为相关利益方的热点议题。然而,国内业界和学界对于大数据的基本问题存在理解不到位的情况,例如对于大数据技术原理、技术缺陷的认识还不充分。本文从分析大数据概念入手,讨论大数据在电影业的应用场景以及常见的认识误区,并提出电影业妥善、充分利用大数据的措施建议。
【关键词】大数据;电影;应用;认识误区
【基金项目】本文系2019年度江苏高校哲学社会科学研究重大项目《电影强国视野下中国电影产业支撑体系研究》(项目编号:2019SJZDA123)阶段性成果。
大数据通过连接内容、渠道、用户,打通了影视产业的供给侧和需求侧,为影视行业的发展带来了新的可能。从实践情况看,国内外电影业均有许多利用大数据的成功案例,而学术界也有越来越多的学者关注大数据在影视产业的应用问题,学术生产在近些年也迎来了高峰。然而,尽管大数据与电影产业的结合大有可为,但整体上仍处于探索阶段。从现有发表文献看,讨论大数据优势和应用前景的比较多,关注其缺陷和风险问题的较少,对于大数据普遍存在一种盲目乐观的倾向。另一方面,部分电影行业的从业者和研究者还没有准确理解大数据的内涵和原理,迫切需要厘清一些观念。本文首先在回顾大数据基本概念基础上,结合现有的中外研究成果,分析大数据对于电影产业的影响。其次,从技术局限性的角度,探讨常见的对于大数据技术的认识误区,并指出大数据技术在电影业应用的未来发展方向。
一、电影大数据核心概念和相关研究
进入信息社会以来,各个行业均产生了大量数据,大数据这一概念应运而生。通常意义上,大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。与传统数据集合相比,大数据通常指向非结构化的数据。[1]由于电影行业的从业者和研究者在学科背景上大多和信息科学、统计学缺乏交集,很多人错误地以为只要数据量足够“大”就是大数据,而事实上传统方式的大样本问卷调查、内容分析并不属于大数据的范畴。广义上讲,大数据既包括数字化数据,也包括非数字化的数据。和传统数据相比,大数据具备特殊的优势。传统数据通常样本量偏小,且收集成本较高,通常几百、几千,上万的样本比较罕见。而大数据则常常数万乃至数百万,在很多情境下样本几乎等于总体,没有抽样必要而且收集成本偏低。另一方面,传统数据需要通过问卷调查法获取,这种方式获取的数据可信度低,而大数据体现的是现实世界的真实数据,可信度较高。目前常用的电影大数据主要包括电影公司采集的内部数据,专业数据公司提供的数据以及网络媒体产生的数据,例如Twitter、微博、Facebook、维基百科、IMDB、豆瓣、热搜等。大数据方法是统计学和计算机科学的结合,未来的发展趋势是在现有统计学方法基础上,和数据思维相结合,产生新的、应用范围更为广泛的统计方法或大数据算法。[2]大数据着眼于人类在自然和社会中所产生的各种痕迹,最为重要的价值在于对自然和社会的规律及模式的探索,以及对于未来趋势的预测。围绕着大数据,科学界形成了一种新的研究范式,即科学研究不再基于模型和假设,而是利用计算挖掘海量数据,去发现变量之间的相关关系。
在探讨大数据与电影关系时,海外研究侧重强调大数据技术在票房预测、电影生产、营销策略以及电影获奖预测等方面的影响,相关文献以实证研究为主,尤其侧重于探索社交媒体数据与电影产业的关联。还有一些文献侧重于分析信息技术问题,例如算法。[3]近些年来,国内学者也逐渐开始了对于电影大数据问题的探讨,相关成果呈现出爆发式增长的态势。和国外文献通常分别讨论电影和电视不同,国内通常不做区分,其中大部分论文着眼于大数据在影视链条各个环节的应用问题。比如,有学者指出大数据在影视产业流程中的应用是比较全面的,无论是通过量化分析以描述受众群体的轮廓,还是内容创作、演员选择、营销方案制定,以及排片和舆情监测方面都可以发挥其作用。[4]除了整体性介绍,部分论文聚焦于某一具体的环节,例如影视投资、票房预测、影视媒资系统、影视剧本开发、电影推荐算法等。特别是聚焦于大数据对于电影内容创作和营销策略方面。[5][6]还有少量文献通过案例分析和实证研究进行具体实践上的分析。例如有论文以《头号玩家》为案例,分析好莱坞电影工业中是如何利用大数据生产电影并实现精准营销的。[7]还有论文通过扎根理论分析探索影视大数据对于各生产环节的影响,[8]以及通过大数据指标分析影响中国电影票房的因素。[9]此外,有学者将目光投向西安电视剧版权交易中心及其发起设立的西安影视数据评估中心,以此为个案分析了大数据技术在影视评估领域的本土化实践。[10]尽管相关研究呈现一片繁荣的局面,但与海外相比,国内研究整体上偏重于理论研究,实证研究和技术应用类研究偏少。少数研究者对于大数据概念和原理认识不到位,部分文献停留在概念炒作的层面,所提出的问题和观点其实与大数据并无关系。
二、电影大数据的认识误区
使用大数据工具,无论是在描述、预测社会现象,或是进行假设检验以解释社会现象时均会存在一定的缺陷。常见问题包括数据收集的法律伦理问题、技术逻辑问题、算法问题、数据代表性和真实性的问题等。在电影行业应用相关技术时,必须考虑到相关风险。
大数据时代,可识别性个人信息界定变得模糊。零散的碎片信息经过组织就可以指向具体个人,造成侵犯个人隐私权的法律风险,牵扯到数据的收集、合成以及分析环节。另一方面,大数据分析的数据很大一部分来自于企业和机构,对于它们来说数据往往是核心财产,牵扯到商业秘密、知识产权,乃至国家安全等方面的问题,而当前对于数据产权的认识并未达成一致。如何合理收集和处理信息,是利用大数据时必须考虑的问题。
以大数据技术为影视行业科学决策提供助力是一种趋势,但是我们必须意识到大数据仍然存在局限性,其在电影生产和产品运营中虽然具有重要的决策价值,但却不能过分依赖。就当下而言,在相关技术尚未完善成熟的情况下,如何处理通过大数据技术得到的结论其实是很大的问题。对于通过大数据技术得到的结论,决策者普遍忧虑的是预测准确性问题。如果得到出乎意料的、反常识的结论,那么肯定需要经过综合其他方式进行决策。此外,大数据技术在面对异常值(指的是样本中个别值明显偏离其余的观测值)时往往表现得力不从心,无法判断其对与错。当然,大数据应用于产业分析和学术研究还存在另外一种可能,即通过复杂的技术却得到人所共知的结论。得到的结论并非不科学,但耗费人力物力却对决策并没有很大帮助,因为通过其他方式也可以实现。
大数据技术过于依赖数据,错误的数据会导致错误的决策,而数据却存在巨大的“被污染”的风险。影片《航班蛇患》受到网民意见的影响,其出品方新线电影公司在电影制作完成之后,又额外拍摄了5天,增加了很多粗俗内容以迎合观众,但实际的票房却并未达到预期。自此事件之后,好莱坞对于网络数据的态度变得非常谨慎。这个事件是电影业典型的基于大数据的错误决策。数据本身还存在着其他方面的问题。网络时代的电影行业,网络口碑是重要的决策判断依据,经常被用来预测电影票房和制定营销方案。但网络口碑数据也未必可信,同一部电影在不同评分网站得分常常差异较大,而网络口碑又会受到一些偶然事件的干扰。此外,经常被用来做预测、分析市场的社交媒体数据也会受到多方面因素的影响,比如网络水军群体的干扰。即便是专业机构发布的影视数据,其真实性也一直饱受质疑,尤以电视收视率和电影票房最为引人注目。准确的预测必然要建立在数据真实基础之上,种种不确定性也进一步放大了大数据决策的风险。
同样对于流感的预测,谷歌就经历了从成功到失败的起伏,其对于2013流感的数据预测与实际情况差距很大,其原因很有可能是算法的缺陷。大数据对于社会经济生活的影响,很大程度上依赖算法模型进行的分析。对于非专业人员而言,算法往往是一个“黑箱”,要特别警惕算法缺陷带来的负面后果。当前的智能推荐系统工作原理是依靠用户的历史数据形成“用户画像”,根据算法以预测用户兴趣、需求,并将要推荐的电影资源与用户之间形成匹配关系。常见的算法包括基于内容、协同过滤和基于图模型的推荐算法,而当前技术在分配指标权重、属性向量化和兴趣三个方面都存在缺陷。算法本身需要审核,需要人工干预监管。[11]
此外,还需要注意的是,当前庞大的数据量通常不是传统的结构化数据,而是非结构化或半结构化数据。网络空间存在大量视频、音频、图片、文字,乃至地理位置等信息。从机器的角度来看,能够分析这些数据的工具比较有限,这意味着很难提取到有意义的信息。大数据技术中,当前相对成熟的是文本数据分析技术,而对于其他类型的信息形式,比如图片、音频、视频处理能力仍显薄弱。即便是对于文本,大数据也存在信息过载、信息失实、 信息冗余、信息污染的问题,在对文本信息内容、结构以及功能的描述解读方面并不完美。比如在分词技术方面,机器面对人类复杂的语言体系,仍然难以依据情景精确处理词语之间的关系。“武汉市长江大桥”主语的身份究竟是市长还是大桥,对于计算机来说,在识别时往往并不准确。
大数据强调数据驱动,而非理论驱动,崇尚基于数据发现事物之间的规律,重视基于算法发现变量间的相关性。在逻辑思路上,大数据强调的是相关关系而非因果关系思维,相关指的是两个变量之间的共变关系,而不考虑其他变量的影响,大量经验研究表明,这种认识方式经常伴随着错误。举例而言,我们会发现超市雪糕销量和溺水死亡人数呈现正相关的关系,而我们无法得出结论是雪糕导致了溺水。其背后的真正原因是天气、温度。同理,社交媒体上的人气与电影票房也未见得一定存在正相关关系。另一方面,统计学经常发生的一种不幸现象是,只要样本足够大,关系往往都显著。大数据的海量数据是一把双刃剑,本来不相关的变量也会相关,数据量越大,越有可能呈现出无意义和无用的相关性。这些相关性的出现只是由于数据的大小,而不是数据的性质,从而造成判断上的武断。[12]
大数据方法存在各种风险而并非完美。Simon和Schroeder的研究指出大数据在电影业的应用有六点需要注意的地方:第一,当分析者忽略核心变量时,其模型预测效力并不强。大数据既可以是陈旧的历史数据,也可以是最近发生的数据。对于影视行业,由于受众的兴趣、品位、偏好往往是变化的,只有及时、动态、准确的数据对于决策和营销才有意义。这无疑对相关分析工作提出了挑战。第二,数据分析必须考虑数据获取的问题。很多数据获取不易,或者根本无法获取,即便是社交媒体也存在此类问题。第三,科学研究发现,由于数据量小,大数据在市场变化大、小众电影和相关信息少时预测效力不佳,而市场表现成功的电影则预测效果较好,但这也意味着模型在最需要它们的时候却失败了。第四,数据会存在内在的偏差,社交媒体并不能代表目标的人口总体,而且不同的社交媒体群体特征不同。第五,测量指标的内涵不同,同样是微博点赞,不同网民的理解并不相同。第六,数据来源、结构和形式不同,整合起来困难很大。[13]国内学者对于大数据的负面作用提出了新的视角,电影是一种艺术形式,有着内在的审美要求,大数据作为市场分析工具过于强化商品性,以此为工具指导电影生产势必会削弱电影的艺术性。[14]
三、建议和未来展望
(一)正确认识电影产业的大数据技术,避免陷入误区
大数据是认识复杂世界的新思维和新手段,引发了社会经济变革。文化大数据的时代已经到来,影视从业者必须要意识到大数据对于产业变革带来的契机,重视、理解并努力运用大数据。当前大数据技术在电影产业已经得到一定程度的应用,未来发展更是值得期待。可以预料,借助更为先进的数据收集工具、分析工具以及更为广泛、共享的数据平台,大数据在电影产业中的价值会得到进一步提升。
人类社会和自然世界一样都是极端复杂的。和自然科学相比,社会科学的观察、测量和分析工具准确性及客观性还不够理想。近几年来,大数据技术的发展和应用取得了很多喜人的成果,各行各业均表现出了对于大数据的兴趣,但我们仍然意识到大数据不是万能的,存在很多需要完善的地方。大数据本质上是一种定量分析技术,具有量化的局限,比如在深入理解社会现象方面就显得力不从心。另外,在数据决策方面要警惕出现“大数据傲慢”思维,即认为大数据可以替代传统的数据收集和分析方法,而并非仅仅是后者的补充。事实上,大数据相关技术还处在不断完善的过程之中,在电影领域的应用探索还不充分,相关技术方法本身存在着固有的缺陷。影视行业要重视大数据带来的契机,妥善利用大数据,推动互联网、大数据、人工智能和电影业的深度融合。而另一方面,相关研究者和从业者要具备一定的专业素养,从源头理解相关技术的基本概念、原理和应用,建立真正的大数据理念、意识和思维,无论是产业实践还是学术研究,均不能过分迷信大数据。
(二)妥善利用各种数据,重视企业数据资源建设和建立大数据联盟
影视公司应该强化数据意识,认识到大数据的机理和规律,加强数据资源建设和保护,重视对于产业链上各方面数据的收集、整理,形成内部数据库。企业自主搭建大数据平台要量力而行,一方面是投入较大而短时间内难以获益;另一方面,大数据发展速度日新月异,很有可能错失先进技术跟不上形势发展。除了自己搭建平台,对于企业来说,还有另外一种方式就是直接与专业大数据公司建立合作关系,并积极展开与海外影视公司、数据公司的交流学习。大数据数量庞大、来源多样、数据结构也不统一,存在着共享困难和整合困难的问题。结合我国国情,由政府力量牵头组织,打通数字链条是当务之急。浙江、北京目前已经搭建了成熟的文化产业大数据服务平台,成功构建了信息共享服务平台以及互联互通的网络服务体系。电影产业也期待具有广泛覆盖范围,能够连接多方参与主体的专业大数据平台出现。通过大数据平台,在制度框架下收集、共享、使用大电影产业链数据。
(三)谨慎对待以受众为中心的电影生产和营销思维
大数据在电影产业中的应用呈现出一种受众中心论的价值取向。所谓受众中心论指的是文化生产、经营活动以受众为中心,其他要素均围绕受众展开的思维。经营者在收集和报告来自受众的可量化的、准确的、即时的反馈时,受众在某种程度上传达了他们想要的信息,大数据思维为经营者提供了以受众为中心内容生产和营销的决策可能性。大数据时代的电影生产囊括从项目立项、剧本创作到演员阵容选择。大数据营销方式融合传统电影营销和社交媒体营销,通过量化受众和改善营销策略并制定精确的排片策略。从积极的角度看,大数据几乎可以应用于电影产业链的全部环节,但依托于数据驱动的创作和经营思路却未必能够保证作品质量,以受众为中心常常让电影陷入娱乐化的陷阱。电影作为艺术产品,不能过分迎合受众需求而牺牲艺术品质,需要在市场效益和社会效益两个方面取得平衡。
注释:
[1]张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233.
[2]游士兵,徐小婷.统计学方法的发展及其在大数据中的应用[J].统计与决策,2020(04):31-35.
[3]Simon, F. M., & Schroeder, R. (2020). Big data goes to Hollywood:The emergence of big data as a tool in the American film industry. Second international handbook of internet research,549-567.
[4]郭强,许妍.浅析影视大数据的应用场景及案例[J].中国电影市场,2019(07):7-12.
[5]郝烨.智能时代的电影评估与决策体系——价值链重构下的导向转型[J].编辑学刊,2022(02):42-48.
[6]范志忠,汪梦菲.大数据视角下影视工业创意评估与生产[J].东岳论丛,2023,44(07):37-44.
[7]余吉安,秦敏,罗健,刘思彤.电影精准营销的大数据基础:以《头号玩家》为例[J].文化艺术研究,2019,12(01):8-16.
[8]方浩,马雅,杨流,张锐.基于扎根理论的影视大数据应用模型研究[J].声屏世界,2019(05):11-14.
[9]卢文景,冯晓.大数据时代电影票房影响因素证实分析[J].中国传媒大学学报(自然科学版),2017,24(01):41-46.
[10]党雷.影视评估大数据智能分析应用与示范 [J].人文天下,2019(17):2-6.
[11]王晓通.大数据背景下电影智能推送的“算法”实现及其潜在问题[J].当代电影,2019(05):64-70.
[12]Calude C S, Longo G. The Deluge of Spurious Correlations in Big Data [J]. Foundations of Science, 2017,22(3):1-18.
[13]Simon, F. M., & Schroeder, R. Big data goes to Hollywood: The emergence of big data as a tool in the American film industry [M].Second international handbook of internet research, Springer: 549-567.
[14]时继超.论大数据在电影产业中的作用[J].中国电影市场,2017(12):19-21,18.
(作者:苏州大学传媒学院副教授,博士,新闻系副主任)
责编:周蕾