“脏数据”难以排除影业谈大数据预测言之尚早

2014-12-23 03:11:51IT时代周刊陈昌业发自北京

IT时代周刊 2014年21期

《IT时代周刊》特约撰稿人/陈昌业（发自北京）

责编：张里 E-mail:zhangli@ittime.com.cn 美编：圆圆校对:媚子

截至10月16日，《黄金时代》的累计票房为4698万（已上映16天），如此成绩对于片方、媒体和公众而言都是出乎意料，毕竟满满的7天国庆黄金档是一个日产斗金的高产值档期。无论是汤唯还是冯绍峰都已是炙手可热的有极高票房号召力的大明星，此役失利，堪称冷门。

但最令人哑然的恐怕还是影片上映前百度为其背书的票房预测，当时很多媒体还认为百度的预测太过保守。在百度百发的新闻发布会上，当宣布预测票房为2.0-2.3亿后，全场只有安静，毕竟这个为期七天的黄金档期对于拥有汤唯和冯绍峰的电影而言，只预计这个数字略显保守了，但如此谨慎的预测，在今天看来竟显得过于“乐观”。

其实，百度很早就开始研究并在内部预测票房了，在今年7月18日爱奇艺影业宣布成立的新闻发布会上，爱奇艺首席内容官马东就透露，目前在爱奇艺内部，基于百度大数据的票房预测已经能够做到80%以上的准确率，未来将会在适当的时候对外发布票房预测。显然，针对《黄金时代》的百度百发（娱乐众筹产品）发布就成为了百度发布票房预测的适当时候，但只可惜出师未捷。

为什么中国最有能力做大数据预测的百度，竟会“意外”地马失前蹄？

不到5000万的票房收入，让投资方百度百发早期通过大数据技术对《黄金时代》国庆期间的票房预测完全失真。

历史沉淀数据严重不足

爱梦娱乐大数据创始人雷鸣和凡影调研客户总监王舒都认为，在国内做电影票房预测存在一个根本性的“疏漏”，就是中国电影市场的历史数据沉淀严重不足。

我国有详细、清楚和准确的票房记录是从2012年开始。当年2月，全国电影票务综合信息系统（简称新平台）上线。该平台共规划了信息速递、行业管理、影院管理、影片管理、票房数据接收、放映数据接收、监控管理、专资收缴管理、专资使用管理、查询统计、分析预测、GIS综合展示、安全认证、系统管理、SSL应用共15个模块，77项功能。从技术上实现了能够准确统计全国的票房、场次、排片等影院端生成的数据。

在此之前，除了年底由国家电影专资办统计出具的权威票房数据外，其他每周、每月票房的数据多是由专业人士根据抽样的统计进行估算。

雷鸣介绍，爱梦娱乐大数据为了弥补公开的票房数据资料不足，自己做了大量的“脏活、累活”，对2010年以来的国产电影单片的投资额、票房、演员阵容等进行了尽可能的资料搜集和统计，并进行了标签化的整理，从而形成自己的具备一定沉淀量的结构化数据。

王舒还特别提到，从2012年有详尽票房统计以来的数据并不足够有参考价值以作为票房预测的基础，因为中国电影产业自2012年以来连续地进入了一段爆发式增长期，从百亿迅速跨越到200亿元，甚至今年有望冲击300亿元。

“稳定性是做趋势性预测的基础。”王舒认为，“高速增长是具破坏性的，如果根据这样的数据进行预测，则必须作出实时的调整才能相对准确。”就王舒看来，只有等到中国电影的票房产值进入到一个稳定的平台期，电影的消费习惯趋于稳定，才可能作出基于统计分析“准确”的趋势性预测。

难以排除的数据“噪音”

据百度大数据部产品规划负责人祖峥介绍，百度票房预测基于百度每日60亿次的搜索查询数据、1亿规模的微博数据以及10年电影行业数据，通过百度大数据引擎将数据进行整合、建模和清洗，输出针对特定电影的搜索指数、社交指数、演员指数、导演指数等，最终可以导出电影总票房预测和7日票房预测等数据。

雷鸣认为，百度的搜索排名以及搜索结果导出的各类指数都会有大量来自于片方及其宣传公司，即非自然形成的人为推高——这在电影行业的宣传里司空见惯，当然也是百度的竞价排名等与搜索结果有关的收费服务所提供的“宣传空间”。

如果是这些 “结果”，本身由此就会存在大量的误导，这在雷鸣的描述里被称作统计上的“噪音”，亦被称作“脏数据”。雷鸣认为，不排除《黄金时代》存在这些“噪音”，而百度方面很有可能因为没有能够剥离这些“脏数据”，从而“被自己欺骗了”。

关于百度预测模型，媒体公开的资料显示，“这一产品结合百度搜索数据、新浪微博数据，以及中国电影过去几年的历史票房数据，可以从演员热度、导演热度、电影关注度、上映时间等多个维度对一部电影进行票房预估。”

凡影调研客户总监凌毅认为，仅从披露的信息看，模型内包含的数据维度并不足够多，“或许该模型还处在初级阶段。”凌毅提到了从媒体公布的资料看，特别是忽略了档期内其他竞争影片这一重要的参考维度。而据其分析，该片之所以会票房失利，与影片对国庆档期的错判，特别是该档期内观众的消费心理错判有很大的关系。凌毅介绍，乐视影业内部对于电影项目的数据决策模型中，基于同档期竞争影片的数据分析是十分重要的数据维度。

搜狗方面亦对此颇为认同，“影响票房的未知因素多：导演、演员、剧本、宣传、首映时间、影片档期、同期竞争的影片、CPI、经济周期、天气情况、影院的排片率、上座率、票价、是否3D等。此外，《黄金时代》与多部电影同步上映，互相影响。而很多数据都是基于单部电影，对多部电影相互影响的作用并不好分析预判。百度票房预测的数据来源和覆盖人群还是非常广的，只是如上所述，预测过程中充满了不确定性，特别是一些不可预期的变量会对预测结果产生比较大的影响，这点在部分电影中表现会比较明显，也是不可避免的。”

在王舒看来，变量遗漏和样本偏差是做统计性趋势分析的最大敌人。前者即是凌毅提到的问题，维度的不够丰富，不仅可能是因为疏漏而导致没有纳入到统计口径内，还可能是因为互联网内的数据目前仍然存在“门户”壁垒——无法打通一些关键的大数据，譬如说微博数据与微信数据打通，百度的搜索引擎内沉淀的数据与腾讯在QQ、微信上沉淀的用户数据打通，淘宝、京东、猫眼等电商或O2O平台内的数据之间打通，这些具有强关联性的数据目前还难以实现分享，而这些数据不能打通，则任何一方对于“人”的消费行为描述、消费心理观察都必然会有相当程度的偏颇，变量遗漏也就在所难免了。

样本偏差指的是，“在没有严格遵循随机的原则时，所覆盖的样本越大反而会导致误差越大。”另外，由于搜索只是一种表示兴趣的行为，如果仅以一小部分人的兴趣来推测全体的购票决策，准确度有限是难免的。

电影领域谈大数据尚言之过早

“大数据不实用。”王舒认为，“做这种预测，对于电影票房并没有直接的帮助。这是一个无法证伪，也无法证实的预测。”映前的票房预测如果高了，片方也不会就不作为，干等胜利成果，那么预测后所进行的努力就成了对于票房最终结果的助力，从而也就无法证实彼时的预测与此时的成绩之间是否可以称作是准确。反之亦然，预测低了，片方当然会尽最大努力调整营销策略，那无论最终准确与否都无法判断彼时预测的结果究竟对与否。因此，除了为影片增加噱头外，票房预测可以说没有价值。

凌毅指出，乐视影业内部的数据及策略中心，会在电影的投资阶段，便参与到对项目的市场评估，帮助影片在制作上做调整。而在电影进入到发行阶段之后，更会基于对本体、档期、竞品等的数据分析，来制定相应的市场策略，包括通过对实施效果的实时监测，来修正和调整营销策略。凌毅强调，数据分析更像是一个工具，它能修正经验及主观意识的偏见，帮助片方在营销上少做错误的决策，但绝不是包治百病的万灵丹。

“目前，电影领域谈大数据，还为时过早。”凌毅认为，电影行业仍然还是传统产业，从制造到消费都是线下完成，即便现在有电商介入购票环节，但是绝大部分的线下行为都无法数据化导入到线上，从而形成具有因果关联性的大数据沉淀。“包括在乐视影业内部，目前数据对我们最具意义的部分，其实在于它是一套培养良好思维习惯的工具，大数据的前景在将来。”

王舒与凌毅观点相似，他认为大数据尽管不同于过去强调因果关系的统计分析，但强调关联性的大数据并非无需因果，仍然需要有因果关系的数据导入。否则，全世界发生的事情都只要用“蝴蝶效应”来解释就足矣。

仅就电影行业的大数据而言，一方面需要较长时间的历史沉淀数据——王舒认为是十年后；另一方面需要有大量的第三方公司参与到行业中来，帮助打通各个阵营、领域、行业中“孤立”的数据，关联才是大数据中“大”的真正价值。因此，沉淀票房的历史数据以及与电影行业有关的其他数据才是当务之急，经年累月后，这些大数据能够产生巨大的分析价值，不止于票房预测。