张海悦 王 萃 刘 达
(中国电影科学技术研究所,北京100086)
随着中国电影业发展日益强盛,电影产业基础数据呈爆发式增长。近几年,我国影院飞速发展,影院数量达1万余家,银幕数超过6万块,已显著超越美国成为全球银幕数最多的国家。与此同时,我国国产电影、电影制作公司也在积极成长和发展进步。
目前,我国电影产业基础数据来源多样,主要来自于各个电影网络平台和相关机构。但各个平台、机构之间相对独立,数据缺乏统一标准,部分数据存在不规范、不准确、互操作性差、难以共享等问题,导致电影产业数据难以相互兼容和互联互通,无法被有效利用。
为解决上述问题,有效集成我国电影产业基础数据,创建中国电影产业基础数据库十分必要。通过创建完善的基础数据库,实现各平台数据统一集成,有效解决多来源数据不准确、多方采集及难以共享的问题。数据是持续增长的,建立统一、有效的技术标准,避免数据更新时发生重复、混淆等问题,实现数据的可持续更新与应用。通过对完善的数据进行可视化、分析与挖掘,实现数据的有效利用,为电影产业发展提供决策参考。
为确保数据的全面、准确和稳定,我们对数据来源进行调研分析,分别从影院、影片、影人和制作公司对电影产业基础数据进行分类、细化及多元化采集。
影院数据包含影院基本信息数据、票务数据、监管数据、设备数据、地理位置数据和周边商业体数据。影院基本信息数据和设备数据主要来自行业机构,但各机构的数据各有侧重,互为补充,却又自成一体,数据格式相互不统一,需整合关联后使用。影院票务数据采用国家电影事业发展专项资金管理委员会办公室的 “全国电影票务综合信息系统”数据为主要来源,该系统是我国官方电影票务数据接收平台,全国各影院都应按规定将放映的每一场电影票务数据,通过计算机售票系统上报至该平台,该数据接收平台是迄今我国票务数据最具权威性和最为完整的数据库。影院监管数据主要来源于中国电影发行放映协会。结合国家统计局的行政地域划分数据对影院地址所在省份、市、区县等进行划分,并通过采集获取各影院所在位置经纬度数据和影院周边商业体数据。影院所属院线图标与用户喜爱度等数据从主流网站获取。
影片数据包含影片基本信息数据、票务数据、内容数据、评论数据。目前,影片基本信息数据在行业机构内还没有完整的数据库,但主流电影网站有大量数据,数据相对公开透明。因此,通过综合对比分析,选用数据更权威、全面的电影网站作为影片基本信息和评论数据的主要来源。影片票务数据采用国家电影事业发展专项资金管理委员会办公室数据作为主要来源。影片内容数据中,一部分数据包括影片剧情地点、年代及故事创作来源等,此类数据量较小,行业内外都缺乏有效数据来源,因此采用人工标注的方式获取;另外一部分体现影片概况的数据,通过自然语言处理(NLP)与机器学习(Machine Learning)算法分析得到。
影人数据包含影人基本信息数据、关系数据以及受众数据。影人基本信息及影人关系数据均采用与影片基本信息相同的电影网站为主要数据来源。采用搜索引擎的影人搜索指数作为影人受众数据主要来源。
制作公司数据包含制作公司基本信息数据、地理位置数据、参与制作影片数据以及影片制作人员数据。由于我国电影制作公司流动性较大,制作职能缺乏统一清晰的定义,目前行业内外关于制作公司的权威数据寥寥无几。为了保证数据的准确性,同时考虑到数据获取的可操作性,我们选用影片片尾字幕作为制作公司数据的获取来源。通过对影片片尾字幕信息进行采集、录入与处理,可以获得电影后期制作公司、特效制作公司、制作人员、参与职能等数据。同时,采集制作公司地址,进一步获取公司所在省份、市、区县、经纬度等地理位置数据。
我国电影产业基础数据来源于行业各个机构和互联网,各个数据源之间缺乏统一标准,各自独立,但又交叉重叠、相互关联,导致电影数据源难以完全兼容,无法形成覆盖整个电影产业的完整数据库。为解决上述问题,根据电影产业数据特点,对数据进行一系列清洗和ETL预处理工作,主要包含以下具体工作:
·无效、缺失、异常数据处理
针对源数据中存在重复、测试、乱码等 “脏数据”,进行删除处理。通过对数据源关联比较,对数据类比判断,删除逻辑错误数据。针对缺失数据,采集其他来源数据以作填充。针对内容异常数据,与其他来源的数据进行比对,更正错误数据。
·影院、公司经纬度数据校准
通过数据采集获得各个影院和公司所在位置经纬度数据。针对地处偏僻或由于地图自身原因导致的不准确数据,对采集得到的经纬度数据进行反向采集,即采集经纬度对应的地址数据,与影院、公司原有地址进行比对,若地址相同,则经纬度数据为正确;若地址不同,则重新人工采集经纬度数据直至正确定位影院或公司所在位置,进而建立精准的影院、公司位置数据。
·制作公司业务类型数据划分
由于各个影片片尾字幕没有明确的格式规定,公司名称与业务类型各不相同,导致获取到的制作公司后期业务类型名称繁杂多样,种类数量高达500种。因此,对功能相似的业务类型进行规范化和统一化处理,最终缩减为9种业务类型,包括声音制作、视觉特效、动画制作、数字母版等。
·消除源数据不一致性
针对数值单位不一致,在数据存储时,将所有数值统一转化为全数值类型,以解决数值单位及格式不统一的问题。
针对数据主键不一致,为了将异源数据进行集成,保证数据的可扩展性,对各类数据的主键进行统一规划。影院数据方面,我们借助影院名称关键词、地址、院线等信息进行判断匹配,将所有影院数据都统一到符合GY/T 276-2013《电影院票务管理系统技术要求和测量方法》标准的影院编码。针对多个数据来源,完成了近2万家不同影院名称的重新编码工作。影片数据方面,参考GY/T 276-2013标准,以影片编码中的放映年代、国家与地区信息为基准,对影片进行编码,为每部影片定义唯一标识。
针对影厅设备数据不一致,目前来自各行业机构的影院设备数据各有侧重,互为补充,但却相互独立,且影院的影厅命名有所差异,无法自动整合。为解决此问题,根据各来源数据特点,结合影厅座位数、最大观影人次、设备类型等数据进行判断,整合关联多方来源影厅数据,构建完整、准确的影院设备数据。
·非结构化数据匹配关联
由于获取的非结构化数据的命名规则杂乱无章,不利于管理与应用。因此,以统一编码后的数据主键为基准,为非结构化数据重新命名,实现非结构化数据与结构化数据的匹配关联。
通过对电影产业基础数据实施采集、清洗、预处理、关联、集成等处理,截止目前共计涵盖电影产业数据约2.1亿条,覆盖11361家影院、1354部影片、4201位影人和873家制作公司,数据起始时间为2014年,未来将不断更新完善产业数据。
在数据入库之前,根据数据特点,将数据分为影院、影片、影人及制作公司四个子数据库,各子数据库下包含该类别相关的所有数据。根据以上原则设计的中国电影产业基础数据库的体系架构如图1所示,各子数据库根据数据内容划分在不同的数据库表中,影院子数据库包括基本信息表、设备表、票务表和周边表;影片子数据库包括基本信息表、影片内容表、评论表和票务表;影人子数据库包括基本信息表、影人关系表和受众表;制作公司子数据库包括基本信息表、参与制作影片表和制作人员表。各个子数据库均设有主键编码,子数据库内各表之间通过编码关联。同时,数据库包含影院所属院线图标、影片海报和影人照片等非结构化数据,这些数据通过文件名称与对应的结构化数据关联。
综上所述,结构化数据和非结构化数据实现相互关联,子数据库内部实现相互关联,在各个子数据库之间,影片作为4个子数据库的共有数据,将4个子数据库关联起来,进而形成一个相互关联的完整数据库,即中国电影产业基础数据库。在查询和提取数据库中数据时,可自动提取出与指定数据相关的各库表下所有数据。
图1 中国电影产业基础数据库体系架构设计
基于中国电影产业基础数据库,中国电影科学技术研究所设计并实现完成了可视化系统,以多层架构形式将数据形象化、直观化,宏观展现我国电影力量分布与聚集区域、各个环节生产能力发展趋势、产业链在全国的覆盖程度以及制作与生产的契合度等,微观展现各影院、影片、影人以及制作公司的详细数据情况。
可视化系统由主界面系统和业务系统共同构成,主界面系统用于展示全国总体信息,业务系统用于展示单个实体的详细信息。如图2为可视化系统总体架构图,箭头表示系统各页面的链接关系。可视化系统首页为总览主界面,展示全国电影总体现状与发展趋势,并分别设计影院、影片、制作主界面,用以展示我国在影院、影片、制作方面的总体情况与地域分布特点。主界面支持年份、省市和院线等筛选功能,便于多角度、多维度查看电影产业发展情况。通过点击主界面中具体的影院、影片、制作公司、影人名称,或点击影院、制作公司所在地图位置,可链接至相应业务页面,展示其详细信息。业务页面支持智能搜索功能,以便快速查询需要的数据。
图2 中国电影产业基础数据可视化系统总体架构图
可视化系统主界面系由四大引擎组成:布局引擎、筛选引擎、图表引擎、数据引擎。系统架设于三大服务之上:数据服务、布局服务、地图服务。数据库选用与中国电影基础数据库一致的MySQL数据库。布局服务通过读取布局配置文件给布局引擎,布局引擎在前台构建布局,布局配置文件的格式为JSON格式。通过IIS发布网站,服务读取数据在地图上绘制图表。
由于可视化系统主界面的数据计算量较大,为了确保加载内容的完整性,提升系统加载速度,按界面展示需求,尽量细分每个展示模块所需的数据。数据库设计以中国电影产业基础数据库为基础,充分考虑数据量、存储效率、数据表关联、数据库扩展等,分离出适于可视化系统调用读取的数据表,并添加必要的冗余字段。
相比展示宏观数据的主界面系统,业务系统展示的数据微观、锁碎,且数据量大。因此在设计业务系统时采用了与主界面系统不同的底层设计,重点采用轻型框架设计,减少了图形渲染和复杂引擎的使用。当通过主界面点击进入业务系统时,业务系统的URL分发器将收到的请求分发给不同的view视图函数处理,view视图再调用相应的模板和数据模型,将这些资源打包传送回浏览器进行页面渲染。
如图3所示,为设计实现的中国电影产业基础数据可视化系统 “首页”,即系统的总览主界面,展示全国电影产业地域发展情况,界面地图层以气泡和散点形式展现各省份的票房、影院数量、制作公司数量及影院地理位置分布。地图周围以数字仪表盘、柱状图、面积图、热点图、标靶图等形式展示我国电影行业发展现状、基本分布特点及变化趋势。鼠标滑过图表会显示当前图表对应类型、年份的详细数据。总览主界面支持对年份、省份、院线数据多条件筛选。
图3 中国电影产业基础数据可视化系统总览主界面
影院、影片和制作公司主界面风格与总览界面保持一致,以多样化、特色化信息呈现形式分别展示我国影院、影片和制作公司数据的分布特点与变化趋势。目前该可视化系统已嵌入中国电影科技网(http∶//www.crifst.ac.cn/),作为网站的主体模块之一服务行业。
针对电影行业内外多元化、跨领域的海量多源异构数据,我们通过采集、清洗、预处理、整合、存储、关联分析、可视化等处理,有效集成了行业内外的结构化数据和非结构化数据,并根据数据特点设计构建了内部互联、对外统一的中国电影产业基础数据库,突破了行业内长久以来面临的数据不兼容、透明度和互操作性差、缺乏统一标准等问题,避免后期因需求不同导致的重复采集与清洗工作。通过建立统一、有效的技术标准,避免了数据更新及应用时发生重复、混淆、不一致等问题,实现数据的有效积累与可持续应用。
整合完成的中国电影产业基础数据库,涉及要素广泛,覆盖电影全产业链,完整展现了我国电影产业现状和发展趋势,有效解决了多来源数据不准确、多方采集、互操作性差、难以共享等问题,为推动电影行业提质升级提供了有力的数据支撑。同时,基于完整、有效、准确的电影产业基础数据,通过应用数据可视化(Data Visualization)技术,构建实现了中国电影产业基础数据可视化系统,为中国电影产业把握发展趋势、发现发展规律和规避发展风险提供了直观、高效、科学的技术手段。可以预见,随着电影产业不断深度融入大数据时代,中国电影产业基础数据库和可视化系统将在支撑中国电影高质量和可持续发展方面发挥重要作用。❖