陈嘉,钟宇霆,魏志刚,陈昕
(深圳广播电影电视集团深圳广信网络传媒有限公司,深圳 518055)
近十年是中国IPTV从无到有并快速发展的时期。截止2014年底,中国 IPTV用户已经达到3363.6万户(数据来源:工信部网站发布的数据)。IPTV所采用的各项新技术为电视行业带来了诸多的发展变化,这其中之一便是开拓了利用IPTV大数据进行收视分析的全新领域。
对于电视台、广告公司等业界机构和人士来说,收视率不是单一的收视数据,而是他们对于如何更好地利用收视率数据去进行收视市场分析、节目编排和调整、节目评估以及广告投放决策等的重要参考指标。
传统收视率定义:指在某一时段内收看某一节目的人数(或家户数)占电视观众总人数(或家户数)的百分比[1]。一般来说,在实践中的收视率指个人收视率。
收视率调查的流程分为样本抽取、数据采集和数据处理三大环节。
作为收视率调查的第一个环节,所选样本点与电视观众总体是否具有代表性,对能否保证收视率数据的准确具有十分重要的意义。样本抽取包含确定调查总体、确定样本容量和抽取样本三个环节。
1)确定调查总体
调查总体一般被界定为目标区域内所有4岁及以上的电视家庭人口。
2)确定样本容量
根据调查推断指标的不同,抽样调查可以分为两类,一类是平均数抽样调查,另一类是成数(比率)抽样调查。而传统收视率调查采用的是后者,样本量的计算公式为:
其中,n为样本量,P为收视率,M为允许误差,t为概率度。
在收视率调查样本容量的计算中,收视率P一般取50%,概率度t一般取1.96,因此,样本量n的多少取决于允许误差M的大小,随着允许误差降低,所需样本量增大。
3)样本抽取方法
目前常用的样本抽取方法主要有日记卡法和测量仪法。
前面提到的样本抽取方法中,日记卡法是指由样本户中所有4岁及以上的家庭成员,将每天收看电视的频道、时间段随时记录在日记卡上,以此来获取电视观众收视信息;而测量仪法是指用测量仪(测量仪主机或手控器)来详细记录样本户中所有4岁及以上的家庭成员收看电视的情况。
1)原始数据输入计算机并进行数据的净化(仅针对日记卡法)。
2)收视数据加权
加权是收视数据处理过程中的核心环节。目的在于对样本结构与总体结构的偏差进行校正,使总体收视数据更加准确。通过加权变量,可以得到相应的权值表,例如,省网A的特定人口的权值表(千人)如表格1。
表1 省网A中各种特定人口的权值表(千人)
如7.4103意味着:在该省网中,样本中一个年龄在15-24岁、住在城域的男性在总体中代表7.4103千人。
3)收视率的计算
例如,根据省网A的收视监测记录(如表格2),在某一特定时段内收看某一节目的4岁及以上的样本人数为191人,这191人中的每一个人总可以在权值表中找到对应的位置,通过乘以权值,可以得到在总体中收看了节目的各类观众人数。假如在收看节目的191人中有25人是住在城域、15-24岁的男性,则在总体中共有7.4103千人×25=185.26千人收看了该节目,以此类推计算总体中收看节目的各类人数并汇总,就得到总体中收看该节目的人数,可以计算得出加权后的收看人数为8119千人,用8119千人除以总体中4岁及以上观众总人数55312千人,得出该节目收视率为14.7%。
表2 省网A某节目收视率计算表
传统电视收视分析所采用的日记法和测量仪法在当时的广播电视环境下,只有采用这种方法才能将收视监测研究拓展到中国100多个城市,并且建立省网监测,在中国70多个城市以及17个省份建立研究样本,以监测城区及乡镇居民的收视习惯,是电视分析的必要手段。
IPTV与传统广播电视的技术架构不同,是基于IP网络的数字视频服务。互动性和实时性是IPTV最大的特点。当IPTV用户需要观看某一个节目时,必须向服务器发送请求命令,服务器在接收到命令后才会向用户推送节目流。利用这一特点,通过数据采集系统,可以获取到IPTV全量的、实实在在的收视数据。因此IPTV的收视分析将会是基于全网用户的收视数据,其结果具有客观性和准确性。
IPTV的收视分析分为数据采集、数据过滤、数据处理三个环节。
IPTV收视数据可以通过探针技术来采集。当用户进入直播界面,相关参数(用户账号、进入直播方式以及直播频道名称等)都将会被记录下来;同样,当用户退出直播,相关参数也会被记录下来,这样用户的观看日志最终会被完整的记录下来。因此IPTV收视数据能够记录到全网用户的观看行为,可以做全量数据的分析。直播探针可以捕获到以下几个关键性的字段:UserID(用户账号)、Starttime(用户开始观看时间)、EndTime(用户观看结束时间)、Channalcode(频道编号)、ChannalName(频道名称)[2]。系统采集到的日志如图1所示:
图1 IPTV直播数据采集日志
IPTV采集到的是全网收视数据,但同样也有噪声数据,例如用户换台、关闭电视但未关必机顶盒等行为所产生的收视数据。凡是不符合正常观看行为规律的数据都应该做过滤处理。过滤的基本原则是:保留符合正常用户观看规律的记录,去除无实际观看意义的数据。典型需要过滤处理的记录如下:1)单条观看时长超过6小时的记录;2)单次观看时长低于5秒的观看记录;3、少量的结束时间小于开始时间的错误记录。
将采集到的收视日志放到数据库中做处理,值得注意的是,数据分析并不要求必须建立数据仓库。可先将数据经过处理存贮到数据库中,他们包含了数据分析需要的所有数据(简称为原始数据库),然后根据过滤的具体需要,灵活的通过脚本从原始数据库中提取需要分析的数据即可。
1)收视率的定义
行业对收视率的定义为:收视率=收视时长/(时间段时长*推及人口)。这里以计算某卫视频道的日收视率为例,如果要计算该频道的日收视率,我们需要获取到这个频道当日的总收视时长、IPTV当日的推及人口。
2)收视时长的计算
由于在原始数据库里已经存贮了当天全网的收视日志,通过脚本对噪声数据做过滤处理,然后将收视数据按照频道作分类和聚合处理,通过聚合函数对收视时长做叠加,最终获取到各个频道在当日的收视总时长。
3)推及人口的计算
推及人口即为有条件观看电视的用户数。与传统收视调查不同,IPTV不需要做抽样处理,当天的实际用户数就是精准的推及人口数据。
有了以上数据,就可以方便的计算出IPTV平台上的节目收视率。通过IPTV进行收视分析,避免了抽样带来的误差问题,直接反映了用户的真实收视情况。结合现有大数据技术,能够“好、快、省”的得到真实、客观、准确的电视收视情况。
IPTV收视分析的优势在于数据源大而全,能够深度挖掘数据含义,更客观、更及时、更精细、更准确地反映用户的行为。
在用户使用IPTV业务的过程中,用户的每一个使用动作每一个行为都会被系统自动记录下来,无需额外的人工记录,避免了人工干预的不确定性,在原始数据上最大程度的保证了用户产生数据的客观性。另一方面,IPTV采用的是全样本分析,无须复杂的样本抽取,使得每一份数据本身都具有说话的能力,从而使相应的统计分析都站在所有数据的基础上,真实、客观的反映收视结果。
传统收视调查有一部分采用日记卡的方式记录收视行为,相应的收视数据要事后才能录入统计系统,这就使得分析结果有一定的滞后性。而IPTV不仅能实时采集用户的收视行为,还能实时传回用户收视行为数据,这使得数据的分析和反馈更及时、更快速。另一方面,传统数据分析在处理大量数据时,都需要确立明确的对应关系,非常依赖模型、算法以及服务器性能。而IPTV收视分析可以采用大数据分布式运算技术,彻底改变了对于建模和算法的依赖,能够根据数据实时性的需要,实时取得分析结果,节省了大量的时间消耗和资源投入,大大地增强了IPTV收视数据处理的时效性。
得益于IT系统的优势,IPTV收视分析能够将数据采集精确到秒。从图1的收视日志信息中可以看出,用户观看的信息精确到秒级,每一次换台操作都记录了下来。有了秒级的数据,就可以做出精细到秒级的收视分析。这带来的好处显而易见,颗粒度精细到秒级的数据分析对节目制作、编排、播出、影响力等的研究都将带来革命性的成果。
收视分析的样本量一向是衡量准确度的首要条件,IPTV收视数据得益于庞大的样本量,通过这些客观真实的数据可以准确的分析出用户的收视行为趋势。当数据越来越大时,无需精准的算法,只要拥有无限多的样本量,就能将偏离值的影响降到最低,得到最为接近事实的结论。个别用户或者小部分用户的特殊收视行为,由于数量级小,难以对整体收视趋势产生影响,所以IPTV大数据更适合于收视率统计这一类整体收视情况的计算,所得出的结果也更准确更接近于事实。
虽然IPTV大数据应用于收视分析具有诸多先天优势,但是在电视收视分析领域,还需要进一步发展,以解决以下问题:
目前的IPTV行为数据,采集的是机顶盒端的使用操作记录,只能具体到户,不能具体到人。也就是说,目前的技术可以采集到一家人使用IPTV机顶盒的所有数据,但是暂时无法区分某一时间拿着遥控的是长辈、年轻人还是儿童。这种用户身份数据的缺失会影响受众分析,导致缺乏合适的数据源支撑精准的受众分析[3]。
这是目前IPTV大数据收视分析所面临的主要问题之一。当然在技术上是有办法解决的,只要解决用户资料收集和用户身份识别这两个方面的问题,用户的身份数据及其对应的行为数据就能够准确的获取,加上庞大的用户数据量及准确到秒级的使用记录,将能够做出更加准确、更加精细的受众分析。
用户资料收集有主动及被动两种方式:主动方式采取用户主动填写资料的方式,可以在装机时填写也可以在使用的过程中通过在线调查问卷的方式填写提交;而被动方式则可以通过收集用户使用数据,智能分析用户的使用行为进而对用户进行画像,将用户的身份数据不断具象化。当然主动方式准确率高但操作繁琐,被动方式用户无感知但准确率有待提高,可以采用主被动相结合的方式取得最好的效果。在另一个问题上:用户身份识别,也可以采用主动及被动两种技术手段来解决:主动方式由用户自主创建账号主动登录来确认用户身份;被动方式可以采用智能识别手段来识别用户身份,比如利用机顶盒摄像头进行人脸识别、遥控器加感应器进行指纹识别以及通过用户使用行为进行推导识别[4]等等。随着技术的进步,海量用户的具象化问题将很快能够解决。
中国IPTV这几年发展迅猛,用户数已突破3000万,但用户群体集中在三网融合试点地区,也就是在广电企业及电信网络相对较发达的地区,并未全国覆盖。所以,目前中国IPTV的用户群体相对较为集中,尚不具备地域上的广泛的电视收视的代表性。也就是说,IPTV的收视分析不能代表全国所有观众的收视习惯,只能客观的反应IPTV这一终端用户群体的真实收视习惯,这既是IPTV收视分析的局限性,也是IPTV收视分析的精准性。当然,中国IPTV仍处在高速发展期。2015年是国家三网融合政策从试点走向全国推广的重要时期,按照目前的发展趋势,未来中国IPTV不管在用户规模上、覆盖地区上都将迅速发展,从而推动IPTV收视分析的影响力不断扩大。
区别于传统的收视率调查方式及收视分析方式,IPTV基于大数据的技术特点,意味着IPTV的收视率不完全等同于传统抽样调查收视率。用传统的收视率等指标定义来套用,会限制IPTV收视分析的效果及范围。这个时候需要根据大数据的数据特点,定义新的指标体系,来更全面的评估节目收视效果、分析用户收视行为。比如,结合时移、回放、快进、快退等互动特点,定义节目到达率、收看完整度、跳出率等新的指标,以达到多维度全方位的分析评估节目收视效果[5]。这需要电视业界的共同努力,引入新的指标,才能更客观更全面的评价节目收视效果,为电视广告、电视节目制作带来更全面的参考指标。
IPTV因其基于IP网络的特点,天生具有双向互动的优势,能够采集到所有用户的行为数据。基于这些数据源基础上形成的IPTV大数据收视分析,相比传统的收视统计手段,具有更客观、更准确、更及时、更精细等特点,同时得益于更丰富的数据源,可以分析出更多维度的收视指标。目前,IPTV大数据技术虽有优势,但也存在不足,由其特性所决定,其产生的收视分析结果不能完全替代传统的收视分析结果,而是提供了新的参照系、新的指标,并且随着技术的进步,IPTV大数据分析将能做出更具有针对性、更加准确的分析结果。如能利用好IPTV大数据收视分析的特点及优势,将能更好地为节目制作、播出效果分析服务,这项技术的应用前景一片光明。
[1]王兰柱.收视率调查与应用手册[M].北京:中国传媒大学出版社,2012.
[2]魏凯.IPTV国际标准化综述[J].电信网技术,2010,3(3).
[3]王欣.基于生活形态的IPTV用户使用行为研究[D].上海:华东师范大学,2010.
[4]艾丹祥.基于数据挖掘的客户智能研究[D].湖北:武汉大学,2007.
[5]赵靓.IPTV的运营模式分析及研究[D].北京:北京邮电大学,2007.