基于大数据的广播电视技术转型

2014-02-08 07:41陈亚然曹三省
中国传媒科技 2014年7期
关键词:广电数据挖掘用户

文|陈亚然 梁 宇 曹三省

大数据研究背景

1、大数据基本概念

随着当代移动通信、移动互联网、云计算、物联网、三网融合等新兴技术的发展,大量的数据已经累积成了丰厚的资源。通常所称的大数据(Big data),或者巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息。它数量巨大、结构复杂,是由类型众多的数据构成的数据集合。大数据是基于云计算的数据处理与应用模式,是通过数据的集成共享、交叉复用形成的智力资源和知识服务能力。

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”目前,全球的电子化信息量是千万亿兆的数据量,预计2020年整个数据量可能会达到35千万亿兆。根据著名的分析调研机构IDC的研究报告《从混沌中提取价值》显示,仅2011年,全球就产生了1.8ZB(也就是1.8万亿GB)的大数据。另外,有资料显示,淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB;百度公司每天大约要处理60 亿次搜索请求,几十PB数据。这些都是基于以云计算为代表的大存储量技术基础之上,目前,计算机存储单位已从G、T发展到P(1P=1024T)。可以说,如果没有云计算的迅速发展,不会这么快迎来大数据时代的到来。

据统计,2012 年中国“大数据”市场规模达到4.5亿元,2013年还将持续增长,未来3年内有望突破40亿元,2016年有望达到百亿规模,如图1 所示。

2、广电行业中的大数据概况

广电行业站在媒体信息融合的制高点,本身掌握着丰富的数据资源,不管是来自电视、广播、网络还是移动终端。广电行业在大数据面前同时扮演着接收、处理和传播的角色。一方面广电行业从各种渠道接收到大量信息,另一方面又将大量信息传递给受众。所以研究广电行业在大数据时代的影响具有重要的意义。

1)迈入大数据的基础

随着本世纪初“数字化浪潮”的袭来,传统广播、电视、报纸、期刊、手机、互联网等各种媒介形态内容经由模拟到数字的融合技术,纷纷转换为由一串“0”、“1”比特流编码表示的信息。从此,它们有了统一数字编码的基础,这种基础也为广电行业步入大数据时代奠定了基础。广播电视内容数字化后更易于存储、

图1 2011~2016年中国大数据应用市场规模与增长(数据来源:赛迪顾问)

在互联网、电信网、广播电视网三网融合的背景下,大数据时代正在到来,广电行业站在多数据信息融合的制高点,掌握了大量数据。大数据时代不仅对广电行业的发展带来了巨大的影响,广电行业也应利用大数据做出顺应时代的改进。结合数据挖掘、数据分析相关技术,广电行业可以获得更多详细的信息,生产出分流更细的产品呈现给用户,为用户生活带来更多方便。传输、使用和分享,而且也大大促进了广电行业和互联网之间的结合发展,多屏多终端的内容传输功效更是推动了大数据时代数据信息的共享融合。之后,随着三网融合时代的到来,广播电视网、电信网、互联网等在过去承载不同信息内容的介质网络,逐渐实现了各种信息在其上的业务融合。网络视频、交互式网络电视(IPTV)、互联网电视(OTT TV)等互联网与电视融合的视听新媒体形态越来越多,实现了数据信息多元融合交互化。通过以上一系列技术的升级,广电行业具备了一定在大数据时代发展业务的基础。

2)广电行业面临的威胁

在大数据时代下,广电行业也面临许多威胁。虽然从软件和硬件设施上来看,广电体系已经长期坐拥内容制作优势和布局完善的有线渠道优势,但是从市场份额占有来看,电视收视市场确实在全球范围内出现了持续性的萎缩,以央视春晚收视率为例我们可以看出具体情况(如图2)。目前,视频网站Netf lix已经可以利用大数据制作出《纸牌屋》这样符合观众口味的电视节目,电信运营商也正在原有基础上希望将多年累积的用户数据拓展到IPTV领域,并为其提供更有针对性的服务和内容,而谷歌、苹果、微软这样的巨头也随着大数据时代的到来,借助OTT TV希望在传统电视媒体领域有所表现,这些巨头公司运用强大的数据分析能力,将会为用户生产出更为强大智能的电视内容。

3)大数据带来的影响

广电行业本身就对数据充满了兴趣,多年行业发展一直用收视率分析节目信息。通过数据他们可以将一个个看不见摸不着的用户提炼出具体详细的信息,然后又参考数据“重建”一个习惯、喜好清晰透明的“用户”。比如用户们都是哪个年龄段,他们都在看什么节目,每个节目他们大概看了多久,不同地区用户喜欢看怎样的节目。当前电视机和机顶盒的结合已经可以应对这些问题,机顶盒作为一个封闭的终端已经能够有效记录大量数据,能对观众开关机顶盒、转换频道以及使用增值业务等操作行为进行精确到秒的详细记录。

但是,大数据时代来临后,广播电视系统许多传统指标将会发生不同于以往的显著影响。以前我们对于广播电视传播内容的评估主要是用收视率、收听率等,但是在大数据时代,用户将可以从更多终端选择内容获取,也将有更多数据形式出现在统计行列。大数据时代,如果仅靠机顶盒回传海量用户数据样本用于测量的方法应该不再行得通。

图2 2007年至2013 年央视一套(CCTV-1)央视春晚收视率

基于网络电视媒体的发展,当今电视媒体创作人员应该把网络平台播出的特殊性考虑进去,不应仅仅制作能在电视上观看的节目。未来电视节目制作或许会转变为视频节目制作。

随着多年来互联网业务的蓬勃发展,互联网带来的个性化、智能化、交互性服务,让电视机前的观众数量流失。因为电视机本身具备占据家庭客厅优势,所以在这种情况下,电视机不应仅仅满足放电视的功能。如今的OTT TV、IPTV等都在大力发掘电视的其他功能,希望电视在扮演客厅主导地位的同时发挥更完善的功能,比如通过对新兴产业技术的融合研发,大力开发基于数字电视基础之上的视频点播、电子政务、银行支付、民生信息、电视通话、宽带接入、家庭智能化等多种新业务。通过这些业务实现,不仅能满足家庭用户的多样化需求,还能带来更大的数据,而对这些数据的有效处理已经不再是传统意义上的广播电视功能了,而是将电视放置在了更大的社会背景里。

大数据中的数据处理

1、大数据特点

数据(Data)是载荷或记录信息的按一定规则排列组合的物理符号。可以是数字、文字、图像,也可以是计算机代码。对信息的接收始于对数据的接收,对信息的获取只能通过对数据背景的解读。而“大数据”则是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。

大数据具有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(精确)。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。一般在TB级别;第二,数据类型繁多。来源渠道可以是网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高,数据真实性高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。即使在数据量非常庞大的情况下,也能够做到数据的实时处理。最后这一点也是和传统的数据处理技术有着本质的不同。

2、大数据处理方法

实际应用中大数据的处理方法有很多,根据各种流程可以概括出大数据处理流程大概有四步,分别是采集、导入和预处理、统计和分析,以及挖掘。如图3。

采集 大数据的采集是指利用多个数据库来接收从各客户端(Web、App或者传感器形式等)发出的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如电商可以使用传统关系型数据库MySQL和Oracle等来存储每一笔事务数据,另外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

导入/预处理 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。

统计/分析 统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

挖掘 与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有Hadoop的Mahout等。

图3 大数据处理流程

从表1可以看出,数据挖掘软件经历了五代发展,从第一代只能是单个算法单个机器、向量数据。第二代软件已经可以和数据库以及数据仓库集成,并且有多个算法。第三代则跨越性和预测模型系统集成,开始支持Web数据和半结构化数据,是一种网络化计算。第四代是分布式数据挖掘,是基于网格计算来做多个算法,分布在多个节点上的方式。第五代则是基于云计算的并行数据与服务模式。同一个算法可以分布在多个节点,多个算法间也能并行,计算资源按需分配。现在大数据多与云计算结合,云计算能够实现高性能、低成本的计算,能够保证分布式并行数据挖掘和高效实时挖掘。

3、广电行业数据处理

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对于这些信息进行专业化处理得到更有用内容。如果把大数据比作一个庞大的工厂,那么数据挖掘在其中则扮演“加工”用,对于工厂效益的提高,则需通过增加加工能力来实现。

在“三网融合”的大环境和大趋势下,有线电视公司相比于互联网和电信企业,不管在运营方式以及效率上都处于劣势。因为互联网和电信企业已经领先一步及早通过对大数据的挖掘进行经营和管理上的改良,提高效率,改善模式。他们通过聚类分群,区分对待不同的用户,提供不同的服务。这和传统的有线电视运营形成了强烈的对比。所以在如此严峻的情况下,广电行业更应提高数据挖掘应用程度。而数据挖掘分析一定要根据不同运营商需求分析出合适的方法,根据自己的特色选取最优方案。

结合广电行业自身发展,为了更好的对数据进行处理,我们在标准的数据处理流程之外还要结合一些其他行为。

(1)改良数据的采集方式,现在广电运营商常常通过机顶盒双向网自动回传方式实现海量、全网数据的采集工作。这样一方面可以一定程度避免因样本偏差、样本污染或者不科学的计算方法引起的一系列收视率不可信问题,还可以极大程度提高基本收视指标数据的可信度。

(2)还应扩大采集的范围,尽可能多的获取用户数据,最好能够通过全网收视数据采集明确用户的信息,并且能明确每个用户的收视行为。用户在直播收视之外的点播或其他增值业务数据也要搜集起来,因为相比于观看直播节目,用户主动选择的点播节目数据最能详细反映用户的观看喜好和点播习惯。用户的观看评价更要收集。

(3)加深数据挖掘的理念和技术。由于之前广电行业面对的数据均较为简单,因此通过简单的统计计算就能得出结果。随着数据量及数据范围的不断扩大,显然通过简单的统计计算已远远不能满足有线运营商的需求。这时候需要引入更加高级,与大数据量匹配的数据挖掘理念。

(4)应该培养一批具备传媒知识的数据人,不仅擅长数据分析,还对传媒行业有特别的敏感性。不能固步自封,要以创新的精神和眼光在当前环境下发掘到更有价值信息。

表1 数据挖掘软件发展历程

大数据对广电技术的转型作用力

通过广泛的数据采集,我们获得了海量数据,对用户观看信息有了充足储备,再加上智能高效的数据分析让我们可以提取出更精准的用户使用习惯和喜好。获取数据和分析数据都不是我们研究大数据时代广电行业影响的终点,而是要学会如何运用这些数据提取出企业运营的关键指标,并能够从中发现一些潜在的信息和规律,辅助企业经营状况分析预测以及经营策略的制定,创造出更个性更特色更适合用户的内容。

1、智能节目推荐

在大数据的基础上通过云计算,我们对用户的收视行为进行了分析,可以得出用户在什么时间地点收看什么节目,可以得出每户用户对电视节目收看的喜好。

传统的电视节目播放都是基于时间线传送,现在我们可以将基于时间线的频道资源碎片化,不再按时间管理,而是碎片为基于内容的分块频道资源。可以通过预先的分析,了解到每个电视频道将在不同时间段播出哪些节目类型,进而将所有节目类型归纳分类,这不同于以往频道编号或者频道类型进行分类的频道方式,可以依据当前频道播出的节目类型对于所有频道进行动态分类。用户采用这样的方式观看电视时,改变了过去被动的观众接收方式,变为主动的根据观众需求动态选择接收方式。

通过对用户在VOD视频点播上观看的节目进行数据分析后,能够得出更直观更有针对性的信息。将这些信息运用在VOD视频节目推荐上将能推荐出更针对用户口味喜好的节目。比如用户观看了一部爱情片可能系统会为他再推荐一部爱情片或者同一个导演的片子。通过对用户行为的分析,也能向用户推荐其他用户观看的热门节目,进而提高用户使用VOD视频点播服务的活跃程度。

传统电视节目通常按时间线性排序推出节目内容,所以通常当观众看完一集节目时要到次日才能收看到下集节目,但是如果在VOD视频点播系统中已经储存有这部节目,则可以在电视剧播完后提醒观众可以通过VOD视频点播系统观看接下来的集数。这样,可以提高用户的电视使用率,也能提高用户对电视的粘性。

基于电视节目的个性化推荐,顺理成章可以得出每位用户使用的EPG一定是风格不同的。用户使用的EPG不在是电视运营商配备的统一标准,而是针对为用户推荐的电视节目制定的个性化EPG。通过在EPG上导入社交元素,用户可以实现对好友间、邻居间电视节目收看情况的了解或者推荐,还可以对收看的电视节目进行交流讨论。这一系列行为可以增加用户对电视使用的活跃度,也能增强用户间交流的活跃度。

2、智能广告投放

在使用电视和机顶盒时,数字电视机顶盒的UI交互界面为广告运营商在系统中为用户推送广告提供了很好平台空间。传统数字电视的广告即为EPG广告、音量条广告、换台广告、贴片广告等。现在通过基于云计算大数据处理后的技术应用,广告投放可以更加智能化个性化。

我们可以对用户观看的电视节目内容类型进行智能分析,进而可以投放与该频道内容相关的广告。例如我们可以为时常收看娱乐节目的用户投放时尚用品广告,为喜欢看体育节目的用户投放体育用品的广告,为喜欢看家庭电视剧的家庭人士投放家庭必需品广告。通过这一行为不仅可以提高广告的利用效率,也能减少用户对广告的反感,更能促进广电运营商和广告商之间的合作,挽回流失到其他终端系统上的广告投放额。

3、智能化客户管理

在当前社会发展环境下,经过多年互联网、电信网和数字电视领域的竞争,用户流失已经是个非常明显的现象 。随着IPTV、网络电视、手机电视等新型终端电视的发展,有线电视用户流失在所难免。针对这些情况,我们可以对已有的有线电视用户建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型,并给出明确的客户流失概率计算公式,利用此模型来预报客户流失的概率,对流失可能性较大的高价值客户发出流失预警。针对不同客户群体或者为提高客户忠诚度而推出各种优惠政策。还可以结合客户流失数据和消费习惯分析优惠政策是否达到预期效果。对于用户欠费情况也能得出风险预警。

4、收视率与运行情况统计

传统收视率测量手段采用的是抽样测量的方法,即通过日记法或人员测量仪法记录到的被调查者个人的电视收视数据,具体即有电视的家庭户(样本户)中每位成员(年龄4周岁及以上的被调查者)在每天连续的24小时内每15分钟(人员测量仪为每分钟)收看或不收看电视以及收看什么频道的记录信息。这种调查方法不仅成本高而且因为人工操作容易造成人为数据污染,采样人数有限也会造成收视率的统计不完全准确。

不同于以往的样本采集收视率统计,基于云计算和大数据技术的收视率将更精确更实时。运营商可以通过双向网络实时收集每个电视终端的收视情况,结合不同地区不同时段的了解,可以细化出不同频道不同节目的收视情况。根据这些实时收视情况,可以对用户收视行为进行引导,比如讲要推广的电视栏目向广告一样预先推送给观众,引导观众的收看行为。

基于智能机顶盒和大数据技术的运行,我们可以在机顶盒中获取大量数据。在双向网络的环境下,用户机顶盒可以自动记录大量终端运行情况,进而可以对终端盒网络的情况进行良好的反馈和分析,有助于电视运营商提高质量。我们可以记录观看节目时长、信号传输质量、网络延时、终端CPU使用情况等。所以即使在信号传输发生故障造成中断时,也能够在第一时间获得信息解决问题。

猜你喜欢
广电数据挖掘用户
同心守“沪”上海广电人在战“疫”一线
探讨人工智能与数据挖掘发展趋势
探讨大数据在广电新媒体中的应用
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
关注用户
关注用户
关注用户
如何获取一亿海外用户
广电媒体产业化前景的三种期许
高级数据挖掘与应用国际学术会议