电视台大数据理念与建设实践

2019-07-31 07:56江庆成都索贝数码科技股份有限公司售前总监
视听界(广播电视技术) 2019年3期
关键词:架构数据库

江庆 成都索贝数码科技股份有限公司售前总监

大数据发展已经很多年了,并正在各个领域得到广泛应用。我们打开手机,今日头条、抖音会自动推荐给你所感兴趣的内容,这是大数据;淘宝、京东会自动推荐给你所感兴趣的商品,这也是大数据;我们在朋友圈经常会看到一些广告,每个人看到广告不一样,这也是大数据。大数据的应用在我们生活中已经无处不在。我们现在经常听到的智慧城市、智慧交通、智慧医疗,这些都是大数据在不同领域的典型应用。索贝是一家专注广电行业的企业,一直致力于将先进的IT技术与行业经验结合,为用户提供优质的解决方案,大数据在电视台中的应用是一个非常重要的方向。接下来与大家分享索贝在电视台大数据项目建设过程中的理念和建设经验。

1.大数据定义与特点

首先我们来看一下什么是大数据,大数据的特点是什么?

百度百科给出的“大数据”定义是:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、 快速的数据流转、 多样的数据类型和价值密度低四大特征。

我们看一下电视台有哪些数据?这些数据是不是符合大数据的特性。电视台数据分为两类,一类是台内数据,一类是台外数据。台内数据是台内各个系统存储产生的数据,包括内容数据、业务数据、设备数据、办公数据、经营数据。

台外数据包括舆情传播数据、传播力数据、影响力数据、用户数据、收视率数据。

电视台台内数据和台外数据都具备了海量的数据规模、 快速的数据流转、 多样的数据类型和价值密度低这四大特征,都是大数据。

2.数据运用及索贝大数据技术架构

图1 数据的运用

数据运用来自我们的需求。现在电视台有很多事情不能进行量化,例如我们的收益如何,党和国家的政策宣传效果如何,系统设备的使用情况什么样,员工的工作效率怎么样等等还不能完全做到量化,只能凭自己的主观去判断这些东西是好还是坏,是优还是良。当我们有足够的数据,然后通过对这些数据的分析,就可以从数据中得到一个准确的答案。要想做好这样的数据分析,首先我们需要有一个大数据的体系和架构来支撑。

图2是索贝企业数据平台的架构图,它能够满足电视台大数据的业务应用。数据平台分为四个部分,企业数据管理、企业数据仓库、企业数据集成与数据平台管理。其中企业数据管理、企业数据仓库、企业数据集成是核心部分。企业数据管理是对实时数据的存储、管理、协同的核心单元,其核心是能对各种类型的数据进行统一的管理;企业仓库主要用于一些离线数据的运算,可以采用比较成熟的Hadoop、Spark的能力;企业数据集成是对数据的采集和应用,其核心是能支撑多种数据的采集、处理和转换,特别是具有对媒体行业视频、图片数据的采集、处理和转换的能力。

图2 企业数据平台技术架构

索贝媒体大数据平台具有以下三个特点。第一个是能够对接多种数据来源,在后面的案例介绍中,可以看到索贝媒体大数据平台不仅能对接多种数据库、采集器,还能够对接媒体的内容库,采集视频大数据。第二个是与Hadoop/Spark开源的有机结合,能够使用其开源的一些能力,能够融入现在一些主流的大数据生态。第三个是支持多种的数据,特别是具备媒体视频大数据的处理能力。

索贝企业数据平台的核心技术主要有三个,第一个是索贝自主研发的Vernox数据库。从上个世纪六七十年代数据库诞生,随着存储数据类型的增多,关系型数据库、非关系型数据库、图数据库、内存数据库应运而生。但这些数据库都是独立运行的,我们联合的查询检索相当困难,面对大数据时代数据存储的要求,索贝自主开发了Vernox数据库。

Verno数据库有三个特性,第一个是融合,它能够原生的支持关系型、非关系型数据库,也能够原生的支持文档型数据库、图数据库,是一个融合的数据库。第二个是高效,能通过索贝独创的中文索引与基于成本执行的机制,对数据,特别是汉字进行高效的检索查询,这是在中国的一个特殊应用,对此需要对汉字有深入的理解。我们曾经做过一个测试,在一张近650万条数据表中,Oracle、Myspl和Vernox分别执行一条相同的汉字检索语句服务端的耗时,Vernox的耗时要远远小于Oracle、Myspl的耗时。

第二个核心技术是VIDA(Video Innovative Data Architecture)的视频架构。对视频大数据进行处理,一直是大数据处理的一个难题。索贝通过独创的VIDA视频架构,使用了视频的智能分片网格技术,能够支持视频文件多格式、多码率的高效并发访问,同时通过Video MapReduce技术,实现了视频的高性能并发处理,满足大数据时代实时视频数据处理的要求。

第二个核心技术是VIDA(Video Innovative Data Architecture)的视频架构。对视频大数据进行处理,一直是大数据处理的一个难题。索贝通过独创的VIDA视频架构,使用了视频的智能分片网格技术,能够支持视频文件多格式、多码率的高效并发访问,同时通过Video MapReduce技术,实现了视频的高性能并发处理,满足大数据时代实时视频数据处理的要求。

第三个技术核心是索贝自主开发的Ficus企业数据集成平台。企业数据集成是企业数据平台的核心部分,Ficus企业数据集成平台具有轻量化、云延伸的架构,易用、易开发,部署简单。企业数据平台运用索贝Vernox数据库解决了分布式主数据管理及安全的问题,具有原生的Hadoop、Spark不支持的能力,例如Hadoop、Spark比较弱的媒体处理能力,也支持Hadoop、Spark的能力集成,能接入大数据的生态。

图3 技术架构核心1:Vernox

图4 技术架构核心2:VIDA

3.索贝大数据在电视台项目中的实践

首先是SobeyHive 媒体内容平台。SobeyHive不仅是一个paas平台,也是一个DaaS平台。首先我们来看一下Hive是怎么产生的。在电视台网络化建设初期,索贝建设了很多独立系统,例如大家熟知的新闻生产、制作、媒资、播出、新媒体等系统。后来通过SOA、MSB把这些系统连接起来,但是系统互联互通以后,并没有完全解决问题。例如在电视台找一个内容比在互联网找一个内容要困难,在互联网找一个内容,打开百度搜索就可以找到,在电视台找一个内容,不知道去哪个系统找。此外,传统媒体和新媒体的融合也存在问题,因此需要在全台实现统一的内容检索。

索贝开发了第一个数据服务平台Hive,结合大数据核心的主数据管理的理念,把所有系统的数据做了整合,所有业务做了整合。平台建设好之后,我们发现不仅仅实现了全台内容的统一检索与使用、业务数据统一展现与指挥、传统媒体与新兴媒体的融合等目标,还带来了一些新的效果。例如现今比较流行的移动办公,索贝通过Hive平台完成了APP工具的整合,使节目生产也能够在手机、平板电脑移动端上完成。此外还能做到在新闻生产过程中,相关媒资内容可以主动推荐,这就是融合跨界整合、数据整合带来的效果。

Hive发布以后,索贝获得了多个国际奖项,包括中央电视台在内,80%国内电视台融合媒体都采用了这个方案。此外,索贝在经济日报、中国国际广播电台也采用了这个方案。为什么这里会说报业、广播的案例?索贝做了多年的广电业务,对电视台系统之间的数据结构已比较了解,而目前报业、广电国内大都是方正、英夫美迪的系统和产品,通过Hive平台建设,索贝已经能实现与广电系统外异构系统的对接。

图5 SobeyHive 媒体内容平台

图6 央视全球融合新闻系统

第一个应用案例是央视全球新闻云,该项目去年获得了大奖。它采用Hive架构,支撑了央视三个分台、四个中心站,国内外一百多记者站全球业务生产的发布,实现了全球范围内工作视图的统一。

图7 北京台大数据在运营运维中的应用案例

Hive在国外的项目中也得到广泛认可。路透社将建设部署在亚马逊上的全球报道生产平台,支撑路透社在全球范围内的新闻报道,该系统也将以Hive的架构为核心。Hive架构得到了国际电视台的充分认可,瑞士的SRG SSR、美国的COMCAST、中国香港TVB、荷兰的RTV等电视台也在系统中采用Hive架构。

第二个应用案例是北京台数据治理项目,这个项目是大数据在运维方面的一个典型案例。首先介绍一下项目的背景,在北京台融合媒体生产平台项目的交流中,除制作生产业务之外,用户还经常会提到一些运维的难点,例如系统运行状况没有客观的判断,只能靠经验判断;现在的服务器、CPU、内存等资源使用经常不超过10%,这部分资源不能充分得到应用;系统故障不能预警,只有等故障发生了才能去处理问题。经过对这些需求进行逻辑分析,并对目标所需要的数据进行梳理,我们得出结论,通过收集数据、分析数据可以解决上述运维中的难点。

北京台数据治理项目实现了四个维度的目标。一是业务健康度,可以对台内系统各个模块的状态进行可量化的分析和监控。二是可以对台内所有设备资源不同时段的使用数据进行有效统计。三是在资源优化配置方面,可以对台内常用业务的资源进行配置,统计结果和生产平台结合,实现资源自动化的动态调度。例如通过一段时间的统计,我们发现每天上午时间段,用户设备的使用量不大。我们运用大数据平台分析,系统会自动在上午时段把一些云非编资源释放出来,把它自动部署成合成砖码,提高了台内一些节目的生产效率,形成了大数据与生产系统之间的一个业务闭环。四是业务预警,可以根据数据分析,对可能发生的故障进行预警和报警。

第三个应用案例是体奥动力的视频大数据项目,这个项目是大数据在视频内容运营方面的一个典型案例。体奥动力在六年前已经开始拥有中超、亚冠、亚洲游戏类所有比赛的版权,并保存了这些比赛的大量视频数据。他们希望通过视频分析得到相关一些球员、球队的有用信息,并将这部分信息能够用于运营。在和体奥动力的沟通过程中,我们发现他们不仅有所有的视频数据,此外每场比赛都还有比较全面的场记信息,每个场记信息包含了上万的数据量,能够对目标提供有用的帮助。但是这些场记信息不具备直接显示性,没有连贯性,而且没有数据解释。我们进行了大量的数据分析,通过算法和匹配,将这些场记信息与视频分析信息进行结合,得出了有效的结果数据,依据结果数据能够对球队进行数字分析。这些数据对球队教练、球队管理层非常有用,他们可以把这些数据卖给一些中超的公司和专业机构。相信随着未来博彩业的发展,这部分数据对他们也是有用的。

4.A.I.将助力于大数据的发展

展望未来,大数据应用还有很多,例如业务优化、资源优化、员工效率提升等。在未来,可以随时随着报道的链条开展,让实时的舆情数据、报道内容的传播力数据与台内的数据相结合,进行碰撞,通过大数据平台为每个报道链条节点自动准备内容,在不远的将来可以实现自动编节目、自动写稿。这些应用其实就是智能,大数据的下一步是A.I.人工智能,A.I.将助力于大数据的发展。

猜你喜欢
架构数据库
基于FPGA的RNN硬件加速架构
自主式MaaS系统多维架构映射关系设计
功能架构在电子电气架构开发中的应用和实践
基于云服务的图书馆IT架构
数据库
WebGIS架构下的地理信息系统构建研究
数据库
数据库
数据库
数据库