李 化
(四川广播电视台,四川 成都 610041)
数据本质是资源,全球数据总量年增长50%。金融、医疗、互联网等领域得到广泛应用,大数据成为国家战略。互联网逐步变成数据源基础设施,互联网企业无一不是大数据企业[1]。大数据利用的关键现在是:价格、速度、模式;未来是:品质、耐力、技术。大数据的特质不是数据量多少,也不是异构数据种类多,而是异构数据是关联的,这些数据可以流动起来,跨领域关联流动才是大数据的精髓。
结构化、半结构化和非结构化数据包括:数字、文本、表格、图形、图像、语音、视频等。
常用的有:Byte、K B、M B、GB、T B、PB、EB、ZB、YB等。
1 KB=1024 Byte;1 MB=1024 KB;1 GB=1024 MB;1 TB=1024 GB;1 PB=1024 TB(PB级别是学术研究图书馆藏书总量);1 EB=1024 PB(EB级别是人类所讲过的话语总和);1 ZB=1024 EB(ZB级别是海滩上的沙子数量总和);1 YB=1024 ZB(YB级别是千个人体内的微细胞总和)。
我们经常可以看到按月、季、半年、年度公布的经济大数据、交通大数据、医疗大数据、消费大数据等。
从小数据时代(随机采样、样本模式),向大数据时代(大数据应用、全数据模式)转变。
解决大数据存储和计算,利用大数据分析法即人工智能分析以及开源软件框架来构建业务应用的大数据平台。
图1 业务应用的大数据平台
2.1.1 文件存储系统(HDFS)
由客户端、主服务器和数据块服务器构成。主服务器负责分配存储位置,数据块服务器负责存储数据。客户端将文件切分成若干数据块,每个数据块为128 MB,客户端提交数据请求,主服务器为每个数据块分配三个数据块服务器及三个数据副本,保证数据冗余。
2.1.2 分布式数据库(HBASE)
支持大数据集(TB to PB);对HDFS低延时的随机读写;应用广泛:Facebook,Twitter,Adobe,Mozilla,Yahoo!
2.2.1 离线任务的分布式计算MapReduce
图2 离线任务的分布式计算MapReduce方式图
2.2.2 实时在线任务的分布式计算Spark
对于MAP计算模型,MAP处理的中间结果都存放在磁盘上,这样磁盘IO开销大、延时高,对实时性要求较高的场景显然不理想。改进方案就是将中间结果和最终结果放入内存,计算效率会大大提高,Spark就是根据这样的原理实现的。
人工智能分析法包括:计算智能、深度学习和机器学习,构建大数据分析系统最经济实惠的是利用开源软件框架进行构建。
包括感知机、K紧邻、决策树、逻辑斯蒂回归、支持向量机和贝叶斯等,要求的硬件环境不高,是进行大数据分析的最重要方法之一。图3是基于机器学习的大数据分析。
图3 机器学习的大数据分析方法
有卷积神经网络和人工神经网络等方法。需要用相对昂贵的GPU硬件环境,GPU设备计算能力很强,特别适合进行大数据分析。图4是基于深度学习的大数据分析。
图4 深度学习的大数据分析方法
计算智能是人工智能的一个重要分支,是一种具有全局优化性能、通用性强、非常适合于并行处理的计算。计算智能有:禁忌搜索算法、蚁群算法、模拟退火算法、粒子群算法和遗传算法等。
Facebook、Microsoft、Google等巨头都自己的算法框架;伯克利大学有Caffe、蒙特利尔大学有Theano;此外还有:TensorFlow、Torch、PyTorch等开源框架,都为搭建大数据分析系统作出了积极贡献。
图5 数字中国建设
国家广电总局在《新闻出版广播影视十三五科技发展计划》(新广发[2017]150号)中指出“大力推动广电融合媒体服务云平台建设”,并强调“针对云计算、大数据等技术在融合媒体网络与业务的广泛应用”[4]。
2018年9月,广电总局发布《广播电视行业大数据技术应用白皮书》,旨在加强顶层设计,为各级广播电视台利用大数据、建设大数据平台指明了方向,为广电行业大数据平台建设和大数据应用开拓了思路[5]。
2018年12月,广电总局收视综合评价大数据系统上线,目前系统已汇聚全国超过1.6亿用户收视数据,定期向总局输出各类节目数据分析周报、月报、重点节目专题报告10 400多份,为节目播出管理和调控提供依据。
2020年8月,广电总局发布《广播电视和网络视听大数据标准化白皮书》,《白皮书》梳理了国际和国家大数据标准体系的发展现状,分析了广电行业大数据的典型特征,结合数据中台化的技术趋势,从媒体融合出发,提出了广电行业大数据标准体系的总体框架,旨在加强广电行业大数据标准化工作的统筹规划,指导各级广播电视台建立全数据链的大数据标准体系,促进媒体融合的进程,为媒体融合发展提供助力[6]。
表1 媒体内容大数据
表2 广电用户服务大数据
图6 广电行业大数据应用需求
图7 广电大数据平台构架
一要实现数据化。要把人、制作、经营、文化产品等数据保存下来,未来可能产生巨大价值。二要建设自己的大数据管理与应用平台。从业务出发,量体裁衣,厘清自己的业务形态。三要自己培养大数据理念和数据挖掘的人才团队。四要做好自己的外部数据储备。学会通过公共渠道或者数据交换,收集外部数据和战略数据。五要有数据侦测的能力。需要有创新思维的人随时思考这些问题,能预估手中的数据价值。六要有开放共享的态度。七要做好数据方面的战略投资。
研究证明,在媒体深度融合的背景下,5G、AI、VR、AR、4K/8K超高清、高新视频等新技术在大小屏上的精彩呈现,都离不开大数据的支撑和进一步挖掘。大数据是一种理念的变化,它要求人们要以定量化的思维和方法来思考我们的眼界和文化产品,并用可追踪的方法进行决策,比如内容生产和广告投放,这将对省级广播电视台未来的发展指明正确方向。