王垚++邓逸钰
DOI:10.16661/j.cnki.1672-3791.2017.25.002
摘 要:随着科技的发展和信息技术的进步,我国的媒体行业得到了快速发展,由此产生了大量的数据,这些数据包括用户信息、媒资数据等,在分析和处理的过程中需要使用到大数据技术,这样才能让媒体产业得到更好的转型。在本文中对基于媒体大数据的智能服务平台技术进行了分析和阐述,以期能更好地推进该平台的应用。
关键词:媒体 大数据技 智能服务平台
中图分类号:TP311.13 文献标识码:A 文章编号:1672-3791(2017)09(a)-0002-02
随着科技的发展和信息技术的进步,人类已经进入了大数据时代,人们生活的方方面面都已经融入了大数据。对于媒体行业来说,它是主要的信息消费阵地,拥有海量的用户数据和音频信息。随着媒体产业和互联网的不断融合,它已经成为了大数据应用的主战场。媒体大数据一般有三方面的来源:一是互联网媒体大数据;二是媒体资源数据;三是用户行为数据。通过采集整理和分析海量的媒体大数据,能将用户和用户间、用户和内容间、内容和内容间的关联打通,以此来支撑媒体的制作、播出和营销等。
1 系统架构
基于媒体大数据的智能服务平台系统架构主要包括四个部分,它们分别是:多元数据采集引擎、海量数据存储引擎和高性能的数据处理引擎。媒体数据采集子系统包括的模块是分布式采集框架、大数据志愿计算获取技术等,主要是全面采集媒体的大数据。将用户兴趣模型建立起来,进行个性化推荐、搜索和聚合大众动态内容的关键技术研究工作,将集用户需求和兴趣于一体的跨终端多媒体内容呈现技术研发出来。
2 关键技术
2.1 采集海量异构媒体数据
在大数据时代背景下,强调的重点已经由原先的样本分析转移到了数据分析上,所以各大媒体大数据平台都需要拥有及时而完整的数据,传统的数据采集方式明显不能满足该要求,所以系统需要将互联网的分布式大数据获取技术应用其中。
2.1.1 互联网分布式大数据获取技术
该系统采用的是志愿计算技术,通过分布式采集方式,将特定的客户端安装上,这样每一个互联网用户都能将计算资源和网络志愿贡献出来。这样千千万万的用户就分担了数据的获取任务,因此获得数据的机器更多,同时将数据源站遭到封杀的可能性降至最低,大大提高了数据采集效率[2]。
2.1.2 分布式采集框架
对于分布式采集框架来说,在设计其程序的过程中主要采用的是控制和方法分离的思想,采集框架上仅仅是控制和爬取的方法,通过每个网站的配置来描述每个网站的控制。采集框架主要包括控制、配置、输入、输出等模块。其运行结构如图1所示。
通过对每一个网站进行必要的配置,使得分布式采集框架的服务能力进一步提升,有效满足了媒体大数据下智能服务平台的基本需求,进而为后续信息数据的获取、汇总以及分析工作的开展创造了条件。
2.2 管理海量异构媒体数据
2.2.1 预处理数据
媒体数据处理和传统的数据预处理的流程是类似的,它也是包括提取数据、转换数据和加载数据三个步骤。
2.2.2 分布式文件系统及相关技术
分布式文件系统是云存储系统的核心存储引擎,它同时还对网络软硬件形成的存储资源池进行管理,将统一的文件访问服务提供给外界。
2.2.3 分布式负载均衡技术
一般来说,系统在任务分配模块的搭建过程中会采用集成化的方式,这样就不会出现单点失效的问题。相较于单一节点,它能将处理任务的效率提高,使得任务分配更具有实时性。
2.2.4 关联和挖掘异构媒体数据
将结构化数据的存取地址和非结构化数据的存取地址结合组成一个索引目录,一旦有数据存取要求到达,可以将不同格式的数据地址快速从数据索引中取出,进而访问相应数据。
2.3 分析海量异构媒体数据
2.3.1 分析网络媒体行为
通过对主流网站数据、自有数据进行采集和分析、建立互联网第三方平台和自有账户等来支撑系统的流程优化、性能优化、第三方内容引进等各种业务形态,将全新的节目评价系统建立起来。
2.3.2 推荐技术
根据WEB评论的特点,可以用自监督情感分析模型来对其进行分析。该模型主要用于虚拟对WEB评论的整体情感进行打分,表情符号和文本汉字是这些WEB评论的主要内容。
2.4 智能推荐
通过基于媒体大数据的智能服务平台,可以在智能导视引擎时实现用户至上的理念,用户通过社交推荐和智能推荐能发现自身所需的个性化内容,用户通过电视、电脑屏幕即可享受大数据时代所带来的个性化娱乐生活。
2.4.1 实时适配多屏格式
系统可以采用云转码技术,在转码过程中可以采用云存储的分布式并行方法,如果用户有视频文件的请求,可以将终端类型进行自动适配,将文件实时转换成为需要的目标类型,对于用户来说这是完全透明的。
2.4.2 智能推荐引擎
智能推荐引擎会根据用户的需求,通过社交推荐和算法推荐等为用户带来其所需的个性化服务内容,这样就将用户的喜好与内容过于丰富间的矛盾很好地解决了。
3 创新成果
3.1 服务模式创新
通过SAAS、PAAS等模块系统可以在全行业推广媒体大数据服务,整个影视媒体行业可以由此获得跨越式的创新和发展。
3.2 关键技术创新
3.2.1 分布式互联网数据采集模式
通过分布式的互联网数据采集模式,系统可以将统一的任务调度和分发系统建立起来,将每个用户采集到的数据进行收集,这样的数据采集可以更加精准、实时。
3.2.2 互联网数据采集框架
互联网数据采集框架是基于规则库的模型,对于规则库来说,它统一采用的是XML格式,通过对规则库的合理配置,可以实现目标网站的适配。
3.2.3 对于计算数据平均房屋间隔可以采用遗忘特性算法
在数据的平均访问间隔过程中可以采用遗忘特性算法,對数据价值函数可以进一步加入历史访问信息和预估策略来进行调整,这样可以有效抑制访问数据与定义的价值函数的时变性,同时还对数据访问的随机性进行有效抑制。
4 结语
在当前的大数据时代,媒体产业与大数据的融合势在必行,智能服务平台的研发具有重要的意义。收集和分析媒体大数据,能有效打通用户与用户间、用户与内容间的关联,更好地支撑起媒体内容的制作和播出,它的应用具有极大的社会价值和商业价值。
参考文献
[1] 邹丽丹.大数据助力搭建七大全媒体服务平台[J].传媒评论,2014(4):67-68.
[2] 张翔.超融合数据服务平台在融合媒体的应用[J].广播与电视技术,2016(6):45-50.
[3] 杨辉龙.浅谈智能用电服务在广电数据平台的应用前景[J].中国高新技术企业,2016(11):44-46.endprint