纪 海,曹三省
(中国传媒大学 a.中国传播能力建设协同创新中心;b.新媒体研究院;c.信息工程学院,北京 100024)
基于互联网融合媒体的大数据应用技术分析
纪 海a,c,曹三省a,b
(中国传媒大学 a.中国传播能力建设协同创新中心;b.新媒体研究院;c.信息工程学院,北京 100024)
大数据技术作为一种新的数据处理解决方案,能够很好地完成对类型繁多、规模庞大的海量数据的处理与价值挖掘工作。互联网与传统广播电视相融合而形成的媒体形态,作为重要的媒体传播领域与媒体数据源泉,大数据应用将对其产生深刻影响。通过对“大数据时代”下互联网融合媒体的发展与特点的阐述,揭示了大数据在互联网融合媒体中应用的重要性与必要性。同时,对大数据在互联网融合媒体中的应用技术进行了简要分析。
大数据;互联网融合媒体;Hadoop
继云计算、物联网、移动互联网之后,“大数据”已经成为全球关注的新热点,正在引领新一轮的数据技术革新的浪潮。大数据尚未具有统一认同的合适定义,但是公众普遍认同其具有的4个特点能很好地对其进行描述,分别是Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。目前,大数据技术已经横跨多个技术领域,从云计算、虚拟化和数据存储,到数据库管理、数据挖掘与处理等。这使得大数据的应用价值得到极大的提升,并且已经对包括医疗卫生、教育服务、电子商务、媒体舆论等在内的各个领域产生了深远的影响。面对规模不断扩大、种类不断增加的海量数据,公众已经深刻地感受到大数据时代的到来[1-5]。
互联网作为媒体传播的重要领域,对于社会发展、舆论导向、国家安全而言具有重要意义。传统广播电视在实现面向互联网的技术转型之后,与互联网融合形成了包括IPTV、OTT、网络视频、网络电视台、APP手机电视等多种融合媒体形态。伴随大数据时代的到来,互联网融合媒体利用虚拟化的媒体信息传播技术和交互技术已经成为数据产生的重要源泉,由此也衍生了众多的新型数据。利用大数据对互联网融合媒体领域进行数据管理与数据挖掘具有重要的科研价值与实际意义。
互联网融合媒体,通常是指广播电视机构利用国际互联网信息传播平台,将文字、声音、图像、视频等各种形式的数据进行数字化处理后,在计算机、手机、平板电脑等终端上进行传播的媒体形式。其具有数字化、交互性、全球性、易存储、易检索、多媒体化等特点。伴随大数据时代的到来,互联网融合媒体正在经历新的技术变革,由此也展现出新的特点:
1)数据增长日益趋向非结构化
伴随互联网技术的不断发展,网络数据正在朝向非结构化方向发展,更加多样的文本格式、丰富的音视频与图像展示等,已经显示非结构化数据已经成为互联网融合媒体的重要数据源。然而,如何实现文本文档、PDF文档、XML、图像和音视频等非结构化数据有效分析一直都是数据分析中的难题,大数据作为全新的数据存储与处理技术,能够提供新的解决方案。
2)信息量增长更快
互联网融合媒体在交互技术与移动互联网技术的发展下,用户已经实现了在任何地方、任何时间访问互联网进行信息发布、交流互动等操作。这促进了网络信息的增加速度不断加快,数据规模不断增大。
3)信息检索难度加大
随着数据规模的扩大与数据异构问题的日益严重,互联网信息检索难度在不断增大,准确度也在下降。
大数据的出现不但引领数据技术的革新,同时也在应用领域建立一个新的生态体系——大数据生态系统。该系统包括数据设备、数据采集者、数据汇总者以及数据使用者和消费者。数据设备主要包括产生与收集数据的相关设备;数据采集者主要包括从相关设备和客户端进行数据获取的实体;数据汇总者主要负责对数据进行分析与处理,提取大数据所蕴含的价值与规律;数据使用者/消费者主要对具有价值的数据分析结果进行使用和消费。在互联网融合媒体中运用大数据,将可以更好地实现海量网络数据处理和分析,完成用户行为分析、舆情监测,为互联网融合媒体的健康有序发展提供指导性的建议。
大数据在互联网融合媒体中的应用技术主要包括大数据获取技术、大数据分析技术与Hadoop平台。
2.1 大数据获取技术
大数据的数据类型结构主要分为结构化数据、半结构化数据和非结构化数据,如图1所示。
图1 大数据结构类型
1)结构化数据
互联网融合媒体中的动态结构化数据具有更高的研究价值,能够更好地分析用户行为,总结数据中的潜在价值。对其采用查找平台动态数据源、解析数据源、正则表达式匹配数据进行抓取,如图2所示。
图2 数据抓取方式
2)非结构化数据
对于互联网融合媒体中的非结构化数据,可采用PHP5所提供的Simple HTML DOM解析类库对页面进行HTML解析,通过元素的id、class、tag等来进行信息定位,利用find函数来查找HTML文档中的元素,并返回一个包含对象的数组,完成数据获取。
2.2 大数据分析技术
面对互联网融合媒体带来的快速增长的数据量,为了更好地分析和利用这些海量的数据资源,必须利用有效的数据分析平台和技术。运用大数据带来的理念与技术革新对数据资源进行深入的处理,挖掘数据内部所存在的潜在价值,对互联网融合媒体发展进行有效的指导。
1)大数据分析平台
大数据带来了更加复杂的数据结构和类型,以及更加庞大的数据资源,对于大数据分析平台提出了更高的要求。因此,其具有新的技术特点。分别是:
(1)规模达到Pbyte级别的高容量存储空间,拥有线性扩展能力;
(2)高效快速的运算能力,提供低延迟的访问、搜索和分析等处理;
(3)具有集成分析环境,进行更加高级的分析处理和建模。
2)大数据分析方法
基于大数据挖掘的主要分析方法有:
(1)聚类分析(K-means算法),利用相似度对数据进行分组,找到数据中的共性;
(2)回归分析,确定输入变量与结果之间的关系,主要有线性回归与逻辑回归;
(3)关联规则分析,寻找行为之间的关系,主要有Apriori、FP-growth算法;
(4)分类,对处理对象进行标签处理,主要有决策树、朴素贝叶斯等。
2.3 Hadoop大数据支撑平台
Hadoop作为Apache基金会旗下的一个开源分布式计算平台,为用户提供了系统底层的分布式基础架构。具有高可靠性、高扩展性、高效性以及高容错性,利用计算机集群进行数据存储与运算。数据能够在节点之间动态移动,确保节点的动态平衡,同时,平台允许进行节点扩展,增加平台容量。因此,Hadoop是一种适合进行大数据存储与处理的平台。
Hadoop基于Linux系统搭建的数据运算平台,拥有2个核心系统,分别是分布式文件系统(HDFS)和MapRe⁃duce系统。
1)HDFS系统
HDFS基于Java语言开发,采用主从结构模型(Mas⁃ter/Slave),任何支持Java的机器都可以搭建该系统。一个HDFS集群是由一个主服务器(NameNote)和若干个从节点(DataNote)组成。其中主服务器负责管理文件系统的命名空间和客户端对文件的访问操作,DataNote管理存储的数据。
2)MapReduce系统
MapReduce是一种并行编程模式,可以用一种高容错的方式并行数据大规模的数据资源。主要是由一个单独运行在NameNote上的JobTracker和运行在集群DataN⁃ote上的TaskTracker共同组成。当Job提交,JobTracker接收Job并进行信息配置,同时将配置信息分发给从节点,然后调度任务并监控TaskTracker的执行。
伴随互联网领域内的持续创新和传统广播电视机构新媒体技术应用能力的提升,兼具广播电视与互联网基因的互联网融合媒体正在经历快速发展的阶段,大数据结构更加复杂化,数据规模更加庞大化。大数据能很好地实现对互联网融合媒体数据的海量存储、高效处理、无延迟搜索以及分析建模,挖掘大数据背后的潜在价值和规律,为互联网融合媒体健康有序的发展提供指导。
[1] 周宝曜,六维,范承工.大数据战略·技术·实践[M].北京:电子工业出版社,2013.
[2]陆嘉恒.Hadoop实战[M].北京:机械工业出版社,2011.
[3] 钟瑛,张恒山.2013年:大数据驱动下的传媒转型[J].新闻与写作,2013(12):11-13.
[4]闫城榛,宋迪.“大数据”时代或将引爆传媒发展新格局[J].中国传媒科技,2012(19):64-65.
[5] 张彦华.大数据时代国内传媒产业的挑战与机遇[J].现代传媒,2013(11):22-26.
Analysis of Big Data App lication Technology Based on Internet Fusion M edia
JI Haia,c,CAO Sanxinga,b
(a.China Broadcast Capacity Build Collaborative Innovation Center; b.New Media Institute,Communication University of China,Beijing 100024,China)
Big data technology as a new data processing solution,can process and mine massive various and valuable data. The media formed by Internet and the traditional broadcast TV,as an important field of media broadcast and media data source,can be impacted by big data applications.Through the discussing of characteristics and development of fusion media based on"big data era",the importance and necessity of media data fusion application on the internet are revealed.At the same time,the big data fusion application technologies in the Internet fusion media are briefly analyzed.
big data;internet fusion media;Hadoop
TN948
A
�� 京
2014-05-05
【本文献信息】纪海,曹三省.基于互联网融合媒体的大数据应用技术分析[J].电视技术,2014,38(21).