王 勇,靳瑞涛,苏煜钊,陈礼春(.国家新闻出版广电总局二九一台,甘肃 兰州 73005;.国家新闻出版广电总局二九三台,河南 郑州 456)
网络大数据时代的发展现状与挑战
王勇1,靳瑞涛2,苏煜钊1,陈礼春1
(1.国家新闻出版广电总局二九一台,甘肃兰州730105;2.国家新闻出版广电总局二九三台,河南郑州451162)
随着网络大数据(Big Data)时代的到来,“数据即服务”这一观念思想也不断植入,“网络大数据”关键词在全球迅速升温。本文在对网络大数据的内涵及其“5V”特征进行了一定深度阐述的基础上,着重总结分析了网络大数据时代的发展现状、应用及其发展与挑战;以促进网络大数据规模的进一步扩大发展,给人们生活带来更大的便利。
网络大数据;服务;“5V”;
近年来,随着互联网技术迅猛发展和智能终端的大量普及,博客、社交网络、基于位置的服务LBS为代表的新型信息发布方式的不断涌现,以及云计算、物联网等技术的兴起,数据呈现爆发式增长,给许多行业带来了严峻挑战和巨大机遇,整个信息社会已经进入了网络大数据时代[1]。
网络大数据蕴含着丰富的社会信息,可以看作是对真实社会的网络映射。分析网络大数据并发现其中所暗含的线索与规律,可以帮助人们更好地感知现在、预测未来[2]。由此可见,网络大数据是现代信息技术的重要发展方向之一,实现网络大数据的共享与分析将带来不可估量的经济价值,同时也对社会产生巨大的推动作用。
(一)网络大数据内涵
大数据(BigData)一词最早出现在Apache org的开源项目NUTCH中,当时科学家用大数据这个术语来描述在更新网络搜索索引的同时进行批量处理或分析的大量数据集。
1970年,当代著名思想家阿尔文·托夫勒将大数据时代称为“未来的冲击”,并首次提出数据组织中的“信息过载”问题。在1980年,他在其《第三次浪潮》中将大数据描绘为信息社会的重要篇章,还将其称为“第三次浪潮的华彩乐章[3]”。
什么是网络大数据?目前业内并没有公认的说法。2010 年Apache Hadoop组织将大数据定义为,“普通的计算机软件无法在可接受的时间范围内捕捉、管理、处理的规模庞大的数据集”。美国麦肯锡全球研究院2011年6月对大数据做出一份报告,即《大数据:下一个创新、竞争和生产力的前沿》,指出数据是新时期的基础生活资料与市场要素,重要程度不亚于物质资产和人力资本,大数据将成为企业提高生产力和竞争力的主要方式与关键要素。数据成为资产、产业垂直整合、泛互联网化是大数据时代的三大发展趋势[4]。Gartner公司的MervAdrian(2011)认为,大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。Dumbill(2012)[5]采用IBM公司的观点,认为大数据具有“3V”特点,即规模性(Volume)、多样性(Variety)、实时性(Velocity)。大数据及其研究领域极具影响力的领导者的国际数据公司(IDC)就是其中之一;2011年,在该公司发布的报告中(由EMC主办)[6],大数据被定义为:“大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值。”从这一定义来看,大数据的特点可以总结为4个V,即volume、variety、velocity和value。种定义指出大数据最为核心的问题,就是如何从规模巨大、种类繁多、生成快速的数据集中挖掘价值。笔者认为这种4V定义似乎更加符合网络大数据的研究价值和意义。
同时刘经南院士[7]将网络大数据归纳总结为以下几点内涵:
一是数据不仅规模大(>TB),且类型及结构复杂。所谓网络大数据简单来讲就是一种海量的数据,往往存储着相对较大的信息量,其信息逐渐趋向于多元化的主体,有着相对较快的更新速度和相对较低的价值密度,而这种海量大数据有着非结构化的主要特点[8]。不是当前的数据管理、存储、处理软件和硬件体系在可接受时间内能解决的;显然,大数据只会是计算机网络与互联网上产生和运转的数据。
二是大数据是高容量、高速率、高度多样的信息资产,需要新的处理方式来强化决策支持,观点发现和过程优化。
三是相关关系超过因果关系。海量数据隐含着更准确的事实,研究发现,大数据量可显著提高机器学习算法的准确性;大数据集的简单算法能比小数据集上的复杂算法生成更好的结果。
四是大样本数据≈全体数据。不再依赖随机采样,数据直接表达问题本身,甚至可以从中挖掘新的问题。
五是“数据即服务”正在被广泛接受:对数据在其生命周期中的价值加以利用,通过对高价值数据的实时发掘、处理和聚合,还能创造新的价值,有时一条微博就具有颠覆性的价值。
(二)网络大数据的数据源
那么网络大数据主要来源于哪里呢?从数据来源性质方面来看,主要归纳为两方面:一是来自物理世界的数据;二是来自人类社会数据。这两类数据包含的数据种类繁多,数据类型多元化。物理世界的数据是指通过传感器、科学观测获得的,如地理时空数据、气象环境数据、生物特征数据、卫星遥感数据、天文观测数据等。人类社会数据是指来自人类社会活动产生的数据,如社交网络数据、金融贸易活动数据、经济产业网数据、军事安全数据、车辆交通数据、通讯信息数据、视频监控数据等。
从社会宏观角度来看,可以根据其使用主体分为三类,即政府大数据、企业大数据、个人大数据。政府大数据:各级政府各个机构拥有海量的原始数据,构成社会发展与运行的基础,包括形形色色的环保、气象、电力等生活数据,道路交通、自来水、住房等公共数据,安全、海关、旅游等管理数据,教育、医疗、信用及金融等服务数据。企业大数据:随着信息技术的发展,数据成为企业的核心资产和基本要素,数据变成产业进而成长为供应链模式,慢慢连接为贯通的数据供应链。互联网时代,互相自由连通的外部数据的重要性逐渐超过单一的内部数据,企业个体的内部数据更是难以和整个互联网数据相提并论。综合提供数据,推动数据应用、整合数据加工的新型公司明显具有竞争优势。个人大数据:每人都能通过互联网建立属于自己的信息中心,积累、记录、采集、储存个人的一切大数据信息[9]。
这些大数据通过互联网的传播与共享,根据国际数据公司(IDC)的研究报告称,全球90%的数据为近两年产生,截止2012年全球数据量约为2.8ZB(1ZB=103EB=109TB),全球每天生产约7.8EB的数据,未来十年将以40%的速度增长,并预测全球数据量到2020年将达到40ZB。
中国互联网行业持有数据总量达到1.9EB;2011年,全球被创建和复制数据量为1.8ZB;2013年,我们生成这样规模的信息量只需10分钟。”这是互联网数据中心(DCCI)在2012 年7月26日的“Adworld2012互动营销世界”给出的一组数据。由这些数据可以看出,数据是互联网时代人、机、物三者交互的语言媒介,人通过数据对连入网络的计算机和产品进行控制,同时它们也通过数据流向人反馈所得出的结果或是收集到的所得。随着互联网的全民化普及,和物联网的大大发展,数据量呈现了爆炸式的增长,完全超过了摩尔定律的18个月翻一番[10]。
图1 .IDC全球数据量预测
(三)网络大数据的“5V”特点
根据国际数据公司(IDC)给出的网络大数据的“4V”特点外,刘念真则认为网络大数据还应具有不定性(Veracity)特点,即“5V”特点:
Volume,数据量巨大。大数据通常指10TB规模以上的数据量。由于互联网的快捷方便,许多终端产品都接入互联网,如此多的联网的终端产品每天都会产生巨大的数据量。例如,手机、平板电脑、PC终端的通话、浏览网页等都会产生数据并被一些部门或者公司加以利用、分析或储存。2015年约有150亿设备联网;未来每18个月产生的数据量等于有史以来的数据量之和。
Variety,数据种类繁多。不同形式(音频,文本,图像和视频等);异构以及非结构化。随着传感器种类的增多以及智能设备、社交网络等的流行,数据类型也变得更加多种多样化,不仅包括传统的关系数据类型,还有我们浏览的网页,上传的音频和视频,以及我们发送和接收的E-mail等形式存在的未加工的、半结构化的和非结构化的数据。例如:Facebook每天都有数以亿计的状态更新,2012年1月,Youtube网站的视频日上传量就达到了40亿,每分钟上传视频长度约60个小时。
Velocity,流动速度快。我们之前的数据处理大多是在自己的电脑上,或者机构的大型计算机上进行,受限制于互联网发展的不够发达,传输速度的不够迅速,数据流通量很小,速度慢。如今我们的网络已经足够发达,传输速度有了很大的提升,但是数据量也开始急剧增加,现在我们强调的是数据的快速动态变化,形成流式数据是大数据的一个重要特征。每分钟Google有200万次查询;流数据,实时响应(毫秒级)
Value,价值密度低。大量的不相关信息;高价值总量,低价值密度;深度复杂分析(机器学习和人工智能)在大数据时代来临的今天,数据量呈指数增长,隐藏在数据中的有用信息的比例却没有增长,这无疑给我们在巨量的数据中获取有用信息增加了巨大难度。例如:每天数十亿条的搜索申请中,只有对少数固定词条的搜索量对某些分析有用处;每天24小时的监控录像中,只有那么1、2秒的画面是有用处的等等。
Veracity,不定性。不连贯的语法或语义;即由数据不一致和不完整引发的不确定性;真伪难辨。
图2 .网络大数据的“5V”特征
(一)网络大数据发展现状
1.全球网络信息化迈入大数据时代。“网络大数据”关键词全球迅速升温,网络大数据的研究层面和内容涉及方方面面。黄宣华在其《大数据的技术层面和主要内容》中,将网络大数据主要分为四个研究层次,分别为:应用层、算法层、系统层以及平台层。例如应用层主要指电信、公安、金融、遥感遥测、生物制药以及行业应用系统开发等;算法层包括应用算法层(如社会网络、商业智能、三维建模与可视化计算等)和基础算法层(并行化机器学习与数据挖掘算法等)。
2.网络大数据成为各国关注的战略资源。奥巴马政府更是将大数据战略提升为国家战略。奥巴马政府为了进一步推动大数据相关产业发展,在2012年宣布投资2亿美元,将大数据看作未来的新资源,像石油一样重要,一个国家拥有的数据规模及运用的能力将成为综合国力的重要组成部分,对数据的占有权和控制权将成为陆权、海权、空权之外的国家核心权力。数据成为和土地、资本、人力同样重要的关键生产要素。从我国整体投资规模来看,到2012年底全国开建智慧城市的城市数超过180个,通信网络和数据平台等基础设施建设投资规模接近5000亿元,“十二五”期间智慧城市建设将成为大规模投资的重点,仅仅设备等基础投资将达1万亿元人民币。建设智慧城市各方面各层级的决策都离不开大数据支持[10]。
(二)网络大数据时代下的机遇与挑战
网络大数据研究正处在期望膨胀期,距离成熟期还需要5~10年时间[11]。在此初期阶段,仍需要进行更多的研究工作。2012年7月10日,联合国发布《大数据促发展:挑战和机遇》,这就意味着网络大数据将面临着许多的机遇和挑战。
1.网络大数据时代下将呈现出诸多的机遇。一是网络大数据可以为智能交通、资源管理、健康监测、公共安全、政务管理、商业模型等智慧城市各领域提供全方面的支撑;二是网络大数据可以很好地满足精密农业对定位精度的要求;三是网络大数据还可以为应急管理、天气预报等提供有力的支持等。
2.同时网络大数据时代下也将面临着许多的挑战。一是网络大数据面临着许多科学问题,例如数据复杂度理论、数据的复杂计算理论、数据全生命周期的系统架构与效能模型以及数据科学的分类谱系等;二是同时网络大数据还面临着许多技术问题,例如数据的感知、融合与表达,数据存储管理,数据挖掘,计算推断和数据可视化等问题;三是同时网络大数据还面临着许多应用问题,例如数据的资源化与共享、领域应用需求和计算模型、安全与隐私问题、产业链及产业生态等问题。
大数据正在引发一场思维革命,大数据正在改变人们考察世界的方式方法,以前所未有的速度引起社会、经济、学术、科研、国防、军事等领域的深刻变革。大数据除了将更好的解决商业问题,科技问题,还有各种社会问题,形成以人为本的大数据战略[9]。
[1]王仿坤.网络大数据技术与应用[J].电信技术,2015,(06):10-13.
[2]程学旗,王元卓,靳小龙.网络大数据计算技术与应用综述[J].科研信息化技术与应用,2013,(06):3-14.
[3]阿尔文·托夫勒.第三次浪潮[M].朱志焱译.北京:新华出版社,1996.
[4]http://www.teradatamagazine.com/v11n01/Features/Big-Data/:MervAdrian.BigData[N/OL].Teradata Magazine.
[5]Edd Dumbill.WhatIsBigData[EB/oL].http://strata.oreilly.com/2012/01/what-is-big-data.html,2013.1.24.
[6]GantzJ,ReinselD.Extractingvalue fromchaos.IDC iView,2011:1-12.
[7]刘经南,方媛,郭迟,高柯夫.位置大数据的分析处理研究进展[J].武汉大学学报(信息科学版),2014,04:379-385.
[8]袁永波,胡元蓉.探析大数据时代下的网络安全问题[J].网络安全技术与应用,2015,02:165-168.
[9]张兰廷.大数据的社会价值与战略选择[D].北京:中共中央党校,2014.
[10]王浩.大数据时代下的思维方式变革[D].上海:东华大学,2015.
[11]张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,(02):216-233.
(编辑:张琼琼)
TP311
A
1673-9019(2016)04-0021-04
2016-01-15
王勇(1984-),男,宁夏固原人,助理工程师,主要从事大数据在广播电视节目内容监管中应用的研究。