许 晔
(中国科学技术发展战略研究院,北京 100038)
大数据时代中国面临的挑战与对策
许 晔
(中国科学技术发展战略研究院,北京 100038)
本文通过研究大数据及其特征,分析全球大数据增长对世界的影响,指出在大数据时代中国所面临的安全管理能力、存储及处理能力、应用能力以及人才培养能力等方面的挑战,并提出对策建议。
大数据;战略资源;数据安全;数据人才
2012年3月,美国奥巴马政府发起了《大数据研究和发展倡议》,将大数据定义为“未来的新石油”,称将斥资2亿美元用于大数据研究,以应对大数据革命正在带来的大机遇。据美国咨询机构Gartner预测,到2015年,大数据将会在世界范围内创造440万个工作岗位。
1.1 大数据及其特征
关于大数据(Big Data),麦肯锡全球研究所在报告《大数据:创新、竞争和生产力的下一个前沿》中定义:所谓大数据,是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。也有专家认为,大数据的“大”是指大型数据集,即数据量一般在10TB规模左右;多个用户把多个数据集放在一起,形成PB级的数据量;同时,这些数据又来自多种数据源,并以实时、迭代的方式来实现,即“大数据=海量数据+复杂类型的数据”[1]。
大数据具有大量化、多样化、快速化和价值化的特征[2],也称“4V”。
(1)大量化(Volume):是指数据量非常庞大,即数据存储量大、计算量大。
(2)多样化(Variety):是指大数据不但包含结构化的数据表和半结构化的文本、视频、图像等信息,而且数据之间的交互也非常频繁和广泛。
(3)快速化(Velocity):是指数据不断更新,增长的速度快,同时数据存储、传输等的处理速度也非常快。
(4)价值化(Value):是指数据正在成为一种新型资产,一种形成竞争力的重要基础。基于大量数据的分析和计算,可以产生更大的价值。
1.2 大数据的爆发增长
据国际数据资讯公司(Global Pulse)估测[3],数据数量一直在快速增加,每年增长50%,这个速度不仅是指数据流的增长,而且还包括全新的数据种类的增多。
有研究统计,从人类文明开始到2003年,人类共创造了5TB(兆亿字节)的信息。而现在,这样的数据量却仅需两天就能够被创造出来,且速度仍在加快。据统计,全球企业2010年在硬盘上存储了超过7EB的新数据,消费者在PC和笔记本电脑等设备上存储了超过6EB新数据,而1EB数据就相当于美国国会图书馆中存储数据的4000多倍[4]。目前数据容量增长的速度已经大大超过了硬件技术的发展速度,并正在引发数据存储和处理的危机。
1.3 全球大数据布局
世界上许多国家都已经认识到了大数据所蕴含的重要战略意义,纷纷开始在国家层面进行战略部署,以迎接大数据技术革命正在带来的新机遇和新挑战。
美国在《大数据研究和发展倡议》中提出,将通过收集庞大而复杂的数字资料,从中获得知识和洞见,以提升能力,并协助加速在科学、工程上发现的步伐,强化美国国土安全,转变教育和学习模式。根据这一计划,美国希望利用大数据技术实现在多个领域的突破,包括科研教学、环境保护、工程技术、国土安全、生物医药等。其中具体的研发计划涉及了美国国家科学基金会、国家卫生研究院、国防部、能源部、国防部高级研究局、地质勘探局等联邦部门和机构。
英国政府2012年计划在未来两年内,在大数据和节能计算研究上投资1.89亿英镑,以带动企业在该领域的投资。大数据被英国看作是自己的优势所在,且英国认为已在政府层面为大数据做好了准备。
法国政府宣布在2013年投入1150万欧元,用于7个大数据市场研发项目。目的在于“通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展”。法国政府在《数字化路线图》中列出了五项将大力支持的战略性高新技术,大数据就是其中一项。
日本于2013年6月公布了新IT战略,即“创建最尖端IT国家宣言”,全面阐述了2013—2020年,将以发展开放公共数据和大数据为核心的日本新IT国家战略,并提出要把日本建设成为一个具有“世界最高水准的广泛运用信息产业技术的社会”。
此外,加拿大、新西兰、德国和印度等国也在大数据领域进行了研究部署,还纷纷推出本国的公共数据开放网站,以使更多的人可以使用大数据资源,并从中获得利益。目前,全球已经拥有大大小小的数据开放网站50余个。
2.1 “大数据资源”成为重要的战略资源
互联网时代,“资源”的含义正在发生极大的变化,它已不再仅仅只是指煤、石油、矿产等一些看得见、摸得着的实体,大数据也正在演变成不可或缺的战略资源。互联网、物联网每天都在产生大量的数据,这些庞大的数据资源,为人们依据数据了解世界、了解市场、了解人们的生活提供了可能。大数据已经被视为一种资产、一种财富、一种可以被衡量和计算的价值。得大数据者得天下,是一些推崇大数据时代的变革者所坚信不疑的判断。
很多专家认为,在大数据时代,谁能有效地垄断数据,谁就有可能成为世界的霸主[5]。2006年,微软以1.1亿美元的价格,购买了大数据公司Farecast。2008年,谷歌则以7亿美元的价格,购买了为Farecast提供数据的ITA Software公司。
2.2 “大数据安全”上升为国家安全
传统意义上的国家安全,是指军队对国家领土安全的保护,是国家之间军事实力的较量。但在互联网高度发达的大数据时代,网络变成了几乎是透明的虚拟世界,也因此使国家安全的环境和内涵发生了极大的变化,对大数据的安全保存、防丢失和防破坏等问题,成为我们必须要面对的安全难题。大数据安全,已经上升成为国家安全的重要组成部分。
在大数据时代,数据安全的威胁随时都有可能发生。各种国家信息基础设施和重要机构所承载的庞大数据信息,如由信息网络系统所控制的石油和天然气管道、水、电力、交通、银行、金融、商业和军事等,都有可能成为被攻击的目标。此外,大数据也为网络恐怖分子提供了新的资源支持,有可能使恐怖分子通过网络侵入到人们工作生活的方方面面,并通过威胁、攻击、破坏、瘫痪民用或军事基础设施等手段,达到其制造心理恐慌和财产损失、威胁国家安全和社会安全的目的。
2.3 “大数据决策”成为一种新的决策方式
依据大数据进行决策,从数据中获取价值,让数据主导决策,是一种前所未有的决策方式,并正在推动着人类信息管理准则的重新定位。随着大数据分析和预测性分析对管理决策影响力的逐渐加大,依靠直觉做决定的状况将会被彻底改变。
2009年爆发的甲型H1N1流感病毒,谷歌公司就是通过观察人们在网上搜索的大量记录,在流感爆发的几周前,就判断出流感是从哪里传播出来的,从而使公共卫生机构的官员获得了极有价值的数据信息,并做出有针对性的行动决策,而这比疾控中心的判断提前了一两周[6]。美国的Farecast系统的一个功能就是飞机票价预测,它通过从旅游网站获得的大量数据,分析41天之内的12000个价格样本,分析所有特定航线机票的销售价格,并预测出当前机票价格在未来一段时间内的涨降走势,从而帮助虚拟乘客选择最佳的购票时机,并降低可观的购票成本。
2.4 “大数据应用”促进信息技术与各行业的深度融合
有专家指出,大数据及其分析将会在未来10年改变几乎每一个行业的业务功能。从科学研究到医疗保险、从银行业到互联网,各个不同的领域都在遭遇爆发式增长的数据量。在美国的17个行业中,已经有15个行业大公司拥有大量的数据,其平均拥有的数据量已经远远超过了美国国会图书馆所拥有的数据量。
系统共使用580个采样点数据,主要分布在广西人工林种植集中区,为了得到覆盖全广西的主要林地范围的连续数据,采用了高斯格吕克空间插值方法,对包括pH值在内的15种养分含量分布生成土壤养分栅格图,形成一个包含15个图层的栅格数据集。采样点分布和土壤养分含量(有机质)插值结果如图3。这个栅格数据集通过ArcGIS Server发布成影像服务后,就可以实现在客户端查询土壤养分的功能。
在医疗与健康行业,根据麦肯锡预测,如果具备相关的IT设施、数据库投资和分析能力等条件,大数据将在未来10年,使美国医疗市场获得每年3000亿美元的新价值,并削减2/3的全国医疗开支。
在制造业领域,制造企业为管理产品生命周期将采用IT系统,包括电脑辅助设计、工程、制造、产品开发管理工具和数字制造,制造商可以建立一个产品生命周期管理平台PLM(Product Lifecycle Management),从而将多种系统的数据集整合在一起,共同创造出新的产品。
此外,在交通、能源、材料、商业和服务等领域,甚至在新闻传媒领域,也都在以大数据为发展契机,加速这些行业与信息技术的深度融合。
2.5 “大数据开发”推动新技术和新应用的不断涌现
大数据的应用需求,是大数据新技术开发的源泉。在不久的将来,也许很多原来单纯依靠人类自身判断力的领域应用,最终都将被计算机系统的数据分析和数据挖掘功能所普遍改变甚至取代。一小片合适的信息,也许会促使创新迈进一大步;一组数据,也可能会得到数据收集人难以想象的应用,甚至可能在另一个看起来毫不相关的领域得到应用。借助这些创新型的大数据应用,数据的能量将会层层被放大[7]。
“语义网(Semantic Web)”也称为下一代互联网,实际上就是“数据网(Web of Data)”。语义网是一个全球的数据库网,在这个数据库网中,计算机可自动为用户搜寻、检索和集成网上的信息,而不再需要搜索引擎。大数据时代正在催生的这个最大的技术变革,就是要重新构造互联网,打造出下一代互联网。
目前,已经出现的“大数据分析方法”包括:情感分析、关联规则学习、预测建模等。已经出现的“大数据应用技术”包括:数据仓库、“混搭”、云计算等。已经出现的“大数据可视化技术”包括:标签云、聚类分析、历史流以及空间信息流等。此外,已经出现的“大数据新应用”包括:通过数据流量判断消费者喜好、用微博数据预测股市投资时机、用手机数据预测疾病传播和城市繁荣,等等。
3.1 大数据的安全管理能力挑战
数据安全管理问题,是中国应用大数据面临的最大风险。虽然将海量数据集中存储,方便了数据分析和处理,但由于安全管理不当所造成的大数据丢失和损坏,则将引发毁灭性的灾难。有专家指出:由于新技术的产生和发展,对隐私权的侵犯已经不再需要物理的、强制性的侵入,而是以更加微妙的方式广泛衍生,由此所引发的数据风险和隐私风险也将更为严重。
3.2 大数据的存储及处理能力挑战
当前,中国大数据存储、分析和处理的能力还很薄弱,与大数据相关的技术和工具的运用也相当不成熟,大部分企业仍处于IT产业链的低端。中国在数据库、数据仓库、数据挖掘以及云计算等领域的技术,普遍落后于国外先进水平。
在大数据存储方面,数据的爆炸式增长、数据来源的极其丰富和数据类型的多种多样,使数据存储量更庞大、对数据展现的要求更高,而目前中国传统的数据库还难以存储如此巨大的数据量。在大数据的分析处理方面,由于针对具体的应用类型,需要采用不同的处理方式,因此必须通过建立高级大数据的分析模型,来实现快速抽取大数据的核心数据、高效分析这些核心数据并从中发现价值,而这些数据分析能力中国还很欠缺。
3.3 大数据的应用能力挑战
中国拥有庞大的人口资源和大数据应用市场,市场复杂度高且变化多端,使中国成为世界上最复杂的大数据国家。中国互联网用户通过利用互联网上的海量数据来提升自身的商业和科研价值,企业用户也已积累了大量的数据信息资产,如产品数据、运营数据和价值链数据等。随着中国企业信息化系统的深入部署和逐步完善,大数据应用能力所引发的商业模式的改变,将直接影响中国企业的竞争能力。
在政府决策方面,当前中国政府部门的数据规模还很小,多数仍集中在对结构化数据的应用上,而对于非结构化数据的利用则几乎为空白。利用数据分析来支撑政府决策,中国做得还很不够。从认识到“大数据能产生价值”,到实现了“从大数据中找到价值”,再到“有效使用大数据产生的价值”,政府目前也只是刚刚起步[9]。
3.4 大数据的人才培养能力挑战
大数据领域技术人才和商业人才的缺乏,是一个全球性的问题。麦肯锡的一项研究显示,仅美国每年就有14万~19万名数据科学家的缺口,预计到2018年将达到44万~49万名,而数据科学家则更是严重缺乏。
中国大数据分析专业人才缺口究竟有多大,有专家粗略估算至少需要100万人。当前,具备综合掌控数学、统计学、机器学习等方面知识的复合型人才,同时又可承担数据分析和数据挖掘的数据科学家,在中国尤为奇缺。目前,中国初级的分析人员只能对数据进行简单的报表和描述性分析,而随着未来大数据应用的不断增长,中国大数据人才储备不足的问题将更加严重。
发展中国的大数据产业,积极应对大数据时代带来的诸多挑战,需要我们具有超前的战略部署思维、完备的数据安全保障能力、先进的数据开发能力,更要具有一流的数据分析人才培养机制。
4.1 大数据的应用能力挑战
大数据时代,国家之间的竞争已经部分体现为拥有大数据规模的竞争,体现为对大数据分析和运用能力的竞争。有专家指出,大数据是国家在网络空间数字主权的体现,也将是继海、陆、空、天竞争之后,大国之间进行博弈的另一个空间。
当前,发达国家已经开始了大数据的战略部署,但中国的大数据发展还只处于起步阶段。IDC于2012年下半年发布的《中国大数据技术与服务市场2012—2016年预测与分析》显示,中国大数据市场规模将从2011年的7760万美元,增长到2016年的6.17亿美元,未来5年的复合增长率将达51.4%。因此,中国亟需在国家层面对大数据发展给予高度重视,提早开始对大数据的战略部署,特别需要从政策制定、资源投入、关键技术研发和人才培养等方面,从国家宏观层面给予大力支持。2012年6月,中国计算机协会决定成立“CCF大数据专家委员会”,积极推动大数据在中国的发展。2012年7月,“第二届大数据世界论坛”在北京召开,同月首届中国大数据应用论坛在北京大学召开。
4.2 重视安全防护,保障大数据信息安全
从数据安全防护的角度,保障中国大数据的信息安全,需要从数据的收集、存储、传输、分析和处理以及可视化展示等各个环节,注重大数据信息的保护。特别要在提高安全防护技术水平、保障网络安全以及保障云存储和云安全等方面加强研究。同时,也要注重在保护用户个人隐私安全方面的研究。
完善中国的数据安全保障体系,同样需要在数据安全保护和数据开放利用两方面寻找平衡,使大众能够在享用大数据带来的社会进步的同时,也可保障数据的信息安全。此外,适时出台大数据相关政策和法律法规,也对保障中国大数据的信息安全具有重要意义。国外的通常做法是设置安全机制,采用第三方信息安全审计,并对数据的使用做出明确规定。美国的“大数据研究发展倡议”还专门设立了多项与信息安全相关的项目,以解决大数据应用中的安全问题。
4.3 创新培养模式,打造大数据一流人才
大数据人才包括数据科学家、数据工程师和首席数据执行官(CDO)等,通常都需要具备多个领域的专业知识背景,且至少具备四个方面的专业技能,即技术(软件和系统等)、数学(统计、建模和算法等)、商业分析(从事领域的相关知识)和可视化(语言和图表等)。目前传统的数据分析人员仅仅具备一个或两个这方面的专业技能,还不具备开发分析应用程序模型等技能[10]。
加强中国大数据人才的培养,需要创新培养模式,探索企业依据发展需求自主培养,或大学与企业联合培养的新模式。2013年,北京航空航天大学计算机学院、软件学院和百度、淘宝、腾讯等企业合作,联合开办了国内第一个大数据专业的工程硕士班。这种由企业和大学合作来培养所需要的大数据人才,主要是考虑大数据的解剖对象是大量的数据,而学校并不生产数据,只有企业才拥有数据。因此,在企业的支持下,学校将能够通过具有针对性的实践训练,培养学生的数据分析能力,打造社会所需要的大数据人才。
4.4 研发关键技术,促进中国大数据产业发展
大数据的竞争是技术实力与创新能力的竞争,距离数据越近的产业环节,其产生的产业价值就越大。谁掌控了相关的关键技术,谁就有可能成为大数据产业的主导者。中科院专家指出,大数据的技术挑战主要包括7种[11]:大数据的去冗降噪技术,大数据的新型表示方法,高效率低成本的大数据存储,大数据的有效融合,非结构化和半结构化数据的高效处理,适合不同行业的大数据挖掘分析工具和开发环境,大幅度降低数据处理、存储和通信能耗的新技术。
目前国外已经有一些公司试图通过数据挖掘提取更多的价值,它们开发的数据挖掘工具也已经开始嵌入到需要数据分析的企业内部。例如,Hadoop平台、SQL Server等都开始深入海量数据的挖掘工作。中国的购物网站之一淘宝网,也正在利用其掌握的第一手用户数据推出“淘宝魔方”服务,通过后台数据,挖掘用户评论、浏览量、收藏量等信息,进而预测商家或商品的销售趋势[12]。
中国应在大数据的关键技术领域加强研发,如在大数据的分析方法、应用技术及可视化技术等方面加大研发力度。尤其是要加大对大数据的实时集成、海量信息处理和管理、云存储、云计算等关键技术的研发力度。
[1]但彬.大数据、大挑战、大机遇[EB/OL].[2011-11-02].http://www.yesky.com/.
[2]李志刚.大数据——大价值、大机遇、大变革[M].北京:电子工业出版社,2012.
[3]郭晓科.大数据[M].北京:清华大学出版社,2013.
[4]James Manyika,Michael Chui,Brad Brown,Jacques Bughin,Richard Dobbs,Charles Roxburgh,Angela Hung Byers.Big Data:the Next Frontier for Innovation,Competition,and Productivity.McKinsey Global Institute.Annual Report:(6)[EB/OL].http://www.mckinsey/insight/business_technology/.2011.
[5]许晔,郭铁成.“智慧地球”:从战略理念到改变生活[N].经济参考报,2013-03-19(5).
[6][英]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.
[7]涂子沛.大数据:正在到来的数据革命[M].桂林:广西师范大学出版社,2012.
[8]惠志斌.大数据时代个人信息安全保护[N].社会科学报,2013-05-04(3).
[9]朱幼平.大数据决策将强力推进我国经济发展方式转型[EB/OL].[2012-12-21].国家信息中心中经网http://m.blog.sina.com.cn/s/blog_5009e20501019ays.html.
[10]谭光柱.大数据时代已来临 分析成难点[EB/OL].[2012-11-09].中国互联网络信息中心http://www.cnidp.cn.
[11]赵海娟.掘金大数据 亟待国家战略支持[N].中国经济时报,2013-01-22(2).
[12]郭晓科.大数据[M].北京:清华大学出版社,2013.
(责任编辑 沈蓉)
Challenges and Countermeasures in the Age of Big Data
Xu Ye
(Chinese Academy of Science and Technology for Development,Beijing 100038,China)
In this paper,we study the concept and features of big data,analyze the pattern of data’s big bang,as well as what it may bring about to the world.At the same time,we point out several challenges China has to face in the age of big data,which contains managing in security,storing and progressing,applying,and experts training.And then,we propose some advices and proposals.
Big data;Strategic resources;Data security;Data talents
国家软科学研究计划(2011GXS4K077),国家软科学研究计划(2011GXS5K101)。
2014-06-06
许晔(1966-),女,辽宁大连人,中国科学技术发展战略研究院研究员;研究方向:信息通信、技术预测、科技战略。
G312
A