吕 萍
(中国电子信息产业发展研究院,北京 100048)
看美国大数据技术与业务发展
吕 萍
(中国电子信息产业发展研究院,北京 100048)
笔者通过赴美与美国政府组织、科研单位以及众多IT企业进行实地考察与交流,在本文从概念、技术、运用及行业发展面临的障碍等多个方面总结了美国业界对大数据的认识,剖析了美国推动大数据发展在体制机制上的特点,提出了推动我国大数据技术与业务发展的政策性建议。
大数据;美国;科技政策
当前,大数据正在引发全球范围内深刻的技术和商业变革。为推动我国大数据技术与业务的发展,学习借鉴美国政府、企业、研究机构等部门发展大数据的相关经验和做法,笔者通过参加工业和信息化部组织的“美国大数据技术与业务高级培训班”,与美国政府组织、科研单位以及众多IT企业进行了交流。其中,美国政府组织包括美国联邦贸易委员会、美国信息与技术项目办公室等;科研单位包括加州大学、纽约大学数据科学中心、IBM沃森研究中心等;IT企业包括亚马逊、IBM、SAP、惠普、思科、甲骨文、苹果、Cloudera、日立美国数据公司等IT各领域龙头企业。
2.1 大数据就是具备“4V”特征的数据
翻一翻关于“大数据”的专业书籍,对其的解释说法很多,而美国业界专家对“什么是大数据?”已
2.2 大数据技术与传统数据分析有相当的不同
传统数据统计工作主要包括数据的采集、处理分析及展示。大数据技术与传统数据分析技术本质上都是一样的,无非都是从数据采集到数据运用的一个处理过程。但大数据处理需要更多更复杂的技术:
一是数据存储方面。不同于传统数据处理,大数据处理包括4个关键环节:数据采集、数据存储、数据计算与分析、数据展现。其中,数据存储技术是大数据处理技术中至关重要的一个环节,而这在传统数据处理中并不是问题。受大数据数量大、变化快等特性的要求,数据存储技术需要包括:极高的并发读写速度,海量数据的高效率存储和访问,高可扩展性和高可用性。
二是数据计算与分析方面。传统数据分析处理的是结构化数据,而大数据计算与分析将面临处理大量非结构化数据的困难。处理的复杂性增加了难度,从而会影响速度。目前,大数据计算分析的基本办法是将大量数据分散到多个节点上,将计算并行化,利用多机的计算资源,从而加快数据处理的速度。目前,基于MapReduce技术的开源实现Hadoop是业界大数据并行计算的常见平台,被谷歌、Cloudera等互联网企业广泛使用。
2.3 推动大数据业务发展面临四大障碍
这两年,大数据在我国兴起的同时受到了学界与业界不同声音的质疑,政府在推动大数据业务发展过程中明显感受到从数据采集到运用过程中障碍重重。尽管美国在高技术领域发展方面一直处于全球领先地位,又是大数据市场运用的主要推手,然而,美国现阶段发展大数据业务同样面临以下困扰:数据的公开性问题;个人隐私保护问题;国家信息安全问题;跨境数据流动问题等。可以说,在美国大数据发展也仍处于初期阶段,在技术和非技术层面有待解决的问题还很多,困难还很大。美国政府正在试图寻找有效地解决方案。例如,对于个人隐私保护方面,美国联邦贸易委员会提倡行业建立公共信息平台,以避免企业与个人之间就个人隐私问题上产生纷争。美国国家信息和项目办公室正在对美国各政府机构之间的信息共享、互联互通,以及跨境数据流动问题积极协调。对于美国业界,大数据运用是互联网信息技术发展到一定阶段的必然,政府、学者、企业都不约而同地认为他们有责任也有信心攻克这些难题。
2.4 大数据业务的运用可无限想象
美国大数据应用的成功案例不仅涉及到金融、电信、智能办公、医疗、教育、交通等与社会民生密切相关的领域,而且还有如超市仓储、销售货品、航空调度、农场收割、体育竞技、动漫影视制作等特别的、小众的商业和生活领域。例如,Cisco运用云和大数据技术创造的智能办公环境,最大限度地节约能源方案;SAP利用大数据在足球场上培养球员并实现一场球赛的胜利;IBM沃森智能机器人利用大数据学习成为超过人类智慧的最强大脑;小镇农场利用大数据实现使用无人收割机进行农作物收割等。IT企业展示了众多的运用案例,有的还只是概念,但大部分已实现或有了清晰可行的实现路径。大数据时代将以往只有在科幻荧幕上看到的生活、工作和学习场景真正搬到现实中来。
3.1 国家高度重视,行业达成共识
美国奥巴马总统于2012年3月宣布“大数据计划”,并将“大数据”发展上升为美国国家战略,并宣布第一轮大数据研究项目开始。2013年11月12日,白宫科学技术政策办公室(OSTP)和网络与信息技术研究开发计划(NITRD)发布大量新的大数据合作项目,刺激私营领域对联邦数据的兴趣,相关项目属于白宫发起的“从数据—知识—行动”获得,将分别对医疗服务、能源与交通、网络安全、前沿技术研究、更大的软件分析平台等领域进行研究。
3.2 政企研三方分工明确,界面清晰
在美国,政府主要在制定战略方针、协调政府组织开放数据源、在公共安全、个人隐私保护方面制定或修正法案、宣传推广先进理念、提供产业良性发展的环境等方面发挥作用;高校及研究机构主要专注于理论研究,对关键性核心技术进行前沿性科研;而企业则进一步创新技术、将技术市场化、产品化,最终将产品和服务推向市场和公众,运用于社会。简而言之,研究机构致力于技术研发,企业致力于推广产品和应用,而政府专注于协调问题、解决纠纷,三者权责明晰、互不干扰。
3.3 技术创新是根本,来自于以人为本的激励机制
创新思维是推动高技术发展的源动力。在硅谷,有著名的风险投资一条街。任何具有创新性的点子一旦形成,可马上作为个人的成果赢得风险投资的资金支持,“思维+技术+资金”的良性循环实现了个人成功与社会进步的双赢,从而为培养创新思维提供了生根的土壤。大数据技术的发展离不开硅谷众多的IT企业,而这里处处能看到技术专家创新的本能。与此同时,伯克利大学、斯坦福大学、麻省理工学院等全球最顶尖的大学集中了全球最优秀的人才,求真务实、以人为本的研发环境保障了大量的专家学者献身于大数据技术的理论基础研究和实验。技术创新是高技术产业发展的根本,培育业内各个环节保持长盛不衰的创新氛围,关键在于有一个以人为本的激励机制。
我国大数据技术与业务未来将如何去推动发展呢?除了有必要培养业界“求真务实、戒骄戒躁、勇于创新”的大环境之外,还要做以下工作:
一是各层面主体要统一认识、分工明确、协同推进。美国已将“大数据”发展上升为美国国家战略,由隶属于白宫的国家协调办公室(NCO)进行统一协调部署,向各有关单位分配每年的财政拨款,负责每周召集政府、企业、科研单位召开项目进度沟通例会,交流工作进展及未来发展。在NCO的协调下,各部门彼此了解研发项目,大大减少重复建设的可能性。我国应该借鉴其经验,将推动大数据发展上升到国家战略层面,由政府成立多部门共同参与的协调机构,强化顶层设计,政、企、研分工明确,各尽其职,协同推进。
二是要努力打通大数据业务发展在非技术层面存在的障碍。在政务数据开放、数据安全等方面建立相关平台和制度,打通数据断层,建立信息共享平台。在保护个人隐私、国家信息安全、商业机密等方面完善政策法规,促进商业数据和个人数据的开放与共享。做好对敏感和要害数据的监管工作。
三是尽快提高我国中小企业信息化建设水平。中小企业将是大数据时代的信息主要来源,其信息化水平将直接决定大数据行业的发展步伐。鼓励培育我国中小企业的信息化平台建设,不断推动中小企业生产和管理模式的信息化建设,逐步提高企业对大数据的存储和处理能力。
四是人才与技术的培养。这是一项“十年磨一剑”却意义深远的中长期工程。从宣传、教育入手,从娃娃抓起,培养勇于创新的土壤,在社会教育各层面鼓励高技术开发思维。就大数据专业培养方面,可以鼓励技术院校、高校及研究机构开发信息管理方向的系列课程,设计大数据技术与应用课程,把大数据课程、理论、工具、实验等紧密结合在一起,将体系化的课程和实训有效结合以培养专业人才。
The Technology and Industry Development of Big Data in America
Lv Ping
(China Center for Information Industry Development, Beijing, 100048)
Based on the investigation and discussion with the governments, research institutes, and many IT companies in America, summarize the U.S. industry knowledge of Big Data including the concepts, the technologies, its application, and the difficulties. Analyze the characteristics revealed in the system and mechanism of U.S. industry that promote the development of Big Data industry, and propose the policy suggestions to push forward our country’s Big Data technology and industry.
Big Data; America; Science and Technology Policy
10.3969/J.ISSN.1672-7274.2015.05.013
TP3,TN91
A
1672-7274(2015)05-0046-03
吕萍,女,1978年生,硕士,在职博士,高级经济师,主要研究方向是产业经济。有统一认识,大数据具备“4V”特征:一是数量巨大(Volume)。目前的信息系统数据处理量大概处于TB级别,而未来的大数据处理能力需要扩展到以PB级别为主。二是类型多样(Variety)。大数据不是单一的结构化数据,还包含了大量非结构化数据(图片、文本、视频、声音等)。未来,非结构化数据将占主流。三是变化快速(Velocity)。大数据的变化快,并且要求快速处理才能获得应有价值。四是大量价值(Value)。大数据发展的核心是利用数据产生价值,主要体现在不同行业数据的融合使得以往的数据再次产生价值,数据的交易能够产生新的商业模式,取得相应的价值。大数据的本质是大量的时时刻刻产生在人们生活和工作中的有用信息,包括数字、图片、文本、视频、声音等各种形式的信息,这些信息广泛存在于生物界甚至是机器之间。之所以人类到现在才提出“大数据”这个概念,主要归功于世界电子行业和互联网技术的发展,人类有了采集、储存、分析及运用这些庞大信息的能力,即大数据技术。