张锋军
(中国电子科技集团公司第三十研究所,四川成都610041)
大数据技术研究综述*
张锋军
(中国电子科技集团公司第三十研究所,四川成都610041)
大数据技术作为当前热门的技术领域,得到了广泛的关注和研究。文中对大数据的概念、特征、国内外发展情况进行了研究,对数据采集与感知、数据存储与处理、数据分析、数据可视化和大数据安全与隐私保护等方面的共性基础技术和前沿技术进行了分析,指出了这些技术的最新研究方向,总结了大数据技术面临的技术和政策方面的挑战,分析了其技术本质,对大数据的研究和工程应用具有指导意义。
大数据 人工智能 数据挖掘 机器学习 Hadoop 隐私保护
过去几年间,随着计算、存储资源的容量、速度、智能化程度的迅速提高和价格的大幅下降,以及物联网、移动互联网、云计算等技术的迅速发展和大规模应用,政府和企业更愿意投入预算建设自己的信息设施和收集分析更多地数据,数据量出现了爆发式增长。数据量的剧增和国家、企业间竞争的加剧,要求政府和企业能更准确、快速、个性化的为客户和公众提供产品和公共服务,通过大规模掌握用户的细节数据,政府和企业可以分析出通过传统数据分析手段无法获知的价值和模式,做出更为迅速、科学、准确的决策和预测[1-2]。文献[2]的作者舍恩伯格认为,大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系,大数据技术近年来迅速升温。
大数据技术是预测分析、数据挖掘、统计分析、人工智能、自然语言处理、并行计算、数据存储等技术的综合运用,组成了当今最热门的数据工程化应用技术新实践。学术界对大数据目前还没有权威的精确定义,文献[3-4]提出了大数据的三大特征:数据容量(Volume)、数据产生速度(Velocity)和数据多样性(Variety),基于大量详实的统计结果对大数据技术的内涵、外延、现状和技术趋势等进行了分析。在此基础上,业界还有人总结出其它的大数据特点,例如准确性(Veracity)、低价值密度(Value)、存活性(Viability)等。文献[5]站在BI&A(商业智能和分析技术)的角度,将大数据技术作为下一代BI&A的发展方向,指出了其技术内涵,并对大数据技术在数据分析、文本分析、Web分析、网络分析等技术及在电子商务和市场智能、电子政务和政治、科学技术、智能健康和医疗、公共安全等领域的应用模式进行了分析。文献[6]的作者认为,大数据技术已经从4个V延展至三个维度:可实时性、可解释性、数据准确/稳定性。在数据工程化时代,大数据需要运营、共享,然后挖掘和运用,让其产生社会价值,解决未来的问题,并认为大数据中,数据质量非常关键。文献[7]介绍了新兴的数据科学核心概念:数据自然(Data Nature)。在数据自然中,数据客观存在和产生于自然界和人类社会,随着人类的认知和信息采集分析手段的不断进步,逐步可以将越来越多大自然和人类社会的各类信息通过技术手段映射和收集到信息系统。通过分析研究数据自然,人们可以揭示和掌握人类社会和大自然的各种规律,而大数据技术正是当前推进该领域研究的最前沿技术。
综上所述,目前的研究认为,大数据具有以下主要特征:
Volume:数据量大,数据量以PB,EB,ZB来衡量。
Velocity:数据产生和处理的速度快,时效要求高,不仅是静态数据,更多是动态实时数据。
Variety:数据类型多样化,不仅是结构化数据,还包括网页、社交网络、日志、音视频、图片、位置等数据,更多是半结构化数据和非结构化数据。
Value:数据量大但价值密度低,需要价值提纯。
Veracity:真实而准确的数据才能使数据的管控和治理有意义。
Complexity:数据复杂性高。
Fail:传统的处理和分析工具失效(从采集、清洗、存储、索引和检索、共享、传输、分析等各环节传统手段都失效)。
综上所述,这里对大数据技术给出一个初步的定义:
大数据技术是一代全新的数据科学领域的技术架构或模式,对数据量大、类型复杂、需要即时处理和价值提纯的各类数据,综合运用新的数据感知、采集、存储、处理、分析和可视化等技术,提取数据价值,从数据中获得对自然界和人类社会规律深刻全面的知识和洞察力。
大数据技术涉及到数据的感知、采集、存储、处理(管理)、分析、可视化呈现等诸多环节,各环节采用的技术手段也层出不穷。本文将对大数据的发展情况、基础与前沿技术及其面临的挑战等进行全面深入的分析。
目前,IT界普遍认为当前大数据技术主要起源于谷歌。谷歌工程师在2003至2006年先后公开发表了关于MapReduce、GFS和BigTable等核心技术的学术论文,这一系列技术迅速引起巨大反响,吸引了雅虎、Facebook等互联网公司的注意,直接导致了目前应用最为广泛的开源大数据框架Apache Hadoop的诞生。
随着人们对数据科学的深入认识,发达国家都意识到数据作为国家战略资产的重要性,以美国为首的多个国家先后发布了大数据的国家发展战略,联合国也发布了“全球脉搏”项目的重要成果——名为《大数据促发展:挑战与机遇》的大数据政务白皮书,报告中总结了各国政府如何利用大数据更好的服务和保护人民,指出了大数据对于联合国和各国政府是个历史性机遇。
美国政府投入了巨资到大数据技术研究领域,将其作为重要的战略发展方向。美国白宫于2012年3月颁布了《大数据研究和发展计划》,计划投入约155个项目种类,计划项目涉及的部门包括卫生部、能源部、国防部、NSF等。美国将大数据技术发展提升到国家安全和未来的发展战略的高度,而美国军队是大数据技术的重要参与者,国防和军事大数据研发项目是优先发展的重点。在该计划中,美军的目标是要通过大数据技术实现感知、认知和决策支持的结合,建立决策智能、操控自动的自动化系统,提高战场与态势感知能力,增强信息提取分析、情报获取和对目标的洞察能力,同时强调要培养该技术领域的人才队伍。
在计划中,涉及到军事的大数据项目有十多项,主要的项目包括:多尺度异常检测项目(ADAMS)、网络内部威胁计划(CINDER)、洞悉计划(Insight计划)、阅读机项目、想象力项目(Mind′s Eye)、面向任务的弹性云项目、加密数据的编程计算项目(PROCEED项目)、视频与图像检索分析工具项目(VIRAT项目)等。
美国防部高级研究计划局还开展了XDATA项目,计划在未来四年,投入资金开发能够分析海量结构化数据和非结构化数据的技术和软件工具。美军同时投入研究的还包括数据可视化、信息安全与大数据的结合等方面的研究与活动,并投巨资在盐湖城建立了大数据中心,用于对各类情报数据进行大数据分析,向相关军事机构提供大数据分析产品,积极推动“从数据到决策”的计划,以实现决策优势[8-9]。国内军事领域,该方面的应用还处于起步阶段,需要尽快赶上。
在大数据领域,目前已实用化的国际知名项目包括:
1)Google知识图谱和深度学习、自动驾驶技术、Google眼镜。
2)Facebook开放社交图谱数据。
3)NSA棱镜计划。
4)IBM Watson。
5)LinkedIn、Amazon、Netflix推荐系统等。
在国内,互联网公司和技术界对大数据技术的研究和实用也开展的如火如荼,对大数据技术也提上了国家的战略发展日程。2013年,我国多位院士联合上书国务院,建议设立国家专项开展大数据技术研究,将大数据上升为国家战略。在2014年的两会上包括金山和小米公司董事长雷军在内的多位代表提出加快实施大数据国家战略的建议。
在数据开放和共享方面,国家统计局开放和共享了部分公共数据。中国电信于2014年初,召开了大数据开放合作洽谈会,相关机构也在加紧制定大数据交易的相关法规。国内的主要互联网公司:百度、阿里和腾讯,已将大数据技术应用到各自的业务中,取得了巨大的经济和社会效益,百度还成立了深度机器学习研究所。
在大数据技术人才培养方面,清华大学2014年起设置了大数据技术的相关硕士学位和课程,多学科交叉培养大数据技术人才。专业方向涉及数据科学与工程、商务分析、大数据与国家治理、互联网金融等方向,正式开启了该领域专业技术人才培养的工作。
可以预见,大数据技术作为一个横向的技术,将应用到国计民生的各个领域,对各个领域带来巨大的冲击和变革,以及前所未有的发展机遇。
从信息科学的DIKW(Data,Information,Knowledge,Wisdom)基础模型和数据科学领域的“数据自然”概念来看,人类对世界的认知需要从最基础的数据入手,利用当前最前沿的大数据技术来感知世界,分析世界,认识世界,掌握世界,而大数据技术就是打开整个数据通道的强力工具。
麦肯锡的一份报告认为大数据技术主要包括预测分析、数据挖掘、统计分析、人工智能、自然语言处理、并行计算等方面的技术[10]。IBM的Stephen Watt提出的大数据生态系统模型中,将大数据技术划分为数据生成、数据存储、数据处理、数据分享、数据检索、数据分析、数据可视化等7个部分[11],如图1所示。
图1 IBM大数据生态系统模型Fig.1 IBM Big Data Ecosystem Model
大数据技术的共性基础技术可分为:感知,采集,存储,分析和可视化等方面,涉及的技术领域包括:传感器,计算网络,数据存储,集群式计算系统,云计算设施,人工智能,数据可视化。
本文从大数据从感知到决策的过程和提炼大数据关键技术的角度,将大数据技术分为以下几个方面的技术:
2.1 数据感知和采集
目前大数据的来源范围日益广泛,各类传感器、互联网、移动互联网(手机、各类移动终端等)、物联网(RFID、摄像头)等都是重要的大数据采集和感知来源。中国工程院李德毅院士认为:大数据的主要来源有三方面:自然界的大数据、生命和生物的大数据和社交大数据。移动互联网时代大数据来源主要是网络化环境下的非结构化数据,这些非结构化数据往往是低价值、碎片化、强噪声、异构和冗余的[12]。具体到某个领域,数据的感知采集手段是不一样的,以网络安全领域为例,可能的数据感知手段就包括了网络探针、SNMP、ICMP消息、IDS/IPS日志、VPN日志、Web日志、防火墙日志、抓包数据、netflow数据、路由器日志等等。从目前大数据分析和研究的重点来看,大数据的主要研究对象集中在社交数据和自然数据,社交大数据来自于人的社会活动产生的各类数据,其载体主要是互联网;而自然数据主要是机器与机器交互之间产生的数据,如网络日志、各类传感器产生的数据、RFID、GPS数据等等。自然数据主要依赖各类传感器来采集,目前传感器技术朝着智能化、移动化和多样化的方向发展[13]。
未来在数据感知和采集领域值得关注的技术方向包括:可穿戴式应用、无人驾驶、医疗和健康监测、工业控制、智能家居、智能交通控制等。
2.2 数据存储和处理
大数据的数据处理和存储是当前最基础和应用最为广泛的大数据技术,最著名的当属Apache Hadoop系列开源平台,主要包括了:HadoopCommon, HDFS,MapReduce,Zookeeper,Avro,Chukwa,HBase, Hive,Pig等子项目[14]:
(1)HadoopCommon
是Hadoop框架基础性的功能,如文件系统、RPC协议和数据串行化库等。属于基础核心组件,提供基础支撑性的功能。
(2)HDFS
是分布式文件系统,Hadoop的基础核心组件。适合于在计算机集群上部署,具有低成本、高可靠、高吞吐量的特点。
(3)MapReduce
提供编程模型和框架,用于对大规模计算机集群上编写对大数据进行快速处理的并行化程序,属于基础核心组件。适合扫描大数据,进行库内分析,从中抽取出部分重要数据。
(4)Zookeeper
分布式应用程序协调服务,用于管理维护Hadoop集群的配置信息、命名信息等,并提供分布式锁同步和群组管理功能,是Hadoop管理组件。
(5)Avro
基于二进制数据传输的高性能中间件,可将数据序列化。适用于远程或者本地的大批量数据交互。
(6)Chukwa
分布式数据收集和分析,用于监控大型分布式系统。基于HDFS和MapReduce构建,提供系列工具监控、分析系统运行数据。
(7)HBase
分布式面向列的开源数据库,适合于非结构化大数据存储的数据库。NoSQL的代表产品。是一个NoSQL数据库。
(8)Pig
大数据分析工具,提供相应的分析语言和运行环境,支持并行化处理。适合数据准备阶段对大量快速到达的数据进行流水式处理(ETL,抽取转换加载等)的能力,并能对大规模数据集进行迭代处理。(提供Pig Latin语言接口)
(9)Hive
基于Hadoop的数据仓库,可以将结构化的数据文件映射入一张数据库表,提供强大的查询功能,可以将SQL语句转换为MapReduce任务运行。适用于数据呈现阶段(数据仓库)将整理完成的数据进行检索、组合和统计后的有序呈现。(提供HiveQL语言访问接口)
(10)Sqoop
实现Hadoop系统与传统数据库系统间的数据交换。可以在传统数据库和HDFS或MapReduce之间进行数据导入导出。适合将遗留系统的关系型数据库数据集成到基于Hadoop的大数据架构下。与Hive结合,可以实现强大的与关系型数据库整合的数据分析工具集。
(11)HCatalog
Hadoop的数据表和存储管理组件,对数据模板和数据类型进行共享和管理。用于实现Hadoop平台内部的数据整合。
(12)Ambari
用于安装、管理和监控Hadoop集群的Web界面工具,可对各Hadoop组件进行管理。可视化监控管理工具。
目前,Hadoop作为成功的大数据框架被一些IT公司成功的商用化,形成了不同的商业版本和解决方案,其中比较著名的商业版本包括CloudEra、Hortonworks、MapR、IBM、华为等公司的相关产品。
Apache Hadoop经过大规模应用后,也暴露出来一些问题,如JobTracker容易造成单点故障、集群最大规模达到几千节点后无法继续扩展、与MapReduce计算模式紧密绑定等问题。因此,Hadoop的开发者针对上述问题提出了YARN作为下一代计算框架。同时,作为大数据技术的鼻祖,Google针对新的大数据分析需求,相继提出了Dremel和Pregel[14],前者主要用于分析只读嵌套型数据的可扩展交互式动态(Ad hoc)查询,可完成秒级处理万亿行级别的大数据聚合查询;后者是针对典型的大数据图计算场景,提出的分布式图计算框架,实现了大规模图数据的算法。
另外,IBM在大数据和云计算技术发展起来后,将一度束之高阁的自主计算(Autonomic Computing)与大数据技术结合,提出了具备自主学习能力的“认知计算”作为新一代的计算框架,并将其定位为继制表计算、编程计算之后的第三代计算模式[15], Watson是其代表产品,也是值得关注的发展方向。
其他类似的值得关注的公司和产品还包括SPARK开源框架,TeraData、Snow、GreenPlum等公司和产品。
2.3 数据分析
数据分析是大数据技术领域最核心、产生直接价值的部分。通过数据分析的结果,可以揭示不为人知的有价值的规律和结果,并可以辅助人们进行更为科学和智能化的决策。在大数据分析方面,除了传统的BI技术,人工智能技术领域的很多技术方法为大数据分析提供了丰富多样的分析方法,包括统计分析、机器学习、数据挖掘、自然语言处理、知识与推理等。该领域主要的技术方向包括以下几类。
2.3.1 数据挖掘
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是统计学、数据库技术和人工智能技术的综合运用,是通过在数据库管理系统上综合运用统计和机器学习的方法从大数据集中提取出模式的一组技术。常见的主要数据挖掘方法包括关联规则学习、聚类分析、分类分析、序列分析、偏差检测、预测分析、模式相似性挖掘和回归分析等。
典型的商用数据挖掘工具有IBM SPSS、SGI MineSet、Oracle Darwin,开源的有Weka等。这些工具主要站在BI的角度,提供从分析到可视化的商业解决方案。
2.3.2 统计分析
统计分析就是基于数学领域的统计学原理,对数据进行收集、组织和解释的科学。统计的方法主要用于对变量间可能出现的关系、变量间的定量关系进行分析处理。典型的方法有A/B测试等[10]。
在该领域,经典的统计分析工具是R语言工具包。R语言是新西兰奥克兰大学的Ross Ihaka和Robert Gentleman教授为了方便统计课程教学,共同发明的基于Scheme和S语言的一种语言。R是开源的统计分析软件,提供了丰富的经典统计分析算法和绘图技术,包括线性和非线性模型、统计检验、时间序列、分类、聚类等算法,实现了很多经典的、现代的统计算法。
而Purdue大学的RHIPE是一个R和Hadoop的集成编程环境,用于在Hadoop大数据处理环境下,应用R语言进行数据挖掘分析,该环境将R语言算法移植和集成到了Hadoop的并行处理环境下,对大数据进行统计分析。
2.3.3 自然语言处理
自然语言处理(NLP,Natural Language Processing)是基于计算机科学和语言学,利用计算机算法对人类自然语言进行分析的技术,属于人工智能领域的一个重要方法。其关键技术涉及词法分析、句法分析、语义分析、语音识别、文本生成等。很多自然语言处理算法都是基于机器学习的方法。该技术领域典型的应用就是基于社交媒体对语言的情感进行分析、法律领域的电子侦查,其他应用还包括欺诈检测、文本分类、信息检索和过滤、文字转换系统、机器翻译等。
该技术领域的国产应用工具有OpenNLP、FudanNLP和哈工大的LTP,前者用于处理自然语言文本,后两个主要针对中文语言处理提供词法、句法、语义、分类等相应的处理[16]。
作为美国政府大数据研究计划的一部分,美国DARPA启动了DEFT项目对自然语言深度处理技术进行研究,对超大规模的语音和文本数据进行情报分析,用于互联网监控、情报分析、犯罪预防和反恐等方面,参与研究的机构包括斯坦福大学、卡耐基梅隆大学和哥伦比亚大学等。
该领域目前的研究热点在语义分析和情感分析等方面。
2.3.4 机器学习
大数据环境下,机器学习的主要应用领域可以总结为三方面:搜索、迭代优化和图计算。机器学习作为人工智能领域的重要内容之一,被分为监督学习和无监督学习两大类。监督学习要求算法的使用者知道要预测什么(即目标变量的分类信息),主要采用分类和回归算法,如果预测的目标值为离散型(如是/否、A/B/C等)则适合用分类算法,如k近邻算法、决策树算法、朴素贝叶斯算法、支持向量机算法、AdaBoost算法等;如果预测的目标值为连续性的数值(如0~100、0.1~150等),则适合回归算法,如Logistic回归、CART算法(分类回归树算法)等[17]。
无监督学习则不预先指定数据分类和目标值,主要算法有聚类和密度估计等算法,如K均值聚类算法、Apriori算法、FP-Growth算法等[18]。
也有资料提出半监督学习和强化学习等概念,在半监督学习模式下,输入数据部分被标识分类,主要用来预测分析,算法模块先要学习数据内在结构以合理组织数据,主要采用分类和回归的算法,是对常用监督式学习算法的扩展,如拉普拉斯支持向量机算法等。强化学习模式则是将输入数据直接反馈到模型,模型作出动态修正调整,常见的应用场景包括动态系统、机器人控制等[19]。
Mahout作为基于Hadoop的数据挖掘和机器学习算法框架,解决了相关算法在大数据并行计算架构下的使用问题,提供了基因算法、序列分析算法、分类分析算法、聚类分析算法等算法库,是一个提供给开发者使用的工具框架。
该领域目前的研究热点在于采用新的机器学习算法实现深度机器学习。深度学习是对人工神经网络的发展,其本质就是通过构建具有很多隐层的机器学习模型和海量的训练数据来学习更有用(相对于采用传统机器学习算法的浅层机器学习而言)的特征,从而提升最终分类或者预测的准确性[20]。在深度学习领域,谷歌、微软、IBM、百度等企业走在最前沿。以Google Brain项目最为出名,该项目搭建了有16000个CPU核的并行计算平台,用于训练深度神经网络(DNN,Deep Neural Network)的机器学习模型,该模型在语音识别和图像识别领域取得了巨大成功。
2.4 数据可视化
数据可视化(Data Visualization)主要研究如何利用人的感知能力以贴近人类自然感知的图形化展现方式,对数据交互进行可视化表达,以增强人的认知,呈现数据中隐含的信息,发掘数据中所包含的规律,它是一门横跨计算机图形学、人机交互、统计学、心理学的综合学科。
文献[21]将数据可视化分为:科学可视化、信息可视化和可视分析学3个分支,3个分支的侧重点各有不同:科学可视化主要面向自然科学,如物理、化学、气象、航空航天等,对其数据和模型进行解释、操作与处理,寻找其中的科学规律和异常等;信息可视化则主要处理非结构化、非几何的抽象数据,如金融交易、社交网络和文本日志数据等,主要关注如何在有限的展现空间中,以直观有效的方式传达大量的抽象信息;可视分析则是以可视交互界面为研究对象的分析推理科学,综合了图形学、数据挖掘分析和人机交互等技术。
传统的商业BI公司,将重点放在可视分析,并在该领域都有相应的技术和产品。在数据可视化领域,比较知名的包括SAP、IBM、SAS、Microsoft等,但在大数据可视化分析领域走在前沿的公司是Tableau Software公司,其代表产品是Tableau Desktop、Tableau Server、Tableau Reader、Tableau Public等,该公司致力于让不懂技术的行业知识专家也能轻易进行可视化和可交互的即时数据分析展示,其主要核心和创新包括两方面:独创的VizQL数据库和对用户体验的完美设计[22]。还有一些开源的可视化产品如R、D3.js、Processing.js等,也有较为广泛的应用。
该领域未来的挑战主要是大数据可视化和以人为中心的探索式可视分析[21]。
2.5 数据安全和隐私保护
在大数据时代,对隐私信息采用传统的告知与许可、模糊化和匿名化等手段均失去效果[2],传统的加密技术、身份认证和访问控制等手段也在大数据面前捉襟见肘,传统的信息安全和隐私保护法律框架也出现了空隙甚至空白。
文献[24]通过对美国各类攻击的数据分析,指出了信息系统安全面临的五大威胁:包括数据泄露、网络钓鱼和鱼叉式网络钓鱼、未授权的文件共享、内部威胁(内部人员的意外或故意破坏)和APT攻击(如Stuxnet,Duqu,Flame等),建议并提出将大数据技术与赛博安全相结合,采用大数据安全分析(big security analytics)的思路解决大数据时代的安全问题。文献[23]指出大数据技术应用面临的三方面的挑战:用户隐私保护、大数据的可信性和数据的访问控制,并分析了针对大数据安全防护的主要关键技术:数据发布匿名保护技术、社交网络匿名保护技术、数据水印技术、数据溯源技术、角色挖掘、风险自适应的访问控制等,提出将大数据技术自身作为大数据安全防护实现手段,应用到信息安全,提升大数据环境下的信息安全防护水平。
作为大数据技术的代表平台,Hadoop在设计之初对安全的考虑不足,因此其安全机制较弱,天然缺乏用户和服务器的安全认证机制、授权机制和传输与存储加密机制。虽然Hadoop1.0.0版本实现了基于ACL的访问控制机制和基于Kerberos的安全认证机制[14,20],但这些机制受限于ACL和Kerberos自身的能力限制(如易出现单点故障、协议开销大、不适用于跨域或多级认证等),并未完全解决Hadoop的安全问题。
目前技术界对Hadoop架构下数据加密、访问控制、区别隐私保护和审计等方面的研究很多,文献[25]基于MapReduce计算框架,从隐私规范接口、数据匿名、数据更新和匿名数据集管理等方面提出了一种大数据隐私保护框架,其作用就是在MapReduce访问和处理数据之前对数据隐私进行过滤保护。
而IBM的科学家成功实现了同态加密技术,可以用于解决云环境下大数据的加密保护问题。该技术理论上允许对加密后的数据进行计算,而不影响计算结果[26]。但由于该技术当前发展还不成熟,因效率低而且非常昂贵,还没有实用化。
在大数据安全和隐私保护领域,数据去识别化(也叫数据匿名)和再识别化、数据弹性访问控制和数据加密的问题并未得到彻底解决,因此这方面是值得重点关注的发展领域。
3.1 技术方面的挑战
大数据在技术方面的挑战主要有以下:
1)高速网络:对大数据的传输和处理需要超高速网络的支撑,对目前的网络架构和技术带来挑战。
2)集群计算编程:分布式并行计算技术需要跟上大数据处理技术的发展,目前主流的MapReduce计算模式并不能解决大数据处理的一切问题,有其局限性。
3)云计算的扩展:云计算需要与大数据进行完美的融合。
4)机器学习及其他数据分析方法:机器学习等分析算法需要朝深度学习发展,更加智能化,提出更多新型、有效的智能算法。
5)广域部署(移动计算环境下的应用):大数据技术需要能够在移动计算环境下方便、高效的部署使用。
6)隐私和安全保护:大数据隐私和安全保护技术需要跟上大数据技术应用的发展。
其中,大数据安全和隐私保护是当前大数据技术面临的最大挑战[27],这些隐私和安全问题需要从多个角度去综合解决,包括技术的手段和政策法律方面的手段。
3.2 政策和法规方面的挑战
大数据技术在所依托的政策和法规方面的挑战主要来自以下方面:
1)政策法律:要尽快建立完善的信息安全法律法规体系,从国家层面,对军队、政府、行业和个人的数据进行安全和隐私保护,维护国家、机构和个人的权益。
2)数据交易与共享机制:在国家相关法律法规的框架下,建立通畅和合法的数据交易与共享渠道与机制,避免暗箱交易和非法交易,同时也要避免数据过度保护。
3)数据隐私和安全:技术和法律两方面的手段相结合,解决数据隐私和安全问题,调和法律保护与数据挖掘分析相对立的问题,促进大数据技术的应用。
4)国家和行业标准的建立:由相关标准化管理机构牵头组织,进行大数据技术的行业标准、通用标准的制定和推广。
从技术发展的角度来看,数据的庞大、多样性、高速和复杂性和由此而产生的数据管理和计算存储的扩展性问题并不是IT界遇到的新问题,从数据分析的目标和需求而言,它仅仅是又一次新的、更大的、突破了当时技术条件下数据处理极限的数据集。因此,大数据带来的挑战是突破现有的数据存储、处理、分析、呈现技术手段局限,这对IT界来说并不是个新命题。
大数据改变的是数据分析的策略和方法,需要将新的工具、方法、技术和传统的分析工具和技术结合起来,大数据的定义仅仅是相对于当前可用的技术和资源而言。将大数据与传统数据相结合进行分析,产生新的洞察和价值,大数据和传统数据都是先进可供分析的数据整体战略的组成部分[28]。
在数据采集和分析时,需要考虑成本与收益的问题。虽然有些大数据分析专家强调大数据的要点就是要对数据全体进行分析,而不是采样分析[2],但是,对全体大数据进行分析虽然在技术上是可行的,但会带来很多额外的成本(存储与分析数据所需的资源)与工作(大量不必要的分析工作),除非是在某些特殊场景必须对全体进行分析的情况下,在没有太多实际效益和分析需求比较明确的情况下,抽样分析是一个好的策略[28]。
目前,大数据技术已成为推动社会经济发展的新一轮信息技术革命的发动机,在世界范围的信息化建设洪流和网络空间成为国家第五疆土的背景下,将对国家和各行各业带来巨大的变革,以美国为首的多个信息技术强国都已制定和实施了国家大数据发展战略。
在大数据技术浪潮的关键发展阶段,我国也应尽早启动该技术领域的战略性研究,在大数据处理平台、非结构化数据分析处理、人工智能与深度机器学习、数据安全与隐私保护等方面进行重点研究突破,以大数据技术为契机,建立自己的数据科学体系、政策框架、法律框架、技术框架和人才队伍,形成行业模型、技术标准、工具平台和创新性的解决方案等成果,提出相关标准和专利,形成该领域的产业优势和技术优势,推动国家在该领域的技术水平走到世界前沿。
[1] Thomas H.Davenport,Paul Barth,Randy Bean.How′Big Data′is Different[J].MIT Sloan Management Review, 2012,54(01):22-24.
[2] Victor Mayer-Schonberger,Kenneth Cukier.大数据时代[M].杭州:浙江人民出版社,2013:193-232.
Victor Mayer-Schonberger,Kenneth Cukier.Big Data:A Revolution That Will Transform How We Live,Work and Think[M].HangZhou:ZheJiang People Publishing House,2013:193-232.
[3] Philip Russom.Big Data Analytics.TDWI Best Practices Report[R].USA:TDWI,2011.
[4] Paul Zikopoulos,Chris Eaton,Dirk de Roos etc.Understanding Big Data:Analytics for Enterprise Class Hadoop and Streaming Data[R].USA:Mc.Graw-Hill,2012.
[5] Hsinchun Chen,Roger H.L.Chiang,Veda C.Storey.Business Intelligence and Analytics:From Big Data To Big Impact[J].MIS Quarterly,2012,36(04):1165-1188.
[6] 车品觉.大数据的三个维度和十诫[EB/OL].(2014-03-07)[2014-05-10].http://tech.sina.com.cn.
CHE Pin-jue.The Three Dimensions and Tencommandments of Big Data[EB/OL].(2014-03-07)[2014-05-10].http://tech.sina.com.cn.
[7] 孙定.数据学概要[EB/OL].(2014-03-31)[2014-05-16].http://www.dooland.com/magazine/online. php?pid=MTAyNDA0.
SUN Ding.Data Science Overview[EB/OL].(2014-03 -31)[2014-05-16].http://www.dooland.com/magazine/online.php?pid=MTAyNDA0.
[8] 李纪舟,叶小新,丁云峰.美军大数据技术发展现状及对其信息作战的影响[J].外军信息战,2013(06):34-38.
LI Ji-zhou,Ye Xiao-xin,Ding Yun-feng.The Development Status of Big Data Technology in US Army and it's Influence on US Army's Information Warfare[J],2013 (6):34-38.
[9] 陈明奇,姜禾,张娟,等.大数据时代的美国信息网络安全新战略分析[C]//第27次全国计算机安全学术交流会论文集.中国:中科院信息办,2012:32-35.
CHEN Ming-qi,JIANG He,ZHANG Juan.Analysis of the U.S.Information Network Security Strategy in the Era of Big Data[C]//The 27thNational Computer Security Academics Meeting Dissertations.China:The Chinese Academy of Sciences Information Office,2012(08):32-35.
[10] James Manyika,Michael Chui,Brad Brown,etc.Big data: The next frontier for innovation,competition,and productivity[R].USA:McKinsey Global Institute,2011.
[11] 李明.大数据时代的创新者们[EB/OL].(2011-11-02)[2014-06-04].http://www.infoq.com/cn/articles/innovation-in-big-data/
LI Ming.The Innovators of Big Data Ages[EB/OL]. (2011-11-02)[2014-06-04].http://www.infoq. com/cn/articles/innovation-in-big-data/.
[12] 李德毅.再大的数据也能绕过那道弯[EB/OL]. (2014-05-22)[2014-06-10].http://mp.weixin. qq.com/s?_biz=MjM5MTQzNzU2NA==&mid= 200255809&idx=1&sn=4fac4b42f28293ce06d700c 51b92eb87#rd
LI De-yi.Even Bigger Data Can Cross That Crooked Road[EB/OL].(2014-05-22)[2014-06-10].http://mp.weixin.qq.com/s?_biz=MjM5MTQz NzU2NA==&mid=200255809&idx=1&sn=4fac4b42f28293ce06d700c51b92eb87#rd
[13] 大数据文摘.全球传感器未来发展趋势及4大重要领域[EB/OL].(2014-05-08)[2014-06-15].http://mp.weixin.qq.com/s?_biz=MjM5MTQzNzU2 NA==&mid=200217395&idx=3&sn=aba84449a616c854cd579bedbffab8ea#rd
Big Data Digest.The Future Development Trends of Global Sensor Technology and 4 Big Fields[EB/OL]. (2014-05-08)[2014-06-15].http://mp.weixin. qq.com/s?_biz=MjM5MTQzNzU2NA==&mid= 200217395&idx=3&sn=aba84449a616c854cd 579bedbffab8ea#rd
[14] 刘军.Hadoop大数据处理[M].北京:人民邮电出版社,2013:45-60. LIU Jun.Hadoop Big Data Processing[M].Bei Jing: Posts&Telecom Press,2013:45-60.
[15] 王博.IBM亮剑新互联时代[EB/OL].(2014-04-14) [2014-05-20].http://www.dooland.com/magazine/ online.php?pid=MTAzMDExWANG Bo.IBM Show Swords in New Internet Era[EB/OL].(2014-04-14) [2014-05-20].http://www.dooland.com/magazine/ online.php?pid=MTAzMDEx.
[16] 百度.自然语言处理[EB/OL].(2014-05-23)[2014-06-01].http://baike.baidu.com/view/18784.htm? fr=aladdinBaiDu.Natural Language Processing[EB/ OL].(2014-05-23)[2014-06-01].http://baike. baidu.com/view/18784.htm?fr=aladdin
[17] Vinayak Borkar,Yingyi Bu,Michael J.Carey,etc.Declarative Systems for Large-Scale Machine Learning [EB/OL].(2012-04-25)[2014-05-20].http:// sites.computer.org/debull/A12june/declare.pdf.
[18] Peter Harrington.机器学习实战[M].北京:人民邮电出版社,2013:184-239.
Peter Harrington.Machine Learning in Action[M].Bei Jing:Posts&Telecom Press,2013:184-239.
[19] 王萌.机器学习算法汇总:人工神经网络、深度学习及其它[EB/OL].(2014-06-27)[2014-06-29].http://www.csdn.net/article/2014-06-27/2820429.
WANG Meng.Summarization of Machine Learning Algorithm:Artificial Neural Network、Deep Learning and Others[EB/OL].(2014-06-27)[2014-06-29].http://www.csdn.net/article/2014-06-27/2820429.
[20] 余凯,贾磊,陈雨强,等.深度学习的昨天,今天和明天[EB/OL].(2014-06-07)[2014-06-18].http:// mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA== &mid=200298603&idx=1&sn=28fcc75701e81522dd 88a23c4b00d2d1#rd.
YU Kai,JIA Lei,Chen Yu-qiang.The Yesterday,Today and Tomorrow of Deep Learning[EB/OL].(2014-06-07)[2014-06-18].http://mp.weixin.qq.com/ s?__biz=MjM5MTQzNzU2NA==&mid= 200298603&idx=1&sn=28fcc75701e81522dd88a 23c4b00d2d1#rd.
[21] 陈为,沈则潜,陶煜波,等.大数据丛书:数据可视化[M].北京:电子工业出版社,2013:29-37.
CHEN Wei,SHEN Ze-qian,TAO Yu-bo.Big Data Series:Data Visualization[M].Bei Jing:Publishing House of Electronics Industry,2013:29-37.
[22] Rachel Wan.数据可视化明星Tableau Software[EB/ OL].(2013-07-01)[2014-05-28].http://kuailiyu.cyzone.cn/article/3901.html.
Rachel Wan.Data Visualization Star:Tableau Software [EB/OL].2013(2013-07-01)[2014-05-28].http://www.kuailiyu.com/article/3901.html.
[23] 冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(01):246-257.
FENG Deng-guo,ZHANG Min,LI Hao.Big Data Security and Privacy Protection[J].Chinese Journal of Computers,2014,37(01):246-257.
[24] TeraData.The Threat Beneath The Surface:Big Data Analytics,Big security and Real-Time Cyber Threat Response For Federal Agencies[R].USA:TeraData, 2012:1-35.
[25] ZHANG Xu-yun,LIU Chang,Surya Nepal etc.Privacy Preservation over Big Data in Cloud Systems[J].Security,Privacy and Trust in Cloud Systems,2014(03): 239-257.
[26] Craig Gentry.Fully Homomorphic Encryption Using Ideal Lattices[C]//Proceedings of the 41st annual ACM symposium on theory of computing(STOC′09).USA: Stanford University and IBM Watson,2009:169-178.
[27] 李翠平,王敏峰.大数据的挑战和机遇[J].科研信息化技术与应用,2013(01):12-18.
LI Cui-ping,WANG Min-feng.Excerpts from the Translation of Challenges and Opportunities with Big Data[J].e-Science Technology&Application,2013 (01):12-18.
[28] Bill Franks.驾驭大数据[M].北京:人民邮电出版社, 2013:18-66.
Bill Franks.Taming The Big Data Tidal Wave[M].Bei Jing:Posts&Telecom Press,2013:18-66.
Overview on Big Data Technology
ZHANG Feng-jun
(No.30 Institute of CETC,Chengdu Sichuan 610041,China)
Big data,as a current popular technical field,attracts extensive attention and research.This paper discusses the concept,characteristics and development status quo of big data both at home and abroad, analyses the common fundamental technique and frontier technique of big data,including data collection and perception,data storage and processing,data analysis,data visualization,data security and privacy protection etc.,points out the newest research directions of these techniques,summarizes the confronted technical and policy challenges,and finally analyzes the technical essence,all this could provide a significant guidance for big data research and engineering application.
big data;artificial intelligence;data mining;machine learning;Hadoop;privacy protection
TP311
A
1002-0802(2014)11-1240-09
10.3969/j.issn.1002-0802.2014.11.002
2014-06-26;
2014-09-26 Received date:2014-06-26;Revised date:2014-09-26
张锋军(1975—),男,学士,高级工程师,主要研究方向为网络管理,软件工程。
ZHANG Feng-jun(1975-),male,B. Sci.,senior engineer,majoring in network management and software engineering.