大数据研究综述

2015-12-10 11:26林海文
电脑知识与技术 2015年26期
关键词:数据分析云计算大数据

林海文

摘要:该文首先介绍了大数据产生的背景和概念,其次论述了大数据在国内外的发展概况,大数据的一般处理流程,最后阐述了大数据面临的挑战问题,并得出大数据将成为一种新的自然资源[1]以及技术将不断发展的结论。

关键词:大数据;数据分析;云计算;hadoop

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)26-0001-02

Research overview of big data

LIN Hai-wen

(South China Institute of Software Engineering,Guanzhou Universtiy, Guangzhou 510990, China)

Abstract: The article firstly introduces the background and the concept of the “Big Data”;secondly discuss the development of the technology both here and abroad; lastly discuss the chanllenges of the research of the “Big Data” and make a conclusion that the “Big Data” would become a new resource and the technology would endlessly develop.

Key words: big data; data analysis; cloud computing; hadoop

1 大数据的由来

全球数据量每两年大约增加一倍,根据国际数据资讯(IDC)公司监测,估计到2020年,全球将拥有35ZB的数据量,这些数据85%以上以非结构化或半结构化的形式存在。IT界用“Big Data(大数据)”来形容这个问题。早在上个世纪80年代就有美国人提出来“大数据”这个名词[2]。2008年9月,文章“Big Data: Science in the Petabyte Era”在《科学》杂志发表,“大数据”这个词开始广泛传播。

大数据[3,4] 中的数据其数量级以PB(1 024 terabytes)或EB(1EB=100万TB)或更高计算,它们包括结构化的、半结构化的和非结构化类型,其规模和复杂程度超出了以往。在数据管理中,一方面数据量和业务量双向增长,更重要的另一方面是现代企业向全社会互联互通的交互式云计算[5]业务模式的逐渐演进。传统的数据管理方式在容量、效率、扩展性上存在瓶颈,为了克服以上瓶颈,现代的数据管理需要达到以下目标:海量容纳能力,多类型,多结构,高负载,高可用,高可靠,低成本。为了实现上述目标,诞生了一系列大数据管理技术,其中有代表性的是Yahoo的Hadoop[6]体系,它是对google的MapReduce[7]和BigTable两项云计算技术开源化后形成的。这些大数据技术成本低,水平扩展性强,能够处理海量数据的计算和查询。

2 大数据的概念

“大数据”的 “大”不仅体现在数量庞大,更重要的是数据发生质的变化,即数据具有网络化和交互性特性。

到目前为止,大数据没有统一的定义,比较流行的4v定义[8]:即有以下四个特征的数据称为大数据,这是个v特征分别是Volume,Velocity,Variery,Value。其中,Volume表容量大,Velocity表变化速度快,Variery表种类和结构类型多,Value表价值密度低。这样的定义从数据形态出发,大数据的来源主要有社交媒体上的用户评论互联网上客户交互的行为数据,传感器等机器数据等。

另一种定义从数据处理技术出发,定义所有的数据为大数据,认为所有的数据都应该被以Hadoop为代表的技术体系管理和处理。

以上两种定义都有所片面,大数据现代信息社会的特征是全社会范围内数据的互联互通,数字化程度更广泛更深入。对企业来讲,大数据不单是技术层面,也不单是数据心态特征层面,而主要是实现“数据驱动业务”的相关战略和战术,是一种运营模式的转变,即由数据支持业务转向数据驱动业务。在这种定义下,大数据的特征主要是大,广,联。

3 国内外技术发展

大数据的处理和分析的技术很多,其中比较典型的有分布式计算框架MapReduce以及在MapReduce基础上实现的Hadoop技术。

Google公司在2003-2004年间发表了三篇论文,它们是GFS[9], BigTable[10],MapReduce,其中的MapReduce开源实现,成为了针对海量数据处理的一种通用的分布式计算的编程框架。该编程框架以Shared Nothing的分布存储方案来解决数据的存储问题,数据被分割存储到计算机网络中的集群节点上,对外有统一的接口,简单易用。其分布式计算由Map步骤实现,将计算单元(Map步骤)放到数据存储节点上执行。而结果汇总有Reduce步骤实现,将需要汇总的结果按键值Key分成若干“分区”,每个Reduce节点分别对一个分区进行汇总,从而Map和Reduce步骤都达到了分布并行。采用MapReduce分布式编程框架,程序员只需调用统一接口就能将数据分割后分布存储到集群节点,然后分别编写Map和Reduce算法,从而完成了大数据的采集,清理,分析等步骤,最终获得有价值的数据。数据采用MapReduce需要有以下特点:a)数据量大,才能有效率;b)批处理。

2006年MapReduce,BigTable,GFS被开源实现,从而产生Hadoop体系。Hadoop体系是对多年前三篇google论文MapReduce,BigTable,GFS的开源的分布式编程框架,三篇论文分别对应Hadoop分布式编程框架的Hadoop MapReduce,HBase与HDFS[11]三个部件。Hadoop的其他组件包括Sqoop,Zookeeper,Chuwa,但是这些组件不是必不可少。Hadoop的核心组件是MapReduce,它引领了大数据技术潮流。

MapReduce和Hadoop无法满足实时计算的要求,目前实时计算主要基于两种模式:一是基于关系型数据库,采用水平扩展(横向增加设备节点)的策略来满足数据量不断增长的需求,基于分布式和并行技术采用的方案架构有Shared Disk和Shared Nothing;二是基于NoSQL数据库,典型的NoSQL有Facebook Cassandra,MongoDB,CouchDB,Neo4j等。

在国内,2012年计算机协会成立了大数据专家委员会,《中国大数据技术与产业发展白皮书》在2013年发布,第一届CCF大数据学术会议成功举办。2012年立项6项,到了2013年立项53项,充分体现大数据在科研领域受到的重视程度。

4 大数据处理流程

大数据的处理流程基本可划分为数据采集、数据存储、数据组织、数据分析和数据业务应用5个阶段。

4.1 数据采集

通过传感器收取、射频识别(RFID)[12]、网站电子渠道、手机电子渠道、baidu和google搜索引擎等进行数据的采集。

4.2 数据的存储

采用什么方法存储主要根据业务特征。如果数据不多,可采用传统的存储方式,如果打算存储所有大数据,Hadoop HDFS组件是不错的选择。

4.3 数据组织

采集完进行存储的数据需要进行适当的计算,加工和处理,抽取出统一的格式,从而实现数据的组织。可考虑用Hadoop架构中的HBase组件。

4.4 数据分析

对有组织好的数据进行分析处理,如数据挖掘、机器学习、数据统计等。也可考虑Hadoop MapReduce组件。

4.5 数据业务应用

数据处理分析的结果通过合适的方式展现给用户,常用的方式有可视化和人机交互方式。

5 面临的挑战

大数据研究有以下几个挑战;1)处理成倍增长数据量存储能力;2) 大数据的数据挖掘能力3)大数据的实时处理能力;4)大数据的隐私保护等。

6 结论

大数据将成为一种新的自然资源。随着大数据技术不断发展,未来,实时高效、面向海量数据对象或海量计算任务的分布式并行处理技术成为一种趋势,而Hadoop架构只是大数据处理技术Hadoop生态系统中的一员。未来,大数据的处理技术不同于目前流行的Hadoop/NoSQL等开源技术,也不同于传统关系数据库,而是介于两者之间的技术模式。

参考文献:

[1] 于艳华, 宋美娜. 大数据[J]. 中兴通讯技术, 2013(1).

[2] 徐子沛. 大数据[M]. 桂林: 广西师范大学出版社, 2012.

[3] Big data. 2011. http://en.wikipedia.org/wiki/Big_data

[4] Zhou XF, Lu JH, Li CP, Du XY. The challenges of big data from the perspective of data management. Communications of the China Computer Federation, 2012,8(9).

[5] 李乔, 郑啸. 云计算研究现状综述[J]. 计算机科学, 2011,38(4).

[6] 杨宸铸. 基于HADOOP的数据挖掘研究[D]. 重庆: 重庆大学, 2010.

[7] 马帅, 李建欣, 胡春明. 大数据科学与工程的挑战与思考[J]. 中国计算机学会通讯, 2012(9).

[8] Barwick H. IIIS: The ‘four Vs of Big Data. 2011. http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/

[9] GHEMAWAT S, GOBIOFF H, LEUNG S T. The google file system[J]. ACM SIGOPS Operating Systems Review, 2003,37(5).

[10] CHANG F, DEAN J, GHEMAWAT S, et al. BigTable: A distributed storage system for structured data[J]. ACM Transactions on Computer Systems, 2008, 26(2).

[11] The Apache Software Foundation.HDFS Architecture[EB/OL]. [2013-7-24]. http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfsDesign.html.

[12] LM Ni, YLIU, YC Lau, et al. LANDMARC: Indoor location sensing using active RFID[J]. Wireless Networks, 2004, 10(6).

猜你喜欢
数据分析云计算大数据
新常态下集团公司内部审计工作研究
基于云计算的移动学习平台的设计
浅析大数据时代对企业营销模式的影响
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
基于大数据背景下的智慧城市建设研究