徐晓昭++王昊++李献军++苏健++张少芳
摘 要:物联网、云计算、移动互联网等信息技术促使数据类型和规模以前所未有的速度增长,大数据时代已经到来。如何更好地管理和利用大数据成为关注热点。介绍了大数据的基本概念及特点,对大数据处理的关键技术进行了分析研究,讨论了大数据技术在邮政企业中的应用前景。
关键词:大数据;GFS;数据库;Hadoop;邮政企业
DOIDOI:10.11907/rjdk.151922
中图分类号:TP301
文献标识码:A 文章编号文章编号:16727800(2015)012001703
0 引言
随着物联网、云计算、移动互联网等信息技术及应用的快速发展,产生的数据不仅结构趋于复杂,而且数据量也以指数级增长,人类正在由IT(Information Technology)时代进入DT(Data Technology)时代,大数据( Big Data)概念应运而生[12]。大数据被誉为继云计算、物联网之后IT产业又一次颠覆性的技术变革,成为学术界和产业界密切关注的焦点。2008年《Nature》推出了Big Data 专刊,首次提出了大数据概念,对如何研究PB级容量的大数据流,充分利用海量数据的最新策略进行了探讨。2010年,维克托在《经济学人》发表了长达14页的大数据专题文章,成为最早洞见大数据时代发展趋势的数据科学家之一。《Science》在2011年2月推出专刊“Dealing with Data”,探讨了科学研究中大数据的重要性。2011年5月,EMC公司举办了主题为“云计算相遇大数据”大会,正式提出了大数据概念。随后,IBM和麦肯锡等众多国外机构发布了大数据相关研究报告,对大数据的影响、关键技术和应用领域进行了详细论述,在全球掀起了大数据研究热潮。2012年1月,在瑞士达沃斯世界经济论坛上,大数据成为专题讨论的主题之一,宣称数据已经成为一种新的经济资产。2012年3月,美国联邦政府发布《大数据研究和发展倡议》,正式启动“大数据发展计划”,旨在整合大数据科技发展战略和投入。2012年7月22日,北京大学举办“首届中国大数据应用论坛”,主要议题包括大数据的发展趋势、大数据应用、云计算与大数据等。2013年初,中科院倡议将大数据提升为国家战略。2014年11月,由中国东方航空、工信部电信研究院等45家企业共同成立中国企业大数据联盟。2015年5月,国际大数据产业博览会暨全球大数据时代贵阳峰会成功举办,以大数据为主题的峰会在全球尚属首次。综上所述,大数据“将是下一社会发展阶段的石油和金矿”,在全球范围内达成了前所未有的共识。
1 大数据基本概念及特点
1.1 大数据基本概念
严格来说,“大数据”并非一个确切的概念,如果从字面上理解,它表示需要处理数据规模的庞大,但与“海量数据”有着本质的区别。大数据包含的内容更多、范围更广、维度更深。大数据作为信息社会发展的新生事物,学术界、IT行业对大数据的理解各有侧重,尚未形成一套完整的理论体系,因此很难进行精准定义。尽管目前对大数据还没有统一的定义,但对其实质的认识基本趋于统一。国际数据公司(International Data Corporation,IDC)认为,大数据是指为了更经济更有效地从高频率、大容量、不同结构和类型的数据中获取价值而设计的新一代架构和技术,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新[3]。
1.2 大数据特点
从技术层面,大数据特点有4个维度,可以用4V(Volume、Variety、Value 、Velocity)来描述[4]:
(1)数据容量巨大(Volume):从TB级别,跃升到PB级别、EB级别、ZB级别甚至更高。根据IDC的研究报告,随着全球信息化进程加快,预计到2020年,全球将拥有40ZB的数据量。
(2)数据类型众多(Variety):相对于过去以文本为数据形式的结构化(Structured)数据,大数据时代的数据类型涵盖了电子邮件、网络日志等半结构化(Semi-structured)数据以及图像、音频、视频、光谱、位置信息等非结构化(Unstructured)数据。这些数据来源形式多样,包括数字图像和视频、交易记录、各种传感器、GPS、RFID、社交网络上的数据信息等。
(3) 数据价值密度低(Value):随着“云物移大智”(云计算、物联网、移动互联网、大数据、智慧城市)的广泛应用,虽然产生了海量数据,但数据价值密度却较低。例如,一个连续几个小时的监控视频,能够提供有效信息的视频“帧”可能只有几秒。
(4)数据增长速度快(Velocity):数据增长的速度在加快,很多领域的数据量都以爆炸式的速度增长。面对如此巨大的数据量,越来越多的数据存储、访问、处理、分析等需要提供实时或准实时反应,这是大数据处理技术与传统数据挖掘技术最大的区别。
2 大数据处理关键技术
2.1 文件系统
为满足Google快速增长的数据处理要求,Google设计并实现了GFS(Google File System)文件系统[3]。GFS是一个可扩展的高性能分布式文件系统,基于中心服务器模式和容错机制的设计思想,提供高性能的服务。由于GFS运行在廉价的硬件设备上,因此GFS的最大特点就是实现了服务器的“贫民化”。
GFS解决了传统文件系统的一些缺点——占用存储空间、数据不一致等问题。GFS利用PC集群作为服务器,因此可以购买很多机器来解决存储空间问题。至于数据不一致性,Google可以通过“时间戳”给用户提供最新信息。
除了Google,其它企业和研究机构从不同方面对满足大数据存储需求的文件系统也展开了深入的研究。例如,微软开发的Cosmos、Facebook推出的Haystack、Apache 的HDFS、淘宝提出的TFS等。
2.2 数据库系统
关系型数据库(如SQL server、Oracle)主要存储结构化数据,提供便捷的数据查询分析能力。大数据时代,各种非结构化数据逐渐成为需要存储和处理的重要组成部分,关系型数据库已不能满足大数据快速访问、大规模数据分析的需求[5]。以NoSQL( Not Only SQL )为代表的非关系型数据库致力于改变这一现状。NoSQL,意为“不仅仅是SQL”,其特点是既不需要固定的表结构,也不存在连接操作,具有关系型数据库无法比拟的优势[6]。
有的观点认为“关系型数据库已失去存在价值”,但事实上关系型数据库和NoSQL并不矛盾,而是相互补充、适用于不同应用领域。近年来,以NewSQL为代表的新型数据库的出现,给大数据存储带来了新思路。NewSQL既可提供SQL独有的特性,还具备NoSQL的扩展性,将成为未来大数据存储新的发展方向。
2.3 大数据处理工具
Hadoop是目前最为流行的大数据处理平台。Hadoop最初是Doug Cutting根据Google发布的学术论文而实现的一个云计算开源平台,后来加入Apache Hadoop项目。Hadoop已经发展成为包括分布式文件系统(HDFS)、数据处理框架(MapReduce)、数据库(HBase)、数据仓库(Hive)等功能模块的系统架构。另外,通过Sqoop工具,可以在结构化数据存储与Hadoop之间进行数据交换。Hadoop主要有以下几个优点[7]:
(1)高可靠性。Hadoop具备按位存储和处理数据的能力。
(2)高扩展性。Hadoop通过Master/Slave架构分配数据并完成计算任务,这些集群可以方便地扩展到数以万计的节点(NameNode+Sencondary NameNode+DataNode)中。同时,能够在节点之间动态地分发数据,保证各个节点的动态平衡。
(3)高容错性。Hadoop能够自动保存数据的多个副本(默认是3个),如果某个节点出现故障,通过心跳检测和数据复制自动将失败的计算任务重新部署。
由于Hadoop 具有上述优势,使得其在学术界和工业界大受欢迎。学术界如加州大学伯克利分校对Hadoop 进行了研究,以提高其整体性能;在国内,中国科学院计算技术研究所在Hadoop 上开展了数据挖掘和地理信息处理等研究。在工业界,Hadoop 已经成为很多互联网公司基础计算平台的核心部分,如雅虎、腾讯等;传统行业,如电信、金融、能源等,也在使用这个系统进行数据存储与处理。
3 大数据技术在邮政企业中的应用
近年来,中国邮政集团公司江苏省分公司一直致力于大数据的研究工作。随着邮政业务的快速发展,江苏邮政数据量以几何倍数增长,同时数据挖掘、分析需求越来越多,时限要求也越来越高,但数据存储和分析速度一直无法突破,新技术的应用研究成为突破瓶颈的根本出路。
江苏邮政数据分析团队结合全省邮政数据分析工作实际情况,引入了开源的Hadoop大数据平台,如图1所示[89]。其中:Hbase,面向列的高维数据库;Hive,交互式数据仓库;HDFS,分布式文件系统;MapReduce,并行计算框架(映射/化简);Sqoop,数据传输工具;ETL,数据的抽取、转换与加载;BI,商业智能。
图1 Hadoop大数据平台
通过该平台中的Sqoop(SQL-to-Hadoop)组件,将数据下载平台中用户常用的增量表从关系型数据库中抽取(ETL)到Hadoop的HDFS中,以供查询调用。通过在MapReduce中编写程序或在Hive上编写QL语言来分析抽取出的数据,在此基础上使用高级数据分析技术和数据可视化技术,对处理后的数据进行深层次加工。也可以将数据从Hadoop集群转移到现有的关系型数据库、数据仓库等传统的IT系统中,以适应现有建立在传统数据库基础上的应用,缩短任务处理时间。
依托Hadoop大数据处理技术,江苏邮政加快数据在企业的战略布局,提升大数据时代的应对策略,为利率市场化、互联网金融等提供驱动力。
4 结语
随着云计算、物联网的发展,数据呈爆炸式增长,世界正迈向崭新的大数据时代。中国邮政作为涉及金融、物流、保险、证券、电子商务等多个领域的大型企业,大数据的高效应用必将成为未来“一体两翼”战略发展的重要动力。
参考文献参考文献:
[1] 王珊,王会举,覃雄派,等. 架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):17411750.
[2] 覃雄派,王会举,杜小勇,等.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):3245.
[3] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146169.
[4] 涂新莉,刘波,林伟伟.大数据研究综述[J].计算机应用研究,2014,31(6):16121616.
[5] 宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927935.
[6] 陆嘉恒.大数据挑战与NoSQL数据库技术[M].北京:电子工业出版社,2013:214.
[7] 蔡斌,陈湘萍.Hadoop技术内幕:深入解析Hadoop Common 和HDFS架构设计与实现原理[M].北京:机械工业出版社,2013:37.
[8] 张懿瑶.江苏邮政为大数据时代提供驱动力[N].中国邮政报,20141029.
[9] 陆一鸣.浅析大数据在邮政企业的应用[J].邮政研究,2014,30(5):910.
(责任编辑:杜能钢)