基于Hadoop的军交运输大数据联机处理模型和算法思考

2016-12-15 08:57赵蓉徐柳陈小凡
中国储运 2016年12期
关键词:海量维度算法

文/赵蓉 徐柳 陈小凡

基于Hadoop的军交运输大数据联机处理模型和算法思考

文/赵蓉 徐柳 陈小凡

本文分析了在物联网关键技术发展的前提下,军交运输大数据的特点以及处理分析面临的挑战。期望建立HaMOlap一个基于Hadoop的大数据联机处理(OLAP)模型和算法。此模型能够实时、快速地提取、过滤和分析处理军交运输海量数据信息,从而进行有效地预测,提供决策支持。

军交运输大数据;Hadoop;OLAP

1.概述

随着信息技术以及互联网关键技术的发展,以及这些技术在传感器和科学领域的数据分析等广泛应用,互联网上的数据量呈爆炸性增长,每年大约翻倍增长。而目前世界上90%以上的数据都是最近几年才产生的。此外,数据又并非单纯指人们在互联网上发布的信息。随着“物联网”的发展,全世界的工业设备、交通工具、电表等等各种设备上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,也产生了海量的数据信息。这些海量的数据信息利用新的处理模式而具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资源才能称之为“大数据”。在某种角度上可以说,是由于“物联网”和“云计算”的快速崛起,促使了大数据的产生。而在这些生物信息学、地球物理学、天文学和气象学科等领域大数据存储以及工业中的网络数据分析、点击流量分析和市场数据分析等都存在巨大的挑战。

毫无疑问,整个人类社会已经逐渐步入一个“大数据”时代。这些年来,军事交通运输的改革在方式转变以及结构调整上取得明显的进展,但也只是初步的、阶段性的成果。但是,粗放型的发展方式依然未得到根本解决,各种因素的制约越来越突出。因此从根本上来讲,要依托科技创新特别是信息化智能化来加快转变发展方式,从而推动军事交通运输的结构调整转型升级。在转型中的军事交通面临着调整、提升发展结构的难题,交通智能化的实现,大数据将起到巨大的作用。因为无论是军事交通运行状态还是军事交通运输对象和运载工具,每时每刻都在产生着大量的数据,以大数据的思路和角度来看,这些都是正待挖掘的宝藏,能为军事交通决策带来新的解题思路。

军交运输数据获取的来源呈异构的、多样性的,而近几年数据的增长率也逐渐增高。军交运输的数据有明显的颗粒性,其数据通常带有时间、位置、状态属性、环境和行为等信息。比如运输的物资属性信息,对运输工具的全面监控所获取的信息以及来自于其他军、地各相关部门的信息等等。如果出现突发事件,比如大规模灾害或者是恐怖袭击等,数据的增长率还会呈“雪崩”式。大数据的出现,可以更全面地实现智能交通;可以协助监控中心辅助决策;可以对驾驶员进行评估,预测个体行为等。如何将军事物流信息与国家信息有机融合,如何高效地、快速地提取、存储、过滤和分析处理军交运输海量数据信息是一个非常有战略意义的问题。

本文期望建立一个基于Hadoop的大数据联机处理(OLAP)模型和算法。此模型能够实时、快速地提取、过滤和分析处理军交运输海量数据信息,从而进行有效地预测,提供决策支持。

2.现行数据联机分析处理现状

OLAP(联机分析处理)是一种解决快速多维分析查询的方法,并且能够为查询结果提供决策支持和直观视图。OLAP是基于RDBMS(关系型数据库管理系统)以及ROLAP(关系型联机分析处理系统)实现的,然而在面向大数据环境下传统的OLAP已经日益凸显出其不适合了。新型的大规模并行数据架构和分析工具已经超越了传统的并行SQL数据仓库和OLAP引擎,因此,一些数据库(如SQL Server和MySQL)虽然能够提供类似OLAP的操作,但其性能却并不能够令人满意。

图1 研究技术路线

通常,OLAP具有三种类型,诸如ROLAP(关系在线分析处理),MOLAP(多维在线分析处理)和HOLAP(混合在线分析处理)。

三种类型的OLAP之间的差异如下:

(1)MOLAP服务器通过使用多维抽象数组的存储引擎直接支持数据的多维视图,而在ROLAP中,多维模型及其操作必须映射进入关系和SQL查询;

(2)在MOLAP中,它通常预先计算大数据立方体以加速查询处理,而ROLAP则依赖于数据存储技术来加速关系查询处理;

(3)MOLAP存储利用率低,特别是当数据集比较稀疏时;

(4)由于ROLAP更依赖数据库来执行计算,因此它在其可以使用的专用函数中具有更多的限制;

(5)HOLAP通过将数据存储在MOLAP和关系存储中来组合ROLAP和MOLAP。 ROLAP和MOLAP都有优缺点。然而,在大数据环境中,MOLAP表现出的缺点与快速响应的优点相比是可以忽视的,并且如果我们优化MOLAP的实现方法,则实现所消耗的成本可以忽略不计。

3.HaMOlap的实现原理

本文期望建立一个基于Hadoop的大数据多维联机处理(MOLAP)模型和算法。利用多维OLAP(MOLAP)的经验,基于HaMoLap 采用多维模型指定数据维度和测度从而进行数据的分析处理。简化的多维模型和数据加载的算法使HaMoLap加载过程简单而有效。在查询过程中, HaMoLap可以处理高基数,因为OLAP算法和MapReduce框架,我们不必将内存中的多维数据库实例化。

Hadoop是目前最为流行的大数据处理平台。Hadoop最先是Doug Cutting 模仿GFS、MapReduce实现的一个云计算开源平台。Hadoop 已经发展成为包括文件系统(HDFS)、数据库(HBase、Cassandra)、数据处理(MapReduce)等功能模块在内的完整生态系统(Ecosystem)。某种程度上可以说Hadoop已经成为了大数据处理工具事实上的标准。对 Hadoop改进并将其应用于各种场景的大数据处理已经成为新的研究热点。主要的研究成果集中在对 Hadoop平台性能的改进、高效的查询处理、索引构建和使用、在Hadoop之上构建数据仓库、Hadoop和数据库系统的连接、数据挖掘、推荐系统等。但现在无论哪一种基于平台的数据集的处理模型都在不断地探索改进当中。

目前在大数据时代,缺乏有效的支持多维数据存储模型,在OLAP中这个问题迫切需要解决。同时,Hadoop的云计算框架是最广泛使用的大数据分析平台,但基于Hadoop的 MOLAP工具仍是空白。本文提出了分布式MOLAP技术大数据环境,我们设计了HaMoLap系统,正在实验当中,希望证明此种方法能够提供高效的大数据的存储和分析。本研究具有一定的理论意义和实用价值。

在研究过程中,采用了以下的技术路线,如图1:

分析Hadoop生态系统及其主要功能以及利用数据库来存储结构化数据,在此基础上构建一个数据仓库,根据需要构建数据立方体进行联机分析处理,可以进行多个维度的向下挖掘(Drill-down)或上卷(Roll-up)操作。

在此基础上,本模型构建了Hadoop的IRA索引随机存取算法(Index Random Access),构建Hadoop的FSS全源扫描算法(Full Source Scan),分析这两个算法在Hadoop下如何实现分区和二次索引。

借鉴MOLAP(多维联机分析处理)的经验,利用简化的多维模型映射维度和测度,维编码和遍历算法来实现卷起操作维度层次维值;分析采用结合分区和线性算法的方法来存储数据和利用块选择策略来过滤数据,从而优化OLAP的性能。

部署算法、加载数据,将本文中的模型与H i v e、HadoopDB、HBaseLattice等几大数据集和OLAP应用性能比较,从而验证模型算法。此模型及算法旨在建立一个可以针对具备明显结构化特征的军交运输大数据联机处理模型,以供后期对数据的进一步挖掘分析做准备。目前验证模型算法正在进行中。

4.结论与展望

本文介绍了设计、实现和评价HaMoLap大数据MOLAP系统。HaMoLap是基于Hadoop提出建立的模型和算法:

(1)特定的多维模型数据维度;

(2)利用维编码和遍历的算法实现卷起操作的层次维值;

(3)块模型和分区策略简化数据立方体;

(4)利用线性化 reverse-linearization算法存储块和数据;

(5)利用分片及块选择算法优化OLAP性能。与Hive,HadoopDB, HBaseLattice等几大数据集和OLAP应用性能比较,从而验证模型算法。

HaMoLap与其他MOLAP工具的区别可以列举如下:

(1)HaMoLap采用简化的多维模型来映射维度和度量,使数据加载过程比OLAP简单有效。

(2)在OLAP中,HaMoLap采用文中提出的维数编码和遍历算法,实现对维度层次的汇总操作。

(3)HaMoLap不依赖于预计算和索引技术,而是依靠分片和块选择来加速优化OLAP。

(4)在OLAP中,HaMoLap不存储大型的多维数组,而是直接计算。一般来说,HaMoLap是一种MOLAP工具,它采用简化的维度,保持OLAP的简单高效。

目前,对模型的算法验证还在实验当中,就当前的初步实验结果,还是令人满意的。

5.感谢

本研究资金支持来源与军事交通学院学院基金项目:2014D29。

(作者单位:军事交通学院军事物流系)

1.Xu H F.Scheme of data acquisition based on industrial Ethernet. Microcomputer Information, 2008, 04: 113~115(in Chinese)

2.Wang L, Shang Z, Wang X W.The development and application of thedata acquisition system.Electrical Measurement & Instrumentation, 2004, (8): 4~8 (in Chinese)

3.Data acquisition and industrial communication.Maschinen Markt, 2002, 13: 20~24 (in Chinese)

4.Jiao M Y, Tan Q P.Research on Java rule engine technology. Computer & Information Technology, 2006, 03: 41~43 (in Chinese)

5.Zhang G X, Zhang X.How to write expert systems with Jess. Computer and Modernization, 2003, 01: 29~31(in Chinese)

6.Forgy L C.Rete: A fast Algorithm for the many pattern/many object pattern match problem.Artificial Intelligence, 1982, 19: 17~37

7.Tao R J.Finite automaton Introduction.Beijing: Science Press, 1986 (in Chinese)

8.Huang Z Q, Su Y.Application of FA in design of automatic control software.Journal of North China Electric Power University, 2002, 01:49~51(in Chinese)

9.Song, J., Li, T., Liu, X., et al., 2012.Comparing and analyzing the energy efficiency of cloud database and parallel database.In: 2nd International Conference on Computer Science, Engineering and Applications, ICCSEA 2012, vol.2, Springer Verlag, New Delhi, India, May 25~27, 2012, pp.989~997.

10.Song, J., Guo, C.P., Wang, Z., Zhang, Y.C., Yu, G., Pierson, J.M., 2014.Distributed MOLAP technique for Big Data analysis.

11.Ruan Jian Xue Bao/Journal of Software 25 (4), 731~752, http://dx.doi.org/10.13328/j.cnki.jos.004569.

12.Taleb, A., Eavis, T., Tabbara, H., 2013.Query optimization for the NOX OLAP algebra.In: Transactions on Large-Scale Dataand Knowledge-Centered Systems VIII.Springer, pp.53~88.

13.Thusoo, A., Sarma, J.S., Jain, N., et al., 2009.Hive: a warehousing solution over a map-reduce framework.Proc.VLDB Endow.2, 1626~1629.

14.Tian, X., 2008.Large-scale SMS messages mining based on map-reduce.In: IEEE International Symposium on Computational Intelligence and Design, Piscataway, NJ, USA, October 17~18, 2008, pp.7~12.

15.Wikipedia, 2014.Online Analytical Processing, accessed at http://en.wikipedia.org/wiki/OLAP

16.Wu, L., Sumbaly, R., Riccomini, C., et al., 2012.Avatara: OLAP for webscale analytics products.Proc.VLDB Endow.5, 1874~1877.

17.Wu, S., Ooi, B.C., Tan, K.-L., 2013.Online Aggregation, Advanced Query Processing.Springer, pp.187~210.

18.Xiaofeng, M., Xiang, C., 2013.Big data management: concepts, techniques and challenges.J.Comput.Res.Dev.50, 146~169.

19.Yu, C., Chun, C., Fei, G., et al., 2011.ES2: a cloud data storage system for supporting both OLTP and OLAP.In: 27th IEEE International Conference on Data Engineering (ICDE 2011), Piscataway, NJ, USA, 11~16 April, 2011, pp.291~302

20.吴永胜.云环境下的关联规则挖掘算法研究[D].浙江工商大学, 2015.

21.赵辉.面向大规模交互式分析的MapReduce优化技术研究[D].国防科学技术大学, 2013.

猜你喜欢
海量维度算法
一种傅里叶域海量数据高速谱聚类方法
理解“第三次理论飞跃”的三个维度
认识党性的五个重要维度
浅论诗中“史”识的四个维度
Travellng thg World Full—time for Rree
海量快递垃圾正在“围城”——“绿色快递”势在必行
进位加法的两种算法
一个图形所蕴含的“海量”巧题
一种改进的整周模糊度去相关算法
一种海量卫星导航轨迹点地图匹配方法