大数据分析平台Hadoo的关键技术

2018-03-23 11:59刘红敏
电子技术与软件工程 2018年4期

刘红敏

摘 要本文着重研究了基于Hadoop平台大数据的分析技术的发展和功能模块的应用,对关键技术进行比较分析,将整体结构框架进行改良,使数据分析平台在不受场景限制的前提下进行使用。

【关键词】大数据分析技术 计算结构框架 并行分析算法 Hadoop

1 大数据分析平台的模型结构

虽然在Hadoop中各分析平台的接口和应用功能单一不同,但它们有着统一的结构框架,如图1所示。

(1)数据采集不明思意就是采集数据,将数据进行采集整理,进而保存到数据库里面。数据采集属于系统外的一部分,但它发挥着不可替代的作用,连接了业务系统和分析系统,使得系统间能够紧密联系。

(2)分布式储存是大数据分析平台储存数据的前提,在Hadoop平台中将HDFS作为储存的子系统,但并不只局限于这一种,可以作为云储存系统的有多种。

(3)并行计算框架的利用在很大程度上提高了系统的运算效率,实现了多台服务器同时进行数据运算,大大的提高了系统分析的效率。

(4)并行分析算法,传统的分析算法是单一的,要想实现并行计算需要结合基于Hadoop的并行计算方法。经过分析研究,与Hadoop相匹配的算法有多种,其中作用明显的有Mahout和R语言等算法。

(5)分析结果的工作是将系统的数据分析结果传送给系统,一般分为统计结果和数据分析结果两大类。

2 大数据分析Hadoop关键技术的比较和标准化

在大数据分析平台的基础上,下文对Hadoop中数据采集、并行计算框架、并行算法以及数据可视化的关键技术进行比较分析,并给出标准化的相关建议。

2.1 数据采集

2.1.1 比较分析

在本文中经过统计研究,选出了与系统相匹配的工具,主要有Flume和 Scribe,其中Flume已经被深度研究。两者有很多相同之处:

(1)都是采用了PUSH的结构框架,通过业务系统节点来收集数据,并传送到储存系统;

(2)结构框架中都含有agent、collector、storage三个重要部分;

(3)都由相同的Thrift数据结构连接;

(4)有相同的数据收集系统采集数据。

不同点有:

(1)Flume支持多master格式,不会出现单点故障等问题;

(2)Scribe需要系统的支持才能供Thrift接口

(3)Flume提供的agent具有多样性,并可以直接使用。

(4)Flume可以提供多样性的数据源功能。

2.1.2 标准化建议

要保证海量数据达到标准化的程度,主要可以从系统框架和相关接口两个方面来考虑,系统框架就是通过相关工具软件进行辅助,将系统框架进行结构完善。接口则需要进行大量的挑选和实验,保证可以和系统高密度的契合,通过接口将系统进行结构优化。

2.2 并行计算框架

2.2.1 比较分析

以Hadoop平台为基础的并行计算结构框架有MAPREDUCE和YARN。并行计算框架的功能有着不可替代和单一的特点,是API的接口编程过程中非常重要的一部分,业务系统通过API来进一步完成任务。从计算机的接口方面衡量MAPREDUCE和YARN,它们的接口相似度非常高,也可以看出系统将的各个接口相似度都非常高,这也降低了接口的自身要求。

2.2.2 标准化建议

计算结构框架可以说是数据分析过程的基础,是进行数据计算的重要前提,由上文的分析中可以知道并行计算的结构框架都相同的,因此并行计算结构框架的标准化是否可行十分重要。

2.3 并行算法

2.3.1 比较分析

由于并行计算结构框架的出现使得数据分析计算可以同时进行,并行算法的不断发展,已经应用到了聚类、分类、贝叶斯等数据复杂的领域。在Hadoop中比较实用的并行算法主要是Mahout和R。

Mahout作为一个收集和贮藏数据的数据库,R作为一个编程工具和软件,它们在起初就已经被很多人承包,但不妨碍开发者继续在此基础上进行分析算法开发。

2.3.2 标准化建议

要实现并行算法标准化的难度非常大,如果不从全局的角度考虑,很难找到突破口,可以像电信行业实现并行计算标准化那样从特殊行业方面进行深一步研究。

2.4 数据可视化

2.4.1 比较分析

基于Hadoop分析平台的大数据分析结果包括统计结果和收集结果。数据可视化以图表的方式让人们进行结果了解。Hadoop平台中的计算结构框架统一相同,但是分析结果却有两种形式,一种是将HDFS、Key-Value、HBASE直接进行储存;另一种是将数据分析结果直接放在数据库里面。这种分析结果可以由各个厂商进行数据分析展示。

2.4.2 标准化建议

不同的用户有着不同的数据要求标准,这也使厂商的数据结果实现标准各有差异,因此对这部分规定不使用统一的标准。

3 结语

随着以大数据为基础的数据业务逐渐增多,Hadoop平台也受到了越来越多人的关注,正逐渐变为大数据挖掘的重要部分,随着人们对于Hadoop平台的技术不断升级和改良,促进基于Hadoop平台的大数据分析关键技术标准化工作需要更快地实现,以保证人们对分析技术的应用。经研究发现,Hadoop大数据分析平台采取分布式文件系统HDFS实现海量数据的存储和兼容以及MapReduce并行计算,适合中小企业或专家开展云计算的研发需求。

参考文献

[1]黄斌,许舒人,蒲卫.基于MapReduce的数据挖掘平台设计与实现[J].计算机工程与设计,2013(02).

[2]郭建伟,李瑛,杜丽萍,赵桂芬,蒋继娅.基于hadoop平台的分布式数据挖掘系统研究[J].中国科技信息,2013(13).

作者单位

廣州大学松田学院 广东省广州市 511370