张文明
摘 要:在Personal Computer技术的基础上,Hadoop大数据管理平台采用了一种新型的分布式数据集群管理系统,具有网络兼容性好、运行管理效率高、扩展应用能力强等特点,目前已经在很多行业中得到应用。在此基础上,文章对 Hadoop新型大数据平台的设计基本特征及其实现进行了深入的阐述,并通过实例结合该数据平台的具体工作及设计原理,对 Hadoop大数据服务平台的主要功能及其平台实现应用情况进行了深入的分析研究。
关键词:云计算;Hadoop大数据平台;挖掘算法
0 引言
Hadoop技术软件是谷歌公司自行研发的一款项目,是现阶段在因特网上较为流行的一种内容编辑和分类工具,它可以很好地解决延展性和扩散性的问题。例如,对海量文件信息进行字符串搜索和匹配,采用传统方法进行系统处理很可能会花费大量时间,而 Hadoop技术更适合于有效解决与之相关的问题。它主要包括系统开发功能、数据采集与管理功能、数据存储与管理功能、数据挖掘的可视化及应用,本文重点分析了这些功能在数据挖掘中的实现情况。
1 Hadoop大数据平台设计
Hadoop系统结构如图1所示[1]。此方法在这个软件系统中采用最新的并行计算和数据处理方法,这种新的计算和并行处理方法的速度与对所有数据相关信息的并行处理速度相当,再加上 Hadoop这一技术本身具备高可伸缩性的特点,它还可以对数据信息进行有效的并行处理。
1.1 层级
首先,分布式计算处理平台属于管理層,其主要设计目的是实现其在集群处理网络系统中的并行数据存储和综合计算等基本功能,为分布式系统和云系统的并行数据操作提供了一种处理模式,将处理任务从集群网络上顺利地直接传输出来,并将数据发送给集群服务器的各个工作节点。
其次,数据挖掘属于平台架构层,是整个平台架构的重要功能,主要目标是通过数据算法对数据进行并行分析,然后通过编写计算任务,将每项计算任务按实际分配值发送到平台Hadoop,这是数据挖掘平台的一个并行计算层,通过并行计算算法将计算结果发送到平台的任务管理层[2]。
再次,任务应用管理不仅需要通过不断优化应用业务流程,完善业务处理逻辑,还需要通过对相关应用的合理调配和统一指挥,把握每个应用任务的数据真实性和完成进度。对客户端的各种相关设计作品及时进行调配,并及时组织材料加工。比如,用户在交互应用层需要提交具有特定属性的数据,业务层的应用管理功能就需要对这些产品进行处理后再赋予其使用的权限,以完成对数据的信息分类任务和数据挖掘的搜索任务,根据应用平台上的数据要求,将通过搜索和挖掘得到的所有数据分类执行分析算法,并根据最终分析结果向最终用户提供反馈,发送到交互应用层[3]。
最后,交互层主要是指用户端与系统之间的一个使用界面,其所有的表现形式都是通过图形化的方式呈现给客户端,用户可以在线直接登录自己的系统,根据客户端的业务需求获取或保存系统中各种信息输出的大量数据成果,以解决客户端的业务问题,满足客户端和用户的业务需求。
1.2 职能结构
(1)数据采集与挖掘功能,主要目的是将所有的数据加载、保存,并需要输入 hdfs文件系统,保存大量的信息,以便客户随时查询和使用。
(2)并行etl进行数据管理模块,直接从 hdfs文件获取输入数据,并将其保存到文件管理系统中,实现数据的自动提取、转换、预处理。
(3)储藏功能,主要是将挖掘过的历史资料进行储藏,形成知识库。
(4)模式评估功能,主要目的是对无需求的子业务进行需求分类、管理,响应高层指示,并对其产生的模型和结果进行评估。
(5)业务应用层的模块和功能,即在业务系统对下级业务的处理操作时,及时对上级业务处理模块作出响应,通过底层模块实现业务处理。与此同时,工作流模块能够通过电子邮件和网络将详尽的参数信息反馈给相应的上级业务层,并能对业务运行状态进行监测、管理[4]。
(6)交互模块,主要包括注册、登记或注销等多种功能,能充分满足用户的各种业务需求,便于用户对数据资料进行分析和保存。该系统整体结构和功能设计十分完善,操作方便,在许多领域的应用已得到广泛认可。
以下针对该平台中数据挖掘功能的实现情况着重进行了分析。
2 实现基于 Hadoop的数据挖掘功能
要实现基于 Hadoop的大数据挖掘算法,则需要在该算法中进行相应的算法设计与实施。
首先,基于 canopy算法的 mapreduce实现。依据所采用的并行算法和步骤,可以将整个工作流程划分为两个阶段:第一阶段,实际执行的主要算法是 canopy算法,另一个阶段是k-means算法。上传到数据集的文件,所有的实验数据都是通过 mapreduce的程序从数据库中直接上传到 hdfs文件系统中,系统会从其中记录数据,然后编写并运行算法,用 java语言完成 apriori算法,把写好的算法和代码压缩成 jar文件,用 Hadoop的 bin目录 shell命令就可以完成这一操作,如图2所示。
在第二阶段,将继续完善像 kmeans这样的算法。该编程算法的主要目的是通过对数据进行前一个集合阶段的簇的数据划分,对每个阶段的数据产生集的不同中心的向量函数进行序列对应的阶段性数据划分,主要使用 nnmrr编程算法模型。
其次,对于整个联合(combine)阶段的各个数值算法也要进行联合控制,这个联合控制函数的一个主要功能就是在c和map联合结果中对相同的两个数值算法进行二次合并。最后,清除(reduce)本阶段需要同时执行的所有两种数据处理类型方法都是相同的基于簇类的对应数据中心对象类型向量,可以重新直接创建或直接生成新的数据中心对象类型向量,而该类型向量主要要求输入和输出数据必须是基于键值对的形式,输入的数据信息应当是与两个对应簇类节点之间的数据联合计算的结果,输出的数据信息必须是与对应簇类中的标识符对应的数据中心对象向量。
3 结语
本文主要针对图挖掘算法和并行算法的特点进行了介绍,目前在图挖掘算法中已有许多算法处理方法可供选择,执行效率较高,但在处理大型数据库时,所需的时间和空间都很大,有些算法处理效果不理想。因此,在对大量图像数据进行处理时,可以考虑采用并行和分布式两种新的处理方式,将处理后的图像数据存储起来,放到数据库中,从而简化了对大数据库的挖掘过程。
[参考文献]
[1]祁春霞.基于Hadoop的网络日志浏览器访问者统计[J].信息技术与信息化,2021(1):110-112.
[2]倪星宇.基于Hadoop云计算平台的构建[J].微型电脑应用,2020(12):103-105.
[3]孔庆波.基于Hadoop平台的电力统计不良数据高效识别方法研究[J].电子设计工程,2020(24):95-99.
[4]李俊艳.基于Hadoop平台的电力大数据聚类算法研究[J].数码世界,2020(12):71-72.
(编辑 王雪芬)