基于Hadoop的海量数据处理平台

2021-09-10 15:40国标丁帅男吴雨桐
客联 2021年4期
关键词:数据处理

国标 丁帅男 吴雨桐

【摘 要】近几年,云计算产业飞速发展,大数据处理技术也在不断成熟。与此同时,国内移动互联网市场规模不断扩大,用户数量己经超过5亿,并带来了海量的移动互联网流量数据。在此背景下,如何基于云计算大数据处理技术来承载海量网络数据处理业务,是一个非常有研究价值的课题。

【关键词】流量数据;Hadoop;数据处理

一、MapReduce分布式处理技术

Hadoop平台的MapReduce框架采用主从架构,由一个JobTracker主节点和多个TaskTracker从节点构成。JobTracker模块负责MapReduce作业的调度,包括分配用户提交的作业执行顺序、Map任务和Reduce任务的分配和执行,推测性任务的执行等,从节点中TaskTracker模块负责处理主节点指派的任务,包括执行Map任务、Reduce任务和推测性任务。MapReduce框架运行流程如下。

(一)用户提交作业。用户编写自己的MapReduce程序并在客户端节点上运行,作业客户端实例化后,向JobTracke:模块提交该作业信息,申请分配作业的ID号。然后作业客户端在验证本次作业相关信V、无误的情况下,将作业资源存放到分布式文件系统中,默认情况下,Hadoop使用HDFS作为其文件存储系统。最后客户端向JobTracker模块提交作业执行请求。

(二)JobTracker初始化用户作业。JobTracker收到用户提交的作业后,创建该作业实例对象并配置相关数据,包括该作业使用的Jar包存放位置、输入数据分块信J自、以及作业对应的配置文件信息、等等。然后JobTracker根据其配置的一调度算法(默认为先进先出调度算法)将该作业放入其作业对待,用于后续分配。

(三)任务分配。当前MapReduce的机制中使用心跳通信机制来进行任务分配。即从节点中的TaskTracke:模块定时向.lobTracker发送心跳通信,JobTracker的作业队列若有待分配的作业,则其根据收到的信息、决定是否向该TaskTracker分配任务。当从节点上TaskTracker模块的Map任务槽有空闲时,JobTracker节点根据感知策略向该节点分配合适的Map任务。需要说明的是,JobTracker在分配任务时,优先往TaskTracker分配Map任务,只有在TaskTracker模块上Map任务槽无空闲时才分配Reduce任务。

(四)TaskTracker执行Map任务。TaskTracker在执行Map或者Reduce任务时,每执行一个任务均会启动一个Java子进程来运行该任务。当启动子进程之前,TaskTracker模块首先从HDFS中读取该作业客户端之前存放的作业相关信息,然后再创建一个Java子进程来执行用户自己编写的Map任务。Map任务运行后会定期输出数据缓存在内存中。当缓存数据超过指定限额时,Map任务会将数据缓存到该从节点的磁盘中。

(五)TaskTracke:执行Reduce任务。当有Map任务执行完毕,同时有TaskTracker模块存在空闲Reduce槽的情况下,当该TaskTracker从节点与JobTracker通信时,JobTracker会分配该作业对应的Reduce任务给该从节点。需要说明的是,由于Reduce任务的输入数据来源于各个Map任务的输出,没有本地数据的概念,因此JobTracker直接分配队列中的Reduce任务即可。Reduce任务运行时,首先从对应的Map任务所在的节点读取中间数据。当Reduce任务得到其所需的数据后开始执行用户编写的Reduce任务程序。Reduce任务运行时,

将其输出结果存放到HDFS中。

(六)完成一次作業运行。Reduce任务全部完成后,输出结果根据用户指定的目录存放。JobTracker根据各个TaskTracker发送的心跳信息知道该作业已经运行完毕,设置该作业的完成标记,同时向作业客户端发送作业完成的通知和相关统计数据。需要说明的是,在作业运行期间,用户客户端从持续收到作业运行的进度信息。

二、结语

本章节介绍了在当前移动互联网及其引发的网络业务快速增长的现状下,本文使用Hadoop技术来进行网络流量数据处理的必要性。并对基于Hadoop的海量网络数据处理平台的总体架构,以及该平台所使用的数据采集和传输技术,基于HDFS的海量网络数据存储技术和基于MapReduce的海量数据处理技术等关键技术进行了详细介绍。此外,本章节对海量网络数据处理平台当前需要重点解决的技术问题进行了详细分析。从而为本文后续开展的研究工作进行了铺垫,打下良好的基础。

【参考文献】

[1]刘军,Hadoop大数据处理人民邮电出版社,2013

[2]赵卫中,马慧芳,傅燕翔等,基于云计算平台Hadoop的并行K-Mean聚类算法设计研

究,计算机科学,38(10) 2011, 166-168

[3]Xue S J, Pan W B, Fang W, A Novel Approach in Improving I/O Performance of SrnallMeteorological Files on HDFS, Applied Mechanics and Materials, 1172012 1759-1765.

[4]Yazd S A, Venkatesan S, Mittal N, Energy Efficient Hadoop Using MirroredReplication Policy, Reliable Distributed Systems (SRDS), 2012 IEEE 31st Symposium on:457-462.Data BlockIEEE, 2012

猜你喜欢
数据处理
电容式传感系统数据处理电路的设计
基于ARCGIS 的三种数据处理方法的效率对比研究
贵州开建FAST科学研究与数据处理中心
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
视频大数据处理的设计与应用
影响计算机数据处理的因素方法研究