田燕军 王莉
(山西经济管理干部学院 山西省太原市 030024)
MapReduce 是一种大规模数据处理的编程模型,用于大规模数据集的并行运算[1]。遵循着“分而治之,迭代汇总”的思想,即将海量的数据拆分到分布式文件系统中的不同机器上,让各个机器直接访问和处理拆分后的数据并获得局部结果,再汇总、合并这些局部结果形成全局结果。MapReduce 并行程序模型简单,易于编写,写一个分布式程序,只要简单的实现一些接口,就可以完成,同写一个简单的串行程序一模一样的,这个程序之后可以分布到大量的廉价的pc 机器上运行。MapReduce 也有不错的容错能力,因MapReduce 要运行在廉价的PC 机器上[2],这些机器随时可能出故障,在出了故障时,MapReduce 可自动把计算任务转移到另一个节点上运行,不需要人工参与。MapReduce 也有良好的扩展性,当程序运行起来硬件资源得不到满足时,可以通过增加机器来添加硬件资源。
HBase[3]中表的数据非常庞大,最高可达PB 级,如用传统串行程序处理HBase 表中数据,只能利用单机资源,会极大的降低处理HBase 表数据的效率; 但用MapReduce 分布式思想程序来处理HBase 表中的海量数据时,可利用集群资源,快速批量完成数据的处理,在实际工作中,对HBase 的操作也大多是与MapReduce 共同进行。
使用三台PC 机搭建分布式计算平台,3 台PC 机分别都安装CentOS6.8 64 位操作系统,并按下边2.1 进行大数据集群环境准备,再按2.2 进行大数据平台软件安装。
修改/etc/sysconfig/network 文件,分别设置三台PC 机的主机名为:node01、node02、node03;
修改/etc/hosts 文件,分别绑定三台PC 机的主机名与IP 地址;使用setenforce 0 临时关闭selinux, 修改/etc/selinux/config 文件永久关闭selinux;使用service iptables stop 临时关闭防火墙,使用chkconfig iptables off永久关闭防火墙;使用ssh-keygen -t rsa, sshcopy-id node01 对三台PC 机互相做免密登录;三台PC 机分别使用yum源安装ntp(网络时间服务),并进行配置,使三台PC机时间同步。
三台PC 机上分别新建/export/servers 目录用于存放安装程序,新建/export/softwares 目录用于存放软件安装包;接下来三台PC 机分别安装jdk(版本为jdk-8u144-linux-x64.tar.gz),jdk 是 Java语言的软件开发工具包,包含了JAVA 的运行环境、JAVA 工具和JAVA 基础的类库;安装mysql(版本为mysql-connector-java-5.1.38.jar),mysql 是基于SQL 查询的开源跨平台数据库管理系统;安装zookeeper(版本为zookeeper-3.4.5.tar.gz),zookeeper 是一个分布式协调服务的开源框架,主要用来解决分布式集群中应用系统的一致性问题,例如怎样避免同时操作同一数据造成脏读的问题;安装hadoop(版本为hadoop-2.6.0.tar.gz),hadoop 是Apache 软件基金会旗下的一个开源分布式计算平台,以HDFS 和MapReduce 为核心用户提供了系统底层细节透明的分布式基础架构;安装HBase(版本为HBase-1.2.0.tar.gz),HBase 是bigtable 的开源java 版本,是建立在hdfs 之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql 的数据库系统;安装hive(版本为hive-1.1.0.tar.gz), hive是基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL 查询功能[4]。
HBase 中的表数据最终都存储在HDFS 上面,故HBase 天生就支持MapReduce 的操作,提供了TableInputFormat、TableOutput Format、TableMapper 和TableReducer 类来支持使用MapReduce 框架处理HBase 上的数据,并提供了TableMapReduceUtil 类来初始化一个HBase-MapReduce 任务。
TableInputFormat 继承自TableInputFormatBase 类,负责将HBase 数据按Region 进行切片。
TableOutputFormat 类继承自FileOutputFormat 类,负责将MapReduce 任务输出的数据写入HBase 表中。
TableMapper 是一个抽象类,继承自Mapper 类,负责将输入的Key 转为RowKey 的字节码数据,输入的Value 转为Result 类型,表示一行数据。开发者需要重载TableMapper 类的map 方法来实现自己的Map 任务。
TableReducer 同样是一个抽象类,继承自Reducer 类,与普通的Reducer 类没有区别,开发者需要重载TableReducer 类的reduce方法来实现自己的Map 任务。
TableMapReduceUtil 是一个辅助类,用来简化一个HBase-MapReduce 作业的配置过程。该类提供了initTableMapperJob()方法初始化map 任务、提供了initTableReducerJob()方法初始化reduce任务。
建立数据来源表person 表,包含一个列族f1,向表中添加数据,在列族中放入name 列,将"姓名测试数据"放入该列中,在列族中放入age 列,将"年龄测试数据"放入该列中,如此插入多行,行键为不同的数据即可; 建立输出表person2,包含一个列族f1; 通过MapReduce 操作Hbase 的person 表,提取出f1 列族下name 列数据,并写入person2 表的'f1:name'中。
步骤如下:
(1)自定义Mapper 继承TableMapper; 该自定义Mapper 会遍历person 表中每行数据的单元格,如是name 列,则提取出来放入到put 中。
(2)自定义Reducer 继承TableReducer; 该自定义Reducer 不进行任何处理,只是把map 输出的put,再直接输出。
(3)组装八大步,读取Hbase 表中数据和初始化map 用TableMapReduceUtil.initTableMapperJob(),向HBase 表中写入数据和初始化reduce 用TableMapReduceUtil.initTableReducerJob()
算法1:
hdfs 建立数据源person.txt 文件,向该文件中添加 数据,包含rowkey、name、age 三列; 建立输出表person3,包含一个列族f1;通过MapReduce 读取该hdfs 文件,写入到hbase 的person3 表中。
步骤如下:
(1)自定义Mapper 继承Mapper; 该自定义Mapper 会读取person.txt 文件中数据,放到put 中。
(2)自定义Reducer 继承TableReducer; 该自定义Reducer 不进行任何处理,只是把map 输出的put,再直接输出。
(3)组装八大步, 通过TableMapReduceUtil.initTableReducer Job()向HBase 表中写入数据和初始化reduce。
HBase 丰富的存储能力与超强的并发访问能力,使得HBase 应用非常广泛。目前已经在金融、交通、医疗、车联网、IoT 等众多领域有了最佳实践,涉及到订单/账单存储、用户画像、时空/时序数据、对象存储、Cube 分析等各个使用场景。对HBase 表中数据的处理,也用到方方面面,通过MapReduce 操作HBase,可以大大提高处理HBase 表中数据的速度,同时,因为HBase 天生就支持MapReduce 的操作,故会简化MapReduce 程序的编写。