韦尧,陈子阳,程静文,高聪硕,张正艳,吕震宇
(华北理工大学 管理学院,河北 唐山 063000)
基于CubieBoard的大数据实验平台设计
韦尧,陈子阳,程静文,高聪硕,张正艳,吕震宇
(华北理工大学 管理学院,河北 唐山 063000)
实验平台;大数据;Hadoop
针对传统大数据实验平台部署成本高、网络环境配置复杂等问题,将CubieBoard引入大数据实验平台架构,搭建了五节点的大数据实验环境,完成了Hadoop集群部署、MapReduce应用开发部署和Mahout大数据分析挖掘实验。该平台搭建成本低,部署容易,非常适合高校本科生和研究生作为大数据学习的入门实验平台。
“大数据”是近些年来国内外关注的热点,目前在众多大型企业中广泛应用。然而大数据教育,特别是本科生大数据教育却明显落后于企业发展,使得目前技术市场上掌握大数据技术的人才严重短缺。早在2012年,美国国家教育部就已经颁布了《通过教育数据挖掘和学习分析促进教与学》报告,已经将大数据融入学习变革当中[1];我国CCF大数据专家委员会在《2015年大数据发展趋势预测》中发布了2015年大数据十大发展趋势,其中一项就是“大数据技术课程体系建设和人才培养是需要高度关注的问题”[2]。然而大数据人才培养一方面需要加快将业界应用技术向高校转移,但另外一方面却受制于大数据高昂的硬件建设成本。一套大数据平台硬件设备动辄需要数十万元到上百万,大多被用于科研[3-5],很难大规模用于本科生教学工作。因此,目前很多大数据实验转而寻求在虚拟机上完成,但受到计算机硬件能力限制,目前基于虚拟机的大数据实验多以单机实验为主,很难完成多机集群部署。
随着嵌入式设备的发展,2012年以树莓派为代表的迷你主机逐渐成为计算机硬件发展的一条强大的支流[6-7]。树莓派在硬件和软件上都采取了开源的形式,相比单片机具备更完备的元件、接口以及操作系统,在普通电脑上可以实现的功能,在树莓派上基本都可以实现。国内珠海方糖科技(CubieTech)2013年推出了CubieBoard,在性能不低于树莓派的情况下成本要低于树莓派[8],该产品一经推出迅速得到了众多软、硬件厂商的支持,包括Android以及Ubuntu等。法国的NanoXion IT公司2014年2月与法国电信部门签订了合作协议,提供基于CubieBoard硬件平台的托管服务,这标志着基于ARM架构的面向服务器的Linux Debian专用托管优化解决方案的出现[9]。泰国苏兰拉工业大学的Chanwit和他的团队使用Cubietruck作为硬件平台,基于Apache的Spark和Hadoop搭建了跨平台混合云[10]。国内基于迷你主机的实验平台建设刚刚起步,2014年3月16日杭州炽鸟集团采用CubieTruck作为云终端,建立了一套以CubieTruck为平台的嵌入式实践教学体系,但主要是培养学员对Linux系统和硬件外设的理解[11]。
该项研究将CubieBoard作为大数据实验底层硬件平台,并以此开发了Hadoop集群部、MapReduce应用开发与部署、大数据分析与挖掘等实验项目[12, 13],不但可以解决大数据硬件平台成本问题,还可以将大数据课程体系及实验体系迅速普及到高校本科生、研究生,为培养大数据技术人才奠定低成本实验平台基础。
1.1硬件选择
计算节点使用CubieBoard2平台,该平台拥有ARM cortex A7双核CPU;1GB DDR3 960 MHz内存;4GB Nand Flash固态存储,还可通过Sata接口连接外部硬盘扩充存储容量;提供2个USB接口、1个100 M网卡接口和1个HDMI 1080p高清输出接口;平台还提供红外接口、Micro SD卡槽和音频输出接口。
辅助硬件包括8口交换机1个、5口USB电源1个、以及键盘、鼠标、显示器各1个。
1.2软件选择
软件使用专门为CubieBoard提供的ubuntu 13.06作为底层操作系统平台,使用Phonenix Suit作为刷机工具,Putty作为终端连接工具。
在CubieBoard上部署好ubuntu操作系统后,安装ARM版JDK 8u33。Hadoop版本为2.5.0(CDH5.2.0),Mahout版本为0.10.2。MapReduce应用开发使用ideaIC。
由于CubieBoard默认只提供20 M的/tmp存储空间,会导致mahout在执行时出现 “No space left on device”错误,因此需要删除该配置选项。
1.3整体结构设计
基于CubieBoard的大数据实验平台由1台交换机、5台CubieBoard组成的Hadoop集群和1台电脑终端构成。如图1所示:
图1基于CubieBoard的大数据实验平台结构
如果需要在机房部署,可增加1个DHCP服务器,以便CubieBoard能够自动获得IP地址,避免IP冲突影响其它同学实验进程。
实验设备实物照片如图3所示:
图3 基于CubieBoard的大数据实验平台实物照片
1.4五节点大数据实验集群设计
五节点大数据实验集群设计如图4所示,每台CubieBoard设备被分别赋予了NameNode、DataNode、JournalNode、Resource Manager和Node Manager等不同角色。
图4 五节点大数据实验集群设计
2.1实验结果
该平台上的实验包括Hadoop集群部署、MapReduce应用程序开发与部署以及Mahout数据分析挖掘。
使用MapReduce算法以“pi 4 500”为参数计算PI值,任务完成时间为1min38s(如图5所示)。由图6可以看出Node05充当了Application Master节点,而使用Node02、Node03、Node04充当了4个Task节点(Node02上部署了2个Task)。
图7演示了在该实验平台上使用Mahout进行kmeans算法测试时的界面。完成10次迭代外加输入、输出12个MapReduce应用共用时32 min。
图5计算PI的任务完成界面(图像经裁剪)
图6 计算PI时YARN任务分派(图像经裁剪重组)
图7 使用Mahout进行kmeans算法测试界面
2.2成本性能分析
尽管基于CubieBorad的大数据实验平台在性能上不占优势,不适合完成大规模数据分析与挖掘,然而却具有成本低、易部署的特点。表1对基于服务器、虚拟机和CubieBoard的五节点大数据实验平台进行了对比。
表1 不同硬件环境部署五节点大数据实验平台对比
基于CubieBoard的大数据实验平台具有成本低,部署简单的特点,还可以兼顾用于嵌入式开发实验和Android开发实验。基于CubieBoard的大数据实验平台非常适合作为高校本科生和研究生学习大数据的入门实验平台。
[1]徐鹏,王以宁,刘艳华,等.大数据视角分析学习变革——美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J].远程教育杂志,2013,(6):11-17.
[2]CCF大数据专家委员会.2015年大数据发展趋势预测[J].中国计算机学会通讯,2015,11(1):48-52.
[3]张倩怡.百度和联合国机构共建大数据实验室[N].北京日报,2014-08-19.
[4]邱燕娜.中青云大数据联合实验室在京挂牌[N].中国计算机报,2015-02-02.
[5]刘珍意,刘艳贵.贵阳大数据战略重点实验室揭牌[N].中国质量报,2015-06-04.
[6]李文胜.基于树莓派的嵌入式Linux开发教学探索[J].电子技术与软件工程,2014,(09):219-220.
[7]于志强,温志渝,谢瑛珂,等.基于树莓派的多参数水质检测仪控制系统.仪表技术与传感器,2015,(06):20-27.
[8]郑浩榕,魏天翼.Cubieboard:追赶树莓派[EB/OL].2013-07-29.http://www.yicai.com/news/2013/07/2897708.html.
[9]The NanoXion Team. CubieBoard colocation service Named Cubiebox first launched in France[EB/OL]. http://cubieboard.org/2014/02/18/cubieboard-colocation-service-named-cubiebox-first-launched-in-france/,2014-2-18.
[10]ahha lee. Cross-Platform Hybrid Cloud with Docker based on Cubietruck[EB/OL]. http://cubieboard.org/2015/06/05/cross-platform-hybrid-cloud-with-docker-based-on-cubietruck/,2015-6-5.
[11]ahha lee. ChirdTeam First Use CubieTruck as i-cloud Embedded Training Platform in Hangzhou[EB/OL]. http://cubieboard.org/2014/03/26/chird-team-frist-use-cubietruck-as-i-cloud-embedded-technology-education-platform-in-hangzhou/, 2014-3-26.
[12]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.
[13]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.
Big Data Experimental Platform Design Base on CubieBoard
WEI Yao, CHEN Zi-yang, CHENG Jing-wen, GAO Cong-shuo, ZHANG Zheng-yan, LYU Zhen-yu
(College of Management, North China University of Science and Technology, Tangshan Hebei 063000, China)
experimental platform; big data; Hadoop
The traditional big data experimental platform has the problems of high cost and complex network configuration. CubieBoard is introduced and a five nodes big data experimental environment is built. Hadoop cluster deployment, MapReduce application development and Mahout data-mining experiment are complete on this platform. It has low cost and easy to deploy features, and very suitable for college students and graduate students as the entry experimental platform for big data learning.
2095-2716(2016)03-0098-05
TP368.2
A