摘要:随着通信技术的发展,移动终端的随时接入,大数据如排山倒海之势充斥着我们的生活,如何处理大数据以及对大数据的利用是我们未来所面临的主要问题。文章对大数据的概念及特点进行了简要分析与介绍,主要针对目前大数据分析与处理的常用六大工具进行深入剖析与比较,旨在为大数据方向的科研工作者提供一些理论依据。
关键词:大数据;Hadoop;HPCC;Storm;Apache Drill;RapidMiner;Pentaho BI
1大数据的概念
继蒸汽时代、电气时代、信息时代三大工业革命渐渐退出历史舞台之时,以物联网(IoT)与智能制造为主导的第四代工业革命悄然而至。云计算技术的兴起,数据量出现了井喷现象,标志着大数据(MegaData,BigData)时代的到来。与传统的数据、海量数据(SeaData)所不同的是:大数据从数量上、类型上以及价值等方面都极具特色。
目前,对大数据的定义还没有一个统一的标准和认可,众家各持己见。其中全球知名的咨询公司麦肯锡提出了大数据的概念:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。而研究机构Gartner对大数据提出的概念是:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产Ⅲ。在维基百科中大数据的概念定义为:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。
2大数据的特点
在实际应用中,也把大数据称为巨量资料(Huge Data),从技术角度来看,大数据技术实际上是指从种类繁多的“数据”中,剔除数据噪音,迅速获取有用信息的能力。云计算技术的出现为大数据的产生提供了“肥沃的土壤”,二者之间是密不可分的,也可以简单的说:云计算技术促进了大数据的发展,二者之间的关系就如同手心与手背的关系。
目前对大数据的特点可概括为4V:
*Volume(数量),数据量从过去的TB级别跃升至PB级别,甚至是EB级别。
*Variety(类型),过去我们所处理的数据大部分都是结构化数据,少部分非结构化数据;如今,移动终端的实时接入、互联网的快速发展,所产生的网络日志、影视、图片、动画以及声音等更多的是非结构化数据或者是半结构化数据,其中个性化数据占近乎总数据量的三分之二。
*Value(价值),数据量虽然很大,但是在这些数据中所包含的价值密度却很低,以我们日常生活中的影像资料为例,一般时长为六十分钟的视频,对某类用户来说有价值的数据可能只有那么一两秒钟,其余的都是数据噪音。
*Velocity(速度),大数据要求其处理速度很快,也就是我们常说的1秒定律,它主要是从数据有效的实时性角度来考虑的。
伴随日益普及的网络而产生的大数据,给企业、事业、政府等部门带来“困惑”的同时也带来了潜在的“价值”。因为,在大数据中蕴含着数据生产者的真实意图与喜好。比如阿里巴巴、天猫等通过访问量与访问内容就可以提取出客户的喜好与需求,更好的为电子商务的扩展业务提供数据支持。但是,从海量数据中去除噪音,提纯信息使其更具价值,这对网络的架构来说是一项艰巨的任务,对提高数据处理能力来说是一个难攻克的课题。因此,针对不同领域的大数据分析、大数据处理将是大数据产业健康、持续发展的关键。
3大数据处理分析的六大常用工具
1)Hadoop
2006年,Apache Lucene的创始人Doung Cutting创建了Hadoop,Hadoop是Apache的Lucene项目的一个子项目。与此同时,Doung加入yahoo,yahoo将Hadoop发展成一个能够处理Web数据的系统。Hadoop作为对大量数据进行分布式处理的软件框架具有高可靠性、高容错性、高效性以及可伸缩性等优点,以至于在2008年短短几年期间,它就基本成了大数据的代名词。
2)HPCC
HPCC(High Performance Computing and Communications)是LexisNexis公司发布的一款开源的数据处理工具。1993年,由美国科学、工程、技术联邦协调理事会向国会提交的一份关于HPCC的报告,其主要目标是提高网络的传输性能、扩展网络连接能力等。
3)Storm
Storm由Twitter开源而来,通常被比作“实时的Hadoop”,与Hadoop相比较为简单,它是一个实时的、分布式以及具备高容错的计算系统。
4)ApacheDrill
Apache Drill是Apache参考Googlel的Dremel所创建的开源项目,是一个能够对大数据进行交互分析、开源的分布式系统,它能够运行在上千个节点的服务器集群上,且能在几秒内处理PB级或者万亿条的数据记录。
5)RapidMiner
RapidMiner是目前世界上较为领先的开源数据挖掘软件,它提供了一些有用的、可扩展的数据分析挖掘算法,可以用来搭建推荐系统和评论挖掘系统,最终帮助用户方便、快捷地创建智能应用程序。
6)Pentaho BI
Pentaho BI平台与传统的BI产品有所不同,它是一个以流程为中心的,工作流驱动的,可扩展平台的,用于解决商业智能问题的框架,侧重于大中型企业应用。Pentaho BI平台是在MozillaPublic License(MPL)下基于Java的开放源码。
4结论
大数据的分析工具是更好地利用大數据的必不可少的手段,这些工具都有或多或少的弊端,需要我们后续的科研工作者在前人的基础上,进行深入研究,为大数据更好地服务于企业、事业单位以及政府而不断努力。
作者简介
袁琴(1983-),女,江西吉安,讲师,研究方向:计算机科学与技术。
(作者单位:江西工程学院)