张燕丽(广东农工商职业技术学院,广东,510507)
基于云平台的海量数字图像数据挖掘探讨
张燕丽
(广东农工商职业技术学院,广东,510507)
本文借助云平台Hadoop的分布式文件系统(HDFS)和分布式并行计算框架(MapReduce),来进行海量数字图像的数据挖掘。构建了基于Hadoop云平台的海量数字图像数据挖掘系统,实现海量数字图像信息数据挖掘。
云计算;数据挖掘;Hadoop;MapReduce
数据挖掘就是指从存放在数据库、数据仓库或其他信息库中的大量数据中提取或“挖掘”知识,这些知识具有未知性、有效性和实用性。由于知识事先不为人们所知,而是隐藏于大量数据之内,如何通过寻找数据间潜在的关联,挖掘出隐藏于大量数据之内的知识,数据知识的挖掘的具体过程如图1所示。
图1 数据知识的挖掘过程图
Hadoop云平台一个是包括分布式文件系统(HDFS)和分布式并行计算框架(MapReduce)为核心的开源分布式的计算平台。用户可以利用Hadoop轻松地组织计算机资源,Hadoop云平台为不同的用户提供了编程环境。用户可以根据需要,构建自己的Hadoop计算云平台,另外,云平台还为用户提供了方便可以随时充分利用的集群的计算和存储能力,可以有效地解决海量数据的处理问题。MapReduce是一个软件框架,可以高效地处理大规模的数据集,是一种可靠容错的并行处理方式。MapReduce中的并行计算模式,可以对需要任务的处理分为Map(映射)和Reduce(规约)两个阶段。Hadoop云平台的项目结构如2所示。
图2 Hadoop项目结构
3 图像数据信息的挖掘流程
作为多媒体数据挖掘的一个分支——数字图像数据信息挖掘,其挖掘的具体流程包括:图像数据的预处理,在对图像数据信息进行数据挖掘前,首先要预处理,对预处理后的图像数据信息的特征,进行提取出,根据提取出的图像数据信息的特征,对提取的图像数据,来构建数据特征空间。然后根据提取的图像特征对来进行图像数据信息的分类,从中挖掘出知识与规则,可以用得到的知识与规则来预测未来的信息。在多维分析图像数据信息中,根据图像的形状、纹理、颜色等来构建多维的数据特征,然后依据多维的数据特征来进行综合分析。另外,根据数据图像多特征构成的特征、数据图像的颜色直方图的特征和基于小波的带有区域粒度的特征,对图像数据信息进行相似性检索。同时,可以依据图像的特征,完成运用关联规则对图像数据信息进行挖掘。运用以上数据挖掘方法从原始图像数据信息中挖掘出有价值的信息规则与模式。对挖掘发现的信息规则与模式,还需要进行模式提取、知识表达和知识推理,最后得到所需要的知识与规则。要实现图像数据信息的挖掘,是一项需要综合应用各类知识与技术才能实现的复杂的工程。
随着每天海量数字图像的产生,要挖掘出有用的知识信息,需要其超大的存储空间,Hadoop云平台可以处理TB级数据。如何快速高效地解决海量图像数据的存储和计算,是目前要解决的问题。Hadoop云平台的分布式文件系统(HDFS)和分布式并行计算框架(MapReduce)能够满足整个挖掘系统的需求。对数字图像的数据挖掘,因其存储数据格式的不同,需要分别利用不同的处理技术来解决格式问题。因此,基于Hadoop云平台,构建海量数字图像数据挖掘系统。
在云平台下运用图像并行化处理技术,用HBase和Hive存储和管理海量图像数据,map的功能是对海量图像数据首先进行图像的预处理和图像特征的提取,reduce 根据提取到的图像特征,对同类图像特征进行数据挖掘,从而实现了通过MapReduce 程序从它们中获得图像数据并处理。最终输出保存获得的挖掘知识与规则。因此,在Hadoop云平台下,对海量图像数据进行挖掘,利用分布式文件系统(HDFS)和分布式并行计算框架(MapReduce),可以有效地解决了对海量图像数据信息的存储和计算的难题。
在Hadoop中MapReduce来进行海量图像数据挖掘,了解数据流,设计所需的键值对类型。MapReduce程序由用户定义的 map 函数、reduce函数和作业驱动程序三部分组成,在MapReduce计算框架中,Hadoop将输入数据划分成等长的作业分片,在Map任务执行时调用map 函数,每个Map任务处理一个作业分片,这些Map任务是并行执行的。Hadoop又将每个作业分片划分为多个相同的键值对,每个Map任务对该分片中每个键值对再调用map函数来进行处理。在Reduce任务执行时被调用reduce函数,作业驱动程序用于初始化作业的配置。本系统把一个图像文件作为一个作业分片,再把整个作业分片作为一个键值对来处理。这样每个Map任务只需调用一次map函数来处理一个图像文件,进而实现多个图像文件的并行化处理。
文章利用Hadoop云平台构建了基于Hadoop云平台的海量数字图像数据挖掘系统,利用Hadoop云平台来进行海量数字图像数据的信息的挖掘,挖掘海量数字图像数据的有用信息为人们的不同需要服务,有效解决了网络中海量数字图像信息挖掘。
范明译.数据挖掘——概念与技术[M].北京:机械工业出版社,2001.
Exploration on the Digital Image Data Mining Based on the Cloud platform
Zhang Yanli
(Guangdong AIB Polytechnic College,Guangdong,510507)
In this paper,by means of the cloud platform Hadoop distributed file system(HDFS)and distributed parallel computing framework(graphs),for huge amounts of digital image data mining.Build a huge amounts of digital image based on Hadoop cloud platform data mining system,realize the huge amounts of digital image information data mining.
cloud computing;Data mining;Hadoop;graphs
A
TP311
张燕丽(1975-),女,河南郑州人,讲师,研究方向:计算机应用