基于云计算的海量图像数据挖掘的探析

2013-09-12 04:24莉,魏
电子测试 2013年20期
关键词:数据挖掘检索数据库

蔺 莉,魏 锐

(黄淮学院信息工程学院,河南驻马店,463000)

1 云计算概述

云计算(Cloud Computing)是一种基于互联网的新型超级计算方式,实现在“云”端数据计算和信息存储,它把存储于各分布式设备上的资源联合起来协同工作。使得各种应用能够根据需求获取适当的存储空间和各种服务。云计算的核心就是网络上海量数据的存储和计算。通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。云计算服务通常提供通用的通过浏览器访问的在线商业应用,软件和数据可存储在数据中心。因此云计算在编程模式及数据的存储、管理等方面具有自己特有的方式。通过云服务平台,使得人们获取信息、沟通交流的方式更加方便、快捷。

云计算根据服务类型可以分为基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。根据云计算服务对象可以分为公有云、私有云和混合云。

云计算的特点是具有超大规模及虚拟化,对客户端需求低,低成本,简单的终端和“按需提供服务”,实现轻松共享数据,安全的数据存储,高可靠性,服务面向的广泛性,用户计算的分布性,用户服务的个性化、多样性、灵活性、独立性、通用性与易扩展性,高度自治性等特点。用户还可以按照自己的需求,应用高层次的编程模型,完成自己的云计算程序,并在云端运行该程序。

2 云计算的层次结构

云计算可以分为以下四层:基础设施层、平台层、应用层和客户端,其中基础设施层又可以分为硬件平台、虚拟和操作系统层和存储平台三部分,应用层分为应用软件层与服务两个部分,如图1 所示:

云计算体系结构是由用户交互界面、服务目录,管理系统、部署工具、资源监控和测度、服务器集群组成。其工作原理是用户由客户端通过用户交互界面根据所需要的服务来选择服务目录,通过终端向“云”提出服务请求,并验证通过后,将由管理系统来找到可用计算资源和服务,通过部署工具根据用户请求智能来挖掘服务云中的资源。

3 数据挖掘的概述

数据挖掘(Data Mining)是指从信息库中存在的大量的、随机的、有噪声的、模糊的、不完全的实际应用数据中,采用数据挖掘技术,从信息库中提取或“挖掘”出隐藏于大量数据之内的、事先人们不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的一般目的是帮助决策者寻找数据间潜在的关联,从大量数据中挖掘出未知的数据之间的关系模式,去发现未知的、隐藏的知识,数据挖掘所得到的知识信息具有未知性、有效性和实用性。通过挖掘出这些知识,决策者把知识运用到企业中,可以帮助决策者对预测趋势发展做出正确的判断,及时地调整企业发展策略,在激烈的商业竞争,立于主动地位。从知识发现的整个过程来看,数据挖掘步骤如图1所示。

图1 数据挖掘的过程

各步骤的具体功能如下:

(1)数据选择:根据不同的挖掘目标,从数据库中检索与分析任务相关的数据,对目标数据进行处理。

(2)数据预处理:对选择的数据进行消除噪声和不一致数据处理。

(3)模式发现:使用智能方法从经过预处理后的数据中提取用户可能感兴趣的数据模式。

图1 云计算的层次结构

(4)模式评估:通过特定的评估方式,根据某种兴趣度度量,得到用户真正需要的模式。

(5)知识表示:通过可视化和知识表示技术向用户提供挖掘的知识,为用户的决策服务。

4 云计算服务模式下图像数据挖掘应用平台

对图像数据信息进行挖掘,首先需要预处理图像数据,其次要收集图像数据库中图像的颜色、大小等特征信息,来构建图像数据的特征空间,然后进行分类和预测分析、多维分析,检索图像数据的相似性,最后进行图像数据的关联挖掘。数据挖掘系统的结构如图3所示。

图3 数据挖掘系统的结构

4.1 图像数据挖掘流程

通过分析数据挖掘系统的结构,来探讨如何利用云平台,在海量数字图像数据中挖掘所需的图像数据信息。挖掘图像数据的信息过程如图4所示。

图4 图像数据挖掘

(1)预处理

图像数据的预处理,在对图像数据进行挖掘之前,首先需要对图像数据库中的图像数据进行处理。是把图像数据库中一些无用的,模糊不清的或已损坏的图像数据信息进行检查、清理和选择。保证在图像数据信息的挖掘过程中,图像数据信息的可靠,正确。

(2)构建图像数据的特征空间

在图像数据特征库中,通过收集图像文件的名称、格式、尺寸、图像文件创建时间和图像文件描述中的关键字、图像的形状、图像的颜色和纹理等特征信息来构建图像数据的特征空间,实现对图像数据信息的多维分析。来挖掘图像数据库中的有用的图像数据信息。

(3)图像数据的分类和预测分析

对图像数据分类,是根据图像的特征来进行分类,得出知识与规则来预测未来的信息。依据这些特征进行图像数据的有效分类,通过分类可以从中发现每类图像数据的一般特性,有了每类图像的特性就可以进行图像数据的预测分析工作。

(4)多维分析图像数据

基于图像数据的描述子(特征描述子和布局描述子)来构建图像数据的立方体,图像的数据立方体包含了图像的颜色、纹理、形状等信息,在图像数据信息中,通过图像的形状、颜色和纹理等多维的特征,综合分析多维的各种数据信息。找出图像数据的知识和规模,挖掘出图像数据库中有用的图像数据信息来。

(5)检索图像数据信息的相似性

检索图像数据信息的相似性,通常采用基于图像小波的特征、图像颜色的特征、带有区域粒度特征和图像多特征构成的特征来进行图像相似性检索。通过对图像特征、图像数据的内容或描述进行检索。其中,基于图像的颜色、形状和纹理等特征来检索图像数据的相似性,首先是把这些图像特征转化为特征向量,其次是对转化后特征向量与图像数据库中已经存在的特征向量进行检索匹配。然后根据比较结果检索到与该图像相似的图像。

(6)挖掘图像数据信息的关联规则

对图像数据的信息进行关联规则的挖掘,就是在图像信息数据库中,按照图像的特征,找出在不同图像中隐含的、有价值的图像信息的规则与模式,在图像数据库中挖掘出图像数据信息之间的关联。在挖掘中,一个事务对应一个图像,图像对象之间的关联规则有图像内容和非图像内容特征间的关联;与空间联系无关的图像内容间的关联;与空间联系有关的图像内容间的关联三种。

4.2 图像数据挖掘系统构建

基于云计算的图像数据挖掘系统利用云计算的服务模式,采用B/S结构,如图5所示。系统由数据库群、服务器群和4个子系统组成,系统利用PaaS服务模式向用户提供一个编写数据挖掘算法的平台,通过IaaS服务模式向平台租用服务器或数据库,使用SaaS服务模式,为用户提供数据挖掘服务。

图3 基于云计算图像数据挖掘系统框架

5 结束语

图像数据挖掘是多媒体数据挖掘的一个分支,图像数据挖掘需要综合各类知识与技术,其挖掘的过程就是对图像数据库中原始的大量图像数据进行综合分析,挖掘出隐含的、有价值的图像信息的规则与模式,并对其进行模式提取、知识表达和知识推理,最终得到图像数据信息的知识与规则。实现图像数据信息的挖掘发现。

[1]杜琳,陈云亮,朱静.图像数据挖掘研究综述[J].计算机应用与软件,2011,02:125-128

[2]孙利,陈萍,陈华丽.关联规则挖掘在网络教学评价中的应用[J].电脑开发与应用,2007,1:1

[3]雷亮,汪同庆,杨波.图像关联规则挖掘研究[J].计算机应用研究.2009 ,6:2374-2376

猜你喜欢
数据挖掘检索数据库
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
数据库
数据库
专利检索中“语义”的表现
数据库
数据库
一种基于Hadoop的大数据挖掘云服务及应用
高级数据挖掘与应用国际学术会议
国际标准检索