基于图像特征细化的海量数据挖掘系统设计与实现

2017-01-19 14:55林凌许然
现代电子技术 2016年24期

林凌 许然

摘 要: 传统基于图像内容的图像数据挖掘算法,对海量图像特征的分类效率低,对图像数据的挖掘准确率受样本数量影响较大。因此,提出一种基于图像特征细化的海量数据挖掘系统,其中的人机界面可赋予系统较高的交互性。图像搜索引擎能够智能地从互联网海量的图像数据中,采集有价值图像数据和特征。图像预处理模块对图像格式进行变换,完成图像噪声因素的过滤等操作,并对采集图像特征进行细化。数据挖掘模块依据采集的图像特征细化结果塑造CMQL语句,从图像数据库中挖掘出有价值的图像数据。系统实现部分给出了数据挖掘查询语言CMQL进行图像数据的挖掘过程。实验结果表明,所设计系统具有较高的查准率和查全率。

关键词: 图像特征细化; 海量数据挖掘; 图像数据挖掘; 图像噪声过滤

中图分类号: TN911.73?34; TP311 文献标识码: A 文章编号: 1004?373X(2016)24?0113?03

Design and implementation of mass data mining system based on

image feature refinement

LIN Ling1, XU Ran2

(1. Fujian Institute of Education, Fuzhou 350025, China; 2. Zhejiang Sci?Tech University, Hangzhou 310018, China)

Abstract: The traditional image data mining algorithm based on image content has low classification efficiency of the mass image features, and high influence on the image data mining accuracy affected by the sample quantity. Therefore, a mass data mining system based on image feature refinement is proposed, in which the man?machine interface endows the system with the high interactivity. The image search engine can intelligently collect the valuable image data and features in mass Internet image data. The image preprocessing module is used to transform the image format, complete the image filtering of noise factors, and refine the acquired image features. The data mining module is used to model the CMQL statements according to the collected image feature refinement results, and mine the valuable image data in the image database. The image data mining process performed with the data mining query language CMQL is given in the system implementation section. The experimental results show that the system has high precision ratio and recall ratio.

Keywords: image feature refinement; mass data mining; image data mining; image noise filtering

随着网络技术的快速发展和计算机性能的不断增强,不同行业对图像应用的不断增加,导致监视相机、医疗影像系统、卫星遥感系统等图像采集部件的应用领域逐渐扩大。而这些部件采用图像挖掘技术对采集的数据进行自主分析,从中挖掘出有价值的图像数据的需要也逐渐增加[1?3]。

传统基于图像内容的图像数据挖掘算法,对海量图像特征的分类效率低,对图像数据的挖掘准确率受样本数量影响较高。因此,寻求有效的海量图像数据挖掘算法,具有重要的应用意义[4?6]。

1 海量数据挖掘系统设计与实现

1.1 系统总体结构

基于图像特征细化的图像检索,通过数据库保存图像数据,并且对图像的颜色、纹理、形状等特征进行细化,进而完成图像数据的挖掘。塑造基于图像特征细化的海量图像数据挖掘系统,系统总体结构如图1所示。

该系统包括人机界面、图像检索引擎、图像数据预处理模块、数据挖掘模块、数据库系统和知识库系统。

1.2 人机界面设计

仅靠数据挖掘系统自身挖掘图像数据,容易形成大量用户不关心的模式。因此,需要用户通过交互方式,参与到具体的数据挖掘。设计的人机界面结构如图2所示。

检索模块用于完成图像的检索,用户采用浏览器给出图像特征,进而产生对应的图像检索申请。智能代理是一个动态的检索接口,若用户未在当前的数据库中检索到有价值图像数据,则智能代理存储用户申请,采用图像获取系统自主在网络中进行检索,并且将检索结果反馈给用户。

1.3 图像搜索引擎设计

图像搜索引擎的结构见图3,其可在网上采集图像,并对图像进行相似性运算,执行用户图像数据检索需求。

1.4 数据挖掘模块设计

数据挖掘模块是系统的关键,系统通过模块化方法,将图像数据挖掘部分的不同功能设计成规范的组件,并且依据相应的组装规则和约束条件,塑造成完整的图像数据挖掘模块,其结构如图4所示。

2 实验分析

通过实验验证本文设计的基于图像特征细化的海量数据挖掘系统的性能。实验采用图像检索引擎,分别输入bird,bike,car,flower,plane关键词,并将待检索图像中的前50幅图像存储到机器硬盘内,并且分别设对应的图像库。

实验1采用bird图像库,并采集颜色特征和形状特征,采用基于图像内容的挖掘系统和本文挖掘系统对图像进行分类挖掘。具体的挖掘结果如表1、表2所示。

从表1中的数据可以看出,相对于基于图像内容的挖掘系统,本文挖掘系统的查准率和查全率都较高,说明通过采集图像颜色特征,并利用本文挖掘方法可提高海量图像数据的查全率和查准率。从表2中的数据可以看出,本文系统进行挖掘的查准率和查全率都高于传统系统,说明通过采集图像形状特征,采用本文提出的关联规则挖掘算法进行挖掘,具有较高的查全率、查准率。

实验2针对bird图像库、bike图像库、car图像库、flower图像库,从中采集形状特征,并进行细化,分别采用基于图像内容的挖掘系统和本文挖掘系统对图像数据进行挖掘,具体的挖掘结果分别如表3、表4所示。

实验3采用4个实验图像库,并从中采集形状特征,再分别采用基于图像内容的挖掘系统和本文挖掘系统,对实验图像库进行挖掘。结果分别见表5和表6。

表5 基于图像内容系统进行形状特征采集图像库的挖掘结果

对比分析表5和表6可以看出,采用本文挖掘系统进行挖掘,能够大幅度提高查准率。相对于基于图像内容的挖掘系统,本文挖掘系统能够更加准确地挖掘到正确图像,具有较高的应用价值。

3 结 论

本文设计一种基于图像特征细化的海量数据挖掘系统,其中的人机界面能够赋予系统较高的交互性。图像搜索引擎能够智能地从互联网海量的图像数据中,采集有价值的图像数据和特征。图像预处理模块对图像格式进行变换,完成图像噪声因素的过滤等操作,并对采集图像特征进行细化。数据挖掘模块依据采集的图像特征细化结果塑造CMQL语句,从图像数据库中挖掘出有价值的图像数据。系统实现部分给出了数据挖掘查询语言CMQL进行图像数据挖掘的过程。实验结果表明,所设计系统具有较高的查准率和查全率。

表6 本文挖掘系统进行形状特征采集图像库的挖掘结果

参考文献

[1] 王红斌,陈扬,高雅,等.基于数据挖掘的预警技术在一体化输电设备监测中的应用研究[J].电网与清洁能源,2014,30(1):55?58.

[2] 李正,康立源,范骁辉.中药制药过程数据集成、数据挖掘与可视化技术研究[J].中国中药杂志,2014,39(15):2989?2992.

[3] 苏晓青,黄翔,王俊.蒸发式冷凝冷水机组在数据中心的应用分析[J].西安工程大学学报,2016,30(1):37?42.

[4] 李德仁,张良培,夏桂松.遥感大数据自动分析与数据挖掘[J].测绘学报,2014,43(12):1211?1216.

[5] 吴嘉瑞,唐仕欢,郭位先,等.基于数据挖掘的名老中医经验传承研究述评[J].中国中药杂志,2014,39(4):614?617.

[6] 朱利鹏,陆超,孙元章,等.基于数据挖掘的区域暂态电压稳定评估[J].电网技术,2015,39(4):1026?1032.

[7] 张翔,徐洪平,安雪岩,等.液体火箭发动机稳态运行故障数据聚类分析研究[J].火箭推进,2015(2):118?122.