基于视觉特征的图像聚类方法研究

2017-02-27 15:31林青青胡胜郑灵凤郭淑敏朱蓉
电脑知识与技术 2016年31期
关键词:聚类分析数据处理特征提取

林青青+胡胜+郑灵凤+郭淑敏+朱蓉

摘要:伴随着计算机技术和互联网技术的快速发展,人类逐渐积累的数据量急剧增多。为了从海量的数据中挖掘出有用的信息,为用户提供决策支持,聚类算法得到了广泛的关注,并应用于各类数据处理与数据挖掘之中。本项目在分析图像视觉特性的基础之上,通过对图像颜色、纹理和形状多种特征信息的有效融合,利用K-均值算法进行聚类。提出的方法在采集的图像数据集上进行实验,有很好的聚类效果。

关键词:数据处理;数据挖掘;特征提取;聚类分析

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)31-0164-04

Abstract:With the rapid development of computer technology and Internet technology, the amount of data accumulated in the human gradually increased dramatically. For the vast amounts of data into useful information for the user to provide decision support, clustering algorithm has been widely attention and applied to all types of data processing and data mining applications. The project based on the analysis of visual features on the image, through the effective integration of color, texture and shape features of the image information, the use of K-Means algorithm to cluster. The proposed method can be carried out experiments on the acquired image data set, and has a good clustering effect .

Key words: data processing; data mining;feature extraction;cluster analysis

現今,互联网上的图像信息数量如海洋般庞大,我们虽可以通过眼睛获取十分丰富的信息,然而人类可以接受的范围是有限的,如何从海量的数据之中准确、快速地将图像进行聚类,最终为人类社会的发展服务,是当前图像特征提取领域的一个研究焦点。

图像聚类就是运用计算机对图像库中图像进行定量分析,再把图像划分到某一种特征类别中,以代替人类对图像的视觉判别。图像聚类的过程实质上就是一个基于知识的图像理解过程,同时也是人类对图像的视觉判别的延续与发展。

基于视觉特征的图像聚类研究是解决视觉图像问题的一条重要途径,也是一个聚集了计算机视觉、图像处理、数据挖掘等多个研究领域的交叉研究方向。现如今,基于视觉特征的图像分类研究已越来越受到国内外研究者的关注,在近几年举办的与该领域研究相关的一些顶级国际会议,如计算机视觉与图像处理国际会议CVPR、数据挖掘国际会议KDD、ICDM等等,都有相关文献发表。

文献[2]中,孙君顶等人在形状特征提取中提出一种新的图像分块形状特征的描述方法,对图像采用固定块的分割方法。文献[4]中,刘丽等人介绍了关于纹理特征的所有研究方法。文献[6]中,赵书莲在应用研究过程中使用Hu不变矩算法进行形状特征的提取。在博士论文[11]中,朱蓉论述了所有视觉特征的提取方法。

随着研究者在聚类技术上的不断改进和创新,许多新奇且高效的聚类算法层出不穷,针对特定的问题和用户,许多学者研究出了多种具有代表性的聚类算法,并且广泛地应用于模式识别、生物信息、图像处理以及数据挖掘等领域。

文献[7]中,臧少杰介绍了所有聚类算法,并且将这些算法进行了比较。文献[8]中,路晶等人针对非监督学习,在基于EM算法启发式迭代优化算法的框架下,提出了6种多例聚类算法。文献[9]中,周俊祥对模糊C-均值聚类(FCM,全称为Fuzzy C-Means Algorithm)算法进行改进,有效地降低了孤立点对图像数据聚类结果的影响。

1 特征提取

基于视觉特征的网络图像特征有三个,分别为颜色、纹理、形状。特征提取是将某一模式的一组测量值进行变换,用以表现这一模式具有代表性特征的方法。通过影像分析和变换,以提取所需特征的方法。

1.1 颜色特征的提取

颜色特征的提取主要有四种方法,为颜色直方图、颜色矩与颜色熵的研究、颜色相关图的研究、

颜色聚合向量的研究。在这四种方法中,颜色矩与颜色熵的研究方法的分辨能力比较低,所以通常也必须和其他图像特征结合起来进行检索。颜色相关图的研究计算量很大,近些年来对于颜色相关图的研究才刚刚起步,主要是结合其他方法一起来研究,在文献[3]中作者介绍了一种基于颜色相关图和小波变换的算法。颜色聚合向量的研究当前也主要集中于与其他方法结合来进行效果的改进上,比如该文中作者在颜色直方图的基础之上采用了一种基于颜色聚合向量的方法从而提高了检索的精度。而颜色直方图具有相似度计算,有特征提取简洁和不随图像尺度、旋转等变化而变化的特点。所以颜色直方图相较于其他方法更适合于颜色特征的提取。具体方法如下:

1.2纹理特征的提取

纹理是指在图像中重复出现的局部模式及其排列规则。纹理特征与颜色特征相似,同样也是一个整体性的特征。近年来,对纹理分析方法的种种理论或者方法在纹理特征提取中的实践已然基本成形,Tuceryan和Jain将纹理特征提取的方法归纳为五大类,即结构统计、 模型、信号处理、几何和结构家族。这种分类方法被大多学者所采纳。

模型家族的方法能兼顾纹理局部的随机性与整体上的规律性,而且有很强大的灵活性;主要优势是提供了用来表示空间上相关的随机变量之间的相互作用的模型。它的不足在于模型系数的求解有难度,需要相当大的计算量,往往需要迭代了数百次才能达到收敛。信号处理家族对纹理进行多分辨描述,可以在更精准的尺度之上分析纹理。但有有效性不佳和计算量大的缺陷。

而本文推荐使用的统计家族方法简便,容易实现,特别是灰度共生矩阵(GLCM,全称为Gray Level Co-occurrence Matrix)方法是世界公认的有效方法,具有比较强的适应性。

灰度共生矩阵是被广泛使用的纹理提取的算法,也是分析图像的基础,它运用统计学当中的概率来反映图像灰度的有关方向和间隔等整体信息。其算法描述如下:

是图像中任意一点,是图像中移动后的另一点,因此形成一个点对, 是该点对的灰度值,即m是点的灰度值, n是点的灰度值。然后固定和,通过点的改动,来明确相应的值,所以相应灰度值的组合为(灰度值的级数为L)。对于研究的图像,计算出值出现的频率,化其积分为1,它的概率为,则灰度共生矩阵(灰度联合概率密度)为。

对于有区别的纹理周期分布,就有不一样的离差分值,即不一样的与值。在纹理比较细致的情况下,选取(1,0),(0,1),(1,1),(-1,1)等小的差分值是非常有效果的。若与取值比较小,则表明纹理图像变化情况迟缓,那么在灰度联合概率矩阵对角线上的数值就相对较大,适合于做对角线分布;若与取值比较大,那么说明纹理变化愈快,则在灰度联合概率矩阵对角线上的数值就愈小,适合于做均匀分布。一系列的纹理特征的統计量能够通过灰度共生矩阵而得到,其中常用的有以下8个纹理特征值。

(1)角二阶矩

(2)对比度其中。

(3)灰度相关其中分别为与的标准差和准值。

(4)熵

(5)逆差矩其中k为常数且。

(6)最大概率

(7)相异

(8)反差

1.3 形状特征的提取

形状特征提取表示方法有2种,一种是区域特性,它主要是针对于图像的整个形状区域;另一种是轮廓特性,它主要针对于物体的外边界。前人关于形状特征提取的典型方法有:边界特征值法、几何参数法、形状不变矩法、傅里叶形状描述法等。本文采用Hu不变矩算法来提取形状特征。

Hu不变矩是由Hu在1962年提出来的。不变矩是一种经过提取具有平移、旋转与比例不变性的图像特征,不变矩的中心思想是使用对变换不敏感的基于区域的几个矩阵作为形状特征,从而进行图像识别的方法。矩不变量因为具有不随图像的位置、大小与方向而变化的特点,对于提取图像中的形状特征而言,是一个很常用的工具。

2 聚类分析

聚类是依据事物的某些属性特性,将事物划分成为不同类的过程,其目的是使得类间的相似性尽可能小,类内的相似性尽可能大。在许多应用当中,聚类分析是一种数据预处理的过程,同时也是进一步分析和处理数据的基础。经过恰当的聚类算法,对事物的特征数据进行预处理,从而事物才便于研究,事物的内部规律才可能被人类所掌握。

聚类算法大致可以分为以下几种:划分、层次、基于密度、基于网格和基于模型的聚类。

基于层次的聚类是将既定数据对象集合进行层次的分解,虽然适用于任意形状和任意属性的数据集,但算法执行时间长,不能回溯处理;基于密度的聚类是基于发现所有形状的聚类结果,能够用来过滤“噪声”孤立点数据,发现所有形状的不同簇,但处理时间与每维空间所划分的单元数相关,一定程度上降低了聚类的质量和准确性;基于网格的聚类能够处理所有类型的数据,但这是以降低聚类的质量和准确度为代价的;基于模型的方法对每个簇假设了一个固定的模型,继而找到对给定模型最佳拟合的数据。基于模型的算法能够经过搭建反映数据点空间分布的密度函数来确定聚类。

基于划分的算法首先构建一个初始的划分,确定需要构建的划分数目k。之后使用一种迭代的重定位技术,通过对象在划分间变动来改进划分,使在相同的类中对象之间尽可能接近或相近,相反不同类中的对象尽可能阔别或有差别。为了能够达到全局的最优,基于划分的聚类会需要列举所有可能的划分。实际上,大部分应用采用了K-均值算法(K-Means)和K-中心点算法这两种较流行的启发式算法。

这两种启发式聚类算法对在中小规模的数据库中找到球状簇非常适用。下面主要介绍本文所采用的K-均值算法。

2.1 K-均值算法

K-均值算法的过程:

1.随机选取k个数据点作为初始的种子聚类中心。

2.计算每个数据点与各个中资聚类中心之间的距离,把每个数据点分配给距离它最近的聚类中心。聚类中心以及分配给它的数据点就代表一个聚类。

3.重复以上步骤,直至达到以下任一条件便会终止:

(1)没有(或最小数目)数据点被重新分配给不同的聚类。

(2)没有(或最小数目)聚类中心再发生变化。

3.2 特征提取实验

纹理特征提取:从图像库中选取100幅花朵类图像,用统计家族的灰度共生矩阵(GLCM)提取其8维纹理特征。

形状特征提取:从图像库中选取100幅花朵类图像,选择Hu不变矩方法提取其形状特征。

3.3 具体分析过程

第一步:从图像库中选取两组不同图像,使用灰度共生矩阵和Hu不变矩提取各自的纹理和形状特征;

第二步:利用K均值算法将这两组图像分别基于纹理和形状特征进行聚类,再从中分别选取60幅得到聚类中心的范围,求出平均值;

第三步:分别从花朵类和美食类图像中选取40幅图像,将每幅图像的纹理和形状特征数值与平均值进行欧式距离计算,距离较小时可认为属于该类,而后计算两组数据的准确率。

1)纹理特征的聚类结果

测试集中40幅花朵类图像的纹理特征数据与训练集中花朵类图像纹理特征数据平均值的欧式距离全都小于和训练集中美食类图像纹理特征数据平均值的欧式距离,故实验准确率达到100.0%;测试集中40幅美食类图像的纹理特征数据与训练集中美食类图像纹理特征数据平均值的欧式距离全都小于和训练集中花朵类图像纹理特征数据平均值的欧式距离,故实验准确率达到100.0%。纹理特征的比较结果如表1所示:

2)形状特征的聚类结果

测试集中40幅花朵类图像的形状特征数据与训练集中花朵类图像形状特征数据平均值的欧式距离有28幅图像的数值小于和训练集中美食类图像形状特征数据平均值的欧式距离,故实验准确率达到70.0%。测试集中40幅美食类图像的形状特征数据与训练集中美食类图像形状特征数据平均值的欧式距离有30幅图像的数值小于和训练集中花朵类图像形状特征数据平均值的欧式距离,故实验准确率达到75.0%。形状特征的比较结果如表2所示:

综上所述:

1)花朵类图像和美食类图像在纹理上的有很大的相似性,因为花朵类图像的纹理较细致,其基元较小,因而空间频率较高,而美食类图像的纹理较粗糙,其基元较大,空间频率较低。

2)花朵类图像和美食类图像在形状上的區别比较小,由于某些花朵的形状与某些美食的形状有相似性,如带有花边图案的盘子所盛的美食的图像和摆盘呈花型的美食图像与花朵类图像有很大的相似度,如图1中的(a)图与图2中的(c)图,会有较低的准确率。而图2中(a)图的美食呈长方形,则会与花朵类图像有很大的区别。

4 总结

基于视觉特征的图像聚类研究中,花朵类图像和美食类图像在纹理和形状上的聚类都有一定的准确率,特别是在纹理的聚类上本次研究有着100.0%的准确率。同时也有不足之处,本次研究并未融入颜色特征,针对特定的图像也还需要进一步研究具有区分度的特征。本文所用的K-均值算法只能应用于那些均值能够被定义的数据上。因此,它很难应用到范畴数据上,且对于异常值异常敏感。所以现在所用的聚类算法未来要继续改进,比如聚类中心的计算能够实现自适应等。

基于视觉特征的图像聚类方法研究涉及图像搜索引擎、数字照片的个性化管理、敏感图像的识别与过滤、艺术图像鉴别等等,具有十分重要的现实意义,相关研究领域的最新知识与研究成果都可以创新性地应用到解决各方面的问题中,以促进图像聚类技术的快速发展。

参考文献:

[1] 高进乐,康耀红,伍小芹.基于颜色特征图像检索方法的研究[J] .信息技术,2008(11):4-7.

[2] 孙君顶,赵珊.图像底层特征提取与检索技术[M].北京:电子工业出版社,2009:49-85.

[3] 张笃振.基于颜色特征与LBP的图像检索算法研究[J] .微计算机应用,2009,30(6):35-38.

[4] 刘丽,匡纲要.图像纹理特征提取方法综述[J].中国图象图形学报,2009(4).

[5] 王志瑞,闫彩良.图像特征提取方法的综述[J].吉首大学学报:自然科学版,2011(6).

[6] 赵书莲.形状分类及其在图像检索系统中的应用研究[D].山东:山东师范大学,2006.

[7] 臧少杰.基于视觉的聚类算法研究及应用[D].山东.山东师范大学,2008:1-49.

[8] 路晶等.基于多例学习的WEB图像聚类[J].计算机研究与发展,2009,46(9):1462-1470.

[9] 周俊祥.改进FCM的图像聚类方法[J].计算机系统应用,2011,20(7).

[10] 刘康苗.基于视觉与语义融合特征的阶段式图像聚类[J].浙江大学学报:工学版,2008,42(12).

[11] 朱蓉.基于语义的WEB图像分类研究[D].浙江大学,2011.

[12] 张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用,2007(5).

[13] 张讲社,徐宗本.基于视觉系统的聚类:原理与算法[J].工程数学学报,2000(5).

[14] Jain A. K. Data Clustering: a Reviewing[J].ACM Comput. Surv., 1999, 31(3):264-323.

[15] Tan S.K. Clustering Analysis: Basic Concepts and Algorithms [J].Data Ming (Chapter 8),2004, 487-568.

猜你喜欢
聚类分析数据处理特征提取
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于MED和循环域解调的多故障特征提取
基于POS AV610与PPP的车辆导航数据处理
Walsh变换在滚动轴承早期故障特征提取中的应用