基于分布式聚类算法的图像特征提取研究

2017-12-29 08:34摆小军张镇东
移动信息 2017年1期
关键词:字典纹理特征提取

吕 娜 摆小军 张 烜 张镇东



基于分布式聚类算法的图像特征提取研究

吕 娜 摆小军 张 烜 张镇东

国网新疆电力公司信息通信公司,新疆 乌鲁木齐 830000

在计算机视觉领域,聚类算法主要用来构建视觉词汇的词袋,因其简单、高效而得到了广泛的应用。众所周知,最简单的聚类算法是K-means算法。该算法主要是通过初始化一组聚类中心,并通过计算其他样本点到聚类中心的距离判断该样本点属于某一个聚类中心。采用分布式K-means算法提取图像特征则是在分布式的环境下图像特征的提取。通过聚类的过程得到聚类中心,即字典,在得到字典后,通过特征映射函数,将输入的图像向量转换成相应的新的特征表达,用来准确表达。

聚类算法;聚类中心;特征提取;分布式

引言

1967年,J.B.MacQueen提出了K-means聚类算法,随后该算法被广泛应用在不同的领域,由于其容易实现、简单高效的特点,使其依旧是目前被研究的热点。由于K-means 算法易于描述,时间效率高,在处理大规模数据方面有很大的优势。目前,该算法在图像分类,图像检索以及自然语言处理等众多领域都有广泛的应用。

分布式K-means算法[1]是在分布式平台上实现的,主要是对大规模的数据进行聚类分析,体现了并行计算和分布式计算日益增长的趋势。其思想是:首先在各个站点上对数据进行局部聚类操作,之后将其结果输入给其他站点并聚集成最终的聚类结果。

1 常见图像特征提取算法

1.1 颜色特征

颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征,此时所有属于图像或图像区域的像素都有各自的贡献。由于颜色对图像或图像区域的方向、大小等变化不敏感,所以颜色特征不能很好地捕捉图像中对象的局部特征。

常用的特征提取方法主要是颜色直方图,能简单描述一幅图像中颜色的全局分布,即不同色彩在整幅图像中所占的比例,特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。但是,颜色直方图无法描述图像中颜色的局部分布及每种色彩所处的空间位置,即无法描述图像中的某一具体的对象或物体。

1.2 纹理特征

纹理特征同样也是一种全局特征,描述图像或图像区域所对应景物的表面性质。由于纹理只是一种物体表面的特性,并不能完全反映出物体的本质属性,所以仅仅利用纹理特征是无法获得高层次图像内容的。与颜色特征不同,纹理特征不是基于像素点的特征,它需要在包含多个像素点的区域中进行统计计算。在模式匹配中,这种区域性的特征具有较大的优越性,不会由于局部的偏差而无法匹配成功。作为一种统计特征,纹理特征常具有旋转不变性,并且对于噪声有较强的抵抗能力。但是,纹理特征也有不足之处,一个很明显的缺点是当图像的分辨率变化的时候,所计算出来的纹理可能会有较大偏差。另外,由于有可能受到光照、反射情况的影响,从2D图像中反映出来的纹理不一定是3D物体表面真实的纹理。

1.3 形状特征

各种基于形状特征的检索方法都可以比较有效地利用图像中感兴趣的目标来进行检索,但它们也有一些共同的问题。主要有:基于行政的检索方法还缺乏完善的数据模型;当目标有变形时,会引起检索结果不准确的现象等[2]。通常情况下,形状特征有两类表示方法:一类是轮廓特征;另一类是区域特征。图像的轮廓特征主要针对物体的外边界,而图像的区域特征则关系到整个形状区域。

2 基于分布式聚类算法的图像特征提取

2.1 原理

K-means算法是基于样本间相似性度量的聚类方法的一种,属于非监督学习方法的一种。K-means算法主要是来计算数据聚集的算法,通过迭代的方式不断地选取离聚类中心最近均值的算法。K-means聚类算法是一种典型的动态的聚类算法,其主要关注点是以误差平方和作为准则函数,通过逐点修改聚类中心,对每一个样本按某一种计算方法,将该样本分配给某一组,之后重新计算这个组的均值。同时,所获得的新的均值作为该组的新的聚类中心进行下一次样本的聚类。

在分布式的基础上,将单机K-means算法并行化、分布式化,对输入的数据并行处理。在具体的聚类过程中,给定上一步骤得到的完整的聚类中心,在每个独立计算的节点上读取输入数据,计算每个数据点的相应的聚类中心,最终输出全局的聚类集合。

2.2 图像特征提取

采用分布式K-means算法来提取图像特征。首先对输入的图像随机提取图像块,这一操作对图片之间是不相关的,在分布式的环境下可以并行进行。同时为了减少冗余信息,保留关键信息,之后会对所提取的图像块进行预处理操作,这里包括正则化和白化过程,在预处理过程中,同样可以在多个独立月工作的节点之间并行的进行,从而提高效率,最后将得到的预处理后的图像块作为并行化K-means算法的输入,进行提取字典的操作,在得到字典后,通过选取的特征映射函数,将图像映射为一个新的表达,即是图像特征。该算法是在分布式上实现的每一个步骤,包括预处理、字典的学习以及最终的图像特征提取过程都是并行处理的。相对于单机系统实现的算法,在一定程度上节约了时间成本。同时,K-means作为一种无监督的特征学习方法,避免了对各种训练参数的学习。这些参数一般是需要通过交叉验证的方式来获得最优设置,这无疑会增加很大的时间成本。但是,在分布式K-means提取图像特征的过程中,除了需要学习字典外,不需要学习其他的参数。因此,相对于其他的特征学习算法,该算法时间效率上具有很大的优势[3]。

3 总结

图像特征提取是计算机视觉和图像处理领域中一个很重要的部分,主要指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征,其结果是把图像上的点分为不同的子集,这些子集通常属于孤立的点、连续的曲线或者连续的区域。聚类算法被广泛的应用在日常生活中。在商业上,聚类算法有助于分析人员从各种消费数据库中提取出特定的消费信息,并且概括出消费信息中体现的消费模式。聚类算法是数据挖掘领域中的一个重要部分,通常可以作为一个良好的工具来发现数据库中的深层次的特征表达。同时,可以概括出每一个特定类别的特点,采用分布式的聚类算法提取图像特征,能够避免众多参数的训练,很大程度上节省了时间成本。

[1]张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究,2007,24(5):166-168.

[2]吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35.

[3]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):48-61.

Research on image feature extraction based on Distributed Clustering Algorithm

LYU Na Bai Xiaojun Zhang Xuan Zhang Zhendong

State Grid Xinjiang Electric Power Company Information and Communication Company,Xinjiang Urumqi 830000

In the field of computer vision,clustering algorithm is mainly used to construct the word bag of visual words, which is widely used for its simple and efficient. As everyone knows,the most simple clustering algorithm is the K-means algorithm,the algorithm is mainly by initializing a set of cluster centers,and by calculating the other sample points to the distance from the cluster center to determine the sample belongs to a cluster center. The distributed K-means algorithm of image feature extraction is to extract image features in the distributed environment,clustering centers obtained by clustering process, which is in the dictionary, the dictionary,the feature mapping function,the input image vector is converted to the new features of the corresponding expression for accurate expression.

clustering algorithm;cluster center;feature extraction;distributed

TP391.41

A

1009-6434(2017)01-0147-02

猜你喜欢
字典纹理特征提取
基于BM3D的复杂纹理区域图像去噪
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
字典的由来
使用纹理叠加添加艺术画特效
基于Daubechies(dbN)的飞行器音频特征提取
大头熊的字典
TEXTURE ON TEXTURE质地上的纹理
正版字典