(桂林师范高等专科学校网络与教育技术中心,广西桂林541199)
近几十年来,随着科技水平的发展,人们通过相机、手机以及其他图像获取设备和图像处理设备,每天都可以获取大量的图像数据。伴随着互联网技术的快速发展,为了更加快速、精确地管理图像,减少人工参与的成本,计算机能自动识别图像信息并分门别类进行管理。图像分类技术通过使用特定的算法提取能够描述图像的特征,然后通过特征实现分类。图像分类的实现主要包括特征提取和分类算法。图像特征提取是图像分类的基础工作,选择不同的图像特征进行图像分类,分类效果也会不同。图像特征分为底层特征和高级语义特征,目前底层特征技术日趋成熟。图像的底层图像特征包括颜色特征、形状特征、纹理特征和空间关系特征。可以单独使用一种特征来进行图像分类,也可以考虑多种特征融合来进行分类[1]。本文研究基于多特征融合的分类算法,对于提高分类效果具有重要的现实意义。
图像单一特征仅可以部分描述图像属性,比较片面,不能够完全区分图像,在图像有较大变化(如尺度或方向)的场合分类效果通常较差。因此,应当考虑多种特征融合提高分类准确率。李志欣等人将SIFT特征用稀疏向量表示后与Gist和PHOG特征有机融合,提出了一种多特征的图像分类方法[2]。文献[3]将颜色直方图特征、灰度共生矩阵,以及Hu不变矩特征进行融合,运用Adaboost算法进行分类。文献[4]提出了一种基于Contourlet变换和Hu不变矩的图像检索算法,有效地融合了图像的纹理特征与低频子带的形状特征,较好地实现了基于内容的图像检索。文献[5]提出了基于Gist特征与PHOG特征融合的场景分类方法,将两种特征融合,使用SVM分类器进行分类。文献[6]将Gist特征与HOG特征进行组合实现图像的场景分类。文献[7]针对词袋算法忽略局部特征空间关系的弱点,利用局部特征的空间共生统计代替直方图统计,使描述符带有空间信息,提高了分类性能。文献[8]提出了一种综合颜色空间特征和纹理特征的图像检索方法,通过中心块图像分形编码方法得到分形编码参数,以其为纹理特征与颜色特征相结合,然后利用人工鱼群算法进行检索。邓江洪等人[9]提出了一种多特征筛选与支持向量机相融合的图像分类模型,首先提取颜色特征和纹理特征,然后根据平均影响值,筛选出重要特征向量,最后使用SVM构建图像的多分类器[10]。
基于上述研究,本文将不同特征进行融合,确定出其中最优的分类组合。发现Gist特征和颜色矩特征相融合,使用libSVM对图像进行分类[11],该方法具有较好的分类效果。
Gist特征是一种全局特征,主要由图像的自然度、开放度、膨胀度等五个方面信息构成。其主要是使用Gabor滤波器组对图像进行滤波处理,然后划分成NXN的网格,再提取图像的轮廓信息。
不变矩是指物体图像经过平移、旋转以及尺度变换仍然保持不变的矩特征量。Hu不变矩是基于区域的图像形状描述方法。
在Hu不变矩的构造过程中,通过使用中心矩消除图像平移影响,规格化处理消除图像缩放影响,构造多项式实现旋转的不变特性[12]。
不同阶矩反映不同的目标特性,低阶反映了目标的基本形状,高阶则反映了物体的细节和复杂性。另外Hu不变矩具有一定的信息冗余性,对噪声敏感。
颜色矩是一种简单有效的颜色特征表示方法,有一阶矩(均值,mean)、二阶矩(方差,viarance)和三阶矩(斜度,skewness)等,计算比较简单方便。由于颜色信息主要分布于低阶矩中,所以用一阶矩,二阶矩和三阶矩足以表达图像的颜色分布,颜色矩已证明可有效地表示图像中的颜色分布。
图像的颜色矩特征描述了图像的宏观概率统计特征,不需要量化图像特征。图像像素具有三个颜色通道,颜色矩维度小,只有9个分量,提取速度快。颜色矩特征还具有平移不变性、旋转不变性以及缩放不变性。
特征融合是指将两个或多个特征向量按照某种规则组合成新的特征向量。特征融合方法中最简单有效的方法是串联和并联方法[13]。
由上式可知,若α为m维,β为n维,则γ为(m+n)维向量。
本文选取了Gist特征,颜色矩特征,Hu不变矩特征进行融合。其中颜色特征是最早被用于图像分类的特征之一,能够直观描述图像的内容。颜色矩维数低,提取方便,但单独的颜色特征缺乏空间分布信息,所以考虑结合其他特征进行图像分类。相对于颜色特征,形状特征可能包含了一定的语意信息,在某种程度上描述了人对物体的视觉感知。Hu不变矩计算效率高且存储开销小,选择它作为融合特征之一。Gist特征考虑了图像的空间结构关系,对场景类图像具有很好的分类效果。选择这三种特征具有一定的互补优势,能够更准确描述图像属性,提高图像分类效果。
分别提取图像的三种特征,这三种特征的维数如表1所示:
表1 选取的特征及维数
按照文献[5]方法提取图像的Gist特征,将图像划分为4×4的网格,用四个尺度八个方向的Gabor滤波器组处理得到Gist特征,则整幅图像的Gist特征维数为 4×4×32=512 维。
颜色的HSV空间各轴在视觉上彼此没有关系,空间距离适合人眼视觉感知,同时从RGB到HSV的转换是一个简捷、有效的非线性变换,因此,本文选择在HSV空间提取图像颜色矩特征。
在对Hu不变矩特征[12]进行提取时,七个不变矩的变化范围很大,在图像处理的过程中会造成很大的数据偏差。为了便于比较,并缩小数据偏差,本文采用对数的操作方法[4]对Hu不变矩进行数据压缩。
选择串联方式对Gist特征,颜色矩特征,Hu不变矩特征进行特征融合有四种情况:Gist特征与Hu不变矩特征融合,颜色矩与不变矩特征融合,Gist特征与颜色矩特征融合,以及这三种特征融合。在特征融合时,需对Hu不变矩进行数据标准化处理。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。两种常用的归一化方法为min—max标准化和Z—score标准化方法,本文采用第一种方法进行处理,融合之前将特征值调整到[0,1]之间。融合后的特征及维数如表2所示:
表2 融合后的特征及维数
本文采用libSVM分类法对图像进行分类。分别将四种融合特征进行图像分类,并选出分类效果最好的融合特征。
本文的试验环境为win7下matlab2011a,内存8G。为了测试本文方法的准确率,试验中下载的图像来自COREL图像库,从中选取了恐龙、花朵、建筑物等10类图像各50幅,设训练图像个数为t,在每类图像中分别随机选取t=10幅、20幅、30幅、40幅作为训练数据,剩下的作为测试数据。以平均分类准确率为最终准确分类率。
对选取的三种特征分别直接进行分类,分类结果如表3所示:
表3 单独特征分类结果
对融合后的特征进行分类,实验结果如表4所示:
表4 融合特征分类效果
从表3,4可以看出将不同特征进行融合可以提高分类效果。颜色矩与Gist特征融合后,分类平均准确率为94.55%;将颜色矩、Gist以及Hu不变矩三种特征串联后,平均准确率为93.86%,因此并非融合的特征越多,分类效果就越好。通过实验可以看出颜色矩特征与Gist特征相融合,分类效果最好。
本文分类方法的步骤:
(1)分别提取图像Gist特征,Hu不变矩特征,颜色矩特征;
(2)对特征数据进行归一化处理,然后将三种特征进行串联融合;
(3)用libSVM分类器进行训练和分类,选择出分类效果最好的特征。
本文分类方法流程如图1所示:
图1 分类方法流程示意图
将本文方法与文献[2][4][5][9]进行对比,实验结果如表5所示:
表5 分类对比结果
实验结果表明本文方法的分类效果明显优于文献[2][4]以及[5]的方法,在图像分类准确率方面有显著的提高。与文献[9]相比,也略有提高。
将本文方法应用于车辆图像分类,实验采用货车、大巴、汽车三类图片,每类各20幅。如图所示(每类选两幅):
图2 货车图片
图3 大巴图片
图4 汽车图片
对所拍摄的车辆图片进行颜色矩特征和Gist特征融合方法进行分类,在每类图像中分别随机选取t=6幅、8幅、10幅、12幅作为训练数据,剩下的作为测试数据。实验结果如表6所示。实验结果表明对车辆图像进行分类,该方法具有不错的效果。
表6 车辆图像分类结果
本文介绍了图像颜色矩特征、Gist特征以及Hu不变矩特征提取方法,阐述了这几种特征提取方法的步骤及特点。在研究图像颜色矩特征、Gist特征以及Hu不变矩特征相互融合的基础上,提出了一种基于颜色矩与Gist特征的图像分类方法。该分类方法将两种特征串联方式进行融合,再使用libSVM分类器进行分类,提高了分类准确率。将该方法应用到车辆图像分类方面上,取得了不错的分类效果。