翟艳东,于 明,王 岩,韩淑珍
(河北工业大学 计算机科学与软件学院,天津300401)
责任编辑:时 雯
目前,互联网上的图像数量迅速增长。如果不按一定的规则对这些图像进行管理,那么必将给用户的使用带来诸多不便。图像分类以分类速度快、节省人力等优势有助于克服海量图像带来的难关。
在对图像进行分类时,不同用户有不同的需求,即使是同一个用户在不同的时期也可能会有不同的需求。针对这种需求变化,为了满足不同的图像管理需要,提出一种适用性更强的图像分类方法迫在眉睫。另外,考虑到某一显著的单一特征通常能够快速且准确地分类差别非常大的图像,因此将这一思想引进到图像自动分类管理中,首先按照不同的单一显著特征对图像进行粗分类,粗分类之后再融合其余的底层特征对图像进行更细一层的分类。每一层分类时选择的图像特征不同,分类结果也会有所不同,这样就可以按照不同需求将图像分为多种不同的类别。
本文通过分析对比实验结果,研究不同特征向量对图像分类的影响。并根据图像之间存在的不同显著特征,实现一种新的多级分类方法。该分类方法具有更好的适用性,也更加符合人们通过计算机自动管理图像的实际需要。
通过分析确定最能凸显图像内容的底层特征包括颜色[1]、纹理和边缘,完成图像底层特征的提取。重点研究各底层特征的不同提取方法,通过比对不同特征提取方法提取的特征向量对图像分类结果的影响以及维数的大小等因素,确定颜色特征、纹理特征和边缘特征的最终提取方法。
常用的颜色特征主要包括空间颜色直方图、颜色集、颜色聚合向量和颜色相关图等。但这些算法都需要事先对图像进行相应的量化处理,容易导致图像的误分类。此外,在提取特征时并没有将像素之间的关联考虑在内,而且特征向量维数较高。1996年Stricker和Orengo对颜色直方图的提取进行了改进,提出新的概念颜色矩(color moments)[2]。这种方法建立在图像中任何的颜色分布都可以用它的矩来表示的数学基础之上。图像的信息主要集中在图像的低阶矩中,仅用一阶矩(mean)、二阶矩(variance)和三阶矩(skewness)就能够充分表达整幅图像的颜色分布。图1为实验所用的6类图像的示例图,计算了6幅图像在H,S和V通道的9个颜色矩特征,结果如表1示。
图1 实验图像类别示例
常见的方法中Gabor滤波对图像的纹理特征具有良好的选择性,可以很好地捕捉到与空间位置、空间频率相对应的纹理信息,所提取图像纹理特征最为有效,因此采用Gabor变换进行纹理特征提取。本文在提取纹理特征向量时需要对4个方向的纹理特征图进行量化处理,这里首先将生成的每一幅特征图像都划分为固定的4×4共16个子块,再对每个子块区域的所有像素值求取平均值[3],这样就得到4×4×4=64维的纹理特征向量,用于下面的图像分类实验。
表1 示例图像颜色矩结果值
常用的边缘检测算子有Sobel算子、Prewitt算子和Laplacian算子等。Canny算子是一类非常优秀的边缘检测算子,计算流程主要包括滤波、增强和检测。
图像的边缘方向直方图特征是一种基于图像边缘的统计特征,由于其不仅可以很好地反映图像的形状信息以及方向信息,而且具有较高的运算速度等优点在图像处理领域得到广泛应用,见图2。
图2 图像边缘方向直方图
边缘方向直方图特征[4]的提取过程如下:
1)将图像进行灰度化,得到灰度图像I;
2)对图像用边缘算子Canny进行运算,并得到(x,y)点的dx和dy;
3)计算各像素点的边缘方向θ(x,y)=arctan(dx/dy);
4)将边缘方向的角度值进行量化,将[-180°,180°]每10°分一组量化为36级;
5)对边缘方向θ进行直方图统计。
图2左上图为原始的256×256像素的标准Lena图像,左下图为原始图像采用Canny算子提取的边缘特征图。右图为对边缘方向的角度进行量化后的直方图统计结果。从图中可以看出各角度的统计值之间存在很大的差别,不同类别的图像之间也存在着很大差异。因此,将其应用到图像分类中是一种非常有效的特征。考虑到计算简单、维数少且分类有效等优点,本文采用边缘方向直方图来表示边缘特征。
图像的颜色、纹理和边缘特征的提取为实现图像的自动分类提供了必要的数据准备。每一种图像的底层特征都影响着人类依靠自身视觉分辨图像的能力,起着至关重要的作用。因此,依据图像的底层特征来实现对图像的自动分类管理是一项非常有意义的研究工作。
按照第1节中介绍的方法随机选取训练样本和测试样本,将不同的单一特征分别作为SVM的输入向量对图像进行分类实验[5-7]。这里随机选取了6组数据进行分类实验,统计的分类正确率为6组正确率的算数平均值。分类结果统计表如表2所示。
表2 单一特征分类结果统计表
从表2的数据对比可以看出3种单一特征作为SVM的输入进行分类时的优劣:Gabor纹理特征的整体分类效果要优于颜色矩特征和边缘方向直方图特征,尤其是树木类和花朵类图像相对于其他两种特征均有很显著的提高,可以得出Gabor纹理针对自然类图像的分类具有很好的区分效果;边缘方向直方图特征的整体分类效果最差。但是对巴士类图像却具有最佳的识别效果,由于巴士类图像的边缘特征十分显著。除此之外,建筑类图像的分类效果也得到了一定的改善,因此边缘方向直方图特征适用于区分人造场景与其余类别的图像;颜色矩特征相对于Gabor纹理和边缘方向直方图特征,对每一类图像的分类正确率相对平均,整体的分类正确率也介于Gabor纹理和边缘方向直方图之间,但因其计算简单、维数小等特点仍然是分类中经常选用的分类特征。
将不同的组合特征作为SVM的输入向量按照2.1节中介绍的方法对图像进行分类实验。分类结果统计表如表3所示。对比表2与表3可以看出,采用组合特征进行图像分类的分类正确率要明显优于仅采用单一特征进行分类。尤其是建筑类和山脉类图像,较单一特征分类正确率得到明显提高。但具有显著边缘特征的巴士类图像和具有显著纹理特征的树木类图像在采用不包含其显著特征的其余两种特征组合后的分类正确率却比仅采用单一显著特征有一定幅度的下降,剩下的两类图像的分类正确率均有不同程度的提升。
表3 组合特征分类结果统计表
通过表2可以看出将Gabor纹理作为SVM分类器的输入向量进行分类实验时,树木类图像的分类准确率能达到很高。当采用边缘方向直方图进行图像分类实验时,巴士类图像能够得到非常高的分类正确率。
考虑到单一显著特征通常能够快速且准确地分类差别非常大的图像[8],例如实验图像中办公场所、建筑、巴士同属于人造物体构成的图像,树木、山脉和花朵同属于自然物体构成的图像。人造物体与自然物体的边缘特征差别很大,大多数人造物体含有比较规则的边缘,而自然物体的边缘却非常复杂,没有特定的规律。所以,仅使用边缘特征就能很快地区分出人造物体构成的图像和自然物体构成的图像。但仅采用单一特征,却不能够很好地区分各类图像之间存在的细微差别。因此,提出一种按照用户的需求选择不同的图像特征对图像进行粗分类,再利用第二级分类器融合其余的图像特征对图像进行细分类的多级分类方法。利用这种思想在达到更符合人类主观判断的分类结果的同时,得到更高的分类正确率。
输入图像之后,将图像转化为相同大小并且统一转换为JPEG格式,以排除格式以及大小不同对分类结果造成的影响。图像规范化之后提取图像的底层视觉特征,包括颜色、纹理和边缘以备后续分类时使用。提取特征之后,用户可以按照自己的需求选择某一特征对图像进行粗分类。粗分类后的图像如果没有达到预期的结果可以选择其他图像特征对图像进行粗分类。如果达到预期结果,则判断是否需要组合其余的底层特征进行细分类,不需要的情况下直接返回分类结果。如果需要细分则按照细分类的实际需要融合其余的底层特征(这里可以是一种特征也可以是其余的几种特征),利用第二级分类器对图像进行细分类处理,返回最终的分类结果。
针对人造物体构成的图像和自然物体构成的图像存在显著的边缘差异这一特点,首先按照边缘特征将现有的图像库分成人造物体构成的图像和自然物体构成的图像两类,人造物体构成的图像包括办公场所、建筑、巴士,自然物体构成的图像包括树木、山脉和花朵。按照如图3所示的层次重新组织实验中的6类图像。重新组织后的图像共进行以下实验:
图3 类别层次图
第一层粗分类:人造物体图像和自然物体图像。
由于人造物体的边缘比较规则而自然物体的边缘相对复杂,因此边缘特征对于人造物体构成的图像和自然物体构成的图像是一种非常显著的分类特征。依据边缘这一显著特征,首先将图库中的6类图像分为两类:人造物体图像和自然物体图像。随机选取每类图像的3/4做为训练集,剩余的1/4做为测试集。经实验得到这两类图像的总的分类正确率为91.333 3%。
第二层细分类:
由上一节中的实验数据对比分析可以看出,三类特征融合进行分类的效果比单一特征和任意两种组合特征进行分类的正确率都要高。因此,在细分类的实验中采取融合其余两种特征的方法对图像进行分类,以达到最好的分类效果,对多级分类方法的分类正确率进行研究。在此,本文分别对6类图像采用单级分类和多级分类两种方法进行分类实验,并对每类图像的分类正确率进行统计。分类正确率的对比结果如表4所示。
表4 两种方法的分类结果对比表
通过表4的分类结果比较,可以看出利用本文多级分类方法后,办公场所、建筑和花朵的分类正确率都有了显著提高。树木和山脉的分类正确率和单级分类相比基本持平。只有巴士类图像的分类正确率有小幅度的降低。即采用多级分类方法后,多类图像的分类正确率得到一定程度的提高,虽然个别类图像分类正确率有小幅度降低,但整体的分类正确率依然较单级分类方法有所提高。经实验分析,由于粗分类后缩小了再进行细分类的图像的范围,因此,避免了许多不相关图像对其分类的影响,有助于提高细分类的正确率。
从实验中可以看出多级分类与单级分类相比在分类正确率上表现出一定的优越性。而在实际应用中,由于待分类的图像尚不确定,所以分类者可以根据具体情况选择任意突出的显著特征对图像进行粗分类,再融合其余的底层特征对图像进行细分类,以达到更高的分类正确率。该方法的按需选择特征可以满足分类者的不同分类需求,更加符合人类通过计算机来管理图像的需要。
多级分类可以广泛应用于实际图像分类中,对图像源进行组织。这样利用两级分类器对图像进行分类,使图像具有更高的分类正确率,例如,可以按照颜色特征将互联网上的图像源进行粗分类,分成白天、夜晚和日出、日落,将白天的图像再按边缘特征分为室内和室外;也可以按照纹理特征将图像组织为纹理图像和非纹理图像,再将非纹理图像进行更细一层的分类。
除了具有更高的正确率之外,还可以应用于快速图像分类。每层分类时的特征都是可选的,分类者可以按照自己的需求选取尽量少的显著特征对图像进行分类。这样就缩短了特征提取的时间,能在一定程度上提高图像分类的速度。
除此之外,多级分类的思想还可以应用到场景识别的研究工作中。在场景识别时可以首先按照显著的特征区分差别比较大的场景,例如卧室和山脉、客厅和海岸线等。再利用可以反映图像之间细微差别的纹理特征来区分相似类别的图像,例如卧室和客厅、郊区和街道等,以期使场景图像达到更高的分类正确率。
[1]龙清.基于颜色特征的电视图像检索[J].电视技术,2012,36(8):74-77.
[2]STRICKER M,ORENGO M.Similarity of color images[C]//Proc.SPIE Storage and Retrieval for Image and Video DatabasesⅢ.[S.l.]:SPIE Press,1995:381-392.
[3]邢慧强,王国宇.SVM用于基于块划分特征提取的图像分类[J].微计算机信息,2006,22(5):210-212.
[4]孔英会,苏亮.基于层次语义的图像分类方法[J].计算机应用,2011,31(10):3045-3047.
[5]高锦.基于SVM的图像分类[M].西安:西北大学,2010.
[6]罗会兰,杜连平.一种SVM集成的图像分类方法研究[J].电视技术,2012,36(23):45-48.
[7]MENG Xianglin,WANG Zhengzhi,WU Lizhen.Building global image features for scene recognition[J].Patter Recognition,2012(45):373-380.
[8]FLICKNER M.Query by image and video content:the QBIC project:querying images by content using color,texture,and shape[C]//Proc.SPIE Conf.on Storage and Retrieval for Image and Video Datacases.[S.l.]:SPIE Press,1993:173-187.