邓 莹, 余元辉
(1.华侨大学厦门工学院,福建厦门361021; 2.集美大学计算机工程学院,福建厦门361021)
(2)采用1.2节的方法将其分割成一个圆和M-1个圆环、1个分割剩余部分,对这M+1个部分用0将其填充为正方形区域;
(3)将每一个正方形分成8×8个子块,对每一子块进行离散余弦变换,提取其直流分量,对这64个直流分量求其均值μ和标准方差σ,做为图像的能量矩特征;
(4)对环形能量矩采用下面的方法进行相似性度量:
基于内容的图像检索技术CBIR(Content-Based Image Retrieval)是由机器首先自动提取包含图像内容的可视特征,如颜色、纹理、形状、对象的位置和相互关系等,然后将数据库中图像和查询样本图像在特征空间进行相似匹配,以检索出与样本相似的图像过程.
在图像检索中,常采用基于多种特征综合的CBIR以提高检索精确度.但图像特征向量维数过多又会影响检索效率,有时甚至还会导致检索精度下降.因此,能以较少维度的特征向量表达更多的图像信息,从而获得更好的检索结果成为人们追求的目标.颜色矩(color moments)是一种简单而有效的颜色特征[1-2].但颜色矩同样侧重于图像的全局特征,没有包含颜色间的空间关系.鉴于此,本文采用提取圆环颜色矩的局部特征来描述检索图像,同时为避免在实际应用中低次矩较弱的分辨能力,提取基于离散余弦变换的能量矩统计特征作为图像间匹配的重要依据.实验表明,与传统的颜色直方图及纹理特征检索结果的方法相比较,所提出的方法能以较少维度的特征向量表达更多的图像信息,从而获得更好的检索结果.
颜色特征是图像检索中应用最为广泛的视觉特征,而选择一个符合人眼视觉特性的颜色模型是利用颜色特征进行图像检索的关键.L*a*b*颜色模型是国际照明委员会(CIE)于1976年定义的一种基于对立色理论和参考白点而建立的颜色模型.L*a*b*模型具有色域宽阔、与光线及设备无关的优点.另外,L*a*b*模型还弥补了RGB模型色彩分布不均的不足,且处理速度与RGB模型同样快.因此,本文选择了基于CIEL*a*b*颜色模型来提取颜色矩特征.
设RGB模型的颜色分量分别为R、G、B,则由RGB颜色模型到L*a*b*颜色模型的转换由下式给出:
其中:X、Y和Z是XYZ彩色空间分量,X0、Y0和Z0为参考白点的分量[3].
由Stricker和Orengo提出的颜色矩(color moments)[1-2]是一种非常简单而有效的颜色特征.这种方法的数学基础在于图像中任何的颜色分布均可以用它的矩来表示.由于颜色分布信息主要集中在低阶矩中,因此,仅采用颜色的一阶矩(mean)、二阶矩(variance)和三阶矩(skewness)就足以表达图像的颜色分布.与颜色直方图相比,该方法的另一个好处在于无需对特征进行向量化.颜色的3个低次矩的数学表达形式为:
其中:N代表图像的像素总数,pij是图像中第j个像素的第i个颜色分量.因此,图像的颜色矩一共只需要9个分量(3个颜色分量L*、a*和b*,每个分量3个低阶矩).实验表明颜色矩的维数尽管远远低于颜色直方图,但检索效果却很接近.
颜色矩反映的是图像的整体特征,没有表达图像色彩的空间位置.而事实上,图像中对象所在的位置和对象之间的空间关系同样是图像检索中非常重要的特征.基于此,本文采用圆环形几何分割法[4]来记录颜色的空间信息,并且保证特征量具有旋转、缩放不变性等特点.圆环形几何分割算法的主要思想是将一幅图像按照中心点坐标将其等间隔分割成一个圆和M-1个圆环、1个分割剩余部分.设W、H为图像的宽和高,则圆和圆环半径
然后分别计算这几个分割区域的L*a*b*颜色矩特征向量[5].这样,图像就可以用颜色分布矩特征向量表征.在图像相似性度量时,计算两幅图像的颜色分布矩特征向量序列中对应向量的加权欧氏距离Dcm,即可据此进行图像检索.
离散余弦变换(discrete cosine transform,DCT)[6]的变换核为余弦函数,具有将能量集中于少数低频频率系数、各系数互不相关、高频能量衰减很快且能量较小等性质.二维DCT的解析式定义可由下式表示:
其中:u=0,1,…,M-1, v=0,1,…,N-1
设F(u,v)代表图像经过DCT变换后每一分块的变换系数,F(0,0)是分块内所有样值的集中,相当于直流分量,它表示了输入矩阵全部幅度的平均值;随着u、v值增加,相应系数分别代表逐步增加的水平空间频率分量和垂直空间频率分量的大小.
DCT变换算法简单,实现方便,本文将其引入用于图像检索.通过提取各分块DCT变换系数的直流分量,采用能量的均值和方差作为图像间匹配的纹理统计特征.
对于一幅彩色RGB图像,计算其基于离散余弦变换能量矩特征的过程为:
(1)首先把一幅彩色RGB的图像转换为灰度图像,然后归一化图像尺寸(文中均为256× 256);
(2)采用1.2节的方法将其分割成一个圆和M-1个圆环、1个分割剩余部分,对这M+1个部分用0将其填充为正方形区域;
(3)将每一个正方形分成8×8个子块,对每一子块进行离散余弦变换,提取其直流分量,对这64个直流分量求其均值μ和标准方差σ,做为图像的能量矩特征;
(4)对环形能量矩采用下面的方法进行相似性度量:
分别使用环形能量矩和传统灰度共生矩阵[5]方法,检索部分图像,检索结果的相似性度量值列于表1中.对比检索结果可知:环形能量矩方法对旋转、缩放和噪声均具有较好的鲁棒性.
表1 部分图像纹理特征的相似性度量Table 1 The similarity based on textural features
单个特征和语义之间存在相当的语义断层,某些语义上完全不相关的图像的特征矢量在特征空间中的位置却可能相当接近.为了避免低次矩较弱的分辨能力,可综合利用颜色矩和基于DCT的能量矩特征进行检索.首先按上述方法分别提取颜色矩和DCT能量矩特征向量,然后将这两个向量结合起来进行检索.
由于颜色矩和基于DCT的能量矩特征的物理意义不同,不具有直接可比性.因此,需要对不同的数值进行归一化.现采用高斯归一化方法,其主要步骤为:设子特征i的距离度量为Di,相应的距离均值和标准差分别为mi和σi.在高斯假设的前提下,归一化距离度量为:
其中Qj、Ij是任意两幅图像的特征向量(对应于子特征i).上式保证Di'的取值有99%落入[0,1]区间中.实际应用中,将[0,1]区间外的值设为0或1,以保证所有数值均落在[0,1]区间.
图像库中有1 015幅JPEG格式的的彩色图像,其中1 000幅是来自于Corel公司的专业收藏照片数据库,分为10个种类,每个种类包含100幅图像,图像大小为384×256或者256× 384.另外15幅图像为从库中任选了3幅图像,分别对其进行缩放1/2倍、2倍、旋转90°和180°及加噪处理后所得.
图1为综合环形颜色矩和能量矩检索的部分实验结果.结果中的第1幅图像为查询图像兼检索结果,后面的图像是按照相似度由大到小排列的检索结果.结果表明:该方法检索出的结果更符合人们的视觉要求,且原图经缩放、旋转、加噪处理后的图像在检索结果中位置居前,说明该方法对旋转、缩放和噪声有较好的鲁棒性.
图1 综合环形颜色矩和能量矩检索结果Fig.1 Retrieval result of the proposed approach
图2为文献[5]、文献[7]和本文提出的方法在图像库中平均的查全率和查准率比较.从图2中可知:提出的方法对彩色图像的检索有较高的查全率和查准率.且本方法检索速度快,返回100幅图像的平均时间为5.62 s,而文献[5]和文献[7]的平均检索时间分别为7.64 s和11.82 s.
图2 平均查全率和查准率比较Fig.2 The comparison of average precision-recall
在研究单一颜色矩特征和离散余弦变换进行图像检索的基础上,提出了一种综合利用这两个特征进行检索的方法,其中颜色特征用分块颜色矩来表示,DCT能量矩的提取则以DCT变换系数的直流分量为基础,求其均值和标准方差.实验表明:L*a*b*空间更符合人的视觉要求,且提出的方法能以较少的特征向量表达较多的图像信息,从而快速地获得较好的检索效果.下一步工作将是利用聚类技术进一步提高检索精度和效率.
[1] 庄越挺,潘去鹤,吴飞.网上多媒体信息分析与检索[M].北京:清华大学出版社,2002:188-226.
[2] Stricker M,Orengo M.Similarity of color images.SPIE Storage and Retrieval for Image and Video DatabaseⅢ[C].San Jose CA USA:SPIE,1995:381-392.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007:80-120.
[4] Rohini Aibing Rao,Srihari Rohini K,Zhang Zhong Fei.Spatial Color Histograms for Content based Image Retrieval[C].Chicago:IEEE,1999:183-186.
[5] 徐琨,李燕.基于分块颜色矩和纹理特征的图像检索方法[J].西安石油大学学报:自然科学版,2005,20(2):77-79.
[6] 张赐勋.离散余弦变换的设计与实现[D].杭州:浙江大学,2006:6-8.
[7] 倾明.基于颜色和纹理特征图像检索技术的研究[J].科学技术与工程,2009,19(15):1301-1304.