裴 蓓, 王朔中, 倪丽佳
(上海大学通信与信息工程学院,上海200072)
随着图像获取手段和互联网的快速发展,数字图像的数量激增,对海量图像进行快速而准确的搜索成为一个重要课题.目前百度和Google等搜索引擎仍采用基于文本(索引)的图像检索(text-based image retrieval,TBIR)方法.这种方法常搜索出大量的无关图像,在许多情况下难以满足实际需求,因此,研究者针对基于内容的图像检索(content-based image retrieval,CBIR)展开了广泛的研究.
图像Hash又称为图像摘要或图像指纹,它是从数字图像中提取的基于内容特征的认证码,是一种单向映射.与密码学Hash函数有所不同,在密码学中,明文的任何微小改变都会使Hash值发生重大变化;而对于图像,Hash应该对不改变内容的常规处理具有稳健性,故又可称为“感知Hash”.图像Hash应该满足感知鲁棒性、安全性和稳健性的要求,即对于感知相似的两幅图像,不管内部数据是否一致,二者的Hash值相同或十分接近的概率很大.当图像内容发生重要改变时,其对应的Hash值应当出现重大变化.在获得图像Hash值的情况下,无法成功恢复原始图像.利用这种性质,图像Hash算法可用于图像的完整性认证[1]以及图像的检索[2].本实验的重点是研究一种能代表颜色特征和图像中显著内容结构形态的图像Hash,以用于图像检索.
CBIR是将提取的图像特征作为索引表,对不同特征采用不同的相似性算法,通过加权以达到检索的目的.用图像Hash作为检索库的索引表能很好地反映图像内容,减少检索时间,取得良好的检索效果.
人们利用图像的统计特征来提取图像Hash,例如,用图像Euclidean距离之和与分块直方图[3]来表示图像信息.Venkatesan等[4]从图像小波分解的子带中提取统计向量,用密钥随机分割子带,将量化的统计量输入Reed-Muller纠错码的解码器,产生Hash值.Fridrich等[5]选择离散余弦变换(discrete cosine transform,DCT)低频系数.Mihcak等[6]使用迭代法,将3层Haar小波分解的最低频分量二值化,用来表示图像信息,因为它们在保持图像基本内容不变的情况下较为鲁棒.Monga等[7]采用非负矩阵分解(non-negative matrix factorization,NMF),将Hash生成看成图像矩阵的随机降维.
本研究提出了一种图像Hash方法,在颜色分类的基础上提取亮度、形状等重要信息作为中间Hash值,再对其进行加权,根据得到的Hash,形成图像库的索引表.对一个经典图像库[8]进行实验,将本方法的检索效果与几种已有的方法进行比较.实验结果表明,本研究所提出的Hash方法在用于CBIR时的性能令人满意.
在彩色图像中,颜色的分布包含了与内容有关的丰富信息,从颜色出发对图像进行分析是CBIR广泛采用的方法.用于图像检索的颜色特征包括颜色直方图[9]、累积颜色直方图[10]和颜色距[11]等.本研究通过对颜色进行分类,提取图像Hash,实现基于内容的图像检索.
将图像从RGB颜色空间转换到更符合视觉特性的HSV颜色空间,并由此将彩色图像的像素归为11类,分别为白色、灰色、黑色、红色、橙色、黄色、绿色、青色、蓝色、紫色和玫红色,分割方法如表1所示.对彩色图像进行高斯平滑滤波,并将尺寸规范化为256×256,对预处理后的图像按颜色类别提取11种颜色成分,如图1所示.
表1 颜色分类范围Table 1 Classification of colors
图1 彩色图像及11类颜色成分Fig.1 Color image and its 11 color components
将图像转变为11幅尺寸为256×256的颜色分量后,可从中提取出能反映图像内容的重要信息构成特征矩阵,作为中间Hash.
1.2.1 颜色特征
提取图像中每类颜色的像素数目 ni(i=1,2,…,11)为参数,∑ni为图像的总像素数.为了反映颜色和亮度分布的更多信息,将各类颜色的亮度均值yi作为另一个参数.由于图像内容的差异,每一类颜色构成的连通域个数与图像的结构特性有关.每类颜色的连通域数量ki与像素数目有一定的关联性,可用如下的特征量mi来表征图像内容的结构特性:
由于图像尺寸已规格化为256×256,所以ki∈[0,65 535],若某类颜色不存在,则ki=0.取对数可提高较小ki值的贡献.mi的值越大表示该类颜色的复杂度越高,值越小则表示该类颜色越单一.
根据上述颜色分类法,图2(a)~图2(c)中红色部分的像素数量占总像素数目的比例分别为16.7%,16.5%和18.8%.如果仅以ni为特征,内容完全不同的图2(a)和图2(b)之间比同一个物体的图2(b)和图2(c)之间的相似程度还要高,这显然不符合事实.图2(a)~图2(c)的连通域个数分别为1,72和91.根据式(1),3幅图像红色成分的mi值分别为0.11,0.71和0.84,拉开了不同内容图像之间的距离,拉近了相同内容图像间的距离.由11个颜色成分的ni,yi和mi,可得到反映颜色分布的3个特征向量N,Y,M.
图2 颜色分类结果Fig.2 Classification of color components
1.2.2 形态特征
目标的大小和形状是人类视觉系统识别物体的关键信息之一,它不随周围环境(如亮度等)的变化而变化,是物体的稳定信息,可在CBIR中加以利用.用于描述形状的量有Hu不变矩[12]、Fourier形状描述子[13]等.本研究通过分析各颜色分量中包含的信息来提取形态特征.为了突出各颜色分量中起主导作用的内容,仅以其中的最大连通域作为关注对象,忽略比较分散的其余像素,从各颜色分量最大连通域的大小和形状两方面得到反映形态特征的向量.具体做法如下.
首先,提取每一颜色类的最大连通域,再用Canny算子对其进行边缘检测,对边缘所包围区域的像素数ei进行统计.例如,考虑红色分量,图3(a)为原始图像,图3(b)为红色分量,其最大连通域示于图3(c).将图3(c)与整幅图像的边缘图相乘,得到红色分量的最显著块,称为 Canny边缘显著图(edge saliency map,ESM),如图3(d)所示.由此求出图像中11个颜色分量的ei(i=1,2,…,11),构成向量E.
图3 红色分量最大连通域的边缘检测Fig.3 Canny edge of the largest connected area of the red component
其次,寻求边缘显著图的形状特征,分别计算每一类颜色边缘连通域ESM图的圆形率和矩形率.令第i类ESM图中所有像素到其质心的距离集合为Di={dj|j=1,2,…,ei},其中ei为以上得到的第i个ESM图中的总像素数.画出质心距离直方图,将频率最大的距离值记为,则圆形率为
各类ESM图的圆形率构成向量C={ci|i=1,2,…,11}.圆形率可近似看作几何图形内切圆与外接圆的半径之比.对于圆而言,这两个半径相等,故圆形率为1.图4(a)为根据图像中的圆(半径归一化为1)求得的质心距离直方图,其圆形率为0.98,近似于理论值1,误差是由数字图像的离散性所致.图4(b)和图4(c)分别为等边三角形和长宽比为2∶1的矩形的质心距离直方图,其圆形率分别约为0.45和0.25.图5为两幅实际图像中蓝色和绿色分量ESM图的质心距离直方图,计算得到的圆形率分别为0.72和0.33.可见,圆形率具有区别物体形状的能力.
用同样方法计算各类颜色边缘连通域ESM图的矩形率.第i类颜色ESM图中的总像素数为ei,所在外切矩形的像素数为hi(i=1,2,…,11),则其矩形率为
矩形的矩形率显然为1.图5中的两幅实际图像在所研究的颜色类中的矩形率分别为0.81和0.11.图中可见,矩形率也可用来表征物体形状.各类ESM图的矩形率也可构成向量R={ri|i=1,2,…,11}.
综上所述,得到了反映图像内容的6个特征向量,合并后构成中间Hash:H=[N Y M E C R],并对中间Hash赋予不同的权值.本实验中取颜色特征2倍于形状特征的量(其实验认证将在下一节中加以说明),并组成66维的最终图像Hash.
图4 不同形状的质心距离直方图Fig.4 Centroid distance histograms of different shapes
图5 不同图像蓝色和绿色类ESM图及其质心距离直方图Fig.5 Centroid distance histograms of ESMs for the bule and green components of different images
在CBIR中,用Hash值之间的欧氏距离来度量查询图像与从图像库中返回图像的相似程度,并按从小到大的距离依次排列.实验使用的数据库[8]包含有1 000幅大小为256×384(或384×256)的图像,分为10类,每类100幅.
本研究以一种早期的经典颜色直方图CH方法[9]和一种近期的CVPCM_CPCM方法[14]为比较对象,后者的性能优于早先提出的 CH_BPH[15]和BCCP_BPH[16]方法.根据CH特性,对每幅图像在HSV空间上提取一个72维的颜色直方图.对于CVPCM_CPCM,使用4个大小为64的码书,以由Y分量得到的64×64大小的CVPCM矩阵和由Cb和Cr分量得到的64×64大小的CPCM矩阵作为图像特征.对3种方法的测试结果分别计算查准率(precision)和查全率(recall),即
式中,相关图像是指同一场景或物体在不同角度或光线下拍摄的图像.
对于颜色特征和形态特征的权值,本研究分别进行了权值比为0.5,2.0和4.0的实验比较,结果如图6所示.图中可见,颜色特征分量比形态特征分量更重要,权值为2.0时的检索效果最好,因此,本实验中权值比取2.0.
图6 不同权值情况下的Precision-Recall曲线图Fig.6 Precision-Recall curves of different weights
图7为使用不同方法进行图像检索的实验实例,其中图7(a)为查询图像.用3种方法分别从数据库中提取12幅图像,将搜索结果按各自的相似性测度顺序排列,结果如图7(b)~图7(d)所示.CH方法在第9~第12幅图出现了误判,CVPCM_CPCM在第10和第11幅图出现了误判,而用本方法搜索的前12幅图均与查询图像相关.
图7 不同方法的搜索结果Fig.7 Query results of different algorithms
根据查准率和查全率得到的Precision-Recall曲线如图8所示.在查全率相同的条件下,本方法的查准率高于CH和CVPCM_CPCM两种方法.实验中使用CH,CVPCM_CPCM和本方法对1 000幅图像提取特征,每幅图像所需的平均时间分别为0.11,2.78和1.07 s.与CH方法相比,本方法提取特征的计算量较大,这是因为CH仅考虑了颜色因素而忽略了形状特征,性能不够理想;而且对图像库的特征提取通常是事先完成,存入索引表的,对于检索速度并无多大影响.另外在检索速度方面,每幅图像的平均检索时间分别为0.01,0.11和0.01 s.本方法的检索速度与CH相当,比CVPCM_CPCM快约10倍.
图8 不同方法的Precision-Recall曲线Fig.8 Precision-Recall curves of different algorithms
本研究通过HSV空间颜色分类并结合图像形态特征提取图像Hash,实现了基于内容的图像检索.由于HSV颜色空间中的H分量反映了图像彩色信息,因此,由它得到了11类颜色的分量图,并在此基础上提取了与颜色、亮度、形态特征有关的参数.由于本方法利用了颜色和形状的平移、旋转不变性,充分体现了视觉特性,所提取的反映图像重要内容的信息构成了特征矩阵,并基于实验对不同特征进行加权,因此,所构成的图像Hash能较好地反映图像内容特征.相比之下,CH和CVPCM_CPCM方法完全忽略了内容的分布和形态信息,容易出现误判.实验结果表明,本方法具有良好的检索效果,而且所提取的特征向量(Hash)较短,有利于提高检索效率.
[1] 钟晓燕,冯前进,陈武凡,等.基于Hash函数敏感性的医学图像精确认证[J].中国图象图形学报,2008,13 (2):204-208.
[2] 张维克,孔祥维,尤新刚.安全鲁棒的图像感知哈希技术[J].东南大学学报:自然科学版,2007,37(1):188-192.
[3] SCHNEIDERM,CHANGS F.A robust content based digital signature forimage authentication[C]∥Proceedings of the IEEE International Conference on Image Processing.1996:227-230.
[4] VENKATESANR,KOONS M,JAKUBOWSKIM H,et al.Robust image hashing[C]∥ Proceedings of the IEEE International Conference on Image Processing.2000:664-666.
[5] FRIDRICHJ,GOLJANM.Robust hash functions for digital watermarking[C]∥ Proceedings of the IEEE InternationalConference on Information Technology:Coding and Computing.2000:178-183.
[6] MIHCAKK,VENKATESANR.New iterative geometric techniques for robust image hashing[C]∥ Proceedings of the ACM Workshop on Security and Privacy in Digital Rights Management.2001:13-21.
[7] MONGAV,MIHCAKM K.Robust and secure image hashing via non-negative matrix factorizations[J].IEEE Transactions on Information Forensics and Security,2007,2(3):376-390.
[8] LIJ.Photography image database[EB/OL].[2011-12-01].http:∥www.stat.psu.edu/~jiali/index.download.html.
[9] SWAIN M, BALLARD D. Color indexing [J].International Journal of Computer Vision,1991,7(1):11-32.
[10] KOTOULASL,ANDREADISI.Color histogram contentbased image retrieval and hardware implementation[J].IEEE Transactions on Circuits,Devices and Systems,2003,150(5):387-393.
[11] BAIX,LIUW J.Research of image retrieval based on color[C]∥ International Forum on Computer Science Technology and Applications.2009:283-286.
[12] CHENQ,PETRIUE,YANGX L.A comparative study of Fourier descriptors and Hu’s seven moment invariants for imagerecognition[C]∥ Canadian Conference on Electrical and Computer Engineering.2004:103-106.
[13] MAG Z,TONGQ.Shape feature extraction using Fourier descriptorswith brightnessin content-based medical image retrieval[C]∥International Conference on Intelligent Information Hiding and Multimedia Signal Processing.2008:71-74.
[14] YUF X,LUOH,LUZ M.Colour image retrieval using pattern co-occurrence matrices based on BTC and VQ[J].Electronics Letters,2011,47(2):100-101.
[15] QIUG.Color image indexing using BTC[J].IEEE Transactions on Image Processing,2003,12(1):93-101.
[16] GAHROUDIM R,SARSHARM R.Image retrieval based on texture and color method in BTC-VQ compressed domain[C]∥ 9th International Symposium on Signal Processing and Its Applications.2007:1-4.