盛仲飙
(渭南师范学院数学与信息科学学院,陕西渭南 714099)
【信息科学与工程研究】
互信息在图像检索中的应用
盛仲飙
(渭南师范学院数学与信息科学学院,陕西渭南 714099)
基于互信息的图像检索方法是根据图像的可视性及相似性测度对图像进行检索的方法.首先利用互信息生成一种在统计上有代表性的视觉模式,使用这种模式的分布作为图像内容的描述符;接着利用该内容的描述,设计其互信息的计算方法以衡量图像的相似性.实验结果表明,在图像检索中,相对于其他如KL散度和L2规范等方法,互信息是一种更为有效的衡量相似性的方法.
图像检索;互信息;高斯金字塔;颜色直方图
基于内容的图像检索是目前计算机视觉、图像数据库与知识挖掘领域最活跃的研究热点之一.它根据图像中物体的颜色、纹理、形状等特征来查询图像.其中,相似性测度是图像索引中的一个关键环节,测度的选择是否合理,直接影响图像检索的准确性.互信息作为一种相似性测度方法有很多优点:首先,互信息测量了变量之间的普遍性统计关系;其次,对于变量的单调线性变换,其互信息是不变的;再次,互信息能够直观说明相似性大小.利用互信息作为相似性的衡量标准,检索结果是和样本图像具有最大的互信息的图像,或者说,这些被检索的图像应该能表达样本图像的最大信息量[1-3].
图像的内容描述往往采用颜色和纹理特征[1].图像的表示方法对相似性测量效果有直接的影响.在没有标准的图像内容表示法时,本文采用了学习统计上有代表性的视觉模型,它同时描述了图像纹理和颜色分布特性.
首先把一个给定的图像分解成一个多层次的高斯金字塔,在每一级,该图像由对立的色彩空间来表示,令{Il(x,y)}={rl(x,y),gl(x,y),bl(x,y)}表示图像金字塔的第l级图像,这些图像然后转换到一个对立空间.用YChCr空间,在每一级形成m×n像素的图像补丁(块).令{Bl(i,j)}={(Yl(i,j),Cbl(i,j), Crl(i,j))|i=1,2,…,m;j=1,2,…,n}为第l级图像补丁,对于每一个补丁块,建立如下形式的向量:其中:al是非彩色外观向量,cl是Bl(i,j)块的彩色向量.对于各级金字塔,使用单一均匀尺寸(4×4像素)的块,它覆盖了原图像中面积为4×4,8×8,16×16,32×32,…的像素区域,覆盖面积取决于向量在金字塔的哪一级.然后,使用矢量量化来为非彩色向量(所有分辨率)和彩色向量(依然是所有分辨率)设计各自的码本.显然非彩色向量为16维,彩色向量为8维.
设计好的码本就可以代表图像的内容,一个图像通过如下4个步骤来检索:
(1)将图像分解成一个L级高斯金字塔;
(2)对于每个l级(l=1,2,…,L),将图像分成4×4块(相互可以交叠),对每一块,通过(1)式来计算消色差和彩色向量,并且根据各自的码本,对这些向量进行编码;
(3)对于每个l级(l=1,2,…,L),构建一个非彩色视觉模式直方图和彩色视觉模式直方图,这些直方图记录对图像块进行编码时每个码字的出现频率;
(4)连接各级消色差和色彩直方图来构建最终图像符.
假设X=(x1,x2,…,xn),Y=(y1,y2,…,yn)是二进制码的直方图,xi和yi是相应直方图的第n个二进制数.X和Y的互信息[3,10,13]定义为:
其中:H(X)是X直方图的香农熵,由二进制数的概率分布计算可得.此处的香农熵不同于图像熵,图像熵可以由二进制数直接计算可得.将X的二进制数设为a,0≤a≤1.二进制数的概率分布可以定义如下:
其中:δ是狄拉克δ函数.在离散情况下,a是一个不连续的量,积分用“和”来代替.H(X|Y)是基于条件概率P(X=a|Y=b)的条件熵,在Y的值为b的情况下X为a的概率.
熵是一种不确定性度量.因此,方程式(2)的含义为:当直方图X的不确定度减去直方图Y(Y的内容)已知时X的不确定度.因此,当Y已知时,X的不确定度减少的量为交互信息I(X;Y),或者说,Y包含了关于X的信息量.交互信息是对称的,也就是说I(X;Y)=I(Y;X),因此互信息也是X中包含的关于Y的信息量.
互信息也可以定义为直方图的联合概率分布:
估计直方图X和Y的联合概率P(a,b)=P(X=a,Y=b),最简单的办法就是计算相应的二进制码值的共生矩阵CM(a,b),它记录了二进制量X(其值为a)与相应的二进制量Y(其值为b)一致的次数.基于图像配准的交互信息使用了一种类似的方法来估计两个图像的联合概率[6].联合概率通过记录除以共生矩阵记录的总次数来获得联合概率.P(X=a)和P(Y=b)的边缘分布可以通过共生矩阵的行和或者列和得到.
联合概率也可以使用Parzen窗口技术来估计得到[7].假定vi=(xi,yi),uj=(xj,yj)为对应X,Y的二进制值,vi=(xi,yi)联合概率可以定义为:
本文所使用的数据库是Corel库存图像数据的集合.对于每张图像,使用了3级高斯金字塔,彩色和消色差模式的密码长度都是64位.
在实验中,进一步定义了两种基于交互信息的相似性度量方式.归一化的互信息定义为
信息距离测度(MID)定义为
其中:H(X,Y)为相关平均信息量,MID满足距离公理:
作为比较,同样完成了KL散度测量、标准相关度、欧几里得距离作为相似性度量.
假定Qi作为第i级查询图像,i=1,2,…,k,并且令Qi(1),Qi(2),…,Qi(Ni)作为Ni个查询图像Qi的“正确”答案.定义了如下的平均累计召回措施:
显然,较大的RC(1)性能就越好.还定义了下面的精度测量:
同样,较大的PR(1)所对应的性能越好.选择3个类动物图像作为查询实例和目标图像,它们是猎豹、老虎、狮子的动物形象.图像数据库的总大小是10 000.对于每一种相似性的衡量措施,交互信息(MI),归一化互信息(NMI),交互信息距离(MID),利用Kullback-Leibler散度(KLD),归一化相关(NC),和欧氏距离(ED),在此,进行了300次查询,就是每个狮子、老虎、猎豹类别中的图像都被用来作为一个查询.这些查询的检索率和精确性由图1和图2表示.
图1 不同相似性度量的召回率
图2 不同相似性度量的精确度
从图1和图2可以看出,交互信息衡量相似性的表现优于其他措施.可以看出交互信息定义量X和Y等于Kullback-Leibler分散度,而且和Kullback-Leibler发散角有密切的关系.事实上,交互信息I(X,Y)介于联合概率函数P(X,Y)和概率函数P(X)和P(Y)的积之间.实验结果表明,相比Kullback-Leibler散度,交互信息是一种更有效的相似性度量手段.
本文引入了基于交互信息的图像检索方法,验证了可以使用交互信息作为图像间相似性度量.两个图像具有更高的交互信息,意味着知道了一个图像就能表达另一个图像的更多信息,因此互信息自然是一种衡量图像间相似性的手段.最后设计了一种计算图像的视觉直方图之间交互信息的方法,实验结果证明了相比于所广泛使用的方法,交互信息衡量手段具有很大的优越性.这种方法可以很容易地扩展到其他的图像内容描述符,如颜色相关图、MPEG-7颜色描述符和其他广泛使用的图像描述符.
[1]Minakshi Banerjee,Malay Kumar Kundu,Pradipta Maji.Content-based image retrieval using visually significant point features [J].Fuzzy Sets and Systems,2009,160(23):3323-3341
[2]Thomas Hurtut,Yann Gousseau,Francis Schmitt.Adaptive image retrieval based on the spatial organization of colors[J].Computer Vision and Image Understanding,2008,112(2):101-113.
[3]Maciej A.Mazurowski,Joseph Y.Lo,Brian P.Harrawood,et al.Mutual information-based template matching scheme for detection of breastmasses:From mammography to digital breast tomosynthesis[J].Journal of Biomedical Informatics,2011,44(5): 815-823.
[4]Feng Wanga,Cheng Yang,Zhiyi Lin,et al.Hybrid sampling on mutual information entropy-based clustering ensembles for optimizations[J].Neurocomputing,2010,73(7-9):1457-1464.
[5]陈伟卿.基于互信息的医学图像刚性配准研究[D].大连:大连理工大学博士学位论文,2009.
[6]谭立球.基于本体的图像检索相关技术研究[D].长沙:中南大学博士学位论文,2009.
[7]陈庆芳.基于分块互信息的图像匹配[J].计算机工程与应用,2011,47(9):160-162.
【责任编辑 曹 静】
Application of Mutual Information in Image Retrieval
SHENG Zhong-biao
(School of Mathematics and Information Science,Weinan Normal University,Weinan 714099,China)
An approach for image retrieval usingmutual information is based on the visibility of the image and the similarity measurement.The paper first generates a setof statistically representative visual patterns and uses the distributions of these patterns as images content descriptors.And then using the similarity of two images,it develops amethod to compute themutual information between their content descriptors.Two imageswith larger descriptormutual information is regarded asmore similarity.The experimental results demonstrate thatmutual information is amore effective image similaritymeasurement than others such as Kullback-Leibler divergence and L2 norms.It has greater benefits.
image retrieval;mutual information;Gaussian pyramid;color histogram
TP391
A
1009-5128(2014)03-0043-04
2013-12-10
陕西省教育厅科学研究计划项目:关于F.Smarandache数论问题的计算机辅助研究(2013JK1165);渭南市自然科学基础研究计划项目:支持多协议的智能仪表软件架构研究(2012KYJ-8)
盛仲飙(1974—),女,陕西渭南人,渭南师范学院数学与信息科学学院讲师,硕士,主要从事网络计算机应用技术研究.