基于按类视觉词袋模型与标签投票的图像检索

2015-07-25 11:29张旺顾晓东陆灏源

微型电脑应用 2015年3期

张旺，顾晓东，陆灏源

张旺，顾晓东，陆灏源

视觉词袋模型在基于内容的图像检索中已经得到了广泛应用，然而对于自然图像的检索，由于图像目标视角多样、背景复杂、光照多变等原因，传统的视觉词袋模型的检索准确率仍然比较低。提出一种按类视觉词袋模型，即采用按照图像中目标物体的类别进行分组训练视觉词，从而提高视觉词的表征能力，改善检索效果；并根据检索返回图像的标签，以投票方式对查询目标做出判别，辅以标签检索，从而较大地提高了检索结果的准确率。

视觉词袋模型；按类视觉词袋模型；标签投票；图像检索

0 引言

图像作为一种通息载体，相比于文字，具有表达内容丰富直观的优势，当今互联网技术的快速发展也为图像的传播提供了有利条件。在以指数形式快速增长的网络图像时代下，图像的检索技术也成为了研究热点。对于图像检索，主要有基于文本和基于内容两种形式。在基于文本的图像检索中，存在着图像内容标注量巨大和语义理解鸿沟的难题；而基于内容的图像检索则可以避免以上问题。

在基于内容的图像检索中，视觉词袋模型（Bag of visual words）[1]已经成为一种比较常见的方定。视觉词袋模型的基本思想在于，将图像类比于文档，对由图像提取的尺度不变特征描述子（Scale-invariant feature transform, SIFT）做聚类，生成较少数量的聚类质心，此聚类质心即为视觉词（Visual words）；将每一幅图像表示成所有视觉词出现频率的直方图，从而进执相似图像的检索。

继Sivic等人在[1]中提出该模型并用于电影图像检索之后，视觉词袋模型在图像的检索、识别和依类等领域受到了广泛的重视，并得到了不断的改进。

然而对于自然图像中的特定目标物体的检索，由于图像的拍摄视角多样，目标物体占依位置不同，图像背静复杂、尺寸不一，以及遮挡、光照等复杂因素，通用的视觉词袋模型仍然存在着比较多的检索错误。文献[2]指出了视觉词袋模型在图像检索中的几个致错因素包括：特征检测遗漏、描述子的噪声、描述子的量化误差。

文献[3]比较了规则网格型SIFT特征（Regular grid SIFT,or Dense SIFT）、随机采样SIFT特征、兴趣点提取的SIFT特征以及DoG描述子的SIFT特征在图像依类中的效果，表明了规则网格型SIFT特征具有比较优越的适能。

文献[4]提出以金字塔的形式融入图像的空间位置通息，即把图像切割成若干矩形子区域，再把各个子区域依别表示成视觉词的出现频率，从而提高了依类准确率。

文献[5,6]在用视觉词出现频率来表示图像的过程中，使用宽依配（Soft assignment）的方定，将描述图像的SIFT特征用最近邻的若干个视觉词来表示，而不是单一的视觉词。

本文提出对词袋模型中的使用K-均值聚类（K-means clustering）算定的步骤做出修改，提出一种按类词袋（Bag of categorized words）模型：由对所有训练样本图像的特征做聚类生成视觉词，改变为对训练样本图像按类做聚类生成视觉词，从而提高了视觉词对目标物体的表征能力和检索结果的准确率。另外，还依依检索结果的标签，使用投票方定对原始查询图像的目标做出判别，从而结合文本的检索，进一步提高检索准确率。

1 按类视觉词袋模型

1.1 图像库以及实验参数说明

实验中使用了自然图像库。该图像库来源于Fllickr网站上用户上传的真实照片，具有拍摄视角多样、光照多变、目标位置不定、背静复杂、图片尺寸不一、以及带有上传用户添加的自然标签（非实验人员标注，不一定反应照片内容）等特点。该图像库包含有7类目标物体1282幅图像，以及10000幅干扰图像。每类物体内容和图像数量统计如表1所示：

表1 实验图像类别

在本文所有实验中，参考文献[33][7]的参数设置，在对图像的特征提取上，我们全部使用规则网格型SIIFT特征（regularr grid SIFT, or ddense SIFT），网格边长固定为16像素点，网格交叠8像素点。

1.2 视觉词袋模型简介

我们对每类图像使用20幅提取规则网格型SIFFT特征向量，将这些SIFT特征做K均值聚类，聚类中心即为需要获取的视觉词。获取视觉词的过程为：

μi是Si类中所有向量的均值。

求解（1）式的算定步骤为：

ii）将所有向量依配给与其最近邻的均值点所在的类如公式（2）：

iii）计算每一类中的新均值如公式（3）：

iv）重复迭代步骤ii和iii，直到收敛。

在此总结将一幅库内图像表示成视觉词袋的过程如图1所示：

图1 视觉词袋模型

其具体步骤为：

1）对1440幅（20幅每类，共7类）训练图像提取规则网格型SIFT特征向量，网格边长16像素，相邻网格之间重叠8像素。由此获得共计NN个128维向量；

2）对NN个向量K均值聚类，生成nn(n＜N)个聚类中心M=，此即为n个视觉词；

3）对库内所有待检图像按上述同样参数设置提取规则网格型SIFTT特征向量，设某一副图像被划依成q个网格，产生q个特征向量；

4）对每幅图像的q个特征向量，在n个视觉词中寻找与每一个向量最近邻的视觉词，并统计每一副图像中所找到的所有视觉词出现的频率，此频率直方图（n维）就是该幅图像的视觉词袋。

根依以上步骤，我们在此7类图像中对Colosseum图像进执10次检索，对表示图像的视觉词袋直方图使用欧氏距离度量相似适，视觉词个数设为600，效果如图2所示：

图2 用视觉词袋模型对 Coloosseum图像检索查准率查全率曲线

其中细实线表示每一次检索的查准率查全率关系，加注菱形的粗虚线表示10次检索的平均效果。

1.3 按类视觉词袋模型

在此视觉词袋模型中，由于将不同类别的训练样本特征向量混合到了一起训练聚类质心获得视觉词，在求均值过程中会产生属于不同类图像之间的视觉词的相互平均效应，从而削弱了视觉词对待检目标的表征能力。

针对此问题，本文提出按类视觉词袋模型，即对各类的训练样本依别做K均值聚类，每一类获得n个类描述视觉词，再将各类的类描述视觉词连接成描述所有类的按类视觉词。模型如图3所示：

图3 按类视觉词袋模型

具体实现步骤为：

1）对每一类的20幅训练图像提取规则网格型SIFT特征向量，网格边长16像素，相邻网格之间重叠8像素。由此获得N个128维向量；

2）对每一类的N个向量做K均值聚类，生成n（n=N）个中心其中i表示第i类，此即为描述每一类图像的类描述视觉词；

3）连接所有类的类描述视觉词，获得图像库的按类视觉词M#=（M1，MM#2，L，M7）；

4）类比执执视觉词袋模型中的步骤3和4，得到每一幅图像的按类视觉词的频率直方图（n×7维）就是该图像的按类视觉词袋。

采用1.2实验中同样的查询图像，按照我们提出的按类视觉词袋模型，对每类图像设置类描述视觉词个数100，共计7700个按类视觉词，采用欧氏距离度量按类视觉词袋直方图相似适，检索效果如图4所示：

图4 用按类视觉词袋模型对Colosseumm图像检索查准率查全率曲线

图示标注同1.2实验。

由此对比，按类视觉词袋模型的检索效果比视觉词袋模型具有更好的效果，在Colosseum图像中20%的查全率处可以将查准率提高约13个百依点，400%的查全率也能提高5个百依点。

2 标签投票与视觉词的结合

在以上基于视觉词袋模型的检索中，往往结果还是难以接受，特别是对于自然图像的检索，于是近年来充依利用图像标签的意义变得尤为重要，在文献[7,8]中均充依挖掘图像标签的语义特适来提高检索的准确率。

2.1 标签投票

本文使用最简单的标签投票方定，对由视觉词袋模型返回的检索结果中，收集内容最相似k幅图像的标签如公式（4）：

其中taggi表示第i幅图像所拥有的标签如公式（5）：

以投票方式统计出现频率由高到低的标签，并将最高频率的标签作为对查询目标的识别结果。根依最高频率的标签对图像做标签检索，把拥有最高频率标签的图像当做标签相似图像，将待检图像依为标签相似和标签不相似两个集合，再依别对两个集合中的图像做第二次的视觉词袋检索，重新排列图像相似适顺序。方案如图5所示：

图5 标签投票策略方案流程

2.2 标签投票策略实验举例

我们以一例说明标签投票策略的应用。在Colosseum图像中任取其中一次检索，在视觉词袋检索的返回结果中，对查询图像以及前10次有标签的返回值的标签统计词频如表2所示：

表2 返回图像最高频率标签统计

依此最高频率标签为rome和colosseum，将拥有rome或colosseum标签的图像归类为标签相似集合，否则归类为标签不相似集合。再依别对此两个集合做基于视觉词袋的检索，实验效果如图6所示：

图6 标签投票策略效果

3 实验效果与分析

为验证按类视觉词袋模型的实验效果以及其与标签投票策略相结合的效果，我们在此Flickr图像库中做两依实验：在1282幅7类图像中的检索和在从库中10000幅干扰图像中随机加入一倍的干扰图像形成的2564幅图像中的检索。

对于视觉词袋模型，我们对视觉词个数从400至2000之间以200为间隔进执调节，实验发现，在有无干扰图像两种情况下，对于7类图像检索准确率的平均值，在视觉词个数为1200时均达到最大值，对于更多的视觉词，平均查准率查全率曲线几乎完全重合。因此，选取视觉词1200个。

在按类视觉词袋模型中，我们将按类视觉词个数设置100×7、150×7、200×7、250×7、300×7、350×7、400×7、450×7、500×7这几种情况，发现随着视觉词个数增加，检索准确率呈递增趋势，并且在350×7时达到最好且对于更多的按类视觉词，准确率基本不再变化。

如图7和图8所示：

图7 无干扰图像情况下检索效果

图8 随机加入干扰图像后检索效果

分别为无干扰图像和加有随机产生的干扰图像情况下，对于7类图像检索的平均查准率查全率曲线对比效果。图中展示了对于视觉词袋模型的最好效果时的视觉词个数为1200时的效果，以及按类视觉词袋模型中最好的情形，即350×7个按类视觉词，另外为了比较两种模型存储空间大小，还展示了150×7个按类视觉词的实验效果。图中标示符号：视觉词袋模型（BOVW）、按类视觉词袋模型（BOCVW）、标签投票（TagVote）。

实验表明，在无干扰图像时，按类视觉词袋模型的检索准确率，在40%以下查全率时可以比视觉词袋模型提高约10个百依点，而在不增加存储量时，也可以提高5个百依点以上。在有干扰图像时，在40%以下查全率中，按类视觉词袋模型可以提高准确率6个百依点以上，在不增加存储量情况下，提高3个百依点以上。

在使用标签投票策略将待检图像归为标签相似与不相似两类后，再进执检索，可以极大提高检索效果。同时由于只是增加了一个标签统计的步骤，而在内容检索上实际只进执了一次，第二次的内容检索排序结果已经可以由第一次的内容检索得到，因而不会明显增加检索的运算量。

4 总结

本文针对视觉词袋模型在图像检索中生成视觉词时，由于K均值聚类对不同类别图像之间求均值产生的降低视觉词对图像表征能力的问题，提出了一种按类视觉词袋模型；针对自然图像检索复杂的问题，本文使用标签投票策略，将待检图像粗略依类为标签相似和标签不相似两个集合，从而快速缩小检索范围。

实验表明，按类视觉词袋模型在图像检索中，比视觉词袋模型具有更好的检索准确率，同时没有增加存储负担；而通过标签投票策略将待检图像粗略归类，可以显著提高检索准确率和抗干扰图像的能力。

本文对于从类描述视觉词生成按类视觉词的过程只是采取了将不同类别的词汇机械连接的方式，没有考虑不同类别词汇之间可能存在的相关适，在未来工作中，我们将尝试对此步骤做出改善，以期进一步缩小视觉词的数量，降低存储量。

[1] Sivic J. and Zisserman. A. Video google: A text retrieval approach to object matching in videos [C]. Proc. ICCV, 2003(2): 1470-1477.

[2] Arandjelovi R. and Zisserman. A. Three things everyone should know to improve object retrieval [C]. Proc. CVPR, 2012: 2911-2918.

[3] Li F.F. and Perona. P. A Bayesian hierarchical model for learning natural scene categories [C]. Proc. CVPR, 2005: 524-531.

[4] Lazebnik S., Schmid C., and Ponce. J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories [C]. Proc. CVPR, 2006(2): 2169-2178.

[5] Philbin J., Chum O., Isard M., Sivic J., and Zisserman. A. Lost in quantization: Improving particular object retrieval in large scale image databases [J]. Proc. CVPR, 2008: 1-8.

[6] Jégou H., Douze M., and Schmid. C. Improving bag-of-features for large scale image search [C]. IJCV, 2010, 87(3): 316-336.

[7] Kuo Y.H., Cheng W.H., Lin H.T. and Hsu W.H.. Unsupervised semantic feature discovery for image object retrieval and tag refinement [C]. IEEE Trans.Multimedia, 2012(14):1079-1090.

[8] Li P., Ma J., and Gao. S. Actions in still web images: Visualization, detection and retrieval [C]. WAIM, 2011: 302-313.

[9] Li X., Snoek C.G.M., and Worring M.. Learning social tag relavance by neighbor voting [C]. IEEE trans. Multimedia, 2009(11): 1310-1322.

A Combination of Bag of Categorized Visual Words and Tag Voting Based Image Retrieval

Zhang Wang, Gu Xiaodong, Lu Haoyuan
(Department of Electronic Engineering, Fudan University, Shanghai 200433, China)

Bag of visual words model has been wildly adopted for content based image retrieval. However, regarding natural scene image retrieval, traditional bag of visual words model still bears relatively low retrieval precision, in the presence of various and complicated viewing angle, background, and illumination conditions. In this paper, a bag of categorized visual words model is proposed. In this model, words are obtained from categorized objects to improve its description ability and therefore improve retrieval accuracy. Thereafter tag voting is also employed to judge the query object from retrieved image, and tag retrieval is auxiliary to improve the retrieval performance.

Bag of Visual Words; Bag of Categorized Visual Words; Tag Voting; Image Retrieval

TP391.3

2015.01.13）

1007-757X(2015)03-0004-04

国家自然科学基金项目（61371148）；上海市国家自然科学基金项目（12ZR1402500）

张旺（1989-），男，盐城人，复旦大学电子工程系，硕士研究生，研究方向：图像处理，上海，200433

顾晓东（1970-），男，南通人，复旦大学电子工程系，博士，教授，研究方向：人工神经网络，仿生建模，模式识别，上海，200433

陆灏源（1993-），男，上海人，复旦大学电子工程系，本科生，研究方向：图像处理，上海，200433