基于内容的图像检索方法研究

2018-05-23 10:48陈瑞文
通化师范学院学报 2018年6期
关键词:查准率直方图词典

陈瑞文

现如今,数字图像的数量巨大,如何在浩如烟海的数字图像中找到自己所需要的图像,目前比较常用的方法是标题检索法,也就是利用图像的标题进行文本的检索比对,这要求图像的标题描述清楚准确,否则就很难通过文本进行检索.然而,更好的检索方式是使用基于内容的检索方式,这种检索方式更加贴近自然,也更准确.但是,基于内容的检索方式较为复杂,所以一直是该领域研究的热点和难点.

BoVW(Bag of Visual Word)模型[1]称为视觉词袋模型,它的步骤主要包括:①提取特征;②构造视觉词典;③将特征映射匹配到视觉词典,并生成特征向量.视觉词袋模型可以应用在文本、图像或者其他多媒体对象方面的检索.

其中,特征提取的常用方法有SIFT[2]和MSER.构造视觉词典常用的方法有聚类函数,比如K-Means(KM)和 Hierarchical K-Means(HKM)[3].特征映射到视觉词典以后,通常是生成图像的特征直方图,再通过直方图,进行图像之间的比对.

使用BoVW进行图像描述,方法如图1所示.

图1 BoVW进行图像描述的方法

1 BoVW各过程分析

1.1 提取图像特征

提取图像特征是使用BoVW进行图像描述的第一步,也是关键的一步,如果特征提取得好,那么接下去的检索就比较顺利,准确率高,如果特征提取得不好,将会严重影响接下去的检索工作.

由于BoVW对于尺度空间的变化较为敏感,所以本文选择了对于尺度空间变化具有不变性的算法SIFT算法,SIFT算法对于图像的缩放,旋转等变化具有不变性,这就很好地克服了BoVW对于尺度空间的变化较为敏感的缺点.

SIFT算法使用高斯卷积函数,对于图像I(x,y),其尺度空间表示为L(x,y,σ):

其中:

I(x),y是图像像素的坐标,σ是尺度参数.

确定了特征提取算法以后,还需要考虑如何对图像进行分块,也就是采样的方式.常见的采样方式有:随机采样法,基于感兴趣区域的采样法,均匀网格采样法等,综合考虑各种方法的优劣,本文最终决定采用均匀网格采样法,该方法更加全面,提取的信息也更丰富,对于后面的词典构造和图像的检索比对,贡献更大.

1.2 构造视觉词典

构造视觉词典普遍采用的方法是K均值聚类方法,通过相应的聚类函数,将第一步特征提取的结果进行聚类,并由此来构造视觉词典.K均值聚类方法通过一个迭代的过程,判定每个视觉特征是否映射到某个视觉词汇.在这个过程中,K值的选择尤为重要,它决定了视觉词典的大小,视觉词典过大或者过小,都不利于后面的检索工作.

1.3 进行特征量化

特征的量化通常采用的是直方图的表示方法.早期的直方图表示法就是根据图像中每个视觉单词出现的频率,构建直方图.

特征量化方法也一直是研究的热点,出现了很多种方法,比如基于视觉主题频度的直方图表示,基于空间分布信息的视觉单词频度的直方图表示等.其中基于视觉主题频度的直方图表示法,是对基本视觉单词进行进一步提炼,得到了视觉主题,将图像表示为多个主题,这样比直接使用视觉单词更加贴近图像的实际含义,比较经典的方法有基于概率潜在语义模型的视觉词包特征的直方图表示[4],本文采用的是基于概率潜在语义模型的视觉词包特征直方图,该方法也是借鉴了文本检索中的方法,它通过建立图像,视觉单词、主题之间的关系,使用主题表示图像、最终生成一个主题加概率的特征向量,降低了特征的维度,同时也降低了计算量,而且充分地考虑了图像的语义特征.

1.4 相似度度量

图像的检索,需要比对两幅图像的相似度,并进行排序,本文采用余弦相似度方法,进行特征向量的比对,余弦相似度的公式如下:

其中x,y表示两幅图像,xi,yi分别表示x,y的特征向量中的一维.

余弦值越接近1,说明两幅图像越相似,反之则相似度较低.

2 图像检索过程

本文所描述的图像检索过程分为以下几个步骤:

(1)采用均匀网格采样法将图像分成16×16,总共256个区块.

(2)提取图像的SIFT特征.

(3)使用K均值聚类方法构造视觉词典,词汇表的大小设置为1000.

(4)使用基于概率潜在语义模型的视觉词包特征的直方图表示图像.

(5)采用余玄相似度算法计算图像与被查询图像的相似度.

(6)返回相似度靠前的N幅图像作为查询结果.

3 实验结果与分析

为了进一步证明,本文的方法在图像检索方面的有效性,本文进行了图像检索的实验.实验采用的图像为corel1000图库,该图库包括了10类图像,包括人、建筑、花、公共汽车等10类,每一类图像各100幅图.

检索实验计算每类图像的平均查准率Preci⁃sion,查准率的定义如下:

其中,i为检索图像,x为检索出与i相关的图片,y为检索返回的图片总数.

在本次检索实验中,每次返回前20幅图像作为查询结果.进行多次实验,并根据多次实验的结果计算每一类图像的平均查准率,部分实验结果见表1.

表1 各类图像的查准率

由实验结果可以看出,本文的方法查准率较高,具有较好的检索性能,证明了其有效性.

图2是其中一幅检索结果图,其中第一幅图为检索图像.

图2 检索结果

4 结束语

本文采用了BoVW(Bag of Visual Word)视觉词袋模型进行基于内容的图像检索,特征提取部分采用了SIFT算法,克服了图像对于尺度变化较敏感的缺点,构造视觉词典采用的方法是K均值聚类方法,特征量化采用的是基于概率潜在语义模型的视觉词包特征的直方图,它降低了特征的维度,也降低了计算量,而且充分地考虑了图像的语义特征,最后采用余弦相似度算法计算图像的相似度,并进行检索实验,计算平均查准率,结果表明,使用本文采用的视觉词袋模型进行图像检索具有较好的检索效果.

[1]Sivic J.Video Google:A Text Retrieval Approach to Object Matching in Videos[C]//Proc.of the International Conf.on Computer Vision.Nice,France:IEEE Press,2003:1470-1477.

[2]Lowe D.Distinctive image features form scale-in⁃variant keypoints[J].International Journal of Computer Vi⁃sion,2004,20(2):91-110.

[3]Goldberger J,RoweisS,HintonG,et al.Neighbour⁃hoodcomponentsanalysis[C]//Advancesin Neural Informa⁃tion Processing Systems,2004:13-18.

[4]Saghafi B,Farahzadeh E,Rajan D,et al.Embed⁃ding visual words into concept space for action and scene recognition[C]//Proceedings of the British Machine Vision Conference.Aberystwyth,UK:BMVA Press,2010:1-11.

猜你喜欢
查准率直方图词典
符合差分隐私的流数据统计直方图发布
基于FPGA的直方图均衡图像增强算法设计及实现
米兰·昆德拉的A-Z词典(节选)
米沃什词典
词典引发的政治辩论由来已久 精读
用直方图控制画面影调
基于数据挖掘技术的网络信息过滤系统设计
大数据环境下的文本信息挖掘方法
基于深度特征分析的双线性图像相似度匹配算法
中考频数分布直方图题型展示