生海迪,段会川,孔 超
(1.山东师范大学 信息科学与工程学院,山东 济南250014;2.山东师范大学 山东省分布式计算机软件新技术重点实验室,山东 济南250014)
目前,词袋 (bag-of-words,BOW)模型应用于图像分类中仍存在分类精度不高的问题,优化工作主要侧重于其实现过程的各个阶段。常规词袋模型一般采用SIFT (scaleinvariant feature transform)特征作为描述子,但常规SIFT特征的提取需要构造高斯差分空间并且需要进一步检测极值点[1-6],考虑到常规提取方法比较耗时并且忽略全局信息,本文采用面向稠密特征提取的可快速计算的局部图像特征DAISY 描述子[7]。在特征提取过程中,梯度方向直方图的维数即梯度方向离散精度的选取非常重要,常规词袋模型中梯度方向离散精度一般选取为8[8-10],但是此精度构造的词袋模型分类效果并非最佳,若能确定一个最合适的精度不仅可以避免选择时的盲目性,而且还可以构造出最佳的词袋模型,提高应用词袋模型分类的效果。
本文通过大量基于不同分块下选取不同离散精度进行实验分析研究,找到了在构造词袋模型过程中梯度方向离散精度阈值,利用该阈值构造的词袋模型在进行分类时能得到最佳的分类效果,同时还能避免选择时的盲目性。
常规词袋模型是通过构建多尺度差分空间生成SIFT 描述子,将这些描述子进行聚类来构造的,但是构造多尺度计算复杂容易造成运算速度过慢,同时还会得到过多的极值点,有些极值点并无太多的视觉信息进而会影响最后的分类正确性。DAISY 是面向稠密特征提取的可快速计算的局部图像特征描述子,它的本质思想和SIFT 是一样的,通过分块来统计梯度方向直方图,但DAISY 相较于SIFT 在分块策略上进行了改进,利用高斯卷积的可快速计算性来进行梯度方向直方图的分块汇聚。DAISY 的这种特性使其不仅在运算速度上高于SIFT 而且还能在一定程度上兼顾图像的全局信息。
本文在基于DAISY 特征描述的基础上构造词袋模型,大致分为以下4步:
步骤1 将图像利用网格划分得到相同大小的特征块(block),并且块与块之间采用重叠方式,每个特征块的中心位置作为一个特征点,通过同一个特征块里的所有像素点来形成该特征点的DAISY 描述子。
步骤2 将步骤1中得到的每幅图像特征点的DAISY描述子利用K-means进行聚类,聚类后形成词典,每个聚类中心对应词典中的一个单词。
步骤3 词典生成后,统计每幅图像对应词典中的单词出现的频率,将每幅图像映射成一个K 维的图像描述向量,其中K 为聚类数目,即词袋模型中单词总数[11]。
步骤4 SVM (support vector machine)分类,本文采用其提供的径向基函数作为核函数[12]
一阶微分处理对灰度梯度有较强的响应,一阶微分
对于灰度值函数f(x),采用梯度模板 [-1,0,1]计算像素点坐标为 (x,y)的水平方向和垂直方向上的梯度分别如下
则该像素点的梯度幅值和梯度方向分别表示为
梯度对于噪点相当敏感,对于灰度图像,一般需要先利用离散高斯平滑模板对图像进行平滑以便去除噪点。本文直接利用高斯模板卷积近似梯度,相当于在梯度运算之前先进行一次平滑滤波处理。梯度幅值可以在一定程度上反映出像素上一定的边缘信息,因此本文选取像素点的梯度幅值对梯度方向进行投影加权。
构建词袋模型的过程中,梯度方向直方图维数即梯度方向离散精度的选取对于构造的词袋模型性能有很大影响,是否存在一个明显的阈值,在选择该阈值时构造出的词袋模型应用到分类上能有最佳的分类效果,低于或高于该阈值时构造出的词袋模型分类性能均有所下降。若有并能找到该阈值不仅能避免在选择梯度方向离散精度时的盲目性,还能构建出最佳的词袋模型,获到最佳图像分类效果。
本文采用DAISY 描述子,将图像划分成均等间隔大小的特征块区域,每个特征块区域都由若干个单元 (cell)构成,每个单元又由若干个像素点组成。在每个单元中独立将梯度方向进行离散化,做以梯度方向为横轴的直方图统计,梯度方向可选取0-2π,然后将此梯度方向分布离散化为W 个离散区,每个离散区范围对应一个直方柱。W 如何选取才能得到最佳的词袋模型,本文通过大量实验进行探究验证,将角度0-2π分别离散化为8、12、16、20、24、28、32、36个离散区,不同离散区个数对应的离散区大小分别为π/4、π/6、π/8、π/10、π/12、π/14、π/16、π/18。特征块大小选取16*16,单元大小设定为4*4时,离散区个数为8和24的具体区别如图1所示。
图1 不同梯度方向离散精度对比
由图1可以看出,不同的离散精度对应不同的分区大小,精度越低角度划分地越粗糙,对应的每个离散区越大,精度越高角度划分地越细致,对应的每个离散区越小。精度越低即离散区越大,具有不同梯度方向的像素点可能会被映射到同一个离散区内,降低了不同像素点之间的差异性;精度越高即离散块越小,能够使得每个像素点的梯度方向得到精确定位,对以梯度方向为特征的像素点刻画地越准确,围绕像素点区域提取出的DAISY 特征也能准确、高效地代表图像特征。但是,离散精度越高,提取的特征维数也就越高,运算复杂度也会随之增加,造成运算时间过长,同时还会出现过拟合现象,精度越高提取出的特征通过聚类形成的词典,虽能够很好地拟合训练数据,但若待分类图像数据与训练数据稍有不同就会认为该分类图像不属于该训练类别,使得分类率降低。通过大量实验探究表明,梯度方向离散精度并非越高越好,离散精度存在一个明显、统一的阈值,当选择离散精度为24时构造的词袋模型性能最佳,此时应用该BOW 模型进行分类得到的分类率最高。分类率在精度选择为24之前呈大致上升趋势,24之后呈大致下降趋势,24即为探究出的梯度方向离散精度阈值。
本实验使用在Windows XP 系统下利用MATLAB 2012A 作为开发环境,为保证研究结果的可靠性,本文选取了3个数据集分别进行实验,其中包括在图像分类和识别领域中较为常用的Caltech 101 数据集和Corel数据集,以及自己做实验采集的图像集 (Original数据集)。
Caltech101数据集具有图像种类多、对象类内变化多样的特点,本文从中随机选取6 类,分别为:Airplane、Bonsai、Brain、Buddha、Butterfly、Chair。
Corel数据集中包含一些常见的图像类别,具有很好的实用性,本文从中随机选取6 类,分别为:Beach、Bus、Face、Flower、Food、Mountain。
Original数据集有6 类物体,分别为:Phoning、Running、Shooting、Playingguitar、Ridingbike、Ridinghorse。
对于每一个数据集,分别随机选取其中6类图像,每类60幅,其中40幅作为训练集,20幅作为测试集,即每一数据集形成240幅训练集,120幅测试集,共360幅图像。
本文重点探究构建词袋模型过程中梯度方向离散精度的最佳取值问题,由于分块大小影响特征区域的大小和个数,对于每一个数据集,分别选取分块大小12*12、16*16、20*20、24*24,块与块之间的重叠度均为50%,在此基础上选取梯度方向离散精度,分别为8、12、16、20、24、28、32、36进行实验。对于每一种分块大小对应的每一个梯度方向离散精度进行3次重复实验,记录每一次实验的分类结果,计算出每个离散精度对应实验结果的平均分类率。在使用K-means进行聚类时,设定聚类中心K为300。
根据4种不同分块大小分别对应的8个不同梯度方向离散精度的实验结果,拟合出4组平均分类率曲线,如图2所示。
图2中,曲线横轴表示梯度方向离散精度,纵轴表示应用不同离散精度形成的BOW 模型所获得的图像平均分类率,每个离散精度对应的平均分类率均是由3次重复实验得来。图2 (a)~图2 (d)分别表示选取分块大小为12*12、16*16、20*20、24*24像素,块与块重叠度均为50%所获得的平均分类率曲线图。从这4组实验曲线图均可看出,梯度方向离散精度在8到24范围内,BOW 平均分类率曲线呈大致上升趋势,在24到36范围内,BOW 平均分类率曲线呈大致下降趋势,精度为24时获得的图像分类率最高。
图2 不同分块下8个梯度方向离散精度分类率曲线
图像中包含大量的像素,每个像素都有其对应的梯度方向并且不同像素点的梯度方向均有不同程度上的差别,若梯度方向离散精度过低,那么就会降低具有不同梯度方向和梯度模值像素点间的差异性,进而影响了词袋模型的性能,降低了应用词袋模型进行分类的效果。梯度方向离散精度越高,虽然对像素点刻画的越准确,但在一定程度上也增加了运算时间,降低词袋模型的性能。不同梯度方向离散精度对应的平均运行时间见表1,离散精度在大于24 之后,运行时间过长显然会影响词袋模型的性能。
表1 不同梯度方向离散精度下的平均运行时间/min
通过实验结果可知,梯度方向离散精度为24时,形成的词袋模型运用到图像分类中得到的分类率最高,此时词袋模型的性能最佳。梯度方向离散精度低于24或者高于24分类效果均有所下降,故在构建词袋模型的过程中,梯度方向离散精度存在一个明显、统一的阈值,此阈值为24。
本文通过采用面向稠密特征提取的可快速计算的局部图像特征DAISY 描述子来进行特征描述,不仅降低了运算量,而且在一定程度上兼顾了全局信息,同时重点探究出构造词袋模型的过程中梯度方向离散精度的选取问题,选择精度阈值来构造词袋模型能够构造出最佳的词袋模型,并且还可以提高图像的分类正确率。但是,本文从实验结果分析可知,对于背景信息较多的物体,使用构造出的词袋模型进行分类仍存在较高的错误分类率,因此进一步提高词袋模型应用在背景、干扰较多的物体上进行分类的性能,将是笔者下一步研究的重点。
[1]Vigo D A R,Khanfs,Van D W J,et al.The impact of color on bag-of-words based object recognition [C]//International Conference on Pattern Recognition,2010:1549-1553.
[2]Deselaers T,Pimenidis L,Nry H.Bag-of-visual-words models for adult image classif-ication and filtering [C]//19th International Conference on Pattern Recognition.Washington,DC:IEEE Computer Society,2008:1-4.
[3]WU LEI,HOI S C H,YU Nenghai.Semantics preserving bag-of-words models and applications [J].IEEE Transactions on Image Proces-sing,2010,19 (7):1908-1920.
[4]Manuele B,Andrea L,Enrico G.On the use of SIFT features for face authentication [C]//Proceeding of the Conference on Computer Vision and Pattern Recognition Workshop,2006.
[5]Matthew Brown,David G Lowe.Automatic panoramic image stitching using invariant features[J].International Journal of Computer Vision,2007,74 (1):59-73.
[6]WU Jian,MA Yue.Improved SIFT algorithm [J].Computer Science,2013,40(7):270-272(in Chinese). [吴建,马跃.一种改进的SIFT算法[J].计算机科学,2013,40(7):270-272.]
[7]Chao Zhu,Bichot Charles-Edmond,Liming C-hen.Visual object recognition using DAISY descriptor[C]//IEEE International Conference on Multimedia and Expo,2011:1-6.
[8]HU Min,QI Mei,WANG Xiaohua,et al.Object recognition method based on salient regions and BOW model[J].Journal of Electronic Measurement and Instrument,2013,27 (7):647-652 (in Chinese).[胡敏,齐梅,王晓华,等.基于显著区域词袋模型的物体识别方法 [J].电子测量与仪器学报,2013,27 (7):647-652.]
[9]ZHAO Chunhui,WANG Ying,Masahide Kaneko.An optimized method for image classification based on bag of words model[J].Journal of Electronics and Information Technology,2012,34 (9):2064-2070 (in Chinese). [赵春晖,王莹,Masahide Kaneko.一种基于词袋模型的图像优化分类方法[J].电子与信息学报,2012,34 (9):2064-2070.]
[10]CHEN Kai,XIAO Guoqiang,PAN Zhen,et al.Single scale image classification employing bag of words model[J].Application Research of Computers,2011,28 (20):3986-3988 (in Chinese).[陈凯,肖国强,潘珍,等.单尺度词袋模型图像分类方法[J].计算机应用研究,2011,28 (20):3986-3988.]
[11]XU Ming,HAN Junwei,GUO Lei,et al.Determine word number of visual Bag-of-words model by model selection method [J].Computer Engineering and Applications,2011,47(31):148-150 (in Chinese).[许明,韩军伟,郭雷,等.利用模型选择确定视觉词袋模型中词汇数目 [J].计算机工程与应用,2011,47 (31):148-150.]
[12]Zaidi N A,Squire D M.Local adaptive SVMfor object recognition [C]//International Conference on Digital Image Computing:Techniques and Applications,2010:196-201.