基于稀疏编码的图像自动标注

2017-03-27 21:21范馨予
电子技术与软件工程 2017年4期

范馨予

摘 要 对于图像的自动标注,探索合适的方法能提高系统标注结果在语义范畴的正确性。该文探讨了基于稀疏编码的图像自动标注。结合近邻及统计的思想,以corel-5k原有人工标注为基础,在matlab平台上对其测试图集进行自动标注。从结果上看,稀疏编码方法准确率相比常用方法偏低,但对于图像特征的学习明显优于其他方法。因此,稀疏编码在图像的自动标注领域有可行之处。

【关键词】稀疏编码 图像自动标注 近邻求解

1 引言

图像自动标注是通过获得已经标注好的图像集,对未标注过的图像进行标注。近年来,对图像自动标注的研究增多,使准确率逐渐提高。图像自动标注使用最广泛的是基于学习方法的分类模型,例如判别式模型、生成模型等。此外,还有一种基于最近邻的分类模型。因为最近邻的标注方法使用的视觉特征不能很好的反映语义信息,所以应用并不普遍。但在视觉特征的提取和近邻图像求解方法进行改进,就可以提高近邻模型的标注性能。基于稀疏编码的图像自动标注就是一种基于最近邻的分类模型。

2 最近邻方法论证

2.1 图像特征提取

最常用的图像特征是颜色特征,除此之外还有纹理特征、形状特征、空间特征等特征。一般特征的提取有很多方式。颜色特征、sift特征、freak特征、brisk特征等等。因为颜色空间的HSV特征结果便于后续的视觉分析且计算量小,本文只考虑图像颜色特征的提取。

2.2 最近邻求解

最近邻图像求解是图像自动标注最重要的部分,其核心是通过对提取的图像特征运算得到与其最相似的图像。最近邻图像求解算法很多,本文只在最常用的欧式距离和最终使用的稀疏编码之间展开讨论。

2.2.1 欧式距离算法

欧式距离算法很早就在图像边缘检测、人脸识别、数据审计等不同方向有着广泛的应用。对于相似性度量,欧式距离是一个简单实用的算法。在寻找相似的图像中,为了提高准确性,提取的图像特征不一定只有颜色特征一种。但考虑到不同特征的影响不同,这里引进一种加权的欧式距离算法:

2.2.2 稀疏编码算法

稀疏编码源自于神经网络,是近年来图像信号处理领域的一个研究热点。其最大的优势是压缩数据量,给在高纬度数据的计算带来极大便利。例如两个上万纬的向量空间,一个作为训练空间一个作为测试空间。两个空间做一个简单的内积可能达上万次。但如果这两个向量空间里有n个和m个非零元素,那么只用做min(n,m)次乘法。并且当m,n远大于零元素的个数时,计算量就会大大减少。但并不是min(n,m)越小越好,对于训练空间,若n的值远远小于空间纬度值,即数据点个数远小于特征数量,并且这时候还没有任何约束,便会出现过拟合的情况。过拟合不是没能拟合好训练数据,相反,过拟合的代价反而与零非常相近,这样则会导致训练结果没法泛化到测试样本空间中去。要是因为特征过多发生了过拟合,减少不必要的特征量便能减少过拟合。但很多时候,其特征不仅庞大还没有冗余,所以一般都用正则化在保留所有特征变量的情况下减少其数量级。正则化可以通过坐标下降法和范数求解等方法实现。这些方法,最常用的l1范数正则化。l1范数是从凸优化角度计算训练空间的稀疏系数,是l0范数的最优凸近似,又比l2更具有稀疏性。因此,本文采用l1正则最小二乘法求解测试目标与训练空间对应的稀疏系数。

式中y为测试图像特征,A是所有训练图像特征构成的矩阵,x为稀疏的基向量。λ∑xi是正则化项,λ是正则化参数。正则化项能对高阶项进行收缩,通过在很好的拟合数据和保持参数值较小之间找到平衡。λ越大拟合的结果越简洁,若过大,则拟合的结果将会趋近一条水平线,此时为欠拟合。

综上所述,欧式距离算法虽然相对简单,但其图像所有特征点同等对待,这大大减少了图像之间的关联性同时也失去部分图像信息。而稀疏编码算法不仅能考虑图像的关联性和差异性,同时也是一种鲁棒性很强的算法。因此,本文最终使用稀疏编码方法在图像的hsv颜色特征上对图像进行自动标注。

3 实验思路

Corel-5k数据集图像集共包含大小相等的5000张图片。Corel-5k分为50个大类,每一类都是100张图,且每一类都有相应主题。其中每张图片已被人工标注了1~5个单词。

本实验先提取数据集里所有图片合适的图像特征和人工标注的关键词作为训练图集数据,然后采用相应的算法求解测试图集各幅图对训练图集最近邻的k幅图片,最后统计这些图片中出现次数前n个的标注作为训练图片的自动标注结果。

程序首先对corel-5k数据集所有图像进行HSV颜色特征的提取,将训练图像组成一个矩阵,测试图像组成另一个矩阵。一次对测试图像求解相对训练图像的稀疏系数。求解l1范数引用了[8]M. Figueiredo, R. Nowak, and S. Wright的梯度投影法。取出前五个稀疏系数最小的图像,再统计前五个出现次数最多的人工标注的词作为自动标注的结果。最后将结果和测试图像人工标注的结果比较分析,并求解查全率查准率。

4 实验数据分析

Corel5K 数据集部分测试图像与部分近邻图如下.由图可以看出,在视觉颜色的分布上,稀疏编码求得的近邻图像十分相似。虽然有个别看上去有些区别,但大体上保持了一致。

测试图像a的自动标注有Coral、Ocean、Reefs、Fish、Sea,人工标注有Coral、Fan、Ocean、Farms、sea。图像b的自动标注有Field、Horse、Mare、Grass、Tree,人工标注有Field、Foals、Mare、horses。从结果看来,本文自动标注的结果和人工标注结果大体一致,大部分人工标注的关键词在自动标注的结果中都有出现。此外,自动标注还添加或修改了個别关键词。

最后计算的查准率和查全率为25.115%和24.519%。虽然相比欧氏距离的29.968%和29.487%偏低。这跟取值有关,本系统中=1,这个值的参数不一定对每幅图像都合适。有些图像可能迭代次数不够,有些图像可能迭代次数过多,从而影响了稀疏编码之后的标注。

从自动标注结果的整体来看,自动标注的个别词会有语义鸿沟的出现。因为计算机只能对图像低层特征进行计算,无法自下而上推知高层语义,所语义鸿沟在结果中必然存在。可以看到,用稀疏编码计算出的近邻图像视觉上颜色的相似度很高。但是某些相似的图片中的语义和源测试图像并不一致。如测试图像a语义中最主要的是珊瑚,但其近邻的图像有一幅语义主题是鱼。这些标注混入近邻图像人工标注的统计中来,使测试图像的自动标注结果有误。但语义鸿沟不一定都会产生偏差。从测试图像b的标注结果中可以看到,其近邻的图语义主题有熊和房子。但自动标注结果在人工标注里的田野、马、母马单词基础上增添的草坪和树对于测试图像是一种正确的学习,反而使自动标注结果更加具体丰富。所以,若是在数量更加庞大且分类标注更加细致的训练图像集,语义鸿沟会得到一定程度的抑制,自动标注的准确率可能也会得到一定程度的提高。

5 结语

本文用稀疏编码的方法实现了对Corel5K 数据集的测试集进行自动标注。但基于稀疏编码的方法的效率仍需要提高。可以通過改进优化l1范数求解问题优化,例如调整的取值;可以在系统求解稀疏系数前对每一幅测试图像计算其最合适的;在人脸的图像识别上,有一类新颖高效的建立在l2范数求解基础上的稀疏描述方法,计算复杂程度相对较低。但人脸识别算法移植到图像识别,中间也会有问题需要注意。对于标注的改进方法,可以把关联词与词之间的语义联系,而不是每个标注词都是互相独立的。例如草(grass)和树(tree)语义联系比较紧密,当一幅图被标注了草(grass),那么它被标注上的树(tree)的概率也更高。这种关联,也是改善图像标注性能手段之一。因此,寻找满足应用的快速稀疏编码和提高图像标注在语义上的准确率是下一步重点研究的方向。

参考文献

[1]吴伟,高光来,聂建云.一种融合语义距离的最近邻图像标注方法[J].计算机科学2015,42(01):297-302.

[2]刘瑞元.加权欧氏距离及其应用[J].数理统计与管理,2002,21(05):17-19.

[3]刘建伟,崔立鹏,刘泽宇,罗雄麟.正化稀疏模型[J].计算机学报,2015,38(07):1307-1325.

[4]臧淼,徐惠民,张永梅.基于距离约束稀疏/组稀疏编码的图像自动标注[J].四川大学学报,2016,48(05):78-83.

[5]温超,耿国华.基于内容图像检索中的“语义鸿沟”问题[J].西北大学学报(自然科学版),2005,35(05):536-540.

[6]徐勇,范自柱,张大鹏.基于稀疏算法的人脸识别[M].北京:国防工业出版社,2014.

[7]鲍泓,徐光美,冯松鹤,须德.图像自动标注技术研究进展[J].2011,38(07):35-40.

[8]M.Figueiredo,R.Nowak,andS.Wright.“Gradientprojection for sparsereconstruction:Application to compressedsensing and other inverse problems,”IEEE J.Sel.Topics Signal Process.,vol.1,no.4,p.586-597,Dec. 2007.

作者单位

北方工业大学电子信息工程学院 北京市 100144