宋小璇,刘敬浩,唐小容
(天津大学 电子信息工程学院,天津 300072)
图像检索技术在生产生活中被广泛应用。现存主流图像检索技术可大致分为基于文本检索和基于内容检索两种。基于文本的图像检索虽然可达到快速的检索效果,但检索准确性过度依赖于人工对图像的文本标注等主观因素[1]。相反,基于内容图像检索则直接从图像中提取特征信息,无需人工参与,保证了对图像内容理解的客观性和检索的准确性。文中提出了一种基于图像内容检索技术的地标识别系统,用户只需输入采集的地标图片而不添加任何文本信息,系统就能检索出与之对应的地标图片并在相应的地图中给出位置信息。系统具有鲁棒性和高准确性。另外,系统采用层次化数据库结构和分级检索方式,使得检索效率大大提高。
系统通过提取的SURF特征搜寻地标在数据库中的最优匹配,然后根据最优匹配结果给出输入地标的定位信息。系统流程图如图1所示。
图1 地标检索系统框图Fig.1 Block diagram of landmark recognition system
图像的内容可由图像的局部特征很好地描述。高效的局部特征检测算法主要包括Scale Invariant Feature Transform(SIFT),Speededuprobustfeatures(SURF)和 Affine-SIFT(ASIFT)。文中深入分析了3种算法的优缺点并根据系统设计要求择优选择,达到了准确检索的目的。
1)SIFT算法 SIFT算法[2-4]首先检测图像DOG金字塔中的极值点来确定特征点位置,而后采用特征点4×4区域内方向直方图作为特征描述符。DOG金字塔[2]建立方式如下:
SIFT特征对尺度、旋转和光照变化和一定程度的仿射变换不敏感。
2)SURF算法 SURF[5]算法在特征点检测方面,将图像与高斯二阶微分模板的滤波转化为对积分图像的加减运算,使得检测速度远远快于SIFT。另外,SURF采用6倍尺度大小的半径范围内的哈尔小波响应的极值来表示主方向,生成64维的特征向量,比SIFT减少一半。SURF保持了对尺度、旋转、光照和一定程度上的仿射变换的鲁棒性,但在速度方面远远高于SIFT。
3)ASIFT算法 SIFT和SURF对具有较大仿射变换的图像会失去检测效果,Affine-SIFT(ASIFT)[6]则是一个对仿射变换具有完全鲁棒性的特征。然而,构建全仿射变换空间极大地增加了计算量使得检测时间高于SIFT的2倍以上。
通过实验比对,并综合考虑了3种算法的检测精度与检测速度,系统折衷选择了SURF算法。对比数据见实验部分。
系统根据SURF匹配特征点的数目,检索数据库中与输入图像的最优匹配,从而为用户提供其所摄景物的清晰图片、所摄景物位置等信息。图像的匹配通过关键点的匹配实现。由于系统采用了由粗到精的匹配模式,大大增加了匹配的准确性。同时,系统对数据库结构及检索方式也进行了优化。
1.2.1 关键点由粗到精匹配
粗匹配采用阈值判别的方式筛选匹配的特征点。一幅图像中关键点与另一幅图像中的关键点的欧式距离低于某个经验性阈值,则接受这一对匹配点。而后,系统采用随机取样一致性算法[7](RANSAC:random sample consensus)去除粗匹配中的误匹配点。效果如图2所示。从图中看出,精匹配有效地去除了误匹配点,使匹配结果更加准确。
图2 剔除误匹配点过程Fig.2 Process of excluding mismatch-point
1.2.2 数据库结构及检索方式优化
为提高对数据库的检索效率,系统建立了一种层次化的数据库结构,并采用分级的检索方式。数据库图片分为2个优先级。每个地标景点中根据拍摄角度和光照情况选取5张有代表性的作为第一级,其具有最高优先级;其他图片作为第二级,都分属于第一级每个图片的子类,其优先级低于核心图片。检索时,先对第一优先级检索进行粗检索,而后对其对应的子类进行精检索。这样的设计避过了输入图像和不可能的图像匹配,检索时间比采用遍历数据库检索耗时减少30%以上。对比结果见实验数据部分。
为测试文中提出的算法,笔者将算法应用在天津大学地标识别中。实验测试了对天津大学校园内30个地标的识别和精确定位。系统输入为用户在任意角度、光照条件下拍摄地标的图片,输出为地标及其所在地域平面俯视图中的位置。
1)精确度 为测试SIFT、SURF、ASIFT 3种算法检索精确度,实验分别针对尺度缩放、平移旋转、光照变换和仿射变换4种情况,从测试的图片中抽取出有代表性的分为4组,每组图片包含6张图片。在每组图片中选定一张为目标图片,分别使用3种算法与其余5张进行匹配,得到的匹配点数目比较结果如图3所示。其中横坐标为待匹配的图片编号,纵坐标为匹配点数目。从图3中可以看出,实验数据显示的精确度与理论分析一致。
2)检测速度 为了比较3种特征提取算法的速度,文中对数据库中每一组地标任意选取一张图片与该组其他图片进行匹配,并对所有时间数据,统计3种算法的均值和方差。结果如表1所示,从表中可以看出,SURF算法显示出极大的速度优势,而ASIFT算法与其差距甚大。
为了测试提出的算法框架,文中把该系统应用在天津大学内部地标识别中。系统数据库包括天津大学校园内标志性地标建筑物剪影共1 200张 (共有30处景点,每个景点40张),数据采集综合考虑到光照、旋转、仿射等因素影响,分别在不同时间点,不同角度进行数据的采集。文中通过鲁棒性、检索速度、准确性3个指标对系统性能进行评定。
图3 3种算法的比较Fig.3 Comparison of three algorithms
表1 图像匹配时间比较Tab.1 Contrast of matching time
1)系统鲁棒性
系统的鲁棒性表现在对图片的尺度缩放、平移旋转、光照变化、仿射变换不敏感。图4中分别列举出在这4种情况下系统的检索性能。每一行的第一张图片为目标图片,其余4张为检索结果。从图中可以看出,系统对尺度变换、旋转平移、光照变化和仿射变换都有很好的鲁棒性,检索结果准确。
2)系统检索速度
由于采用了层次化的数据库结构及由粗到精的检索方式,数据库检索时间比采用数据库遍历检索所需时间提高了30%以上。表2给出了对比数据,其中遍历检索使用的是耗时最少的SURF算法。
图4 不同实验条件下的系统检索Fig.4 Searching result of the system under condition of different experiments
表2 系统检索时间对比Tab.2 Contrast of the system retrieval time
3)系统的准确性
为了测试系统的准确性,对每一次检索结果进行统计:系统界面中排在第1位的图片 (即与目标图片最相似的图片)正确率为98.4%,排在第2位的正确率是93.5%,排在第3位的正确率是89.3%,排在第4位的正确率是84.5%。
文中设计实现了一个地标识别系统,用户任意输入一张标志性建筑物图片,该系统可以自动识别该地标,并在地图上对地标进行精确定位。在校园内实验测试表明,该系统具有高准确性和鲁棒性。此外,系统具有良好的扩展性,增大数据库的规模可以实现城市或全国的景点地标检索。未来的工作将集中在使用k-d树来进一步增加系统的速度,增加网络支持及扩大数据库到省级或全国范围内地标3个方面。
[1]李向阳,庄越挺,潘云鹤.基于内容的图像检索技术与系统[J].计算机研究与发展,2001,28(3):344-354.LI Xiang-yang,ZHUANG Yue-ting,PAN Yun-he.The technique and systems of content-based image retrieval[J].Journal of Computer Research&Development,2001,28(3):344-354.
[2]Lowe D G.Object recognition from local scale-invariant features[C]//The Proceedings of the IEEE International Conference on Computer Vision,Corfu:IEEE,1999:1150-1157.
[3]Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[4]吴锐航,李绍滋,邹丰美.基于SIFT特征的图像检索[J].计算机应用研究,2008,25(2):478-481.WU Rui-hang,LI Shao-zi,ZOU Feng-mei.Image retrieval based on SIFT features[J].Application Research of Computer,2008,25(2):478-481.
[5]Bay H,Tuytelars T,Van G L.Speeded-Up Robust Features(SURF)[J].Computer Vision and Image Understanding,2008(110):346-359.
[6]Morel J M,Yu G.ASIFT:a new framework for fully affine invariant image comparison[J].SIAM Journal on Imaging Sciences,2009,2(2):438-469.
[7]Fishier M A,Bolles R C.Random sample consensus:a paradigm for model fitting with application to image analysis and automated cartorgraphy[J].Communication of the Association Machine,1981,24(6):381-395.