基于流形结构的图像地理信息标注方法

2015-06-07 11:07巍,龚华,郭娜,路梅,赵
地理与地理信息科学 2015年3期
关键词:查准率流形直方图

叶 巍,龚 建 华,郭 娜,路 梅,赵 向 军

(1.江苏师范大学计算机科学与技术学院,江苏 徐州 221116;2.中国科学院遥感与数字地球研究所,北京 100101)



基于流形结构的图像地理信息标注方法

叶 巍1,龚 建 华2,郭 娜1,路 梅1,赵 向 军1

(1.江苏师范大学计算机科学与技术学院,江苏 徐州 221116;2.中国科学院遥感与数字地球研究所,北京 100101)

借助携带地理信息的图像数据,标注未知图像的地理信息,是图像视频地理信息系统迫切需要的基于内容的检索工具。传统基于文本的地理信息标注方法主要借助人工完成,效率低下且无法运用于视频GIS检索之中,针对该问题,提出了基于流形结构的图像地理信息标注方法。该方法提取图像的视觉特征作为相似度度量,重构地理图像的流形结构,用以刻画不同视角视图图像的渐进变化规律,建立相同地理位置不同视角图像之间的内部关联,以便携带地理信息的共享。构建地理图像的流形结构需要连续视角变化的地理图像,当已有地理图像视角变化跳跃时,提出利用主动学习策略,通过交互完成视角变化跳跃位置的地理图像补充,同时进行增量式训练,提升地理信息标注方法的泛化能力。实验结果表明,给出携带地理信息的图像,该文方法可以获得相同地理位置处流形结构内的所有地理图像,高效完成地理信息标注。此外,在应对成像视角变化跳跃的情况时,具有较强的鲁棒性。

图像标注;地理信息系统;地理位置;流形学习;主动学习

0 引言

随着移动互联网络的快速普及,摄录和定位模块在智能移动终端设备上的广泛嵌入,巨量具有位置信息的图像数据正以前所未有的速度急速聚集,特别是街景地图的大量涌现,可供用户多视角自由浏览,能够方便地对特定目标位置的地形地貌、道路交通等进行直观规划与情景预演,给人们的生产生活带来了极大的便利。上述问题的逆问题,就是根据图像内容获得其地理信息特别是地理位置信息,进而可获取对应位置周边的自然、社会信息。

传统的地理信息系统(GIS)借助文本匹配获得图像的地理位置信息,需要大量人工标注,且标注结果易受主观因素影响。国外一些学者直接利用图像特征进行地理位置标注[1-4],有效克服了上述不足,展现了较为理想的精度。然而这些地理位置标注方法直接采用图像分类技术,当地理图像的成像视角发生变化时,将产生较大偏差。流形学习方法[5,6]可以有效发现数据集的内在流形结构,准确地表示地理图像连续、渐进地变化,也可有效克服地理图像特征的维度灾难(Curse of Dimensionality)[7]问题。基于图的半监督学习方法[8]借助图学习模型重构数据集的流形结构,更直观地呈现数据集的低维子流行,使得标注模型有较强的泛化能力。

流形重构要求地理图像变化连续,成像视角不连续直接影响重构效果,进而降低标注精度。主动学习[9,10]主动选取训练集中高信息量的样本,高效训练模型,可有效提升信息标注精度。为此,本文借助基于流形结构的检索方法进行图像地理信息标注,消除成像视角变化对标注结果的影响。结合主动学习原理,有效克服在较大空间场景下采样数据不足的问题,从而提高检索准确率。

1 标注流程概述

本文提出了一种基于流形结构的地理信息标注方法,该方法首先提取图像库中所有图像的颜色特征和形状特征,采用颜色直方图和边缘方向直方图表示,以直方图相交(Histogram Intersection) 作为相似性度量,在此基础上,采用拉普拉斯特征映射(Laplacian Eigenmap,LE)[11]揭示地理图像数据的流形结构,在降维后的低维子流形进行检索,并利用相关反馈技术(Relevance Feedback,RF)[12]获得用户语义信息,提高检索精度。与此同时,借助BvSB (Best-versus-Second Best)[13]主动学习方法主动获取欠采样位置补充训练,高效调整流形结构,增强模型的泛化能力。最后,统计检索结果中位置信息,对输入图像进行标注。整个标注系统的检索部分流程如图1所示。

图1 基于流形结构的图像地理信息标注方法检索流程

Fig.1 The retrieval process of information annotation of geographic image based on manifold structure

2 基于流形结构的标注方法

2.1 特征表示与度量

颜色对平移、旋转变换具有不变性,表现出相当强的鲁棒性,因此在图像检索中得到了广泛的应用。颜色直方图是常用的颜色特征表达方法,能有效地反映地理图像中的地貌特征,因此,本文采用颜色直方图作为地理图像的特征表示。

首先将地理图像从RGB颜色空间转换为HSV颜色空间。设RBG的颜色空间值为(R,G,B),其中R,G,B∈[0,255],令r=R/255,g=G/255,b=B/255,则可得HSV空间的值(H,S,V):

(1)

(2)

(3)

由上式可知H∈[0,2π],S∈[0,1],V∈[0,1]。在此基础上,对图像在HSV颜色空间中进行256级量化统计,即将H分成16等份,S和V分成4等份。令Hist=(h1,h2,…,hn)(n=256)表示地理图像IM×N的颜色直方图,则hc∈Hist可由下式求出:

(4)

(5)

形状特征可以有效地表示地理图像中的地形地物,也是图像检索中较为常用的视觉特征。本文借助Sobel算子[14],采用边缘方向直方图表示地理图像的形状特征。水平方向和竖直方向上的Sobel模板如图2所示。

首先用水平和竖直方向上的Sobel模板Sobelx和Sobely计算地理图像I中点(i,j)处的梯度:

图2 水平和竖直方向上的Sobel模板

Fig.2Sobelmasksinhorizontalandverticaldirection

Gx(i,j)=Sobelx*I(i,j)

(6)

Gy(i,j)=Sobely*I(i,j)

(7)

则点(i,j)处的边缘强度为:

(8)

在此基础上,对Gx(i,j)与Gy(i,j)进行阈值化处理,对于给定的阈值φ,当边缘强度G(i,j)≥φ时,该像素点为地理图像的边缘像素点。而当边缘强度G(i,j)≤φ时,令Gx(i,j)与Gy(i,j)为0。则点(i,j)处的边缘方向为:

(9)

其中:θ∈[-π/2,π/2]。此时可将θ分成18等份,在此基础上,利用求颜色直方图的方法,求得地理图像的边缘方向直方图。

两个图像的相似度可用直方图相交来计算,设直方图Ha和Hb有n个直方块(Bin),则两个直方图的相交可表示为:

(10)

本文采用地理图像的颜色直方图和边缘方向直方图加权值计算两个地理图像间的相似度,即:

L(I1,I2)=αLc(I1,I2)+(1-α)Le(I1,I2)

(11)

其中:Lc(I1,I2)表示两个地理图像的颜色直方图相交,Le(I1,I2)表示两个地理图像的边缘方向直方图相交,α为人工给定系数。

2.2 流形重构与检索标注

地理图像数据尤其是视频图像序列,成像视角通常渐进连续变化,因此,在每个微小的局部邻域上,地理图像的特征空间可被视作具有局部平滑性的线性结构。在此基础上,可以假设地理图像的特征空间是嵌入在高维空间中的低维流形,采用基于谱图的非线性降维方法对地理图像特征进行降维。

步骤 1:构造k近邻图G。

步骤 2:定义邻接权值矩阵W。有两种方法构造权值矩阵:

(1)热核法(HeatKernel)。如果i点和j点在近邻图G中有边相连,则两点间的权值设为:

Wij=exp(-t-1‖xi-xj‖2)

(12)

(2)简单方法。如果点i和点j在近邻图G中有边相连,则边上的权值为1,否则为0。

步骤 3:特征映射。假设图G为连通图(否则对每一个连通部分分别计算),构造目标函数:

(13)

其中:Y=(y1,y2,…,yn),Dij=∑i,jWij,L=D-W为拉普拉斯矩阵,为实对称的半正定矩阵,采用拉格朗日乘数,计算矩阵L的d+1个最小特征值对应的特征向量u1,u2,…,ud+1,则嵌入在低维空间上的坐标可表示为Y=[u1,u2,…,ud+1]T。

下午的议程将大会分为两大主题分会场,分别围绕着“转型升级高峰论坛”和“新材料与绿色供应链”进行主旨演讲与高峰论坛环节,众多国内外专家学者、协会领导与品牌负责人进行对话,围绕着专题内容进行研究探讨。

对于一张给定待标注地理图片,标注步骤如下:

步骤 1:提取地理图像数据的视觉特征,构建特征向量,包括:1)构建256类的颜色直方图;2)在[-π/2,π/2]范围内,将不同走向的每10°划分为一类,构成18类的边缘方向直方图。

步骤 2:流形曲面的构建。除了特征空间中特征向量较近的图像建立邻接外,充分考虑视频流的恢复信息,对视点接近的各帧建立邻接关系。

步骤 3:利用拉普拉斯特征映射对特征空间降维。

步骤 4:在样本的低维特征空间下进行度量距离排序,以此为基础,得到图像检索序列R={r1,r2,…,rn}。

步骤 5:相关反馈。返回检索结果中前19张图片。用户对检索结果标记负样例,在线调整拉普拉斯特征映射。

步骤 6:用检索结果中最先出现的有标签样本的位置信息标注输入图像,即:

其中:S为指示函数,即当yi=cj时S为i,否则为∞;k为标签总数;n为图像库中图像总数。

2.3 主动式增量训练

单张地理图片包含的信息量较少,无法全面表达空间场景信息。而地理图像库中的图片数据往往不能准确反映图像成像视点的连续变化,从而使流形结构上数据点的分布不均匀,检索精度受到影响。此时可采用基于不确定性的主动学习方法[10]主动获取欠采样位置,高效提升标注模型的精度。

基于不确定性的主动学习方法每次选取具有最大熵的样本:

(15)

信息检索往往涉及多分类问题,然而在多分类问题中,有些具有较小熵的样本的分类不确定性往往大于熵较大的样本,使得基于最大熵的样例选择方法不能较为理想地选取高价值样本[15]。因此,本文采用BvSB方法,它是基于不确定性主动学习方法的改进,只考虑在多分类问题中样本分类可能性最大的两类而忽略其他对分类结果影响较小的类别:

(16)

其中:P(yB|x)表示x属于具有最大可能性类别yB的概率;P(yi|x)表示除yB之外,x属于各个类别yi的概率。

3 实验结果与分析

3.1 实验方案

标注原型系统采用Matlab编写,运行于64位的window7操作系统,实验设备采用IntelCorei7 3.4GHz处理器,4G内存的PC机。

本文选取了60个不同的地理位置,每个位置拍摄视角各异的100张图片,其中仅有一个图像携带地理信息。事实上,这些地理图片均采用具有定位功能的摄录设备获得,但每个位置中仅选取一张图片进行地理位置标注。为保证流形结构的重构,摄录视角间隔不能太大,以等间隔连续变化为宜。以上6 000张图像作为标注系统的图像库,构建地理图像的流形网络。此外,在上述拍摄位置,任意视角随机拍摄若干图片作为待标注测试集。用户输入待标注图片,系统借助图像的流形结构从图像库中检索出相同地理位置的地理图像,并寻找到携带地理信息的样本来标注输入图像。在相关反馈中,系统返回前19张检索结果给用户进行语义标记,重新检索并标注图片。如果因为流形不完整导致无法标注,算法会自动反馈最佳推荐位置,供用户交互确认并补充数据,同时将补充数据加入训练集进行增量训练。

3.2 检索性能评价

查全率(Recall)和查准率(Precision)是图像检索系统中普遍采用的评价标准,查全率是检索系统返回的查询结果中与被检索数据语义相关的图像数目占图像数据库中所有相关图像数目的比例,查准率则指检索系统中返回的语义相关图像数目占所有返回的图像数目的比例。令T为图像数据库中所有和被检索图像语义相关的图像集合,S为所有返回的图像集合,t为一次查询中返回的所有语义相关的图像数目,v为图像数据库中没有被检索到的相关图像数目,u为返回的不相关图像数目,则查全率表示为式(17),查准率表示为式(18)。

(17)

(18)

查全率和查准率是一对负相关的评价指标。过高的查全率会导致低查准率,过高的查准率也会导致低查全率,因此大多检索系统试图寻找二者间的平衡。本文通过检索的返回结果确定图像的地理位置信息进行标注,所以仅需查准率来评价检索精度。

3.3 结果分析

图3为本文基于流形结构的图像地理信息标注方法的检索结果,通过输入的单张待标注地理图片,可以在地理图像库中检索出图像内容相近的图片,系统自动根据检索结果标注图片的地理位置信息。

图3 基于流形结构的图像地理信息标注系统检索结果

Fig.3 The retrieval result of information annotation of geographic image based on manifold structure

图4是从一座桥梁在不同视角下移动拍摄所得地理视频数据中截取的3张图片,可以看出,不同视角下得到的三张地理图片差别较大。以欧氏距离为度量基础的标注系统中,桥梁的一个侧面视角图像为待标注图像,从该桥梁正面视角和另一侧面视角得到的图像与被标注图像的度量距离分别为0.12537和0.08874。而基于本文算法设计的标注系统中,度量距离只有0.05553和0.03588。因此,本文提出的借助图像流形结构的地理信息标注方法能有效克服地理图像成像视角变化对标注结果的影响。

图5是采用拉普拉斯特征映射降维的图像检索方法和借助主动学习增量训练之后的图像检索方法的准确率比较。检索系统利用前50个检索结果计算查准率。在只有3 000张训练样本(每个地理位置采样50张)的情况下,以及每个地理位置采样数据每次增加10张(总采样数据每次增加600张)的情况下,可以看出借助BvSB进行主动式增量训练在检索查准率上有一定提高。

4 结论

图4 在欧氏距离下与流形结构中同一地理位置的度量距离

Fig.4 The measure distances of image in Euclidean space and manifold structure at the same geographic position

图5 主动式增量训练对基于流形结构的图像检索查准率的影响

Fig.5 The effects of active incremental training on the precision of image retrieval based on manifold structure

本文提出了一种基于流形结构的图像地理信息标注方法,可以很好地解决图像成像视角变化对标注精度的影响,采用流形学习方法对图像特征进行降维,准确呈现地理图像数据间的内在联系。根据图像检索结果标注图像的地理信息,较之传统基于分类的标注模型,泛化能力大大增强。除采用相关反馈方法增强模型的标注精度外,借助主动学习策略对采样数据不足的地理位置进行补充采样,在线调整地理图像的流形结构,使得本文提出的标注方法具有较强的鲁棒性。地理图像中的流形结构是普遍存在的,本文仅仅就视角变化的流形结构进行了探讨,而对于季节变化、阴晴雨雪等天气条件下的地理图像之间的关联结构,仍需进一步深入研究。

[1] LUO J,JOSHI D,YU J,et al.Geotagging in multimedia and computer vision-a survey[J].Multimedia Tools and Applications,2011,51(1):187-211.

[2] GALLAGHER A,JOSHI D,YU J,et al.Geo-location inference from image content and user tags[A].Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition[C].Miami,United states:IEEE Computer Society,2009.55-62.

[3] HAYS J,EFROS A A.IM2GPS:Estimating geographic information from a single image[A].Proceedings of the 26th IEEE Conference on Computer Vision and Pattern Recognition[C].Anchorage,United states:IEEE Computer Society,2008.1-8.

[4] LI Y,CRANDALL D J,HUTTENLOCHER D P.Landmark classification in large-scale image collections[A].IEEE 12th International Conference on Computer Vision[C].Kyoto,Japan:IEEE Computer Society,2009.1957-1964.

[5] ROWEIS S T,SAUL L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(5500):2323-2326.

[6] TENENBAUM J B,DE SILVA V,LANGFORD J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):2319-2323.

[7] DONOHO D L.High-dimensional data analysis:The curses and blessings of dimensionality[R].AMS Math Challenges Lecture,2000.1-32.

[8] ZHOU D,BOUSQUET O,LAL T N,et al.Learning with local and global consistency[J].Advances in Neural Information Processing Systems,2004,16(16):321-328.

[9] TONG S,CHANG E.Support vector machine active learning for image retrieval[A].Proceedings of the ACM Multimedia 2001 Workshops 2001 Multimedia Conference[C].Ottawa,Canada:Association for Computing Machinery,2001.107-118.

[10] LEWIS D,GALE W.A sequential algorithm for training text classifiers[A].Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C].New York,United states:Springer-Verlag,1994.3-12.

[11] BELKIN M,NIYOGI P.Laplacian eigenmaps for dimensionality reduction and data representation[J].Neural Computation,2003,15(6):1373-1396.

[12] RUI Y,HUANG T S,ORTEGA M,et al.Relevance feedback:A power tool for interactive content-based image retrieval[J].IEEE Transactions on Circuits and Systems for Video Technology,1998,8(5):644-655.

[13] JOSHI A J,PORIKLI F,PAPANIKOLOPOULOS N.Multi-class active learning for image classification[A].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops[C].Miami,United States:IEEE Computer Society,2009.2372-2379.

[14] PATEL J,PATWARDHAN J,SANKHE K,et al.Fuzzy inference based edge detection system using Sobel and Laplacian of Gaussian operators[A].Proceedings of the International Conference and Workshop on Emerging Trends in Technology[C].Mumbai,India:Association for Computing Machinery,2011.694-697.

[15] 陈荣,曹永锋,孙洪.基于主动学习和半监督学习的多类图像分类[J].自动化学报,2011,37(8):954-962.

Information Annotation of Geographic Image Based on Manifold Structure

YE Wei1,GONG Jian-hua2,GUO Na1,LU Mei1,ZHAO Xiang-jun1

(1.SchoolofComputerScienceandTechnology,JiangsuNormalUniversity,Xuzhou221116; 2.InstituteofRemoteSensingandDigitalEarth,ChineseAcademyofSciences,Beijing100101,China)

Annotating the location for geographical image is an important tool in image and video geographic information system.Focused on the leakage of existing geographic information annotation methods,which take a great deal of manual annotation cost,this paper proposes a geographic information annotation method based on manifold structure.This method directly extracts visual features of images as similarity measure,meanwhile,makes use of manifold learning to accomplish the manifold reconstruction in order to describe the continuous change of viewing angle,and then annotates the image through the results of image retrieval.Active learning is used to actively get the insufficient sampling place and perform incremental training simultaneously so as to increase the accuracy of annotation.The experimental results show the method is reliable although the camera angle is dramatically changed.

image annotation;GIS;geographical location;manifold learning;active learning

2014-11-11;

2015-01-22

江苏省普通高校研究生科研创新计划项目(CXLX13_979);国家自然科学基金项目(61272297、 61402207)

叶巍(1988-),男,硕士研究生,主要研究方向为深度学习、图像检索与三维模型检索。E-mail:396899547@qq.com

10.3969/j.issn.1672-0504.2015.03.002

TP391;P208

A

1672-0504(2015)03-0007-05

猜你喜欢
查准率流形直方图
符合差分隐私的流数据统计直方图发布
紧流形上的SchrÖdinger算子的谱间隙估计
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
Nearly Kaehler流形S3×S3上的切触拉格朗日子流形
用直方图控制画面影调
基于数据挖掘技术的网络信息过滤系统设计
大数据环境下的文本信息挖掘方法
基于深度特征分析的双线性图像相似度匹配算法
中考频数分布直方图题型展示
基于空间变换和直方图均衡的彩色图像增强方法