杨 松,李盛阳,邵雨阳,郑 贺
YANG Song1,2,3,LI Shengyang1,2,SHAO Yuyang1,2,ZHENG He1,2,3
1.中国科学院 空间应用工程与技术中心,北京 100094
2.中国科学院 太空应用重点实验室,北京 100094
3.中国科学院大学,北京 100049
1.Technology and Engineering Center for Space Utilization,ChineseAcademy of Sciences,Beijing 100094,China
2.Key Laboratory of Space Utilization,ChineseAcademy of Sciences,Beijing 100094,China
3.University of ChineseAcademy of Sciences,Beijing 100049,China
建筑物识别是计算机视觉、模式识别领域的研究热点之一,它能够使人们根据图像快速获取建筑物的位置、名称、描述等相关信息,在建筑物定位、建筑设计、建筑物标记等领域有着重要的应用价值,而如何有效地描述建筑物的特征是建筑物识别的关键问题。
李松霖等人[1]提出了一种基于特征线匹配的城市建筑物识别系统,该系统可以满足移动条件下建筑物快速识别的需求,但是准确率不高。董肖等人[2]提出了一种快速稳健的建筑物图像识别系统,该系统在建筑物识别上具有很高的准确性,但是图像识别的速度较慢。齐沁芳等人[3]提出了一种应用于增强现实系统的建筑物识别算法,可通过手持设备实时获得建筑物的相关信息,图像识别速度较快,但准确率不高。Li等人[4]提出基于方向可控滤波器的建筑物识别方法(Steerable Filteredbased Building Recognition,SFBR),首次将方向可控滤波器应用在建筑物识别中,提取建筑物不同方向的边界信息作为特征。蔡兴泉等人[5]使用SIFT算法进行图像识别,但SIFT计算量较大,响应时间较长。
梯度方向直方图(Histograms of Oriented Gradient,HOG)是近年来在目标识别研究中应用较为广泛的特征提取方法,HOG最早由Dalal等人[6]提出,应用于行人检测中,并取得了较好的效果。HOG是一种基于图像梯度方向的特征描述子,能够捕捉局部的轮廓信息,较好地描述物体边缘形状,同时,对图像几何和光学形变保持很好的不变性,而且计算量较小[7]。由于建筑物存在丰富的边缘信息,因此HOG适用于提取建筑物特征。徐云云[8]将方向可控滤波器和HOG方法结合,并通过特征匹配的方式实现掌纹识别,该方法需要实验确定滤波器方向,而且识别效率较低。
本文深入研究了方向可控滤波器在建筑物边界提取的特点,提出了一种基于改进HOG的建筑物识别方法。该方法利用方向可控滤波器替换传统HOG方法中的滤波器模版,改进HOG的梯度求解方法,更好地提取水平方向和垂直方向的边缘信息,并结合支持向量机机器学习方法对建筑物进行分类,通过实验验证了方法的有效性。
Freeman等人[9]提出方向可控滤波器(Steerable Filters)的概念,并介绍了设计方法,可控滤波器在图像边缘检测、纹理分析等领域表现出较好的优势。方向可控滤波器是基于函数极坐标形式的傅里叶级数展开式,由若干个基滤波器函数的线性组合而成[10]。
方向可控滤波器的一般形式为:
其中N为基滤波器的个数,Fi为第i个基滤波器,ki(θ)为仅与方向θ有关的滤波器系数,Fθ为θ方向的滤波器。
由于高斯函数的各阶导函数都可以表示为一个圆对称的窗函数和一个多项式的乘积,常常采用基于高斯的方法来构造可控滤波器。本文采用基于高斯函数二阶导数所构成的可控滤波器,形式如下:
HOG方法中往往采用较为简单的梯度求解方法。如:[-101],[-101]T。传统的梯度求解方法不能有效地提取目标的边界特征,本文研究利用可控滤波器在边缘信息表达上的优势,提出改进的HOG算法,其特征提取流程如图1所示,具体步骤如下:
(1)将彩色图像转化为灰度图像。
(2)构造水平和竖直方向的方向可控滤波器(令滤波器的方向分别取),分别记为 F0、Fπ2。计算灰度图像(x,y)处像素点在水平和竖直方向的梯度值如果θ(x,y)<0,令θ(x,y)=θ(x,y)+π,使得θ(x,y)∈[0,π)。
图1 改进HOG方法流程图
(3)将图像划分成大小相同的单元(Cell),将相邻的单元组合成有重叠的块(Block),有效利用重叠的边缘信息,如图2所示。
图2 像素、单元、块之间的关系
(4)图像中每个像素点的梯度方向和梯度幅值各不相同,按梯度方向划分为若干个均匀的区间(Bin),将单元中的每个像素点的梯度幅值累加到对应Bin中,生成单元的梯度方向直方图。然后统计整个块的直方图特征,并对每个块内的梯度直方图进行L2归一化,即对于向量v,令:
(5)将所有块的HOG特征组合形成图像的HOG特征向量,其维度d为:
其中w、h为图像的宽度和高度;b、c分别为块、单元的大小;p为单元内梯度方向的数目;s为块移动的步长。
支持向量机(Support Vector Machine,SVM)是Vapnik[11]提出的一种监督式学习方法,它建立在统计学习理论中VC维理论和结构风险最小原理的基础上,通过适当地选择函数子集及该子集中的判别函数,使得学习机器的实际风险达到最小[12]。支持向量机具有结构简单、全局最优、泛化性能好、学习和预测效率高等优点[13],能够成功地处理分类问题,因此被广泛应用于文本识别[14]、图像识别[15]等领域。SVM的原理是寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,能够使分类间隔最大化。
以二分类问题为例,给定训练样本集(xi,yi),i=1,2,…,l,x∈Rn,y∈{±1},超平面记为(w·x)+b=0 ,为能够对所有样本正确分类并且具备分类间隔,需满足如下约束条件:
得到最优分类器超平面(w*·x)+b*=0,相应地,最优分类函数为:
对于线性不可分情况,对x做Φ变换映射到特征空间H,即
则最优分类函数为:
本文采用libsvm库[16]进行SVM训练,建筑物识别是多分类问题,libsvm使用的是“一对一”方法,即在任意两类样本之间建立一个SVM,k个类别的样本则建立k(k-1)/2个SVM。当对一个样本进行分类时,得票最多的类别即为该样本的类别。
为了客观评价方法在建筑物识别中的有效性,本文进行的建筑物识别实验采用与SFBR方法相同的数据集——SBID[17],并对结果进行分析。
SBID数据集包含40类建筑物,共4 178张图像,每张图像均放缩为160×120像素。这些图像拍摄时间不同,拍摄角度不同,拍摄远近不同,如图3所示。
实验配置为处理器Intel®Core™CPU i7-3770@3.40 GHz,4 GB内存,操作系统为32位Windows 7,开发软件是Visual Studio 2010,采用C/C++语言编程实现。
图3 SBID建筑物图像(从左到右,从上到下依次代表1~40类)
方向可控滤波器F0、Fπ2的大小均为7×7,w 、h为120、160;c、b、p、s分别取20、80、9、40,特征向量的维度d为864。通过大量实验,支持向量机选用C_SVC分类器和线性核函数时,效果最好。
本文在SBID数据集上进行20次独立的实验,每次实验随机从每类建筑物中选取一半数量的图像(共2 098幅图像)进行特征提取并训练SVM分类器,剩余的图像(共2 080幅图像)进行特征提取作为测试样本。
实验结果如图4所示,由于每次实验选取的训练样本和测试样本不同,同类图像在不同实验中的误分个数有所变化。各类图像在不同实验中的误分个数均在15以内,其中有多处误分个数为0,如第4次实验中第1、2类建筑物全部分类正确;第18次实验中第16类建筑物全部分类正确;第20次实验中第4、7、8、9类建筑物全部分类正确。
图4 实验结果
记β为识别准确率,其计算方法为:
其中N为测试样本的个数,M为识别正确的样本个数。
记βi为第i类建筑物的识别准确率,其计算方法为:
其中Ni为第i类建筑物测试样本的个数,Mi为第i类建筑物识别正确的样本个数。
如图5反映了各类图像的平均准确率,第23类建筑物的平均准确率最高,接近100%,第32类建筑物的平均准确率最低,介于85%~90%之间。除第32类建筑物以外,其他建筑物的平均准确率均大于90%,其中有30类建筑物的平均准确率高于95%。
图5 每类图像的平均识别准确率
如图6反映了每次实验的识别准确率,可以看出本文方法的准确率在97%附近波动,计算得出20次实验的平均准确率为96.56%。SFBR方法的平均准确率为94.66%,与SFBR方法相比,本文方法的平均准确率提高了1.9%。
图6 每次实验的识别准确率
为了进一步验证方法的性能,实验采用召回率Recall、精确率Precision、F1值等评价指标进行分析。
记TP为“真”正例的个数,FP为“伪”正例的个数,TN为“真”负例的个数,FN为“伪”负例的个数。召回率、精确率、F1值的计算公式分别如下:
本文求得统计量在每类图像的分类性能,然后求均值作为最终的结果,结果如表1所示。从表1可以看出,本文方法在TP、FP、Recall、Precision、F1值等指标上均优于SFBR方法。
表1 实验结果
本文将方向可控滤波器应用到HOG算法中,结合支持向量机方法,提出一种建筑物识别方法。以SBID数据集作为实验数据,使用SVM对提取的建筑物特征进行训练与识别。实验结果表明,在建筑物识别中,本文方法得到了较高的准确率,并且识别效果优于SFBR方法。因此本文提出的建筑物识别方法可以提取建筑物的关键特征,增强建筑物的区分性,有效地对建筑物进行识别。
在后续的工作中,将进一步研究方向可控滤波器的特点,提取更有效的边界特征从而提高识别的准确率和鲁棒性。此外,研究提取颜色信息作为建筑物识别的辅助特征,进一步提高建筑物识别率。
参考文献:
[1]李松霖,范海生,陈秀万.基于特征线匹配的城市建筑物识别方法研究[J].遥感技术与应用,2012,27(2):190-196.
[2]董肖.快速稳健的建筑物识别算法与系统[D].广州:华南理工大学,2012.
[3]齐沁芳.应用于增强现实系统的建筑物识别算法的研究与实现[D].北京:北京邮电大学,2013.
[4]Li J,Allinson N.Building recognition using local oriented features[J].IEEE Transactions on Industrial Informatics,2013,9(3):1697-1704.
[5]蔡兴泉,柳静华.建筑物图像识别系统设计与实现[J].现代计算机:专业版,2015(14):18-20.
[6]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proceedings of IEEE Conference on Computer Vision&Pattern Recognition,2013:886-893.
[7]王阳,穆国旺,睢佰龙.基于HOG特征和SVM的人脸表情识别[J].河北工业大学学报,2013(6):39-42.
[8]徐云云.面向智能手机的掌纹识别技术研究[D].合肥:合肥工业大学,2015.
[9]Freeman W T,Adelson E H.The design and use of steerable filters[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,1991,13(9):891-906.
[10]赵渊洁.结合可控滤波器与偏微分方程的图像去噪方法[D].天津:天津理工大学,2013.
[11]Vapnik V N.An overview of statistical learning theory[J].IEEE Transactions on Neural Networks,1999,10(10):988-999.
[12]丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10.
[13]郭明玮,赵宇宙,项俊平,等.基于支持向量机的目标检测算法综述[J].控制与决策,2014(2):193-200.
[14]刘晓亮,丁世飞,朱红,等.SVM用于文本分类的适用性[J].计算机工程与科学,2010,32(6):106-108.
[15]李雪花,许姜涤宇,于安军,等.基于SVM多类分类器的字符识别[J].信息技术,2016(1):20-22.
[16]Chang C C,Lin C J.LIBSVM:A library for support vector machines[J].ACM Transactions on Intelligent Systems&Technology,2011,2(3):389-396.
[17]Li J,Allinson N M.Subspace learning-based dimensionality reduction in building recognition[J].Neurocomputing,2009,73(1/3):324-330.