联合深度卷积神经网络的遥感影像机场识别算法

2018-06-21 00:54:22张作省杨程亮朱瑞飞
电光与控制 2018年6期
关键词:机场跑道机场卷积

张作省,杨程亮,朱瑞飞,高 放,于 野,钟 兴

(1.中国科学院长春光学精密机械与物理研究所应用光学国家重点实验室,长春 130039;2.中国科学院大学,北京 100049; 3.长光卫星技术有限公司吉林省卫星遥感应用技术重点实验室,长春 130000)

0 引言

在高分辨率遥感影像处理中,机场作为重要的战略目标,在国民经济和国防体系里机场识别都是一项重要研究任务。长期以来,在这一方面很多研究组织开展了大量的基础性研究工作,并得到多种较为有效的算法。这些算法一般可分为两类,一类是基于机场显著性结构特征进行识别,另一类则是基于边缘直线进行特征提取。

基于显著性结构特征的方法主要基于视觉显著性机制。当人眼在搜索目标时,会第一时间注意到结构特征明显或连通域较大的区域,这种基于人脑对机场的固有印象,为知识驱动型显著性机制。相较于周边环境具有较高亮度或纹理差异较大的区域也会在第一时间被注意到,这种机制与经验无关,为特征驱动型显著性机制。其中,知识驱动型显著性检测方法利用机场的形状(如飞机跑道直线特征)、纹理等先验知识来确定机场位置,其先验知识的数学表述并不简单且泛化性能极弱,因此很少有突破性的研究进展;而基于特征驱动型研究中,文献[1]提出了仿视网膜认知的计算模型,之后HAREL等改进文献[1]模型中“中心周边差分”步骤,从图论角度提出基于图的显著性模型(GBVS)[2],随后基于频率域的显著性计算模型[3-5]被提出,这些方法能够很好地估计目标显著性,但往往容易突出边缘,场景中显著性最高的区域有可能不是机场目标,因此难以胜任复杂的高分辨率遥感影像场景中的机场目标提取。

完整的机场区域场景内涵丰富,包括建筑物、草地、交通网和跑道等,在这些场景内涵中,飞机跑道的直线特征最为明显和规则,也最能反映目标性质。因此,基于边缘直线特征提取的方法根据机场跑道的直线特征利用Hough变换[6]从图像中定位机场的算法,因原理简单、速度快得到广泛应用,但对于直线特征的筛选不够严谨。例如,文献[7-8]中对提取出的直线进行长度判别,文献[9]对提取出的直线保留近邻平行直线的限制之外并无其他筛选,这对于识别系统更高层次的像素分类遗留了较大负担,严重影响了机场识别和定位准确性。

针对上述问题,本文在提取出的直线基础上通过引入深度卷积神经网络[10]对相应直线所在的原影像区域进行分类从而识别出真实的机场跑道,进而确定机场位置。

1 算法及流程

算法主要由机场跑道的粗提取、构建并训练深度卷积神经网络及利用深度网络确定机场区域3个部分组成。如图1所示,其中,机场跑道粗提取部分主要利用传统算法进行运算,在此基础上通过引入深度卷积神经网络精确地确定机场位置。

图1 整体算法流程图Fig.1 Flow chart of the algorithm

1.1 机场跑道粗提取

利用机场跑道边缘是平行直线的特性,通过对预处理影像的边缘提取及直线检测步骤初步确定疑似机场跑道目标区域,为后续精确定位机场区域奠定基础。

1.1.1 原始影像预处理

为了提升计算效率及其对不同卫星、不同分辨率的遥感影像的适应性和鲁棒性,将待检测图像使用双三次插值方法降采样至像素大小为2000×2000并将图像灰度化。

为使降采样后的影像拥有更清晰和丰富的边缘信息,采用文献[8]中灰度增强算法对影像进行模糊增强,得到如图2a所示的增强影像。此外,根据文献[8]的结论,与Log,Robert,Sobel及Prewitt边缘提取算子相比,Canny算子在对遥感影像进行边缘提取时在边缘信息的完整性、连续性及抗噪性上表现出极强的优越性,因此选择 Canny算子对增强后的影像进行边缘检测,得到如图2b所示的影像边缘信息。

图2 模糊增强及边缘检测Fig.2 Fuzzy enhancement and edge detection

1.1.2 直线检测

使用概率Hough变换方法对预处理得到的边缘信息进行直线提取,不仅可以将影像边缘信息中的线段检测出来,同时可排除较短直线的干扰,并能对细碎线段进行有效拼接。

根据影像中机场跑道总是存在平行直线边缘的特性,通过对边缘中直线段的位置关系进行计算可进一步剔除干扰区域,降低算法的复杂度。各线段的斜率为

(1)

Δk=ki-kji≠j

(2)

式中:(xl 1,yl 1)为各线段起始坐标;(xl 2,yl 2)为各线段终止坐标;i,j为检测出的直线段序号。任意两条直线的斜率差值Δk<0.01时认为是平行直线段,得到的平行直线段如表1所示。

表1 检测出的平行直线段坐标Table 1 Detected parallel line segment coordinates

图3a和图3b展示了平行线段筛选前后的对比,从图中可以看出,算法经初步筛选有效地去除了部分干扰区域,但对于较为平直宽阔的跨海大桥等干扰,算法须对剩余平行线段做进一步的精确分类识别。

为了减少因直线区域过于狭窄而导致的分类器识别时产生的大幅形变对识别准确率的影响,对于检测出的各平行线段,通过合并如图3c所示的有交集的候选框得到待分类的候选区域。其中,直线所在原图像区域如图3d所示。

图3 平行直线检测及待分类的候选区域Fig.3 Parallel line detection and candidate regions to be classified

1.2 构建深度卷积神经网络

深度卷积神经网络是一种通过描述数据的后验概率来提高模式分类能力的高效率区分型网络结构,主要由卷积层、池化层及全连接层组成。经典深度网络Inception-v3[11],Inception-v4[12],VGG-16,VGG-19[13]和ResNet[14]等模型因识别准确率高而闻名,但这些网络层数较深,计算复杂度较高,在硬件条件较为苛刻的环境下难以直接使用。因此通过构建精简的小型卷积网络,在保证识别精度的前提下提高效率,实现对机场跑道的高效识别。

实验设计的网络结构如图4所示,由4个卷积层、4个归一化层和3个池化层以及2个全连接层组成的深度卷积神经网络完成机场跑道检测,其具体参数如表2所示。通过构建映射函数y=f(x;θ)将输入图片x映射到一个类别y,并通过学习θ使得y与输入x的真实标签Y得到最佳的函数近似。

表2 卷积神经网络结构表Table 2 The convolutional neural network structure

在构建网络的过程中,考虑到卷积这种线性函数对于线性不可分的样本表达能力不足,通过引入激活函数这种非线性因素来解决此问题。同时,为减轻深度卷积神经网络中易出现的梯度消失[10]问题,本文在卷积层选取的激活函数为线性阈值神经frelu,其表达式为

(3)

式中:每层的xi是输入;ωi是权重因子;b是偏置;n表示输入神经元个数,其强制输出为0的方案使训练后的网络具备一定的稀疏性[15-17],以此减少冗余的数据,使提取的特征具有更强的表达力。

但仅用frelu会使得训练时模型过于脆弱,原因在于当一个非常大的梯度流经frelu神经元,更新参数之后,该神经元不会再对任何数据有激活现象。因此,在全连接层间使用ftanh函数,利用ftanh激活函数的软饱和性[10]来稀释这种现象,其表达式为

(4)

对于每一层的输入I,经卷积操作并经非线性激活函数映射后得到相应的特征图为

(5)

对得到的特征图进行池化操作以减少计算量,即

(6)

(7)

式中:n表示同一空间位置相邻特征图的个数;N表示总特征图数目;k,n,α以及β是经验值,具体参数如表2所示。局部响应归一化层往往配合frelu激活函数一起使用[18]。每一层具体参数如表2所示。

1.3 深度卷积神经网络确定机场跑道

对于筛选后的区域进行分类,首先需要对构建好的深度网络进行训练并保存训练模型,其次利用训练好的深度卷积神经网络对候选框进行识别,得到该区域是机场跑道的概率值,最后合并候选框最终确定机场区域。

1.3.1 softmax预测概率值

(8)

下一步是softmax层的输出向量(Y1,Y2)和样本的实际标签做一个交叉熵,为

(9)

式中:n为训练样本数;yi是期望输出,即softmax的输出向量(Y1,Y2)中第i(i=1或2)个元素的值;

ai=S(z)i

(10)

z=∑tωtxt+b。

(11)

1.3.2 正则化

为降低网络的过拟合现象,需对网络进行微调。在数据集有限的情况下,防止过拟合的一种有效的方法是降低模型的复杂度。在设计网络时,选取参数为0.5的Dropout[19]可以有效降低模型复杂度,从而减少过拟合现象。

在代价函数中加入正则化[20]项也是减少过拟合的有效手段,这里使用L2正则化方法,即

(12)

式中,C0代表原始的代价函数。等式右侧第2项即为正则化项,λ为正则化参数,其值为正。因此最终的代价函数为

(13)

在深度神经网络的训练阶段,如图5所示,网络对于每次输入的图片通过神经网络前向传播提取特征,经softmax预测其所属类别并计算其相应概率值。得到输出值后,计算误差C并对其进行反向传播,更新网络权值,重新计算输出。使用随机梯度下降算法通过对大量训练数据的反复迭代计算使得代价函数逐步降低,最终得到稳定的网络链接点参数并保存,即得到训练完成的识别网络。

图5 网络训练示意图Fig.5 Sketch map of neural network training

在机场跑道识别阶段,如图6所示,将经过机场跑道粗提取部分得到的候选区域作为输入代入训练完成的深度卷积神经网络中,经网络计算得到相应的类别及概率值。为减小判定误差,对于判定为机场跑道且概率值高于0.5的候选框进行适当放大,并使用非极大值抑制方法进行合并,得到最终的机场区域。

图6 跑道识别Fig.6 Runway recognition

2 实验结果与分析

2.1 训练深度卷积神经网络

对某光学A星拍摄影像切分了6000张像素大小为1000×1000的机场跑道区域和6000张像素大小为1000×1000的非机场跑道区域的三通道彩色图像构成了具有两类标签的训练样本库,其中负样本库即非机场跑道图像,主要有呈直线的铁路、公路、桥梁、耕地边缘和大型建筑的边缘等。随机抽取其中两类标签各1000张作为测试集;剩余的各5000张作为训练集,利用Tensorflow进行训练。实验环境为:ubuntu16.04,Tensorflow-1.1.0,显卡为Quadro K5200,计算能力为3.5,在cudnn5.1,cuda8.0的背景下调用GPU训练。

在训练时,将这些图像也利用双三次插值的方法缩小成像素大小为208×208读入卷积神经网络。利用随机梯度下降算法进行训练,图7为训练过程中的准确率及误差曲线,由图可知,网络迭代22万次之后,模型的代价函数不再跳动和降低,测试准确率趋于平稳,模型区域稳定。如图7所示,其训练准确率达99.68%,代价函数最小值达到1.169%。在测试集中利用训练好的模型进行测试,测试准确率达97.13%。

图7 训练准确率及误差曲线Fig.7 Training accuracy and error curve

2.2 检测结果及识别实验

对于得到的候选框及相对应的概率值集合,负样本集的包围框为黄色,正样本为红色,并将各自的概率值显示在各包围框上,得到如图8a所示结果。

为了让结果能够自动标出机场区域,将检测为机场跑道区域且概率值大于0.5的候选框,放大为原来的1.8倍,并合并放大后具有交集的候选框。最终结果如图8b所示。

图8 检测结果Fig.8 The detection result

图9展示了所提算法针对不同遥感影像数据进行机场识别的识别结果,其中前4张图片为某光学A星所拍摄的遥感影像,后4张为视频3星拍摄的影像。从这些识别结果可以看出,所提算法在高分辨率遥感影像机场识别上是十分有效的,能够正确地定位到机场的具体位置,为下一步飞机的识别奠定了较好的基础。

表3为算法对图9中的各影像进行机场检测时的影像来源、机场个数、定位准确率及所用时间的各项数据。本文在此利用传统领域目标识别中的常用IoU(Intersection over Union)来衡量定位误差。定义定位准确率为系统预测出的框与原图手工标注框的交集与它们并集的比例,为

(14)

式中:RD代表系统检测出的目标框;TG代表手工标注的目标框。

图9 多个机场识别结果Fig.9 Identification results of multiple airports

表3 识别结果数据Table 3 The recognition result

2.3 结果分析

通过对来自某视频3星和光学A星的8张含有机场的影像数据进行测试,算法的识别率为100%,其平均定位准确率为87.58%,远高于文献[8]中的平均定位准确率62.08%。分析可知,在背景复杂、干扰直线较多的高分辨率影像中,仅依靠平行长直线的检测方案难以实现对机场的精确定位,在此基础上,通过引入深度卷积神经网络进行机场跑道的精确识别方案是十分有效的。此外,分析数据可知,算法耗费的时间主要在直线检测上,实验中在检测出直线的基础上平均耗时1.09 s,算法的时间复杂度在传统算法的基础上并没有较大提升的前提下,实现了对高分辨率遥感影像数据中的机场的高准确率识别与定位。

3 结束语

结合深度卷积神经网络的机场识别算法是十分有效的,算法在检测出的直线基础上利用轻量级卷积神经网络对高分辨率遥感影像数据进行机场识别。在传统机场识别算法的基础上进一步提升了定位精度,有效克服了遥感影像中大型厂房外墙、高速公路、铁路和耕地边缘等直线信息的干扰,这对于高分辨率光学遥感卫星进行更高精度的机场定位并进行下一步寻找机场中的飞机具有十分重要的意义,且对该算法进行嵌入式星上硬件平台嵌入式实验具有重要指导价值。但从实验结果中依然可以发现,检测框内有许多非机场区域,这对于高精度的飞机识别而言依然存在着背景干扰。下一步研究工作应当是基于检测出的机场区域进行分割,以更好地剔除非机场区域,从而更高效率地对飞机进行识别。

参考文献

[1] ITTI L,KOCH C,NIEBUR E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Tran-sactions on Pattern Analysis & Machine Intelligence,1998, 20(11):1254-1259.

[2]SCHÖLKOPF B,PLATT J,HOFMANN T.Graph-based visual saliency[J].Advances in Neural Information Processing Systems,2007,19:545-552.

[3] HOU X,ZHANG L.Saliency detection:a spectral residual approach[C]//IEEE Conference on Computer Vision and Pattern Recognition,2007:1-8.

[4]ACHANTA R,HEMAMI S,ESTRADA F,et al.Frequency-tuned salient region detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,2009:1597-1604.

[5]GUO C L,MA Q,ZHANG L M.Spatio-temporal saliency detection using phase spectrum of quaternion Fourier transform[C]//IEEE Conference on Computer Vision and Pattern Recognition,2008:1-8.

[6] 王强,胡维平,陆志敏,等.HOUGH变换实时检测算法研究[J].计算机工程与设计,2001,22(3):76-80.

[7] WANG X,LV Q,WANG B,et al.Airport detection in remote sensing images: a method based on saliency map.[J].Cognitive Neurodynamics,2013,7(2):143-54.

[8] 艾淑芳,闫钧华,李大雷,等.遥感图像中的机场跑道检测算法[J].电光与控制,2017,24(2):43-46.

[9] 朱丹,王斌,张立明.基于直线邻近平行性和GBVS显著性的遥感图像机场目标检测[J].红外与毫米波学报,2015,34(3):375-384.

[10]THEODORIDIS S.Chapter 18-neural networks and deep learning[M]//Machine Learning.Amsterdam:Elsevier Ltd,2015:875-936.

[11] SZEGEDY C,VANHOUCKE V,IOFFE S,et al.Rethinking the inception architecture for computer vision[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016.doi:10.1109/CVPR.2016.308.

[12]SZEGEDY C,IOFFE S,VANHOUCKE V,et al.Inception-v4,inception-ResNet and the impact of residual connections on learning[EB/OL].[2017-05-07].https://arxiv.org/pdf/1409.1556.pdf.

[13] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[EB/OL].[2017-05-18].https://arxiv.org/pdf/1602.07261.pdf.

[14]HE K,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition,2015:770-778.

[15]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems,2012:1097-1105.

[16]CLEVERT D A,UNTERTHINER T,HOCHREITER S.Fast and accurate deep network learning by Exponential Linear Units (ELUs)[C]//ICLR,2016:1-14.

[17] HE K M,ZHANG X Y,REN S Q,et al.Delving deep into rectifiers:surpassing human-level performance on imageNet classification[J].IEEE International Conference on Computer Vision(ICCV),2015:1026-1034.

[18] XU B,WANG N Y,CHEN T Q,et al.Empirical evaluation of rectified activations in convolutional network[EB/OL].[2017-06-16].https://arxiv.org/pdf/1505.00853.pdf.

[19]HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.

[20] 李航.统计学习方法[M].北京:清华大学出版社,2012:13-15.

猜你喜欢
机场跑道机场卷积
机场罢工
环球时报(2023-02-28)2023-02-28 17:16:37
机场跑道路面混凝土不停航工艺解析
一种优化的高原机场跑道利用率计算方法研究
基于3D-Winograd的快速卷积算法设计及FPGA实现
如何避免GSM-R无线通信系统对机场电磁干扰
从滤波器理解卷积
电子制作(2019年11期)2019-07-04 00:34:38
基于傅里叶域卷积表示的目标跟踪算法
面部识别使机场安检提速
最有创意的机场
基于深度特征和Adaboost的机场跑道异物识别算法