胡楠 李润生 王载武
摘要:光学遥感图像中蕴含着大量信息,更新速度非常快。使用人工方法对光学遥感图像进行判读和目标的识别显然早已达不到现代社会各领域的需求。实时、高效地从光学遥感图像中识别出感兴趣目标具有非常重要的意义。本文对基于人工智能的图像飞机识别研究现状进行了总结,方便后续学者研究。
关键词:遥感图像;深度学习;飞机识别;Faster R-CNN
中图分类号:TP7 文献标识码:B DOI:10?郾3969/j.issn.1001-0270.2020.02.19
Abstract: Optical remote sensing images contain a lot of information and update very fast. It is obvious that the use of artificial methods to interpret and identify optical remote sensing images can not meet the needs of modern society in all fields. Real-time and efficient recognition of interested objects from optical remote sensing images is of great significance. In this paper, the research status of AI-based image aircraft recognition is summarized for the convenience of follow-up scholars.
Key Words: Remote Sensing Image; In-depth Learning; Aircraft Recognition; Faster R-CNN
1 引言
深度学习首先由Hinton[1]等人于2006年提出。经过研究,卷积神经网络的深度学习模型凭借其优异性能,成功用于人脸识别等。在2012年,Geoffrey Hinton教授在基于深度学习中的卷积神经网络在ILSVRC中,将传统检测算法的top-5错误率降低到15.3%[2]。在2014年,region proposal+CNN算法框架出现,使深度学习在目标检测中性能取得重大突破。region proposal+CNN算法在PASCAL VOC 2012数据集上的平均检测精度达到了53.3%[3]。2015年,空间金字塔池化网络结构[4]完成了任意图像尺寸的输入。同年,R-CNN的加速版本Fast R-CNN,完成了单级训练过程的端对端和损失函数的多任务形式,使得训练速度大大加快。在2016年,任少卿[5]等人为了解决目标检测中,生成候选框区域的时间过长的困难,提出了进一步改进后的网络架构Faster R-CNN。
2 Faster R-CNN網络模型
基于候选区域的目标检测算法的过程为,候选区域生成、特征提取、感兴趣目标的检测与识别定位[6]。Faster R-CNN经过了R-CNN以及Fast R-CNN的发展,整个步骤已经统一到了一个深度学习网络框架之内,能够在GPU中完成,神经网络的训练和目标的检测速度都得到了大幅度提升。Faster R-CNN网络模型的结构整个计算过程为:①向ZF网络输入任意大小图片。②经过ZF网络前向传播至最后共享的卷积层,分成两路。一路继续前向传播至特有卷积层,产生更高维的特征图;另一路传送到RPN网络的输入特征图。③传送到RPN网络输入的特征图经过RPN网络得到区域建议和区域得分,并对区域得分采用非极大值抑制,输出Top-N得分的区域建议给 RoI Pooling层。④步骤二中得到的高维特征图和步骤三得到的区域建议同时送到RoI Pooling层,提取对应区域建议的特征。⑤步骤四中得到的区域建议特征通过全连接层后,输出该区域的得分以及回归后的bounding-box。
2.1 建议区域提取
Faster R-CNN模型使用的RPN来实现目标候选区域的生成。RPN的核心思想是使用卷积神经网络直接生成建议区域,这种方法只需在最后的卷积层上滑动一遍,利用锚点机制和边框回归巧妙地得到了多尺度和多长宽比的建议区域。首先是3×3的卷积,然后通过1×1卷积输出分为两路,其中一路输出是目标和非目标的概率,另一路输出box相关的四个参数,包括box的中心坐标x和y,box宽w和长h。
anchor是RPN网络的核心。它的形式是(x1,y1,x2,y2),表示矩形的左上角和右下角的点的坐标。其实,RPN最终就是在原图尺度上,设置了密密麻麻的候选anchor。然后用CNN去判断哪些anchor里是有目标的foreground anchor,哪些是没有目标的background anchor。
在softmax前后各接一个reshape,结合caffe基本数据结构blob的形式,更有利于softmax分类。框回归操作用于将原始的anchor经过一定的变换,映射到一个更接近真实框中。这样,就得到了修正过后的anchor位置。在得到每一个候选区域的anchor的修正参数之后,就计算出较为精确的anchor,然后按照飞机的区域得分从大到小对得到的anchor进行排名,剔除一些明显不符的anchor,以及附加其他的过滤条件,取前N的anchor,然后作为候选框输出。
2.2 训练网络模型
Faster R-CNN目前拥有ZF、VGG_CNN_M_1024、 VGG16三种训练网络模型。本文选择的是ZF模型。①特征提取过程,输入图像→卷积→Relu激活→最大池化→特征图。②特征还原过程,特征图→反池化→反Relu激活→反卷积→可视化图像。卷积核的大小、步长等都需要人为设置,需要多次实验寻求最佳设计。因为ZF网络实现了特征可视化,我们可以根据可视化图像进行分析,进而寻找最优设计参数。同时,进行参数调整,能够减小训练网络所需要数据的规模,从而使小数据量的高分辨率遥感图像也能够视同Faster R-CNN进行多类目标的分类。
3 结论
本文在Caffe深度学习框架之上构建了基于ZF网络的Faster R-CNN网络模型,通过光学遥感图像飞机目标识别实验,对模型的快速准确识别进行了分析。实验表明,模型能对某地点感兴趣目标的检测精度进行估计,能够完成不同场景下目标的快速准确检测识别,能够完成大范围复杂场景下感兴趣目标的快速准确检测识别。
参考文献:
[ 1 ]Hinton G E, Salakhutdinov R R. Reducing the Dimensionality of Data with Neural Networks[J]. Science, 2006,313(5786): 504-507.
[ 2 ]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolution neural networks[A].//Advances in neural information processing systems[C].2012:1097-1105.
[ 3 ]Girshick R, Darrell J D T, Malik J. Rich feature hierarchies for accurate object detection and semantic segmentation[A]. //CVPR[C].2014:580-587.
[ 4 ]侯明伟.基于空间金字塔池化的卷积神经网络图像分类算法[D].武汉:武汉大学,2018.
[ 5 ]任少卿.基于特征共享的高效物体检测[D].合肥:中国科学技术大学,2016.
[ 6 ]林封笑.基于深度学习的目标快速检测方法研究[D].杭州:杭州电子科技大学,2018.