李 璐 杜 兰 何浩男 李 晨 邓 盛
(西安电子科技大学雷达信号处理国家级重点实验室 西安 710071)
作为一种主动微波成像系统,合成孔径雷达(Synthetic Aperture Radar, SAR)具有全天时、全天候的遥感成像能力,在国民经济和国防军事等领域的应用中具有独特的优势[1,2]。随着近现代雷达技术的发展,SAR图像的数量越来越多,其分辨率也越来越高。21世纪的SAR促进了自动目标识别(Automatic Target Recognition, ATR)的研究与应用[3]。SAR ATR作为SAR图像智能解译领域最重要的应用之一,其典型的系统主要包括目标检测[4–6]、目标鉴别[7,8]、目标识别[9–12]3个阶段。在这3个阶段中,目标识别旨在对检测到的目标进行类别的判定,引起了相关学者的广泛关注。
在通常的SAR目标识别领域的研究中,选择有效的特征是非常重要的步骤。经过学者多年的研究,发展并提出了许多应用于SAR图像的特征提取方法来描述SAR目标,例如图像幅度特征[10]、尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)特征[13]、方向梯度直方图(Histogram of Oriented Gradient, HOG)特征[14]、密集SIFT(Dense-SIFT)特征[15]等。然而,在实际应用中,仅仅依靠单一种类的特征很难对SAR目标特性进行充分的描述和表征,进而难以获得较高的识别性能。
因此,旨在挖掘并联合应用多种从不同角度表征目标特性的特征融合技术已成为重要的研究热点。特征融合不仅可以提高描述目标的信息量来帮助实现完整稳健的分析,而且可以有效地整合不同特征间的优势来降低训练的复杂性、提升算法的普适性。对于特征融合技术而言,挖掘互补的目标描述信息是首要问题,其次,融合方法的选择和使用也是重点关注的方面。
然而,大多数传统的融合方法是基于简单的浅层结构,其不能进一步挖掘更抽象的特征表达。而随着近些年深度学习的蓬勃发展,可以从原始特征中发掘更深层次信息的深度模型已经成为诸多领域的热门研究要点。事实上,当前几乎所有的深度学习及其应用都建立在深度神经网络模型上并取得了巨大的性能提升。值得注意的是,深度神经网络带来的巨大性能提升需要大量的具有标记信息的训练样本。然而,在SAR目标识别任务中,缺少大量的具有标记的训练样本[16–18]。另外,深度神经网络的性能受到超参数设置的影响较大,不同的超参数设置可能带来巨大的性能差异。
考虑到深度模型的3个重要成功因素,即逐层处理、特征变换和足够的模型复杂度,文献[19]提出了深度森林模型。深度森林是一种新的决策树集成模型,通过堆叠结构逐层进行表征学习,挖掘深层的特征表达。并且,其性能对超参数设置具有一定的鲁棒性。因此,相比于深度神经网络,深度森林模型更适合于数据体量小的SAR目标识别任务。
受到上述研究的启发,本文提出一种基于深度森林的多级特征融合SAR目标识别方法。本方法挖掘幅度特征和结构特征两种互补的目标特征表征,较为完整地从不同角度对目标进行描述;同时,分别对幅度特征和结构特征挖掘其多级特征,实现从局部到全局的目标表征。随后,为了更完整、充分地反映SAR目标信息,借鉴深度森林的思想,对多级幅度特征和多级结构特征进行联合利用。一方面通过堆叠的方式不断将多级幅度特征和多级结构特征进行融合,另一方面通过逐层的特征变换挖掘深层抽象的信息。通过对两种不同表征的特征的充分融合、挖掘深层信息,提高SAR目标识别的性能。综上所述,本文的贡献如下:
(1) 挖掘SAR图像中体现了目标反射强度的幅度特征和体现结构信息的Dense-SIFT特征,联合利用两种特征使得SAR目标信息得到更完整、充分的反映。
(2) 在幅度特征和结构特征的基础上,分别提取多级的幅度特征和多级的结构特征,进一步反映从局部到全局的目标特性表征。
(3) 借鉴深度森林模型的思想,对多级幅度特征和多级Dense-SIFT特征进行特征融合。通过逐层的特征变换和堆叠结构实现两种特征多层次的融合,挖掘出深层融合特征,对目标进行识别。
图1展示了本文所提基于深度森林的多级特征融合SAR目标识别的流程图。从图1可以看出,本文所提方法首先对SAR图像从两个不同的角度提取多级的特征,分别为多级幅度特征和多级结构特征;然后引入深度森林模型的思想,在堆叠的结构中对多级幅度特征和多级结构特征进行多层次融合,同时通过逐层的特征变换挖掘提取深层特征信息;最后利用深度融合后的特征进行目标识别。
大多数传统的SAR目标识别方法仅仅使用SAR图像域的幅度信息作为目标表征。尽管幅度特征是极其重要的目标特性,但是在斑点噪声的影响下,图像上像素点的强度会产生浮动,限制了目标识别的性能[5]。因此,仅仅使用图像的幅度特征是不够的。本文在图像幅度特征的基础上,引入了描述梯度结构信息的Dense-SIFT特征。Dense-SIFT特征是通过对输入图像分块提取SIFT特征获得相对稠密的特征点,相比于传统的SIFT特征,Dense-SIFT特征更适合于目标识别任务。通过幅度特征和Dense-SIFT结构特征的联合使用较为完整充分地描述目标。进一步,在幅度特征和Dense-SIFT结构特征的基础上,本文分别对两种特征提取其多级特征,即多级幅度特征和多级Dense-SIFT结构特征,进一步反映从局部到全局的目标特性表征。
图1 基于深度森林的多级特征融合SAR目标识别流程图
对于多级幅度特征的提取,本文选择多个不同尺寸的池化窗口,池化窗口的宽和高由公式W ={(w1×w1),(w2×w2),···,(wM×wM)}确定,其中,M表示池化窗口的个数,W ,H分别表示样本图像的宽和高。利用 M个不同尺寸的池化窗口分别对SAR样本图像进行多级池化,由此得到每个样本对应的 M 个池化后的图像。将 M个池化后的图像中所有像素点的幅度值拉伸成列向量后首尾拼接,即可得到每个样本的多级幅度特征。
Dense-SIFT特征的关键点提取是通过使用窗口滑动的方式对图像中的网格点进行密集采样而得到的,提取示意图如图2所示。用窗口尺寸 l×l的切片窗口从图像左上角的初始位置以滑动步长s 开始滑动,之后按此方法扫描直到窗口到达图像右下角位置,对每个小窗口的中心点计算一个SIFT特征,所有窗口的SIFT特征组合起来,即构成了该图像的密集SIFT特征。提取Dense-SIFT特征的具体流程如表1所示。
对于多级Dense-SIFT结构特征的提取,选择多个不同尺寸的切片窗口,切片窗口的宽和高由公式L={(l1×l1),(l2×l2),···,(lN×lN)}确定,其中,N表示切片窗口的个数。利用 N个不同尺寸的切片窗口,分别对每个归一化后的样本,提取N 个Dense-SIFT特征向量。将所有Dense-SIFT特征向量首尾拼接,即可得到每个样本的多级Dense-SIFT结构特 征。
基于多级幅度特征和多级Dense-SIFT结构特征,本文引入深度森林模型的思想,利用堆叠的结构对特征进行多次融合,同时通过逐层的特征变换中挖掘深层信息;最后利用深层融合后的特征对目标进行识别。
图2 Dense-SIFT特征提取示意图
深度森林模型应用了堆叠的结构,在堆叠结构中,每一层是由两个完全随机森林和两个随机森林组成的集合。其中,采用不同类型的随机森林是为了增加集成学习中的差异性。堆叠层中的每个森林以特征和前一层的类别向量为输入,经过每个森林得到的预测输出拼成类别向量和另一特征作为下一层的输入。
如图1所示,本文引入了深度森林的思想,将其应用到深层特征融合中。其具体的融合算法如表2所示。
在提出的基于深度森林的融合方法中,每一层通过随机森林和完全随机森林,将输入特征映射到更加抽象的类别空间,挖掘了深层的信息。而在堆叠的结构中,多级幅度特征和多级Dense-SIFT特征间隔地输入每一层中,与上一层的输出特征进行拼接作为当前层的输入特征。随着逐层训练,两种特征得以不断进行融合。
表1 提取Dense-SIFT特征的流程
表2 基于深度森林的特征融合算法的流程
本文实验在运动和静止目标获取与识别(Moving and Stationary Target Acquisition and Recognition, MSTAR)数据集上验证。MSTAR数据集是由美国高等研究规划局和空军实验室联合发布的。MSTAR数据集作为实测SAR数据,现已广泛用于SAR目标识别任务。该数据集中包括许多不同方位角和俯仰角下的地面军事车辆目标的SAR图像,图像分辨率为0 .3 m ×0 .3 m,图像的尺寸为64×64。地面军事车辆目标共有10类,分别为:步兵战车BMP2、装甲车BTR70、主战坦克T72、自行榴弹炮2S1、装甲侦察车BRDM、装甲车BTR60、军用推土机D7、主战坦克T62、军用卡车ZIL131和自行防空火炮ZSU23/4。图3和图4分别给出了各目标的光学图像和SAR图像示例。
在进行目标识别研究时,该数据集推荐使用俯仰角为17°的目标样本作为训练数据,俯仰角为15°的目标样本作为测试数据。参考现有文献[20],本文主要针对两种实验场景进行研究:3类目标识别实验和10类目标识别实验。在3类目标识别实验中,主要针对BMP2,BTR70和T72进行识别。其中B M P 2 有3 种变体,分别为B M P S N 9 5 6 3,BMPSN9566和BMPSNC21, T72也有3种变体,分别为T72SN132, T72SN812, T72SNS7。表3给出了3类目标识别场景中训练集和测试集的具体划分情况。除了3类目标识别中的3类目标及其变体,10类目标识别实验中还包含另外7种地面车辆目标,即BTR60, 2S1, BRDM, D7, T62, ZIL131和ZSU23/4。表4给出了10类目标识别场景中训练集和测试集的具体划分情况。
在多级幅度特征的提取中,多个不同尺寸的池化窗口 W ={(1×1), (3×3), (5×5)};在多级Dense-SIFT结构特征的提取中,多个不同尺寸的切片窗口 L={(16×16), (32×32), (64×64)},滑窗步长 s=6;深度森林模型中,每个森林中树分类器的个数在3类MSTAR数据实验中设为1000,在10类MSTAR数据实验中设为2500;阈值 T设为0.0001。本文方法及对比方法分别基于Python,MATLAB和Caffe实现。
图3 MSTAR数据集10类目标光学图像示例
图4 MSTAR数据集10类目标SAR图像示例
表3 MSTAR数据集3类目标识别场景训练集、测试集划分
表4 MSTAR数据集10类目标识别场景训练集、测试集划分
3.3.1 3类MSTAR数据的识别实验
本节基于3类7型MSTAR数据验证本文提出方法以及对比方法的识别性能。为了定量评估方法性能,利用式(1),计算实验中每种方法的测试样本的识别正确率
其中,A cc 表示测试样本的识别正确率, Tr表示识别正确的测试样本个数, Q表示测试样本的总个数。A cc值越大,说明识别性能越好。
本文方法和对比方法的性能如表5所示,同时在图5中给出更直观的识别性能比较。在表5和图5的对比方法中,“幅度特征”表示将图像像素点的幅度值作为特征,然后利用线性支持向量机(Support Vector Machine, SVM)进行识别的方法;“PCA”表示对图像的幅度特征利用主成分分析(Principle Component Analysis, PCA)方法进行降维,将经过降维处理得到的特征利用SVM进行识别的方法;“模板匹配”方法利用训练数据的特征向量构成模板,用测试数据的特征向量与各模板进行比较,依据特征向量之间的相似程度判定测试数据所属类别;“SRC”代表稀疏表示分类的方法;“Dense-SIFT”表示对SAR图像提取Dense-SIFT结构特征,然后利用SVM进行识别的方法;“拼接融合”是将图像幅度特征和Dense-SIFT特征进行拼接融合,然后用SVM进行识别的方法;“AE”表示基于自编码网络的识别方法;“Eu-AE”指的是在自编码网络中引入欧氏距离约束项的方法[11],利用欧氏距离约束充分利用有限的数据;“VGG”表示将Gao等人[17]提出的深度网络结构VGG用于目标识别的方法;“LTCNN”为文献[21]中提出的轻量级的双流卷积神经网络(Lightweight Twostream Convolutional Neural Network, LTCNN)SAR目标识别方法;“MFCNN”为文献[22]提出的基于多特征的卷积神经网络(Multiple Feature Convolutional Neural Network, MFCNN) SAR目标识别方法;“CF-DF”表示将本文所提特征级联后再利用深度森林进行分类的识别方法。
表5 不同识别方法对应的3类7型MSTAR数据测试样本识别正确率
图5 3类7型MSTAR数据测试样本的识别性能
由表5及图5可以看出,对于实验所用的3类7型MSTAR数据,本文算法的测试样本识别率能达到0.9663。使用幅度特征和SVM分类器的方法具有0.8491的识别正确率,而使用Dense-SIFT特征和SVM分类器的方法达到了0.9209的识别正确率。相比于这两种方法,本文所提深度特征融合方法分别提升了大约11%和4%。将两种特征进行拼接融合的方法实现了0.9318的识别正确率。相比于单独使用两种特征的方法,融合拼接的方法具有更高的识别率,说明挖掘目标的多种具有互补性的特征进行融合对于目标识别是有利的。虽然拼接融合的识别方法相比于单独使用特征的识别方法具有一定的性能提升,但是利用拼接操作来进行融合的方式较简单,没有深入挖掘特征的深层表征。本文的方法相比于拼接融合的识别方法具有大约3.5%的性能提升。同时,相比于其他的传统识别方法,即PCA特征结合SVM的方法,模板匹配方法,稀疏表示方法3种对比方法,本文算法至少提升了3.5%的识别精度。相比AE和Eu-AE两种自编码方法,本方法具有至少2.5%的识别性能提升。相比于3种卷积神经网络,即VGG, LTCNN和MFCNN,本文方法也有至少3%的识别性能提升。与CF-DF方法的识别性能对比后发现本文方法具有较好的性能,说明本文提出的交替融合方法更有效。
3.3.2 10类MSTAR数据的识别实验
在MSTAR10类14型数据上,表6给出了本文方法和幅度特征结合SVM的方法、PCA特征结合SVM的方法、模板匹配方法、SRC、Dense-SIFT特征结合SVM的方法、特征拼接融合的方法6种传统目标识别方法进行识别正确率的比较。同时,表6中还呈现了AE, Eu-AE, VGG, LTCNN, MFCNN 5种神经网络方法以及CF-DF方法的识别正确率。图6中给出更直观的识别性能比较。
表6 不同识别方法对应的10类14型MSTAR数据测试样本识别正确率
由表6及图6可以看出,对于实验所用的10类14型MSTAR数据,本文方法的测试样本识别率能达到0.9276。与幅度特征结合SVM方法相比,本文提升了大约15%的识别正确率;与Dense-SIFT特征结合SVM方法相比,本文方法提升了大约2.5%的识别正确率;与拼接融合的识别方法相比,本文方法的识别正确率提升了大约1.3%。同时,相比于其他传统的目标识别方法,即PCA特征结合SVM的方法、模板匹配方法、稀疏表示3种对比方法,本文方法至少提升了5%的识别精度。而相比AE, Eu-AE, VGG, LTCNN, MFCNN 5种神经网络方法,本文方法至少存在1%的性能提升。此外,与3类数据的实验结果相似,本文方法比CF-DF方法具有更好的识别性能。
3.3.3 深度森林中超参数对识别性能的实验
在深度森林中,每个森林所包含的树的个数是影响识别性能的超参数。因此,本节通过设置不同树的数目对应得到的3类7型MSTAR数据平均识别正确率来分析超参数对识别性能的影响。
从图7中可以看出,当树的数目取很小的值(100)时,本文提出的方法在3类MSTAR数据上的平均正确率为0.9582。虽然此时的性能不是最优,但是相比于3.3.1节中对比方法的识别性能,本文提出的方法的识别性能仍然较好。当树的数目为500和1000时,本文提出的方法达到最高的平均识别正确率0.9663。而当树的数目增加到1500,2000时,其模型参数量也随之增多,本文提出的方法的性能略微有所下降,但仍然具有高于0.96的识别正确率。在树分类器个数不同的情况下,分类识别的正确率虽然具有差异但是其变化浮动不明显,即使在树分类器个数较少的时候,也能取得较好的识别效果,说明深度森林分类器对树分类器个数这个超参数不敏感,能够避免因为超参数的不合适设置而大幅度影响识别的性能的问题。
图6 10类14型MSTAR数据测试样本的识别性能
图7 本文方法在不同的树数目下对应的3类7型MSTAR数据测试样本的识别性能
本文提出一种基于深度森林的多级特征融合SAR目标识别方法。该方法分别对幅度特征和Dense-SIFT结构特征挖掘其多级特征,得到从局部到全局的特征表征;并考虑到两种特征的互补性,利用深度森林模型对两种特征进行融合,同时在深度森林逐层的特征变换中挖掘深层信息,进行目标识别。本文实验从3类7型MSTAR数据和10类14型MSTAR数据中验证了本文提出的方法相比于传统的SAR目标识别方法和其他基于深度模型的SAR目标识别方法具有更高的识别正确率。而且本文方法的性能对超参数的设置不敏感。随着雷达技术的发展,其获取的数据量越来越多,但是对所有数据进行人工标记需要耗费大量的人力物力,因此基于少量标记样本的半监督目标识别是重要的研究方向。后续工作将进一步研究探讨结合本文方法思想的半监督目标识别方法。