改进残差网络结合迁移学习的SAR目标识别

2022-05-30 04:32崔亚楠吴建平朱辰龙闫相如

计算机技术与发展 2022年5期

崔亚楠，吴建平,2,3，朱辰龙，闫相如

(1.云南大学信息学院，云南昆明 650504；2.云南省电子计算中心，云南昆明 650223；3.云南省高校数字媒体技术重点实验室，云南昆明 650223)

0 引言

合成孔径雷达(synthetic aperture radar，SAR)是一种与红外光、可见光等传统光学成像系统截然不同的主动微波成像雷达系统。基于多平台协同工作的SAR具有全天候，全天时，不受环境因素影响等诸多独特优势。目前，随着SAR系统成像技术的发展，在情报搜集、目标侦察等方面具有重大意义。高效、准确的SAR图像目标自动识别成为当前研究热点。

早期对SAR图像目标识别分类的研究重心在于特征的提取和分类器的设计。如汪洪桥等人[1]运用多邻域正交基实现对SAR图像的多级滤波采样，获取SAR多级Gauss差分图像的空间尺度并应用于SAR图像特征的提取。然后运用多尺度核的支持向量机(SVM)模型对不同层级的图像特征进行多尺度核函数映射，最后进行合成，实现SAR图像目标的识别分类；Liu Haicang等人[2]提出一种基于稀疏表示融合支持向量机决策的方法。利用FSR-C分类器对图像进行分类检测，并通过检测SR系数中非零元素的位置对SAR图像目标进行识别分类。利用SVM-C提取图像的PCA特征。最后融合FSR-C和SVM-C提取的特征实现SAR图像目标的分类；吴天宝等人[3]基于SVM和稀疏表示分类(SRC)级联决策融合的方法，首先运用SVM对图像进行分类，获取图像的后验概率，然后通过门限判决方法得到置信度较高的类别图像，最后利用SRC对SAR图像进行分类，并结合SVM和SRC的决策值实现SAR图像目标识别分类。近几年，深度学习[4]的出现使得图像识别研究取得突破性的进展。AlexNet[5]、VGG[6]、GoogleNet[7]、ResNet[8]等神经网络模型相继出现，并在ImageNet大赛中展露锋芒。因此，深度学习的方法必然被引入到SAR图像目标识别分类的研究中。

在深度学习研究中，胡显等人[9]提出一种基于SAR图像识别的CMNet网络模型。该模型运用较小的卷积核设计四个卷积池化层完成特征提取，利用Softmax损失与中心损失共同监督网络训练，以此来提高网络模型的泛化能力，提高SAR图像识别的准确率。但面对场景复杂的SAR图像，浅层神经网络学习能力有限，泛化能力较差，对SAR图像识别率提高有限。该文前期实验将迁移学习与Inception-Resnet-v2网络模型相结合，通过迁移预训练仿真SAR图像的网络参数作为目标网络的初始参数，然后使用Inception-Resnet-v2目标网络对SAR图像进行训练，实现目标图像特征的提取。最后，通过Softmax分类器对SAR图像进行识别分类。该方法选用网络层次较深的Inception-Resnet-v2模型对SAR图像进行训练，以便获取更深层次的图像特征。并利用迁移学习提高模型泛化能力，解决小样本问题。该方法相比文献[9]，网络学习能力得到加强，对SAR图像识别率有明显提高。但深层网络训练更加注重图像的语义信息，训练过程中图像细节特征丢失严重，对提高SAR图像识别的准确率有一定的影响。任硕良等人[10]将迁移学习与VGG16网络模型相结合，通过迁移VGG16网络的预训练模型完成目标图像特征的提取。该文选用VGG16深层神经网络，训练过程中仍然存在图像细节丢失的问题。

针对以上SAR图像识别的深度学习方法所存在的问题，研究并提出一种基于迁移学习改进ResNet101下SAR图像识别研究方法。其思路是：采用ResNet101卷积神经网络[8]作为网络总体框架，并针对小样本SAR图像在深层卷积神经网络训练中细节特征丢失严重的问题，将卷积注意力模块(CBAM)[11]，特征金字塔网络(FPN)[12]与ResNet101神经网络相结合，构成RCF(ResNet101-CBAM-FPN)神经网络模型，以充分提取SAR图像的特征。针对卷积神经网络训练小样本数据集出现过拟合的问题，利用仿真SAR图像数据集对RCF神经网络模型进行预训练，得到相应的网络结构参数。将得到的网络结构参数迁移至目标RCF网络模型上，再对SAR图像数据进行训练。该文在前期研究实验的基础上，将深层神经网络与FPN结合，并在网络中引入CBAM，一定程度上增强了网络对图像关键特征的学习，减少了深度神经网络训练小样本图像细节特征的丢失。实验结果表明，该算法相较以往研究方法具有更佳的识别效果，进一步提高了SAR识别的应用价值。

1 理论基础

1.1 卷积神经网络

卷积神经网络是深度学习中具有层次模型的监督学习神经网络，核心结构包含卷积层、池化层以及全连接层。卷积神经网络利用卷积层和池化层，实现特征提取。与传统机器学习相比，卷积神经网络在训练过程中可自动提取目标特征。同时，模型参数量很大程度得到减少，模型泛化能力得到提高。

卷积核作为卷积层的核心部分，通过神经元进行矩阵变换计算，将特征信息传递至下一层，实现特征提取。通常神经网络模型中会存在多种尺度的卷积核，多种尺度的卷积核逐一进行特征提取才能充分提取特征信息。其卷积过程如下所示：

(1)

当卷积层完成特征提取后，会将提取的特征信息传输到池化层，进一步缩减来自卷积层的特征矩阵，优化对特征信息的提取。同时能有效降低特征维度，减少网络模型的运算量。

全连接层作为卷积神经网络的核心结构，相当于神经网络的“分类器”。全连接层通过对模型学习到的特征信息进行加权求和，并与样本空间中的标签数据进行映射，进而对学习到的特征信息加以区分。

1.2 卷积注意力模块

卷积注意力模块(CBAM)[11]在2018ECCV会议上被Woo等人提出。CBAM由通道注意力(channel attention)和空间注意力(spatial attention)联合构成，是一种轻量级模块。其中，通道注意力模块注重全局信息，通过分析每条通道之间的相互关系，确定每个特征通道的重要程度，再对每个通道获取的特征信息进行重要程度划分，以获取目标图像的显著特征。

假定F为通道注意力输入的特征图，则该模块权重系数MC(F)表达如下：

MC(F)=σ(MLP(AvgPool(F))+

MLP(MaxPool(F)))=

(2)

空间注意力模块注重局部信息，通过分析上下文信息的相互关系，确定特征对应空间位置信息的重要程度，以获取目标图像的显著特征

假定F为通道注意力输入的特征图，则该模块权重系数MS(F)表达如下：

MS(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))=

(3)

CBAM首先将给定的特征图F∈RC×H×W与通道注意力模块的权重MC(F)相乘得到通道优化的特征图F'，再将通道特征图F'作为空间注意力的输入与空间注意力模块的权重MS(F)相乘得到优化的空间位置信息特征图。CBMA实现过程可表示为：

F'=MC(F)⊗F

(4)

F''=MS(F')⊗F'

(5)

1.3 特征金字塔网络

对于卷积神经网络，浅层网络更注重细节特征，深层网络更注重语义信息。通过深层语义信息可以更准确检测目标，因此传统网络模型通常利用最后一层卷积特征图实现检测。其缺点是只关注特征图的最后一层，而忽略了其他层所包含的细节特征。特征金字塔网络(FPN)作为一种端到端的网络[12]，能够将含有丰富语义的高层特征传递至底层，实现低分辨率的高层特征与高分辨率的底层特征相融合，使得网络每一层都具有丰富的特征信息。特征金字塔结构以损失少量的运算效率为代价，能够有效提升目标识别的准确率，更有利于小样本实现目标检测。

2 相关工作准备

2.1 SAR图像去噪

由于SAR成像系统受到相干辐射的影响，导致生成的图像存在较大的相干斑噪声，后期对SAR图像的处理、解释具有严重干扰，一定程度增加了卷积神经网络训练的难度，不利于卷积神经网络性能的最大化利用。因此，该文预先采用增强的Lee滤波算法[13]对SAR图像进行滤波去噪，尽可能减少噪声对神经网络模型学习过程的影响，确保网络性能达到最佳。

2.2 SAR图像仿真

仿真SAR图像通过电磁散射模型与场景模型获取SAR图像扫频数据，再结合时频变换与成像算法得到[14]。利用射线追踪方法获取地面与目标场景的空间几何关系，初步建立3D仿真SAR场景模型。利用粗糙面散射理论等技术实现真实场景粗糙特性的建模。利用射线弹跳法等方法建立地面及目标场景的电磁散射模型，获取SAR图像目标的扫频数据。最后通过时频变换与成像技术得到仿真SAR目标图像。

以往的SAR图像识别研究都采用ImageNet数据集进行迁移训练，但ImageNet数据集中的图像特征与SAR图像特征相似度不高，训练出来的网络参数不太适合作为训练SAR图像网络模型的初始化参数。仿真SAR图像与MSTAR数据集提供的SAR图像相比，特征相似度高，相干斑噪声小，相比ImageNet图像更适合作为预训练样本。仿真SAR图像与真实SAR图像对比如图1所示。

3 SAR图像目标识别模型

3.1 结合卷积注意力的残差网络模块

卷积注意力模块在通道和空间上对图像重要特征进行筛选，使得引入CBAM的网络模型能够更加准确提取目标的主要特征。该文将CBAM应用到残差网络中，在ResNet101网络的残差节点分别加入四个卷积注意力模块，对各残差模块学习到的图像特征进行分析，通过对特征图分配不同的权重，引导网络在训练过程中有针对性地提取目标图像上关键的特征信息，从而提高网络模型对SAR图像目标的特征表达能力。结合CBAM的残差网络模型如图2所示。

图1 SAR图像与仿真SAR图像对比

图2 融合CBAM的残差模块

3.2 RCF神经网络

使用ResNet101网络模型作为RCF网络的主干部分，网络总体框架如图3所示。与ResNet101网络不同，RCF网络模型在主干ResNet101网络的中间层加入了四个CBAM模块，从而提升网络对图像重要特征的学习能力。结合特征金子塔网络，RCF网络在每个CBAM模块后，将上一层学习到的图像特征经过1×1的卷积块提取，通过上采样方法将高层特征传递至底层，实现高层特征与底层特征的融合，最大程度上保留图像的细节特征。最终将融合的特征通过全局平均池化(AVG pooling)操作输入到全连接层。同时，在全连接层之前加入Dropout层防止过拟合，有利于提升网络模型的泛化能力。

图3 RCF网络总体结构

3.3 迁移学习模型

迁移学习是一种利用某一领域现存的知识或在该领域学习到的经验对相关领域存在的问题进行求解的机器学习方法[15]。传统机器学习需要大量数据训练，得到性能良好的模型，迁移学习能有效解决神经网络对训练样本需求量大的缺陷，对于提升小样本数据图像分类识别的准确率有较大贡献。实现的模型迁移过程如图4所示。

4 实验设置与结果分析

4.1 实验数据

选用的MSTAR数据集相对完整，并且数据集建模时充分考虑了目标形态变化以及影响目标的不确定因素。该数据集包含两种方向角下十种目标图像，共计5 172张SAR图像。实验将两个方位角下的同类目标图像打乱，并在每类中随机抽取80%作为训练集，剩余的20%作为测试集，具体如表1所示。

图4 迁移学习模型

预训练过程使用SAR仿真数据集[16]，该仿真数据集包含多个同场景下的七种SAR目标图像，共计21 168幅仿真SAR图像。

4.2 实验结果

训练输入大小为224×224的图片；dropout值设置为0.8；batchsize值设置为12；学习率设置为0.000 1；训练共计迭代10 340次。MSTAR十类目标图像识别率如表2混淆矩阵所示。其中，2S1、BTR70、D7、T72、ZIL131、ZSU23这六种类别的SAR目标图像都取得100%的识别率。最终，十类SAR目标图像的平均识别率达到99.60%。

表1 SAR实验数据

表2 MSTAR十类目标图像识别结果

4.3 对比实验设置与结果分析

为验证该算法的有效性，在原有实验基础上预先设置两组对比实验。

(1)实验一：ResNet101网络模型迁移实验。

选用ResNet101网络替换RCF网络模型，并实现文中迁移学习训练。训练集和验证集的获取方式、输入图像的大小、dropout值、batchsize大小、学习率与文中实验相同。最终在MSTAR数据集上仅实现了96.43%的识别率。

该实验验证了构造的RCF网络模型能够更有效地提取图像的特征。不仅能够减少图像细节特征的消失，而且能够使模型更加专注于重要特征的学习，提高模型的学习能力。

(2)实验二：ImageNet数据集预训练RCF网络。

选取ImageNet数据集对RCF网络进行预训练。再利用迁移学习方法，将预训练模型的网络参数作为目标训练网络初始化参数，并完成目标网络对MSTAR图像目标的训练。该实验仅替换掉原预训练过程使用的数据集，实验参数与文中实验选取的参数保持一致。最终在MSTAR数据集图像识别上获得98.81%的准确率，仍低于文中方法。

该实验证明仿真SAR图像与SAR图像具有更高的特征相似度，使用仿真SAR图像对网络模型进行预训练，在有效抑制网络过拟合的同时很大程度上提升了模型的泛化能力。

SAR图像识别准确率以及训练误差对比如图5、图6所示。

图5 SAR识别准确率对比

图6 SAR训练误差对比

为进一步验证文中方法的有效性，将其与其他方法的SAR图像识别效果进行对比，结果如表3所示。

表3 不同方法下SAR图像识别率对比

5 结束语

在不扩充SAR训练样本(小样本)的前提下，提出RCF神经网络模型。RCF以ResNet101网络作为主干网，并在主干网的中间层加入了四个CBAM模块，增强网络模型对SAR图像关键特征的学习，从而提升网络模型对SAR图像识别的准确率。同时，为了解决网络过深而导致SAR图像细节特征严重丢失的问题，引入了FPN网络，实现图像高层特征与底层特征融合，丰富图像特征信息，提升分类器对小样本识别分类能力。其中，使用了RCF网络模型先对仿真SAR图像进行预训练，将预训练得到的网络参数作为RCF网络模型的初始化参数训练SAR图像，有效解决深度网络训练小样本数据集易导致过拟合的问题。最终在测试集上获得99.60%的识别率，验证了该改进方法具有较好的有效性及可行性。

该方法相较于现有深度神经网络方法，有效解决了深层神经网络训练小样本SAR图像细节特征丢失严重的技术问题，为SAR图像目标的识别研究和进一步应用提供理论和技术参考。