摘 要:深度可分离卷积(Depthwise Separable Convolution,DSC) 的应用使得深度学习的网络模型轻量化。在此基础上,提出了嵌入注意力机制的DSC 合成孔径雷达(Synthetic Aperture Radar,SAR) 目标识别方法。通过将DSC 与注意力机制结合,提高网络对目标重要特征的学习能力;将多个DSC 进行叠加和并联,设计多尺度网络模块,增强不同深度网络的特征提取能力;通过残差连接缓解深层网络的梯度弥散和梯度爆炸问题。使用公开数据集实验表明,所提方法在网络模型参数量较小的情况下,获得99. 0% 的平均识别率,具有较强的识别优势。
关键词:合成孔径雷达;目标识别;深度可分离卷积;注意力机制
中图分类号:TN957 文献标志码:A 开放科学(资源服务)标识码(OSID):
文章编号:1003-3106(2024)05-1083-08
0 引言
合成孔径雷达(Synthetic Aperture Radar,SAR)能够发射微波信号,通过相干机制完成既定成像任务,其不受雨、雪、雾、霾等复杂天气影响,具有全天时、全天候的成像优势,在军事、农业、环境、气候等领域得到广泛应用,是一种重要的探测手段[1-3];其中SAR 图像自动目标识别(Automatic Target Recog-nition,ATR)作为关键技术之一,自20 世纪以来持续得到重点关注和研究[4]。
ATR 主要目的是确定目标类别,最初主要采用“特征提取+分类器设计”的模型识别框架。特征提取包括如散射点分布特征、投影变换特征和纹理特征等[5-6];分类器设计包括支持向量机、稀疏表示分类等[7-8]。随着深度学习的迅猛发展,鉴于其强大的自动特征提取与分类性能,显著提升了ATR 技术的性能[9-10],其中卷积神经网络(ConvolutionalNeural Network,CNN)更是在ATR 领域成为研究热点。文献[11]使用卷积层代替全连接层,并扩充数据集获得了99% 的识别率。文献[12]利用数据增强技术扩增数据集,通过零相位成分分析预先提出目标特征,将该特征集再送入卷积网络中,整体识别率达到98. 47% 。从上述文献可以看出,由于深度学习模型是依靠数据驱动,其性能好坏较为依赖数据规模,因此往往会在原有数据集基础上进行扩增,从而保证网络能够充分得到学习训练。有文献在不扩充数据样本前提下,通过改进网络模型结构或迁移学习等方法,依然能够取得较高的识别率[13-14]。文献[13]使用改进的自编码器网络初始化网络参数,再将参数移植到全CNN 中进行训练,在不扩充训练样本情况下,平均准确率为98. 14% 。文献[14]针对SAR 图像特点设计网络结构,采用L2范数作为代价函数以及使用Dropout 提高泛化性,在原有数据集样本中实现了98. 10% 的识别率。
随着CNN 向更深、更宽发展,同时带来的梯度弥散和梯度爆炸问题阻碍了模型训练效果,2016 年He 等[15]提出的深度残差网络(Deep Residual Net-works,ResNets)有效地缓解了该问题,SAR 图像识别领域借鉴该模型也提出了许多优秀的识别方法[16-18]。然而随着卷积层数量的进一步增加,参数量、计算量也随之增加,使得模型学习训练效率大大降低,对运行硬件的要求也大幅提高。因此轻量化网络结构被设计出来,其中深度可分离卷积(DepthwiseSeparable Convolution,DSC)[19]是较为流行的一种轻量化网络,其本质是将冗余信息进行更少的稀疏化表达[20],很大程度上提升了模型的推理速度。
综上,为了实现网络轻量化以及增加网络深度的同时保持良好的特征提取能力,提出了嵌入注意力机制的DSC 识别方法。首先将不同数量的DSC进行叠加产生多个支路,形成多尺度效应,用来增强浅层网络的特征提取能力;然后在每条支路上加入注意力机制模块,提高网络对目标重要特征的学习能力;最后通过残差连接各个支路和输入组成新的网络模块。利用该网络模块设计了20 层网络模型,实验使用Moving and Stationary Target Acquisitionand Recognition(MSTAR)数据集,在不增强数据情况下,对10 类目标型号识别率达到99. 0% ,相比于近年识别方法有着较强的优势。
1 注意力机制
注意力机制最早应用于图像领域,通常解释为模仿人类在观察整体环境时,专注于自己感兴趣的事物而忽视其他无关事物的特征,因此在网络中引入注意力机制,理论上能够增强识别目标特征的权重,即对图像中关键信息提高关注度,滤除无关或不重要的信息,从而提高网络的学习效率。
在众多注意力机制模型中,Suqeeze-and-Excitation Module(SE)注意力机制[21]自2017 年被提出后经常运用在图像分类、检测、分割等领域。SE 模块由压缩部分(Squeeze )和激励部分(Excitation)组成,如图1 所示,其目的是通过一个权重矩阵,从通道域角度赋予图像不同位置不同的权重,得到更重要的特征信息。压缩部分将特征图通过全局平均池化的方式,生成一个1 ×1 ×C 的向量,如式(1)所示,使每个通道都用一个数值表示,实现对特征图U 全局低维压缩,每个通道的值相当于获得之前一个H×W 全局感受野。
激励部分则通过2 层全连接层完成,如式(2)所示。通过全连接层的W1 、W2 对向量z 进行处理,得到通道权重值s,其中不同数值表示对应通道的权重信息,赋予通道不同权重。
s = Fex(z,W) = σ(W2 δ(W1 z)), (2)
式中:σ 表示Sigmod 激活函数,δ 表示ReLU 激活函数。
2 层全连接层之间存在一个超参数r,向量z 经过第一层全连接层后维度由1×1×C 变为1×1×C / r,经过第二次全连接层后维度变回1×1×C,一般默认r = 16。
将权重向量s 对特征图U 进行权重赋值,即将向量s 与特征图U 对应通道相乘,得到压缩激励后的特征图X ~ :
X~ = Fscale(uc ,sc ) = sc uc 。(3)
2 DSC
DSC 的主要思路是将普通卷积操作分解为2 个过程:深度卷积(Depthwise Convolution,DW)和点卷积(Pointwise Convolution,PW),结构如图2 所示。其基本原理是首先使用DW 对每个输入通道(输入特征图的深度)执行单个滤波器卷积;然后使用PW(1×1 卷积)用来创建逐DW 层的线性组合。假设输入的特征图通道为N,DW 对N 个通道的特征图分别使用一个卷积核,且卷积核数量和特征图通道数一致,所以经过DW 得到N 个通道的特征图;PW实际是1×1 卷积,使用M 个1×1 卷积核对DW 处理后的特征图进行卷积,最终得到M 个通道的特征图。DSC 对2 层卷积层都使用了批量正则化(BatchNormalization ,BN)和线性整流函数(ReLU)作为非线性激活函数。
应用DSC 最主要的目的在于减少参数量,从整体上轻量化网络模型。以使用3×3 卷积核为例,对于输入长、宽和通道数为H ×W ×N 的特征图,经过3×3 卷积核的DW 以及N 个卷积核的PW,参数量为H×W×C×3×3+H×W×C×N,而经过3×3 卷积核的标准卷积运算,参数量为H×W×C×3 ×3 ×N,二者相比(如式(4)所示),参数量减少了近1 / 9,从而达到提高训练速度的目的。
3 嵌入注意力机制的DSC 识别框架
3. 1 嵌入注意力机制的深度可分离模块
本文提出的嵌入注意力机制的DSC 网络,主要将DSC 模块与SE 模块结合在一起,减少参数量的同时提高重要特征权重,剔除冗余特征,增强特征提取的有效性;加入残差连接,相当于对该模块加入一个恒等映射,当某一层网络对特征提取效果较差时,可通过该连接直接跳过进入下一次网络训练,因此添加的新网络层至少不会使效果比原来差,可以较为稳定地通过加深层数来提高模型的效果,同时避免出现梯度弥散的问题。为了增强模型对浅层网络的特征提取能力,实现多尺度特征提取的同时避免尺寸大的卷积核增加参数量,利用2 层DSC 的叠加代替5×5 的卷积核,利用3 层DSC 的叠加代替7×7 的卷积核,因此将只有1 个DSC 的模块结构称为Res-SeDSC,有2 个不同尺度DSC 的模块结构称为Res-Se2DSC,有3 个不同尺寸DSC 的模块结构称为Res-Se3DSC,如图3 所示。
3. 2 嵌入注意力机制的DSC 识别框架
本文设计了20 层网络架构,如图4 所示。使用3×3 卷积核进行标准卷积运算,经过BN、ReLU 后,共使用17 个不同尺度的Res-SeDSC 模块,经过一层全局平均池化层和一层全连接层,输出识别类别,因此组成的识别模型称为Res-SeXDSCnet。具体网络层参数如表1 所示。
在特征图尺寸减小一半时,卷积的步长选择2,相当于一次下采样;在特征图尺寸不变时,卷积的步长选择1。随着特征图尺寸减小,Res-SeXDSC 模型使用的尺度也随之减少,主要是因为在浅层网络中特征图像素还较高,大尺度可充分提取不同深度的特征信息,而在低像素下感受野减小,大尺度提取到的信息效果差,从而降低网络学习性能。同时,网络采用负对数似然(Negative Log-Likelihood,NLL)损失函数以及Adaptive Moment Estimation(Adam)梯度下降方法共同优化调整网络训练,其中Adam 的主要优点在于在偏置校正后,每次迭代的学习率能够保持在确定的范围,使得参数变化比较平稳。
4 实验结果及分析
4. 1 实验数据与设置
MSTAR 数据集是当前对SAR 图像识别算法测试和评价最为有效的公开数据集之一,其包含10 类军事车辆目标:BMP-2、BTR-70、T-72、T-62、BRDM-2、BTR-60、ZSU-234、D7、ZIL-131、2S1,表2 展示了来自17°和15°俯仰角每种类型样本数量,其中将17°图像数据作为训练集,共2 747 个样本,15°角度图像数据作为测试集,共2 425 个样本。在训练过程中,网络批处理块大小(Batchsize)选取56,初始学习率为0. 001,迭代100 次,共进行10 次实验,取平均识别率。
4. 2 算法特征提取效果
为展示嵌入注意力机制后对网络特征提取的有效性,进行网络特征可视化操作,为了增加对比,将注意力机制模块取出,剩下DSC 的网络结构,称为Res-XDSCnet,使用同一数据集训练至最佳。将图4中的SAR 图像分别输入到2 个网络中,为对比明显,选择Res-SeXDSCnet 与Res-XDSCnet 网络中STAGE0 ~ STAGE2 三个阶段的像素较高的特征图进行对比,均取出前12 个通道的特征图,如图5 所示。可以看出,在STAGE0 中,由于都是同样的卷积运算,得到的各通道特征图基本上无差别;在STAGE1 和STAGE2 中,Res-SeXDSCnet 网络的各个特征图都有待识别目标的表达,说明网络对于每个通道都进行了有效的学习,而Res-XDSCnet 网络的各个特征图差异较为明显,有些特征图上几乎没有待识别目标的特征表达(例如图5(d)从左至右、从上至下第1、3、4、5、8、12 个特征图)。由此可见,嵌入注意力机制模块对于数据的特征提取更有效。
4. 3 算法性能对比与分析
为对比嵌入注意力机制对学习效率的增强作用,使用Res-SeXDSCnet、Res-Se3DSCnet、Res-Se2DSCnet、Res-SeDSCnet、Res-XDSCnet 以及DSCnet进行试验比对, 其中Res-Se3DSCnet、Res-Se2DSCnet、Res-SeDSCnet 分别代表仅使用Res-Se3DSC、Res-Se2DSC 和Res-SeDSC 模块组成的网络,DSCnet 代表仅使用DSC 模块组成的网络。测试误差、识别率随着迭代次数的变化趋势如图6 和图7 所示。可以看出,本文方法收敛速度较快,仅经过20 次迭代后即获得较高的识别率。
表3 展示了上述6 类模型的参数量和平均识别率。可以看出,Res-SeXDSCnet 由于注意力进机制以及多尺度的加持,识别率最高;相比于Res-SeDS-Cnet,多尺度应用能够很好地提取目标特征,从而强化不同目标之间的差异;相比于仅使用Res-Se3DSC模块的网络,识别率平均高出0. 8% ,说明在低像素情况下再使用多种尺度进行特征提取效果将变差;相比于Res-XDSCnet,在SAR 图像噪点较多的情况下,注意力机制能够使网络有效关注到目标特征,从而大大提高识别率,而且在加入注意力机制模块后参数量增加不多,说明该网络具有较强的优势。
为对比不同算法之间的差异以及分析其原因,表4 展示了本文方法与文献[12](ZCA+CNN)、文献[13](FCNN+ICAE)、文献[22](CNN+SVM)、文献[23](CNN +SRC)、ResNet50 方法的对比。可以看出,ZCA+CNN 在提取了图像一定特征的前提下再进行网络学习,可能导致图像部分信息缺失或使得网络对特定特征学习并不良好,从而识别率有所下降,同时网络层数不深、特征学习还不够,FCNN+ICAE 也是类似问题;CNN + SVM 中卷积网络仅有3 层,对目标训练不充分导致输出的目标特征没有较强的差异性,输入到SVM 中识别率也不佳;LeNet-5+CRC 则是将网络特征输入到机器学习方法中,利用了机器学习方法对样本数量不敏感的特点,但由于LeNet5 浅层网络训练不充分的原因,其训练得到的特征在可分性上也有所不足。另外本文与ResNet50 网络在识别率上基本一样,但由于参数量远小于ResNet50 网络,因此具有较强性能优势。
为进一步对比上述方法的泛化能力,换成俯仰角为30°、45°的测试集,识别率如表5 所示。可以看出,随着俯仰角的增大,识别率均降低,但本文方法依然保持较高的识别性能,说明该深度网络具有较强的泛化能力。
5 结束语
提出了嵌入注意力机制的DSC 网络的SAR 目标识别方法。该模型主要在DSC 网络基础上构建轻量化、有效的识别网络,通过设计多尺度模块,用小卷积核代替大卷积核,提取到不同深度的特征信息并缩减了网络参数;利用注意力机制提高了对目标特征的权重。采用浅层网络用大尺度、深层网络用小尺度的方法设计网络模型。在不扩充样板数量的情况下,依然保持较高的识别率以及较强的泛化能力,可为其他SAR 目标识别和检测提供轻量化网络基础。
参考文献
[1] ZHOU Y S,WANG W,CHEN Z,et al. Highresolutionand Wideswath SAR Imaging Mode Using Frequency Diverse Planar Array [J]. IEEE Geoscience and RemoteSensing Letters,2020,18(2):1-5.
[2] WANG J,ZHANG X Z,LIU M M,et al. SAR Target Classification Using Multiaspect Multifeature CollaborativeRepresentation [J ]. Remote Sensing Letters,2020,11(8):720-729.
[3] 张阳,刘小芳,周鹏成. 改进Faster RCNN 的SAR 图像船舶检测技术[J ]. 无线电工程,2022,52 (12 ):2280-2287.
[4] 郭炜炜,张增辉,郁文贤,等. SAR 图像目标识别的可解释性问题探讨[J]. 雷达学报,2020,9(3):462-476.
[5] PPAPSON S,NARAYANAN R M. Classification via theShadow Region in SAR Imagery [J]. IEEE Transactionson Aerospace and Electronic Systems,2012,48 (2 ):969-980.
[6] 辛海燕,童有为. 结合多源特征与高斯过程模型的SAR 图像目标识别[J]. 电讯技术,2021,61 (4 ):454-460.
[7] ZHAO Q,PREINCIP J C. Support Vector Machines forSAR Automatic Target Recognition[J]. IEEE Transactionson Aerospace and Electronic Systems,2001,37 (2 ):643-654.
[8] SUN Y G,DU L,WANG Y,et al. SAR Automatic TargetRecognition Based on Dictionary Learning and JointDynamic Sparse Representation [J ]. IEEE Geoscienceand Remote Sensing Letters,2016,13(12):1777-1781.
[9] ZHAO J P,GUO W W,ZHANG Z H,et al. A CoupledConvolutonal Neural Network for Small and Densely Clustered Ship Detection in SAR Images[J]. Science ChinaInformation Sciences,2019,62 (4 ):042301:1 -042301:16.
[10] 贺丰收,何友,刘准钆,等. 卷积神经网络在雷达自动目标识别中的研究进展[J]. 电子与信息学报,2020,42(1):119-131.
[11] CHEN S,WANG H P,XU F,et al. Target ClassificationUsing the Deep Convolutional Networks for SAR Images[J]. IEEE Transactions on Geoscience and Remote Sensing,2016,54(8):4806-4817.
[12] 许强,李伟,占荣辉,等. 一种改进的卷积神经网络SAR 目标识别算法[J]. 西安电子科技大学学报,2018,45(5):177-183.
[13] 喻玲娟,王亚东,谢晓春,等. 基于FCNN 和ICAE 的SAR 图像目标识别方法[J]. 雷达学报,2018,7 (5):622-631.
[14] 林志龙,王长龙,胡永江,等. SAR 图像目标识别的卷积神经网模型[J]. 中国图象图形学报,2018,23(11):1733-1741.
[15] HE K M,ZHANG X Y,REN S Q,et al. Deep ResidualLearning for Image Recognition [C]∥ IEEE Conferenceon Computer Vision and Pattern Recognition. Las Vegas:IEEE,2016:770-778.
[16] WANG J H,JIANG Y. A SAR Target Recognition Methodvia Combination of Multilevel Deep Features[J]. Computational Intelligence and Neuroscience,2021,2021:2392642.
[17] SHANG S S,LI G P,WANG G Z. Combining MultimodeRepresentations and ResNet for SAR Target Recognition[J]. Remote Sensing Letters,2021,12(6):614-624.
[18] 史宝岱,张秦,李瑶,等. 基于改进残差注意力网络的SAR 图像目标识别[J]. 激光与光电子学进展,2021,58(8):114-122.
[19] HOWARD A G,ZHU M,CHEN B,et al. Mobilenets:Efficient Convolutional Neural Networks for Mobile Visionapplications[EB / OL]. (2017-04-17)[2023-05-11].https:∥arxiv. org / abs / 1704. 04861.
[20] 路文超,庞彦伟,何宇清,等. 基于可分离残差模块的精确实时语义分割[J]. 激光与光电子学进展,2019,56(5):97-107.
[21] HU J,SHEN L,SUN G. Squeezeandexcitation Networks[C]∥2018 IEEE / CVF Conference on Computer Visionand Pattern Recognition. Salt Lake City:IEEE,2018:7132-7141.
[22] 田壮壮,占荣辉,胡杰民,等. 基于卷积神经网络的SAR 图像目标识别研究[J]. 雷达学报,2016,5 (3):320-325.
[23] 冯新扬,邵超. 跨卷积网络特征融合的SAR 图像目标识别[J]. 系统仿真学报,2021,33(3):554-561.
作者简介
卢小华 女,(1981—),硕士,讲师。主要研究方向:数据挖掘。
李爱军 女,(1964—),博士,教授。主要研究方向:数据挖掘。
基金项目:山西省教育厅教学改革创新项目(J2021865)