基于深度学习的水下目标识别方法研究

2021-01-19 08:11:28王升贵胡桥陈迎亮叶明刚

舰船科学技术 2020年12期

王升贵，胡桥，陈迎亮，叶明刚

(1. 中国船舶集团公司第七〇五研究所昆明分部，云南昆明 650118；2. 西安交通大学机械学院，陕西西安 710049)

0 引言

水下目标的分类识别是水声领域研究的热点问题，对于现代海洋装备目标探测尤为关键。最早兴起的目标分类辨识技术是机器学习，基于机器学习的水下目标分类可以摆脱人工经验限制，比传统信号分析更加精准有效，但由于其需要复杂的特征工程结构进行分类决策，识别精度存在瓶颈，无法进行多任务学习，难以满足水下目标智能辨识高精度的要求，越来越多的学者开始将深度学习引入水下目标的智能辨识以解决上述问题。深度学习是一种利用非线性信息处理技术实现多层次、有监督或无监督的特征提取和转换，并进行模式分析和分类的机器学习理论和方法。2006 年，由加拿大多伦多大学Hinton 等首次提出深度学习的概念，并将理论模型发表于Science 期刊，开启了深度学习领域的浪潮[1]。此后，随着各国学者不断探索，深度学习理论不断在医学、教育、工业等研究领域取得重大成果。

在水下目标处理方面，由于深度学习理论可以打破现有的水声目标识别中对先验知识和特征提取方法等的依赖，能够从原始信号进行学习，完成特征提取，极大降低噪声的影响，实现分类决策的自主化与智能化，近年来也有学者在进行不断深入的研究。2017 年，杨宏晖等[2]采用混合正则化深度置信网络进行舰船辐射噪声识别，表明通过描述深度特征能够提高水声目标识别率。2018 年，陈越超等[3]采用降噪自编码器的方法对辐射噪声进行识别，分类结果优于传统的BP 神经网络和支持向量机。2019年，吕海涛等[4]采用卷积神经网络对分帧并归一化后的舰船噪声信号进行分类，结果显示分类性能优于传统高阶谱分类方法。水声深度学习目标分类辨识常采用的方法如图1 所示。

图 1 深度学习水下目标分类方法Fig. 1Deep learning underwater target classification method

基于以上工作，本文提出利用二维时频谱图（LOFAR 谱）和深度学习方法（卷积神经网络）相结合的方式，对舰船辐射噪声信号进行特征提取和分类。采用短时傅里叶变换（short-time-Fourier-transform,STFT）方法通过分帧、加窗的方式对时间序列分段求取功率谱。通过对每一帧的功率谱数值离散化并用色阈值表示，将每一帧的数值依次叠加获得谱图，即LOFAR 谱。LOFAR 谱中包含了时域和频域的信息，可以作为分类识别的依据。然后搭建深度卷积神经网络，进行迭代更新模型参数完成对LOFAR 谱图特征信息的提取，最后通过类别映射实现水下目标的分类辨识，并且验证了不同的网络模型结构参数、激活函数、池化方法以及数据片段长度均会对深度学习模型分类精度造成的影响，为深度学习水下目标分类辨识提供了一种新思路。

1 基于深度学习的水下目标识别基本理论

本文提出的基于深度学习的水下目标识理论别主要包括LOFAR 谱变换理论和卷积神经网络理论两部分。

1.1 二维时频谱图—LOFAR 谱

LOFAR 谱图分析方法基于短时傅里叶变换产生的，其工作流程如图2 所示。LOFAR 谱中包含了丰富的时域和频域的信息，可以作为分类识别的依据。

图 2 LOFAR 谱生成过程Fig. 2Generation process of the LOFAR spectrum

1）分帧。由于舰船、潜艇等噪声信号具有时变性和非平稳性，因此可以对一个时间片段进行频谱分析，通常取几十毫秒并认为此时间区域内信号为稳态。从整段信号中取出一部分片段即称为分帧。实际分帧时帧与帧之间往往存在重叠部分，目的是使信号帧之间过渡平缓。

2）加窗。信号分帧时采用窗函数在原信号上滑动截取的方式实现，选取窗函数时需要考虑窗函数的类型和宽度，尽量使得窗函数两侧过渡平滑，常用的窗函数有矩形窗、汉明窗、海宁窗等。

其中，M 为窗长度。汉明窗可以避免信号泄露，应用最为广泛，实际使用中应注意窗函数类型和宽度的选取。

3）FFT。快速傅里叶变换，对信号分帧加窗后，对每一帧信号进行傅里叶变换，将时域信号转换为频域信号，X(i,k)=FFT[xi(m)]。

4）取log。对FFT 后的数据计算谱线能量，E(i,k)=[Xi(k)]2。通常会在取log 求对数谱 l og(E(i,k))，使得频谱能量更加紧凑。

5）色域映射。将能量谱幅值进行离散化，通常取256 阶，从而将能量谱转化为灰度或RGB 色值。

最后，通过将大量帧的离散色值按照时间顺序进行堆叠即获得LOFAR 谱图（也称为声谱图，Spectrogram 谱图）。可以用于进一步的目标分辨、自动识别分类等应用。

1.2 卷积神经网络理论

20 世纪80 年代，就提出了卷积神经网络（convolutional neural networks, CNN）方法。直到1998 年，LeCun 等[5]在研究手写数字识别问题时，将梯度反向传播算法和卷积神经网络进行结合，提出深度卷积神经网络LeNet（见图3），其极高的识别率结果将卷积神经网络处理方法推向了蓬勃发展的新阶段。卷积神经网络的典型结构包含卷积层、池化层（也称为降采样层）、全连接层等，卷积层和池化层通常包含多个特征图像（由不同卷积核生成），通过多层的卷积和池化，可以将数据从二维矩阵转化为一维特征向量，最后通过Softmax 等分类层即可获得预测的类别标签。

图 3 LeNet 卷积神经网络，用于识别手写数字集Fig. 3LeNet convolutional neural network for recognizing handwritten digit sets

1）卷积层

卷积层是卷积神经网络的核心，通过卷积核可以从输入中提取丰富的特征从而形成特征图像。假设卷积层的输入为X，卷积核为k，则单次卷积输出y 为：

其中：σ 为卷积核大小；l1和l2为卷积核在输入图像上所处的位置；b 为偏置项；f 为激活函数，如ReLU 激活函数、Sigmoid 激活函数等。

通过设置步长使得卷积核遍历整个二维输入图像矩阵，便可求得卷积层输出特征图像矩阵：

其中：输出特征图像大小m，n 由原图像大小、卷积核大小以及卷积核移动步长决定。

2）池化层

池化层也称为降采样层，是在卷积层之后对特征参数进行压缩，从而降低卷积神经网络特征数量和网络参数，提高运算速度，减少训练时间并能有效防止训练过拟合。与卷积层运算类似，池化层也是通过一个运算核在输入图像矩阵上进行滑动计算。不同的是池化层的运算核不含参数，而是采用计算区域内的最大值或平均值的方式输出。与之相对的池化层分别称为最大池化层（max-pooling）和平均池化层（averagepooling）。假设池化层输入为X，核为k（σ×σ），池化输出y 为：

其中：σ 为池化运算核大小；l1，l2为运算核在图像上的位置。

通过运算核遍历整个二维输入图像矩阵，便可求得特征图像输出矩阵：

池化运算时通常步长与运算核维数一致，因此池化层输出图像大小m, n 由输入图像大小和核大小决定。

3）全连接层和Softmax 层

经过多层的卷积层和池化层处理后的特征矩阵，采用全连接层将图像矩阵排列成一位数组的形式输出，从而完成分类任务。一般C N N 最后会采用1～2 层全连接层，将特征摆成一维形式并对特征进一步提取，最终输出向量元素个数与待预测的标签类别数相同。最后采用Softmax 激活函数，便可以得到每个标签类别的预测概率。

全连接层的输出为：

其中：zi为全连接层输出向量Z 的第i 个元素；X 为全连接层输入特征矩阵或特征向量；wi为输出向量第i 个元素的加权求和向量；K 为输出向量的元素个数。

Softmax 层输出为：

其中：zi为输入特征向量第i 个元素；pi为softmax 层输出第i 个值，即表示待分类数据属于第i 类的概率。

2 二维时频谱图与深度学习相结合目标分类识别实验分析

2.1 舰船辐射噪声数据集

用代表7 类不同水下目标的实测舰船辐射噪声对二维时频谱图深度学习目标分类模型进行验证。采频为8 000 Hz，采样时间10 s，即总共80 000 个采样点。其归一化时域和频域信号如图4 和图5 所示。

图 4 7 类舰船噪声归一化信号Fig. 4Normalized signal of 7 types of ship noise

通过对辐射噪声信号进行分帧加窗求取FFT（即短时傅里叶变换，STFT），将一维数据转化为二维时频谱图（LOFAR 谱），如图6 所示。

由于深度学习训练需要大量数据，通过在原始信号进行分段截取的方法进行数据库建立。本章在原始信号上截取8 000 个点为一个片段，片段之间重叠部分7 000 个点，即每组信号可以生成72 个数据片段，共计7 类504 个数据。通过LOFAR 谱图转化最终生成504 张二维时频谱图供后续训练分类。

2.2 舰船辐射噪声信号谱图深度学习分类实验结果

构建卷积神经网络结构如图7 所示，采用3 层卷积层对图像特征进行提取，最后连接一层全连接层和Softmax 层进行分类预测。

卷积神经网络各层主要参数如下：

输入层：本章中生成二维时频谱图格式为224×224，RGB 三通道，因此输入层与之对应为224×224×3；

卷积层1：卷积核3×3，共8 个，步长为1；

池化层1：最大池化层，池化核2×2，步长为2；

卷积层2：卷积核3×3，共16 个，步长为1；

池化层2：最大池化层，池化核2×2，步长为2；

图 5 7 类舰船噪声归一化信号能量谱Fig. 5Normalized signal energy spectrum of 7 types of ship noise

图 6 7 类舰船噪声信号LOFAR 谱Fig. 6LOFAR spectrum of 7 types of ship signal

图 7 卷积神经网络结构Fig. 7Structure of convolutional neural network

卷积层3：卷积核3×3，共32 个，步长为1；

全连接层：输入为7×1 向量（与类别数相同）；

Softmax 层：根据全连接层输出按照Softmax 函数判断类别。

采用分层抽样将数据集划分为训练样本集和测试样本集，最终训练测试结果如表1 所示。

将卷积层的卷积核大小修改为5×5，7×7，9×7，11×11，训练与测试数据之比为36/36，对不同卷积核大小对卷积神经网络分类精确度的影响进行测试，结果如表2 所示。

表 1 卷积神经网络训练测试结果Tab. 1 Training result of Convolutional neural network

表 2 不同卷积核大小对分类精度的影响Tab. 2 The effect of different convolution kernel sizes on classification accuracy

将卷积层的激活函数设置为ReLU，ELU，tanh，验证不同激活函数对卷积神经网络分类性能的影响。训练与测试数据之比为36/36，结果如表3 所示。

表 3 不同激活函数对分类精度的影响Tab. 3 The effect of different activation functions on classification accuracy

将卷积神经网络中池化层分别设置为最大池化和平均池化层，验证不同池化方法对卷积神经网络分类性能的影响。训练与测试数据之比为36/36，结果如表4所示。

表 4 不同池化层对分类精度的影响Tab. 4 The effect of different pooling layers on classification accuracy

调整数据单元长度，取时间长度分别为0.2s，0.4s，0.6s，0.8s，1.0s，其对应LOFAR 谱如图8 所示。验证不同数据长度对卷积神经网络分类性能的影响。训练数据集与验证数据集之比为80%/20%。结果如表5 所示。

表 5 不同数据单元长度对分类精度的影响Tab. 5 The effect of different data unit length on classification accuracy

综合上述结果可以看出，尽管CNN 各层的结构以及网络参数也会对分类性能造成影响，但深度学习方法对于舰船辐射噪声信号的总体分类效果较好，在水下目标智能识别方面具有可行性和广阔的应用前景。

3 结语

通过以上实验，得出以下结论：

1）基于二维时频谱图变换和卷积神经网络相结合的深度学习模型能够对不同类型的舰船辐射噪声进行分类；

2）不同的网络模型结构参数、激活函数、池化方法以及数据片段长度均会对深度学习模型分类精度造成影响，但总体来说深度学习对于水下目标识别保持较高的准确率，为海洋装备目标探测提供了一种新思路。

图 8 不同数据单元长度对应的二维谱图Fig. 8Two-dimensional spectra corresponding to different data unit lengths