基于卷积神经网络的声信标信号识别方法

2021-03-09 07:18张惠臣翟春平

舰船科学技术 2021年1期

张惠臣，那健，翟春平

(大连测控技术研究所，辽宁大连 116013)

0 引言

寻找黑匣子（飞机飞行数据记录器（FDR）和船舶航行数据记录器（VDR）的统称）是飞机或船舶失事坠海后的紧迫任务。黑匣子上装载的水下定位信标（Underwater Locator Beacon）入水自动激活电路，发射固定频率的周期性声脉冲信号，供搜寻设备对黑匣子进行定位。水声信标通常发送频率为37.5 kHz的脉冲信号，可从数千米深的水下传递声信号。一旦水声信标开始工作，它将会每秒发送一次脉冲信号并持续一个月左右，这种脉冲信号可以被声呐和声学定位仪探测到[1-2]。定位失事的黑匣子，首先要检测识别声信标信号，因此对声信标信号的检测识别成为黑匣子搜寻的关键技术。

水声信号自动识别是水下目标识别技术研究的一个重要领域，也是水声信号处理领域的突出难题。国外早期使用的水声信号处理方法是盲源分离，国内目前主要用到的水声信号处理方法有傅里叶变换（短时傅里叶变换、分数阶傅里叶变换）、小波变换、希尔伯特黄变换、错误叠加算法[3]等。目前的水声信号处理方法在水声信号处理领域已经有着较为成熟的应用。但对于大海中水声信标信号的检测识别，这些常用的方法很容易受到水中传播损失以及海洋环境背景噪声等因素的影响，很难实现远距离情况下声信标信号的有效检测识别[4]。

近年来人工智能（AI）技术飞速发展，为水声信号处理领域带来了新的思路。基于现有的水声信号处理技术，本文提出一种新的声信标信号的检测识别方法，即对已知声信标信号提取梅尔频率倒谱系数特征，再将所提取声信标信号的特征输入卷积神经网络进行训练学习，然后将待测数据提取MFCC特征后，输入卷积神经网络从而实现对声信标信号的检测识别。

1 信号识别方法

1.1 声信标信号基本形式

基于卷积神经网络的声信标信号通常为CW脉冲信号，频率 37.5 kHz，脉宽T=10 ms，重复周期 1 s，噪声干扰为海洋背景噪声。周期信号不满足能量有限条件，对于周期信号、随机信号在时间上的积分是无穷大，一般只研究信号的平均功率。在本文中，将声信标信号截取处理，即信号具有周期特性但并不是周期信号。设声信标信号为x(t)[4]，则有

其中：A为幅度；f0为声信标信号的中心频率；t′为声信标信号周期脉冲信号时间。图1为声信标信号仿真时域图以及频谱图。

图1 声信标信号时频分析Fig.1 Time-frequency analysis of acoustic beacon signals

1.2 MFCC特征参数提取

为了识别出不同的声音，需要对声音提取内在特征。一般要考虑到2个问题，一是提取出合适的特征参数；二是进行数据压缩与降维。MFCC特征在近些年得到了广泛应用，早期应用于语音信号的处理领域。水声信号与语音信号识别的原理一样，也可以应用MFCC进行水声信号特征提取。本文采用MFCC作为声信标信号的特征参数，梅尔（Mel）频率可由下式计算得到：

MFCC 就是基于 Mel频率的概念而提出来的[5-6]。MFCC的物理意义是：提取信号频谱中的包络信息，将声音的物理信息（频谱包络和细节）提取得到一组特征向量，简单来说可以理解为声音信号的能量在不同频率范围的分布。MFCC特征参数提取流程如图2所示。

图2 MFCC 特征参数提取流程Fig.2 MFCC feature parameter extraction process

最终得到MFCC系数如下式[7]：

至此，一段声音通过分帧、特征提取后，每帧都有一个特征向量，后续步骤要处理的对象就是这样的特征向量。

1.3 卷积神经网络

卷积神经网络（Convolutional Neural Networks，CNN）是一类特殊的人工神经网络[8]，是深度学习中的一种核心算法，区别于神经网络其他模型（如递归神经网络），其最主要的特点是卷积运算操作。卷积神经网络有一个输入层、一个输出层和中间的多个隐藏层。中间的隐藏层由卷积、激活、池化（pooling）3种结构组成[9]。卷积神经网络与全连接网络相比较，有3个特点：权值局部连接、权值共享和降采样，以保证一定程度上的位移和旋转不变性，并且大大减少网络中需要训练的参数个数。本文所使用的卷积网络框架如图3所示。

图3 卷积神经网络结构图Fig.3 Convolutional neural network structure

对事先已知的声信标信号提取MFCC特征送入设置好的卷积神经网络进行训练。通过训练，输入的是每类数据的MFCC特征，输出对应的标签，根据误差后向传导进行训练，使用算法的人仅需提供原始时域数据即可。训练后，被测试数据先提取MFCC特征，再输入卷积神经网络，然后输出对应识别结果。

2 试验数据处理分析

针对上文的声信标信号识别算法，利用试验数据对该方法进一步验证。

2.1 试验方案

试验船作为拖体布放母船，试验中1枚声信标布放在海底，该声信标信号中心频率为37.5 kHz，采用拖曳装置实现声信标信号采集，试验现场概况如图4所示。

图4 试验现场概况Fig.4 Test site overview

试验所使用的信标如图5所示，频率37.5 kHz，脉宽 10 ms，脉冲周期 1 s。

图5 试验水声信标Fig.5 Test underwater acoustic beacon

2.2 试验数据验证

图6为声信标信号距离拖体某一距离时的原始信号时域波形以及频域波形图。

把原始标签数据提取MFCC特征后，输入设置好参数的卷积神经网络进行训练。卷积神经网络的训练效果随着训练批次的变化如图7所示。可以看出没训练的卷积神经网络，网络参数是随机初始化的，其输出误差最大，随着训练批次的增加，误差逐渐减少，训练批次到达1 000前，误差减少得比较快，当训练批次超过1 000次之后，误差减少得越来越慢。经测试，本次实验基于卷积网络的正确率为93.9%。

将距离声信标为1 900 m时的待测试的声信标信号提取MFCC特征后输入已经训练好的卷积神经网络，识别并标记后的声信标信号时域图如图8所示。12 s内共有12个脉冲标记（白色标记为声信标信号），每间隔1 s标记一次。结果表明，当距离为1 900 m时可全阶段检测识别到声信标脉冲信号。

图6 原始信号时域波形及频域波形Fig.6 Time-domain and frequency-domain waveforms of the original signal

图7 卷积神经网络训练误差变化图Fig.7 CNN training error graph

图8 1 900 m 时检测识别结果Fig.8 Detection and recognition results at 1 900 m

将距离声信标为2 600 m时的待测试的声信标信号提取MFCC特征后输入已经训练好的卷积神经网络，识别并标记后的声信标信号时域图如图9所示。12 s内共有9个脉冲标记，脉冲信号标记不完整。结果表明，当距离为2 600时可检测识别到部分声信标脉冲信号。

图9 2 600 m 时检测识别结果Fig.9 Detection and recognition results at 2 600 m

在试验验证的过程发现对输入卷积神经网络进行训练的声信标信号数据必须是全时间段可检测识别的声信标信号（下文称为正常训练数据），如果训练数据是部分时间段可识别的声信标信号（下文称为非正常训练数据）则对测试数据的结果产生较大的误差。

使用相同的测试数据对不同情况下的训练完成的卷积神经网络进行测试。图8为正常训练数据下的声信标距离为1 900 m时测试数据检测识别结果，结果显示此测试数据完全可识别，即1 s内有一个声信标信号脉冲发出。图10为非正常训练数据下的声信标距离为1 900 m时测试数据检测识别结果，结果显示此测试数据识别出现错误，1 s内有多个标记的脉冲信号。

图10 1 900 m 非正常训练数据测试结果Fig.10 1 900 m abnormal training data test results

3 结语

本文将基于卷积神经网络方法应用于对水声定位信标信号的检测识别。使用已知的声信标信号作为训练数据，然后对试验获取的待测声信标信号进行测试。测试结果表明，在训练数据正常的情况下，将待测声信标信号提取MFCC特征后输入卷积神经网络进行测试，测试数据的识别效果较好。本文所使用的方法对训练数据要求较高，训练数据必须是全时间段可检测识别的声信标信号，对于部分时间段识别的声信标信号测试结果出现错误。