李勇斌,王 彬,邵高平,邵 帅
(中国人民解放军战略支援部队信息工程大学,河南郑州 450001)
水声通信信号被动探测是水声信号处理领域的重要研究内容,在科学考察和海上救援等民事应用以及水下目标监视等军事应用中发挥着重要作用.但是,由于海水的声吸收和海洋环境噪声的复杂多变,远距离、海洋环境噪声起伏多变条件下的水声通信信号被动探测能力明显下降.解决这一问题的核心是对接收信号进行降噪,研究既能保留有用信号本质特征又能有效降低环境噪声对有用信号影响的降噪方法,是提高水声通信信号探测性能的关键环节.
现有的水声信号降噪方法主要是基于信号处理的方法.对于高斯白噪声的降噪方法有基于奇异值分解的降噪方法[1]、基于小波分解的降噪方法[2]、基于经验模态分解的降噪方法[3]和基于稀疏分解的降噪方法[4]等.其中基于奇异值分解[1]的水声信号降噪方法,对于中高信噪比条件比较有效,当信噪比较低时,难以通过奇异值大小来区分信号和噪声成分,且重构有效秩阶次的选取依赖经验知识.基于小波分解的降噪方法[2]和基于经验模态分解的降噪方法[3]的信号降噪方法性能受分解层数和阈值影响大,二者的选取依赖经验知识.文献[4]中提出了一种基于稀疏分解的方法,要求找到合适的过完备原子库将信号转换到稀疏域,再通过一定的残差阈值滤除噪声成分,但当构造的稀疏分解字典不匹配时性能下降严重,且在低信噪比下算法性能不如基于小波分解的降噪方法.对于浅海脉冲噪声常用的降噪方法有消隐法[5]、截断法[5]等,主要通过非线性变换处理对脉冲的幅度进行抑制,在强脉冲和低信噪比条件下降噪性能有限,且非线性变换参数的选取依赖经验知识.综上所述,现有的基于信号处理的降噪方法对低信噪比接收信号的降噪能力有限,对于复杂环境的适应能力不足,而且对领域知识和人为经验依赖性较强.
针对上述问题,本文提出了一种基于相对条件生成对抗网络(RCGAN)的水声通信信号降噪方法.该方法基于复杂海洋噪声环境的水声通信信号接收模型,建立适用于水声通信信号降噪的RCGAN 网络,通过引入扩张卷积结构,以及选用能够更好地度量有用信号与生成信号分布差异特性的相对判决损失函数来对网络进行优化,提升对复杂海洋背景噪声的降噪能力.针对不同海洋环境下水声通信数据稀缺,难以构成满足网络训练所需数据量,与待测信号数据具有相同分布的训练数据集的问题,本文采用迁移学习思想,首先构造迁移数据模型,产生迁移训练数据,然后结合少量目标信号训练数据,通过两步训练方法,实现小样本条件下对目标信号的有效降噪.
本文方法以水声通信接收信号时域波形为处理对象,降噪后保留了信号的本质特征信息,有利于直接对其进行检测、识别等后续环节处理.与传统方法相比,本文方法适用信号种类多,对多进制频移键控(M-ary Frequency Shift Keying,MFSK)、多进制相移键控(M-ary Phase Shift Keying,MPSK)、正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)、线性调频(Linear Frequency Modulation,LFM)和直接序列扩频(Direct Sequence Spread Spectrum,DSSS)等常用水声通信信号均具有良好的降噪效果,对环境的适应性强,对低信噪比条件下高斯分布噪声和海洋脉冲噪声及水声多途信道影响均具有一定稳健性,对目标信号训练数据量要求低.
水声通信信号在水声信道传输过程中会受到水声信道的相干多途影响以及海洋环境噪声的影响,因此,本文将接收信号建模为
其中,y(t)表示接收信号;s(t)为发送的载波调制信号或直接序列扩频信号DSSS,载波调制类型集合包括MFSK(M=2,4,8)、MPSK(M=2,4,8)、OFDM 和LFM;h(t)表示水声信道冲激响应,符号“⊗”表示卷积运算.为了能够反映复杂海洋背景噪声,本文将噪声w(t)建模为Alpha稳定分布噪声.
水声信道,尤其是人类工业活动频繁和海洋生物密集的浅海水声信道中,往往存在大量短时尖峰脉冲噪声[6].研究表明,Alpha 稳定分布可以有效刻画这类具有显著拖尾的脉冲噪声,其特征函数[7]为
其中,sgn(u)为符号函数;α为特征指数,用于描述稳定分布的脉冲性强弱,α越小,脉冲性越强,当α=2时退化为高斯分布;位置参数a决定了分布的中心位置;分散系数γ用于度量分布偏离其均值的程度;偏斜参数β决定了分布的对称程度,当其值为0 时,分布关于a对称,称为对称Alpha 稳定分布(SymmetricαStable,SαS),当a=0且γ=1时,称为标准Alpha稳定分布.
由于Alpha 稳定分布不存在有限的二阶矩,通常采用混合信噪比MSNR=(dB)来衡量信号与噪声的功率关系,其中为有用信号方差.
海洋环境噪声对水声通信信号的幅度和相位产生干扰,环境噪声越强,干扰越明显.只有尽可能降低接收信号中的噪声成分,才能最大限度还原发送的原始有用信号.传统的基于信号处理的降噪方法的核心思想是“滤波”,即对接收信号进行不同方式的分解,找到表征噪声的分量,然后将其滤除,这种方法往往需要借助人工领域知识,才能较好地判别出噪声成分,特别是复杂噪声环境中对人工领域知识的依赖更强.
利用深度学习方法进行降噪处理能够降低对人工领域知识的依赖,是目前图像、语音信号处理的研究热点[8,9],但是在水声信号处理中的应用还比较少,特别是针对水声通信信号的降噪处理还没有比较成熟的研究成果.与图像和语音信号相比,水声通信信号的环境噪声更复杂,水声信道多途特性对接收信号影响大,而且在很多应用场景下接收信号是微弱的,这些特点增加了利用深度学习方法进行信号降噪的难度.
本文借鉴文献[8]提出的语音增强相对生成对抗网络(Speech Enhancement Relativistic Generative Adversarial Networks,SERGAN),提出一种复杂海洋环境下基于RCGAN 的水声通信信号降噪方法,降噪模型如图1所示.
图1 基于RCGAN的水声通信信号降噪模型
图1 模型包括训练过程和测试过程.训练过程模型由生成器(Generator,G)和判决器(Discriminator,D)组成.首先,将含噪信号训练集输入生成器中,得到生成器生成信号.再将它和不含噪的目标信号分别与含噪信号拼接后,依次输入判决器中.然后,判决器将含噪信号作为条件信息,对输入信号进行真假鉴别,判断输入为目标信号或是由生成器所生成.最后,通过计算判决结果与真实标签的误差,利用反向传播算法完成网络参数的更新和优化.测试过程模型是在训练模型基础上由训练后的生成器模型完成对待测信号的降噪处理.
对于标准的生成对抗网络(Standard Generative Adversarial Networks,SGAN)[10],训练过程的生成器通过不断学习目标数据的概率分布,将输入数据分布逐步映射成目标数据分布,判决器则通过更新自身网络参数,不断优化完善其学习得到的判决准则,进而提升真假鉴别能力.整个训练过程中网络能够通过生成器和判决器的相互作用,学习到目标数据的内在规律,构建出目标数据分布,并将生成器的输入数据拟合成具有目标数据特性的数据.
条件生成对抗网络(Conditional Generative Adversarial Networks,CGAN)[11]在SGAN 的基础上通过引入目标数据的条件信息作为判决器的输入,使得判决器能够依据条件信息对生成数据更好地鉴别,生成器也能够有针对性地生成数据,从而提升生成数据与目标数据的匹配度.因此,本文将理想的无噪信号作为先验目标信号数据,将这些先验目标信号数据叠加噪声后的含噪信号作为输入条件信息数据.通过图1 模型不断迭代训练,当模型训练完成后,该网络具备了将输入含噪信号映射成对应的无噪信号的能力,这就是本文采用RCGAN网络降噪的基本原理.
基于RCGAN 的信号降噪网络包含生成器网络和判决器网络.其中,生成器网络结构如图2所示.
图2 生成器网络结构
图2中的生成器采用了类似自动编码器的结构,包含7 个一维卷积层(Conv1~Conv7)、3 个一维扩张卷积层(D-Conv1~D-Conv3)和7个一维反卷积层(T-Conv1~TConv7),并采用残差连接将卷积层组成的编码器与反卷积层组成的解码器相连.其中,编码部分对数据不断压缩降维,逐步抛弃原始高维信号中无用或者冗余的信息,而信号本质有用信息将被保留并映射至低维变量,再通过扩张卷积层[12]完成更大视野上的特征提取,最后通过解码过程重构原始高维有用信号.各卷积层中,“s”“c”和“k”分别表示卷积步长、卷积核数量以及卷积核长度.除T-conv7 层外,各层输出之后均采用激活因子为0.1 的Leaky ReLU 函数对输出进行非线性激活.
综合考虑水声通信信号带宽和采样率,本文将网络的输入维度设计为8192.同时,由于步长卷积和微步长卷积在GAN 中具有比确定性空间池化函数更好的性能[13],因此,网络中不再设置池化结构,而是由步长卷积层和微步长反卷积层替代.此外,卷积层的输出通过残差连接[14]映射至对应的反卷积层并进行向量拼接,此类恒等映射能将信息直接从卷积层传递至反卷积层,有利于保护细节特征在维度压缩的过程中不被丢失,而且损失函数的梯度能传递至更多的层,很大程度上改善了深层网络梯度消失的问题.
为了提高网络在降噪过程中对信号细节信息的保留能力,生成器中间层采用了图像语义分割中广泛采用的扩张卷积结构[15].扩张卷积通过在卷积核中插零来扩展卷积核的感受视野,相比标准卷积结构中采用的下采样等感受视野扩充方法,它对细节信息的保留能力更强.通常采用扩张率来表示卷积核中相邻点之间的间隔点数,标准卷积核的扩张率为1.如图2 所示,该生成器中三个一维扩张卷积层采用的扩张率r分别取1、2 和4,卷积核长度均为3,依据文献[12],可计算得到这3 个一维扩张卷积层的卷积核感受视野大小分别为3、7 和15,呈指数级增长.而相同条件下,采用标准卷积获得的感受视野大小分别为3、5 和7,呈线性增长.研究表明,扩张卷积正是凭借这种信息无损的感受视野扩展,在语义分割中对小尺度信息特征处理上得到了更好的保留效果[12].因此,本文将该结构用在生成器的中间层来提升网络对信号细节信息的提取能力.
如图3所示,判决器采用了三个与生成器中编码部分类似的步长卷积层(Conv8~Conv10)以及同样的非线性激活函数来实现特征的提取,然后添加了一个单卷积核的一维卷积层(Conv11)完成特征通道的压缩,并将得到的一维特征向量与一个全连接层(Fc1)相连,最后采用单节点输出判决结果.
图3 判决器网络结构
图1 模型中对抗训练过程的核心是构造有效的生成对抗损失函数来度量生成数据与目标数据的分布差异.SGAN 中采用的二元交叉熵损失函数[10]本质上度量的是两个分布的Jensen-Shannon 散度,而所用数据通常是从高维空间的低维流型中采样得到,其分布交叉项很小,导致Jensen-Shannon 散度很可能一直保持一个较大值,造成梯度消失而难以优化,存在训练不收敛[13]、模式崩溃等问题,后续改进包括最小二乘损失函数[16]、Wasserstein 距离[17]和梯度惩罚项[18]等.文献[19]中提出了一种相对判决损失函数,通过估计真实数据与随机选取假数据分别被判为真的概率之差,在促进假的生成数据被判为真的同时,也降低了真实数据被判为真的概率,更符合一个批次训练数据中真假数据各占一半的前提,在图像生成[19]和语音增强[8]方面都取得了比上述其他损失函数更好的性能.
因此,本文也采用能够更好度量两个分布差异特性的相对判决损失函数,在生成器和判决器中分别表示为LRS(G)和LRS(D).此外,参考文献[8],生成器中加入了一阶的L1范数惩罚项(G)来约束目标无噪数据和生成数据之间的误差,在脉冲噪声条件下依然能有效提高网络的训练效率.判决器中则引入梯度惩罚项LGP(D)来稳定训练过程以及防止梯度消失和爆炸现象.因此,生成器和判决器总损失函数LG和LD可分别表示为
其中,当采用xs和xy分别表示原始有用信号和含噪信号时,生成器生成信号xG=G(xy),则xr为xs与xy构成的数据对,xf为xG与xy构成的数据对;C表示判决器网络构成的非线性函数;σ为Sigmoid 激活函数;P和Q分别表示xr和xf的概率分布;是含噪信号xy与+(1-μ)xG的联合分布(其中μ为0到1之间的随机实数).
在实际的训练过程中,生成器和判决器的学习率均设为0.0001,批大小(batch size)设为128,权值和λGP分别取200 和10,以实现与生成损失项LRS(G)和判决损失项LRS(D)的平衡,并采用Adam 优化器对损失函数进行优化,所有数据迭代次数为200次.
图1的降噪模型中,通常希望训练数据集与测试数据集具有相同的分布,但是在水声通信信号降噪应用中,很难得到足够数量的与测试数据具有相同分布的训练数据.本文利用迁移学习思想,通过构造包含与测试数据中发送信号具有相同分布的数据模型,产生迁移数据训练集,然后结合少量与测试数据具有相同分布的目标信号数据训练集,通过两步训练方法完成RCGAN网络的优化.
迁移数据模型为
与式(1)相比,式(6)简化了水声多途信道的影响,虽然两个模型所产生数据的分布发生了变化,但是二者包含了相同的发送信号集合,即y(t)和的波形中包含相同成分,因此具备可迁移性.
将传统的两步迁移策略[20]引入RCGAN 中,给出了适用于生成对抗网络的两步迁移学习策略,具体流程如图4所示.
图4 RCGAN模型迁移两步训练方法示意图
图4 中,首先利用迁移数据训练集对RCGAN 网络进行预训练,待网络性能达到最优后,结合生成对抗网络交叉迭代的训练机制,利用少量目标信号训练数据对判决器和生成器进行交叉迭代微调,即微调其中一者时,需要冻结另一者的所有参数,以提升对目标信号的降噪性能.然而,在利用少量数据对预训练的判决器或生成器网络参数进行微调时,很容易因数据量不足而造成过拟合现象,常用的做法是冻结网络大部分层的参数,而只对其中少数几层参数进行更新.根据文献[20]的发现,网络的低层通常提取一般的通用性特征,而高层往往能提取更加具体的特征,对输入数据集的针对性更强.因此,在微调过程中依次微调判决器或生成器网络最后几层参数,同时冻结其余所有参数.
实验中,信号采样频率为48 kHz,载频范围为[15,16]kHz.2FSK、4FSK、8FSK、OFDM、MPSK 和DSSS 信号的码元速率范围分别为[530,1000]Bd、[320,600]Bd、[170,330]Bd、[100,200]Bd、[1.6k,3000]Bd 和[1600,3000]Bd.MFSK的调制指数为1,MPSK的根升余弦滚降系数为0.25,OFDM 的循环前缀为0.25、子载波数为16,LFM 的调频斜率范围为[150,250]Hz/ms,DSSS 的PN序列采用周期为63的m序列.
图4 预训练过程中采用的迁移数据训练集依据式(6)中的迁移数据模型产生,其中指数在[1.5,2]范围内随机选取,混合信噪比范围为[-5,15]dB.此外,水声通信信号通常是突发的,因此,为提高本文方法在实际接收数据中缺乏先验知识场景下的实用性,本文设计了如图5所示的信号数据结构.
图5 信号数据结构
处理数据块中包含噪声数据块和叠加了噪声的通信数据块,通信数据块的长度以及位置是随机的,且通信数据块长度L满足0 ≤L≤Lp,Lp为处理数据块长度,即网络的输入维度大小8192.采用上述信号数据结构,每种信号产生4000 个样本,共36000 个样本组成迁移数据训练集来完成网络的预训练.
3.3.1 本文算法有效性验证
为验证本文方法在水声多途信道和Alpha 稳定分布噪声条件下的有效性,依据式(1),利用文献[21]中的经典水声稀疏信道,信道传递函数为
α指数选取文献[22]中所给典型值1.8,调制类型为BPSK,接收信号混合信噪比为-2 dB,产生测试数据时长682.6 ms,其中通信数据段的起止时刻分别为130 ms和471.3 ms,其余时间段为噪声.分别采用消隐法和在迁移数据训练集下预训练好的RCGAN 网络对其进行降噪,并从时域波形和功率谱图上对降噪效果进行对比,如图6所示,消隐法的具体参数依据文献[5]中所给参数选取.
图6 BPSK信号降噪前后时域波形和功率谱图对比
如图6 所示,受信道影响,接收信号时域波形和功率谱发生严重畸变.采用消隐法和本文方法均具有降噪效果.对比两种方法,使用消隐法降噪后,时域波形上的高幅值脉冲成分被很好地消除,但残留的低幅值噪声依然存在,从功率谱图中能观察到信噪比的显著提升,但信号带内衰落依然很明显.而使用本文方法进行降噪处理后,不仅接收信号中的高幅值脉冲噪声成分被很好地消除,低幅值的噪声也被很好地抑制,从功率谱图中能够看出本文方法的有用信号恢复能力优于消隐法.
为了验证本文算法对不同信号本质特征的保留能力,进行如下实验.发送信号采用8FSK 调制,信道传递函数采用冲激函数,噪声的α指数为1.8,混合信噪比为-2 dB,生成时长170.7 ms 的突发测试信号,图7 中对比了该信号降噪前后的时频图.
图7 8FSK信号降噪前后时频图对比
如图7 所示,接收信号受噪声影响,其携带的原始时频信息几乎被噪声所掩盖,难以清晰观察.SERGAN网络对该噪声具有较好的降噪能力,背景噪声被大大消除,而且降噪后码元信息与原始信号保持了良好的对应关系,但各码元内存在一定的时频模糊.而采用本文方法,不仅能够大幅提高信噪比,而且码元更为清晰.这种性能的提升是由本文方法引入的扩张卷积带来的,感受视野的扩张增强了网络对信号细节信息的捕捉能力,该实验结果有效验证了本文方法对信号本质特征的保留.
3.3.2 不同算法性能比较
为了对比本文方法与其他方法的性能差异,分别在高斯噪声和Alpha 稳定分布噪声条件下比较了不同方法的降噪性能,采用的量化衡量指标为输出信噪比.图8 中对比了高斯噪声条件下本文方法与基于小波分解的降噪方法、基于带通滤波的降噪方法以及SERGAN 网络降噪方法在不同输入信噪比下的降噪性能差异.实验中,信道传递函数采用冲激函数,测试信号的输入信噪比在[-15,15]dB 范围内以3 dB 为步长选取,每种信噪比下每种信号生成200个样本组成测试集,且通信数据块长度L=Lp.
如图8所示,本文方法与SERGAN 网络方法整体降噪性能差异不大,但在-5 dB 以上时性能相对有所提升,且降噪性能明显优于两类传统方法,在0 dB 信噪比条件下相比基于小波分解的降噪方法和带通滤波的降噪方法输出信噪比分别提升了大约10 dB和7 dB.
图8 高斯噪声下不同方法降噪性能对比
此外,图9 对比了Alpha 稳定分布噪声条件下本文方法与文献[5]中的消隐法、截断法、无记忆模拟非线性预处理器(Memoryless Analog Nonlinear Preprocessor,MANP)以及SERGAN 网络降噪方法在不同混合信噪比下的降噪性能差异,实验中信道传递函数采用冲激函数,α指数固定为1.8,混合信噪比在[-5,15]dB 范围内以2 dB为步长选取,测试数据量同上一个实验.
从图9 中可以看出,本文方法在Alpha 稳定分布噪声条件下降噪效果明显优于三种传统的脉冲噪声消除方法,相比SERGAN 网络方法也有明显提升.结合图6可知,本文方法优势在于不仅能对Alpha 稳定分布噪声中的高幅值脉冲成分进行有效滤除,对低幅值噪声也有更好的抑制效果,同时能更好地保留信号的细节信息.
图9 Alpha稳定分布噪声下不同方法降噪性能对比
3.3.3 模型迁移性能分析
为了验证在有少量目标信号训练数据可用的情况下,采用模型迁移的方法对预训练RCGAN 网络进行微调能够进一步提升网络对目标信号的降噪性能,本文依据式(1)中的信号模型,其中的信道冲激响应采用式(7),Alpha 稳定分布噪声的α指数为1.8,构建了不同数据量的目标信号数据训练集,对预训练网络的不同层参数进行微调,分析其性能.
为了评估微调不同网络层参数对降噪性能的影响,采用每种信号100 个样本构建目标信号数据训练集,分别对RCGAN 中生成器和判决器网络最后1、2、3、4 或5 层参数进行微调,得到微调之后网络降噪性能如图10所示.
图10 微调不同网络层参数降噪性能对比
如图10 所示,降噪性能与微调的网络层数紧密相关:当微调网络最后3层参数时,输出信噪比达到最高;当微调层数过少时,降噪性能的提升有限,甚至不如微调之前;当微调层数过多时,由于参数量太大而造成过拟合,也会导致降噪性能的下降.
在此结果基础上,继续评估不同微调数据量对降噪性能的影响.实验中,分别采用每种信号20、50、100和200个样本构建目标信号数据训练集,对预训练生成器和判决器网络的最后3层参数同时进行微调,得到如图11所示的降噪性能对比.
如图11 所示,微调之后的网络降噪性能随着微调数据量的增加而提升,表明网络在微调的过程中初步学习到了信道的相关信息,验证了在小样本条件下采用基于模型迁移的两步训练策略对提高目标信号降噪性能的有效性.
图11 不同微调数据量降噪性能对比
为验证算法在实际信号环境下的可行性,分别在校园人工湖和厦门五缘湾海域进行了实际信号的收发实验,并使用在迁移数据训练集下预训练好的RCGAN网络对接收信号进行降噪处理,实验参数如表1所示.
表1 实验参数
实验中,发射节点采用一个中心频率为16 kHz 的全向换能器,工作带宽为13~18 kHz,接收节点采用Ocean Sonics 公司的RB9-ETH 智能水听器,工作带宽为10 Hz~200 kHz.
在校园人工湖实验中,发送信号采用BPSK 调制,产生测试数据时长为170 ms,接收信号时长为256 ms,采用样本分位法[23]估计得到接收信号的α指数为2,即接收信号中叠加的噪声可近似认为服从高斯分布.
如图12 所示,信号受信道影响,信噪比下降严重,且时域波形和功率谱图上都出现明显畸变.经本文方法降噪后,时域波形中噪声成分被很好地滤除,功率谱图中也能观察到信噪比的显著提升,验证了算法在实际高斯噪声环境下的有效性.
图12 BPSK信号降噪前后时域波形和功率谱图对比
在厦门五缘湾海域实验中,设备布放情况如图13所示,S1和S2分别表示发送和接收节点,信号调制方式和时长同上.
图13 厦门五缘湾海域实验设备布放情况
通过样本分位法,得到接收信号的α指数估计值为1.53,相应地从图14(a)中的时域波形上可以观察到强烈的脉冲成分,同时也存在较强的非脉冲成分噪声.图14(b)的功率谱图中也存在明显的畸变和衰落.经本文方法降噪处理后,接收信号中的背景噪声得到了有效的抑制,信噪比提升明显,几乎达到了发送信号的水平,验证了算法在实际Alpha 稳定分布噪声条件下的有效性.
图14 BPSK信号降噪前后时域波形和功率谱图对比
针对实际海洋环境噪声条件下水声通信信号接收质量下降及第三方检测与识别困难的问题,本文提出了一种基于相对条件生成对抗网络和迁移学习的噪声消除方法.仿真实验和两个水域的实测信号分析表明,该方法在高斯分布和Alpha 稳定分布噪声条件下相比传统方法都有更好的降噪性能,对水声信道也具有一定的稳健性,对目标信号训练样本数量要求低,在实际复杂噪声环境下具有较高可行性.同时,本文算法核心思想可以继续拓展到其他领域的通信信号和非通信信号降噪应用中.