张威龙,王景景
(青岛科技大学信息科学技术学院,山东 青岛 266000)
随着第五代移动通信技术(5G)完全成熟并进入全面应用阶段,各国逐步开展新一代通信技术研究[1]。我国于2018 年3 月开始着手研究第六代移动通信技术(6G),2021 年11 月国家工信部发布《“十四五”信息通信行业发展规划》,将开展6G 基础理论及关键技术研发列为移动通信核心技术演进和产业推进工程,提出构建6G 愿景、典型应用场景和关键能力指标体系。6G 的终极目标是统一整合海陆空通信资源进行信息资源共享,实现万物互联互通。
水声通信技术是6G 海洋通信资源的关键组成,水声通信的工作方式分为协作式与非协作式两种。在协作式水声通信系统中,调制方式智能识别技术使接收端自动识别接收信号的调制方式,确保采用正确的解调方式恢复数据,提高水声通信系统数据传输的高效性和可靠性;在非协作式水声通信系统中,调制方式智能识别技术能够提高识别速度与准确率,满足各个领域对信号调制方式识别实时性与准确性的需求。
然而,由于水下环境复杂、通信收发端性能有限以及水声信号不充足,使得水声通信调制方式智能识别方法的发展面临巨大挑战,具体包括:第一,调制方式识别算法性能取决于特征提取的有效性,复杂的海洋环境会严重干扰水声信号特征;第二,复杂度高的水声信号调制方式识别算法难以部署在算力受限、能量有限的水下通信节点;第三,基于仿真数据或仿真信道研究设计的水声信号调制方式识别算法不适用于实际海洋通信场景。针对上述问题,本文提出一种基于深度融合神经网络的水声信号调制识别方法,可提取水声信号的有效特征,并通过优化模型的网络结构降低算法的复杂度,基于实测水声信号数据集验证算法的性能优势。
上世纪六十年代末发表了首篇信号调制方式自动识别研究的论文,标志着调制方式智能识别技术的首次问世[2]。调制方式智能识别的方法分为基于最大似然比假设检验的调制方式识别方法和基于特征提取的调制方式识别方法。虽然基于最大似然比假设检验算法的调制方式识别技术理论依据完善,但该方法需要信号的先验信息,其泛化性与鲁棒性不足,且计算复杂度高,难以推广于工程领域[3]。而基于特征提取的调制方式识别方法由于技术思路简单清晰,在低信噪比条件下拥有可观的识别准确率,因此是目前调制方式智能识别的研究热点[4-7]。目前,基于特征的调制方式识别方法共分为两类:一类为基于机器学习的信号调制方式识别;另一类为基于深度学习的信号调制方式识别。
基于机器学习的信号调制方式识别方法首先提取信号的某些特征,然后使用机器学习分类器算法根据信号特征的差异判别信号调制方式,识别流程具体如图1 所示:
图1 基于机器学习的信号调制方式识别流程图
2009 年,Orlic[8]等人提取信号的归一化六阶累积量作为特征,利用一种城市多径传播统计模型进行调制方式识别的试验仿真,当信噪比大于10 dB 时,该方法对BPSK(Binary Phase Shift Keying,二进制相移键控)及QPSK(Quadrature Phase Shift Keying,正交相移键控)的识别准确率可达90%以上,但对16QAM 及64QAM 的识别率较差,仅为50%左右。2010 年,Tabatabaei[9]等人提取信号的瑞利熵、频率跨度、频谱偏斜度以及过零率作为特征,使用支持向量机作为分类器,当信噪比为20 dB 时,对4ASK、8FSK 和8PSK 信号的识别准确率仅为79%。2015 年,童峰等人通过支持向量机分类器,利用信号功率谱特征识别出了MPSK(Multiple Phase Shift Keying,多进制相移键控)与MFSK(Multiple Frequency Shift Keying,多进制频移键控)信号、利用平方谱特征识别出了BPSK 与QPSK 信号,并对海上实测数据进行了验证[10],而且还通过水声信号功率谱和循环前缀的相关性提取特征参数,设计了一种基于模糊系统的水声通信信号MPSK、MFSK、OFDM(Orthogonal Frequency Division Multiplexing,正交频分复用)调制方式识别器[11]。2016 年,巩克现[12]等人利用自回归模型的极点提取信号的短时频率峰值,应用改进的聚类算法对峰值序列进行聚类处理,根据不同阶数FSK(Frequency Shift Keying,频移键控)信号不同聚类中心的局部密度与距离乘积的不同,利用支持向量机进行分类,完成了MFSK 的调制识别。
然而,由于基于机器学习的信号调制方式识别方法是人工设计准则,然后根据上述准则选择特征,特征提取与最终预测模型的学习分开进行,因此学习的特征不一定会提高最终模型的性能、保证模型的泛化能力。
基于深度学习的信号调制方式识别方法利用深度神经网络自动提取信号的抽象特征,并借由合适的分类网络识别信号的调制方式。
2019 年,Nihat Daldal[13]等人将接收的数字信号直接输入其提出的深度长短时记忆网络模型进行识别,该方法在5 dB 信噪比以上可较好地识别出ASK(Amplitude Shift Keying,振幅键控)、FSK 等多种调制方式。同年,彭华[14]等人将信号时域波形转化为眼图和矢量图,利用卷积神经网络识别浅层特征,获得了较好的识别准确度;同时还通过门控循环单元提取信号时序特征,特征输入全连接神经网络识别信号调制方式,当信号信噪比为6 dB 时,能够正确识别98%的信号调制方式[15],但算法的时间复杂度较高。杨洁[16]等人结合两个在不同数据集上训练的CNN(Convolutional Neural Network,卷积神经网络)对输入的信号进行识别,在低信噪比下可有效识别QAM(Quadrature Amplitude Modulation,正交幅度调制)的调制阶数。方世良[17]等人根据MPSK 信号M次方谱在M倍载频处存在线谱特征的基本原理,针对直接估计高次谱抑制小信号能力不足的问题,采用解析信号构造高次谱以提高处理增益,基于仿真数据的试验结果表明该方法能有效降低在低信噪比下的小信号抑制影响,提高低信噪比下的PSK(Phase Shift Keying,相移键控)信号类内识别性能。2020 年,刘亚博[18]等人通过特征提取卷积神经网络和图映射卷积神经网络,分别提取信号特征和映射子集到图中,然后利用图卷积网络识别调制方式,在低信噪比的情况下取得较好的识别精度,但算法复杂度较高。同年,加济安泰普大学的Ahmed.K.Ali[19]等人在高斯信道环境下,提取高阶谱特征输入多层感知器进行调制识别,该方法可识别16APSK(16 Amplitude Phase Shift Keying,16 振幅移相键控)、32APSK 及64APSK 调制方式,但识别信号调制方式种类较少。
但是,目前上述基于深度学习的信号调制方式识别算法多采用仿真数据构建,仿真环境与实际环境不同,基于仿真数据的设计算法难以适用于实际数据。而且基于深度学习的调制识别算法通常仅采用加深网络层数的方法来增强网络学习能力,致使算法复杂度极高,且识别信号调制方式的种类较少。由于上述算法并未考虑最终在水下通信节点的有限功率和能量下部署,也未曾考虑根据水声信号的特点设计适合于处理水下声信号的端到端神经网络,因此难以应用于实际水下通信。
深度学习方法多采用单一特征提取结构且未考虑水声信号时序特点,基于实测数据验证时算法准确率低;未充分改进网络模型结构,致使算法复杂度高。针对上述问题,本文提出了一种适合水声信号调制方式识别的深度融合神经网络模型——R&CNN(Recurrent &Convolutional Neural Network,循环卷积神经网络),如图2 所示。基于黄海数据集展开试验,结果表明该模型识别准确率高且时间复杂度低,能够满足通信实时性要求。
图2 循环卷积神经网络模型
循环卷积神经网络的循环层部分共有两层,每一层的基本结构如图3 所示。其中,Q为输入层的权重矩阵;P为当前时刻隐含层输出传递给下一时刻隐含层的权重矩阵;O为输出层的权重矩阵。
图3 循环卷积神经网络的循环层基本结构
循环层的结构使得隐含层神经元输出能够在下一个时刻直接作用于自身。随着时间的推进,上一个时刻的输出将影响下一时刻的输出结果,充分利用了数据的历史信息。因此,循环层的特性有利于提取时间序列的特征,适合提取时序特性明显的水声信号。此外,由于水声通信过程多普勒效应影响,信号数据序列会产生相互干扰。因此,本文使用GRU(Gated Recurrent Unit,门控循环单元)构造循环层,GRU 可以通过记忆和处理信号序列的方式缓解多普勒效应的干扰[20]。GRU 结构示意图如图4 所示:
图4 GRU结构示意图
GRU 的逻辑结构描述如下:
其中,* 表示矩阵点乘运算;tanh与σ分别表示Tangent函数、Sigmoid 函数;Int为t时刻输入;ht-1为t-1 时刻隐含层输出;ht为t时刻隐含层输出;Wz、Wr与Wh是经过学习的权重矩阵;Zt为更新门,它决定前一时刻记忆信息更新到当前时刻的量;rt为重置门,它控制记忆信息与当前时刻输入的结合;为候选态。GRU 的更新门与重置门能够记忆长信号序列中的信息,确保有效信息不会因时间推移或预测不相关而消除。
本文将循环层部分的第一层GRU 输出维数设置为640,第二层GRU 输出维数设置为320,每层循环层都输出完整序列。
由循环层提取的特征图作为卷积层输入,如图5 所示,循环层第t时间步特征映射仅与从第1 时间步到第t时间步的信号相关,而与第t时间步之后的信号无关。因此,只有最后一个时间步的输出特征映射包含完整信号,而其他时间步的输出特征映射仅包含不完整信号。传统的做法是仅保留最后一个时间步的输出特征映射,丢弃其他时间步的输出特征映射,该做法会产生信息的丢失问题。为了充分利用信息,本文保留了所有时间步的输出特征图,并使用卷积层实现跨时间步信息的交互和集成,有助于提高网络的特征提取能力。
图5 循环层提取特征
此外,由于第二循环层输出特征映射的形状和信号的时间特性,本文改进了卷积层的设计,通过使用一维卷积核而不是二维卷积核设计卷积层。在此基础上,本文整合了Inception v1 网络[21],增加了网络宽度,并提高了学习能力。同时,基于较少的信号特征(与图像特征相比),本文移除池化层,避免信号特征因池化层的池化作用而丢失。虽然移除池化层会略微增加计算量,但使用简单的一维卷积核替换相对复杂的二维卷积核,总体上降低了网络的复杂度。
R&CNN 共有两层卷积层,每层卷积层都含有尺寸不一的卷积核,卷积层部分结构如图6 所示:
图6 卷积层部分结构
R&CNN 最深层为全连接层部分,全连接层部分由两层隐含层与输出层构成。两层隐含层神经元个数分别为120与84,输出层共有8 个神经元,对应可能的调制方式包括BPSK、QPSK、BFSK、QFSK(Quadrature Phase Shift Keying,正交相移键控)、16QAM、64QAM、OFDM 与DSSS(Direct Sequence Spread Spectrum,直接序列展频)。由卷积层部分得到的特征图经展开后输入全连接层部分,输出层输出识别结果。全连接层部分的结构图如7 所示:
图7 全连接层部分的结构图
2020 年8 月13 日于东经120°32′04.984″北纬36°05′8.507″中国黄海浅海海域,通过笔者团队搭建的水声通信系统获得水声信号数据集——黄海数据集(包含BPSK、QPSK、BFSK、QFSK、16QAM、64QAM、OFDM 这7 种调制方式信号,共计1 400 组信号数据,以3:1 的比例划分训练集与验证集),并基于黄海数据集开展试验。本文选取了3 种常用神经网络用于对比,包括:CNN-LSTM(Convolutional Neural Network-Long Short Term Memory,卷积长短时神经网络)[22]、AlexNet8[23]与LSTM(Long Short Term Memory,长短期记忆网络)[24]。表1、表2 给出了基于黄海数据集4 种神经网络的实验结果:
表1 基于黄海数据集4种神经网络的识别结果
表2 基于黄海数据集4种神经网络的平均识别时间
由表1、表2 可以得出,基于黄海数据集,AlexNet8训练集准确率为98.75%、验证集准确率为92.14%,准确率相差6.61%,这表明了AlexNet8 确实可以较好地学习信号数据,但是AlexNet8 的结构决定了它只能像学习图片一样学习数据局部联系(空间特征学习),无法像LSTM、R&CNN 学习信号时序特征,而水声信号的时序特征比局部特征更能反映信号的特性,因此AlexNet8 的训练集识别精度与验证集识别精度难以保持一致。基于黄海数据集,LSTM 训练集准确率为92.77%、验证集准确率为93.57%,准确率相差0.8%。上述现象表明LSTM提取的信号特征有较好的描述性,能够较为充分地反映水声信号调制方式的特性。此外,LSTM 识别单个信号的平均时间为7.167 ms,仅次于R&CNN,侧面反映基于时序的神经网络处理信号的优越性。基于黄海数据集,与R&CNN 模型同为融合特征提取结构的CNN-LSTM 的训练集准确率为90.09%、验证集准确率为41.43%,准确率相差48.66%。上述结果表明,采用CNN 作为浅层的CNN-LSTM 不具备从实际水声信号中稳定有效提取特征的能力,在时间复杂度方面,CNN-LSTM 识别信号的平均时间为688.161 ms,在所有算法中时间复杂度最高。基于黄海数据集,R&CNN 模型的训练集、验证集准确率最高,且准确率相差0.9%,这表明R&CNN 对水声信号有最好的学习能力。在时间复杂度方面,R&CNN 识别单个信号的平均时间仅为7.164 ms,该模型在保证识别精度的同时还具有较低的时间复杂度。
本文提出了一种可高效、准确识别水声信号调制方式的神经网络模型——R&CNN。与传统自动调制识别方法相比,该神经网络模型无需预先提取信号特征,避免了基于仿真条件下设计的信号特征提取算法难以应用于实际海域的问题。与常规深度学习算法相比,R&CNN神经网络模型综合了RNN 中的循环层处理时序数据的巨大优势,又利用CNN 卷积层的空间学习能力弥补循环层提取特征的不足,并根据信号特征特点改进了卷积层,降低了模型复杂度。基于黄海的水声数据集展开试验测试,结果表明R&CNN 比传统AlexNet8、LSTM 和CNN-LSTM 有更好的识别准确率,可有效识别BFSK、QFSK、BPSK、QPSK、16QAM、64QAM、OFDM 这7类调制信号。同时,对网络结构的改进有效地减少了模型复杂度,单个信号的平均识别时间仅为7.164 ms,可满足水声通信的实时性需求。