殷赞 王超杰 程子恒 陈渤 甄卫民 靳睿敏 杨会贇
(1.西安电子科技大学, 西安 710071;2.中国电波传播研究所, 青岛 266107)
自动调制识别是通信识别、电子侦察、干扰检测等领域中重要的环节.相比需要人为地提取特征参数的传统自动调制识别方法,基于深度学习的深层神经网络方法通过层级联的非线性处理单元进行特征提取和转换,可以自动优化提取信号特征,并最大限度地减少分类误差,已经在图像处理、自然语言处理等领域取得了巨大的成功.特别是近几年来,基于卷 积 神 经 网 络(convolutional neural network, CNN)的调制方式自动提取特征分类算法在不断地涌现.
X.Xie 等人[1]使用GoogleNet 和AlexNet 等方法来处理由原始调制信号转换得到的星座图等图像类型数据,实验结果表明,基于深度学习的方法能够自动提取信号特征,比支持向量机和传统的基于累积量的方法能获得更好的识别性能.2017 年,Y.Lin 等人[2]提出了一种复杂信号的转换算法,命名为等势星球图,该图像在星座图上有不同的色彩区域,数据集分别采用了AlexNet、GoogLeNet、ResNet 和VGG,不同的模型在不同的信噪比(signal-to-noise ratio,SNR)下获得了相似的性能.2018 年,Y.Lin 等人[3]继续他们之前的工作,提出了一种使用辅助分类器生成对抗网络的数据增强方法,为了避免不收敛问题,采取了多种措施,该方法与基准相比,精度提高了0.1%~6%.此外,Y.Lin 等人[4]还提出了一个基于生成对抗网络的半监督策略来利用未标记的数据,同时,在等势星球图数据集上进行了实验,其方法可以处理三种不同的训练数据来源,包括带标签的真实图像,没有标签的真实图像,以及来自生成器的图像.
Y.Wang 等人[5]提出一种基于深度学习的调制识别方法,由于基于I/Q 样本对QAM 信号识别率不高的原因,引入轮廓星图像作为I/Q 样本的补充.Y.Zeng 等人[6]使用短时离散傅里叶变换将一维无线电信号转换为频谱图,采用高斯滤波器来降低噪声,实验在RadioML2016.10a 数据集上进行,结果表明,论文提出的具有降噪功能的方法在高SNR 下识别率得到一定的提升.
T.J.O ’Shea 等 人[7]提 出 使 用GNU Radio 的RadioML2016.10 数据集,并且该数据集已经成为训练和评估调制识别方法性能的基准数据集.2017 年,T.J.O’Shea 等人[8]应用卷积长短期深度神经网络(convolutional long-short-term deep neural network,CLDNN)进行调制识别,试图为射频调制识别寻找最佳的滤波器数量和滤波器尺寸,并评估了网络深度和滤波器尺寸的影响.R.Yin 等人[9]使用RadioML2016.10a 数据集对传统的基于高阶累积量的神经网络和深层神经网络(deep neural network,DNN)进行了性能比较,仿真产生了包含19 种数字调制信号的数据集,并在短时VGG 和短时ResNet 上进行了实验,结果比O’Shea获得了更好的优势.S.Rajendran 等人[10]提出了一种基于长期记忆网络(long short-term memory,LSTM)的数据驱动调制分类模型,该方法的直观性是基于不同的调制类型表现出不同的幅度和相位特性,能够有效地学习这些时间相关性.Y.Lin 等人[11]提出了一种新的基于激活最大化的滤波器级修剪技术,省略了不太重要的卷积滤波器,该方法考虑了深度学习部署设备的资源约束,与其他方法相比,通过基于激活最大化方法修剪的CNN 可以达到相同或更高的分类精度.何荣荣等人[12]设计了一种基于软阈值的深度学习模型,在CNN 的基础上加入软阈值函数,将I/Q 数据转化为幅度相位信息作为模型的输入,CNN 用于提取幅度相位数据中的特征,软阈值学习网络可以针对不同特征设置不同阈值,用于滤除样本噪声,提高了低SNR 条件下的识别率.Z.Yin 等人[13]设计了一种基于等势星座图的CNN 深度学习模型,可以明显提升数字调制信号的识别率.
从近几年的相关工作可以看出,虽然基于CNN的自动提取特征分类算法牺牲了一定物理可解释性,但增强了信号特征的表示性,更加符合自动调制识别算法自主性、智能化的追求.然而,由于不理想信道,信号在传输过程中存在多径衰落、阴影衰落、多普勒频移等现象[14-16],加上环境中的噪声,限制了调制识别的分类精度,进而导致了低SNR 下的调制识别充满挑战,也是调制识别中的热门研究课题.因此,本文针对原始的I/Q 序列信号,在一维CNN 模型中引入了一个即插即用的注意模块[14-19]来提高精确提取特征的能力,从而提高了模型在低SNR 条件下的正确识别率.
众所周知,CNN 作为生物学启发人工智能较为成功的案例之一,其从神经科学实验开始,比相关的计算模型发展得早.得益于其优异的特征提取能力,CNN 近些年在图像识别、语音识别、目标检测等领域均得到了非常成功的应用.在CNN 的传输计算中,使用原始图像作为输入,通过卷积层、池化层对图像提取特征,降低了特征图尺寸,同时也降低了全连接层中需要训练的参数量,加快了训练过程,并且训练的网络模型具有平移、缩放和旋转不变性特点,增强了网络泛化性能.本文提出了一种基于注意力机制的CNN 调制识别模型(sequential convolutionbased attention model, SCAM),并将其应用于处理原始I/Q 信号,利用注意力机制有效地从低SNR 情况下提取特征,提高了自动调制方式的正确识别率.
调制识别可以看作一个多分类问题,本文以原始I/Q 信号作为输入,通过神经网络提取特征后进行调试方式的识别.假设基带时间序列为s(n)、加性高斯白噪声为g(n),接收到的采样信号如下:
式 中:A表 示 幅 度 系 数;f0表 示 频 率; θ0表 示 相 位;g(n) 表示均值为0 方差为的复加性高斯白噪声.
CNN 中存在着空间(Spatial)和通道(Channel)的概念.然而,不是特征空间中每个区域都有助于提取最终信息,并且每个特征通道的重要性也是不同的.因此,对于原始的I/Q 序列信号,本文设计了如下的一维CNN 结构及相应的注意力机制,从而可以有效地利用不同空间和通道中的特征信息,帮助CNN 更好地完成干扰信号的调制模式识别任务.具体的注意力机制网络结构如图1 所示,给定输入的特征向量表示为F=RS×C,其中S表示空间维度,C表示通道维度.
图1 基于一维CNN 的注意力机制网络结构Fig.1 Attention structure based on one-dimensional CNN
通道注意力模块输入的特征向量F首先在空间维度S上进行两种不同方式的池化(最大化池化和平均池化),得到两个池化后的特征向量ax=MaxPool(F)∈R1×C和=AvgPool(F)∈R1×C,并 将 两个特征向量分别经过一个三层的全连接网络进行映射.该全连接网络的输入输出层维度均为C,中间隐层的维度设置为C/8.具体表示如下:
空间注意力模块输入特征向量在通道维度C上经过两种不同形式的池化操作(最大化池化和平均池化),得到两个池化后的特征向量=MaxPool(F)∈RS×1和=AvgPool(F)∈RS×1.将得到的两个特征向量进行拼接后,利用一维CNN 进行特征提取.其中一维CNN 的卷积核宽度为2,步长为1.最终空间注意力模块的输出可以由输入的特征向量与注意力权重向量进行点乘得到,具体形式如下:
在具体的网络实现中,两个注意力模块中的激活函数 σ (·)都采用Sigmoid 激活函数.
本文提出的基于I/Q 序列信号的SCAM 结构如图2 所示.
图2 基于I/Q 序列信号的SCAM 结构Fig.2 Structure of modulation recognition model based on I/Q sequence signal SCAM
在本文基于I/Q 序列信号的SCAM 中,采用了和ResNet 类似的网络结构设计,SCAM 共由5 个卷积注意力模块(Block)组成.在每个Block 内部,输入的特征向量Fin∈RB×C×H×W会先后经过两组BatchNorm和1D-CNN,其中B为样本维度,C为通道维度,H为特征向量的高度,W为特征向量的宽度.每一个Block 的具体网络表示形式如下:
该网络卷积核的宽度为3、步长为1、激活函数为 ReLU(·),采用zero-padding 的操作保证卷积前后向量维度的一致性;同时还采用short-cut 的网络结构,将输入特征向量Fin直接加到隐层特征向量Fhid上,从而有效缓解了梯度消失的现象,并且保留了更多原始特征的信息,进而提升了特征向量的表征能力,具体的short-cut 网络形式如下:
其中的卷积操作是为了保证 C onv(Fin)和Fhid的通道数一致,从而便于进行特征的相加操作.最终经过激活函数得到Block 的输出Fout,再将其通过MaxPool 操作对特征维度减半后作为下一个Block 的输入.具体的Block 结构中,基于I/Q 序列信号的调制识别模型采用的通道数分别为[64, 128, 256, 512, 512].
为了对原始I/Q 序列信号的时域和频域进行联合识别,本文对原始的I/Q 信号X∈R2×L(L为信号长度)和经过傅里叶变换的信号 FFT(X)∈R2×L分别利用SCAM 进行特征提取,并通过全连接层进行特征融合后进行多域联合识别,具体形式如下:
值得注意的是,本文所采用的特征拼接的方式对信号调制类型进行联合识别的模型框架,不仅仅局限于时域特征和频域特征的联合识别,还可以被拓展到其他多个域的联合识别,例如利用等势星球图提取的深度学习特征以及传统基于信号预处理和机理分析技术所提取的专家定义的特征.
如1.4 节所述,融合特征经过全连接层得到预测调制类别的Logics,再经过Softmax 激活函数得到调制类别的Probs,选择概率最大的类别作为模型预测结果.其中Softmax 函数的原理为:每一个类别都有对应的特征值,该类的特征经过一个exp 函数后占所有类别特征之和的比例可判定是这一类的概率.假设一个训练样本得到的最后一层特征为x1,x2,x3,...,xn, 则Softmax 分类器将该样本判为第i类的概率为
对于原始I/Q 数据,本文采用RadioML2016.10a 的公共数据集,由O’Shea 等人提供,其中包括11 种调制类型信号,分别为BPSK、QPSK、8PSK、QAM16、QAM64、GFSK、CPFSK、PAM4、WBFM、AM-SSB 和AM-DSB.每一帧信号包含128 次采样,被表示为2×128 的矩阵,其中2 个维度分别是复数信号的实部和虚部.该数据集使用功率延迟剖面、频率选择性衰落、本地振荡器偏移和加性白高斯噪声.样本的SNR 均匀分布在-20 dB 至18 dB 之间,步长为2 dB.
根据O’Shea 提供的数据划分,RadioML2016.10a 数据集共包含110 000 个训练样本和110 000 个测试样本,本文将训练样本进行再次划分,包含10 000 个验证集样本用于模型超参数的选择.
在训练过程中,本文采用学习率为10-3的Adam优化器对模型进行训练优化,选用类别标签的交叉熵作为损失函数,并且将Batchsize 设置为256,以便保证结果的可重复性以及论文结论的普适性.
如图3 所示,将基于CNN 的I/Q 序列调制识别模型[8]的识别结果标注为VT_CNN_Time,本文在此基础上引入频域特征,识别结果标注为VT_CNN_Time_Freq.基于I/Q 序列时域特征的SCAM 识别结果标注为SCAM_Time,引入频域特征后识别结果标注为SCAM_Time_Freq.图中调制方式识别率是统计平均结果.
图3 SCAM 与VT_CNN 单域和多域调制识别准确率对比Fig.3 Comparison of recognition accuracy of single domain and multi domain modulation between SCAM and VT_CNN
从模型复杂度角度分析,基线VT_CNN 的参数量为2.6 M, 而本文提出的SCAM 的参数量为3.9 M,虽然比VT_CNN 的参数量增加了50%,但是在人工智能大模型流行的当下,3.9 M 的参数量仍属于轻量化的模型,并不会消耗过多的计算资源.
从实验结果分析得到,SCAM 通过巧妙的网络结构设计,在调制类型识别方面,不论是单域还是多域情况下,识别性能整体上均优于传统的VT_CNN,即SCAM_Time 优于VT_CNN_Time,且SCAM_Time_Freq 优于VT_CNN_Time_Freq,在SNR 大于0 dB 的区间内,性能均有约10%识别率的提升.进一步分析还可以得到,通过引入频域特征进行多域联合调制识别,不论是传统的VT_CNN,还是本文提出的SCAM,性能都能够有进一步地提升空间,即VT_CNN_Time_Freq 的识别结果优于VT_CNN_Time,SCAM_Time_Freq 的 识 别 结 果 优 于SCAM_Time.整体来说,在SNR 大于0 dB 的区间内,相对于只利用时域信息的调制识别模型,在经过多域融合后,模型的性能均有明显的提升,同时验证了本文提出的多域联合调制识别方法的普适性和可拓展性,也启发着我们继续深入研究多域联合的可行性.
为进一步证明SCAM 在不同调制类型下的识别有效性,本文选择在几个SNR 下实验数据集上的识别结果,并以混淆矩阵的形式表示出来,如图4 所示.
图4 不同SNR 下SCAM 调制识别的混淆矩阵结果Fig.4 Results of confusion matrix of SCAM model under different SNR
通过分析图4 的结果可以得到:从整体上讲,随着SNR 的增加,本文算法的识别准确率逐渐提高,SNR 大于-5 dB 时,识别准确率可以达到50%左右;SNR 大于10 dB 时,识别准确率可以达到87%左右,证明了本文方法在低SNR 的情况下,相比于其他模型具有更高的自动调制识别准确率.具体来说,针对调制方式为8PSK 的样本,SCAM 的识别率随着SNR 增加提升明显,从SNR 为-4 dB 时的识别率低于50%,到SNR 高于0 dB 时的识别率高于90%.而针对调制方式为AM-DSB、QAM16 和QAM64 的样本,SCAM 的识别率随着SNR 增加提升不明显,尤其是QAM16 和QAM64较难区分,这也启发着我们引入更多域的特征去增强可分性,提升识别的性能.
针对低SNR 情况下如何提高自动调制识别准确率的问题,本文构建SCAM.该SCAM 通过在一维CNN 模型中引入注意力机制,能够在低SNR 条件下有效地提取原始I/Q 序列信号中的特征信息,并且对多域特征信息进行联合提取.经实验证明,不论是单域还是多域情况下,调制识别性能整体上优于传统的VT_CNN,在SNR 大于0 dB 的区间内,性能均有约10%的识别率提升,即所引入的注意力机制和多域特征融合的方式能够有效提高低SNR 下I/Q 信号的调制识别性能.下一步工作将在现有模型基础上扩展更多域特征进行融合,从而进一步提高识别准确率.