基于特征融合的自动调制识别方案设计*

2020-12-23 06:11陈昱帆李淑丰彭云飞

通信技术 2020年10期

陈昱帆，邵尉,李淑丰，彭云飞

(陆军工程大学，江苏南京 210007)

0 引言

随着无线电通信技术的发展，电磁环境日益复杂多变，无线电信号急剧增多，信号的调制方式也日趋复杂多样。因此一个以数据为驱动的高精度调制识别方法对于无线电监测等部门来说是至关重要的。然而传统的以人工特征提取为核心的调制识别算法不仅无法利用大量涌现的通信信号数据，而且识别精度也不够理想。因此，基于深度学习的识别方法是目前自动调制识别(automatic modulation classification,AMC) 领域的研究热点。

随着深度学习的发展，科学技术的各个领域都有了明显的进步，人们的生活发生了巨大的变化。特别是在自然语言处理(natural language processing,NLP) 和计算机视觉(computer vision,CV) 领域，深度学习表现出了良好的性能。近年来，许多研究人员将深度学习方法用于解决无线通信中的各种问题，并取得了一定的成功。基于深度学习的自动调制识别算法不仅克服了传统方法无法利用大量通信数据的缺点，而且使得通信系统可以很好地识别复杂多样的调制方式，并取得良好的分类表现。作为无线信号自动调制分类的一种典型方法，传统的机器学习算法如神经网络和支持向量机(Support Vector Machine,SVM)可用于特征识别和调制模式分类。与SVM 等需要人工提取特征的机器学习方法相比，研究人员发现多层卷积神经网络(convolutional neural network,CNN) 可以达到更高的分类精度[1]。O’shea 等人比较了几种深度神经网络在调制识别中的性能，首次提出分类精度不受网络深度的限制[2]。文献[3]提出了一种基于小样本的卷积调制自相关网络，该分类模型不仅节省了大量的计算开销，同时实现了在小样本条件下的高识别水平。

Hao Wu 等人在文献[4]中分别提取了调制信号的星座图和循环谱作为对数据的预处理，并将这两种特征作为双通道CNN 的输入，在计算复杂度较低的情况下达到了良好的分类效果。而S.Rajendran 等人在文献[5]中提出将IQ 数据转换为幅度相位信息（Amplitude phase,AP）之后，使用简单的长短时记忆（Long Short-Term Memory,LSTM）模型就能达到很好的精度，该模型不需要人工提取星座图和高阶循环矩等专家特征，即可从训练数据中得到信号的时域幅值和相位信息。在开源数据集RML2016.10a[6]数据集测试表明，在0-20dB 的信噪比条件下，该模型的平均分类准确率接近90%。该文进一步探讨了LSTM 模型在可变符号速率场景中的效用。证明了基于LSTM 的模型可以很好地学习变长时域序列的表示，这对于不同码率调制信号的分类是有用的。也能在大型分布式低成本传感器节点网络中实现调制分类的LSTM 模型的实例化。

图1 基于特征融合的AMC 方案图

用于训练的通信数据是时间序列信号，其中CNN 主要能够较好地捕获多组信号数据之间的特征，但是无法很好地学习到每一组信号内部的数据的前后关联性，LSTM 则擅长学习到每一组信号内部的前后相关性。因此CNN 和LSTM 对于AMC 而言是具有互补性的。对于调制信号而言，能够双向提取数据的语义依赖更加有利于捕获到信号的调制信息。然而LSTM 只能单向提取信号的语义信息，双向长短时记忆（Bi-directional Long Short-Term Memory，BiLSTM）不仅具有与LSTM 相同的优点，而且可以对信号数据进行双向语义信息提取，有效地提取全局瞬时特征。针对AMC，本文设计了一个特征融合方案如图1 所示，方案包含两个分支模型:基于注意力机制的双向长短时记忆模型（Attention mechanism based BiLSTM,AMb BiLSTM）与基于多尺度特征提取技术的卷积神经网络（Multi-scale feature extraction CNN,MFE CNN）。AMb BiLSTM 首先从IQ 数据中提取幅度相位信息，并使用结合了注意力机制（Attention mechanism,AM）的BiLSTM进行瞬时特征提取，这一分支主要负责提取调制信号内部的语义信息。MFE CNN 首先使用CNN 分别提取数据的浅层特征和深层特征，从而实现多尺度特征提取。这一分支主要负责提取同一调制方式的多组信号之间的重复特征（Local repeat features），然后将两分支提取到的特征进行融合并得到最终的分类结果。

图2 AMb BiLSTM-AP 模型图

1 AMb BiLSTM-AP

在AMC 中，LSTM 和注意机制的结合具有良好的性能。LSTM 处理后的一些隐状态输出更好的学会了信号的调制信息。因此，设计的注意机制可以使所学习的调制信息的隐藏状态获得更高的权值，从而有效地提高所提的方案的性能。图2 中更加直观形象地描述了AMb BiLSTM-AP 模型，其中模型的第一部分是幅度相位信息提取模块，主要负责从IQ 数据中提取幅度相位信息，第二部分是AMb BiLSTM，该部分主要负责对从幅度相位信息中提取出该信号所属调制方式所包含的特征。

1.1 幅度相位信息提取

在AMC 研究领域，很多研究者尝试了各种数据预处理方法，其中对IQ 数据进行人工特征提取包含了提取星座图[7，8]、高阶循环谱[9]等方法，对识别率的提高带来了很大的帮助，同时这些方法也很好地解决了QAM16 和QAM64 易混淆的问题。但是较为复杂的预处理过程难免引入较高的计算复杂度。幅度相位信息的提取实际上是一种数据预处理方法。文献[5]指出不同的调制方式会体现在不同的幅度和相位信息中，这也是提取幅度相位信息进行训练的依据。相较于人工特征提取，幅度相位信息的提取更加简单易行，几乎不会带来多余的参数和计算复杂度。假设一组数据样本的长度为N，所提方案首先将IQ 信号转换为幅度相位信息，其中幅度为：

其中Ii与Qi表示样本中第i个数据，Ai表示第i个数据的幅度。接下来需要进行L2 范数归一化，其中第i个数据的幅度的L2 范数规定为：

自此，完成了第一步幅度相位信息的提取。

1.2 AMb BiLSTM

LSTM 是一种特殊的循环神经网络（Recurrent Neural Network,RNN）。一个LSTM 单元具有三种类型的门，遗忘门有条件地决定从单元中丢弃一些信息，输入门有条件地决定从输入中更新内存状态的值，输出门则有条件地进行输出。通过添加这三种门控机制，使得LSTM 能够很好地学习到训练数据的瞬时特征，学习到训练数据的前后关联性。同时LSTM 也解决了长序列训练过程中的梯度消失和梯度爆炸问题，因此LSTM 在长序列中会有更好的表现[10]。BiLSTM 有着LSTM 的诸多优势，同时它又能够双向提取数据的语义信息，对于AMC，能够提取到信号的全局语义信息更加有利于识别率的提升，因此BiLSTM 更加适合于AMC。

注意力机制最初被用于机器翻译[11]，现在已成为神经网络领域的一个重要概念。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。在人工智能领域，注意力机制已成为神经网络结构的重要组成部分，并在自然语言处理、统计学习、语音和计算机等领域有着大量的应用。对于AMC 而言，LSTM 的引入使得模型很好地捕获到调制信号的语义特征。假设输入进入BiLSTM 的数据长度为T，输入为：

接下来实现注意力机制，给出可训练参数向量为W1,偏置为b，则向量H变换为向量K：

其中W2n也是一个可训练参数向量，αn是一个长度为T 的向量，则αnt表示第t个LSTM 的隐藏状态的权值，所有权值之和为1：

通过训练得到权重向量之后，对LSTM 输出的隐藏状态进行加权，则输出的向量cn为：

2 MFE CNN

多尺度技术在目标检测，图像识别等领域有着广泛的应用，该技术能够很好地提升目标检测准确率和图像识别率。而IQ 数据本身可以表示成为星座图，如图3 给出了十一种调制方式的IQ 数据在SNR=18dB 时的星座图，因此可以使用处理图像的方式对IQ 数据进行处理。CNN 在多尺度技术的实现中主要有两个主要途径：

图3 IQ 数据在SNR=18dB 时的星座图

（1）第一种方法是将训练数据进行不同尺度的缩放，然后对每层图片提取不同尺度的特征，从而得到特征图，最后将每个尺度的特征都进行单独预测，该方法是改变输入数据的尺度从而提取不同尺度的特征。该方法的特点是不同尺度的特征可以包含丰富的语义信息，精度相较于不使用该方法有提高，但是运算速度相对较慢。

（2）第二种方法是采用多个不同卷积核大小的CNN 进行特征提取，同时利用CNN 提取不同层的特征然后进行合并，使得模型突破了CNN 的局部感受野从而具有更大的感受野。该方法的特点是可以将浅层特征与高层特征进行融合，使得模型感受野加大从而提高分类精度。在卷积神经网络的每一个卷积层上，卷积核在局部接受域内很好地融合了特征通道的空间上的信息，使得浅层卷积神经网络具有很好的局部感受野，能学习到更好地局部特征，随着网络的加深，浅层特征经过一系列的非线性激活函数和下采样操作，使得卷积神经网络的深层特征具有较好的全局感受野。而近期的神经网络模型的发展过程也表明了网络模型的提取特征能力可以通过在网络模型中精准的嵌入相应学习机制来改善，目前已有的改进技术有谷歌的Inception 系列的网络模型,Inception 模块通过在网络结构中嵌入多尺度特征提取方法来使得网络模型能够得到性能的提升。受到该思想的启发，所提方案拟在分类器中融合多尺度的信息，首先想要分类器具有较好的全局感受野但是由于自动调制识别任务中输入的信号序列本身包含了调制信息，而调制信息具有局部相关性，所以浅层网络提取的局部特征也是需要关注的，因此本文设计的MFE CNN 使用第二种多尺度融合技术。

3 参数设置与仿真分析

3.1 数据集简介与参数设计

为了方便评价和验证本文所提出方案模型的性能，本文采用开源无线电数据集RML2016.10a 进行实验，数据集包中包含有8PSK,AM-DSB,AM-SSB,BPSK,CFPSK,GFSK,PAM4,QAM16,QAM64,QPSK,WBFM 这十一种调制方式，信号数据被采样为IQ数据，共有220000 组。数据集的信噪比范围从-20dB到18dB，间隔为2dB。每一组调制信号的数据格式为2×128。数据采集中，信道环境模拟添加了中心频率偏移，采样率偏移，加性高斯白噪声，多径衰落等的影响。值得注意的是，数据集在产生的时候，为了便于应用在深度学习框架中，作者将每一组的128 个样本向量缩放到单位能量，能量归一化不仅消除了模拟产生的特征，还使得不同调制方式的信号都能取得相同的平均功率。

对于AMb BiLSTM 模型，首先设置一层BiLSTM，同时设置cell 个数为128。对于MFE CNN，在每一个卷积层之前添加Zero Padding 层，尺寸为0×2。设置{Conv1,Conv2,Conv3,Conv4,Conv5}五个卷积层的卷积核尺寸分别为1×3，1×8，1×8，1×1，1×8。卷积核个数统一设置为50，每一个卷积层中使用激活函数为ReLU，设置dropout 值为0.5。

3.2 仿真分析

本文首先将数据处理为幅度相位信息并作为训练数据对模型进行训练。在实验过程中对比了一层LSTM，添加注意力机制的一层LSTM，一层BiLSTM 和添加注意力机制的一层BiLSTM。本文没有选择增加更多的层数，因为在时间序列信号的处理上，LSTM 层数的增加会带来时间开销和内存开销的指数级增长。在实验过程中发现两层LSTM 带来了参数量的大幅度增加而没有带来更高的精度。当LSTM 的层数超过了三层，层与层之间的梯度消失情况变得非常明显，导致靠近输入层的LSTM 层更新迭代放缓，收敛效果和效率急剧下降，甚至非常容易进入局部最小的困境。

本文进行实验证明对于AMC，BiLSTM 的效果好于LSTM。图4 给出了单层LSTM 与单层BiLSTM的性能对比，从图4 可以看出在信噪比高于0dB 时，单层BiLSTM 性能好于单层LSTM。由细节图可以看出，单层BiLSTM 的最高精度比单层LSTM 高出0.52%。实验结果表明，BiLSTM 能有效提取调制信号的上下文信息，有助于分析信号的调制类型。

图4 单层LSTM 与单层BiLSTM 的性能对比图

图5 给出了基于注意力机制的一层LSTM，基于注意力机制的一层BiLSTM，一层LSTM 和一层BiLSTM 四种模型的分类精度对比。从图中可以看出注意力机制的引入导致分类性能明显提高，当信噪比处于0dB 到18dB 之间时，基于注意力机制的一层LSTM 平均分类精度达到90.34%，而基于注意力机制的一层BiLSTM 平均分类精度达到90.76%。从最高精度对比来看，基于注意力机制的一层BiLSTM 最高可达到92.09%的精度，而基于注意力机制的一层LSTM 的最高分类精度为91.92%。因此设置基于注意力机制的一层BiLSTM。

图5 不同模型的分类精度曲线图

本文设计的特征融合方案中使用CNN 的主要目的是提取信号之间的Local repeat features。图6给出了MFE CNN 与CNN 在AMC 上的性能表现，从曲线图中可以看出MFE CNN 在整个信噪比区间内都比CNN 表现更加好，其中MFE CNN 最高分类精度达到85.64%，而CNN 的最高精度只有84.21%。结果表明，多尺度特征提取技术对分类性能的提高有直接的帮助，也更加有利于提取信号之间的Local repeat features。

图6 MFE CNN 与CNN 的性能对比图

图7 Feature fusion-based AMC Scheme 与现有模型的性能对比图

上述实验对特征融合方案的两分支模型进行了分析，给出了本文所选模型的依据。图7 给出了本文提出的特征融合方案与现有的四个模型CNN,LSTM,ResNet,CLDNN 在AMC 上的性能表现。从图中可以看出CNN 的性能表现较差，最高分类精度只能达到80.2%，相较于CNN，ResNet 有着较高的精度，最高精度可以达到82.6%。而CLDNN 结合了CNN 与LSTM 进行特征提取，最高分类精度可以达到85.8%，但是由于输入CLDNN 的数据为原始IQ 数据所以LSTM 提取特征的效果较差。对于LSTM 模型，由CLDNN 的经验不再使用原始IQ数据进行训练，而使用幅度相位信息进行训练，得到的性能表现较好，最高精度达到了91.8%。而由于CLDNN 模型的第一部分是CNN，因此直接使用幅度相位信息进行训练CLDNN 也没有取得很好的效果。本文提出的特征融合方案很好地融合了LSTM 对幅度相位信息进行特征提取的优势和CNN对IQ 数据之间的Local repeat features 提取的优势，得到了较好的效果，最高精度达到了93.1%，图8 给出了在SNR=16dB 时取得最高精度的混淆矩阵。

图8 Feature fusion-based AMC Scheme 取得最高分类精度的混淆矩阵

4 结语

本文提出了一种基于特征融合的AMC 方案。在近期针对AMC 的研究中，深度学习已经取得了广泛的应用，其中基于CNN 的模型能够在不对数据进行任何预处理的情况下完成分类，这类模型的特点在于计算复杂度较低，能够很好地提取到信号数据之间的重复特征，但是难以提取到信号内部的瞬时特征和语义信息，导致识别精度不够理想。基于LSTM 的模型需要首先对数据进行简单的预处理之后完成分类，这类模型的特点在于识别精度较高，能够很好地提取信号内部丰富的语义信息，但是无法较好的提取到数据之间的重复特征。本文所提的基于特征融合的AMC 方案包含AMb BiLSTM 与MFE CNN 两种模型，前者首先从IQ 数据中提取出信号的幅度相位信息，进而利用基于注意力机制的BiLSTM 进行特征提取，很好地提取到了信号内部的语义信息。后者则利用基于多尺度特征提取技术的CNN 模型对信号之间的重复特征进行提取。本方案将两者的优势进行了结合。本文通过开源数据集RML2016.10a 对方案进行验证，在高信噪比条件下可以达到93.1%的高识别率。实验结果表明了本文所提的方案相较于传统的基于CNN 和基于LSTM模型在分类精度上有明显的提高。