李 辉,龚晓峰,雒瑞森
(四川大学 电气工程学院,成都 610065)
自动调制识别(Automatic Modulation Recognition,AMR)作为信号检测和解调之间的一个关键步骤,在军事和民用领域都扮演着很重要的角色。但随着近年来无线通信技术的不断发展,信号调制方式变得越来越复杂和多样化,无线电环境变得越来越恶劣,信号的调制识别领域正面临着非常严峻的考验。
传统的调制识别方法可以分为基于似然函数[1-3]的调制识别算法和基于特征[4-7]的调制识别算法两类。基于似然函数的方法需要对未知信号正确建模,将调制识别问题建模为多假设问题,通过比较似然比和预设阈值得到最终结果。然而,该方法依赖于先验信息,对似然函数模型的精度要求高且计算复杂。基于特征的方法是从信号中提取特征,然后使用分类器进行调制识别。与基于似然函数的方法相比,该方法具有较低的计算复杂度和较高的实用性。但是,如果提取的特征与分类器不匹配,识别结果就会很差。
近年来,随着人工智能的不断发展,深度学习在计算机视觉[8]、语音识别[9]和自然语言处理[10]等领域取得了优异的成绩,它也很自然地被引入到了调制识别领域。用深度学习进行调制识别的优点就是它能够自动提取信号的特征,通过训练神经网络得到分类器,不需要做复杂而困难的人工特征和分类器的设计,且相比于传统的调制识别方法具有更高的识别精度。将信号处理成同相(In-phase,I)和正交(Quadrature,Q)分量并用深度网络对其进行特征提取是最为常见的一种方法。文献[11-15]的方法都是将信号处理成时间序列的形式,此外也有许多研究将信号表示为图片形式[16-19]。使用时频图的好处是其同时反映了信号在时间维度和频率维度的变化,将时域和频域特征一一对应了起来。而文献[16-19]中基于时频图的调制识别方法虽然已经达到了不错的分类效果,但都是将时频图当作普通图片进行处理,把调制识别问题简单地转化为图像分类问题,忽略了时频图在时间和频率维度上的意义和内在关联,从而导致了具有相似特征的不同调制类型被混淆。
针对输入时频图的方法存在的问题,本文提出一种基于时频融合的深度学习调制识别算法。首先将IQ信号转换为时频图,时频图包含了信号的时间和频率特征,然后利用两种一维卷积分别提取时间和频率特征,同时通过计算时间和频率维度上的权重来突出重要的时间和频率特征,最后使用基于压缩和激励网络的融合策略(Squeeze-and-Excitation Network,SENet)[20]来捕获时间和频率特征之间的内在相关性,实现特征融合。运用此算法在RadioML2016.10a数据集[21]上进行预测,获得了最高92.5%的准确率。该算法能够充分利用自身结构特点,探索信号时频特征之间的协同作用,并获得可靠的预测结果。
传统的通信信号调制分类方法通常使用时间序列或从时域信号中提取的瞬时特征、累积量特征和循环平稳特征作为分类的基础。然而,时域信号信息无法反映所有信号特征,它还容易受到噪声的影响,从而导致不好的分类结果。因此,有必要通过时频分析[22]提取特征。在数据预处理阶段,使用谱图来获取信号的时频信息,谱图是通过计算信号的短时离散傅里叶变换(Shrt Time Fourier Transform,STFT)的平方幅值获得的。设x(n)表示源信号,w(n)是窗函数,因为接收到的信号被表示为离散的数字序列,通过应用STFT可以得到一个频谱序列S(τ,k),表示为
(1)
时频谱图的定义为STFT模长的平方,它同时具有时间和频率的联合分布特征,表示为
F(τ,k)=|S(τ,k)|2
(2)
在本文中,所有调制信号的采样点数都为128。在进行时频变换时,窗函数使用的是长度为40的汉明(Hamming)窗。以调制类型为8PSK、GFSK、PAM4和WBFM的信号为例,图1展示了这4种制式的信号在信噪比为18 dB下的时频图。
(a)8PSK
(b)GFSK
(c)PAM4
(d)WBFM图1 4种调制信号时频图Fig.1 Time frequency diagram of four modulated signals
为了降低网络计算复杂度,所有图片在送入深度网络之前使用最邻近插值法将图片尺寸调整为64×64×3。
时频图同时反映了信号的时间信息和频率信息。为了对这些信息进行有效的利用,提高识别性能,本文提出了一种能够提取信号时频信息的模块。图2(a)和图2(b)展示了时频特征的提取过程,图中的H,W,C分别表示输入特征图的高度、宽度、通道数。对于输入尺寸为H×W×C的特征图,分别通过时间和频率特征提取两个子模块来提取重要的时频信息Ft和Ff。
(a)时间特征提取
(b)频率特征提取图2 时频特征提取Fig.2 Time frequency feature extraction
首先通过两个一维卷积来分别提取时频图的粗略时间特征Mt和频率特征Mf。尺寸为n×1的卷积核能更加关注信号在同一时刻处能量的变化,而尺寸为1×n的卷积核能更加关注信号在同一频点处能量的变化。在得到Mt和Mf之后,分别计算特征图在时间和频率维度上的权重信息,其尺寸大小分别为1×W×1和H×1×1。随后通过Sigmoid函数将权重值映射到0~1之间,最终得到wt和wf。这两部分权重记录了重要的时间信息和频率信息的位置。将时间权重wt与时间特征Mt按元素相乘就得到了突出时间信息的特征Ft。同理,将频率权重wf与频率特征Mf按元素相乘就得到了突出频率信息的特征Ff。其计算的具体过程表示为
Ft=σ(AvgPoolt(Mt))⊗Mt
(3)
Ff=σ(AvgPoolf(Mf))⊗Mf
(4)
式中:AvgPoolt表示沿着时间刻度方向做全局平均池化;AvgPoolf表示沿着频率刻度方向做全局平均池化;σ表示Sigmoid函数。
特征Ft和Ff分别反映了时频图中的重要时间和频率信息,以图1(c)中的PAM4类型的调制信号为例,图3(a)和图3(b)展示了该信号在经过时频特征提取后得到的时间特征Ft和频率特征Ff。
图3 时频特征图Fig.3 Time frequency feature map
图3中高亮的黄点表示重要的时间和频率信息,可以看出,Ft和Ff的侧重点有所不同,Ft主要关注重要信息所在的时间点,Ff主要关注重要信息所在的频点。时频特征提取通过突出重要时频信息的方式来学习更具有辨识度的特征,拉大各个调制样式之间的差异,从而提高识别准确率。
为了综合利用提取到的特征Ft和Ff,采用了基于SENet的融合策略,如图4所示。
图4 时频融合Fig.4 Time frequency fusion
首先将Ft和Ff按通道维度进行拼接,得到特征图Ftf,其尺寸为H×W×2C,然后对其进行全局平均池化操作,表达式如下:
(5)
式中:zc表示第c个通道uc的初始化权重值。由于Ftf中每个通道的作用不同,通过使用挤压和激励操作能够获取Ftf中不同通道时频特征的重要程度,再将得到的重要程度权重作用到相应的通道上,最终得到重构后的特征图,为分类器提供充分的信息。
本文所使用的网络结构如图5所示,它由3个1×1的卷积层、3个时频融合模块、3个池化层和1个全连接层组成。其中,使用1×1的卷积是为了在不改变特征图尺寸的情况下增加特征图通道数,丰富特征。时频融合模块用来提取并融合时频特征。池化层用来对特征图进行压缩,降低网络复杂度。
图5 总体框架Fig.5 Overall framework
网络的输入是64×64×3的时频图,3个1×1卷积层中使用的卷积核个数分别为16,64,256,填充方式均采用全零填充。所有池化层的大小均为2×2,步长为2。详细网络参数如表1所示。
表1 网络参数Tab.1 Network parameters
使用高质量的无线电类型模拟数据集RadioML2016.10a。一共包括8种数字调制和3种模拟调制信号。每种调制类型包含20种信噪比,间隔为2 dB,每个信噪比有1 000个样本。每个样本分为I和Q两个通道,每个通道包含128个样本,因此数据集的大小为220 000×2×128。为了更接近真实的信号,在数据集生成过程中添加了中心频移、信道衰落和加性高斯白噪声等影响因素。表2列出了该数据集的一些重要参数。
表2 RadioML2016.10a数据集参数Tab.2 RadioML2016. 10a dataset parameters
训练集和测试集按照8∶2的比例划分,通过深度学习平台tensorflow完成网络的搭建。训练和测试网络使用的服务器CPU为Intel(R) i5-7500,GPU为NVIDIA GeForce GTX 3070。
本文对时频特征的提取主要采用时频融合模块中的一维卷积,为了探究其尺寸大小对分类性能的影响,将1维卷积的尺寸n分别设置为2,4,6,8,图6中展示了使用不同尺寸的一维卷积时网络的识别结果。
图6 不同卷积尺寸下网络的准确率Fig.6 The accuracy of network under different convolution sizes
如图6所示,当卷积尺寸从2调整为4时,卷积感受野变大,获得的全局特征更完善,网络性能有所提升,并且达到最优。当继续增大卷积尺寸时,网络性能未见提升甚至出现下降,这是由于大尺寸的卷积对于低维度的特征提取能力不足,并且过大的感受野会忽略特征的细微变化,从而丢失重要信息。因此,在综合考量了网络性能和网络复杂度之后,本文将一维卷积尺寸大小设置为4。
为了探究所提出的网络对时频特征综合利用的效果,进行了3组实验来进行测试,分别是只提取时间特征的情况、只提取频率特征的情况和提取时频特征并融合的情况。图7展示了3组实验的识别结果。
图7 提取不同特征下网络的准确率Fig.7 The accuracy of the network in extracting different features
由图7可知,本文所采用的对时频特征进行融合的方法明显优于只单独使用时间特征或频率特征的情况,其平均分类准确率要比提取单一特征时高出2.3%以上。这表明网络确实能够提取出时频特征之间的关联信息,从而提高网络的识别准确率。
为了进一步分析本文网络的性能,将本文所提的网络与文献[12]中的ResNet-IQ和DenseNet-IQ、文献[13]中的IQCNet、文献[15]中的基于特征融合的AMR方法(Feature Fusion-Based AMC Scheme,FFBAS),以及文献[16]中提出的CNN-SPWVD方法进行比较。图8展示了这6种网络模型在不同信噪比下的识别准确率。
图8 6种模型的准确率Fig.8 The accuracy of six models
从图8中可以看出,本文所提模型在信噪比大于-6 dB时明显优于其他方法;在0 dB时,总体识别准确率达到85.3%,相较于其他方法高出3%以上;在16 dB时,总体识别准确率达到最高的92.5%,相较于其他方法高出2%以上。
6种网络的复杂度如表1所示,可以看出,FFBAS网络参数量最大,这是因为该网络是一个双分支的并联结构,在结合各个支路优势的同时也带来了参数量和时间的开销,但是其平均分类准确率仅次于本文提出的网络。IQCNet网络参数量最小训练时间也最快,这是因为该网络主要针对实际应用场景的部署问题,为了满足运行实时性,网络参数和运行时间应尽可能地小,但是准确率就有所下降。本文提出的网络参数量在6种网络模型中是第二大的,这是因为使用了3次时频融合模块,导致复杂度上升,而为了充分利用时频信息这又是必要的,如何降低网络参数量也是后续要考虑的问题。但是,本文所提的模型训练时间位于第二,相比于同为图片输入的CNN-SPWVD以及ResNet-IQ和DenseNet-IQ训练时间更短,模型收敛速度更快,说明所提方法确实能够突出重要的时频信息,使网络训练时只关注重要的特征,降低训练难度并加快收敛速度。
表3 6种模型的网络复杂度Tab.3 The network complexity of six models
为了分析本文网络对每类调制信号识别的具体情况,图9展示了其在信噪比为0 dB和16 dB时分类的混淆矩阵,每一行表示信号的真实类别,每一列表示信号的预测类别。
(a)0 dB
(b)16 dB图9 不同信噪比下分类的混淆矩阵Fig.9 Classification confusion matrix under different signal-to-noise ratios
从图9明显可以看出,本文算法对大部分的调制类型在中高信噪比时都能得到较高的识别率。但是,对AM-DSB和WBFM这两类制式的区分存在较大的困难,其原因是该数据集在产生WBFM这类信号样本时,使用人声信号来生成模拟信号,而人们在说话时会存在无声期,在无声期内只留下一个载波信号。因此,WBFM信号很容易被误识别为AM-DSB信号。此外,QAM类的信号也出现了少量误判,这是由于QAM类的信号相位差异细微,其星座点有重叠的部分,使得经过谱图分析之后得到的时频图相似度较高,进而导致误判。
本文提出了一种基于时频融合的深度学习调制识别算法,能够对11种不同类型的调制信号进行识别。该方法从生成的时频图中分别提取时间和频率特征,并通过时频融合模块学习时频特征之间的关联信息。在公开数据集RML2016.10a上进行实验,在高信噪比情况下识别率最高可达92.5%。实验结果表明,该算法充分利用了信号的时间和频率信息,使其相互补充,扩大不同调制类型之间的差异,从而得到了更好的识别性能。