基于随机森林的通信信号识别算法

2020-11-11 12:24占锦敏赵知劲王李军

杭州电子科技大学学报(自然科学版) 2020年5期

占锦敏，赵知劲,，王李军

(1.杭州电子科技大学通信工程学院，浙江杭州 310018;2.中国电子科技集团第36研究所通信系统信息控制技术国家级重点实验室，浙江嘉兴 314001)

0 引言

通信信号识别是通信侦察和认知无线电的重要技术之一，已有许多学者将机器学习应用于通信信号识别。文献[1]提取信号瞬时特征参数，利用支持向量机(Support Vector Machine，SVM)识别多电平幅度键控(Multiple Amplitude Shift Keying，MASK)，二进制频移键控(Binary Frequency Shift Keying，BFSK)，二进制相移键控(Binary Phase Shift Keying，BPSK)，最小频移键控(Minimum Shift Keying，MSK)，调频(Frequency Modulation，FM)和调幅(Amplitude Modulation，AM)信号；当信噪比达到10 dB时，信号正确识别率达到95%以上。文献[2]使用特征选择工具FEAST，从多个特征集中找出最能反映数据特征的特征子集，再通过SVM分类器识别BFSK，QPSK和BPSK信号；当信噪比达到20 dB时，信号正确识别率可达到98%以上。SVM分类器虽然对小样本、高维样本具有较好的分类效果，但计算量大，对数据预处理和参数调节要求高。随机森林(Random Forest, RF)分类器具有特征参数提取简单、计算量小、易于实现、对噪声容忍性好的特点。文献[3]提取信号5个瞬时特征参数，使用随机森林分类器识别MASK，MFSK和MPSK信号；在信噪比大于1 dB时，信号正确识别率达到96%以上。文献[4]选取3个信号熵作为特征参数，使用随机森林识别MFSK，BPSK，QPSK，正交幅度调制(Quadrature Amplitude Modulation, 16QAM)和MSK信号；当信噪比高于5 dB时，信号正确识别率达到95%以上。文献[5]通过多个高阶累积量组合构成特征参数，通过随机森林分类器识别MPSK，MQAM和多进制幅相键控(Multiple Amplitude Phase Shift Keying，MAPSK)信号；当信噪比高于-4 dB时，信号平均正确识别率达到95%以上。神经网络分类器预测准确，且不依赖人工特征提取，已有许多学者将其应用于通信信号识别。文献[6]提取MPSK信号循环谱的高等图二维特征信息，并作为卷积神经网络(Convolutional Neural Network, CNN)的输入进行训练和识别；当信噪比为5 dB时，信号平均正确识别率达到94%以上。文献[7]通过循环神经单元(Recurrent Neural Network, RNN)对信号时序进行深度特征提取，然后采用全连接神经网络对特征进行维度映射；信噪比为6 dB时，对BPSK，QPSK，8PSK和16QAM信号正确识别率达到98%。文献[8]使用长短期记忆网络(Long Short-Term Memory, LSTM)从时域提取信号序列的深层特征，实现端对端的信号调制识别；信噪比为6 dB时，对BPSK，QPSK，8PSK，16QAM和32APSK信号正确识别率达到98%。文献[9]采用CNN组成深层神经网络，再用LSTM替换CNN的全连接层，构建了一个端到端的通信信号识别模型；当信噪比大于0 dB时，对MPSK，双边带调幅(Amplitude Modulation-Double Side Band, AM-DSB)，单边带调幅(Amplitude Modulation-Single Side Band, AM-SSB)，连续相位调制(Continue Phase Modulation Phase Shift Keying, CPFSK)，高斯频移键控(Gauss Frequency Shift Keying, GFSK)，4电平脉冲幅度调制(Quadrature Pulse Amplitude Modulation, 4PAM)、MQAM和宽带调频(Wide Band Frequency Modulation, WBFM)信号正确识别率达到95%以上。文献[6-9]中，算法需要大量样本数据进行训练，训练时间长，复杂度高。上述文献都是针对常规调制通信信号进行识别，没有涉及扩频信号的识别。本文研究扩频信号和常规调制信号AM，FM，BFSK，QPSK及16QAM信号的识别。从低复杂度、低信噪比下高识别率出发，使用随机森林作为分类器，提取能区分AM，FM，BFSK，QPSK，16QAM，直扩(Direct Sequence Spread Spectrum, DSSS)和跳频(Frequency Hopping Spread Spectrum, FHSS)信号的3种特征参数，实现对扩频通信信号和常规通信信号的自动识别。

1 特征参数

占用带宽用于区分扩频信号与常规调制信号，峰度用于区分QPSK，16QAM信号与其他常规调制信号，零中心归一化瞬时幅度谱密度最大值可以对信号进行进一步分类识别。这3个特征参数能有效识别AM，FM，BFSK，QPSK，16QAM，DSSS和FHSS信号，很好地体现各信号之间的差异，易于提取，且计算复杂度低。

1.1 零中心归一化瞬时幅度谱密度最大值

零中心归一化瞬时幅度谱的最大值γmax表征信号瞬时幅度的变化情况，用于区分包络变化剧烈和包络变化微弱的信号[10]。定义如下：

(1)

1.2 占用带宽

占用带宽F指总功率99%的宽带占总带宽的比例，在占用带宽频率下限之下或频率上限之上的功率各等于总功率的0.5%。幅度谱的占用带宽可以用来区分宽带调制信号(即扩频信号)与窄带调制信号(即常规调制信号)。

1.3 峰度

峰度K表征概率密度分布曲线在平均值处峰值高低的特征数，用于区分信号幅度谱的峰度较低的QPSK，16QAM调制信号和其他信号。信号幅度谱的峰度定义如下：

(2)

式中，P为输入信号的幅度谱。

2 基于随机森林的信号识别算法

2.1 随机森林

随机森林是以自举汇聚法(bagging)为基础，由多个弱分类器(决策树)组成的强分类器[11]。首先，通过自助法(bootstrap)有放回抽样并构造子训练数据集，每个子训练数据集构造1个决策树，然后随机选取特征参数对决策树进行训练。每个决策树互不相干，判决时将多个决策树分类器的判决结果进行投票，得到最终结果。随机森林的识别性能高于单个决策树，并且克服了决策树的过拟合问题，同时由于采用随机采样，训练模型的方差小，泛化能力强，对缺失数据和非平衡数据比较稳健。随机森林基本模型如图1所示。

图1 随机森林基本模型

本文提出的随机森林算法采用基于基尼系数(Gini coefficient)的特征选择方法和分类回归树(Classification And Regression Trees，CART)决策树。基尼系数代表模型的混乱度，基尼系数越小，则混乱度越小。选择基尼系数最小的特征，使每个子节点的所有样本尽量都属于一个分类。概率分布的基尼系数为：

Gini(p)=2p(1-p)

(3)

对于样本集D，当遍历特征参数A的所有分割点之后，使用特征参数和阈值(TA)的关系(如A>TA)，将样本集D划分为两部分，即满足A>TA的样本集D1和不满足A>TA的样本集D2。在A>TA的情况下，样本集D的基尼指数为：

(4)

其中，Gini(D1)和Gini(D2)分别表示样本集D1和D2的不确定性，Gini(D,A)表示A>TA划分后集合D的不确定性。

CART决策树是一个二叉树，根据数据集因变量数值特性的不同，可分别构建回归树和分类树。分类树的构建方法如下。

(1)通过自助法得到子数据集，随机选取特征参数作为分类树节点的划分特征，对于选取的每个特征参数A，对其取所有可能阈值TA，计算由A>TA划分后的子数据集的Gini系数，选取Gini系数最小的特征参数及其对应的阈值作为该节点的特征分割点；

(2)如果节点中样本个数或树的深度到达要求，则分类树构建结束，并返回构建成功的CART决策树，否则对2个子节点递归执行步骤1。

2.2 识别算法

本文利用3个特征参数γmax，F和K，并通过随机森林分类器对AM，FM，BFSK，QPSK，16QAM，DSSS和FHSS信号进行分类识别。首先，对不同信噪比条件下各种信号进行功率归一化处理，提取信号的3个特征参数，组成随机森林的训练数据集和测试数据集；其次，通过自助法对训练数据集进行有放回抽样，构造子训练数据集，每个子训练数据集构造1个决策树，随机选取特征参数对该决策树进行训练；然后，生成多棵互不相干的决策树，由这些决策树构成随机森林；最后，对构成的随机森林对测试数据集进行分类识别，判决结果通过各决策树分类器多数投票决定。得到的基于随机森林通信信号识别算法模型如图2所示。

图2 基于随机森林通信信号识别算法模型

3 算法仿真与性能分析

3.1 仿真环境与信号数据集

本文通过软件MATLAB产生数据集并进行算法仿真实验，共7种待识别信号：AM，FM，BFSK，QPSK，16QAM，DSSS和FHSS信号，信号参数设置如下：码元速率为50 kHz，载波频率为1.55 MHz，采样频率为62 MHz。直扩信号调制方式为QPSK调制，采用周期为127的m序列作为伪随机码序列，伪随机码速率为635 kHz。跳频信号调制方式为BFSK，跳频频率最小间隔为310 kHz，跳频频率个数为64。噪声为零均值高斯白噪声，信噪比从-15 dB到5 dB，间隔1 dB。通过MATLAB产生训练数据集和测试数据集，不同信噪比条件下，每种信号产生2 000个训练数据和1 000个测试数据。

3.2 决策树数目对算法性能的影响

决策树数目以5为间隔从1到50取值，本文算法在整个测试集上所有测试数据平均正确识别率如图3(a)所示，算法运行时间如图3(b)所示。由图3(a)可以看出，信号平均正确识别率随决策树数目增加而提高，当决策树数目大于10时，增长趋于平稳。由图3(b)可以看出，决策树数目越多，仿真所需时间就越长。算法性能需要综合考虑识别率和算法运行时间，因此仿真中选取决策树数目为10。

图3 决策树数目对算法性能的影响

3.3 算法识别性能比较

本文算法的信号正确识别率随信噪比变化曲线如图4所示。由图4可以看出，当信噪比大于-1 dB时，本文算法对AM，FM，BFSK，QPSK，16QAM，DSSS和FHSS信号的正确识别率均达到100%。

信噪比为-10 dB到5 dB时，采用本文算法对上述7种信号进行识别，和仅对5种常规调制信号进行识别，采用文献[4]基于随机森林的算法对BFSK，QPSK，16QAM信号进行识别，采用文献[9]基于深度学习的算法对AM，FM，BFSK信号进行识别，分别得到的平均正确识别率如图5所示。从图5中可以看出，本文算法的平均正确识别性能优于文献[4]算法和文献[9]算法。

信噪比分别为-5 dB，0 dB和5 dB时，分别采用本文算法、文献[1]基于SVM的算法、文献[3]及文献[4]基于随机森林算法进行信号识别，结果如表1所示。从表1可以看出，在信噪比为0 dB时，本文算法对FM和BFSK信号识别率高于文献[1]算法；在信噪比为-5 dB和0 dB时，本文算法对BFSK信号识别率高于文献[3]算法；在信噪比为-5 dB和0 dB时，本文算法对BFSK和QPSK信号识别率高于文献[3]算法；并且本文算法还能够对扩频信号进行识别。

图4 本文算法的信号正确识别率

图5 不同算法的平均正确识别率对比

表1 不同算法的信号正确识别率对比 %

4 结束语

针对低信噪比条件下，扩频信号与常规调制信号调制方式识别效果不理想的问题，本文利用信号瞬时特征和频域特征构造3个特征参数，以随机森林作为分类器，通过仿真实验验证了算法的有效性。本文研究的不足之处在于特征参数的选取对信号调制识别性能影响较大。目前，深度学习能解决依赖人工选取特征参数的问题，但需要较大样本集进行训练。后期将对基于机器学习的信号调制方式识别算法展开深入研究。