马子博,吴呈瑜,占 敖
(浙江理工大学 信息科学与工程学院,浙江 杭州 310018)
无人机在灾害抢险、航拍测绘等众多领域产生较大影响但对社会公共安全构成严重威胁[1],这使得无人机识别成为比较重要的研究任务。无人机的内在物理层模拟组件在制造过程中的细微差别会令无人机发射的射频信号携带非调制信号,它无关信号传递的内容,被称作通信的射频指纹[2],利用射频指纹的特性可进行无人机信号分类[3]。随着深度学习在机器视觉和语音识别方面取得的进展[4],将深度学习引入到无人机识别领域是当前的重要发展趋势,例如卷积神经网络(Convolutional Neural Network,CNN)的卷积层和池化层用于特征信息的提取,全连接层用于无人机信号的分类[5]。
文献[6]提出了采用分组卷积层来识别无人机,通过设计多级跳跃连接和多间隙机制防止梯度消失。文献[7]将无人机分类看作图像识别任务,功率谱密度图作为CNN的输入经交叉验证和独立数据集进行验证。文献[8]提出了信噪比(Signal to Noise Ratio,SNR)传感引擎、去噪引擎和具有混合精度卷积和内存访问的专用深度CNN相结合。上述提出的模型基于CNN,对无人机飞行模式都有超过90%的识别精度,算法性能明显优于传统方法。为了消除信号因随机因素产生的无关干扰和简化数据预处理,本文利用Savitzky-Golay进行平滑滤波提取信号特征。此外,为了在现有研究基础上进一步提升无人机的识别准确率和提高模型在真实场景的实用性,提出了D-A Xception CNN模型,模型中的空洞卷积能够有效降低模型的复杂度,DANet注意力机制能够有效提升识别的准确度。
本节介绍了用于本模型训练的公共数据集和用于无人机识别的网络模型,基于数据集在频域上处理无人机信号并生成能量谱图片,进行数据增强扩充数据集。
1.1.1 数据集
本文使用了公开数据集DroneRF[9],采集到的射频信号是2个工作频率在1.2~6 GHz、带宽为40 MHz的射频接收器通过拦截无人机与控制器之间的通信获得的。数据集中的无人机射频信号包括没有无人机存在的射频背景信号、Phantom连接控制器的射频信号以及AR和Bebop两个无人机各自开机、悬停、无视频飞行和录视频飞行4种模式的射频信号。数据集通过2个接收器拦截,每个片段由2个‘L’和‘H’的CSV文件构成。文件包含射频信号在时域内的幅值信息,每个文件包含100万个样本,其文件名以二进制唯一标识符BUI格式表述此文件中数据的详细信息。
原始数据集的信号类型数量如表1所示。由于AR和Bebop品牌的无人机出自同一公司以及同一无人机不同飞行模式等因素产生的射频信号相似性极大,利用此数据集给无人机识别技术增加了挑战性,极具研究价值且实用性较高。
表1 原始数据集的信号类型数量Tab.1 Signal type and number of original dataset
1.1.2 数据预处理
基于文献[6-8],本文采用CNN衍生出来的Xception改进模型进行网络训练,需要先对CNN输入的数据进行预处理。本文将训练网络的输入设定为每个信号一定频率内的能量谱密度,生成22 700张图像作为网络输入。
无人机发射射频信号有其频率范围,不同频率的响应不同。首先加载所有原始射频数据,经过傅里叶变换到频域后将样本间隔重新分割,再进行类聚合处理将各类信号分别存储。
设定频率采样点数,同时设定以fs/(M-1)为间隔的能量谱密度图的横坐标范围,fs为采样频率,M为样本间隔。计算随频率变化的信号强度,未经过平滑滤波一定带宽范围内信号强度如图1所示。
图1 未经过平滑滤波一定带宽范围内信号强度Fig.1 Signal strength within a certain bandwidth without smooth filtering
需对频域上的样本进行平滑处理来提高能量谱的平滑性,并进行归一化处理。平滑处理采用的是Savitzky-Golay[10]平滑滤波,对设定的窗口长度内部的样本点采用n阶多项式拟合[11]。
将窗口内以i=0的中心数据设为x[i],i=-m,…,0,…,m,i,构造n阶多项式拟合用于拟合数据,则:
(1)
式中,bn0,bn1,…,bnn为系数。
计算原各点数据与拟合各点数据的残差平方和:
(2)
拟合效果与残差平方和成反比,已知拟合的点数m,多项式的阶数n以及所需拟合的数据x[i],为了拟合效果最好,需求偏导:
(3)
可得,
(4)
式中,r=0,1,…,n。
上述所求拟合多项式是求取x[i]的窗口内中心点的估值。之后通过不断移动窗口则可获得后面的求取结果。对原始数据进行一次FIR滤波,输入与滤波器的单位冲激响应进行卷积可得式(5),由式(5)获得卷积系数表,可快速得到x[i]的中心点的平滑值:
(5)
则,S-A平滑式如下:
(6)
平滑效果由长度窗口及K值(n取值范围决定)决定,平滑滤波后不同Window_size和K值的固定带宽下的信号强度如图2所示。
(a) Window_size=43,K=3
(b) Window_size=43,K=11
(c) Window_size=113,K=3图2 平滑滤波后不同Window_size和K值的固定带宽下 的信号强度Fig.2 Signal strength of different Window_size and K value after smooth filtering under fixed bandwidth
由图2(a)和图2(b)可知,固定窗口大小,设置不同K值,K值越大,曲线会越贴近真实曲线。由图2(a)和图2(c)可知,固定K值,设置不同Window_size,窗口过大会导致原始值过于平滑。为了更有效地拟合真实样本,长度窗口及K值分别设定为43,3。归一化的目的是固定信号强度的尺度。
先验经验表明,在激活函数及超参数设置合理的情况下,层数较深的网络会提高对任务的抽象程度,从而提取到更细微的特征。原始10类信号数据量不均衡的问题会导致训练的模型泛化能力变差。此外,训练的数据较少会导致近似值不佳等问题,产生过拟合现象的概率提升。因此,需要进行数据增强,扩充数据集,增加训练数据的数量和多样性。对训练数据进行适当处理,网络模型会对某些属性的依赖降低,即通过使用图像处理方法,进行数据增强使各类数据集达到平衡,提高模型的鲁棒性。本文对22 700张能量谱图像添加高斯噪声和椒盐噪声,并将补充后的数据集分为训练集和测试集。
高斯噪声的概率密度服从正态分布,其概率密度为:
(7)
式中,z为均值;σ为z的标准差。图像的明暗程度由z决定。σ越大则数据越分散、噪声点数则越多。
椒盐噪声为图像上随机出现的黑白像素点,其由信号脉冲强度所引起,由SNR指定。随机获取加噪的像素位置并指定像素值为0或255。
数据扩充后用于网络模型训练的数据集信号数量如表2所示。
表2 数据增强后各类信号数量Tab.2 Number of signals after data enhancement
D-A Xception网络模型以Xception[12]为基础进行改进,结合了空洞卷积[13]及DANet[14]注意力机制,模型结构如图3所示。
图3 D-A Xception网络模型结构Fig.3 D-A Xception network model structure
Xception是在Inception V3[15]的基础上改进的。Xception网络结构由3个部分组成:第1部分进行下采样,用于空间维度的减少;第2部分进行特征的分析和过滤;第3部分用于将特征进行汇总和整理。引入的残差学习令模型加快收敛速度,选择此模型作为基础网络的目的是使网络结构变得轻量化,减少存储空间但不影响模型的表达能力。
1.3.1 空洞卷积
为了在不增加网络模型复杂度的同时提升模型效率,需要在计算资源有限的前提下保持卷积核数量和大小,空洞卷积能够解决该保持问题。此外,CNN存在局限性,如卷积核的尺寸除全连接层外通常小于输入图像的大小,则特征图表征为局部特征,感受野也会受到限制。采用空洞卷积能够扩大感受野且不需额外参数。空洞卷积的卷积操作需在卷积核之间加入零值像素点,其感受野n计算如下:
n=k+(k-1)*(d-1) ,
(8)
式中,d为扩张率;k为原始卷积核大小。
经过空洞卷积后的特征图大小o计算如下:
(9)
式中,s为步长;i为输入空洞卷积的大小;p为padding大小;k为卷积核大小。
1.3.2 DANet注意力机制
无人机识别任务是特定辐射源识别的一种特例,一些特定辐射源识别的研究将注意机制结合深度神经网络,可以有效提高识别准确度。文献[16]针对信号中的隐藏特征,结合基于稀疏表示的分类(Sparse Representation based Classification,SRC)使用具有不同滤波器长度的卷积从原始自动识别系统信号中提取具有多种分辨率的潜在特征,将信道注意力机制引入多尺度CNN用于识别12个辐射源器件,精度超过94%。
DANet注意力机制包含位置注意力机制模块和通道注意力机制模块。DANet在自注意力机制基础上捕捉2个模块的依赖关系。位置注意力机制聚焦在特征图无关距离的任意2个位置的空间关联。通道注意力机制映射所有通道之间所强调的相关特征,令2个位置特征相似性的权重增加,关联2个注意力模块提升模型对细微特征的提取能力。DANet解决了同一类别由于卷积生成的局部感受野的特征图存在不同特征性的问题,进而降低了网络识别效率。
输入的特征图A尺寸为C×H×W,则位置注意力特征图为:
(10)
式中,RN×N为N×N的二维矩阵;B,C,D为A分别通过3个卷积层得到的3个特征图;sji表示i,j两个位置之间的相关性,相似性与值成正比;N为像素数量,N=H×W,
位置注意力的特征图是原始位置与通过位置注意力模块输出结果的加权和:
(11)
式中,α为尺度系数,初始化设置为0,通过不断学习权重变大;RC×H×W为C×H×W的三维矩阵。
通道注意力特征图为:
(12)
式中,xji表示i,j两个位置之间的相关性,相似性与值成正比;RC×C为C×C的二维矩阵,设β为通道注意力的尺度系数,则计算输出为:
(13)
通道的特征结果E实现对特征图之间依赖关系的建立。因为Xception的中间部分作用为特征之间的关联及优化,将图3中红色虚线边框引入DANet部分。在网络训练参数增加率较小的条件下,增强了局部特征的表达能力,突出了通道之间依赖相关性,因此能够在基本不增加网络复杂度的前提下提高模型的效果。
本实验模型的环境如表3所示。
表3 实验环境Tab.3 Experimental environment
实验训练了使用相同数据集的InceptionV1[17],InceptionV3,Resnet18,ResNet50,Xception和D-A Xcep-tion共6个网络模型。
6个网络模型的训练准确度对比如图4所示。由图4可以看出,本文提出的D-A Xception网络模型能够获得比较稳定的训练准确度。在训练模型过程中采用十倍交叉验证法,充分利用数据集降低因各种因素导致的偶然性从而避免模型训练误差,对超参数和稳定模型进行选择。
图4 训练准确度对比Fig.4 Comparison of training accuracy
6个网络模型的测试准确度对比如图5所示。
图5 测试准确度对比Fig.5 Comparison of test accuracy
由图5可以看出,D-A Xception在迭代次数之间有波动,并在第12次迭代达到收敛。出现波动的原因是由于一个batch是在数据集中随机抽取,在这一个batch中样本特征都非常近似,但是在下一个batch中样本的特征与之前的特征差异较大,所以会出现这种波动情况,这种波动模型会根据损失函数来不断学习及调整。
实验结果进一步验证了本文提出的D-A Xception网络模型相比其他使用同一数据集的网络模型能够获得更好的识别精度,准确率对比如表4所示。
表4 准确率对比Tab.4 Accuracy comparison 单位:%
为了验证模型优化的有效性,进行网络模型的消融验证。数据集的每类数据中随机抽取500张未训练的数据用于测试,实验结果如图6所示。
图6 消融实验Fig.6 Ablation experiment
由图6可以看出,原始的基础网络Xception在准确率和模型收敛速度上低于其他3个网络模块。在没有加入空洞卷积的模型中和没有加入DANet的模型中,其准确率和收敛效果虽然高于基础模型,但是低于本文提出模型的效果,具体准确率如表5所示。
表5 消融实验Tab.5 Ablation experiment 单位:%
Recall指的是被预测为正样本的占总的正样本的比重,Precision指预测准确的样本比例,F1-score指的是对Precision与Recall进行平均的一个结果。综合指标如表6所示(表中信号类型对应表2中的无人机10种飞行模式)。
表6 综合指标Tab.6 Comprehensive indicators 单位:%
(14)
(15)
(16)
统计Precision,Recall,F1-Score的Macro avg和Weighted avg。Macro avg是对每类样本的Precision,Recall,F1-Score加和后求平均;Weighted avg是每个类别样本数量在总样本中占比,如表7所示。
表7 10类信号的Macro avg 和Weighted avgTab.7 Macro avg and Weighted avg of ten kinds of signals 单位:%
D-A Xception 网络模型混淆矩阵如图7所示。混淆矩阵用于本模型的评估,矩阵的行代表预测类别,矩阵的列代表真实类别,显示为深蓝色的对角线的单元格表示正确分类,而随着颜色变浅则代表错误分类的占比。
图7 D-A Xception 网络模型混淆矩阵Fig.7 D-A Xception network model confusion matrix
本文提出的D-A Xception网络模型识别效率较高,平均每类识别率为99.58%。
在对原始数据集进行扩充后,InceptionV3,InceprionV1,ResNet50,ResNet18仍出现训练误差和测试误差之间差距过大现象,这种现象称为过拟合。进一步说明网络结构、网络深度、神经元数量复杂度高。在相当有限的数据集情况下,网络模型的复杂度较高就会过度学习训练,从而不自觉地获取隐藏在数据中的冗余信息,当在使用未训练过的数据测试模型效果时,由于模型泛化能力差就会导致效果不佳并且会产生激荡现象。图6的消融实验有效验证了D-A Xcetption模型的性能,其与Xception引入的空洞卷积和注意力机制本身轻量化结构有极大关系。
本文提出基于D-A Xception的无人机分类识别模型,依靠空洞卷积扩大感受野及DANet注意力机制捕捉特征的相关性,经模型训练后,可以快速对未经过训练的数据样本进行分类。基于公开无人机数据集DroneRF,数据集中的某种无人机飞行模式的射频信号虽然与来自同种飞机的另一种飞行模式产生的射频信号在随频率变化的能量谱密度图上相似度极高,但算法依然保证了较高的识别准确率。
本文为了使模型具备较强的实用性,尽量控制网络参数的增加来改进现有网络。为了不降低模型性能,对现有数据集进行预处理,突显射频信号的特征以便于网络提取特征,并通过扩充训练数据样本提高模型泛化能力。