葛听雨, 应雨龙, 王申华, 张菲菲, 李靖超
(1.上海电力大学, 上海 200090; 2.国网浙江武义县供电有限公司, 浙江 金华 321200;3.上海电机学院, 上海 200240)
近年来,无线通信网络加速构建,物联网飞速发展[1],推动了各领域的产业升级。作为物联网设备相互连接的起点,无线通信辐射源负责信息的交互传输,而无线通信辐射源识别是物联网安全的最重要一环。为了保障设备信息安全,阻止敏感信息泄露,构建有效的无线通信辐射源识别模型很有必要。除了携带表征含义的信息外,无线通信辐射源所发出的射频信号还富含射频辐射源本身的物理特征,通过射频信号统计量分析和谱分析能够提炼出无线通信辐射源的物理特征,使无线辐射源物理层认证成为可能。
以往的辐射源信号识别技术往往处于应用层,基于编码技术或是信道技术,容易受到窃听、跟踪、仿冒等诸多安全威胁[2]。应用层认证机制可以在一定程度上保障信息传输安全及终端设备身份认证,如轻量级射频识别认证方案、基于哈希消息认证码的轻量级密码认证方案[3]、基于节点微控制器实现低资源消耗的传感网密码算法[4]等。各类轻量级加密算法能在一定程度上满足物联网的认证安全,但面对大规模网络带来的认证数据,会大量占用物联网的计算资源,难以适应物联网设备本就稀缺的计算能力。此外,随着硬件计算能力的大幅度增强,引入了更多安全风险,非法人员很容易破解传统非动态加密的结点身份,假冒数据流的身份,导致数据被篡改、丧失终端控制权等安全问题[5]。面对物联网设备所具备的有限计算能力和存储空间,以及苛刻的资源限制需求,无线通信辐射源物理层认证相关技术的出现,突破了传统意义上物联网应用层的认证机制,可以低错误率、高效及低成本来完成通信辐射源的个体识别,确保物联网的安全稳健运行。
无线通信辐射源识别最早起源于特定辐射源识别,即将辐射源独特的电磁特性与辐射源个体关联起来的能力。2003年,加拿大的HALL J等人提出了射频指纹(Radio Frequency Fingerprint,RFF)这一概念[6],从发射机信号中提取一组具有差异性的细微特征集合,作为设备的物理层本质特征。现阶段工业制造技术所制造的发射机存在一定的缺陷,包括数模转换器中存在的量化误差和取整非线性误差[7],因IQ 路增益不平衡、相位不平衡、延时不平衡和载波泄露等原因引入非线性畸变[8],锁相环因混入谐波而造成的相位噪声[9]等。这些缺陷不会干扰正常的信息传输,但会对调制信号产生一定影响。相比于传统要求苛刻的物联网应用层认证技术,物理层认证能够有效抵御模仿攻击,具有认证速度快、计算复杂度低、多系统易移植的特点,无需考虑各种通信协议及编码设定。射频指纹的出现突破了一定的传统思维,使物理层的认证机制为无线通信安全再添一层保护。各类射频指纹提取算法成为近年热门的研究对象,尤其是对易于获取的稳态信号射频指纹的研究,如对于固有尺度分解提取出的信号特征,采取时频能量分布灰度图进行间纹理特征分析[10];改进双谱和时域分析相结合的方法来提取稳态信号中的射频指纹[11];基于时域特征、小波特征、短时傅里叶变换和维格纳分布的综合射频指纹提取方法[12]等。
本文提出了一种无线射频源识别模型。该模型基于轴向积分双谱(Axially Integrated Bispectra,AIB)、主成分分析(Principal Component Analysis,PCA)的特征提取理论及灰色关联分类理论,能够精确且高效地识别无线射频辐射源稳态信号,完成同厂同型号设备的认证。
中心压缩化是信号预处理的重要一环,根据后续要求裁剪接收机所接收到的稳态信号,能够保证数字信号特征提取的规范化、高效化。截取稳态信号(选取I路或者Q路信号)经重采样后,一定程度上减少了计算的复杂度,但因量纲原因,数值仍处于标准状态。不同的量纲可能导致方差差异过大,无法提取出射频指纹,导致无法进行后续计算。经由数据标准化处理(中心化-压缩处理)实现无量纲化,消除指标之间的量纲影响,以解决数据指标之间的可比性,适合进行综合对比评价。
设通信辐射源稳态信号为k,有限长数字序列为k(i),i=1,2,3,…,经中心化-压缩处理后数据为
(1)
双谱分析属于高阶统计量信号处理方法,更大程度上保留了信号的幅值和相位信息[13]。经裁剪后的无线通信源射频信号,若以传统的二阶统计量进行处理,则存在识别不出最小相位系统、对加性噪声敏感等缺陷。为能提取出无线通信辐射源的细微特征,本文以高阶谱中的双谱(三阶谱)作为射频信号处理。
设通信辐射源稳态信号对应的三阶累积量为
a3x=E{x*(i)x(i+τ1)x(i+τ2)}
(2)
式中:E——对应值的数学期望;
x*(i)——稳态信号的共轭;
x(i)——稳态信号;
τ1,τ2——延迟。
其对应的双谱(三阶累积量的二阶傅里叶变换)为
B(ω1,ω2)=
X(ω1)X(ω2)X*(ω1+ω2)
(3)
式中:B(ω1,ω2)——累积是a3x的双谱表示;
X(ω)——x(t)的傅里叶变换;
X*(ω1+ω2)——X(ω1+ω2)的共轭。
双谱变换能够有效保留信号的相位幅值特征信息,但由于无线通信源信号的双谱变换会直接导致计算复杂的二维模板匹配,引发“维数灾难”,在各类时效性要求高的项目中,无法达到目标要求。鉴于此,为克服信号特征值计算复杂的问题,添加积分路径,将二维特征值映射至一维特征。
积分双谱主要有径向积分双谱、轴向积分双谱(AIB)、圆周积分双谱和矩形积分双谱4种[14],分别沿着不同路径完成特征值降维。AIB具有良好的尺度变换性,在保留了双谱幅值信息的同时丢失了信号的部分相位信息。针对含幅值信息的样本集,可以采用AIB的方法完成二维特征至一维特征的映射。在双谱的双频率平面上沿平行与ω1轴或ω2轴的路径进行积分,如图1所示,即可得到AIB。
图1 轴向积分双谱AIB示意
稳态信号的AIB为
(4)
PCA是一种用于探索高维数据结构的技术。作为一种线性方法,它借助投影矩阵将高维度的信息数据映射到低维空间,通过协方差矩阵强大的分类特性,使之在所投影的维度上数据的方差最大,然后提取特征维度,形成一组新的相互无关(正交)的新特征代替原指标[15],消除无关冗余信息,保留出原数据的细微特征,最后在AIB的基础上进一步完成维数下降。假设样本矩阵为W,每一列是同一样本中经AIB处理过后的一维数据。
(5)
式中:n——特征点数;
m——样本数。
为了找到能最大化方差的投影矩阵,设原数据矩阵W的协方差矩阵为C,即
C=
(6)
协方差矩阵C为对称矩阵,主对角线上元素为样本内数据离散程度的表征,其余元素为样本间数据分类程度的表征。
为约束高维数据,重构数据值,通过特征根与特征向量的关系式推导出正交基,以线性关系映射至合理的特征空间。设协方差矩阵C满足
C×I=t×I
(7)
式中:t——特征值;
I——特征向量。
t=[t1,t2,t3,…,tn]
(8)
(9)
为达到射频指纹提取及降维,特征值t降序排列,取前x个特征值,并将对应的特征向量I对应排列组成转移矩阵T
T=[I1,I2,I3,…,Ix]
(10)
将原数据矩阵W经转移矩阵T投影后,得到新数据矩阵S
S=W×T
(11)
经PCA映射过的数据矩阵,数据特征得以重构,表现出类内数据离散特性及类间数据分类特性。
灰色关联分类器(Grey Relation Classification,GRC)是基于灰色关联度分析(Grey Relation Analysis,GRA)的多分类器。其基本思想是通过确定参考数据列和若干个比较数据列的数值相似程度来判断样本间的联系是否紧密,以反映类间的关联程度。
将关联系数和关联度作为类间区分指标。在非线性系统中,通过灰色关联度这一指标来获知不同特征对类间样本的影响程度。在无线通信信号识别中,GRA具有良好的特性,如强抗噪声性能、优秀的分类特性、高效的计算速度及简洁的模板数据库匹配能力[16-18]等。
设从无线通信辐射源提取待识别的特征向量为
(12)
式中:Bi——待识别的无线通信辐射源样本,i=1,2,3,…;
bi——某一测试样本特征参数。
设所建立无线通信辐射源特征向量模板为
(13)
式中:Cj——无线通信辐射源样本特征向量模板,j=1,2,3…;
cj——某一特征样本特征参数。
设灰色关联系数为ζ(bi(x),cj(x)),灰色关联度为ζ(Bi,Cj),则
(14)
(15)
式中:ρ——分辨系数,通常取0.5。
求得Bi与每一个线通信辐射源样本特征向量模板Cj(j=1,2,3…)的灰色关联度ζ(Bi,Cj),选取最大关联度,匹配至相应通信辐射源样本特征向量模板。
基于AIB-PCA-GRC的模型建立的射频信号主要分为如下7个部分:
(1) 采集接收机所收到射频基带信号,采集I/Q两路信号,选取I路或者Q路信号进行方差轨迹检测,以截取稳态信号片段;
(2) 信号数据进行降采样、中心化及压缩化处理,完成数据的预处理;
(3) 将数据以3∶2的比例分为训练样本和测试样本;
(4) 将用于训练样本的稳态信号片段进行AIB变换;
(5) 通过PCA降维得到多维特征向量模板;
(6) 将用于训练样本的稳态信号片段进行AIB变换及PCA降维;
(7) 运用GRC进行测试样本与模板样本匹配,实现物理层认证。
射频指纹认证模型整体构建如图2所示。
图2 射频指纹认证模型构建
本文以同厂家、同型号、同批次的100个WiFi网卡设备为例,基带信号采集设备为FSW26频谱仪,采集环境为实验室LOS,100个WiFi网卡为待检测设备,每个设备采集50个样本;信号采集带宽为80 MHz,每次采集1.75 ms,即每样本有140 000个样本点(以单路为例),其中经过方差轨迹检测除去信号噪声段的有效数据传输段为80 000个样本点(均为稳态信号),再对其进行切片(以40 000个点为新的样本)处理。切片信号波形如图3所示(以设备1样本1为例)。
图3 切片信号波形
为进一步减少计算复杂度,进行降采样处理,为1 334个样本点。重采样信号波形如图4所示(以设备1样本1为例)。
图4 重采样信号波形
将5 000个总样本按3∶2的比例随机抽取分为3 000个训练样本以及2 000个测试样本(100个设备分类情况下),由双谱变换提取双谱特征,由AIB完成二维至一维的映射,PCA降维特征提取射频指纹模板,再选择测试样本进行识别模板匹配测试。以下内容将围绕不同PCA降维点数、设备数量、添加不同程度的高斯白噪声以及不同分类算法对于模型效果的影响,设计最优参数并验证模型的高效性和精确性。同时,由于采用随机收取样本,所以在使用相同方法测试时,会出现3%左右的误差,但这在可接受范围内。
PCA降维参数选取过大则影响效率,选取过小则不能保障模型的感知能力[19]。为追求模型的最大效益,以20个设备的样本作为实验对象,每个设备所采集的样本数以3∶2的比例随机分成训练集和验证集,由PCA提取不同维数的射频指纹,由GRC的分类结果判断降维参数的好坏。
经PCA降维提取射频指纹,当射频指纹维数从1增至10,识别准确率从10.5%提升至84%,其准确率曲线如图5所示。
图5 射频指纹维数为1到10的识别准确率曲线
由图5可知,射频指纹维数的提升带来显著的准确率的提升,因此后续还需继续增加指纹维数来探索射频指纹的最佳构成。
当射频指纹维数从10增至120,识别准确率从84%提升至96%,其准确率曲线如图6所示。
图6 射频指纹维数为10到250的识别准确率曲线
由图6可知,分类器识别准确率保持上升,并达到最高点,表明120个特征点所组成的特征向量已经能够在很大程度上映射出无线通信辐射源信号本身的射频指纹。当射频指纹维数大于120时,识别准确率已经维持在95%左右,没有继续增长。表明维数在120之后的特征点已经不足以当成射频指纹的成分,增加的维数不能提高识别准确率,只会增加特征向量的冗余,浪费计算资源。
为验证基于AIB-GRC模型的抗噪声能力,人为添加高斯噪声,改变信噪比,在其他影响因素不变的情况下(PCA降维数为120,设备数为20),研究噪声对基于AIB-GRC识别模型的影响程度。
经实验验证,在信噪比为0 db和10 db的情况下,模型识别准确率达到90.0%和92.0%,但是当信噪比下降至-10 db,识别准确率仅为28.2%,表明一定程度的高斯白噪声无法对无线射频源信号识别产生影响。信噪比与识别准确率的关系如表1所示。
表1 信噪比与识别准确率的关系
由表1可知,基于AIB-GRC的模型具有强的抗干扰能力,适用于日常实际非极端通信场景下,但若是处于多噪声或强噪声环境下,还需要对无线通信辐射源进行抗噪声处理,以增加鲁棒性。
为验证GRC的分类效果,与射频指纹提取方法保持一致(原数据经AIB,PCA降维后,单个射频指纹由120个特征值组成),选取最邻近(K-Nearest Neighbor,KNN)分类器和支持向量机(Support Vector Machine,SVM)分类器进行比较验证。KNN和SVM都是目前常用的数据分类器,在分类任务中均能取得良好的效果[20-23]。
基于GRC的识别模型展示出优良的识别准确率及识别速度。在设备数为10个的情况下,识别准确率达到了99%,基于AIB-GRC的模型完全适用于小规模设备组;在设备数从20增加至100个的情况下,设备数的改变并未对识别准确率造成过大的影响,识别准确率始终保持在90%以上;当待认证设备数达到100个时,GRC的识别准确率比SVM高了2.1%,比KNN高了7.55%。3种分类算法的识别准确率比较如图7所示。
图7 3种分类算法识别准确率对比
在识别效率方面,KNN分类器的识别效率要远优于其他两类分类器,主要在于其单一的时间复杂性。相同的前提条件下,当设备数大于等于70个(验证样本为1 400个)时,GRC识别通过AIB和PCA的射频指纹所花费的时间要少于SVM的识别时间。当设备数为100个(验证样本为2 000个)时,GRC花费的时间为156.35 s,为SVM所消耗时间(182.3 s)的85.76%。3种算法耗时对比如图8所示。
图8 3种分类算法耗时对比
由此可知,GRC在占据较少计算机资源的情况下,还能够保持平稳的高识别准确率。
针对于现有技术对通信辐射源个体识别率低的问题,本文提出了一种基于AIB和PCA降维,通过实现无线通信辐射源个体识别模型。通过实验可以得到以下结论:
(1) 对于小规模设备(设备数小于10个),基于AIB-GRC的识别模型能准确识别,识别准确率达到99%;
(2) 对于中大规模设备(设备数在10~100个),基于AIB-GRC的识别模型的识别准确率能维持在90%以上;
(3) 针对无线通信辐射源信号,GRC的识别效率显著,可达KNN分类器和SVM分类器的3倍以上;
(4) 所建模型具备优良的鲁棒性,抗噪声能力强,适用于日常非极端通信场景。