陈 超,彭林宁,2,张广凯
(1.东南大学 网络空间安全学院,江苏 南京 211189;2.网络通信与安全紫金山实验室,江苏 南京 211111;3.中车信息技术有限公司,北京 100084)
在过去的几年里,随着物联网的蓬勃发展,网络设备的数量显著增加。由于这些设备许多具有间歇性的连接,对网络安全提出了更高的要求[1]。在通信系统中,访问认证对于网络安全至关重要。在以太网系统中,设备连接到网络时需要访问身份验证。MAC地址是一种常用的身份认证手段,然而攻击者可以模仿目标MAC地址,对网络带来了严重的安全挑战。虽然基于802.11x协议的数字证书可以防止MAC地址模拟攻击,但这种高层保护机制需要终端操作系统的软件支持,在大规模的网络应用中是不方便的。因此,在以太网系统中需要备用的安全机制。
最近的研究表明,通信用设备发射的信号具有其物理指纹特征。该特征类似于人的指纹,是设备本身的固有特性,无法改变和伪造[2]。利用设备的物理指纹对设备进行识别和分类,是一种新兴的安全技术。物理层的安全性在无线系统中已引起了高度关注[3],可以通过其独特的指纹识别目标设备实现接入控制。指纹的识别通常分为两个阶段,即训练阶段和分类阶段。在训练阶段,接收设备将首先在良好的环境下对接收到的信号进行采样,提取特征,并将它们作为模板保存,以供参考。在分类阶段,接收设备将从候选设备中获取信号,将相同类型的特征与模板进行比较,并根据这些特征之间的相似性对设备进行分类。这种物理层指纹识别技术已在无线WiFi、LTE和Zigbee系统中进行了研究[4-5]。例如,Peng[6]等人提出了一种基于多个射频指纹特征的混合设备分类方案,用于ZigBee器件的分类,识别率可达95.52%。
受无线系统中物理指纹识别成功的启发,利用物理指纹识别接入的以太网设备是很有可能的。然而,物理指纹在以太网和无线系统之间略有不同。例如,在大多数无线物理层识别系统中,载波频率偏移是一个重要的指纹特征。显然,这种特性并不存在于大多数以太网系统中,如基于强度调制/直接检测(Intensity Modulation Direct Detection,IM/DD)的光纤通信系统。因此,必须在IM/DD基带系统中寻找合适的指纹特征。在文献[7-8]中报告了利用条件星座对16个双绞线以太网卡进行识别,利用最近邻(Nearest Neighbor,NN)和多重判别分析/最大似然(Multiple Discriminant Analysis/Maximum Likelihood,MDA/ML)分类器对设备识别进行评估。MDA/ML和NN分类器的平均正确率分别为91.36%和76.73%[7]。此外,利用感兴趣区域(Region Of Interest,ROI)波形的统计特征对6种电力线通信设备进行分类[1]。利用MDA/ML分类器,当信噪比大于40 dB时,分类准确率可达90%。
本文将设计实现一种用于光纤通信系统基带信号设备指纹获取和识别的方法。通过实际采集来自4个厂家的24台光纤以太网设备,建立一个物理层特征提取实验系统。该系统基于接收的信号波形,通过相关峰物理指纹提取方法,使用混合设备分类方案[6],对24台光纤以太网设备进行设备指纹的识别,系统成功实现了相关峰物理指纹提取与识别在光通信系统中的应用。
本文的其余部分按以下方式组织。第1节介绍实验系统,第2节介绍信号的预处理,第3节介绍特征提取,第4节介绍分类器设计方案,第5节介绍实验结果,第6节结语。
本文设计了一种提取和识别光纤以太网设备的实验系统,实验系统装置如图1所示。
图1 实验装置
分类目标采用不同的光纤以太网设备,这些设备连接到没有信号传输的网络上,因此固定开关键控(On Off Keying,OOK)信号将在这种空闲状态下连续传输。光纤以太网设备工作在波分双工(Wavelength Division Duplex,WDD)模式,上传和下载使用不同的激光发射波长,分别为1 310 nm和1 550 nm,将0.5 m的单模光纤连接到激光发射器。为了模拟真实长距离的光纤传输,衰减器与单模光纤连接。在单模光纤和衰减器上传输后,采用雪崩光电二极管(Avalanche Photon Diode,APD)检测接收到的光信号。APD敏感波长为1 020~1 650 nm,直接将光信号不加放大地转换成电信号。接收到的电信号用数字示波器(Rohde&SchwarzTM,RTO 1024)进行捕获,采样率为10 GS。在IEEE802.3z标准下,1 000M以太网信号的采样率为1.25 GS,因此有8倍过采样。最后,采集到的信号由计算机离线处理。进行实验的照片如图2所示。
图2 实验照片
实验中,使用来自4个制造商的24个光纤以太网设备,设备的模型和设备索引为CLX-9013 FC(索引1~4)、TL-FC 311(TP-link)(索引5~8)、TH-GS-03(索引9~12)和HTB-GS-03(Netlink)(索引13~24)。对每个设备进行10次实验,得到了10个波形段,每个波形段捕获2 000万个样本,再将每个波形段的2 000万个样本划分为10个片段,每个片段长度为N2,最后获得2 400个光纤以太网设备信号段。特征提取与识别流程如图3所示,首先对2 400个离线信号段进行预处理,信号段被划分为训练集和验证集。每个设备前4次实验数据用于训练,后6次实验数据用于验证。然后分别进行特征提取,最后送入混合分类器进行分类判决。离线处理由安装了MATLABR2015b的计算机执行。
为了便于后续提取特征,如图4所示,需要对离线信号进行同步、能量归一化、滤波、模拟噪声等预处理。信号同步是对每个设备10次实验得到的240个波形段进行处理,而后续的预处理和特征提取是将每个设备每次实验得到的波形段分割成10个小片段进行处理,利用蒙特卡洛法进行多次模拟后取平均值得到24个设备的特征集。
图3 特征提取与识别流程
图4 信号预处理流程
在IEEE802.3z标准定义的以太网系统中,因为即使在空闲状态下固定信号也会连续地发出。这种固定开关键信号是有周期的,所以接收的离线信号也是有周期的。周期信号的自相关函数也是周期的,且周期与原信号同周期[9]。通过移位自相关寻找自相关函数的极大值点位置,得出这些光纤以太网设备的信号周期都为1 280。选择利用接收到的整个波形段进行统计特征提取,然而采集的每个信号段起始位置在一个周期内可能是不同的,会弱化特征的有效性,因此需要对信号进行同步。互相关可以体现两个函数的相似性,故取第1个设备第1个波形段中前1 280个信号为样本t(n),待同步的波形段为x(d, j,n),表示第d个设备第j次实验的波形段,对x(d, j,n)在1 280周期内进行移位互相关,m为移位量,互相关值可表示为:
然后求出互相关值最大时m的取值,并以此值作为待处理信号段的起始点位置。第d个设备第j次实验的波形段中第l个信号片段为:
其中,l取值为1~10。
显然,各个光纤以太网设备的耦合损耗是不同的,导致了不同的接收信号功率。此外,由于不同的衰减和传输距离,接收机信号功率也不同。因此,最初标准化了接收到的信号功率进行能量归一化[10]。能量归一化后的信号可表示为:
式中μ、σ分别为该信号的平均值和标准差。
虽然数字示波器具有8位分辨率,但由于数字示波器的动态范围和有效位数的限制,实际波形分辨率比特数小于8位。因此,设计了一种低通数字滤波器,以平滑接收信号,消除带外噪声。该数字滤波器的3 dB带宽为实际信号带宽。
虽然使用衰减器来模拟长距离传输,但接收到的信号质量仍然很好,具有很高的信噪比。因此,不同水平的加性高斯白噪声被添加到接收信号中,用于模拟线路中的噪声。本文使用Matlab自带的awgn函数向信号中添加高斯白噪声。
特征提取主要包括3个方面:(1)对若干个周期性间隔后的信号进行相关运算,提取统计特征;(2)对若干个周期性间隔后的信号计算其在理论主峰及其左右若干个点的自相关值,加权平均作为相关峰;(3)对这些相关峰进行曲线拟合,求取曲线拟合系数。如图5所示。
图5 特征提取
由于设备的容差效应,它的采样频率会存在一定的偏差,会导致k个周期性间隔后信号的相对位置出现偏移,即相关峰的位置出现偏移。对预处理后的信号段y(d, j,l,n),n=1,2,3,…,N1做如下运算:
其中:T1为周期性间隔,是1 280的整数倍;K为k的取值个数。对每个ck(n)信号,用下列方程提取均值μ(k)、方差σ2(k)、偏度λ(k)和峰度κ(k)4种统计特征:
由于基于最大值准则求取相关峰的方法无法满足精度的需求,本文通过计算自相关函数理论主峰及其左右N3个点(共2N3+1个)的自相关值,将其加权平均值作为相关峰。信号在T2,2T2,…,iT2,…,LT2等L个周期性间隔后的起始位置为理论主峰点,对第i个周期性间隔后,待处理信号长度为:
计算自相关的公式为:
得到一个(2N3+1)×L的矩阵,每一列加权平均值为:
将得到的L个值作为相关峰。
通过改变不同的参数设置并进行大量的实验观察,发现这些相关峰的形状近似于一次函数。因此,对提取的相关峰进行一次函数曲线拟合[11-12],求取其两个拟合系数。
例如,当信噪比为0 dB、N1=80 000、N3=5、T2=1 280×3时,针对来自4个厂商的4个设备取不同的L值,实验结果如图6~图9所示。可以看出,这些曲线都近似于一次函数。有意思的是,发现设备5(TP-Link)的峰值曲线非常稳定,一定程度上说明其产品质量比较稳定。
图6 L=3时的相关峰曲线
图7 L=4时的相关峰曲线
图8 L=5时的相关峰曲线
图9 L=6时的相关峰曲线
为了提高分类精度,通过整合前面讨论的特征集,将这些特征组成向量。训练过程中,在不同信噪比条件下计算其类内方差和类间方差并得到不同特征向量的权重。测试过程中,通过估计测试数据的信噪比,选择在训练中得到的不同信噪比下的特征向量权重,对测试数据进行判别[6],结构图如图10所示。
图10 分类器结构
类内方差给出如下:
其中,P为特征总数。
当d1≠d2时,出现一个错误分类。分类正确率β可以定义为:
其中,Ntest为总测试次数,Nerro为分类错误次数。
对光纤以太网设备识别系统中的不同参数进行优化,然后对基于相关峰的分类性能和基于经典统计特征的分类性能进行比较。实验中共有2 400个信号段,其中960个信号段用于训练,1 440个信号段用于验证。
前文中提到,主要的参数有样本长度N1、理论主峰点左右个数N3、相关峰周期性间隔数L、统计特征周期性间隔T1、相关峰周期性间隔T2、统计特征周期性间隔数K及信噪比γ通过大量实验发现,不同参数的设置对识别率影响不大,误差通常在1%左右,而加入随机噪声后产生的误差也在1%左右,因此通过先不加噪声、变化一个参数、固定其他参数来逐一选取相对较优的参数设置。首先选取 N1=80 000、N3=5、L=2、K=5、T2=1 280×3,识别率随T1的变化如图11所示。
图11 随T1变化趋势
可以看出,当T1≥1 280×4时,识别率缓慢增长,在T1=1 280×3时,识别率最高,故选取T1=1 280×3、N3=5、L=2、T2=1280×3、N1=80 000时识别率随K的变化,如图12所示。
图12 随K变化趋势
K在取值大于5后趋于平稳增长,K=5时验证时间共为308.7 s,K=6时验证时间共为338.9 s。考虑计算成本,选取K=5。当T1=1 280×3、K=5、N3=5、T2=1 280×3、N1=80 000时,识别率随L的变化如图13所示。
L=3、4、6时识别率为90.14%,L≥8时平稳增长,说明特征数量要控制在合理的范围,多了只会增加计算成本,并不会对识别率有太大提升。L=3时验证时间共为319.1 s,L=8时验证时间共为391.8 s,识别率为90.49%,故选取L=3。当T1=1 280×3、K=5、L=3、T2=1 280×3、N1=80 000 时,识别率随N3的变化如图14所示。
图13 随L变化趋势
图14 随N3变化趋势
当N3取值为3和5时,识别率比较接近;当N3=5时,识别率最高;N3>5时,识别率较低。这是由于相关峰偏离主要集中在左右5个点以内的位置,左右3个点内居多,故取N3=5。当T1=1 280×3、K=5、L=3、N3=5、N1=80 000时,识别率随T2的变化如图15所示。
图15中可以明显看出,当T2=1 280×6时,识别率最大,故取T2=1 280×6。当T1=1 280×3、K=5、L=3、N3=5、T2=1 280×6时,识别率随N1的变化如图16所示。
当N1=80 000时,识别率最高;N1>80 000时,随着计算成本的增加,识别率不但没有提高,反而下降,最终得到优化后的参数为T1=1 280×3、K=5、L=3、N3=5、T2=1 280×6、N1=80 000。
图15 随T2变化趋势
在不同信噪比下,对比基于相关峰和基于经典统计特征的分类性能。这里的基于经典统计特征的设备识别是指提取平均值、方差、偏度和峰度4个统计特征,将其作为物理指纹送入分类器进行分类识别,分类性能对比结果如图17所示。
图16 随N1变化趋势
图17 分类性能对比
当信噪比为10 dB时,两者的识别率相差最小,为13.6%。信噪比在0~30 dB范围内,基于相关峰的设备识别率在85.76%~91.39%,基于经典统计特征的设备识别率在45.35%~76.6%。可以看出,基于相关峰的设备识别相比基于经典统计特征的设备识别,无论在准确率还是在稳定上都具有较大优势。
在信噪比为0 dB时,基于相关峰的分类混淆矩阵如图18所示。
图18 混淆矩阵
其中,分类错误主要集中在:设备3错认为设备4,设备6错认为设备5,设备7和设备8错认为设备6。而前文提到设备1~设备4,设备5~设备8分别来自两个不同厂商。可以发现,大多数分类错误都是在同一制造商的设备之间发生。由于同一制造商生产的设备,其材料、加工工艺、电路板走线等都比较相似,导致设备的硬件容差减小,而硬件的容差是设备物理指纹的硬件基础,对分类识别带来了更大的挑战。
针对IM/DD光纤通信系统,本文提出了一种新的基带以太网设备指纹提取和分类方法,建立了一个实验性IM/DD系统,以捕获来自4个制造商的24个光纤以太网设备的信号波形,初步评估了不同参数设置下的性能,并为分类系统设计找到了较优的参数选择。在此基础上,对比基于相关峰和基于经典统计特征的设备识别分类性能。在信噪比为0 dB和20 dB时,基于相关峰的识别率分别为85.76%和91.11%,成功验证了本文系统和方法的有效性。