边缘计算中基于深度Q网络的物理层假冒攻击检测方法

2020-11-30 05:47杨建喜张媛利朱晓辰

计算机应用 2020年11期

杨建喜，张媛利，蒋华，朱晓辰

（1.北京电子科技学院通信工程系，北京 100070；2.西安电子科技大学通信工程学院，西安 710071）

（∗通信作者电子邮箱13772186903@163.com）

0 引言

随着5G 开启商用，以及物联网和人工智能的快速发展，各种垂直行业业务如智能制造、车联网等所产生的数据量呈几何式上升，而传统云计算的集中式存储与计算的模式已然无法满足这些业务对网络实时性、安全性等问题的需求。为此，国内外学者们提出了边缘计算的概念。边缘计算作为新范式，是指在靠近物或数据源头的网络边缘侧，融合网络、存储、计算、应用核心能力，就近提供边缘智能服务的开放平台，广泛应用在物联网、车联网、虚拟现实、智能制造等领域［1-3］。与云计算相比，边缘计算与数据源距离更近，从而可以第一时间获取数据，并进行实时分析及智能处理，所以更加安全和高效。边缘计算具有的分布式低延时、高效率、高安全性和缓解流量压力等特点弥补了传统云计算的不足，两者相辅相成，以云计算为基础，边缘计算为核心，可以协同解决海量数据处理的问题［4］。边缘计算网络的关键组成有边缘计算服务器/节点和终端设备，两者通过无线通信和网络技术建立可靠的无线链路［2］。由于无线信道的开放广播特性，使得边缘计算网络容易受到恶意终端设备的假冒攻击，当假冒攻击者以合法身份与边缘计算设备建立通信连接时，会进一步实现中间人攻击和拒绝服务攻击，因此必须采取有效的安全技术来解决边缘计算中的假冒攻击威胁。物理层安全技术通过利用无线传输信道的唯一性、时变性和互易性等天然特性，基于信道脉冲响应（Channel Impulse Response，CIR）、信道状态信息（Channel State Information，CSI）、信道频率响应（Channel Frequency Responses，CFR）等信道参数来检测假冒攻击者，具有实现复杂度低和安全性能强的特点，被认为是一项有前景的技术［5］，适用于边缘计算中的假冒攻击检测。

强化学习作为一种以环境反馈作为输入、自适应环境的特殊机器学习方法，用户可以在不知道系统信息的情况下在动态环境中获得最优策略。其次，在实际场景中，终端用户并不是静态的，而且边缘计算服务器和用户之间的通信环境也会由于周围环境中的变动而发生改变，所以通信双方的信道环境是动态变化的。因此，利用强化学习算法可实现动态环境中既定目标的最优策略而不需要知道系统的细节信息。文献［6］提出利用强化学习算法在动态环境中进行用户身份主动认证的安全防护方案。文献［7］通过基于Q-Learning 的信道选择策略解决了存在的干扰攻击。基于Q-Learning 的方法在高维空间且状态数目多的场景中学习速率很低［8］，而深度Q网络（Deep Q-Network，DQN）在Q-Learning 的基础上结合了深度学习技术，利用神经网络来近似Q值估计，可以提高收敛速率。因此，文中将利用DQN 算法优化检测阈值的选择，实现动态环境下更为准确的假冒攻击检测。

边缘计算可以为海量终端提供实时响应、避免网络拥塞，具有更好的安全性能，但也面临着一些安全问题，如隐私数据泄露、假冒攻击、窃听攻击和侧信道攻击等［9-10］。对此，研究学者们提出了一些解决方法：文献［11］基于“云-边-端”三层体系架构提出了边缘计算服务器和终端设备之间的安全相互认证方案Octopus，该方案在认证过程中采用对称加密算法，且允许任何终端设备在已授权情况下与任一边缘计算服务器进行相互认证，从而能够有效抵抗假冒攻击、重放攻击等；文献［12］在Octopus的基础上进行改进，通过使用双线性配对算法来进行终端设备接入认证，可以在不暴露设备真实身份的同时验证设备的合法性，避免了恶意设备收集终端设备的合法身份信息；文献［13］在多接入边缘计算中提出一种拒绝服务攻击的防御模型，通过利用边缘计算在网络边缘的计算能力生成本地化防御策略处理来自终端设备的可疑流量，实现对拒绝服务攻击的防御；文献［14］通过分离边缘计算服务提供商、终端设备身份管理服务器和授权服务器，并增加认证层来抵御非法访问和流量拦截等攻击，对设备身份信息进行隐私保护。由于边缘计算提出时间短且相关研究尚未成熟，现有安全方面的研究也大多使用应用层技术，没有直接利用物理层无线信道特性来解决存在的安全威胁，也没有考虑到终端设备和边缘计算服务节点之间通信环境的动态性。因此，文中采用物理层安全技术，提出了一种基于DQN 的边缘计算假冒攻击检测方法，在边缘侧通过物理层特性进行终端设备的唯一性识别，使得终端几乎不承担计算负荷，同时边缘侧的计算资源也使得利用强化学习算法进行假冒攻击检测成为可能。通过构建边缘计算中的假冒攻击模型，在接收端边缘侧建立基于CSI的假设检验，并将连续两次的CSI之间的欧氏距离作为检验统计量；利用DQN 比较不同阈值的预期效用，以接收端回报最大化为目标自适应地为动态网络环境筛选出当前最优检测阈值；通过比较统计量和检测阈值以判断发送端的身份合法与否，最终实现边缘计算中的假冒攻击检测，增强边缘计算服务节点和终端设备之间的安全性。

1 模型构建

1.1 假冒攻击模型

图1 所示是终端设备与边缘网关通信时受到假冒攻击威胁的攻击模型，文中假设N 个终端设备和边缘网关节点通过无线信号进行通信，具体包括E 个合法发送端个非法发送端以及一个合法接收端Bob，其中j1∈{1，2，…，E}，j2∈{1，2，…，F}。与Bob 进行正常通信，而以虚假MAC（Media Access Control）地址伪装企图假冒向Bob发送信息。

图1 假冒攻击模型Fig.1 Impersonation attack model

图2 信道估计模型Fig.2 Channel estimation model

1.2 假设检验

由于CSI 具有时变、衰落及随距离快速变化等特性［16］，是唯一的，攻击者虽然可以利用网络技术修改自己的MAC 地址假冒合法发送者，但却无法修改伪造CSI，基于此，接收端就可以检测出假冒攻击者。接收端从收到的数据包中提取出信道向量可以验证数据包的来源，如果信道向量与信道记录接近，则认为该数据包来自合法发送端，接收该数据包并更新信道记录，否则认为该数据包来自攻击发送端，丢弃该数据包。

由于在物理层多径丰富的典型无线环境下，信道响应具有位置特异性，在足够短的时间内同一通信双方Aj1和Bob 的信道向量是高度相似的。而对于Ej2来说，当与它们的收发路径间隔超过半个以上射频波长时，就可认为两条路径的信道响应不相关［17］，即Ej2与Bob、Aj1与Bob之间的信道响应差异很大。据此可将假冒攻击检测的假设检验统计量Ζ表示为：

因为欧氏距离非负，所以检测阈值δ也非负，即δ ≥0，δ的大小直接影响Bob 对数据包真假的判断，从而影响对发送端合法与否的判断：δ过小，容易将合法发送者当作非法攻击者；δ 过大，容易将非法攻击者当作合法发送者，所以选择合适的阈值δ对于检测假冒攻击威胁至关重要。

为了准确且定量地判断基于DQN 的物理层假冒攻击检测算法的性能，定义误报率（False Alarm Rate，FAR）和漏检率（Miss Detection Rate，MDR）为：

PFAR表示合法发送端Aj1的数据包被误认为是非法攻击者Ej2的数据包的概率。PMDR表示非法攻击者Ej2的数据包被当作合法发送端Aj1的数据包的概率。相应地，Bob 接收合法发送端Aj1的数据包的概率以及拒绝非法发送端Ej2的数据包的概率可分别表示为：

每个数据包通过物理层检测之后，再进行高层数据包检测（Higher Layer Authentication，HLA）。最终通过检测的数据包，若被接受时，更新信道记录，即被拒绝时，更新信道记录，即

2 基于DQN的假冒攻击检测算法

由于实际中通信场景复杂，大多数情况下，通信双方的物理层信道模型和攻击者发送数据包的概率对接收端来说都是未知的。在这种情况下，更需要接收端根据已知的不充分信息对到达的数据包来源进行鉴别，以检测出假冒攻击者，从而保证边缘计算网络的通信安全。DQN 算法可以在动态环境中利用不充分信息找到最优解，通过神经网络能自动提取数据中有效特征来近似值函数，使得接收端在不知道信道环境模型的条件下，比较不同阈值δ 反馈的预期效用，从而选择动态环境中的当前最优阈值δ*。

2.1 DQN算法

DQN［18-19］是一种结合了神经网络和Q-Learning 算法的深度强化学习算法，利用神经网络能自动提取数据中的抽象特征的优势来近似值函数，充分结合了强化学习的决策优势和深度学习的感知优势，能够解决更为复杂的控制决策任务。DQN 利用强化学习来建立模型，通过马尔可夫决策过程进行建模，核心为状态、动作和奖励。智能体根据当前环境状态执行动作后，获得环境的反馈奖励，然后通过试错的方法改进动作，以便在接下来的环境中执行更优的动作，获得更大的奖励。

Q-Learning 算法通过动作值函数Q(s，a)进行值函数迭代，其更新式为：

其中：α为控制收敛的学习率(0 ≤α ＜1)；r为奖励；λ为折扣因子，表示未来奖励对现在的影响(0 ≤λ ≤1)。通过不断地尝试搜索空间，Q值会逐步趋近最佳Q*值。

DQN 算法的核心思想是目标函数、目标网络和经验回放机制。通过利用Q-Learning 算法构造目标函数L(θ)，并基于神经网络产生目标Q 值，以及利用经验回放机制解决数据间的相关性和非静态分布问题，提高了数据利用率，降低了参数更新方差，使得网络模型更容易收敛。DQN 算法采用了两个结构相同但参数不同的神经网络，其中当前值网络用来评估状态动作对的价值函数目标值网络用来产生目标Q值

其中θ为神经网络模型的权重参数。DQN 算法通过使用旧的网络参数θ-评估一个经验样本中下一时间步的Q 值，且只在离散的多步间隔上更新θ-，为待拟合的网络提供了一个稳定的训练目标，并给予充分的训练时间，从而使得估计误差得到更好的控制。

2.2 算法实现

在基于DQN 的假冒攻击检测算法中，状态空间为S，动作空间为A，Bob 在时隙τ 的状态包含误报率和漏检率，即sτ=在时隙τ 采取的动作即选择的检测阈值δ ∈A，将δ 划分为L+1 个等级，即δ ∈{l/L}0≤l≤L。相应地，误报率PFAR和漏检率PMDR也量化为L+1个等级。

假设攻击者Ej2发送一个数据包的概率是pj2∈[0，1]，则攻击者发送数据包的概率集合为Y={ pj2}1≤j2≤F，假设在一个时隙中只有一个非法发送端进行假冒攻击，则接收端Bob 收到一个来自非法发送端的数据包的概率为Bob 接收合法发送端数据包的收益是G1，拒绝非法发送端数据包的收益是G0，接收非法发送端数据包的代价是C0，拒绝合法发送端数据包的代价是C1。在先验分布下假冒攻击检测的贝叶斯风险［20］可表示为：

式中：第一项表示来自合法发送端数据包的回报，第二项表示来自非法发送端数据包的回报。由零和博弈可知，接收端和假冒攻击者的回报和为零，两者的回报RB(δ，Y)和RE(δ，Y)可表示为：

寻找最优检测阈值δ*是确保接收端回报最大化的关键。接收端通过建立式（4）和（5）的假设检验对每个时隙内到达的T个数据包逐个检测，通过最大化T个数据包的累计折扣总回报Πτ来选择检测阈值，即

DQN 检测算法通过经验回放内存U(D)存储-采样当前状态、阈值、接收端回报和下一时刻的状态(sτ，δτ，Πτ，sτ+1)作为训练数据，通过Q-Learning 对网络模型进行参数更新，其Q值更新过程为：

其中：λ为折扣因子，表示对未来回报的在意程度，λ越大则越关心长远利益。最优检测阈值δ*是使达到最大时的检测阈值，即：

Bob 采用ε⁃greedy 策略不断探索提高选择最优检测阈值的概率，每次以ε 的概率随机选择检测阈值，以1-ε 的概率选择最优检测阈值，即：

图3 所示为基于DQN 的物理层假冒攻击检测模型，通过利用神经网络来估计检测阈值的Q值。检测算法中所采用的神经网络包含输入层和两个全连接层，输入为状态sτ=第1 个全连接层的10 个神经单元都配置了线性修正单元ReLU 作为激活函数，第2个全连接层根据权重和偏置直接计算输出Q值Q(sτ，δτ，θτ)，神经网络在时隙τ的所有参数可表示为θτ。通过当前值网络Q-eval估计每个检测阈值δτ的Q 值，目标值网络Q-target在一段时间内Q 值保持不变，一定程度降低了当前Q 值和目标Q 值的相关性，提高了算法稳定性。

图3 基于DQN的物理层假冒攻击检测模型Fig.3 Physical-layer impersonation attack model based on DQN

基于DQN 的假冒攻击检测算法的目标函数和关于网络参数的梯度可分别表示为

式中：sτ+1是在状态sτ下选择动作δτ之后得到的下一状态，θτ是当前值网络Q⁃eval的网络参数是目标值网络Q⁃target的网络参数，但却是Q⁃eval的Nit时间步以前的参数。在训练网络模型时，文中选择的是初始学习率为μ 的自适应学习率优化算法均方根（Root Mean Square，RMS）作为优化函数，每次从经验回放内存U(D)中取N⁃bsize个(sτ，δτ，Πτ，sτ+1)来训练当前值网络Q⁃eval，假设样本之间相对独立，然后最小化损失函数L(θτ)，更新Q 值。假设接收端每个时隙收到T 个数据包，基于DQN的假冒攻击检测算法流程如下。

算法基于DQN的物理层假冒攻击算法。

3 仿真及分析

假设终端设备和边缘网关之间的通信是基于IEEE802.11 无线网络通信标准进行的，设定中心频率f0=2.4 GHz，带宽W=20 MHz。仿真过程中，考虑有4 个终端设备和边缘网关进行通信，网关节点作为接收端，发送端包括两个合法终端和两个企图假冒合法用户的非法终端设备，在OFDM（Orthogonal Frequency Division Multiplexing）系统中，用于信道估计的导频子载波数为5，即M=5。所有信道向量均为独立的复高斯随机向量［16，21］，服从分布CN(0，1)，非法发送端的攻击频率p=0.25。假设一个时隙内接收端收到的数据包个数为T=20。接收端接收或拒绝数据包得到的效用初始值分别设置为G1=7，C1=2，G0=9，C0=7。DQN 检测算法中的学习率（更新步长）体现的是值函数达到最优值的速度快慢，即接收端找到当前状态下最优检测阈值的速度快慢，学习速率过大会使网络的学习过程不稳定，学习速率过小会使网络经很长时间才能达到收敛状态，找到最优值，效率太低。表1 所示为不同学习率情况下，接收端得到最优检测阈值所需的实验次数。

表1 不同学习率时接收端得到最优检测阈值所需的实验次数Tab.1 Number of required experiments when getting the optimal threshold under different learning rates

从表1 可以看出，当学习率为0.01 和0.001 时，收敛慢，所需次数远大于学习率为0.1 和0.2 的情况。在学习率取0.1 和0.2 时，网络能较快地收敛到最优，接收端能以较快的速度找到最优检测阈值，在实验过程中，μ=0.1 的稳定性好于μ=0.2 的情况。因此，本文将学习率设置为μ=0.1。其次，设置折扣因子λ=0.9，ε⁃greedy 策略选择率ε=0.9。表2所示为仿真过程中用到的初始化参数及其取值。

表2 仿真所用参数取值及意义Tab.2 Parameter values used in simulation and their meanings

基于DQN 的假冒攻击检测算法的阈值范围即动作空间A=[0，d]，d 为信道失相关距离。当中心频率为2.4 GHz 时，d=6.25 cm。量化等级L+1=100，状态空间S 中的误报率PFAR和漏检率PMDR的计算公式［22］为：

图4（a）是接收端利用基于DQN 的假冒攻击检测算法检测假冒攻击者时，最优检测阈值δ*随实验次数的变化情况；图4（b）是接收端基于DQN 选择的最优检测阈值δ*对到达的每个数据包进行判断之后，根据判断的准确率情况得到相应的效用（收益/代价）之后接收端的总回报。

图4 基于DQN检测算法性能随实验次数的变化Fig.4 DQN-based detection performance varying with experiment times

如图4（a）所示，在开始阶段，基于DQN 的假冒攻击检测算法的检测阈值迅速变化，随后达到大致稳定，最优检测阈值δ*约为3.72；如图4（b）所示，当接收端根据最优检测阈值δ*进行攻击检测时，接收端的回报总体保持在5.3 以上，最大可达到7.002。

图5 所示为基于DQN 的检测算法中最优检测阈值δ*、误报率、漏检率随信道频率采样数目的变化曲线。从图5（a）可以看到随着频率采样数M的增加，最优测试阈值δ*也在增大。频率采样数目M越大，对信道的估计越准确，误报率和漏检率也相应地越小；如图5（b）所示，但是当采样频数大于5 时，误报率和漏检率的降低幅度变小，这是因为当采样次数过大时，信道测量时的热噪声对信道估计的影响也会增大。

图5 基于DQN的检测算法性能随采样次数的变化Fig.5 DQN-based detection performance varying with sampling times

在终端设备和边缘网关通信过程中，通信的信道环境可能会受到终端移动或周围环境中其他变动的影响而发生改变，这就使得即使是相同的发送端，其发送的数据包到达接收端时受信道的影响程度也不一样。因此，本文基于接收端和合法发送端在上一时刻和当前时刻信道增益的相对变化来进一步评估所提出的检测算法性能。当接收端同时收到合法发送端和非法发送端发来的数据包时，基于DQN 的检测算法的最优检测阈值δ*随信道增益相对变化b的变化情况如图6（a）所示。从图中可以看出，最优检测阈值δ*随着信道增益相对变化b 的增大而不断增大，这也验证了式（3）所述的检验统计量Ζ，当信道变化大时，信道相关性减弱，Ζ 就增大，由于接收端与合法发送端之间的信道不确定性增加，所以接收端不得不提高接受合法发送端数据包的检测阈值。当信道增益相对变化b=0.06，信道增益比κ=-3 dB，信干噪比ρ=30 dB 时，基于DQN 的检测算法选择的最优检测阈值约为1.10。整体来看，在合法发送端的数据包信干噪比SINR 相同的情况下，最优检测阈值δ*都随着非法发送端与合法发送端的信道增益比κ 的增大而增大。当信道增益比κ 不变时，δ*随着SINR 的增大而减小，因为SINR 增大，接收端可以更加准确地估计和合法发送端之间信道的CSI，所以δ*反而会减小。

信道增益相对变化b 增大，说明双方通信环境发生的变化大，这就导致相同通信双方在不同时刻的CSI 的差异也较大，此时接收端根据当前时刻的信道向量和上一时刻的信道向量之间的差异来检测非法发送端的难度加大，从而导致误报率相应增大，如图6（b）所示。同时，也导致漏检率和平均错误率［23］随信道增益相对变化的增大而增大，如图6（c）和图6（d）所示。从图中可以看出，随着非法发送端与合法发送端的信道增益比κ增大，两者的功率差异更大，使得接收端更易检测出假冒攻击者，当收到合法发送端的数据包时将它视为非法发送端数据包并丢弃的概率更小，当收到非法发送端发来的数据包时将其视为合法发送端数据包并接收的概率也更小，从而增加了合法发送端数据包的接收率和非法发送端数据包的丢弃率，提高了检测准确率，降低了误报率、漏检率和平均错误率。当b=0.04，ρ=10 dB，κ=-3 dB 和κ=0 dB时，平均错误率分别约为0.013 63 和0.009 57。其次，随着SINR 的增大，信道估计误差更小，误报率、漏检率和平均错误率也都降低。这是因为SINR 影响着对CSI 的估计，而CSI 的估计误差直接影响着检验统计量和假设检验判断，从而影响误报率、漏检率和平均错误率。

图6 基于DQN的检测算法性能随信道增益相对变化的变化Fig.6 DQN-based detection performance varying with the relative change of channel gain

4 结语

随着边缘计算的应用越来越广泛，其存在的安全问题也更加受到重视。本文分析了边缘计算中终端设备与边缘网关节点通信时受到假冒攻击的安全威胁，提出了一种利用收发端通信的物理层无线信道特性实现假冒攻击检测的方法。该方法结合了深度学习中的神经网络和强化学习的Q-Learning算法，使得接收端可以基于连续时间内信道特性差异，通过比较不同检测阈值的预期效用，自适应选择动态环境中的最优检测阈值，能够准确地识别假冒攻击者。仿真结果表明，通过一定训练次数之后，该算法能够有效提高检测性能，即使在低信噪比情况下，也可保证误报率、漏检率和平均错误率都不超过5%。在高速移动场景中，终端设备的移动速度很大，使得连续时间内信道特性差异很大，该检测算法性能会受到影响，所以在未来的研究工作中，会考虑如何增强高速移动场景中的假冒攻击检测准确率，其次会进一步研究将深度强化学习算法用在各种复杂场景中解决各种安全威胁，如中间人攻击和拒绝服务攻击等。