面向无人机网络的通信感知一体化的高效能波形选择方法

2023-02-09 12:01桑万超

无线电通信技术 2023年1期

桑万超，高晖

(1.北京邮电大学人工智能学院，北京 100876；2.北京邮电大学信息与通信工程学院，北京 100876)

0 引言

近年来，同时具备通信支持和感知探测功能的智能无人机需求呈现出急剧增长的趋势[1]，对于当前基于通信感知分离设计的传统无人机系统构成了挑战，而通信感知一体化技术是应对该挑战的一种可行途径。然而无人机平台移动轨迹更复杂，对感知信息精度要求更高[2]，且移动速度更快带来更严重的多普勒扩展，使得信道呈现快变特性[3]，从而增加了感知开销，进而增加了无人机网络内无线资源的开销；此外，无人机大多基于电池供电，在续航飞行消耗大部分能量的前提下，无人机对信息、通信处理的效能尤为敏感。因此，需要持续提升无人机感知与通信的效能以支持未来大规模的无人机协同任务驱动组网。

最近以来通信感知融合技术取得了一定进展，可望为构建高效能无人机网络助力，其中关于通信感知一体的空口波形设计是其核心技术之一。当前通信感知一体波形包括感知原生的一体化波形和通信原生的一体化波形。感知原生的一体化波形包括可承载通信数据的调频连续波(Frequency Modulated Continuous Wave，FMCW)波形[4]、线性调频(Linear Frequency Modulation,LFM)系列波形[5]以及基于Chrip信号的波形[6]；通信原生的一体化波形包括基于正交频分复用(Orthogonal Frequency Division Multiplexing，OFDM)族的波形[7]和基于正交时频空间(Orthogonal Time Frequency Space，OTFS)的波形[8]。其中对于通信感知一体化的OFDM波形而言，Knill提出了一种基于压缩感知的自适应稀疏匹配追踪感知方法[9]，提高了低移动性场景下目标检测精度。Hadani提出的OTFS波形，已被证明在双色散信道中比OFDM有显著的抗多普勒衰落性能提高[9]。YUAN提出的面向SISO-OTFS系统的通感一体最大似然(Maximum Likelihood Estimation, MLE)估计器[10]与Dehkordi提出的基于MIMO-OTFS的雷达传感系统[11]均证明了OTFS波形在通信和传感方面具有很好的适用性。因此可以充分利用现有通信感知融合波形技术成果以提高无人机网络综合通感效能。

基于任务驱动的无人机组网由于无人机工作环境的高移动性导致其网络拓扑呈现更高动态性，而单一波形由于受限于其特定的信号处理方式，往往仅在部分信道状态下具有较好的能耗性价比，因此需要更为灵活敏捷的通信感知融合波形与协议机制设计，以适配高动态变化的场景。其中诸如OFDM族波形受限于高移动性下多普勒频偏，会产生严重子载波间干扰，使得其感知精度严重下降，因此基于单一OFDM族的通信感知一体化系统不适合于高速无人机场景。而等效于对OFDM进行块处理的单一OTFS波形[12]，其调制解调等运算的算法复杂度较高[13]，难以支持能量受限的无人机平台长期使用，在低移动性场景下会产生严重的能耗资源浪费。此外现有的通信感知一体化协议也存在时间开销过高的缺陷，这是因为无人机动态性高，无人机通信节点对之间需要双向的感知与通信工作，传统基于雷达的主动感知机制为实现网络内感知信息同步需要有较多的感知信息交互开销[14]，因此需要新的通信感知融合协议机制以减小相应开销。综上，现有的通信感知融合波形及协议机制都需要改进，以更好地支撑具有高动态特性的任务驱动无人机协同组网。

本文考虑基于通信感知一体化的任务驱动无人机网络场景，该网络会因为无人机的高移动性而带来拓扑的动态变化。为了利用感知信息和不同波形的通信特征降低通信感知一体化过程中包括综合效能和时间开销在内的综合开销，提出了一种新的通信感知自适应波形机制以及高时效性的通信感知融合协议，首先综合考虑包括不同波形的算法复杂度、载荷能力以及误码率性能等特征在内的波形综合效能，设计了一种感知信息驱动的波形选择机制，并提出“基于先验信息辅助的Q-Learning”波形决策方案对其中的波形决策过程进行实现，以达到在不同飞行场景下无人机所采取的通信方案综合效能优化与在复杂多变的场景下更好的波形决策鲁棒性。在由多无人机节点构成的无人机网络内，为进一步降低以发送探测波形接收回波为特征的主动感知方式中由于无人机节点间交换感知信息而产生的系统开销，本文进一步提出了一种信号发送端主动感知与信号接收端被动感知相结合的主被动融合感知方案。最后通过一套从起飞到执行任务再到完成任务归库的无人机动态场景仿真，验证了波形选择机制的综合效能开销相对单一波形系统而言是最佳的，所提出“基于先验信息辅助的Q-Learning”混合决策方案在动态场景下具有很好的鲁棒性。

1 场景描述

无人机通信感知一体化系统应用场景如图1所示，其中无人机根据气动学划分为固定翼与旋翼无人机两种，无人机搭配多功能天线阵，且感知与通信共用一套发射接收机装置。无人机雷达感知复杂障碍物目标与其他无人机，并以无人机网络内信息共享形式实时更新场景信息，进而实现目标追踪、碰撞避免以及无人机网络拓扑规划等任务，本文将重点关注该场景下，任务驱动的无人机间通感一体化波形中的通信感知融合问题。

图1 无人机通信感知融合系统示意图

本文研究的无人机通信感知一体化系统是以通信波形为基础，使得每架无人机同时具有环境感知和数据传输的功能。每个无人机接收天线所收到的是目标回波和其他无人机通信感知一体化信号。而发射天线阵可以辐射sub-6G信号和毫米波信号，实现广域覆盖的高精度感知与通信功能。

2 面向通信感知一体化的波形选择方案设计

2.1 波形选择

通信感知一体化波形选择机制旨在无人机针对高动态飞行环境自适应调整其通感一体波形，使其实现综合能耗最优。常见的波形方案可以划分为多载波和单载波波形。当前学术界讨论较为广泛的波形包括OFDM族波形、广义频分复用波形(Generalized Frequency Division Multiplexing, GFDM)[15]、椭圆球面波多载波索引调制波形[16]、OTFS波形以及单载波的SC-FDE波形[17]。不同波形特征如表1所示，本文重点关注了无人机场景下较为敏感的参数，包括是否抗多径干扰、多普勒频偏、系统实现复杂度高低以及峰均功率比。

表1 常见通信波形特征

这些波形各具特点，例如GFDM则很好地解决了OFDM带外辐射过高导致的PAPR过高问题[15]，使得其可以实现更高的通信容量，但代价是降低了误码率性能；椭圆波则具备能量集中性特点[16]，在提高频增利用率以及能量效率方面具有很大优势；而SC-FDE系统因其单载波特征很好地解决了多普勒频偏问题，但其数据吞吐量则受到了限制[17]。本文针对无人机通信感知一体化场景应用OTFS、OFDM以及SC-FDE三种载波波形构建选择机制。

2.2 收发机结构与帧结构

本节对于发射机与接收机结构以及适配帧结构进行讨论。与现有采用单一波形的通信感知一体设计方案所不同的是，本文考虑了不同波形发射机及其在调制解调过程中的算法复杂度、载荷能力以及误码率性能等特征在内的波形综合开销。由于不同波形在不同场景下的性能表现存在差异，因而本文采用自适应波形选择机制以挖掘潜在的信号的综合效能。感知信息驱动的自适应波形选择机制发射机与接收机设计如图2所示，图中单架无人机同时搭载了具有通信感知一体化功能的发射机与接收机。

图2 基于自适应波形选择机制的发射机接收机示意图

此外对于本文方案应用的OTFS与OFDM波形而言，文献[18]指出二者存在硬件实现的兼容性，也就是OTFS波形可以以OFDM系统为载体，此外OTFS系统可以视为OFDM与SC-FDE系统的线性耦合[19]，这对于在统一硬件设备下兼容三种波形提供了理论依据。

同时对于三种波形而言，其在低速且散射体较少条件下，三者性能相接近；而在高移动且多散射体场景下，OTFS对抗严重多普勒扩展的能力明显优于OFDM系统[20]，但是OTFS波形由于相比OFDM而言增加了辛傅里叶变换对，信号处理复杂度明显上升，进而导致较高的终端处理时延。与此同时，OTFS在信道编码短码低开销场景下性能优于OFDM，当信道编码开销较大时则两者性能差异并不明显[21]，而SC-FDE系统基于其单载波特性，抵抗频偏和相位噪声的能力相对于OFDM而言较强，但同时降低了数据传输速率[22]。

表2[21,23]整理了基于OFDM的OTFS系统复杂度、OFDM系统复杂度以及SC-FDE系统复杂度。

表2 OTFS、OFDM以及SC-FDE系统的运算复杂度

此外，OTFS相比较于OFDM在感知精度性能有优势，Raviteja指出基于 OTFS的雷达波形在速度检测方面比基于OFDM的雷达波形精确度更高[23]，并且在高移动场景下OTFS相对于OFDM有着更高的检测分辨度，这对于提升在高移动场景中通信感知融合系统下的感知辅助通信性能有利，而SC-FDE 和OFDM 在处理流程上有很多相似的地方，但由于 SC-FDE 是在时域上进行信号判决的，对定时偏差更加敏感，这对于基于时间域匹配滤波器的雷达而言不利，因而其感知精度相对OFDM而言更差一些[22]。

为了综合量化反映选择不同波形对应的“收益”与“代价”，这里引入了综合效能参量。由于本文关注的整体性能与开销往往是一段时间内所有可用波形的综合效能概率统计平均值，因此从时刻0到时刻T-1单独一侧收发机的综合效能参量表达式如下：

对编号为i的波形而言，其对应综合效能与一定场景下的波形传输误码率eri成反比，与能耗参量Pi成反比，与感知精度Si(衡量标准采用归一化范围轮廓参数的倒数Normalized Range Profile，NRP)成正比，此外也参考了4G-LTE中的容量需求波形自适应策略，根据不同场景下的容量需求划分单载波与多载波波形应用场景，以减少不必要的带宽资源占用。这里能耗参量Pi为算法所需“功率”，对于同一硬件系统而言，该参量正比于该波形调制或解调时所需复数运算单元数量CMi，通过表2所整理的调制解调端运算复数因子幂指数Pe带入以2为底的指数运算式可得：

CMi=2Pe。

本文进一步定义了以下吞吐量-容量需求比，该比值满足与通信载荷需求相关的阶梯函数：

式中，波形与载荷需求适配表示了两种典型场景：高通信载荷需求下无人机使用了多载波波形，而低载荷需求(例如仅传递通信控制信令与少量通信数据信令)时无人机使用了单载波波形。F函数的阶梯取值n表示所选波形与通信载荷需求适配的“激励”值，该值应大于1，且该值应可以实现明显区分“适配与不适配”的场景，本文在后续仿真中为明显区分所采用的三种波形综合能效中的载荷能力，将该值设定为了10。

pi(t)表示时刻t内选择编号为i的波形的概率，由于所采集感知信息将识别当前无人机飞行场景，并会实时做出波形调整，该概率与无人机获取感知信息后交由波形决策过程中识别的实际飞行场景有关，具体而言，波形决策算法根据无人机通过一体化波形获取的感知信息计算选择不同波形的概率，例如在高移动且障碍物较多的大吞吐量需求场景下，OTFS波形被选择为实际使用波形的概率要大于另外两种波形。

而对于由一对收发机构成的通感机组而言，本文定义其对应的综合效能为该组内收发机的综合能效平均值，这里保证收发机所采用波形一致：

基于感知驱动的融合波形传输系统，本文提出了适配协议模型，对感知帧控制帧时隙做了以下设计。

数据帧包括数据帧(Data Frame)和功能帧(Control Frame)两种帧，并在必要位置植入导频。其中上行控制帧中包括数据传输控制、信息感知与波形控制三种子帧。上行、下行数据帧结构如图3所示。

图3 上行、下行数据帧结构示意图

当该数据帧为上行模式时，数据帧将携带Wave Control帧，该帧块携带发送端无人机根据感知信息驱动做出的波形决策信息，起到对接收端无人机进行波形控制的作用。当该数据帧为下行模式时，数据帧将携带Wave Response数据帧，该帧块表征接收无人机是否响应波形调整。

2.3 感知信息驱动的波形决策算法设计

感知信息驱动自适应波形选择机制的决策过程存在基于环境而行动，以期实现最大化预期收益的特征。该过程具有明显的函数映射形式的特征，然而目前对于该机制的映射数学表达形式并不很容易求得，这是受限于环境多变以及内部过于复杂的数值关系。因此本文考虑了两种较为便捷的映射表示形式。理想情况下如果无人机对于所有飞行环境都能存储与精准识别，以实现在不同场景下所使用波形的综合效能最优化，则此时可以认为是一种“理想判决”。但是由于实际场景过于复杂多变以至于实际构成的场景识别存储过于庞大，以至于无人机几乎不可能以静态的方式识别所有场景，因此“理想判决”并不能完全实现。

第一种思路是使用基于查询本地存储的先验信息的“查表”，不过“查表”需要事先进行仿真或实际采集参数，并且与实际飞行场景绑定，以实现有限场景的识别，然而对于更为复杂的多变场景而言性能不佳，缺乏鲁棒性。

而当前可以在动态场景下实现跟随环境变化实时鲁棒地做出最优决策的一种方法便是强化学习，波形选择机制最终期望实现某段时间内的“综合能效”，可以认为是强化学习过程中的“奖励”信息。

2.3.1 基于先验信息的决策方案

本文通过仿真给出了基于先验信息的决策方案的一个典型案例，如表3所示。

表3 一种先验信息存储参照库的案例示意

具体仿真环境为：使用软件为Matlab 2020a版本，仿真平台为e3 1231v3 处理器、内存16 GB、显卡RX5600xt的台式机。其中OTFS、OFDM波形系统中通信帧块模式表征了其二维数据块矩阵尺寸参照文献[22]对应参数预设，典型值为32×32、64×64、128×128、256×256，载波中心频率设置为2.4 GHz，信道采用包括sub-6G信道和具有稀疏特性的毫米波信道，并通过对信道参数和无人机飞行参数在不同场景设定下进行仿真。

2.3.2 基于先验信息与强化学习的决策方案

基于强化学习决策过程可详细描述为：强化学习模型在获取从感知信息中提取的障碍物数量、收发机相对移动状态、通信感知一体化系统感知状态和通信请求等状态后，对所应用的空口波形进行决策，以期望实现综合效能最优这一长期回报。这里对于采用Q-Learning方案下的决策问题进行分析讨论。

17-Learning中的智能体、状态、动作空间和奖励函数如下所述：

① 智能体：无人机单体i；

④ 即时奖励函数代表第t个时隙的状态中执行动作的奖励，本方案中所用奖励函数即为综合效能函数。算法设置初始状态，并根据输入的状态矩阵判别信息，决策下一回合的传输动作，同时根据当前估计价值和目标价值依据梯度下降法更新权值参数。

⑤ 此外，为了实现快速决策，提高强化学习算法的效率，这里同时添加了存储先验信息的表格，如果感知信息判断识别到当前环境是表格中已经记录到的，则直接调取表格信息，否则将针对该环境进行实时训练，此时将会产生训练时延，并存在一定的综合效能滞后现象。而后将Q-Learning算法所学习到的“新场景”补充进表格中，最终实现一种“基于先验信息辅助的Q-Learning”的混合决策方案。

2.4 基于波形选择机制的感知方案

基于波形选择机制方案，可以根据感知信息获取的主体不同以及所应用的感知波形，将感知方式划分为基于传统雷达模式的通用波形主动感知以及本文提出的基于OTFS波形的主被动融合感知两种感知方式。这里的通用波形是指包含但不限于本文所使用的OFDM、OTFS以及SC-FDE波形。

在无人机网络场景下，为了实现无人机网络内感知信息共享的需求，传统雷达通信一体化场景下的传输数据帧中会存在一部分数据帧用于传输感知信息。本文所述基于OTFS通信波形的主被动感知融合方案相对于雷达方式的主动感知的优势在于在通信的同时可以实现发射端接收端同时完成感知任务，进而减少了用于共享感知信息的开销，两种方案的时分协议对比如图5所示。

图5 两种感知方式数据帧结构

2.4.1 基于通用波形的主动感知

基于通用波形的主动感知的感知信息获取是信号发送方，其核心思想为利用被感知对象所形成的回波来估计感知相关参数，如图4(a)所示，具体流程描述如下：

(a) 主动感知 (b)主被动协同感知

这里假定存在两架参与通信感知过程的无人机U1与U2，其中U1为需要获得感知信息的无人机，U2为被感知无人机。U1首先发送感知数据帧，该数据帧采用与通信数据帧不同的数据内容分布结构，使得其在回波接收之后可以用于区分一般数据回波，方便检测提取。

感知数据波到达U2以及O1、O2等散射体形成反射回波，此时U1接收反射回波并计算频偏、时延以及角度等信息。

2.4.2 基于OTFS波形的主被动感知融合

主被动融合感知中的被动感知主体是接收无人机，在接收到发射无人机信号之后，根据接收信号信道特征分析处理所得发送无人机的空间位置信息。

如图4(b)所示，无人机U1采用探测OTFS波形将感知数据帧发送至U2，此时U2处理所接收感知数据帧形成U2侧测量感知信息，感知信息在U2以及信道内散射体处形成的回波则由U1接收并计算得到U1侧感知信息，由于散射体的反射系数不同导致两个感知信息会略有差异。下面给出主动被动融合感知减少感知信息开销原理。

对于信号发射端无人机U1传输一段定义在延迟-多普勒域内的感知帧数据x∈CM×N,M，N分别表示数据块延迟域和多普勒域的尺寸。x经过延迟多普勒域多径信道hDD后到达接收无人机U2，对应接收信号y，同时信号经反射后回到发射端无人机U1接收到反射回波r。

y=XhDD+v,

3 仿真分析与可行性验证

3.1 自适应波形选择机制方案可行性验证

本节对比仿真分析了单一波形系统与“自适应波形选择机制”方案的综合效用参数在动态场景下的瞬时与时均效果，以验证所提出的波形选择机制可以实现感知适应性调整，同时保证系统的综合效能最优。这里设置仿真场景划分为五个阶段，其中无人机采用2.4 GHz载波频率。

阶段A无人机起飞，该阶段移动速度较低，数值小于15 m/s，障碍物较少，散射体数目小于3个，通信内容以控制信令为主；

阶段B高速经过一段控制站中继通信区，该区域通信需求较小，且障碍物较少，散射体数目小于5个，但是相对移动速度很高，在30～45 m/s范围内；

阶段C高速经过一段图像采集与多无人机通信区，此区间内满足较高的移动速度且障碍物较多，具体移动速度在30～45 m/s范围内，散射体数目大于15个，同时有较高的通信质量与容量需求，因此数据帧块模式矩阵尺寸大于等于64×64；

阶段D在完成该任务后进入通信UE密集区，该区域内无人机降低速度甚至悬停以提供临时基站服务，移动速度在0～15 m/s范围内，散射体数目大于15个，数据帧块模式矩阵尺寸大于等于64×64，该区域提供较大规模的通信服务；

阶段E最后完成所有任务，无人机返回机场，无人机移动速度小于15 m/s，散射体数目小于5个。该段场景各单一波形系统与“自适应波形选择机制”方案的“性能-能耗-容量”综合效能仿真评估结果如图6所示，根据图6可知波形选择方案(理想判决)相比于其他单一波形方案而言，可以近似最优解的方式保证每个时间段内的综合效能最佳。

图6 不同阶段单一与“自适应波形选择机制”综合效能仿真对比

3.2 基于先验信息辅助的Q-Learning波形决策算法可行性验证

仿真对比了理想决策方案、基于先验信息的决策方案以及基于先验信息辅助与Q-Learning的混合决策方案的鲁棒性。根据图7可知本文所推荐的基于先验信息辅助的Q-Learning波形决策方案可以实现更接近于理想决策的效果，对比单一的查表法虽然牺牲了复杂度，相对于理想状态由于有在线学习过程，因此也存在一定的判决迟延，但是该方法提高了整体的鲁棒性，尤其体现在通信信道状态发生诸如仿真A中阶段B、C、D等具有剧烈变化的场景时，依然可以保持较高的综合能效比。

图7 基于Q-Learning的决策算法可行性验证与不同决策方案性能对比

3.3 基于主被动融合感知方案的感知开销性能验证

仿真分析验证了主被动感知可以降低每架无人机用于感知功能的平均开销。场景为一个基于由5架无人机构成的平面无人机网络，每架无人机均匀分布于一个五边形网络顶点，如图8所示。每个无人机采用波束扫描的方式来实现对其他无人机的感知操作，在定位其他无人机后采取定向波束的方式向目标无人机发送感知信息共享。当已定位某架无人机时，无人机下次进行感知时将不再对该角度方向进行扫描，假设每一轮扫描时间足够短，无人机网络并未发生拓扑变化，并假定感知数据帧此时采用的数据帧块模式为32×32，则其对应物理帧长度为1 kbit，并假设每次共享交换产生的开销为2 kbit，其中包含无人机间的相对距离、速度、角度等感知信息，最终目标状态为所有无人机对于网络具有完整的拓扑信息。

图8 无人机网络示意图

对于主动感知而言，每次雷达扫描一个角度，无人机立刻对该方向的目标无人机传输一次当前无人机已获悉的拓扑感知信息，也就是执行一次感知信息共享。所设计仿真方案可描述为：从无人机a开始，a进行四次角度扫描以定位其余4架无人机，并按照b→c→d→e的顺序扫描，这样无人机b会首先获悉a的拓扑位置，c会获悉a和b的拓扑位置，d会获知a，b，c的拓扑位置。e会在a扫描完成后获知全部无人机的位置，e便不再需要扫描操作，此时a产生的开销为4×(1+2)=12 kbit。类似的b从c角度开始扫描，到e截至，总开销为9 kbit。

主被动融合感知无需感知信息共享，且同样按照主动感知的扫描顺序进行扫描，从a无人机开始，遍历完b至e后，产生总开销为4 kbit，此时b至e均同时获悉了a无人机的拓扑信息。b扫描则从c开始至e，此时c至e同时获悉了b的拓扑位置，产生开销为3 kbit。以此类推至d结束，e同样不需要进行扫描即可获取网络所有信息。

对于两种感知方式均假设两架无人机间感知间隔相同的单位时间t。主动感知与主被动融合感知的网络内累计开销仿真对比如图9所示，根据结果可知主被动融合感知相对于基于感知信息交换的主动感知而言，可以降低67%的感知信息开销。

图9 不同感知方案的开销对比

4 结束语

本文针对无人机通信感知一体化场景下的综合能耗与时间开销的优化进行讨论，提出了一种波形选择机制以及一种主被动融合感知机制。通过联合考虑不同波形的算法复杂度、波形载荷能力、抗信道干扰能力等因素，引入了综合能耗性价比参量，进而得出动态场景下的最佳波形决策机制，可以提升50%左右的综合能效比。为了能适应高动态飞行环境下高鲁棒性波形决策需求，本文进一步利用Q-Learning算法结合本地先验信息存储对波形决策算法进行设计与实现，得到近似“理想波形决策”的波形决策方案次优解。而后从感知信息开销优化角度入手，利用波形决策机制下的OTFS波形的定义域特性实现了主动感知与被动感知的融合，减少了无人机网络内感知信息的同步开销，本文所提方案对于未来无人机网络物理层优化提供了一个有效思路。