基于数据和知识驱动的低轨卫星资源智能调度研究综述

2024-01-12 04:50李宛静李加洪刘昊钧张更新
空间电子技术 2023年6期
关键词:波束调度驱动

李宛静,李加洪,张 晨,刘昊钧,张更新

(1.南京邮电大学 通信与信息工程学院,南京 210000;2.中国空间技术研究院西安分院,西安 710000)

0 引言

各通信领域权威标准化组织认为,引入卫星通信网络的空天地一体化网络可以有效解决当前第五代移动通信系统(5th generation mobile communication technology, 5G)基站覆盖不足的问题。同时,卫星通信网络可以很好地为全球空天地全域范围内的用户提供宽带接入服务[1]。

与地球静止轨道(geostationary earth orbit, GEO)卫星和中地球轨道(medium earth orbit, MEO)卫星相比,低轨(low earth orbit, LEO)卫星具有低传播时延、高时效性、低链路传输损耗等优势[2],但在低轨卫星的发展过程中也面临着如下挑战。一方面,LEO卫星的星上功率资源严重受限;另一方面,低轨卫星的覆盖区域不固定导致信道环境、用户终端分布和业务需求情况不断动态变化[3]。目前,大多数部署的卫星通信系统在很大程度上仍依赖于人类的专业知识和人工干预,这将对卫星通信系统的性能造成一系列影响。首先,人为参与系统控制活动会导致高运营支出和系统时延[4]。其次,快速变化的无线电环境需要自主适应机制,这是人为干预无法提供的。最后,卫星通信服务于海量用例和场景将产生大量的数据。综上,设计合理的资源调度策略以使卫星能够自主采取可靠的行动是有益且必要的。

为了合理利用和分配星上资源以满足业务需求,研究人员从基于数学模型驱动的资源调度方法逐渐转向数据驱动的资源调度方法。但上述方法存在精确度低、时效性差等问题,无法较好满足卫星通信低时延的要求。为了在满足低轨卫星通信低时延要求的同时充分发挥模型和数据驱动各自的优势,研究人员提出将基于理论模型和专家经验的领域知识与神经网络方法深度融合,设计数据和知识联合驱动的资源调度方法[5]。

本文针对数据和知识联合驱动的低轨卫星智能资源调度进行综述。首先,概述数据驱动和知识驱动方法并对其特点进行分析。其次,对不同的低轨卫星资源调度策略进行综述,分为传统数学模型驱动的低轨卫星资源调度方法、数据驱动的低轨卫星资源调度方法以及未来数据和知识联合驱动的资源调度方法。最后,对本文所提及的3种资源调度方法进行总结,并展望低轨卫星资源调度方法的未来研究方向。

1 数据驱动和知识驱动的方法概述与特点分析

从本质上来看,数据驱动方法与知识驱动方法都源于对人类知识的总结和拓展,都是以一定的数学理论为基础。虽然两种方法都以数学理论为骨架,但仍然存在一定区别,数据驱动方法中经验模型的功能由样本数据决定,而知识驱动方法中则由功能和需求的特点决定机理模型的形式[6]。本节先介绍数据驱动方法,其次对知识的定义和分类进行介绍,进一步介绍知识驱动方法,最后对知识融入的途径进行介绍。

1.1 数据驱动方法

数据驱动指通过对数据的分析和实验验证等手段,以事实为依据来制定决策和解决问题。数据驱动强调以事实为依据,根据事实进行决策。数据驱动的实现过程是通过移动互联网或者其他的相关软件为手段采集海量的数据,将数据进行组织形成信息,之后对相关的信息进行整合和提炼,在数据的基础上经过训练和拟合形成自动化的决策模型。因此,数据驱动的过程非常复杂,需要有数据和不断的输入,需要模型根据比对决策结果和现实数据把偏差信息反馈给机器学习,在其后不断的机器学习迭代过程中进行自我完善,数据驱动的流程图如图1所示。

图1 数据驱动流程图Fig.1 Data-driven flowchart

根据模型分析所使用理论工具的不同,文献[6]将数据驱动方法分为统计分析方法和人工智能方法。统计分析方法更关注于分析样本数据或数据集的特性,而人工智能方法更关注于构建描述研究对象的近似模型。统计分析方法严格遵循数学推导,相比人工智能方法有更好的解释性,并且统计分析方法的性能不那么依赖于样本数据的质量和数量。人工智能方法虽然在可解释性和样本依赖性上略逊一筹,但它在发现输入输出数据间的非线性关系方面具有优势,并且可以在新的样本数据产生时快速给出结果。

目前大多数关于数据驱动方法的研究都集中于人工智能方法,尤其是机器学习(machine learning, ML)。机器学习是人工智能的一个分支,通过利用从数据中获得的经验和知识来进行计算、统计和预测。机器学习包括深度学习(deep learning, DL)和强化学习(reinforcement learning, RL)。深度学习允许模型在没有明确编程的情况下根据大型数据集进行分类、预测或决策。三者与人工智能之间的关系如图2所示[7]。此外,机器学习从训练方法上可以分为监督学习、无监督学习和半监督学习[8]。监督学习从标记的训练样本中学习来解决分类或回归问题,无监督学习从未标记的数据中学习来实现聚类或数据降维,半监督学习算法从不完整的训练数据中开发数学模型,其中部分样本输入没有标签[9]。可以学习和模拟人类的人工智能通常是由深度学习+强化学习实现的。

图2 人工智能、机器学习、强化学习和深度学习关系图Fig.2 Relationship graph of artificial intelligence, machine learning, reinforcement learning and deep learning

传统数据驱动的机器学习模型如图3所示[10]。设x,y,θ分别表示神经网络的特征、数据集的标签和参数。对于输入、输出和参数的所有可能值的集合分别被称为输入空间X、输出空间Y和参数空间Θ。数据驱动模型的任务是将数据集的实例从X映射到Y,同时在Θ中找到全局最优解。然而,在数据驱动的机器学习网络之间,X和Y的相关性难以捉摸,它不得不依靠庞大的数据集而不是数学模型进行优化,这导致了网络结构的高复杂性和高训练成本。

图3 数据驱动的机器学习模型Fig.3 Data-driven machine learning model

虽然数据驱动方法有自身的优势,但该方法存在严重的“黑盒”问题,无法考虑问题全局特征,同时严重依赖历史数据[11],这制约了其在实际系统上的应用。此外,深度学习的可解释性不足,这限制了其在无线通信系统等高可靠性场景中的应用。

1.2 知识的定义与分类

知识的定义为:(1)通过经历或教育获得的专业知识和技能,对某一学科的理论或实践理解;(2)在某一特定领域或总体上已知的知识、事实和信息;(3)通过对事实或情况的经验获得的认识或熟悉程度。根据定义,知识可以分为隐性知识和显性知识两种。在知识管理领域,隐性知识的概念是指一种只有个人知道的知识,这种知识很难与组织的其他成员交流。易于交流的知识称为显性知识,显性知识是已经或能够被表述、编纂和存储在特定媒介中的知识[12]。

在网络领域,文献[5]重新对知识进行定义,即网络知识是对用户主体、业务需求的个性化特征、演变规律等的整体描述,是对网络资源调度过程中的逻辑规则、理论算法等的总结。从知识来源角度出发,文献[13]将其分为3大类:相对专业化和形式化的科学知识、日常生活中的世界知识以及更直观的专家知识,对于3类知识,具体描述如下。

1)科学知识:科学知识包括技术、工程和数学。这些知识通常是通过科学实验进行形式化和明确验证的。例如物理学的普遍定律,基因序列的生物分子描述或物质形成的过程。

2)世界知识:世界知识指的是几乎所有人都知道的日常生活中的事实,因此也可以称为一般知识。通常,它是直观的并且可以通过人类对周围世界的推理来隐含地验证。因此,世界知识通常描述的是人类感知到的世界中出现的物体或概念之间的关系,例如鸟有羽毛而且会飞。此外,世界知识还包括语言学。

3)专家知识:专家知识是由特定专家掌握的一组知识。在专家的圈子里,它也可以被称为常识,这类知识是非正式的,并且需要被形式化,例如人机界面。

为了满足当前低轨卫星资源调度的复杂性和精确性,从越来越多的研究中考虑将专家知识融入数据驱动的资源调度方法,以降低系统复杂度并提升时效性和可解释性。

1.3 知识驱动方法

知识驱动方法借助已有的领域知识、专家知识等,分析研究对象的运行机制和原理,并建立数学模型来描述因果关系。一方面,知识驱动方法通过指定一系列逻辑规则以增强数据驱动方法的稳健性和可解释性,并降低训练样本大小、提升系统的学习性能;另一方面,通过知识的共享和迁移,来提升资源调度的决策速度[14]。

同样地,根据所使用理论工具的不同,知识驱动方法可分为模式分析、概率模型和优化模型等。模式分析方法注重状态量和观测量之间的关系,经过大量场景验证后形成模型或规则,但该方法存在主观性且需要大量实验时间来优化和改进模型。概率模型方法侧重于事件发生的可能性即概率,根据假设的特定条件或参数,结合数据来形成模型的参数与形式。概率模型方法也因此易于和数据驱动方法结合。优化模型方法通过算法求解带约束条件目标的最优解或可行解,虽然建模过程简单,但求解过程相对复杂。在实际应用中,3种方法相辅相成,需要结合实际需求选择合适的方法[6]。

考虑到数据驱动机器学习的缺点,文献[10]提出了知识驱动机器学习(knowledge-driven machine learning,KDML)模型,该模型旨在利用领域知识简化ML网络结构,降低其训练成本,提高其可解释性。虽然KDML是建立在数据驱动ML方法基础上的,但它更强调领域知识的提取和开发。文献[15]将无线领域知识定义为对各种无线通信和无线网络中涉及的所有问题的描述、理解和认知的总称。换句话说,无线领域知识包括对无线用户、传输、系统、网络、业务等的描述、理解和认知。在无线领域知识定义的基础上,从无线领域知识的特征变量和数据模型出发,进行无线领域知识的数据挖掘。

KDML的基本模型如图4所示[10]。在数据驱动的ML中,将X映射到Y是导致神经网络高度复杂性的关键因素。相比之下,KDML的目的是通过在X输入后续ML模块之前降低X的维数来简化整个学习网络。在机器学习中,改变输入数据空间的常用方法是特征提取和特征选择,这两者都可以实现空间转换和降维。

图4 知识驱动的机器学习模型Fig.4 Knowledge-driven machine learning model

KDML最重要的特点是利用领域知识来重建学习任务,并使学习模块的输入空间与其输出空间保持一致。神经网络的输入特征数量会明显减少,训练成本也会相应降低。此外,知识模块也可以直接给出学习问题的近似解。因此,即使学习模块失败了,KDML模型仍然能够输出近似解。同时,KDML模型在领域知识和机器学习之间具有清晰的交互机制,它将前者的输出作为后者的输入,使得KDML模型具有更高的可靠性和可解释性。

目前,知识驱动方法的应用领域越来越广泛,下一小节将通过分析知识融入的途径来分析数据和知识联合驱动资源调度方法的实现形式。

1.4 知识融入的途径

如上所述,现有使用ML的资源调度方法大多忽略了领域知识的固有好处。随着越来越多的学者开始研究数据和知识联合驱动的资源调度方法,目前关于如何将知识引入数据驱动方法的研究有3种研究类型。

(1)利用现有数据中的知识并将其应用于特定的ML

文献[16]考虑到监督学习的关键问题之一是训练集大小的不足,利用可能在该领域可用的先验知识或可以从原型示例中学习到的信息来解决泛化能力不足。通过创建虚拟示例来讨论使用先验知识的概念,从而扩大有效训练集的大小。在某些情况下,这个想法在数学上等同于将先验知识作为正则化器,这表明该策略是动机良好的。

(2)将知识嵌入机器学习过程

文献[17]利用正则化理论作为知识来解决ML的过拟合问题,其中ML的一些学习参数被限制在一定的范围内。文献[18]进一步提供了将约束嵌入正则化框架的充分条件,这也使得机器学习算法在不同的数据集上表现更好。

(3)将成熟的传统算法和ML方法的知识结合来解决实际问题

文献[19]开发了一种知识辅助深度强化学习算法来设计5G蜂窝网络中的无线调度器。该文献提出了一个理论深度强化学习(deep reinforcement learning, DRL)框架,其中使用无线通信的理论模型来制定DRL中的马尔可夫决策过程。为了缩短收敛时间并提高每个用户的用户服务质量(quality of service, QoS),设计了一个知识辅助的深度确定性策略梯度(knowledge-assisted deep deterministic policy gradient, K-DDPG),该DDPG采用了调度器设计问题中的专家知识。仿真结果表明,该方法显著缩短了DDPG的收敛时间,实现了比现有调度器更好的QoS。

综上,为了更好地理解知识的融入方式,本文从知识分类出发,将不同种类知识的表征形式和融入途径归纳为如图5所示[5]。

步骤2 对和进行脉冲压缩,计算和脉压后峰值位置x(n)和xd(n),相应的位置偏移量Δn=x(n)-xd(n),并对定标信号进行补偿。

图5 知识的分类、表达形式及融入途径Fig.5 Classification, expression and integration of knowledge

2 低轨卫星资源调度方法概述

传统的低轨卫星资源调度方法分为基于优化理论等数学模型驱动的调度方法和基于深度强化学习等数据驱动的调度方法。基于数学模型驱动的研究方法在前计算机时代有其合理性和可解释性,但是在计算机快速发展的今天,模型驱动的方法就存在诸多问题,如算法准确度低、精准性差等。数据的增加和计算机的发展带动了数据驱动的资源调度方法迅速发展,其优势在于可以用大量的离线训练换取在线计算时间,但存在可解释性差、泛化能力差等问题。学术界开始考虑融合各个方法的优势,将数学模型、深度强化学习和现有的知识融合,以达到在训练样本有限的情况下提升训练速度并增强可解释性和泛化性。由此诞生了数据和知识联合的资源调度方法。本节将从3个方面介绍低轨卫星资源调度方法,分别是传统数学模型驱动的低轨卫星资源调度方法、传统数据驱动的低轨卫星资源调度方法以及未来数据和知识联合驱动的调度方法。为了更加清晰直观地展示本文所调研的内容,构建低轨卫星资源调度策略的知识图谱如图6所示。

图6 低轨卫星资源调度方法知识图谱Fig.6 Knowledge graph of resource scheduling methods for LEO satellite

2.1 传统数学模型驱动的低轨卫星资源调度方法

由于地面用户的时空分布不均,导致各波位间的业务需求不平衡,为了满足日益增长的用户业务需求,早期的低轨卫星资源调度方法大多利用数学模型驱动方法来解决资源分配问题。传统数学模型驱动的低轨卫星资源调度方法包括但不限于凸优化算法、迭代算法、启发式算法等。该类方法的优点是可解释性强,在卫星系统中对系统性能的提升也较为明显,可以很快解决业务和资源不匹配的问题。

文献[20]利用遗传算法对一个实际系统的跳波束时隙规划进行了优化。结果表明,与传统系统相比,该系统的容量增益可以达到30%,虽然算法有一定的优势,但存在算法复杂度高、时效性低、不能适应业务动态变化场景等问题。文献[21]假设同信道干扰可以忽略不计,利用凸优化方法来解决资源分配问题。文献[22]针对业务请求分布不均匀的情况,研究了基于遗传算法的动态波束跳变方法,以提高资源利用率。遗传算法在寻找最优解的过程中自适应调整搜索空间,是一种能够获得全局最优解的高效并行方法。在此基础上,该文献还采用了一种基于时分复用的多动作选择方法,有效地降低了算法的复杂度。仿真结果表明,该方法能够实现满足用户需求的智能跳波束,有效提高系统性能。文献[23]通过联合功率控制和波束形成,提出了一种迭代算法来获得优化的功率分配策略。结果表明,联合波束形成方案优于固定波束形成方案,且可以保障系统安全性。文献[24]研究了卫星系统前向下行链路中资源分配的容量优化算法并提出了两种启发式算法,根据流量请求来分配容量资源。结果表明,所提算法在可用容量方面比传统系统有一定的提升。

综上所述,传统数学模型驱动的低轨卫星资源调度方法在解决初期业务量和资源不匹配方面有一定的优势,它的模型依据通常是有一定研究基础的数学理论等。但该方法存在复杂度高、建模时间长、成本昂贵等实际应用问题。随着计算机领域的发展,研究人员逐渐从数学模型驱动转向数据驱动,以寻求更为简单、高效的资源调度方案。

2.2 数据驱动的低轨卫星资源调度方法

传统数学模型驱动的资源调度方法通常是输入数据后根据一定的模型来得到相应的结果,而数据驱动则会根据训练过程中的变化相应对原始模型做出改变和优化。二者一个非常明显的区别在于,模型驱动不会改变原始模型,但数据驱动会改变模型。数据驱动需要大量数据,这就需要系统不断采集和输入以实现较理想的结果,然后需要模型根据比对决策结果和现实数据把偏差信息反馈给机器学习,在之后不断的机器学习迭代过程中自我完善,因此数据驱动还存在反馈过程。随着低轨卫星的不断发展和研究学者们的不懈努力,已有不少数据驱动的低轨卫星资源分配方法实现应用。数据驱动的低轨卫星资源调度方法系统架构如图7所示。卫星建模为智能体,地面用户建模为环境。卫星宽波束收集地面业务请求发送至星上缓冲区等待数据处理,监控器收集信道状态、波束分配功率等信息并发送至控制器。控制器通过数据驱动的资源调度算法训练得到功率资源分配结果并通过分配器进行功率分配和波束调度。

图7 数据驱动的低轨卫星资源调度方法系统架构Fig.7 System architecture of data-driven resource scheduling method in LEO satellite

文献[25]提出了一种基于深度强化学习的多目标优化(multi-objective optimization, MOP)算法。所提算法基于DRL和MOP技术,对动态变化的系统环境和用户到达模型建模,以归一化处理后的频谱效率、能量效率和业务满意度指数的加权和作为优化目标,实现了系统和用户累计性能的优化。仿真对比表明,所提算法可以更好地解决面向多波束卫星系统的多目标优化问题,系统性能和用户满意度优化结果较好,且收敛快、复杂度低。文献[26]提出了一种基于DRL的动态波束图案和带宽分配策略,该方案可灵活地利用时间、空间和频率3个自由度。考虑到带宽和波束图案的联合分配会导致动作空间溢出,文中提出了一种协同多智能体深度强化学习(multi-agents deep reinforcement learning, MADRL)的框架,其中每个智能体只负责一路波束的照明分配或带宽分配。智能体可以通过共享成果来学习协作以实现通信目标,即最大吞吐量和最小单位间时延公平性。仿真结果表明,离线训练的MADRL模型能够实现实时的波束图案和带宽分配,以匹配非均匀和时变的流量请求。此外,当流量需求增加时,所提模型具有良好的泛化能力。

综上,基于数据驱动的低轨卫星资源调度方法多数采用前文所述的人工智能方法,具体来说可以是强化学习、深度学习或者深度强化学习等方法。其中深度强化学习通过结合RL和DL,完成系统特征的学习并智能地执行资源分配策略[27]。系统利用RL不断与环境进行交互获取样本,再利用DL提取样本特征,完成当前场景到资源分配策略的映射[28]。虽然当前的数据驱动方法对低轨卫星系统性能已有大幅提升,但仍需对训练时间、样本空间大小等进行优化,这就需要研究数据和知识联合驱动的资源调度方法。

2.3 未来数据和知识联合驱动的资源调度方法

和数据驱动不同的是,数据和知识联合驱动的资源调度方法在训练过程中融合了知识。这些知识包括上文提及的专家知识、领域知识等。通过知识的融入可以实现减少训练周期、减少训练参数、改进算法收敛时间等目标。文献[29]提出了一种带保护机制的知识辅助强化学习框架,如图8所示。智能体接收到初始状态后,根据策略生成动作,并将其传递给保护器。然后保护器通过求解优化问题,从融入了专家知识、领域知识等信息的分析模型中得到标准动作,并通过标准动作对智能体生成的动作进行调整产生新的动作,称为执行动作。执行动作是在环境中实际执行的动作。在确认执行动作安全后,执行动作将被同时发送给环境和分析模型。智能体从环境中收集奖励,同时从分析模型中收集指导奖励,这两种奖励结合起来产生更新奖励,策略使用更新奖励来更新自己。在存储数据并更新智能体策略之后,根据下一个状态生成下一个智能体动作。如果分析模型认为执行动作是不安全的,且执行动作未通过安全确认,则保护器将拒绝执行动作,并将其发送给智能体。基于该框架,本文从知识是否在系统中迁移出发,将数据和知识联合驱动的资源调度方法分为基于本地知识的资源调度方法和基于知识共享和迁移的资源调度方法。

图8 知识辅助的强化学习系统架构Fig.8 Architecture of knowledge-assisted reinforcement learning system

2.3.1 基于本地知识的资源调度方法

基于本地知识的资源调度方法,是从本地网络训练过程中学习到的知识出发来指导资源调度,知识在系统中没有过多的迁移或共享。本文按照知识融入的途径来综述现有的低轨卫星资源调度方法。

将知识嵌入机器学习过程的资源调度方法会对网络结构、训练参数等产生一定的影响。文献[30] 从保证各波束间业务公平性、最小化实时业务传输延迟、最大化非实时业务传输吞吐量等多目标出发,研究了DVB-S2X卫星跳波束的最优策略。文献采用无模型多目标深度强化学习方法,通过与环境交互学习最优策略。为了解决动作维度灾难问题,将领域知识融入学习过程提出了一种基于双环学习(double-loop learning, DLL)的多动作选择方法。并利用深度神经网络对其多维状态进行了重新表述和获取。结果表明,该方法能够同时实现多个目标,并能根据用户需求和信道条件智能地分配资源。然而,该方法只考虑了跳波束的情况,并假设每个波束共享整个带宽,这将导致波束之间产生严重的共信道干扰。同时,由于视卫星为单智能体,因此动作空间会随着波束的增加而呈指数增长。

将成熟的传统算法和ML方法的知识结合来解决实际问题的资源调度方法,以ML的相关知识为基础,融合其他算法以提升系统性能。文献[31]以传统强化学习算法为基础,结合了深度学习提取信道容量、用户业务量、时延等特征的能力与强化学习进行波束调度决策的特点,提出了基于深度强化学习的动态波束调度算法。仿真表明,结合传统算法和ML知识的算法可以降低系统时延并提高系统吞吐量。

综上所述,基于本地知识的资源调度方法相比数据驱动方法对低轨卫星系统的性能有一定的提升,在一定程度上降低训练成本并减少动作空间大小,加快了训练的收敛速度。但存在对实际应用中影响因素考虑不够全面的问题。

2.3.2 基于知识共享和迁移的资源调度方法

基于知识共享和迁移的资源调度方法可以更好地在不同网络之间实现信息和策略更新,因此也更适用于现实系统。它可以很好地适应业务快速变化、服务需求多样性的场景,以满足现代通信的要求。本文将这部分分为基于无监督强化学习的迁移方法和基于有监督深度学习的迁移方法。

无监督强化学习侧重让算法自行发现数据集中的规律和模式,基于无监督强化学习的知识迁移资源调度方法通常先训练模型再对数据进行迁移。文献[32]提出并评估了低轨卫星的在线决策算法。文中提出了两种基于RL的解决方案,以克服传统动态编程(dynamic programming, DP)的计算负担。第一种方法是基于Actor-Critic方法并结合时序差分(temporal-difference, TD)学习的方法。这个方法中有两个角色,第一个是Actor角色,在一些资料中也称为“演员角色”。这个角色是一个相对独立的模型,可以把它理解成一个神经网络,任务就是学动作。优化它的过程和优化一个普通DQN网络没有太大的区别。另一个是Critic角色,也称作“评论家角色”。它负责评估Actor的表现,并指导Actor下一阶段的动作,这个角色也是一个独立的模型。在这种思维的指导下,估值学习也是一个独立的、可优化的任务,需要通过一个模型进行拟合。动作输出也是一个模型,通过一个模型进行拟合。这种方法中,两个角色(网络)互相交互并训练模型,最后达到一个较好的效果;第二种方法是基于Critic-only的方法,称为乐观时序差分学习方法。该算法在存储需求、计算复杂性和计算时间等方面都对系统性能有一定提高。总体结果表明,RL框架可以很好地提升低轨卫星系统性能。

有监督深度学习相比无监督强化学习有一个目标值,训练过程中不停地和目标值进行比对以改进模型。基于有监督深度神经网络的迁移方法通常是以领域知识或历史数据为基础,构建资源调度的神经网络模型或初始化模型参数[5]。文献[28]提出一种基于迁移深度强化学习(transfer deep reinforcement learning, TDRL)的低轨卫星跳波束资源分配方案。采用DRL算法,将卫星数据包缓存量、信道状态重构为状态空间,执行小区的波束调度、功率分配决策。根据小区数据包的积累量定义奖励函数,使LEO资源分配过程更加自动化和智能化。在新的低轨卫星接入网络时需要重新获取样本数据并再次训练模型,因此为了降低模型的训练成本,使模型更快速地适应LEO动态变化的环境,文献提出将迁移学习(transfer learning, TL)和DRL算法结合起来。利用TL将模型训练得到的知识迁移至新的模型以引导新模型更快地收敛而非从零开始。结果表明,TDRL算法在保证用户服务质量的同时可以提升系统吞吐量并最小化包平均时延。

综上所述,基于知识共享和迁移的资源调度方法让知识在不同网络中实现共享,可以很好地降低新接入卫星的模型训练收敛时间,同时仍能提升系统性能。在实际中比基于本地知识的资源调度方法有更好的应用前景。但现有研究没有考虑到卫星网络中多种知识的融合和利用。

3 结论

本文针对数据和知识驱动的低轨卫星资源智能调度研究进行了综述。首先概述数据驱动方法和知识驱动方法并分析其特点,其次对低轨卫星资源调度方法进行综述。传统数学模型驱动的方法虽然可解释性强,但由于存在复杂度高、求解困难等问题,已经逐渐被数据驱动方法取代。数据驱动方法大大降低了求解复杂度,但为了得到较好的训练结果往往需要大量样本数据,且训练时间长、可解释性差、泛化性差。由此,研究学者考虑采用知识和数据联合驱动的调度方法来提升系统的稳定性。在未来的研究中,更应注意以下几个方面的突破:(1)现有数据和知识联合驱动资源调度方法中融合的知识相对单一,如何在保证算法低复杂度的基础上实现多种知识融合;(2)资源调度方法的设计过程离不开跳波束图案设计,如何在波束成形、网络拓扑等层次上设计更加灵活的有效载荷;(3)面对未来业务种类更加多样、应用场景更加丰富多元的情况,如何将不同领域和场景的知识提取并融入低轨卫星通信系统。综上,本文总结了低轨卫星资源智能调度方法并为后续研究奠定基础。

猜你喜欢
波束调度驱动
基于模糊PI控制的驱动防滑仿真系统分析
屈宏斌:未来五年,双轮驱动,砥砺前行
《调度集中系统(CTC)/列车调度指挥系统(TDCS)维护手册》正式出版
轨旁ATC系统门控柜接收/驱动板改造
一种基于负载均衡的Kubernetes调度改进算法
虚拟机实时迁移调度算法
毫米波大规模阵列天线波束扫描研究*
圆阵多波束测角探究
Helix阵匹配场三维波束形成
基于S3C6410的Wi-Fi驱动移植实现