动态环境下移动机器人路径规划的研究

2020-11-04 11:14:06张明路蒋志宏吕晓玲

合肥工业大学学报(自然科学版) 2020年10期

张艳, 张明路, 蒋志宏, 吕晓玲

(1.河北工业大学机械工程学院,天津 300130; 2.北京理工大学机电学院智能机器人研究所,北京 100081)

0 引言

随着科学和机器人技术的不断发展进步,人们对机器人在运动过程中适应周围环境自主采取相应措施的能力要求越来越高[1]。路径规划的本质是在障碍物与目标物之间建立一条从起始位置到终点位置无碰撞且最优的路径[2]。而在动态环境中障碍物和目标物的位置都是实时变化的,易与机器人发生碰撞,导致机器人的损坏以及无法完成规定的任务,极大地限制了机器人的应用。因此,在动态环境下对移动机器人进行路径规划研究具有重要的意义。

本文对现有的路径规划相关文献进行分析与研究,从算法应用本身的特点出发,结合算法的模型以及每种算法的基本原理进行归类,提出了4种不同的划分方法,即智能仿生、几何模型搜索、虚拟势场、强化学习。根据每种算法模型,具体指出每类算法所针对的主要问题;并根据每种算法的特点将不同算法相互结合运用,以解决动态环境下机器人的路径规划问题。

1 智能仿生算法

随着人工智能的兴起,越来越多的智能算法被应用在路径规划中,以改善传统路径规划算法的不足。智能算法的一个重要特性是其运行机理与自然界的生物群体行为或生态机制类似,为了区分智能算法与其他算法,把智能算法定义为智能仿生算法。文献[3]从算法本身的起源及其特点进行分析,指出智能仿生算法是一种受自然策略启发的启发式算法,但对于智能仿生算法的定义不够具体,无法充分将智能仿生算法的特点进行总结;文献[4]以算法的发展历程为切入点,对比分析了现有的智能仿生算法与传统仿生算法之间的联系和区别。通过对文献[5-8]的研究与分析得出,智能仿生算法是模拟生物进化和自然界中各种生物觅食、筑巢行为的新兴智能化方法,主要分为受生物群体行为的启发、受生物体结构或组织启发、受生物进化启发3类[9]。

智能仿生算法包括受生物群体行为启发而产生的粒子群(particle swarm optimization,PSO)算法和细菌觅食算法(bacterial foraging algorithm,BFA)、受生物体结构或组织启发的人工免疫算法、受生物进化启发的入侵杂草算法以及其他智能仿生算法(遗传算法、蚁群算法)等。

1.1 PSO算法

PSO算法的基本原理是通过在群体中个体对信息的共享,让整个群体的运动在求解问题的过程中从空间产生无序到有序的演化过程,从而获得问题的最优解,算法流程如图1所示。

根据PSO算法的定义,算法的数学公式描述如下。

在d维空间中,粒子i的速度更新公式为:

(1)

在d维空间中,粒子i的位置更新公式为:

(2)

其中,Xi为粒子i的位置;Vi为粒子i的速度;Pbesti为粒子i所搜寻到的最好位置;Gbesti为种群所经历的最好位置;c1、c2为常数;rand()为[0,1]的随机数;ω为惯性的权重,用于调节对解空间的搜索范围。

目前对PSO算法的理论分析与研究主要集中在对其关键参数的改进与模型的变化上。文献[10]提出了高粒子群全局搜索策略,使其在二维多边形地图动态环境下有较强的预测能力,并通过实验证明该方法可以有效地避免碰撞;文献[11-13]通过对罚函数的改变研究PSO算法的改进或模型的改变,但粒子的评估值由于在发生碰撞时会与实际值发生偏差,导致不能反映出与障碍物碰撞的严重程度。因此,文献[14-16]设计出一种特殊的适应度函数以提高PSO算法全局搜索和预测能力,然后利用局部最优粒子群算法使移动机器人在不碰撞障碍物的情况下达到目标,并找到了迭代次数最少、总圆弧代价最小、占用时间最少的最优路径;文献[17]提出在全局最优位置加上微小的随机扰动,帮助粒子跳出当前停滞状态,同时引进自适应机制微调粒子的控制参数,使得改进后的算法能够在搜索最优解时达到动态平衡;文献[18]基于PSO算法和涡流搜索算法,提出了一种适合于移动机器人在复杂家庭环境中规划可行、安全、最优的多目标路径规划方法,将2种算法合理地进行结合,得到的路径规划具有效率高、计算量小的特点;文献[19]提出了一种具有不同学习策略的自适应学习PSO算法,将路径规划问题转化为最小化多目标优化问题,并考虑路径长度、碰撞风险度和平滑度3个目标建立目标函数,再开发一种新的自适应学习机制,在优化过程的不同阶段自适应选择最合适的搜索策略,提高PSO算法的搜索能力。

通过对现有的文献研究可知,即使改进后的PSO算法能够快速找到最优解,但在产生新的种群时阻碍了随机产生粒子的速度,降低了粒子的收敛速度,也存在陷入局部极值点、得不到全局最优解的问题。粒子的多样性与PSO算法本身的参数设置有关,只有粒子的多样性参数设置得当,才能够使算法收敛到全局极值点。

1.2 BFA算法

BFA算法是基于Ecoli大肠杆菌在人体肠道内吞噬食物行为提出的一种新型智能仿生算法[20]。BFA算法的最大特点在于能够在群体中进行智能并行搜索、具有方便快捷地跳出局部极小值的特点。基于BFA算法的搜索过程如图2所示。

图2 基于BFA算法的搜索过程

近年来,BFA算法在路径规划中得到了进一部发展。文献[21]在BFA算法原理的基础上结合自适应搜索策略,并将该算法运用到移动机器人的路径规划中,使得模拟细菌行为的机器人能够在被障碍物包围的环境中确定从起点到目标点的最优无碰撞路径。文献[22]基于细菌最优觅食理论提出了新型生物启发计算方法,该改进的BFA算法通过采取自适应与局部区域搜索相结合的形式提高了动态优化能力,将算法应用于真实场景中的结果表明，改进的算法不仅能快速、准确地到达目的地,还能有效求解此类动态路径规划问题。文献[23]通过对BFA算法关键参数的改进,模拟随机分布在机器人周围的粒子能够避开移动障碍物,规划出一条朝向目标位置的最佳路径;选择最佳粒子的准则是目标距离和粒子的高斯代价函数,然后使用高层决策策略进行选择,最后对结果进行处理；实验结果表明，该改进的BFA算法比基本觅食算法的搜索时间更短、效率更高。文献[24]将细菌觅食仿生策略运用到移动机器人路径规划中,使模拟细菌行为的机器人能够在障碍物包围的环境中确定最佳的无碰撞路径。

1.3 人工免疫法

人工免疫算法是一种以生物免疫系统为基础的启发式随机搜索算法,该算法的主要特点是能够在全局进行分步式搜索，鲁棒性强。人工免疫算法流程如图3所示。

图3 人工免疫算法流程

人工免疫算法在路径规划中运用效果较好,但直接运用到机器人路径规划中会经常出现局部最优、全局解不理想且收敛速度慢等问题。文献[25]提出了一种改进的免疫算法,首先根据障碍物和目标物在空间分布状况对机器人的影响,定义了抗体新编码格式;然后根据对机器人的不同影响选择不同的动力学模型;最后针对动态环境中的局部极小值,通过特定的免疫机制选择合适的规避策略,有效地解决了局部极小值的问题。此外,根据抗体浓度学习策略,可以解决锁死现象。文献[26]同样对人工免疫算法进行了改进,将机器人行为和机器人周围环境分别看做抗体和抗原,通过抗体和抗原之间的相互作用构造人工免疫网络,并在网络中搜索最优路径。人工免疫算法虽有动态适应性、多样性等优点,但该算法局部搜索能力过强，易陷入局部最优的局面中,同时计算成本太高。

1.4 模糊神经网络

在动态环境下,移动机器人无法获得完整的地图信息,导致神经网络训练的结果不理想,经常会出现错误或冗余的路径,给机器人目标搜索带来干扰。为此,将模糊系统与神经网络相结合,充分发挥两者优势,在解决非线性、模糊性及复杂性的技术问题上有较强的优越性。

国内外始终对模糊神经网络算法保持着相当高的关注,在研究过程中,基于模糊神经网络模型与学习算法相结合的新算法不断被提出[27]。

模糊神经结构分为5层:① 第1层为输入层，作用是直接将输入值x=[x1x2…xn]T传送到下一层;② 第2层为模糊化层,将输入的变量进行相应的模糊化;③ 第3层为规则层, 主要是将相应的模糊规则进行存储;④ 第4层为求“或”层,实现的是归一化的计算;⑤ 第 5层为去模糊化层，也就是输出层,作用是实现清晰化的计算[28]。

模糊神经网络先对机器人传感器得到的信息进行模糊处理,处理后的信息根据经验形成模糊规则,再将模糊规则作用于样本,然后用神经网络对样本进行训练。

文献[29]在模糊理论和神经网络的基础上,提出了一种新的模糊神经网络算法,利用模糊神经网络对移动机器人进行路径规划,充分兼顾模糊理论和神经网络各自的优点,得到从起点到目标点的最优路径。文献[30]将模糊神经网络转化为模型构造,利用模糊神经网络实现系统与周围环境的相互作用,实时地检测环境变化,有效利用空间中的极点值跟踪最短路径。文献[31]采用网格法建立了周边环境的数学模型,提出了模糊神经网络的避障策略,用模糊神经网络搜索下一个可行节点,实现避障功能;针对模糊神经网络的参数优化问题,将改进的PSO算法对模糊神经网络进行参数优化,避免参数选择不当造成系统不稳定的问题。文献[32]用动态环境中物体的信息动态调整模糊神经网络的权值，以加快整个神经网络的收敛速度,达到对机器人下一步动作进行动态控制的目的,最终实现路径的动态规划；然而动态环境下模糊神经网络算法进行路径规划需要大量的训练样本,且不能保证位置精度,同时它本身是一个开环控制系统,稳定性差,对动态障碍物缺少避碰策略[33]。

1.5 蚁群算法

蚁群算法的原理来源于蚂蚁通过特有的方式感知信息素浓度的高低,通常是向着浓度高的地方移动,因此蚁群算法也是运用此方法来寻找最优路径。

通过浓度高低的反馈信息以加快收敛速度,会导致蚁群多样性减小,全局搜索能力减弱。蚁群算法最大的弱点在于环境复杂的情况下,引发死锁状态的概率较高。为了解决这种死锁现象,蚁群算法要能收敛到全局最优解或者近似最优解附近。文献[34]采用最近邻居搜索策略和趋近导向函数相互协作完成全局最优路径搜索,并以多组蚂蚁为研究对象,使实验数据更具有说服力。文献[35]提出不考虑任何动态障碍的双相蚁群算法,设计了全局最优路径,解决了局部最优问题。

蚁群算法的规划技术无法单独完成路径规划问题,只是对计算进行优化。文献[36]主要是应对突发的环境状况,根据动态环境中障碍物和目标的运行方向提出相应的解决方案,引入Follow-wall对行为进行改进,可以有效地适应动态环境的变化,获取最优或次优解。文献[37]将蚁群优化问题扩展到多目标路径规划中,采用蚁群框架与采样点对点规划的混合算法,解决障碍物下多目标规划问题。文献[38]为改进的蚁群算法寻找最优路径,提出了针对局部环境模型的动态可视方法;其次,根据已知的动态环境,基于运动速度模型和海上避碰规则设计了反偏心膨胀法来处理动态障碍物;然后,针对蚁群算法收敛速度慢的特点,提出一种改进的伪随机比例规则来选择蚁群状态转移;最后,采用狼群分配原则和最大、最小蚁群系统对全局信息素进行更新,避免搜索陷入局部最优,并通过实验验证了改进蚁群算法的实时性和稳定性。文献[39]提出将信息素更新策略与节点策略相结合,用最优节点来调节信息素的分布,通过建立区域网络模型,将其应用到路径规划问题中,缩短规划时间。文献[40-41]基于蚁群算法把模糊规则优化的参数应用于动态环境下的在线路径规划,实现在动态和未知环境下沿着理想的路径到达目标。

1.6 遗传算法

遗传算法是一种模拟自然进化而来的随机化搜索最优解的方法。遗传算法流程如图4所示。

图4 遗传算法流程

在遗传算法中,在线计算时间决定了算法的运算速率,而固定的适应度函数、编码长度和搜索空间大小等因素影响计算时间。文献[42]采用适度函数求解移动机器路径规划问题,加速了算法实时运算速率,提高了运算精度。遗传算法计算大量路径占据了较大的存储空间,而且运行速度慢,增加了计算量和时间成本,易产生无效路径,得到的解往往是最优解附近的近似解,无法收敛到全局最优解,在进化过程的群体中最好的染色体可能会丢失,且可靠性不易保证。文献[43]采用粗糙集理论和遗传算法解决机器人路径规划效率低、精度低的问题，考虑到障碍物在环境中的位置及移动机器人起点与终点的关系,去除了不影响规划结果的冗余障碍物,简化了环境模型,减少了路径规划过程中备选路径的数量。文献[44]将遗传算法与Q学习算法相结合,进行先离线后在线的动态路径规划,使移动机器人具有自主学习的能力,完善了遗传算法。

综上所述,智能仿生算法在机器人路径规划上主要应用于仿生机器人的设计与开发,其中涉及水下、陆面以及空中机器人3类。这3类机器人在设计路径规划的过程中,主要是通过对相关生物特征的模仿来进行设计与开发,即根据相关生物的特性,模拟其运动特征,并与算法结合,从而提高机器人的环境适应性。因此,在开发大自然环境的机器人设计中,根据其研究背景,路径规划算法的选择应该优先选择智能仿生算法,使机器人更好地适应动态环境。

另外,智能仿生算法还有多种分支与细节,如何从多种不同的算法中找到一种适合的且能够快速处理的算法最为重要。通常情况下,每种算法的原理只是一个基础,想要得到合适的算法,需要考虑其中的具体参数或多种算法结合才能达到解决问题的目的。

2 基于几何模型的路径规划

动态环境下路径规划是根据动态环境的情况构建几何模型,再去选择合适的搜索算法,实时调节基于最优策略得到的可行解。实时调节得到的路径也不是最光滑的,需要对这些非光滑的解进行优化，从而满足移动机器人的运动机理。

目前,对于环境几何模型主要有快速扩展随机树(rapid-exploration random tree,RRT)、双重A*算法、基于区域分类的安全路径规划方法等。

2.1 RRT算法

RRT算法是对数据结构进行搜索的算法,在搜索过程中,将扩展树中任意2点建立联系,使得2点进行连通。RRT算法在路径规划时,不仅能够进行单轨迹的路径规划,还能进行多轨迹的路径规划。RRT算法工作原理如图5所示。

图5 RRT算法工作原理

RRT算法进行路径规划时,在复杂多样的动态环境下,可以基于环境信息实现随时调整规划参数,并且调整其算法的应用范围。文献[45]提出了一种基于改进RRT算法的机器人自主路径规划方法；该方法引入回归机制,防止配置空间的过度搜索，并采用自适应扩展机制,通过对节点空间边界节点的细化,不断提高可达空间信息,避免了对扩展节点的重复搜索、机器人正运动学解的不必要迭代和笛卡尔空间中耗时的碰撞检测；该方法可以快速规划到目标点的路径,并能从局部最小区域加速出来,提高路径规划效率；在复杂环境下进行的仿真结果表明,改进RRT算法在不损失其他性能的前提下,显著提高了规划的成功率和效率。文献[46]提出了区域分类的安全路径规划方法,根据节点区域稳定性和拥塞程度,进行不同方式的扩展；该方法的特点是规划少、时间持续性较长。文献[47]结合B样条与RRT的优点,基于滚动约束思想将优化方法融合到快速扩展随机搜索树中,克服了随机扩展树搜索过于单一、无启发的缺点;但是仍存在动态环境下搜索树规模被限制,使得有效节点无法被搜索到,避障效果不佳。文献[48]将D*算法引入到RRT*算法中,减少了搜索阶段碰撞检测的频率,可以更快地到达目标物,当突发状况发生时,该算法可以快速找到替代路径。

2.2 改进的A*算法

A*算法与RRT算法相比是一种启发式搜索方法,其应用于全局信息已知的路径规划中,主要是用来搜索空间中的最短路径,指导搜索朝最优的方向进行[49]。A*算法主要思想在于估计函数的设计,在选择当前结点的下一个考察节点时引入了估价函数,即

f(x)=g(x)+h(x)

(3)

其中,f(x)为节点x的估价函数;g(x)为状态空间中从初始节点到x节点的实际代价;h(x)为从x节点到目标节点最优路径的估计代价。

在动态环境中会遇到障碍物,需要对路径重新规划,A*算法同样适用于路径的二次规划。双重A*算法是将全局A*算法与局部A*算法相结合,首先在全局信息已知的情况下进行全局最优路径规划,移动机器人运动过程中出现障碍物时,再一次采用A*算法进行局部路径规划,实现在动态环境中能够安全无碰撞运动。

双重A*算法能够解决动态环境下的路径规划,但是需要实时避障、实时规划,每次都需要重新计算,增加了计算时间和成本,不利于广泛推广。文献[50]基于传统A*算法优化了启发搜索函数,利用关键点选取策略剔除冗余路径点和不必要的转折点;为了提高路径规划的平滑性和局部规划的避障能力,在路径规划的最优性基础上将A*算法与动态窗口法融合,进行实时动态路径规划。

2.3 格栅法

栅格法是机器人将周围空间分解成互相连接且不重叠的空间单元——栅格,再把这些栅格组成一个连通图, 根据障碍物占有情况, 在地图上规划出从起始栅格到目标栅格无碰撞的最优路径。文献[51]提出了基于栅格类的多机器人路径规划,机器人只需根据各个机器人运动的优先权来调整自身的运动路径以实现避碰,该方法具有复杂性低、实时性能好的特点,尤其适用于动态环境。文献[52]在栅格地图的基础上提出了障碍物直线扫描检测及回避算法的实时路径规划,很好地解决了极小值陷阱问题,可使机器人以稳定光滑合理无振荡的轨迹快速移动到目标。文献[53]用栅格法对环境进行建模,从目标栅格点出发,各个栅格中心点到目标栅格中心点的距离信息不断向外传播；经过传播后,逐步寻找信息的传播来源,即可获得机器人的最短路径;仿真结果表明,该方法简单高效,能快速规划出动态环境下移动机器人的最优路径。文献[54]提出了动态环境下实时规划的自适应栅格模型,增强了对环境多样性的适应能力;与传统栅格路径规划方法相比,该方法具有更快的规划速度,可根据环境类型对路径规划进行区分,并适用于传统方法失效的动态环境,但难以满足路径规划的通用性。

综上可知,几何模型搜索算法的共同点在于建立节点、网格等进行路径规划,优势在于规划过程中搜索路径最短、耗时最少,并能根据采集到的信息进行路径调整。但这类算法无法做到信息及时反馈,规划速度相对较慢，通常用于陆面机器人进行目标搜索,此时需要在目标物与障碍物之间建立一条单向路径。

3 基于虚拟势场的算法

虚拟势场法是障碍物对机器人有排斥力且目标点对机器人有吸引力的算法。人工势场法的应用相对比较广泛,特点在于结构简单,进行规避障碍物时能实时控制、运行平稳。人工势场示意图如图6所示。

图6 人工势场示意图

传统的人工势场法最早由Khatib在1996年提出,该算法主要用于机器人实时避障。在不同的模拟场景中,人工势场法的势场函数差别很大,可以根据不同的场景进行不同的设定。文献[55]通过搜索斥力值与引力值之和的最小值,建立障碍物全局信息地图,进行全局规划；然后与滚动窗口算法结合,找到当前滚动窗口中最短的路径,使机器人在前进过程中依靠滚动窗口算法的周期性反馈信息,不断调整当前路径,使机器人可以有效避开动态障碍物到达目标物。文献[56-58]中传感器只提供局部环境信息,根据得到的环境信息及时做出反应，指导机器人运动；该算法简单、效率较高,可弥补人工势场法易陷入局部极小值、无法达到目标点、造成局部最优解的问题。文献[59]提出了基于人工势场的机器人动态路径规划新方法；在传统人工势场方法中引入相对速度势场,对引力与斥力势场增益系数进行优化,然后用量子粒子群进行快速全局搜索；仿真结果表明，该方法能够有效实现动态路径规划。文献[60]提出了三维动态空间多机作业的优化人工势场算法；经典的人工势场算法局限于单机轨迹规划,往往无法避免碰撞,为了克服这一挑战,该文提出了一种带有距离因子和跳跃策略的方法,将无人机伙伴作为动态障碍物,实现协同轨迹规划；并在此基础上采用动态步长调整方法，解决抖动问题。文献[61]针对多机避碰问题提出了一种改进的人工势场法,其中障碍物简化为圆柱体,周围的人工势场近似为球面；人工势场的吸引力可以跟踪目标,动态空间碰撞路径取决于具有2个复合矢量的人工势场,每架无人机都可以避开障碍物选择最优路径；仿真实验证明了该算法的有效性。

由虚拟势场的相关原理可知,机器人在运动过程中,根据障碍物与目标物对机器人产生的引、斥力效果进行路径规划。虚拟势场在局部规划算法中,具有结构相对简单、实时性较高的特点,可以将全局路径规划分为不同的局部规划,并在其局部规划中穿插使用虚拟势场,效果较好。通常情况下,虚拟势场主要应用于实时避障,且在障碍物不是过于密集的情况下能够作出合理的路径规划。

4 强化学习

强化学习是机器学习的重要分支,在动物行为研究和优化控制2个领域独立发展,解决的主要问题是智能体如何直接与环境进行交互学习。强化学习算法原理如图7所示。

图7 强化学习算法原理

Q-Learning算法使移动机器人具有自学习能力[62],移动机器人通过与环境交互,在错误中进行学习,使机器人在动态环境下能够通过学习找到合适的路线[63]。国外强化学习算法在路径规划中的应用已经相对成熟,文献[64]在全局信息已知的基础上,利用Q-Learning和神经网络的方法实现动态环境下障碍物和目标物无规则移动条件下的无碰撞路径规划。在国内，强化学习算法的应用同样取得了长足进步。文献[65]将Q-Learning算法、BP神经网络及模糊逻辑技术相结合,完成了移动机器人在动态和未知环境下的路径规划及自主避障。文献[66]在Q-Learning算法的基础上提出了动态融合机制,引力势场和环境陷阱联合搜索Q值作为先验信息,避免了复杂环境中斥力势场计算量大,有效防止了移动体陷入环境中的陷阱,加快了算法的迭代速度，同时取消对障碍物的试错学习,缩小可行路径的范围,使训练能应用于实际环境中。文献[67]基于强化学习的自适应方法研究空间机器人学习多种三维结构装配和施工任务系统,在学习过程中采用启发式搜索算法寻找四旋翼的最优路径,使四旋翼在动态过程中进行路径规划。文献[68]为了使机器人在不进行任何特征匹配的情况下直接从原始视觉感知中获得最优运动,提出了基于深度强化学习端到端的路径规划方法。首先,设计并训练了一个深度Q网络(deep Q network,DQN)来逼近移动机器人状态动作值函数;然后,每个移动机器人可能的动作(即左转、右转、前进)对应的Q值由训练有素的DQN确定,这里DQN的输入是从环境中捕获的原始RGB图像(图像像素),没有任何手工制作的特征和特征匹配;最后,当前移动机器人最佳动作由动作选择策略进行选择。文献[69]基于深度强化学习进行路径规划,满足移动机器人的运动模型和约束条件,在连续动作空间中找到最优策略,通过评价准则得到最优路径,并利用移动机器人的运动模型得到该路径,从而直接解决了移动机器人的运动配置问题。文献[70]针对动态环境下的移动机器人,提出了一种基于改进Q-Learning算法和启发式搜索策略的路径规划方法；在改进的Q-Learning算法中将ε与玻尔兹曼相结合,展开启发式搜索策略,减小了搜索空间,限制了定位角的变化范围;仿真结果表明,该方法与经典的Q-Learning等规划方法相比,具有较好的时间优势和最优路径选择能力。

5 结论

目前对于动态环境下移动机器人路径规划的研究是规划领域的一个重要分支。由本文的分析可知,每种路径规划方法都有自身的局限性,仅用一种算法来完成动态环境下的路径规划不能完全达到实时性的要求,还需要多种算法相互结合、取长补短。但在实际应用中还会存在以下问题:

(1) 避碰策略本文只列举了3种,其他的形式文中未涵盖完全。这使得相应的避碰方法在实际中可能不适用,未来要结合实际情况,应对不同的碰撞方式。

(2) 智能仿生法的稳定性与实时性较差,得到的解多为最近似解,而且每次规划得到的解并不唯一。这为路径规划寻找最优解增加了难度,未来要结合动态环境信息和应用场景来寻求更加有效、快速的路径规划方法。

(3) 基于几何模型的路径规划对环境的适应能力强,实时性相对较好。未来研究可以利用这些特点，与其他算法相结合实现动态环境下的路径规划。

(4) 强化学习无需任何的环境先验知识,在经过反复试错后就能进行良好的路径规划,这将使其在动态环境下的路径规划具有更加广泛的应用。

随着机器人不断应用于动态环境中,如军事、战争、水下勘探、太空开发等领域,其路径规划及其优化问题更具有挑战性。但是目前动态规划的方法大多只适用于低速的环境,如何解决路径规划在中、高速三维环境中的应用,是未来研究的趋势与难点。