基于深度强化学习技术的变电站巡检机器人的路径规划研究

2021-06-26 00:49蔡志全韩永成

冶金动力 2021年3期

张晶，蔡志全，韩永成，高丹

（唐山工业职业技术学院，河北唐山 063202）

引言

随着变电站巡检机器人的技术的发展与进步，变电站运维业务由传统的人工逐渐向智能、自主的巡检机器人过渡。现有变电站巡检机器人一般情况下能够完成变电站巡检任务，但是存在路径规划精准度低、用时长等缺点。尤其是在现场环境发生变化、巡检过程中存在障碍物时，机器人无法及时快速调整巡检路线以顺利完成巡检任务。因此，对变电站巡检机器人的路径规划进行研究，对巡检任务的完成乃至智能变电站的发展都有着至关重要的作用。要让机器人能够更好地发挥自主能动性，在外界干扰情况下仍能顺利完成巡检任务，机器人必须具备在有障碍的环境下的自动规避障碍并继续执行任务的能力。

1 变电站巡检机器人的路径规划常用方法

变电站智能巡检机器人的技术核心是路径规划，即根据变电站内的地图信息和具体任务规划一条从起始位置到目标位置的最优路径。路径规划主要研究的问题有：

（1）主路径问题，即由巡检的起始点到目标点之间的路径。由于变电站内部分电力设备位置为静态固定，机器人的起始点、目标点以及联通路径相对固定，对变电站内部环境进行全局路径规划。

（2）巡检机器人的避障问题。当机器人进行巡检任务时，应能发现静止或者动态的障碍物，并能将其绕开重新返回原始路径或根据情况重新规划路径。

（3）最优路径问题。机器人执行巡检任务时路径相对固定，最优路径问题主要集中在机器人遇碍时，即如何进行避障和纠偏使得巡检耗时最少、路径最优[1]。

目前国内外对路径规划已进行了大量的研究，路径规划的方法有很多种，主要分为经典法、启发式搜索法和人工智能算法。在已知环境条件下，利用这些方法对机器人的全局和局部路径规划寻找最优路径。其中经典法分为：人工势场法、栅格法、BUG 算法、路线图等，启发式搜索分为：A*、D*、RRT算法等[2]。人工智能算法是基于人类学习特点而延伸出的仿生智能算法，将算法与经典算法融合衍生的算法主要有：神经网络、模糊逻辑、深度学习等。

由Khatib提出的人工势能法开启了科学家对路径规划问题研究的热潮。图1为人工势能的算法模型，根据APF 的方法，假设在变电站构建空间内障碍物产生排斥力，目标点则产生吸引力。当巡检移动机器人被放置在模型空间中，它会朝着具有吸引力的目标点移动，并有效地避开了中间有排斥力的障碍物[2]。但是模型空间中当排斥力与吸引力相同或者目标点周围的排斥力过大时，机器人就会在当前位置停止，这是该算法的不足之处。此外变电站电力设备较多，使得环境中电磁干扰相对较大，势能变化具有不确定性，会影响机器人路径规划的精度。

图1 APF模型示意图

启发式搜索法也是一种经典的路径规划算法,其中A*搜索算法是最经典的方法之一，它由Dijikstra 算法扩展而来，并利用等代价搜索和启发式搜索来有效地计算最佳优先搜索方式，极大的节约了计算时间[3]。但在变电站内环境过大时，算法所需的内存就会非常的大。后续Anthony Stenz 对A*算法进行了改进形成了著名的D*算法，该算法能够更新未知环境的地图信息，并且在遇到新的障碍物时对路径进行重新规划，即可以实现机器人在部分或者全部未知的动态环境中进行路径规划。2016 年，史久根等人提出的改进D*路径规划算法，该算法是在基CA 模型的基础上对D*算法进行改进，与D*算法相比，有效降低机器人角度变化的最小增量，并且缩短了运行时间[7]，仿真结果如图2 所示。

图2 基于CA 模型改进的D＊算法

路径规划的经典算法解决了基本问题，但是仍存在路径耗时长、无法自主避障、巡检路径准确性差等问题，尤其在未知环境条件下或者遇到障碍物时无法进行自主路径规划。随着人工智能技术和计算机技术的不断发展，基于人类学习行为的智能算法也进入了科学家的研究范畴，科学家们尝试将经典与智能算法结合，这种算法的融合对路径规划的耗时和精度上都有所提升。

近些年，深度强化学习(Deep Reinforcement Learning，DRL)得到了很多学者的关注。2013 年，英国科研团队Deep Mind 提出了首个深度强化学习模型——深度Q 网络(Deep Q Network，简称DQN)[4]，经过对该网络的训练，在Atari竞技游戏中打败了人类选手。除了游戏领域外，学者们利用基本的深度强化网络与其它算法结合，引出了新的概念和方法，并将其应用于工程领域，取得了很多成果。Finn等结合采用深度强化学习应于机器人抓取动作的预测，在研究训练机器人抓取策略的同时实现图像预测算法的自监督训练。此外深度强化学习在路径规划、自然语言处理、无人驾驶、轧钢故障检测等领域也有应用。

深度强化学习被认为是实现具备完全自主能力的人工智能的重要理论支撑。深度强化学习具有自监督学习能力，可在复杂的环境中自主与周围环境进行交互。同时对决策和状态也有强大的表现能力，可以在复杂的情况下作出决策。深度强化学习在路径规划方面最主要的优势在于其不依赖人工标记轨迹，只需设置规划原则如运行路径最短、无障碍物碰撞和目标点等，然后在虚拟试验平台或者现实环境中训练神经网络即可。但是深度强化学习在路径规划上仍也存在很多不足之处，如路径规划时效性差、遇障碍多次转向等问题。本文为了提升路径规划的时效和准确性，基于DQN 算法提出了一种改进型卷积神经网络GNN 与Q 网络相结合的深度强化学习算法，并对该算法模型进行了仿真，结果表明该算法能有效地降低巡检机器人路径规划时间，路径规划精准度达到98.3%。

2 强化学习算法

强化学习方法中一种经典有效的算法为QLearning 算法,因该算法具有简单实用的特点，被广泛应用于机器人路径规划导航中。其基本形式如式（1）。

式中：s——状态；

a——状态s中选择的行为；

α——学习系数；

r——行动得到的奖赏；

γ——比例系数；

maxQ（s′,a′）——在下一个状态中行动所取得的Q值最大值。

具体步骤：

初始化Q()

s,a为任意值；

初始化s为任意值；

根据贪婪策略执行某一行为a，并转移到新状态s′；

根据更新规则更新上一状态的Q值；

直到完成特定步数或者s达到终止状态。

强化学习算法流程见图3。

图3 强化学习算法流程

3 深度强化学习算法

在基于学习的方法中，可以利用深度学习在处理高维信息和强化学习处理复杂环境中连续决策的优点，组成深度强化学习。利用双目视觉摄像机采集环境信息，建立立体的检测模型，并采用深度学习算法感知环境，以得到具体的状态特征信息。利用强化学习进行预期回报评判，然后通过动作策略将当前的状态映射到机器人的具体动作输出。机器人在得到动作策略信号后进行动作，之后双目视觉采集到新的特征信息，以此不断循环，最终实现路径的最优化。深度强化学习算法是一种独立于人为标记的算法，该算法与环境进行试错交互，并且将巡检机器人的状态参数作为初始输入，以动作值函数的估计值输出作为自驱动，从而提升路径规划的快速精准性。深度强化学习框架见图4。

图4 深度强化学习框架

由于巡检过程中采集到的数据信息量大，本文设计的路径规划算法基于DQN 算法，将改进卷积神经网络GNN 与Q 网络相结合。卷积神经网络是一种与人视觉神经网络非常类似的算法，当神经元层数达到一定数量的情况下就能给提取到巡检现场的丰富信息。考虑到卷积神经网络计算耗时长的问题，对卷积神经网络加以改进，卷积层批量归一化处理，以减少模型收敛时间，加快处理速度，同时连接层逐层缩小，以降低图像匹配时间。改进卷积神经网络算法流程图见图5。

图5 改进卷积神经网络算法流程图

4 仿真研究分析

变电站的设备实际布局与地理环境等是固定的，在进行分析过程中为了便于建立模型，同时也为了方便数据处理，只需将主要的环境和设备进行识别建模，可以对变电站进行平面分析，建立栅格进行研究。改进DQN 的路径规划算法流程图见图6。

图6 改进DQN的路径规划算法流程图

图7 是在10×10 栅格环境下分别采用普通DQN算法和本文所设计的改进型DQN 算法做对比。在仿真分析过程中，黑色区域为机器人巡视过程中的障碍物及其自身膨胀处理后的障碍区，普通DQN 算法和改进型DQN算法的迭代次数都设置为100次。

图7 两种算法巡检机器人路径规划仿真结果比较

通过图7（a）所示经过迭代学习最终得到的最优路线基本相同，但是通过图7（b）图所示的两种方法的收敛速度可以看出本文设计改进型深度强化学习的学习速度更快，稳定性更好。综上，本文提出的改进型卷积神经网络GNN 与Q 网络相结合的深度强化学习算法能给更快的进行巡路径规划，有效提高巡检机器人路径规划的效率。

5 结论

结合变电站巡检机器人路径规划问题特点，介绍了强化学习与深度学习，并将两种算法进行了融合，研究了深度强化学习。针对DQN 算法提出了一种改进型卷积神经网络GNN 与Q 网络相结合的深度强化学习算法[5]。通过对改进的DQN 算法进行仿真，试验结果表明在同样的环境下进行路径规划训练，改进型算法能够在较小的迭代次数下完成最优路径的规划，表明该算法的收敛速度更快，更有效地节约巡检用时。