基于元强化学习的电力巡检机器人运动控制系统设计

2022-10-15 08:39党永南聂雷刚王愚

微型电脑应用 2022年9期

党永南，聂雷刚，王愚

(1.广西电网有限责任公司，广西，南宁 530000;2.广西电网有限责任公司南宁供电局，广西，南宁 530022)

0 引言

经济的快速发展带动用电量大幅度增加，电力系统成为社会发展中最为重要的一部分。以往对电力系统巡检作业采用的是人工巡检，工作效率低下，有时还会出现漏检的情况，致使电力系统存在安全隐患。因此，电力巡检机器人应时而生。通过对巡检机器人施加思维感知、行动能力，借助远程红外热成像技术和远距离传感器模仿人类活动，实现了非接触式巡检，不限制作业范围和天气环境，确保电力系统处于安全可靠的运行环境下。巡检机器人的运动控制属于一种序列决策问题，机器人在接收到运动命令后，立即作出连贯性的动作反应。对于机器人的运动控制，也有相关学者对此展开深入研究。

文献[1]在巡检机器人位姿跟踪误差的基础上，采用双闭环方法实现对机器人的运动控制。双闭环分为内环和外环，由外环为内环控制器提供虚拟参数，再与机器人的虚拟参考速度相结合，完成对机器人的自适应运动控制。该方法采用虚拟参数，避免了由于参数过于复杂无法实现控制的情况，但是对于机器人启动和停止时产生的加速度和减速度没有进行研究，致使控制误差较大；文献[2]以CPU架构为基础，提出了六自由度机器人控制器设计方案。控制器由硬件和软件构成：硬件主要对通信连接模块、网络连接模块和编码器模块等进行详述，软件部分则主要对多种服务协议进行了具体分析。通过测试，该控制器可以实现机器人的平稳运行，但是同样没有考虑到机器人的突然加速和减速，运动控制误差较大。

基于此，本文在元强化学习算法的基础上，对机器人运动控制系统提出了一种新的设计方案，其中元强化学习算法隶属于机器学习的一种，对于序列决策问题有着很好的处理效果，而系统由硬件和软件两部分构成：硬件部分实现了系统的通信和供电，本文选择的是本安电源，在一定程度上提高了系统的安全性；软件部分主要为系统提供通信功能码支持和速度分配与控制，由元强化学习算法实现，对于机器人运动过程中的速度变化分别进行了计算，使机器人处于平稳运行状态下，降低因突然加速和减速造成的误差。通过对系统进行性能测试，结果表明，本文方法对于电力巡检机器人的运动路线控制和速度控制都有着显著效果，为电力系统提供了科学的参考依据。

1 元强化学习下电力巡检机器人运动控制系统设计方案

1.1 系统硬件设计

本文设计的运动控制系统硬件主要以通信和电路设计为主，通信以以太网为主，电路设计则包含了本安电源电路以及各类驱动电路的设计，具体内容如下所示。

1.1.1 以太网通信模块

本文在设计系统通信模块时，利用以太网来实现，将SPI接口与以太网控制器连接在一起，凭借TCP协议栈，建立多种协议之间的连接。在系统设计阶段，只需要在对应模块内进行简单的套接字编程即可，不需其他高难度的开发。同时，本文还引入了RJ45接口和隔离变压器[3]，使以太网与系统之间实现了物理连接，降低了系统开发成本。

1.1.2 本安电源电路模块

电力系统巡检工作事关重大，属于高危行业，在电源电路的选取上要尤其注意。因此，本文选择安全性极高的本安电源，芯片选择专用芯片B35，对系统输入12 V本安电压，输出1.2 A本安电流。以上材料的结合，实现了非本安电源无法达到的隔离效果[4]，并且提供了过流、过压保护，避免电池过热出现爆炸的情况。电源电路模块设计图如图1所示。

1.1.3 PWM信号驱动电路模块

电力巡检机器人的额定电压为3.3 V，而信号驱动电路的输入电压为12 V，所以，需要进行PWM(脉冲宽度调制)操作，将电信号进行放大处理，使得PWM的驱动性能在一定程度上得以提升。驱动电路模块设计图如图2所示。

图1 本安电源电路模块设计图

图2 运动控制系统PWM信号驱动电路模块

1.1.4 电源转换电路模块

由于本安电源供电系统输出的额定电压为12 V，而远程控制系统所需的额定电压为3.3 V和5 V，二者之间不兼容。因此，需要对电压进行转换，电源转换电路模块设计如图3所示。

图3 电源转换电路模块设计图

从设计图3中可以看出，5 V电压转换选择的LM2596_5.0芯片，具有良好的自我保护功能，同时对于线性调节和负载调节[5]均具有显著的优势；3.3 V电压转换选择的是AMS117_3.3芯片，可完成转换的电压平稳输出，不仅如此，它还具有超强的电力限制和热保护功能，平均负载电流高达800 mA，设计简单、易实现。

1.2 系统软件设计

系统软件设计是在Keil5开发平台上实现的，电力巡检机器人在实际作业过程中，主要的运动包括启动、前进、后退、转向、停止。为了使机器人可以根据命令到达指定场所进行巡检作业，在运动控制系统软件部分，本文设计了速度分配与控制和通信两个模块。通信模块的主要作用是接收指令，速度分配[6]与控制模块的主要作用则是根据接收到的指令完成相应的操作。系统软件部分设计如图4所示。

图4 系统软件部分设计图

由图4可知，电力巡检机器人通过电机驱动通信模块进行通信，接收运动指令，在接收到指令后，通过速度分配与控制模块对指令进行分析，将驱动轮的速度提取出来，看是否需要加减速，如果需要加速，则进入加速状态，如果需要减速，则进入减速状态，并将速度分配给驱动轮，令机器人开始执行巡检作业。

1.2.1 电机驱动通信模块

远程控制系统与巡检机器人之间通过以太网进行通信，软件部分采用的是MODBUS协议，该协议的优点在于通用性强，配有多个接口，可实现不同程序之间的通信。因此，本文将MODBUS协议应用到通信模块软件部分，为上位机或者运动控制器提供便捷的通信服务[7]。

本文的电机驱动器所适应的MODBUS功能码如表1所示，共包含6种功能码。

1.2.2 速度分配与控制模块

在接收到运动指令后，速度分配与控制模块先对指令进行分析，将驱动轮的速度提取出来。这里需要注意的是，通信模块传送过来的速度是字符串[8]的形式，而该模块中的速度是以数字的形式呈现，所以需要对二者进行格式上的转换。将完成转换后的速度分配给驱动轮，使得巡检机器人开始执行作业。字符串与数字格式之间的速度值转换流程图如图5所示。

表1 电机驱动器适应的MODBUS功能码

图5 速度值格式转换流程图

由字符串与数字格式之间的速度值转换流程图可知，在电力巡检机器人通过电机驱动通信模块进行通信接收运动指令后，对运动指令进行分析，看速度值的首位是否为负号，如果为负号，则signal=1；如果不为负号，则查看其他字符是否在0～9之间，若在，则依次将字符与0相减乘10再相加，存入result中，使result与result*signal相等，若不在0～9之间，则返回指令分析步骤，重新分析，从而完成速度值格式转换。

在速度控制模块中，本文通过元强化学习算法来实现。元强化学习算法与其他算法不同的是，可以实现与环境的交互[9]，提取交互过程中的反馈信号。无需提前设置，随时可进行信号的输入，同时以最大化未来回报为学习目标，使得输出结果为期望值。所以，元强化学习算法具有其他算法所不具备的自学习特性和学习能力。

元强化学习算法通过智能体与环境的交互，随着信号的不断输入，逐渐进入到学习环境中。智能体对环境进行遍历和感知，将所得结果反馈给机器人，制定运动路径规划[10]。该算法可有效避免机器人在行进过程中出现较大的噪声和抖动，降低运动控制误差以及机器人自身的损耗。不仅如此，元强化学习算法还有效避免了因机器人启动和停止带来的突然加速和减速，使机器人始终保持在平稳的运动状态下[11-13]。

在电力巡检机器人的运动控制系统中，速度由7个不同的阶段构成：突然加速、匀加速、缓慢加速、匀速、突然减速、匀减速和缓慢减速。具体如图6所示。

图6 元强化学习算法下电力巡检机器人运动速度

从图6中可以看出，电力巡检机器人的运动速度变化曲线为S型，速度曲线和加速度曲线为连贯的，没有出现突然加速的情况，这就可以实现机器人平稳的运动。

电力巡检机器人速度、加速度和突然加速的计算式为

(1)

(2)

式中，a(t)表示加速度函数值，a表示加速度，t表示时间,τ表示一个时间常数，j(t)表示突然加速度函数值，v(t)表示速度函数值。对j(t)进行积分计算即可得到a(t)，再对a(t)进行积分计算即可得到v(t)。

各个函数值的计算表达式如下。其中，J表示突然加速度最大值，-J表示突然加速度最小值，V2表示t2时刻下机器人速度，其余同理，t1-t7参数解释如图6所示。

突然加速度函数表达式为

(3)

加速度函数值表达式为

(4)

速度函数值表达式为

(5)

2 系统性能测试

2.1 测试环境

在光纤通信网络设计中，为了验证本文设计的运动控制系统是否可以正确引导机器人按照指令进行电力巡检作业，分别对运动控制方向和速度控制进行了系统性能测试。在实验室内部模拟机器人作业环境，所有数据记录在SQL Server 2015数据库内。

2.2 巡检机器人运动方向控制测试

在模拟的测试环境，巡检机器人预定运动路线如图7所示。图中，网格区域为障碍物，控制机器人从(0，0)出发，按A-B-C-D方向前行，直至返回(0，0)坐标。

图7 机器人预定路线轨迹图

将机器人实际行进路线记录为二维图像，验证本文方法对机器人运动控制是否合理有效，图8、图9分别为运动路线轨迹和误差图。

图8 机器人路线运动轨迹图

(a) Y轴误差

从图8中可以看出，本文方法下机器人运动路线与预定路线基本吻合，没有出现太大的偏差。但是通过图9能够看出，机器人从一个地点的作业转移到下一个地点时，都会产生些许误差，角度也会偏差。这是由于机器人在启动加速阶段和减速停止时，其自身重量导致的惯性引起的。总的来说，在测试过程中，巡检机器人没有碰撞到任何障碍物，由此可以证明，本文设计的机器人运动控制系统适用于电力巡检作业。

2.3 速度控制测试

为了验证本文方法对电力巡检机器人的运动速度控制是否同样有效，通过MATLAB仿真软件与双闭环方法和CPU架构2种方法进行了对比测试。为了使机器人的启动速度测试准确，在开始测试之前，将3种方法中机器人的速度进行统一设定，并进行多次迭代测试，取速度的平均值：最大速度设为1 m/s，最大加速度设置为50 cm/s，最大突然加速度则设置为20 cm/s，初始速度为0，在3 s内加速到1 m/s，保持速度3 s，随后控制机器人停止运行，速度重新降为0。

测试在MATLAB仿真软件上实现，记录3种方法测试中产生的所有数据，3种方法运动速度控制结果如图10所示。

图10 3种方法速度控制对比结果

从图10中可以看出，3种方法中，不管是在加速阶段还是减速阶段，本文方法的速度变化曲线最为平缓，双闭环方法和CPU架构都出现了突变的情况，只有本文方法始终将机器人的运动速度控制在平稳状态下。这是因为本文方法引入了元强化学习算法，针对机器人运动速度的几个阶段都可实现平稳运行，降低因突然加速和减速导致的路线偏差，提高机器人的巡检效率和控制精度。

3 总结

传统方法在对电力系统进行巡检作业时，采用的都是人工巡检的方式，不仅效率低，对于一些异常情况可能出现漏检，因此，电力巡检机器人应时而生。在研究巡检机器人的过程中，运动控制系统是最为重要的环节之一，直接影响着机器人能否按照规定路线行进。基于此，本文在元强化学习算法的基础上，提出了电力巡检机器人运动控制系统设计方案。由元强化学习算法对机器人运动速度进行控制，使其保持在一个平稳状态下，避免因突然加速或减速产生较大的抖动和噪声，从而有效提高了电力巡检机器人的控制精度。