基于强化学习的多机器人协作控制方法分析

2020-06-29 09:44王旭升

大众科学·中旬 2020年6期

王旭升

摘要：机器人通过强化学习能够和环境进行交互，并通过交互内容不断对自身性能和工作方式进行改变，进而适应复杂条件的作业任务，已经成为了机器学习重要技術。但是强化学习的时间却并不受到控制，并和机器人数量有着一定的关系，数量增多其交互更加复杂，这就给机器学习带来了一定的难度。因此需要群体智能算法对多机器人协作控制提供更为优秀的改进，帮助机器人更好的完成群体任务。

关键词：强化学习;多机器人;协作控制

前言

人工智能的发展使机器人能够实现自主强化学习，但是在实际操作中，多机器人协作控制并不是特别容易实现，随着机器人数量的增加，交互过程更急复杂，学习效率更为低下。这就导致机器人在行为上的不可预测性。蚁群算法则是可以通过寻找最优路径的概率算法，可以被应用到增强学习中去。本文对基于强化学习的多机器人协作控制进行了简单概述，提出了区别于传统强化学习方案的算法，并结合仿真实验结果，对相关技术特点进行了研究。提供了良好的解决方案。

1 基于强化学习的多机器人协作控制的简单概述

机器人学的发展，使分布式人工智能和系统的研发工作成为了可能，这些机器人在实际工作中有着十分宽广的使用领域，较为低廉的成本，在机器人研究中成为了热点，但是由于受到技术条件的限制，在进行对机器人系统的研究中，个体机器人通过协作完成复杂条件下的工作任务，并通过学习对环境进行适应，还需要感知度环境的动态变化，提升任务处理能力。因此强化学习作为一种能够不断适应新情况的模式，能够实现高度反应性和自适应性。从而对于机器人的工作能力有所提高。但是，在实际的将技术层面需要对多个机器人的协作能力进行调整，使其适应复杂的工作环境。单机器人的强化学习已经取得一定的成功。但是在向多机器人协作进行迁移的过程中，却存在着诸多不可控因素，如出现新的交互，学习速度慢等，在实际应用中表现不尽如人意。而机器人足球，作为多机器人协作的重要组成部分，能够为强化学习提供重要的实验素材[1]。

2 多机器人合作学习研究

在进行机器人学习研究中，机器人数目一旦增多，对其学习决策行为的变化，也会有着不稳定因素。如在学习早期阶段，机器人的动作都是随机的，在机器人数目增多的过程中，其随机性变化呈现指数级增加。因此这个阶段的机器学习，存在着不可预知的后果，影响着机器学习成功性。针对如何决定机器人的学习次序，可以通过人工势场法的方式引入学习优先级。在学习阶段确定其中优先级较大部分进行学习，该机器人作为整个机器人团队的核心成员，暂定为决策机器人。使其他机器人能够按照上个周期学习过的策略进行动作学习。要求对已经学习过的动作进行执行学习策略。对应学习过的动作值为Q，然后进入下一个学习周期，之后的机器人可以采用同样的方法进行学习，使其处于固有的学习策略的阶段，并且由优先级排在后面的机器人完成相应的学习任务，对学习过程进行循环，直到完成相关学习。

在强化学习阶段，需要每个机器人能够根据对每个局部的感知，进行局部场势的计算，结合LPL参数进行排序。并由LPL值最大的机器人根据学习算法，并首先对上个周期学习的策略进行学习。其他机器人随后在此机器人的配合下，完成相应的学习状态。并根据上个周期的策略进行执行下一个动作。机器人n对更新的策略进行动作反应，其他机器人也进行动作更新。依次进行重复，确保机器人的强化学习算法能够更好的完成[2]。

3 仿真实验

对机器人的动作效果进行评价，并设立短期奖励函数，具体公式如下：

其中P指的是执行学习的机器人，s环境状态用s表示，t表示学习时间，阈值C则展现对该函数的判断家里效果。以足球机器人为例，如果进球则奖励为1，丢球则标示为-1，如果在指定的时间内没有获得进球，则可以判定奖励为0。取值范围应在[-1，1]之间。本测试需要划分机器人的活动场地，其中M代表了整支队伍。

4 仿真结果分析

对测试文本算法进行校正，经过反复训练和传统的算法进行比较，其中在仿真训练阶段，进行了500场训练，仿真周期为1500，每隔10场进行一次仿真训练。并在学习训练中，对比赛结果则需要由独立训练过程进行重组，如果比赛有一方结束进球，完成一次训练周期。如规定时间内没有进球，则判定为平局。在测试中，将机器人分成两组进行训练，其中一支为传统学习算法。另一支则是以本算法进行仿真实验。对比两种算法，本算法学习效率等方面明显优于传统算法，在学习时间上以及学习效果上都得到较为良好的效果。这就说明了本算法能够对输入状态空间进行改变，减少不必要的算法冗余，提升了机器人的学习速度[3]。

总结

总之，在进行多机器人协作研究中，通过以足球机器人研究发现，其中并不需要复杂的算法，只需要通过设置机器人学习的优先级，并以此为基础进行依次学习，并配合蚁群算法，智能涌现等先进的技术，通过强化学习算法，对多机器人的协作能力给予一定的帮助，进而完成相关研究工作。为今后的多机器人协作提供算法支持。

参考文献

[1]高慧. 基于强化学习的移动机器人路径规划研究[D]. 2016（22）：52-53.

[2]丁明刚. 基于多智能体强化学习的足球机器人决策策略研究[D]. 2017（15）：41-42.

[3]任红格，向迎帆，李福进. 基于内在动机的智能机器人自主发育算法[J]. 计算机应用， 2015， 35（9）：2602-2605.

大众科学·中旬2020年6期

大众科学·中旬的其它文章: 守护乡村的希望; 巧用生活知识提高小学数学教学质量的技巧; 小学高年级语文课外作业分层训练方法研究; “阳光体育运动”的有效性在高三体育教学中的实践与思考; 浅析初中语文教学中有效融入优秀传统文化的途径; 从社会学视角分析基因编辑技术的发展