基于Agent强化学习的地图迁移学习算法

2014-04-29 13:30:57张炎刘博文

电子世界 2014年15期

张炎刘博文

【摘要】强化学习是Agent学习中广泛使用的方法，在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用，但学习速度慢是强化学习的主要不足。迁移学习可从源任务中获得与目标任务相关的知识，利用这些知识去提高学习效率与效果。本文提出Agent地图迁移算法，实现了Agent在不同状态空间下的经验迁移。实现将Agent在简单环境中的学习经验迁移到复杂环境中，实验中验证了算法可加快Agent路径规划速度。

【关键词】Q学习;强化学习;地图迁移

对于人类来说，我们可以有意或无意的从过去已经学习过的任务中获取大量知识，把他们保存下来，当某天我们遇到新任务时，我们就可以从已经获取的只是种提取出对学习当前任务有用的部分，利用他们提高学习效率和效果。把已经学习过的任务称为“源任务”，把待学习的新任务称为“目标任务”。

迁移学习作为一种智能化的学习方式，其目的是为了更有效的学习“目标任务”。在这一过程中，我们可以从与目标任务相似的“源任务”中去获得一些与目标任务相关的信息，然后通过把它们添加至目标任务中帮助提高目标任务的学习效率与效果。

1.地图迁移

本文将Agent在简单环境中路径规划学习经验，迁移应用到在复杂环境中的路径规划学习。在简单环境中将通过强化学习算法[1]中的一种即Q学习算法更新Q值获得的经验作为待迁移的经验，当Agent处于复杂环境中时，可将这经验迁移到复杂环境中，加快Agent在复杂环境中的路径规划学习速度。本文研究Agent在简单环境中的路径规划学习方法，将学习策略[2]应用到在不确定障碍物的复杂环境路径规划学习中。在迁移过程中，可以根据复杂环境状态引入障碍物，根据环境的不同而将经验做相应的调整后，迁移到复杂环境中，这样的迁移学习可以避免环境的特殊性。

1.1 简单环境中障碍物设置

在简单环境中不设置障碍物，原因有两点：首先，障碍物个数、位置、是否移动等因素均不能确定，找不到有代表性的简单环境;其次，若设置障碍物，就需要根据复杂环境去有针对性地设置，这样的迁移只是对某一复杂环境有效果，对于其他复杂环境没有效果。在现实中，环境不断变化，找不到相适应的且具有代表性的简单环境，更不能谈将在简单环境中的路径规划学习经验迁移到复杂环境中。故不设置障碍物可以排除环境的特殊性。

1.2 经验迁移

定义1：rb为环境中障碍物的奖赏值。在迁移过程中用以动态引入障碍物时调整障碍物所在位置的Q值。

本文算法中用到迁移学习将简单环境中的经验应用于复杂环境中，即将简单环境Q表中每个被迁移点的Q值，加上迁移点的奖赏值所得数值作为迁移点的Q值。如式所示：

本文算法虽然在简单环境中没有障碍物，但在迁移过程中，可以根据复杂环境状态引入障碍物，这样的迁移学习可以避免环境的特殊性，根据环境的不同而将经验做相应的调整后，迁移到复杂环境中。

1.3 迁移时机

当Agent到达某点且之前无这点经验时，应用迁移学习，由迁移学习本身定义可以知道，正是因为Agent在陌生环境中无经验，所以才需要迁移以往的经验以帮助Agent加快学习速度，更快地找到最优路径。算法解决的问题是Agent在新环境中一开始学习时无经验，故当Agent已经有了在环境中的经验时，此时不需要迁移。

2.基于Agent强化学习的地图迁移学习算法

本文提出基于Agent强化学习的地图迁移学习算法。Agent在第一次学习时，首通过迁移学习算法将经验迁移到复杂环境中，再使用Q学习算法，找到局部最优路径。重复上述过程，直到Agent到达目标点为止。本文的地图迁移算法不同于之前研究较多的基于相同状态空间下的经验迁移[3-4]。下面为算法描述与实验数据。

算法的伪代码表示如下：

For times=1 to epiosodes

if（times==1）

transfer（）//执行迁移学习算法

End_if

Else

While（s_now ！=s_final）//Agent未到终点

Q_Learning（）//执行Q学习算法

End_while

End_for

3.仿真实验与分析

程序随机生成9条路径，分别用迁移学习和未应用迁移学习寻找路径，统计Agent找到最优路径所需迭代次数，实验结果如下。

迁移学习不迁移学习

27 41

13 32

21 31

23 27

23 24

12 19

15 19

52 44

13 18

由上表可以看到，9次实验中当Agent进行迁移学习时找到最佳路径所需迭代次数比相同情况下未进行迁移学习的次数少，同时也发现了1次负迁移情况，下文给出关于负迁移的讨论。

4.负迁移

上述實验中，随机选择9条路径中有1条路径产生了负迁移情况。通过实验发现，迁移的经验多迁移效果也有很大影响。不同的迁移经验会带来不同的效果。目前还未找到一组最佳的迁移经验，以后可以做这方面研究。

5.结论

本文提出地图迁移算法，在简单环境中将通过Q学习算法更新Q值获得的经验作为待迁移的经验，当Agent处于复杂环境中时，可将这经验迁移到复杂环境中，加快Agent在复杂环境中的路径规划学习速度。在迁移过程中，可以根据复杂环境状态引入障碍物，根据环境的不同而将经验做相应的调整后，迁移到复杂环境中，这样的迁移学习可以避免环境的特殊性。为不同环境空间下Agent经验迁移研究打下了基础。

参考文献：

[1]顾国昌，仲宇，张汝波.一种新的多智能体强化学习算法及其在多机器人协作任务中的应用[J].机器人，2003，25（4）：344-348.

[2]Schmidhuber Juergen.On learning how to learn learning strategies[J].1995.

[3]Perlich C，Dalessandro B，Raeder T，et al. Machine learning for targeted display advertising：Transfer learning in action[J].Machine Learning，2013：1-25.

[4]Torrey Lisa，Shavlik Jude，Walker Trevor，et al.Relational skill transfer via advice taking[C].Proceedings of ICML Workshop on Structural Knowledge Transfer for Machine Learning，2006.