韩兆荣,钱宇华,2,刘郭庆
1(山西大学 大数据科学与产业研究院,太原 030006)
2(山西大学 计算智能与中文信息处理教育部重点实验室,太原 030006)
部分可观测问题[1]模拟了人类日常工作中时常面临的信息不对称、信息不完全挑战或博弈情景.在部分可观测环境问题设置中,智能体仅可观测到环境部分信息,即智能体被限制了观测范围,无法通过环境得到其可观测范围外的任何信息,同时智能体也无法通过观测得到其他智能体内部策略变化与观测范围外的动作选择.因此部分可观测环境下,多智能体需要互相协作完成环境任务时,必须通过某种方式补全所需环境信息或关键环境信息、以及其他智能体动作选择或动作选择概率,从而提高智能体协作能力满足任务要求.
目前用于处理多智能体任务的深度强化学习架构分为4种类型[1]:无关联型[2,3]、通信规则型[4,5]、互相协作型[6,7]、建模学习型[8,9],其中通信规则型是目前用于解决多智能体协作问题的主流架构之一,总体架构图如图1所示.通信规则型架构通过模拟人类交流的模式,通过建立智能体通信通道完成智能体信息交互.智能体对得到的信息进行学习,能够形成通信规则[1,4]用于解释信息内涵,实现智能体的“听说”,使智能体间交换信息成为可能.经由这种架构学习得到的通信规则使智能体可以得到更加全面的环境信息或其他智能体相关决策信息,增强智能体在部分可观测环境中的决策能力与协作能力.目前被用于通信规则型架构的智能体通信通道主要分为3种类别:传递梯度信息通道类[4,5,10],平均化信息后传递类[11],经验信息传输类[12,13].这些不同的信息通道区别在于产生与处理信息的方式,但总体架构仍遵循通信规则型架构.
图1 通信规则型算法架构
本文对梯度信息通道方法进行研究,发现目前梯度信息通道存在传递信息复杂、信息处理简单、信息不稳定等多种问题,可以统称为信息质量问题.在处理部分可观测环境问题时,智能体高度依赖其他智能体的传递信息以补全环境信息与其他智能体决策信息.此时传递信息若复杂、不稳定将会导致智能体出现决策困难、表现差、协调性差等问题.因此怎样提高传递信息质量是提升部分可观测环境下智能体协作能力与总体表现的关键问题.当前,自注意力机制被证明在信息提取中具有极其优秀的表现[14-17],在自然语言处理与图像识别等领域中被广泛运用.本文利用这一特性,通过通信信息提取以提升通信信息质量,最终提出了一种基于自注意力机制的新型信息处理单元TDU(Transformer Dispose Unit).通过此信息交换通道能够根据学习的信息价值进行信息筛选,减少信息冗余提升信息质量.信息传递至目标智能体后同时会返回相关梯度信息用于更新信息通道与智能体网络,实现了端到端的信息产生、信息处理、信息利用的过程.最终本文算法在经典的智能体通信能力测试环境[18]中与其他多智能体深度强化学习算法进行对比并取得了优秀的成绩,证明了基于自注意力的信息处理单元能够有效提升通信信息质量.
本文工作的主要贡献如下:1)创新地将自注意力机制应用于多智能体通信信息处理中;2)提出的信息处理单元能够有效的提升智能体信息质量;3)改进信息产生算法使智能体信息值具有规律性,实现了端到端的交流过程.
主流的通信规则型算法中,DIAL[4]算法为热门的梯度信息传递类方法,其通过将智能体信息值输入激活函数构成的信息处理单元,返回发送信息智能体信息梯度更新网络参数,同时输出智能体激活后的智能体信息值提高智能体协调能力.但是DIAL算法产生的信息值是人为事先定义的,并且传递通道过于简单无法对信息进行精细加工,缺少稳定性与信息多变性.
CommNet[5]是经典的平均化信息通道类方法,算法由一个前向传播神经网络组成,网络每层的不同神经单元代表了不同智能体,神经单元的输入值为智能体的输入值,输出智能体动作值.其建立的通信通道为连接相邻两层神经网络的平均化信息处理器,该处理器对所有神经单元(即智能体)的输出值计算平均值传递至下一层神经网络所有智能体中,同时所有智能体将会继承自身历史信息.但是,CommNet仅由一个大的神经网络构成,智能体数目由网络参数决定,缺少智能体数目延展性,同时使用的网络方法也较为老旧,在增加智能体数目后表现下降明显.
BiCNet[12]基于传统执行者-评论者神经网络结构添加了双向循环RNN进行信息传递,将执行者的历史信息经过RNN循环至下一个智能体的执行者网络中,同时评论者的历史信息会反向循环至上一个智能体的评论者网络中.BiCNet被应用与战争游戏环境中,然而算法并不是基于不完全观测前提建立的,算法假定智能体能够得到完整的环境信息,缺少不完全观测环境处理能力.
在通信规则型方法最新的研究中,SGA-RL[18]方法针对智能体通信距离与通信带宽等问题,利用软图注意力方法合理规划智能体间通信路径,扩大智能体交流范围.R-MADDPG[13]方法算法利用RNN网络对智能体历史信息进行传递,对MADDPG算法进行改进,提高算法在部分可观测环境中的表现.文献[10]提出了使用注意力机制的历史信息选择方法,将智能体分为主从两种方式,由信息注意器提取主智能体历史信息并广播至从智能体,是使用注意力提取历史信息用于传递的一种新型尝试.虽然,以上方法在相应任务中均取得了不俗的表现,但这些方法并未对信息质量问题有所关注,缺少信息合理加工与筛选的过程,导致缺少处理复杂或低质量信息的能力.文献[19,20]关注于智能体信息传输方向与选择对象方面的研究,通过选择特定智能体提高信息传输的效率.
基于提高部分可观测环境中通信信息质量的需求,本文通过提高智能体信息产生能力与信息处理单元的信息处理能力,提升智能体在部分可观测环境中协作任务的表现.本文提出使用了基于自注意力机制的通信信息处理单元TDU与相应通信规则型算法.在信息产生的方式上提出使用了基于无模型强化学习方法DRQN[8](Deep Recurrent Q Network)算法搭建了通信规则型智能体,能够自主产生通信信息,利用信息通道返回的梯度信息进行学习,提高信息生成的合理性与理解信息的能力.在信息处理的方式上提出基于自注意力的信息处理单元,利用自注意力机制筛选高注意力信息并进行选取传输,从而去除低注意力信息,提高信息利用率.在得到环境反馈后,经过智能体网络与信息处理单元的更新优化,会进一步提升产生信息的质量与信息选取的准确度.
整体网络架构由智能体网络与信息处理单元两部分组成.每个智能体经由TDU单元与其他智能体相连接,按照环境的要求选择产生信息的智能体并将信息传递至TDU单元,经过TDU处理的信息将传递至被选择的接收信息智能体完成信息传递.通过本网络架构保证了智能体之间的独立性,即每个智能体拥有独立的决策网络、观察信息、接收信息,这些信息均为私有信息.使用统一的信息处理单元TDU,能够保证智能体传输的信息处理结果是趋同的,提高所有智能体对信息的理解力,加快通信规则的建立.最后通过建立的通信规则能够完成端到端的信息传输过程,使智能体间能够进行信息交换用以完成环境任务,最终提高智能体协作能力.TDU整体网络结构图如图2所示.
图2 网络架构整体
智能体产生的原始通信信息在很大程度上决定了之后信息处理的难度与处理后信息的质量,目前主流的通信规则算法往往传递决策网络值或动作值进入通信通道,在进行分布式执行时,产生的传输信息将会依赖智能体网络质量,同时在包含过多智能体数目或动作空间复杂的环境中,传输的信息值维度会指数增长,因此产生的信息应该独立与网络决策值或动作值,限制产生信息的维度与范围有利于解决复杂环境问题.本文基于简单可靠的DRQN网络算法,通过选择通信信息作为智能体动作选项加入智能体网络算法中.将这种特殊的动作记为m.通过环境的奖励值回报能够进行初步的信息选择与学习,使智能体网络使用这种方式可以实现信息值的产生与阅读.对于DRQN其原始Q值在不完全观测环境中定义如下:
Q(o,a)=Eπ[Gt|O=o,A=a]
(1)
其中Gt为累计奖励值,将产生信息动作视为一种独立的参数M后,得到的Q值定义如下:
Q(o,a,m)=Eπ[Gt|O=o,A=a,M=m]
(2)
M为信息值集合,m为选择的信息值,m∈M.初始值由智能体网络随机产生,在经过不断学习后,智能体通过损失函数对信息值的生成策略进行更新,通过提高信息值具有的期望回报的方式,提高信息值m的质量.对于m值的产生方式如公式(3)所示:
(3)
其中,信息值初始设定为随机的0至1的数,在之后的回合中,信息值将选取智能体产生的最大Q值对应的信息值进行传输,其值区间仍为0至1.
图3 智能体神经网络结构
每个智能体都采用了相同的神经网络结构、误差计算方法与动作选择策略.采用这种设置能够使智能体拥有更加一致的信息产生背景,能够提高智能体间的信息理解力与通信协议的产生速度,同时也能够保证该多智能体环境拥有更好的策略相似性与稳定性,能够有效提升智能体间协调执行动作完成环境任务的能力,最终提升智能体的训练效率,加快智能体网络动作选择与通信选择策略的收敛速度.
基于自注意力机制能够有效提取信息的特点,本文提出利用自注意力机制进行信息筛选构建信息处理单元,提取具有高注意力的信息,达到提升信息质量的目的.本文提出的通信单元由自注意力编码器与自注意力解码器两部分组成:编码器将传入的智能体信息进行自注意力计算,计算信息价值;使用解码器基于智能体状态动作价值选取并传输高价值信息,去除低价值信息或重复信息,提升信息质量、降低信息冗余.利用解码器返回智能体的信息价值进行误差计算,提升智能体产生信息质量并加速通信规则建立.同时为进一步提高信息质量,智能体会在训练中会生成多个平行信息,这些信息来自于同网络应对同观测时的信息输出,将输入的信息合并后输入编码器,之后在解码器中利用智能体Q值对输入的多个信息进行筛选,最后选择高价值信息用于信息传递.通信单元整体结构如图4所示.
图4 通信单元结构
首先,经过每个自注意力处理器后,传输出信息值特征信息与状态特征信息,分别记为Q、K、V3个特征向量.
Q;K;V=mt*ωQ;mt*ωk;mt*ωV
(4)
之后,计算自注意力值并利用Softmax函数进行激活,得到单个自注意力头的自注意力值.
(5)
最后,通过将多个自注意力头拼接并通过一个前向传输网络进行激活,得到最终传输出编码器的自注意力值.
(6)
(7)
(8)
设计通信单元参数更新损失函数如下:
(9)
为了解决这一情况,提出了采用差步更新的方式将智能体网络的更新频率快于TDU的更新频率.通过这种方式给智能体一个合理的更新范围,使其能够适应TDU信息的变化.针对这种方法,关键在于如何设置更新的频率,以及如何设置更新的总次数.经过实验统计,每50回合更新TDU参数能够保证实验结果稳定且表现最优.相关的统计数据请见实验部分统计数据表.
算法1.整体算法
初始化Q网络参数θ1,TDU网络参数θ2
设置差步更新间隔N
设置最大时间步T,设置最大回合数E
定义智能体数目I
For every epoche:
当st≠与t<最大时间步T 时循环
t=t+1
对每个智能体i循环:
根据智能体网络输出动作与通信信息:
将信息传入TDU网络得到处理信息:
结束循环
结束循环
得到奖励值rt与下一个观测ot+1
对时间步t循环至T:
如果满足差步更新间隔N则更新TDU网络:
TDU-LOSS:
对每个智能体i进行循环:
更新网络参数:
结束循环
结束循环
结束循环
为验证本文提出的TDU通信单元在不完全观测环境中提升传输信息质量的效果,本文在主流的多智能体通信规则验证环境Switch Riddle[4,21,22]中进行了大量实验.同时设计了三智能体与四智能体两种环境配置,并与通信规则型算法DIAL、RIAL[4]、无通信DIAL[4](DIAL-NC)以及基线算法DRQN[8]进行实验对比分析.
Switch Riddle环境通过不完全观测环境,对智能体实现通信规则的能力进行测试,在该环境下智能体间传递的信息被严格限制,同时智能体必须协作完成目标任务.所有智能体的回报值相同,智能体额外信息只能通过通信通道得到,因此通信信息质量对智能体通信规则建立与智能体表现起到了决定性的作用.对该环境的原文描述如下:
“监狱中新关押了100名囚犯,监狱长告诉他们,从明天开始,他们每个人都将被关押在一个孤立的牢房中,彼此之间无法交流.每天监狱长都会随机挑选安置在公共牢房中,在公共牢房中存在一个带开关的灯泡,囚犯可以观测到灯泡的状态.囚犯可以自由控制开关,同时囚犯可以宣布他相信所有囚犯在某个时间节点已经都进入过公共牢房中了,如果这个宣称是真的那么所有人会被释放,如果这个宣称是假的那么所有人会被处决.监狱长离开了,那么囚犯们能在有限时间内通过交流得出一种通信协议使自己得到释放吗?[21]”
本文智能体网络设置学习率为0.0005,动量设置为0.05,使用Adam优化器进行网络参数更新,权重衰减系数设置为0.05,RNN网络设置为128层,TD目标设置为100回合.TDU设置学习率为0.0001,使用Adam优化器进行网络参数更新,共设置了6个自注意力解码器与6个自注意力编码器,环境训练每50次更新TDU网络.
测试环境设置为三智能体与四智能体两种任务,三智能体任务设置训练1000次,每10次进行1次测试并输出结果,单回合最多可执行6次智能体通信与动作,四智能体任务共设置训练20000次,每10次进行1次测试,每100次训练输出1次结果,单回合最多可执行10次智能体通信与动作.
两种任务设置分别进行了大量重复测试,将实验结果平均化输出,得到智能体回报轨迹,与DIAL、RIAL[4]、DIAL-NC[4]、DRQN[8]算法进行对比,通过观察智能体回报值变化得到智能体在测试环境中通信规则产生速度,可得出通信质量差距对智能体通信规则建立以及协作能力的影响.实验结果如图5所示.
图5 实验回报值轨迹
根据回报值轨迹可以看出,DRQN算法作为唯一的无通信通道方法在两种训练环境中均表现不佳,证明在部分可观测问题中智能体表现受信息交换能力制约;DIAL-NC算法关闭了通信通道后在1000回合训练中无法收敛,同时在训练较多次后表现远远不如使用通信通道的其他算法;TDU算法相比较于使用通信通道的DIAL与RIAL算法,在3智能体任务与4智能体任务中都具有更快的学习速度、更高的回报结果.具体的实验结果与算法表现如表1所示.
表1 各方法回报值与收敛性对比
TDU与DIAL同时都可以极好地完成3智能体任务,但相比与DIAL算法,TDU的训练所需回合数平均减少了170回合.而没有进行通信信息处理的RIAL、DIAL-NC、DRQN算法均无法达到最大回报值.随着智能体数目增加.
环境情况会变得更加复杂,导致智能体策略空间会成指数级增长.在4智能体环境任务中,各方法均无法达到最大回报,TDU方法仍以0.85的平均回报值超过DIAL算法0.79的平均回报,为所有算法中表现最优算法.同时TDU算法的学习至收敛仅需要5000步即可,相较与回报值次优的DIAL算法达到最优表现需要训练回合数同比减少10000步.
本文针对在训练中,正常更新TDU网络导致的智能体策略不稳定、算法不收敛的问题进行研究,提出差步更新方法限制TDU网络更新速度使总体通信规则更新频率降低,通过不断实验与统计得出相对比较合理的更新速度.本文在4智能体环境中不断进行测试,使用多种间隔回合数进行大量测试,并将得到结果就收敛性、收敛回合、收敛速度、完成学习时的回报值等多个方面进行统计.选取总体表现较好的参数进行下进一步实验.最终统计结果如表2所示.
表2 差步更新回合数对智能体回报以及收敛性的影响
经由实验与统计发现,相比较与其他更新回合数,每50回合进行一次TDU网络参数更新在训练速度与训练结果上都具有更加良好的表现.间隔100回合时虽然收敛性与50回合相同,但是存在训练回合数过大,回报值不理想的问题.在间隔30回合时,收敛所需回合数最少,但整体回报不佳.根据大量统计,本文确定了TDU方法在Switch RIddle问题环境中使用间50回合更新的方式进行训练.并由结果证实在使用次参数设置时具有最好的表现.
本文针对目前多智能体强化学习通信规则型算法在多智能体间传递信息的质量较差的问题进行研究,提出了基于自注意力机制的多智能体信息处理单元TDU,同时在多智能体部分可观测智能体通信能力测试环境Switch Riddle中与其他通信规则型算法进行对比,证明了本方法在收敛速度、收敛性、回报值等方面均优于其他方法,证明本方法有效地提升了智能体间信息传递的质量,加快了智能体通信规则建立的速度,提高了智能体通信规则的合理性.