摘要:当前,分布式强化学习假设所有智能体均能正常工作,但在实际情况中可能存在异常智能体。为此,提出了一种基于高斯混合模型的聚类方法,用于优化分布式强化学习算法。首先,计算智能体上传梯度对应的高斯分布概率。其次,根据高斯分布更新聚类模型参数,并重复执行上述步骤直至收敛。最后,根据聚类模型筛选异常梯度。实验结果表明,该方法能在存在异常智能体的场景下,有效维持分布式强化学习的训练效果,提高算法的鲁棒性。
关键词:聚类算法;分布式强化学习;鲁棒性
中图分类号:TP391文献标志码:A
0引言(Introduction)
近年来,深度强化学习[1]在游戏AI[2]、机器人控制[3]和无人驾驶汽车[4\|5]等多个领域取得了长足的进步和成功的应用。这些应用通常依赖单一智能体进行决策和控制。然而,这类单一智能体的应用方式在实际场景中面临数据收集速度较慢和训练过程不够平稳等典型问题。为有效地解决这些问题,分布式强化学习框架[6\|7]应运而生并得到广泛研究。分布式强化学习框架的基本思路是同时部署和协调多个智能体学习,并将它们的经验汇总到中央服务器上,以便全局模型可以根据这些经验不断更新和改进。这种分布式学习框架显著加速了训练过程,提高了决策系统的稳定性。作为分布式强化学习的一个典型应用场景,我们可以部署多辆自动驾驶汽车[8]进行路测,这些车辆均配备了各种传感器,可以实时交换信息。可以将每辆车看作一个智能体,这些智能体会将学习到的数据发送到云端的中央服务器。云服务器利用这些丰富的多源异构数据不断优化和改进自动驾驶算法。尽管分布式强化学习框架应用前景巨大,但是目前相关算法研究仍局限于仿真实验,并且大多基于所有智能体都正常工作的理想假设。然而,现实世界与仿真环境存在差异,部署的智能体可能因各种软件、硬件故障导致异常工作状态。此外,分布式强化学习算法本身存在一定的脆弱性,即使只有个别异常智能体,也可能严重影响全局模型的训练效果。
因此,为了将分布式强化学习算法迅速部署到实际应用场景并发挥其应有的价值,必须对算法框架进行改进,提升其整体鲁棒性。本文提出的方法通过引入高斯混合模型技术[9]优化了分布式强化学习算法的训练框架,并对智能体上传至中央服务器的信息进行了有效的聚类筛选,显著提升了整个算法框架的鲁棒性。
1算法设计(Algorithmdesign)
1.1智能体异常行为定义
在现实场景中,每个智能体都有可能因为软件或硬件故障而产生异常,特别是当一个系统中包含多个智能体时,出现异常智能体的概率会大大增加。为方便后续讨论,首先,对异常智能体进行定义,即N=Nb∪Nm,其中N表示系统中的智能体总数,Nb表示正常智能体的数量,Nm表示异常智能体的数量,并且Nb与Nm互斥。其次,将对异常行为进行定义。在分布式强化学习框架中,智能体需要将本地信息上传至中央服务器,此时考虑以下两种常见的异常,并用函数F表示这些异常。
(1)随机噪声异常:是指智能体上传的信息中存在噪声干扰,属于常见的异常。本文用函数F表示这种异常,具体为
其中:G表示智能体上传服务器的信息,可以是原始轨迹或本地计算的梯度;rnd表示来自给定概率分布的随机噪声,如高斯分布等。
(2)固定值异常:是指智能体上传的信息为固定值,也是一种常见的异常,具体为
其中,c表示一个常数。
1.2高斯混合模型
高斯混合模型是一种概率模型,它可用于对复杂的数据分布进行建模和聚类。在聚类方面,通过对数据进行聚类,将数据分为多个簇,其中的每个簇对应一个高斯分布,这种方式能发现数据中隐藏的簇结构。在数据建模方面,对数据分布进行建模,可用于估计数据的概率密度函数,对异常情况进行检测。高斯混合模型假设数据是由多个高斯分布混合而成,其中的每个高斯分布表示数据中的一个聚类或组分,它具有自己的均值和协方差矩阵。整个数据由这些高斯分布组合而成,每个高斯分布都有一个权重,表示其在总体数据中的贡献度。高斯混合模型的参数主要包括每个高斯分布的均值、协方差矩阵和权重,这些参数可以通过期望最大化(EM)算法进行估计。EM算法是一个迭代优化的过程,包括E步和M步。E步计算每个数据点来自各个高斯分布的后验概率,即数据点属于每个聚类的“责任”。M步根据这些“责任”重新估计每个高斯分布的参数。通过多次迭代E步和M步,可以使模型参数收敛,从而对数据的分布进行建模。在存在异常智能体的场景中,可以训练一个高斯混合模型,建模正常信息的分布,然后使用这个模型计算新上传信息属于正常模型的概率,若计算结果低于一个阈值,则判定为异常信息并过滤掉。
EM算法具体步骤如下。
(1)E步:计算每个数据点属于每个高斯分布的后验概率,即数据点属于每个聚类的“责任”。
(2)M步:根据E步计算得到的“责任”,重新估计每个高斯分布的参数。
(3)通过多次迭代E步和M步,使模型参数收敛,从而对数据的分布进行建模。
(4)在存在异常智能体的场景中,训练一个高斯混合模型,建模正常信息的分布。
(5)使用训练好的模型计算新上传信息属于正常模型的概率。
(6)若概率低于一个阈值,则判定为异常信息并过滤掉。
1.3分布式强化学习改进框架
强化学习旨在让智能体通过与环境的交互,学习如何做出决策以最大化其长期累积奖励,它涵盖了智能体、环境、状态、行动和奖励等重要概念。如图1展示的智能体与环境交互过程,智能体根据当前状态选择行动,环境则根据智能体的行动和当前状态转移到新的状态,并返回奖励信号。智能体通过与环境的交互,利用价值函数或策略函数等方法,逐步学习并优化其行为策略,从而实现长期累积奖励的最大化。与传统监督学习不同,强化学习中的智能体在初始阶段对何种行动是有利的并无先验知识,而是通过尝试不同的行动探索环境,并根据环境提供的奖励或惩罚信号调整其行为。这种试错过程使智能体能够逐渐学习到如何在复杂的环境中做出理想的决策。
分布式强化学习框架主要由多个智能体和一个中央服务器构成。每个智能体都能够独立地与自己对应的环境进行交互,它们通过观察环境给出的反馈奖励和状态观测值,不断积累这些与环境交互过程中产生的连续序列,进而构建成完整的经验轨迹。当积累获得了足够数量的代表性经验轨迹后,每个智能体都会利用这些先验经验以及当前自己所维护的本地策略神经网络模型,计算出策略梯度更新的方向。这里的本地策略神经网络模型是指每个智能体当前用于与环境进行交互决策的策略函数。在求出策略梯度更新方向后,各个智能体会将对应于自己本地策略网络的这些梯度信息发送给中央服务器。中央服务器维护着一个全局共享的策略神经网络模型,它的主要作用是汇总整合来自多个智能体计算得到的策略梯度信息,然后用这些梯度统一更新全局策略网络中的模型参数。在更新全局策略网络的模型参数后,中央服务器会将最新的参数立刻传播分发给每一个参与训练的智能体。于是,每个智能体都会使用这些同步后的最新参数更新与调整自己本地维护的策略网络模型,以便准备下一轮的训练过程。这样,中央服务器和各个智能体之间形成循环信息传递和交互。通过不断地进行协同的聚合梯度、更新参数、广播分发参数这一循环迭代过程,最终可以获得一个训练好的全局策略模型。
然而,由于存在异常故障的智能体可能会向中央服务器上传错误的策略梯度信息,因此为了提高系统的鲁棒性,研究人员在分布式强化学习算法框架的基础上增加了一个过滤器模块。这个模块利用了高斯混合模型的聚类过滤功能,对输入的策略梯度信息进行处理,有效地过滤掉了异常梯度。通过这种方式,可以确保系统在面对异常情况时能够保持稳定,并且不会受到错误信息的影响。分布式强化学习改进框架如图2所示。
分布式强化学习改进框架算法流程如下。
(1)每个智能体与本地环境交互。
(2)通过累积的轨迹计算各自的梯度,并将梯度信息上传。
(3)所有智能体上传的梯度信息将通过高斯混合模型过滤。
(4)过滤器将筛选后的梯度上传至服务器智能体处聚合并以此更新模型参数。
(5)中央服务器将模型参数传回给每一个智能体。
(6)智能体根据模型参数更新本地模型。
(7)智能体根据新的模型与环境开始下一轮的交互。
2实验结果与分析(Experimentalresultsandanalysis)
2.1仿真环境介绍
如图3所示,CartPole环境是一个模拟典型倒立摆控制的系统,它主要由一个移动的小车和一个连接在其上的摆杆两个部分构成。具体来说,系统中的小车能够沿着一个水平方向的轨道进行左右移动,而杆子是通过一个假设为无质量的支点连接在小车上,这样杆子就可以在这个支点周围自由转动。整个倒立摆系统的状态,可以用4个元素向量来表示,分别为小车的水平位移位置、小车的速度大小、杆子与竖直方向的倾角大小及杆子的角速度。在这个环境中,智能体可以通过两个基本动作中的任意一个来影响系统,即可以对小车施加向左或向右方向的推力。每次向小车施加一定的推力,都会改变小车本身以及连接其上的杆子的运动状态。智能体需要通过适时地决策,选择施加左右推力的时机和力度大小,使得连接在车上的杆子能够不断地保持近似竖直的倒立姿态。若在控制过程中,杆子的倾角偏离竖直方向的幅度大于环境预设的一个角度阈值,或者小车移动到了轨道的边界范围,则该回合的环境就会提前强制终止,同时给予智能体负的奖励。智能体的目标就是在这一约束条件下,最大化杆子倒立状态的持续时间。
2.2实验设置
本小节将更全面地介绍实验的整体设置和配置。实验所采用的分布式强化学习框架主要由10个相对独立的智能体以及1个负责集中协调控制的中央服务器构成。所有的智能体将在一个经典且被广泛使用的CartPole倒立摆控制环境中进行交互操作,并在该交互过程中积累大量包含当前环境状态、执行动作以及相应奖励的行为决策序列数据。在这10个参与实验的智能体当中,研究人员特意设置了3个会产生各种异常行为的故障智能体。这3个异常智能体的具体编号信息是在每一次完整的实验运行之前根据算法随机产生的,也就是说对于算法框架自身来说,异常智能体的确切信息是完全未知的。这几个异常故障智能体还将在整个实验过程中持续执行某些预先定义的异常操作,以此主动干扰和破坏整个分布式学习系统。在这些不同类型的异常行为的主动干扰下,将比较分析本文提出的基于高斯混合模型的改进算法框架与当前常规的分布式强化学习框架在训练过程中的稳定性,以及最终得到的集成控制策略的整体性能。最终,通过定量和定性的比较实验分析,希望可以充分验证本文提出的框架方法对于提高分布式强化学习面对异常情况时的整体鲁棒性与综合效果的显著改进作用。
2.3结果分析
在实验1中,设置异常智能体执行的异常行为类型是向中央服务器上传含有不同程度的随机噪声的策略梯度信息。也就是说,这些指定的异常智能体计算出的策略梯度更新中会混入不同比例的随机噪声项。这种随机噪声的加入将会对中央服务器聚合后的策略梯度产生一定的干扰,从而对后续的全局策略网络模型训练带来一定的负面影响。为了更加直观地比较本文算法框架与当前常规框架在存在异常智能体情况下的具体训练效果,本研究采用图表的形式展示了两个框架在训练过程中获得的平均奖励值随着迭代轮数变化的趋势曲线(图4)。图4的标签“DRL”代表了当前常规的分布式强化学习算法框架,而标签“改进的DRL”则对应代表了本文在原有分布式强化学习框架中嵌入高斯混合模型模块后得到的改进算法框架。
从图4可以非常明确地看出,在存在部分异常智能体向中央服务器上传含有大量随机噪声的策略梯度情况下,常规分布式强化学习框架DRL所得到的训练效果受到了极大的负面干扰和影响,表现为训练奖励曲线基本无提升,一直难以进行正常的模型拟合和参数更新,最终模型的参数无法收敛到稳定水平,并且终止时获得的训练平均奖励值低于10。这充分证明了这种规模的随机噪声异常对常规框架具有极大干扰作用,严重阻碍了正常的分布式协作学习过程,导致了模型训练的完全失败。相比之下,本文提出的在分布式强化学习框架中嵌入高斯混合模型作为滤波器的改进框架,则能够有效地检测和隔离这种异常策略梯度,抑制异常信息的负面干扰。因此,改进框架下的训练过程明显更为平稳,奖励值可以持续稳步上升,最终可以收敛稳定到接近500的奖励值。这说明框架成功地完成了模型的训练并获得了良好的控制策略。
在实验2中设置的异常智能体产生的异常信息类型为持续上传完全固定值的策略梯度。根据图5展示的训练奖励曲线比较结果,与实验1类似,在存在部分上传固定值异常信息的干扰情况下,常规分布式强化学习框架DRL同样受到了非常大的负面影响,表现为训练奖励值无法提升,模型训练失败。相比之下,本文提出的在分布式框架中增加高斯混合模型模块的改进框架,其训练曲线仍能够保持较好的平稳性和收敛度,最终使得控制策略模型成功训练并收敛到一个较高的性能状态。
表1为两组实验条件下不同算法获取奖励值的对比。通过这两组比较实验可以非常明确地看出,本文提出的改进框架在面对分布式训练系统中存在一定比例异常智能体的情况下,仍然能够获取较高的奖励值,展现了比较好的鲁棒性和抗干扰性能。这进一步验证了引入高斯混合模型对检测隔离异常信息和提升分布式强化学习方法鲁棒性的积极作用。
为了进一步探讨本文提出的改进框架对分布式强化学习训练收敛速度的影响,本研究特别设计了额外的比较实验3,即收敛速度对比实验。如图6所示,虚线表示原始分布式强化学习框架DRL在没有任何异常智能体存在时的训练奖励曲线,从中可以明显地看出在全体智能体正常的理想情况下,分布式框架可以非常快速地完成策略模型的训练并实现参数收敛。图6中的实线则表示加入了高斯混合模型模块的改进分布式框架在面对3个持续产生异常信息的故障智能体环境下的训练曲线。通过对比这两条训练曲线可以发现,尽管存在一定规模的异常干扰,本文提出的改进框架的训练收敛速度与所有智能体正常工作的理想状况下非常接近。原始框架之所以收敛速度相对较快,其中的一个原因是参与训练的正常智能体数量更多。然而进行这额外的收敛速度对比实验证明,本文提出的带有高斯混合模型的改进分布式强化学习框架,不仅能够显著提升面对异常情况下的训练鲁棒性,同时可以较好地保证整体训练过程的收敛速度。
3结论(Conclusion)
本文提出了一种基于高斯混合模型的分布式强化学习优化方法。该方法在中央服务器中增加了带有高斯混合模型的过滤器,在聚合智能体上传的梯度之前,由过滤器对梯度进行过滤和筛选。过滤器通过高斯混合模型计算新上传信息属于正常模型的概率,若这个概率低于一个阈值,则判定为异常信息并过滤掉。实验结果显示,该方法极大提升了分布式强化学习的鲁棒性,即使系统中存在若干个异常的智能体,也能确保模型训练的收敛性。未来,将探索在更复杂的异常行为时和更多异常智能体场景中,提升分布式强化学习算法鲁棒性的方法,以进一步完善该方法的应用。
参考文献(References)
[1]刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406\|1438.
[2]田佩,臧兆祥,张震,等.RTS游戏中基于强化学习的行动参数配置优化[J].计算机仿真,2023,40(8):355\|359.
[3]邓修朋,崔建明,李敏,等.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1\|8.
[4][JP3]陈越,焦朋朋,白如玉,等.基于深度强化学习的自动驾驶车辆跟驰行为建模[J].交通信息与安全,2023,41(2):67\|75,102.
[5]王曙燕,万顷田.自动驾驶车辆在无信号交叉口右转驾驶决策技术研究[J].计算机应用研究,2023,40(5):1468\|1472.
[6]VENTURINIF,MASONF,PASEF,etal.DistributedreinforcementlearningforflexibleandefficientUAVswarmcontrol[J].IEEEtransactionsoncognitivecommunicationsandnetworking,2021,7(3):955\|969.
[7]MATHKARA,BORKARVS.Distributedreinforcementlearningviagossip[J].IEEEtransactionsonautomaticcontrol,2017,62(3):1465\|1470.
[8]刘卫国,项志宇,刘伟平,等.基于分布式强化学习的车辆控制算法研究[J].汽车工程,2023,45(9):1637\|1645.
[9]方佳锴.一种基于高斯混合模型的不均衡分类方法[J].电脑知识与技术,2022,18(2):28\|30.