摘要: 灾后救援保障中,应急供水扮演着至关重要的角色.然而,由于山区地形和地貌条件复杂多变,现场指挥调度尤为关键,关系着救援人员能否迅速展开保障装备进行应急供水作业.文中基于多智能体强化学习(multi-agent proximal policy optimization,MAPPO)算法进行了路径规划系统的设计,并进行了试验仿真验证,根据奖励图结果确认该路径规划系统的可行性,并实现系统运行可视化,证明该路径规划系统可以初步满足山区应急供水装备路径规划需求.在此基础上,结合Mask2Former图像分割模型优化山区应急供水装备路径规划系统,将地物信息输出结果和路径规划结果相结合,有效避免了单一路径规划算法在受到环境影响时结果波动较大的问题,提高了路径规划的鲁棒性和可靠性.将该路径规划系统集成至山区应急供水装备指挥平台,以解决山区应急供水路径规划问题,为山区应急供水装备的实际运行提供了有力支持.
关键词: 路径规划;应急供水;强化学习;指挥调度;多智能体强化学习算法
中图分类号: S277.3;TP399 文献标志码: A 文章编号: 1674-8530(2024)10-1066-07
DOI:10.3969/j.issn.1674-8530.24.0033
李伟,赵晨淞,袁寿其,等. 山区应急供水装备路径规划系统设计与应用[J]. 排灌机械工程学报,2024,42(10):1066-1072.
LI Wei, ZHAO Chensong, YUAN Shouqi,et al. Design and application of path planning system for emergency water supply equipment in mountainous areas[J]. Journal of drainage and irrigation machinery engineering(JDIME), 2024, 42(10): 1066-1072. (in Chinese)
Design and application of path planning system for emergency
water supply equipment in mountainous areas
LI Wei ZHAO Chensong, YUAN Shouqi, LI Haoming, CAO Weidong, ZHOU Ling, ZHU Yong, JI Leilei
(National Research Center of Pumps, Jiangsu University, Zhenjiang, Jiangsu 212013, China)
Abstract: In post-disaster rescue and relief assurance, emergency water supply plays a crucial role. However, due to the complex and changeable mountainous terrain and geomorphic conditions, on-site command and dispatch are particularly critical in determining whether rescue workers can quickly deploy support equipment for emergency water supply operations. Based on the multi-agent proximal policy optimization (MAPPO) algorithm, a path planning system was designed and experimental verification was conducted. The feasibility of the path planning system is confirmed according to the results of the reward diagram, and the system operation was visualized, demonstrating that the path planning system could preliminarily meet the requirements for path planning of emergency water supply equipment in mountainous areas. On this basis, Mask2Former′s image segmentation model was integrated to optimize the path planning system for mountainous area emergency water supply equipment. By combining the results of ground object information output with path planning results, significant fluctuations were avoided in the results of single path planning algorithms when affected by the environment, thereby enhancing the robustness and reliability of path planning. Integrating this path planning system into the command platform for mountainous area emergency water supply equipment solved the path planning issues in mountainous, providing strong support for the actual operation of emergency water supply equipment in mountainous regions.
Key words: path planning;emergency water supply;reinforcement learning;command dispatching;multi-agent proximal policy optimization algorithm
灾后救援保障中,应急供水扮演着至关重要的角色,是确保生命安全的重要工程.尤其对于边远山区,其复杂多变的地形和地貌条件不利于迅速展开应急供水保障装备,使应急供水的难度增加.传统的供水系统面临着效率低、响应速度慢等问题,常规的人工调度模式难以适应复杂多变的山区环境.然而,随着人工智能技术的不断发展,智能调度决策技术在应急供水领域得到了广泛应用.
在供水系统优化调度方面,城市供水系统优化调度技术已发展得较为成熟.KADU等[1]提出了一种基于关键路径的方法来减少遗传算法的搜索空间,并证明其在减少搜索空间方面的有效性;国内,张朝等[2]针对鲁棒连续聚类遗传算法(robust continuous clustering genetic algorithm,rccGA)的缺陷采取了改变适应度排序准则等一系列改进措施.在供水系统的应急调度方面,国外供水系统的应急调度主要集中在风险评价和应急预案方向, SOLDI等[3]研究了城市供水网络的弹性和脆弱性,结合水力模拟判断管道故障的风险;ALSHARQAWI等[4]通过网络故障树来确定管段的工作和故障状态,并开发了配水管网可靠性评估模型;RODRIGUES等[5]对准备评估能力、响应能力、救援和恢复能力等指标进行评估;BEKER等[6]在管道正常和故障状态下使用模糊逻辑方法评价供水系统的整体性能.国内供水系统的应急调度研究主要集中在城镇供水系统优化调度方向,吴仪[7]建立应急预案库并利用多目标模糊优选原理进行预案优选,保障应急供水系统在事故发生后的迅速响应;张继昌[8]利用优化算法研究了水源污染事故发生后供水量不足情况下的调度方案;鲍任兵等[9]介绍了城市供水系统从水源到配水的全流程可能存在的风险,提出事故发生后的相应应急措施;袁曲等[10]以武汉市自来水有限公司为例,分析了疫情期间的供水量、水质,提出了疫情期间水厂运行的应急响应、应急保障措施.
综上所述,目前国内尚缺乏面向山区灾害场景应急供水装备路径规划方面的研究.因此,文中利用深度学习、强化学习等技术,实现对供水系统的装备进场和作业路径规划,为复杂环境下山区应急供水装备进场调度提供高效、灵活运行方案,为大规模实际应用提供参考.
1 山区应急供水装备路径规划系统
1.1 山区应急供水装备与路径规划目标
山区应急供水装备包括打井钻机、高压提水泵车、可折叠蓄水池、移动泵站车和管线铺设车等[11],如图1所示.
山区应急供水装备路径规划整体目标如图2所示,进行应急供水装备进场路径及管路铺设路径规划,缩短应急供水装备进场作业时间.路径规划系统包括环境与车辆数据导入、山区应急供水装备管线连接方案、各车辆路径规划、管线车铺管、路径规划结果可视化输出和外部平台集成应用.
1.2 多智能体强化学习算法设计
1.2.1 多智能体强化学习算法
MAPPO[12]是Open AI在2018年提出的多智能体强化学习算法,改进了原PPO算法[13].MAPPO采用近端目标函数限制策略变化,使用重要性采样估计梯度,并采用截断重要性采样技术稳定学习过程.它在多智能体环境中表现出快速收敛和良好稳定性.与其他MARL算法相比,在计算资源有限的MARL测试环境下,MAPPO解决了多智能体强化学习中的非稳定性问题,具有更快的运行速度和可改进的样本复杂性.MAPPO算法适用于需要多个智能体协同工作的场合,如无人机编队飞行、机器人群体协作等领域.
1.2.2 算法适应和网络设计
在MAPPO算法的基础上,针对山区应急供水环境进行设计,其中网络设计对算法影响巨大.处理山区应急供水路径地图信息时,卷积层捕捉空间信息,提取局部特征并输出给下一层.卷积核大小和数量可调.池化层降低特征图维度,最大池化减少冗余信息,提高模型鲁棒性和计算效率.在山区和边远灾区应急供水装备路径规划问题中,选择不使用批标准化或层标准化来训练深度网络,以防训练不稳定或性能下降.实际应用中,采用LSTM作为网络层的一部分,结构如图3a所示,图中A为1个循环神经网络模块;x为输入;h为输出;t-1,t,t+1分别为不同时刻.然后结合卷积神经网络和循环神经网络,使得网络可应对复杂的地图任务,从而提高模型的性能,最终的网络结构如图3b所示.
1.3 山区应急供水装备路径规划系统设计
1.3.1 系统状态信息
在多智能体问题中,状态设计关键在于平衡全局信息和局部信息.全局信息包括所有智能体的相关信息,而局部信息关注个体特征和周围环境.状态设计提供丰富信息,帮助智能体理解环境和其他智能体的状态.在分布执行中,智能体根据集中训练的策略或价值函数在实际环境中决策和交互.通过迭代集中训练和分布执行,逐步改进和优化状态设计,使智能体适应复杂的多智能体环境.单个智能体的观察结果被分为2部分:地图信息和离散信息,如图4所示.
其中,地图信息是所有智能体共享的,由形状为[3,10,10]的矩阵组成,从环境中抽取3个不同的类别(泵位置、管道位置和有效管道位置),环境大小为30×30.对于不同类别的物品,创建单独的特征图存储这些信息以达到区分的目的;对于单通道数据形式,当该位置有相应的类别时,设置为1,否则为0.这种地图状态信息的设计反映了智能体所处环境的空间特征.actor网络[14](近似输入state和输出action函数的神经网络)输出策略作为每一个智能体的输入,而critic网络(近似Q-value函数的神经网络)需要观测所有智能体的状态,因此地图信息作为共有部分只保留一个,而将所有其他的信息进行合并.离散信息包含单个智能体的状态,具体如表1所示.
将连续的特征值转换到[0,1],统一比例和缩放标准,这样有助于神经网络更好地理解和处理特征.地图的位置坐标被转换为[0,1]的数值,通常根据地图的最大尺寸来进行缩放.使用独热编码(one-hot encoding)将当前的朝向状态转换为一个长为4的二进制向量,其中只有一位代表当前的朝向是有效的,其他位则为0.离散特征如动作选择、管道的存在状态等使用0和1来表示,这些经过转换的特征作为观测变量输入到神经网络中,用于决策和路径规划.神经网络接收这些观测变量,并生成策略和动作,这些策略和动作是基于当前环境状态的决策结果.地图状态信息提供空间特征,为决策过程提供了必要的上下文信息,帮助神经网络理解环境布局,并据此做出合适的行动选择.
1.3.2 行动空间设计
在山区应急供水场景中,每个智能体都有相同的行动设计,包括5个离散的行动:上、下、左、右和互动(钻井、启动、下泵、铺管).动作的表达格式是[向X方向走,向Y方向走].因此,对于具有5种动作的单个智能体,使用离散空间来设置其动作空间.在网络设计中,最后的输出层有5个节点,对应每个动作的概率.允许根据网络输出的概率进行动作采样或选择最大概率的动作.
1.3.3 奖励函数设计
在这个环境中,每个智能体都有自己的奖励,而同一智能体的奖励可能不同.这是因为每个智能体的行动都会影响环境状态的变化,从而影响另一个智能体的行动.因此,有必要对每个智能体的行动分别计算奖励.奖励函数的设计需要考虑环境的复杂性和智能体的目标,算法奖励函数为
Rθ=∑τR(τ)Pθ(τ)=Eτ-Pθ(τ)[R(τ)],(1)
式中:Rθ为参数化策略θ下的期望奖励,即智能体在策略θ下预期获得的平均奖励;∑τ为对所有可能的行动序列τ求和;R(τ)为行动序列τ产生的奖励;Pθ(τ)为在策略θ下采取行动序列τ的概率,用于描述智能体在给定参数θ下采取特定行动序列的可能性;Eτ-Pθ(τ)为对所有可能的行动序列τ在策略θ下的概率分布Pθ(τ)加权求期望;[R(τ)]为对行动序列τ产生的奖励求期望的操作.
对于钻机车和提水泵车,计算到水源距离,如果更近则奖励+0.005.对于泵站车,检查材料剩余量,若水平/垂直距水源lt;8,则奖励+0.001,若使用了材料,奖励+0.100;若材料用完且用户需求未满足,且有满足条件的奖励-0.500.对于管线作业车,获取材料剩余数据和地图特征路径,如果island_get长度为1且地图上还有其他管道存在,奖励-0.005.为了避免智能体重复“刷分”,设置Flag,详细设置如表2所示.
2 试验仿真
2.1 基础环境设置
任务的目标是控制地图中的4个智能体按照一定的步骤,处理管路并进行连接,最后将连接好的管路放至供水点,环境可视化如图5所示.由图可知,该地图的大小为30×30.地图中的图标包括地下水源、应急供水装备集结地、钻机、供水点、障碍物、管网、越野型管线作业车、泵站、越野型泵站车、地表水源和提水泵车.浅蓝色的区域是可移动的区域,地图中存在转向阈值限制及坡度限制.
基本过程为钻机及智能体需要先到达水源处,执行钻井命令,生成地下水源,然后提水泵车再移动至地下水源附近提水,越野型管线作业车需要连接地下水源与供水点,并需要越野型泵站车于途中放置泵站.任务的详细参数设置如表3所示.
2.2 超参数设置
在MAPPO算法中,超参数的设置对算法的性能和稳定性有很大的影响.试验中的一些超参数如表4所示.
其中,n_training_threads为用于训练的线程数,表示在多线程的环境下并行地训练10个智能体;n_rollout_threads为执行rollout的线程数,用于收集样本数据;lr为学习率,表示每次参数更新时参数的变化量;ppo_epoch为在每个训练周期中执行PPO算法的次数;熵值权重entropy_coef为策略的熵值,较小的熵值权重可以促进智能体的探索行为;损失值系数value_loss_coef为PPO算法中的损失函数系数.
2.3 仿真与可视化实现
基于上述的超参数,开始对智能体进行训练.在每次采样中,有10个采样过程,每次采样10个情节.然后,进行一次更新,结果如图6a所示,图中episode为更新次数,reward为智能体奖励值.从奖励曲线可以看出,智能体可以很好地完成训练过程.在训练的早期阶段,智能体的策略水平可以迅速提高.进入中期阶段后,提高的速度减慢,最终随着训练的进展,逐渐收敛并趋于稳定.把LSTM从网络中移除,在其他条件不变的情况下与原网络进行了对比试验,结果如图6b所示,从曲线可以看出,没有LSTM的PPO在预训练期仍能进行一定程度的策略提升,但其策略收敛水平不如有LSTM的PPO,这说明LSTM对网络本身有一定的作用,特别是其记忆能力,对算法的训练和策略的提升有很大的作用.
智能体完成情况可视化结果如图7所示.4个智能体通过协作完成从地下水源位置铺设管道连通供水点的过程.根据图7a的可视化结果,泵站车智能体放置泵站间隔位置过近,说明地图复杂度较高时,由于地表信息过多,智能体的选择限制较小,行动过于灵活,导致整个规划过程过长,最终的反馈无法及时体现在泵站车的动作控制中.但在末端供水点的管线铺设部分,在右上部分管线作业车智能体出现了完全无效的铺管动作,并且在部分区域出现铺管浪费的现象.这个结果表明,管线作业车智能体也无法将规划过程过长的最终反馈及时体现在动作控制中,浪费了管道材料.如图7b所示,管线作业车智能体在地形限制时出现碰壁情况,并且在部分工作路径上出现同样的浪费管道材料的行为.综上所述,由于受到过多地图信息的干扰,一些反馈难以及时在智能体的决策中进行调整,故部分区域出现了浪费管道材料及路径非最短的情况.从供水任务整个规划流程看,4个智能体协作给出近似的全局最优解,表明该规划方法有效.
3 改进与应用
3.1 山区应急供水装备路径规划系统改进
通过上文对山区应急供水路径规划系统的仿真和可视化的结果分析发现,虽然智能体可以很好地完成训练,但是该系统还存在问题.一方面,该系统缺乏灵活的地图调整能力,可能会导致部分地物信息失真;另一方面,该系统的可视化程度并不满足应急救援场景下的使用要求,因为地表信息无法直接应用到该路径规划系统中,导致输出结果无法实现图上作业.
为解决该问题,文中结合Mask2Former图像分割模型,对山区应急供水装备路径规划系统进行改进.应用Mask2Former图像分割模型,在给定的区域中识别并标记可通行和不可通行的区域,并使用MAPPO算法规划2个随机选择的可通行区域之间的路径.加载原图像,以便区分黑色区域和非黑色区域,将非黑色区域标记为1(白色),黑色区域标记为0.在二值化图像中选择2个白色像素点作为起点和终点,使用MAPPO算法找到这2点之间的最短路径,确保路径仅经过可通行区域,并在第2张图像上输出路径结果.
3.2 路径规划系统集成与应用
创建GUI,用于调用路径规划算法生成路径规划结果,具有多个功能,其中输入坐标用于加入地理勘探信息以辅助决策;绘图参数和缩放因子用于调整精准度;消息框函数用于信息反馈制作动图.根据加载遥感图像的要求,将图像进行标准化处理,文中图像可精细化为250×250,满足后续的使用标识要求.可视化结果如图9所示.
山区应急供水装备路径规划系统已在山区应急供水装备智能决策平台中应用.集成至平台进场部署模块,现场路径规划方案结果如图10所示.
4 结 论
1) 通过综合应用Mask2Former模型与MAPPO算法,改进了山区应急供水装备路径规划系统,将地物信息输出结果和路径规划结果相结合,有效避免了单一路径规划算法在受到环境影响时结果波动较大的问题,提高了路径规划的鲁棒性和可靠性.
2) 将改进后的路径规划系统应用至应急供水系统指挥管控平台,解决了山区应急供水路径规划问题.通过路径规划系统研究与应用,为山区应急供水装备的实际运行提供了有力支持.
3) 未来的研究可致力于改进小规模智能体在广阔环境中的仿真计算复杂度,通过优化算法和引入分布式计算等技术手段,以提高智能体在大范围环境中的实时性和效率.
参考文献(References)
[1] KADU M S,GUPTA R,BHAVE P R. Optimal design of water networks using a modified genetic algorithm with reduction in search space[J].Journal of water resources planning and management,2008,134(2): 147-160.
[2] 张朝,刘海星,顾建强,等.基于需水不确定性的供水管网优化运行研究[J]. 给水排水. 2019, 45(11): 124-130.
ZHANG Chao,LIU Haixing,GU Jianqiang,et al. Study on optimal operation of water distribution system under demand uncertainty[J].Water amp; wastewater enginee-ring, 2019, 45(11): 124-130. (in Chinese)
[3] SOLDI D,CANDELIERI A,ARCHETTI F. Resilience and vulnerability in urban water distribution networks through network theory and hydraulic simulation[J].Procedia engineering,2015,119:1259-1268.
[4] ALSHARQAWI M, FASCE T Z,PARVIZSEDGHY L,et al. Reliability assessment model for water distribution networks[J]. Journal of pipeline systems engineering and practice,2020,11(2):04019059.
[5] RODRIGUES F,BORGES M,RODRIGUES H. Risk management in water supply networks: Aveiro case study[J].Environmental science and pollution research,2020,27:4598-4611.
[6] BEKER B A,KANSAL M L. Fuzzy logic-based integra-ted performance evaluation of a water distribution network[J]. AQUA-water infrastructure, ecosystems and society,2022,71(3):490-506.
[7] 吴仪. 城市供水系统多水厂联合优化调度研究[D].大连:大连理工大学,2022.
[8] 张继昌. D市多水源供水管网系统水源事故时优化调度研究及应用[D].哈尔滨:哈尔滨工业大学,2011.
[9] 鲍任兵,邹磊,张怀宇,等. 城市供水系统应急设计研究及案例应用[J].给水排水,2020,46(5):105-111.
BAO Renbing,ZOU Lei,ZHANG Huaiyu,et al. Study and application on emergency design of urban water supply system[J].Water amp; wastewater engineering,2020,46(5):105-111. (in Chinese)
[10] 袁曲,邹磊,周冬,等. 特殊时期水厂安全运行保障应急预案研究[J].给水排水,2020,46(8):24-30.
YUAN Qu,ZOU Lei,ZHOU Dong,et al. Study on emergency plan for safe operation of waterworks during epidemic prevention and control[J].Water amp; wastewater engineering,2020,46(8):24-30. (in Chinese)
[11] 邓凡杰,司乔瑞,李方忠,等. 山区和边远灾区应急供水系统提水装备发展现状[J].排灌机械工程学报,2023,41(6):614-623.
DENG Fanjie,SI Qiaorui,LI Fangzhong,et al. Review on water carrying equipment for emergency water supply system in mountain and remote disaster areas[J].Journal of drainage and irrigation machinery engineering,2023,41(6):614-623. (in Chinese)
[12] LOHSE O,PTZ N,HRMANN K. Implementing an online scheduling approach for production with multi agent proximal policy optimization (MAPPO)[C]//Proceedings of IFIP International Conference on Advances in Production Management Systems (APMS),Nantes, France: Springer International Publishing, 2021,634:586-595.
[13] MNIH V,BADIA A P,MIRZA M,et al. Asynchronous methods for deep reinforcement learning[C]//Procee-dings of the 33rd International Conference on Machine Learning, PMLR,2016,48:1928-1937.
(责任编辑 黄鑫鑫)