谢震海,何 明,禹明刚,陈国友
(1.陆军工程大学指挥控制学院,南京 210007;2.解放军31630 部队,广东 惠州 516000)
无人集群作战是未来战场的主要作战样式之一,复杂战场环境下,基于地面站的集中控制手段往往受限,集群内部的自主协同是实现作战效能的重要保障。
无人集群的自主协同需要集群内部各作战单元依据外部战场态势,作出有效应对与实时响应,其本质是策略的选择/更新。而“多样性”与“随机性”是集群策略选择/更新中极为重要且无法回避的两类问题。在多样性方面,以集群火力打击任务为例,具备智能性和自主决策能力的作战单元具有“偏私性”,在集群火力打击中,为确保自身战斗力和生存能力,往往会贡献“适量”弹药(若将投放弹药量的多少作为策略,则对应于多样性的策略选择),而不再是传统博弈中“非黑即白”两种策略选择(要么全部投放弹药,要么不投放弹药),其策略具有多样性;在随机性方面,战场复杂电磁环境下,无人集群间的通信易受敌方及环境干扰,使得通信质量难以满足集群间交互需求,且地面指挥中心不能及时有效集中指挥,多个离散的无人集群只能根据有限局部环境信息自主联合决策,造成集群规模增加或减少、作战单元策略更新突变率增加等随机性情况提高。
无论是在理论研究还是在国防工业部门的演示验证中,无人集群作战面临的多样性和随机性问题已经多次凸显,已经成为无人化作战亟待解决的现实问题。
由于生物集群和无人集群在直观上存在着诸多相似特性,近年来,国内外相关机构和学者对照系统层面的群体智能涌现和集群协同问题,开展了大量研究,见引用文献[1-10]。
在无人集群自主协同中,对于集体而言,希望每一个作战单元投入尽可能多的资源,以使集群作战效能最大化;而对于作战单元而言,假设每个作战单元完全理性,则会选择不投放效能直接“搭便车”,那么必然陷入不合作困境,导致“公地悲剧”的产生。目前,利用公共物品博弈模型来解决“公地悲剧”和促进种群合作的机制研究有很多,例如:奖励、惩罚、自愿博弈、网络互惠等。但之前的研究大多数假定个体的策略只有两种,即投入或不投入,但现实情况并非如此。一方面考虑到投入效能的多样性,即参与公共物品博弈的个体可以根据自身情况选择投入效能的大小,由此在博弈中引入了多策略。另一方面考虑到集群交互过程中的随机性,而随机性因素反映在具体参数上,即为选择强度、变异率和集群规模。因此,选择强度降低、变异率增加或集群规模减少等,都将会增加集群的随机性。
演化博弈主要研究竞争个体之间存在矛盾、竞争和合作等问题,关注的焦点是在动态过程中,参与者不完全理性、信息不完全对称共享的情况下,如何在博弈的重复较量中调整自己的策略以适应环境,最终达到动态均衡。其演化过程主要包含两个机制,产生多样性的变异机制和偏向一些种类的选择机制。近年来,国际国内研究机构对合作涌现促进机制采用演化博弈理论进行研究,最显著的代表是哈佛大学Nowak 教授,总结了促进合作涌现的五大机制。也通过理论抽象建模,产生了一系列经典的双人以及多人博弈模型,为研究合作演化提供了一种可实现的通用范式。如双人博弈模型(囚徒困境博弈、猎鹿模型、雪堆博弈模型等),多人博弈模型(公共品博弈模型等)。
国内,王先甲等在自愿参与机制下,利用马氏过程的极限分布研究了随机系统的均衡和群体合作行为,发现较大的投资收益系数和固定收益即能有效促进合作策略,在应用方面,王先甲等人基于愿景驱动机制,运用演化博弈理论研究了企业合作治污情况,发现愿景水平、收益系数与合作水平成正比。杜金铭等通过严格数学推导得出两方演化博弈中策略占优条件不等式,发现弱选择强度下平均丰度值与愿景水平无关。
前期,我们对无人集群合作演化进行了初步探索,相关成果见引用文献[37-41]。但是,在解决无人集群合作演化的实际问题时,上述成果仍存在两点不足:一是在无人集群合作中,其策略选择不同于传统的二元纯策略,它有两种以上策略进行选择,即个体不仅可以采取合作或背叛策略,也选择部分合作策略,现有研究多考虑二元纯策略的情况,对多策略情况的研究尚待展开。二是无人集群作战过程中,受限于战场通信条件,平台的策略更新会受到扰动。因此,无人集群策略更新面临随机性挑战,现有理论推导多在理想的假设前提下进行,缺乏对随机性因素的考虑。本研究针对无人集群合作演化机制,基于公共品演化博弈框架,采用Moran 更新过程对无人集群合作演化机制建模,通过理论推导和仿真分析多样性与随机性对集群整体收益的影响,为实现无人集群的自组织协同提供决策支持。
无人集群自主协同,主要是为适应作战环境,在一定时间内,多个作战单元通过多次随机选择,自主博弈,从而获得集群效能最大目的。在此过程中,作战单元的策略选择具有多样性,受作战环境等因素扰动,集群内部交互过程中具有随机性。
集群内部的自主协同,其本质是资源的调控和重分配,因此,可借助博弈论框架进行建模分析。为研究多个体合作困境,解决“公地悲剧”情况的发生,公共物品博弈是一个比较理想的模型,演化博弈理论考虑的是在一个有限理性个体种群之间,拥有不同策略的个体随机交互,在动态过程中,个体反复博弈调整自己的策略以适应环境,关注的焦点是均衡选择,其核心是“演化稳定策略”。与其他博弈模型相比,公共物品演化博弈模型是假设有一个公共的资源池,参与博弈的各方都拥有相同的原始资源,各方可以选择投资或者不投资,所有的投资都将乘以收益系数r,然后平分给全部参与者。其示意如图1 所示。
图1 公共物品博弈示意图
具体模型背景为:有n 个个体组成的群体(当前假设n=5),拥有一个公共资源池,每个个体的原始资源均为1 个基数,且都有一次往资源池中注入资源的机会,此时,每个个体都可以作出两种选择(全部投入或者不投),不管它们作出什么选择(假设A 投入s,B 投入s,C 投入s,D 投入s,E 投入s),最终公共资源池中的资源都会乘以一个大于1的收益系数r 后,再平均分配给5 个个体。
从集群角度,假如每个个体都参与投资,那么集群的利益将达到最大化;但从个体角度来看,每个个体是理性的,它具有“偏私性”,都会想方设法让自己的利益最大化,会选择投资或少量投资甚至不投资,那么,必然出现没人愿意投资的情况发生。因此,公共物品博弈对研究集群内个体多样性和随机性更具有针对性,本文采用公共物品演化博弈模型,对集群自主协同过程进行建模。为便于表述,将集群合作演化问题所涉及的概念与演化博弈术语作简单映射,如表1 所示。
表1 概念映射
2.1.1 公共物品演化博弈基本模型
2.1.2 Moran 过程下公共物品演化博弈模型
在公共物品演化博弈中,合作个体的理性实际上是个体在选择合适策略时所遵循的规则,其理性是根据当前态势的变化而变化的,近年来,许多学者策略更新规则作了大量研究,主要分为两类,如图2 所示。
图2 混合均匀群体研究模型
因为有限种群的规模变化是非连续的,采用离散空间下的随机过程进行描述,这里主要运用Moran 过程来描述。
采用有限大小N 种群中的随机进化动力学,进化更新根据频率相关的Moran 过程发生。假设个体的繁殖与它们的回报成比例,但受制于概率为u>0 的突变(u 为突变率),后代以1-u 的概率采用父代策略,否则重新从策略集中随机选择一个新的策略进行更新,在每个时间步长中,随机选择的个体被选择的子代所代替,从而在整个更新过程中,种群的规模不发生变化。
2.2.1 相关前提条件
在生物遗传学中,有限种群中的多个个体总是有一个共同的祖先。在没有突变的情况下,任何两个个体在稳定状态下都有相同的基因(策略)。在突变的情况下,两个个体可能会因为祖先谱系分支后的突变而有不同的基因(策略)。因此,追溯两个个体的世系,找到最近的共同祖先,从这两个家族线分支,使我们能够估计两个玩家在基因(策略)上的相似性。
对于无人集群而言,各智能作战平台在稳定状态下都具有相同的策略,但受战场环境影响,智能作战平台策略的选择会因突变而改变初始状态,其策略的选择和生物遗传学中基因的突变类似。因此,作如下假设:
2.2.2 相关参数
为推导集群平均投资水平R,将所需相关参数进行定义明确,如下页表2 所示。
表2 参数映射关系
2.2.3 集群平均投资水平
由图可见:在图3(a)中,无人作战集群的能力R 随智能作战平台选择行为数量S 增大而增大,但存在阈值R=0.498 5;图3(b)中,无人作战集群的能力R 随智能作战平台的变异率u 增大而增大,但也存在阈值R=0.5;图3(c)中,无人作战集群的能力R随无人作战集群规模N 的增大而降低明显。因此,智能作战平台的变异率、无人作战集群的行为数量增加会提高无人作战集群的整体能力,但无人作战集群规模的增加会降低作战集群的能力。
图3 行为数量、变异率、以及集群规模对作战集群能力的影响
选取建立n=2 和n=5 时模型。如图4、图5 所示,在各类参数为δ=0.000 02、0.002、0.2、1,R=1.5,N=30,S=3、5、9、10,u=0.01 的情况下仿真。
图4 n=2 时行为数量与作战集群能力的关系、行为分布情况
图5 n=5 时行为数量与作战集群能力的关系、行为分布情况
由图可见:图4(a)中,当n=2,δ=1.0(强选择)或δ=0.002(弱选择)时,无人作战集群规模N 和智能作战平台行为策略S 的变化,对作战集群的能力R 影响并不大,并且可以看出,在δ=0.002(弱选择)条件下,无人作战集群的能力保持在0.5 附近;图5(a)中,当n=5,δ=1.0(强选择)或δ=0.000 02(弱选择)时,无人作战集群规模N 和智能作战平台行为S 的变化,对作战集群的能力R 影响也不大,与此同时,在δ=0.000 02(弱选择)条件下,作战集群的能力也保持在0.5 附近,这是因为所有的智能作战平台采取的行为几乎拥有相同的适应度,从而导致稳态丰度基本一致。
图4(a)、图5(a)中,在δ=1.0(强选择),n=2 或n=5 时,无人作战集群的能力R 几乎为0,这是因为在强选择的情况下,智能作战平台更愿意选择k=0的行为策略。
图4(a)、图5(a)中,无论是n=2 还是n=5 的模型中,当智能作战平台选择的行为数量S≤9 时,在中等选择强度条件下,存在阈值,且在阈值范围中,其行为多样性的增大能促进作战集群合作。
图4(b)、图5(b)中,无论是n=2 还是n=5 的模型,可以看出,当增加无人集群的行为策略数量S时,智能作战平台选择行为策略k=0 和k=1 的频率会降低,而选择非0 行为策略频率会有不同程度的增加,但智能作战平台选择k=1 行为频率在总体的作战平台行为策略数量中始终占比最低。由此可知,无人作战集群的能力R 随智能作战平台行为数量S 增加的主要原因是,由于智能作战平台在合作中,选择非0 行为策略单元不断增加,从而使其他选择k=0 的行为策略不断减少。
通过仿真发现,在某一阈值范围内,以智能作战平台行为数量为代表的多样性增加有利于无人集群之间的合作。
分别仿真分析基于Moran 过程下n=2 和n=5公共物品演化博弈模型中选择强度、变异率、作战集群规模带来的影响。
3.2.1 选择强度对作战集群合作的影响
选取参数N=30,u=0.01,r=1.5,S=3,进行仿真。如图6 所示。
图6 选择强度与集群合作能力的关系情况
由图6 可见,在n=2 或n=5 模型中,作战集群能力R 都随选择强度δ 的增加而减小,特别是在n=5 模型中,选择强度δ 的增大会导致作战集群能力R 快速减小。
图7(a)、(c)、(e)为n=2 时,智能作战平台在不同选择强度δ 中各行为策略占比情况,图7(b)、(d)、(f)为n=5 时,智能作战平台在不同选择强度中各行为策略占比情况。
图7 不同选择强度中策略占比情况
3.2.2 变异率对作战集群合作的影响
选取参数为N=30,S=3,r=1.5,进行仿真。图8(a)、(b)分别在n=2 或n=5 模型中,变异率与作战集群能力的关系。
图8 变异率对作战集群能力的影响
由图可见,在n=2 模型中,δ=0.002(弱选择),和在n=5 模型中,δ=0.000 02(弱选择)时,变异率u对无人作战集群能力R 的影响非常弱。而在n=2 模型中,δ=0.02(中等强度)或δ=1(强选择),和在n=5模型中,δ=0.002(中等强度)或δ=1(强选择)时,作战集群能力R 随智能作战平台个体行为的变异率增大而增大。
从变异率与个体选择行为的角度来看,图9(a)、(b)分别表示在n=2 或n=5 模型中,变异率u与各行为稳态丰度占比分布情况。变异率u 的提高能进一步促使智能作战平台选择非0 行为的频率。
图9 不同变异率中各行为稳态丰度占比情况
因此,仿真表明,随机性的提高能够促进作战集群间的合作。
3.2.3 作战集群规模对集群合作的影响
选取参数u=0.01,S=3,r=1.5,进行仿真。下页图10(a)、(b)分别表示在n=2 或n=5 模型中,集群规模对作战能力的影响。
图10 集群规模与作战集群能力的关系情况
由图可知,在n=2 模型中,δ=0.002(弱选择)或δ=1(强选择),和在n=5 模型中,δ=0.000 02(弱选择)或δ=1(强选择)时,增大作战集群规模N 对集群合作能力R 影响不大。而在n=2 模型中,δ=0.02(中等强度)时,和在n=5 模型中,δ=0.002(中等强度)时,较小的集群规模N 有助于提高集群作战能力R,而增大作战集群规模N,会降低作战集群能力R。
图11(a)、(b)分别表示在n=2 或n=5 模型中,智能作战平台行为策略在不同作战集群中的占比情况。增大作战集群规模N,会导致作战平台选择k=0 的行为增加,减少对其他行为的选择,从而降低作战集群合作能力。
图11 行为策略在不同作战集群中占比情况
仿真结论:不考虑其他机制因素,在弱选择条件下,智能作战平台行为数量、作战集群规模、各作战平台之间策略选择的变异率对作战集群合作影响不大;在强选择下,在提高各作战平台之间策略选择的变异率的同时,也能够提高作战集群合作能力,但扩大作战集群规模或者增加行为均对作战集群合作能力影响不大;在中等选择强度下,增大行为数量或提高各作战平台之间策略选择的变异率,均能提高作战集群合作能力,而增大作战集群规模,会降低作战集群合作的能力。
因此,采用基于Moran 规则和公共物品博弈的无人集群合作,在中等选择强度下,以增加无人集群的多样性和随机性,有利于促进无人集群之间合作,提高无人集群的作战能力。
本文重点研究了由策略数量带来的多样性和由变异率、集群规模、选择强度带来的随机性对无人集群合作演化的影响,并利用仿真分析,验证参数变化与集群合作演化行为的相关关系。
然而,实际无人集群与混合均匀种群不同,它具有更复杂的网络结构,结构种群中的多样性和随机性更加丰富,因此,结合复杂网络,结构种群的多样性和随机性,如何影响合作演化将是课题组下一步将要研究的方向。