基于博弈链的舰炮保障资源配置决策方法

2014-12-07 05:22徐廷学米巧丽
舰船科学技术 2014年10期
关键词:舰炮资源配置站点

徐廷学,米巧丽,姜 晨

(1.海军航空工程学院兵器科学与技术系,山东 烟台264001;2.海军航空工程学院研究生管理大队,山东 烟台264001;3.中国人民解放军91872 部队,北京102442)

0 引 言

舰炮保障是指在舰面和陆面各类约束条件下,依据舰炮在执行任务过程中各个任务剖面的保障要求进行专向使用保障或维修保障,保证舰炮在有限的保障资源情况下完成规定任务,从而提高对敌目标的打击能力及平时和战时的综合保障能力。由于舰炮在履行作战或训练任务时经常远离陆地,在发生故障时,只能在舰艇自身所具备的有限条件和资源下,实施应急维修或等待外援力量,因此极易出现资源短缺、资源等待时间过长及资源利用率过低等问题,直接影响着舰炮的战备完好性与任务成功性。在新型作战背景倡导下,如何对舰炮所需求的各类保障资源进行合理、高效地配置,是在作战样式转换快、参战军兵种多、保障时效性要求高的联合一体化作战中实现聚合、精确、敏捷保障的先决条件,是目前亟待解决的关键问题。

根据舰炮的使命任务和保障任务,舰炮的保障资源配置是各类资源在舰炮寿命周期内与各任务阶段的有效协调和平衡,涉及的资源种类与影响因素十分繁杂。因此,舰炮保障资源配置的决策是一个复杂的系统工程,在由初步统计资源需求到最终确定优化资源配置策略的过程中存在各阶段中多主体的博弈决策关系。博弈链理论及分析方法在综合考虑复杂系统中客观存在的组链式博弈关系的基础上,通过确定一套符号规则体系,引入关系函数,嵌入效用函数,能够清晰地描述多主体多局势之间的复杂关联特征及其作用关系,目前被广泛用于各个研究领域[1-3]。由此,博弈链可为舰炮保障资源配置方案确定过程中的复杂博弈关系提供一种新的表达方法,为阐述其演化及决策过程提供了新的理论基础和方法支撑。

1 舰炮保障资源配置分析

舰炮保障目标是能够在作战或训练任务下,为各级决策者和各类作战平台提供各自任务所需的保障活动及相应的资源。舰炮保障资源的配置涉及到作战指挥、保障指挥、保障组织及舰炮本身等多个因素的影响,这些因素之间的关系如图1所示。在面向任务进行舰炮保障资源配置时,其根本出发点是作战指挥部门所指示的作战任务下的保障任务。保障指挥部门则依据保障任务明确保障目标与保障需求,对相关的舰炮保障部门(如舰员级、中继级、基地级保障站点等)下达保障指示,主要包括舰炮顺利完成作战任务所需的使用保障活动、弹药与备件等资源,及其过程中出现故障时所需的维修保障活动及资源。保障站点则根据保障指挥部门的总体指示及舰炮在使用及维修过程中的资源请求进行及时、有效的资源供应,并将资源库存供求、舰炮故障及保障情况反馈给上级部门。

图1 舰炮保障资源配置因素的关系Fig.1 Relation of the factors in naval gun support resource allocation

根据上述舰炮保障资源配置过程可知,保障资源配置不能由各保障站点单独决定,需要充分考虑保障过程中各个阶段的资源需求情况,提出资源配置计划并组织实施资源保障。因此,保障资源配置以确定保障目标中所需的保障资源约束为前提,依据保障资源的约束条件,需要对任务剖面下各类资源的消耗与需求进行预测,然后对各保障点的资源保障能力进行评估。根据资源需求与保障能力评估的结果进行资源与相应保障站点的部署,各保障站点依据需求对保障资源进行分配与供应,将资源运输到相应的位置。因此,可以将舰炮保障资源的配置过程分为确定保障目标、明确保障资源需求、资源保障能力评估、资源保障站点部署及保障资源供应5个过程。其对应的决策点如图2所示,依次为保障目标选择决策、资源需求预测决策、资源保障能力决策、资源与保障站点部署决策和保障资源运输决策5个决策点。

图2 舰炮保障资源配置决策过程Fig.2 Decision process of naval gun support resource allocation

2 舰炮保障资源配置的博弈链模型

2.1 保障资源配置决策的博弈链表述图

目前,博弈链主要采用表述式和表述图2 种方式对具有纵横交错的博弈系统进行描述[4]。表述式通过采用特定的符号分别表示博弈单元、博弈组和博弈链,将系统复杂的博弈关系抽象为基本的博弈组链形式;表述图则通过一系列约定的图示符号规则体系用图示的方式分别表示博弈单元、效用函数、关系函数、结果输出等博弈基本元素及其逻辑关系。

根据图2所示的舰炮保障资源配置阶段决策过程,可以将其描述为如图3所示的舰炮保障资源配置决策博弈链表述图。决策过程中的每一个阶段对应于一个博弈单元或博弈组,每个博弈单元(博弈组)中的博弈内容即为保障资源配置每个阶段的决策点内容。舰炮保障资源配置决策博弈链模型主要分为5个博弈阶段,分别为保障目标选择博弈单元、资源需求预测博弈组、资源保障能力博弈单元、资源保障站点部署博弈单元及保障资源运输博弈单元。博弈链的各个博弈单元或博弈组之间具备对应的前后逻辑联系,前一个博弈阶段的博弈结果直接影响着后续博弈阶段策略的选择。

保障目标选择博弈单元是确定保障目标优先级、合理进行保障资源配置的前提与基本依据。该阶段主要任务是装备保障指挥部门根据作战任务对保障过程中出现的多个保障目标的轻重缓急进行分析,定量地对其进行优先排序。其输入为各个保障目标的相关属性与属性值,输出为各保障目标的优先级序列。博弈双方A1与B1分别代表装备保障指挥部门与作战指挥部门。

图3 舰炮保障资源配置决策博弈链表述图Fig.3 Game chain graph of naval gun support resource allocation decision

资源需求预测博弈组是根据保障目标的优先排序,对各保障目标对应的保障约束中所需的各种保障资源的消耗与数量要求进行预测决策。其输入为保障目标的保障约束,输出为实现保障目标所需要的各种保障资源的消耗与需求预计情况。博弈双方A2与B2分别代表作战或训练中装备作战力量与资源损耗统计。由于不同的作战或训练中对舰炮进行使用与维修所需求的资源种类和数量不同,因此,需要根据确定的保障目标对各种保障资源的消耗需求进行预测博弈。将舰炮所需的各种保障资源进行编号,对各类资源分别进行博弈决策。

资源保障能力博弈单元是根据保障资源的需求预测,各保障站点在实施对应保障任务时对不同保障资源需求的满足程度进行博弈决策。因此,其输入为各保障任务剖面下的资源需求,输出为不同站点对各类保障资源的满足程度。博弈双方A3与B3分别代表保障任务的资源需求与舰炮保障站点的保障能力。

资源保障站点部署博弈单元是根据资源保障能力的输出对各类资源对应的保障站点进行分配与调度。因此,其输入为各保障站点对保障资源的满足程度,输出为保障站点对各保障资源的部署计划。博弈双方A4与B4分别代表保障任务的资源需求与舰炮保障站点。

保障资源运输博弈单元根据资源站点的部署计划,将需要运输各类保障资源送达至对应需求地点。因此,其输入为资源保障站点的部署计划,输出为各类资源的最优运输方案。博弈双方A4与B4分别代表资源保障站点的保障能力与舰炮保障环境。

2.2 保障资源配置博弈链的数学模型

为了定量对舰炮保障资源配置各个阶段进行博弈决策,从而得到最优资源配置方案,需将资源配置的博弈链模型进行形式化描述。用M = {Mk,k =1,2,3,4,5}表示图3所示的博弈链模型,M1,M2={M2j,j=1,2,…,n},M3,M4,M5分别代表保障目标选择博弈单元、资源需求预测博弈组、资源保障能力博弈单元、资源保障站点部署博弈单元与保障资源运输博弈单元。对于每个博弈组或博弈单元,均包含效用函数U、输出结果集R与关联函数集F3个元素,即

式中:Uk为博弈双方在决策阶段k 中获得的效用;Rk为决策阶段k的决策结果(策略方案);Fk为决策阶段k 到k+1的关系传递;图3 中RZ为舰炮资源保障配置的最优决策方案,即此博弈链模型的最终综合输出结果;FZ为博弈链模型的输出均衡关联函数。

依据上述分析,将舰炮保障资源配置博弈链的决策过程用数学模型描述为:

下式中,t为博弈链中的决策点集,t = {tk,k = 1,2,3,4,5},其中,t2= (t21,t22,…,t2n);St为决策状态集,itk为决策点tk下的状态,;Ot为决策可选方案集,otk为状态itk下的可选方案,Ot= {∈Ot,l = 1,2,…,n};Pt为系统决策状态转移概率集,ptk为决策点tk处于状态itk,采用方案otk后在决策点tk+1时处于状态itk+1的状态概率集,满足:

博弈模型中的关系函数可由状态转移概率给出,即Fk= ptk。下式中,Ut为系统效用集,rtk为处于状态itk时采用方案otk的效用,Ut={rtk(itk,otk)rtk∈Ut};Π为系统策略(方案)集合,记决策点tk下处于状态itk时的决策变量函数为ytk(itk),在决策点tk从状态itk出发的允许决策集合(决策变量取值的集合)记为Ytk(itk),显然存在ytk(itk)∈Ytk(itk)。策略为按顺序排列的决策集合,记决策点tk所处决策阶段的子过程策略为πtk(itk),πtk(itk)∈otk,即输出结果Rk=πtk(itk)= {ytk(itk)}。对于系统策略集Π 满足:

下式中,V为在定义的策略Π 下,在决策点tk下从状态itk出发,决策者采取方案otk时的期望总效用准则函数[5],满足:

式中∀itk∈St,otk∈Ot,h = k +1,…,5。

在进行舰炮保障资源配置方案决策时,采用期望总效用准则评价决策点tk到最后一个阶段的系统策略的优劣。k =1 时的期望总效用准则即整个决策系统的准则函数,对上述决策数据模型求解的最终目的是求取在这个准则函数下初始状态的系统均衡解。

3 基于多阶段动态规划的博弈链模型求解

通过对舰炮保障资源配置博弈过程的分析可知,图3所示博弈链中的5个博弈阶段相互联系,在每个阶段都需要做出决策,且每个阶段的决策不仅决定着本阶段所采取的方案和活动,其决策结果还直接作为后续阶段决策的约束,从而对整个决策过程产生影响。在舰炮执行作战或训练任务过程中,根据不同保障任务下的资源消耗情况,保障资源需要进行重新配置决策。因此,关于舰炮的保障资源的配置与重新配置的决策过程可以模拟为一个多阶段的动态决策过程。对这个过程的博弈链进行求解即对包括5个阶段的整个资源配置过程进行最优化决策。由Richard Bellman 提出的动态规划能够把困难的多阶段决策问题变换成一系列互相联系、较易解决的单阶段问题,是解决此类多阶段决策过程最优化的有效方法[6]。

使用动态规划方法求解多阶段决策过程的最优化问题时,需要建立相应的动态规划模型,简称为DP模型[7]。应用于舰炮保障资源配置决策的博弈链模型中时,即需依据所确定的博弈阶段、各阶段状态和决策准则等,列出各阶段决策点对应的状态集合、决策准则、状态转移方程及效用函数等。以决策点tk下的任一状态itk为起始状态,记此状态的后部最优子策略为(itk),Πtk(itk)为以其为itk为起始状态的后续阶段允许策略集合。(itk)为以下最优化问题的解:

对于Vtk(itk,Πtk(itk)),其满足以下关系:

式中:Πtk(itk)= {ytk(itk),Πtk+1(itk+1)},itk+1= ptk(itk,ytk(itk))。

假设对任意itk+1∈St,已经解出后部最优子策略(itk+1),式(6)所示的问题可等价为:

加上约束条件,可以得到如下DP 方程:

其中,Qt6(it6)的值由效用函数之间的关系所定,如果博弈阶段之间的效用函数运算关系为相加,且Qt6(it6)值为0;如效用函数运算关系为相乘,则Qt6(it6)值为1。由式 (9)可解出(itk),且。

依据上述动态规划最优化模型的分析,在对舰炮保障资源配置的博弈链模型进行求解时,需要对每个博弈阶段进行决策,得出每个阶段的策略与最优效用。运用动态规划的逆序解法[8],令k =5,即从最后一个博弈阶段 (决策点为t5)开始,以Qt6(it6)=0,1为终端边界条件,逐次向前递推计算(令k =k-1),直到k =1为止,求得(it1)与Qt1(it1),由此即能得到保障资源配置决策过程的最优系统策略Π*与相应的最优总效用值V*=Qt1(it1),其中Π*= {(itk),k = 1,2,3,4,5}。

其求解算法流程如图4所示。

图4 基于动态规划的博弈链模型求解算法Fig.4 Arithmetic flow solving the game chain model based on dynamic programming

4 结 语

本文提出运用博弈链的基本理论与方法对舰炮保障资源配置的决策优化进行研究,将舰炮保障资源配置的每个决策阶段视为一个博弈单元或博弈组,构建了整个决策过程的博弈链表述图,直观并清晰地描述了保障资源配置的决策阶段及各阶段之间的关联。通过明确博弈链表述图中各决策阶段对应博弈单元的博弈双方、效用函数、关系函数与输出结果等要素,从而建立了整体博弈链的数学模型,然后分别定义了该模型中的决策状态集、可选方案集、状态转移概率集、效用集、系统策略集及期望总效用准则函数等元素。基于所建立的博弈链决策过程的多阶段动态演化特性,利用动态规划中的逆序解法对博弈链数学模型进行求解,构建了保障资源优化决策的DP模型,给出了具体的求解算法与步骤,从而实现舰炮保障资源配置的最优化决策。

[1]梁冬,陈昶轶,樊延平,等.基于博弈链的装备保障指挥决策建模研究[J].微计算机信息,2009,25(16):253-255.LIANG Dong,CHEN Chang-yi,FAN Yan-ping,et al.Research on equipment support command decision based on game chain [J].Microcomputer Information,2009,25(16):253-255.

[2]张军,廉蔺,朱为,等.基于博弈链的国防人才培养模式分析[J].系统工程,2012,30(11):122-126.ZHANG Jun,LIAN Lin,ZHU Wei,et al.Exploring training mode of defense personnel based on the game chain[J].Systems Engineering,2012,30(11):122-126.

[3]方志耕,郭本海,张一帆,等.基于进化博弈链结构的股票市场非理性泡沫测算问题研究[J].广义虚拟经济研究,2012,3(3):83-90.FANG Zhi-geng,GUO Ben-hai,ZHANG Yi-fan,et al.Research on irrational bubbles in the stock market based on the chain model of evolutionary game[J].Research on the Generalized Virtual Economy,2012,3(3):83-90.

[4]侯光明.博弈链理论及其在国防科技组织创新中的应用[M]..北京:科学出版社,2007:84-100.HOU Guang-ming.Game chain theory and application in defense S&T organizational innovation[M].Beijing:Science Press,2007:84-100.

[5]陈昶轶,沈宇军.数字化部队装备保障建模与论证仿真[M].北京:军事科学出版社,2009:62-69.CHEN Chang-yi,SHEN Yu-jun.Digitization troops equipment support modeling and simulation[M].Beijing:Military Science Press,2009:62-69.

[6]周献中,郑华利,田卫萍,等.指挥自动化系统辅助决策技术[M].北京:国防工业出版社,2012:44-48.ZHOU Xian-zhong,ZHENG Hua-li,TIAN Wei-ping,et al.Aided decision-making techniques in command and control system[M].Beijing:National Defense Industry Press,2012:44-48.

[7]张东戈,牛彦杰,权冀川,等.军事运筹学[M].北京:国防工业出版社,2012:141-142.ZHANG Dong-ge,NIU Yan-jie,QUAN Ji-chuan,at el.Military operations research[M].Beijing:National Defense Industry Press,2012:141-142.

[8]董树军,张庆捷.军事运筹学教程[M].北京:蓝天出版社,2006:255-258.DONG Shu-jun,ZHANG Qing-jie.Military operations tutorial[M].Beijing:Blue Sky Press,2006:255-258.

猜你喜欢
舰炮资源配置站点
大口径舰炮弹药储供系统可靠性研究
一门舰炮杀四方
一门舰炮杀四方
人力资源配置与经济可持续发展的关系
辽宁省冰雪场地设施资源配置均等化研究
Palabras claves de China
基于Web站点的SQL注入分析与防范
积极开展远程教育示范站点评比活动
如何发挥企业家精神推动经济增长
怕被人认出