薄 云,廖学军,白洪波,白 宇
(1.航天工程大学研究生院,北京 101416;2.中国白城兵器试验中心,吉林 白城 137001;3.航天工程大学航天保障系,北京 102206;4.国防大学联合勤务学院,北京 100858)
在纯理性的情况下,任何战争的结局都是由交战双方对于作战结果的可控性决定的。如果交战的一方能够以更大的概率保证部署了某种作战力量即可达成作战意图,那么,这一方将以更大的概率获胜[1-2]。从这一角度来说,武器装备试验鉴定的最终目的是尽可能精确地回答“在指定的作战条件下,按特定参数配置的武器装备能在多大程度上达成作战意图”,从而确保这些武器装备一旦被列装,指战员能以尽可能大的概率作出正确的作战部署。
试验与鉴定[3]达成这一目的的基本保证是一系列的科学分析和统计技术。它们使得试验与鉴定不仅能够回答试验应当选择怎样的试验条件、试验多少次、怎样控制试验进程,而且能够回答作出这些选择的科学依据。但是,作战试验[4-5]这一新的试验类型却给如何应用这些技术提出了严峻挑战。它强调在近似实战的环境下,由典型的作战人员按照作战条令规定的作战流程“试用”武器装备,通过分析该武器装备完成既定作战任务的程度,和适应该类作战任务的程度,给出是否批量订购的意见和战法改进的建议[6-7]。显然,鲜明的实战化特色使得作战试验呈现高度的动态化特征,从而与统计学严控试验条件以提升结果精度的要求相抵触。
考虑到和平环境下最具作战真实性的军事行动是演习训练,如果结合演习训练开展作战试验,不仅能满足“实战化”需求,还将大幅节约试验经费。问题的关键便在于合理设计作战试验,以满足科学分析与统计学要求的结果精度。本文对该类设计所需考虑的模型背景与影响因素进行了研究,创新提出了观测式作战试验的构想,并以案例进行了演示,可为后续的相关试验提供有益参考。
一般认为依据科学分析与统计学技术开展的试验研究最早源于R·A·Fisher 于1920 年开展的农业统计与分析工作,后经几代学者的继承发展,逐渐形成了功能完备、形式规范的方法体系,大力促进了实证科技的高速发展,深刻影响了当今社会[8-9]。为更好地应用这套方法体系,需要按照其基本思想和术语将作战试验模型化,具体可分5 部分,如图1所示。
图1 作战试验推理模型
一是处理。它是研究者根据研究目的施加或观察的,能作用于试验对象并引起直接或间接效应的因素。在作战试验中,处理即为被试装备。
二是受试对象。它是接受处理并作为观察对象的基本单位。在作战试验中,受试对象即为操控武器装备的最小规模的作战力量。例如:操控传感器的操作员是针对部件级武器装备的受试对象;配备单兵作战系统的特种作战人员是系统级武器装备的受试对象;新型突击装甲步兵营是体系级武器装备的受试对象。
三是效应。它是处理因素作用于受试对象的反映或结果。在作战试验中,效应通常以各种参数指标的形式表达出来。
四是非处理因素。它是除了处理之外,对效应产生影响的其他因素。在作战试验中,非处理因素即作战单元操控被试装备模拟执行作战任务的背景条件,通常包含了作战想定、地形地貌、天时天候、电磁环境、模拟威胁等因素。
五是数据分析。它是基于一定的统计学方法,根据测得的效应的实际值,推断处理是否发挥预想的作用。在作战试验中,数据分析通常需要参照给定的指标阈值,或与基线作战力量作对比,以考察被试装备是否具有宣称的效应。
为保证作战试验得出的结论切实反映武器装备的真实效能与适用性情况,须按如下步骤推理:
步骤1:确认X 是否发生;
步骤2:确认Y 是否发生;
步骤3:确认Y 是因为X 才发生。
其中,X 指与被试武器装备功能、性能相关的事件,它是作战试验推理模型的自变量,例如:经更新的红外模块正常运转;Y 指与作战效能或适用性相关的事件,它是作战试验推理模型的因变量,例如:发现可疑目标。按照作战试验的基本构成,根据推理逻辑顺利实施作战试验包括如下页图2 所示的4个关键环节。
这是作战试验结论推理的起点。它要求试验前组织合适的操作培训,试验中按照指定的战术战法操控被试装备模拟作战任务。它对应的是推理的步骤1,该环节不利于结论有效性的风险有3个方面。
一是被试装备无法启动被考核的功能。包括该武器装备没有宣称的功能、故障频繁,或存在安全隐患必须停止使用等。
二是作战人员操控装备的技能水平未达到作战需求。主要指的是作战人员通过试前的操作培训并未达到要求的技能水平。
三是没有机会实施新能力。主要指的是在某种试验条件下,模拟实施的作战行动可能没有机会实施待试的某项功能。
即作战试验要能够根据武器装备不同的运用场景,以量化的方式,度量出各自作战效果的差异情况。它对应的是推理的步骤2,该环节不利于结论有效性的风险有6 个方面:
一是被试的多台(同型)装备功能一致性较差,实际的作战水平差异明显。这增大了结果的方差,使得结果的置信区间变宽[10],降低对于作战应用的指导作用。
二是作战人员熟练程度不一致。即参试的作战人员虽经过培训,但是操控水平差异明显。
三是试验条件存在漂移。主要指试验的某科目在多次重复实施时,试验条件的某些因素水平发生了变化。
四是数据收集的正确性不一致。主要指的是针对参数指标的测量方法在实施过程中存在一定的出错率,使得试验数据偏离真值。
五是试验功效[11]太低。主要指的是试验的数据分析设计没有充分考虑验前信息,没有在科目中设置具有统计代表性的试验条件,从而难以高效利用试验资源,得出试验的正确结论。
六是违反了统计假设条件。主要指的是试验的数据分析使用了某种统计技术,但实际的数据并不符合该统计技术的假设前提,因此,错误使用了该技术,使得试验结果的可靠性降低[10]。
即作战试验要通过试验设计和任务实施,使得作战效果的成因能够分离出来,证明被试武器装备是作战效果发生变化的原因。它对应的是推理的步骤3,该环节不利于结论有效性的风险有4个方面:
一是被试装备在前后的多次试验中功能有差异。主要指的是作战试验的某些科目需要试验多次,但被试装备的作战效果随着时间的推移会变得更好或更差。在这种情况下,不当的试验顺序安排会妨碍解释作战效果的成因[12]。
二是在各模拟作战中,作战人员操控武器装备的熟练程度会随着参试时间而递增[13]。在这种情况下,作战人员对于武器操作的学习效应会妨碍解释其他成因。
三是在各模拟作战中,数据采集人员随着试验工作的推进,更加熟练数据采集工作,从而提升数据采集的准确性和精度,造成不同时间点数据偏离真值程度不一致、离散程度有差异[13]。
四是随着模拟作战任务的实施,试验条件发生变化。主要指的是随着时间的推进,模拟作战任务的天气条件、蓝军作战能力等试验条件可能会变得更好或更差,从而难以解释效果成因[13]。
这是作战试验结论推理最核心的环节,即作战试验的结果应不仅仅只适用于被试的特定武器装备,还应当能够推广到大批量生产的同一型号其他武器装备。该环节不利于结论有效性的风险有4 个方面:
一是被试功能无法代表作战使命。主要指被试的功能只反映了作战使命的一部分,或者无法反映未来作战的实际情况,甚至考察的功能可能不会出现在未来的作战中。
二是作战人员不具有作战单元的代表性。主要指作战人员的训练水平可能达不到所需的强度,或者通过加强训练,使得参试作战人员的技能水平低于或者大大高于未来使用该装备的作战人员的水平。
三是度量尺度不能反映重要的效应。主要是试验的度量手段分辨率不高,无法区别水平相近的作战效果,或者采用了过多的定性判断,使得武器装备被衡量出的作战水平对于其作战部署的指导性有限。
四是作战想定的真实性有限。主要指作战想定并不能反映战场的实际情况,比如作战人员对于想定的作战场景非常熟悉、蓝军的作战行动和实际有差异、作战的配置和实际情况不同等。
通过以上分析可以看出,影响作战试验结论有效性的因素主要分为3 个方面,第一是真实性的问题,包括装备是否具有生产代表性和场景是否具有作战典型性;第二是测试能力的问题,即尽可能精确地度量不同作战效果的差异;第三是提高试验的信噪比,即尽可能控制噪声信息,以准确判断作战效果的成因[8]。在实践中可以结合部队的日常演训,尽可能提升作战试验的真实性,在现有的测试能力之下,利用科学分析与统计技术,尽可能提升试验的信噪比。
基于科学分析与统计学的试验设计技术,提升结果信噪比的关键是尽可能充分地实现随机化和区组化[14],以尽可能满足统计检验的假设条件和降低被试装备以外的因素对于试验结果的影响。但是由于作战试验的实战化特征,显然无法随机地试用武器装备,而是尽可能遵照作战规律来试用武器装备。所以,为了尽可能地应用这些技术方法,可以参照以下流程来组织试训结合式的作战试验。
第1 步,以作战试验准入审核的形式,确认被试武器装备的技术性能参数和相关生产工艺已基本固定,抽样的被试武器装备具有生产代表性;
第2 步,确认考核指标,以及指标可能的影响因素;
第3 步,确定考核指标,及各影响因素的测试方法和结果检验方案;
第4 步,根据考核指标、影响因素的结果检验方案,确定试验的终止条件;
第5 步,以部队完全自主的方式试用被试武器装备,以观测的方式采集指标及影响因素的实际数据;
第6 步,到达试验终止条件后,分析观测数据,评估被试装备的作战效果,考察各因素对于作战效果的影响程度,提出鉴定意见和装备改进及战法应用的相关建议。
设拟通过作战试验考核问题为航母甲板改进方案验收。原甲板内日起降机次约120 架,经一系列技术升级改造之后,装备研制方应按合同规定将起降机次提升至135 架以上。
由于航母甲板改进后,需立即保障舰队每日战备,而在此期间,甲板人员有很多的实时决策会影响出动架次,如在一个典型的弹射周期内,有多架授命飞机待飞和备用飞机待命,若弹射器或飞机发生故障,甲板人员需要根据故障部位、修复时间、任务优先级等因素,选择等待修复、转移发射器、使用备用机、取消发射或其他的应对方案,因此,该作战试验无法按照常规的试验设计方法,以随机化、区组化的方式控制这些影响因素,只能按照作战规程,由甲板人员实时决策应对方案。
考虑到完全按照作战流程来实施作战试验,则各项作战指标是在真实的系统噪声背景下采集数据的,虽然最终各指标的考核结果未必完全是因被试装备这个处理因素而产生,但它至少也反映了被试装备与真实作战环境结合下能够产生的作战效果,因此,以这种方式实施的作战试验至少能够回答在这种作战环境下,为达成这种作战使命,是否适宜批量订购这种被试装备。试验策划与实施的难点在于科学判定何时终止试验,即满足什么条件即可认为作战试验已充分实施。具体步骤为:
第1 步,审阅甲板在技术升级改造期间的试验记录,确认甲板的各项性能指标已达到可接受的技术稳定性,可安全实施作战试验,并且各项技术工艺也已基本成熟,可推广至其他的甲板改造。
第2 步,确认试验的主要指标为出动架次,其他指标及它们的含义如表1 所示;对出动架次Y 可能有影响的因素包括飞机机型(共有6 个)和任务类型(共有6 个)。
第3 步,确定测试方法为:测量5 个指标的实际值,其中,时间指标要求精确到分(min);在测量时间指标的同时,记录2 个影响因素的实际值。确定结果的检验方案为:以假设检验[10]的方式考核指标;以回归分析[10]的方式考察非被试装备因素对于作战结果的影响。
第4 步,确定试验的终止条件。
假设检验的显著性水平为0.05、统计功效大于0.80。通过查阅历史数据和性能试验结果,计算统计功效的变化规律,得如图3、图4 所示结果。可见在显著性水平为0.05 的情况下,当飞行日大于6 d 时,统计功效大于0.80,而当每个飞行日的出动架次大于135 时,统计检验的功效也将大于0.80。故对于出动架次这个指标来说,6 个飞行日之后,即可终止试验。
图3 按飞行日计算的统计功效
图4 按每飞行日出动的架次计算的统计功效
另外,通过分析演训计划可以看出,舰队在6个飞行日中,按各机型或各任务出动的飞机架次都将超过35 架次,而通过分析如图5 所示的其他指标的历史数据,计算统计功效的变化规律,得如图6所示结果。可见,在显著性水平为0.05 的情况下,各任务、各机型比较下的各时间指标统计检验功效也将大于0.80,故对于这些指标来说,6 个飞行日,也可终止试验。
图5 停航时间的历史数据分布
图6 时间指标随样本量变化的统计功效
第5 步、第6 步,按照正常演训程序做好数据观测,并作结果评估,即可在保证作战试验尽可能实战化的条件下,实现以上指标考核的精确化。
通过比较第2 节作战试验有效性的影响因素可以看出,试训结合式作战试验是在完全真实的数据噪声下开展武器装备的“试用”的,完全匹配武器装备的作战使命,具有非战时最好的作战真实性和噪声背景的一致性。同时,利用统计技术在试前确定试验的截止条件,可以尽可能满足结论推理所需的统计功效和假设前提,因此,也尽可能高地提升了结论的精确性。由于试训结合式作战试验的这些优良特性,不断补试增加的数据和原有的数据仍然具有很好的一致性,因此,阶段性地实施试训结合式作战试验会带来更好的试验综合效益。
但也应当看到,试训结合式作战试验的实施也是需要一定前提条件的:一是被试武器装备应当具有较好的指标稳定性,且已基本固定生产工艺,这样才能将试验结论推广至批量订购的决策建议;二是武器装备应在拟试验部队培训或试用了一段时间,以确保作战人员操控技能的稳定性;三是数据采集应尽可能自动化,避免人为采集造成的前后数据不一致的问题。因此,可适当采用作战试验准入审核的方式,以尽可能满足这些条件。