周 芳,丁 冉,毛少杰,金 欣
(中国电子科技集团公司第二十八研究所,南京 210007)
随着人工智能(AI)技术正在加快推动军事智能化技术的发展与应用,在军事智能无人平台、目标图像处理、自然语言处理等领域的应用成效初见端倪,AI 技术的深化发展也将对未来战争形态和作战样式产生重大的变革和影响。然而,在分析了目前军事智能化技术水平,以及国内外军事智能指挥控制上的智能化发展现状后,不难得出制约军事智能化技术发展的核心是训练样本数据,缺乏高质量强对抗的训练样本数据支撑。
为了有效解决上述问题,本文提出了基于对抗推演的训练样本数据生成框架,建立了训练样本分类体系,提出了军事目标图像、目标航迹等典型训练样本表征模型;建立了基于对抗推演的的训练样本生成框架,提出了基于规则与微分方程求解相结合的智能空战训练样本生成方法,依据红蓝双方的行为决策模型,开展对抗式仿真推演,积累训练样本数据。生成的训练样本数据一方面,用于军事智能目标识别、情报处理、智能态势认知、智能指挥决策等监督类AI 算法的学习训练;另一方面,用于军事智能AI 算法的测试集,用于测试评估AI 算法的鲁棒性、泛化性和适应性等能力指标。
一直以来,美军希望构建AI 学习应用程序,为指挥和参谋决策提供支持,但是缺少构建程序所需的数据,作战演习等数据库储存的数据,并不适用于实现机器学习以及其他AI 算法。为此,美国海军陆战队将现有商业兵棋推演游戏引擎进行改造,研制雅典娜推演平台,为获取测试用于军事决策的人工智能应用程序的大量数据提供必要的环境,专门用于训练、测试未来人工智能在军事决策领域的应用。在任务推演中,雅典娜平台通过语音的形式与用户交互,搜集各种推演数据,对用户的推演计划进行评级,同时搜集的数据也有助于构建更大的关于美国军事人员如何战斗的数据库,并通过评估数据,提出建设性建议。通过雅典娜推演平台,用户可了解自身在决策方面的不足之处,予以改进;同时,雅典娜为测试新的AI 应用程序、观察人机合作效果提供了支撑平台;最后,在积累了大量数据之后,雅典娜平台可生成利用新战术的智能敌方AI,并通过人人对抗以及机- 机自博弈的方式进行新战术的测试。
美国国防部创新试验小组(DIUx)指出:现在限制AI 在军事领域应用的关键就在于:短时间、强对抗的交战环境能够提供的机器学习样本数量太少,导致AI 难以在对抗环境中施展。
此外,美军某人工智能实验室利用“生成对抗网络”技术,主要采用对抗思想和深度学习的模式来生成数据。“生成对抗网络”实际上是由两个神经网络组成,即生成器和鉴别器。生成器通过接受输入的内容,不断生成某一样本,而鉴别器则随着时间的推移越来越详尽地告知生成器怎样修正。也即生成器不断尝试创建新样本,鉴别器尽可能地确定样本是否真实。双方在训练过程中都不断优化自己,直至达到平衡——双方都无法再变得更好,也就是假样本与真样本完全不可区分。在模拟仿真方面,可将仿真图像转换为真实风格的图像,模拟真实的光照和天气条件,由二维图像生成物体的三维模型等,从而积累仿真图像样本。
国内在训练样本生成研究方面,主要集中于民用图像、视频类训练样本的生成,提出了多种数据增强方法来满足训练时对大样本数据量的需求。在飞行数据预处理的基础上,采用离散序列生成式对抗网络对飞行数据进行增强,扩大飞行数据样本。目前国内训练样本生成主要以视频、语音类样本为主,缺乏对军事类目标图像、目标航迹、目标作战行动等样本生成,未充分考虑训练样本的对抗性,难以真实应用到军事智能筹划AI 算法学习训练与测试评估中。
随着人工智能技术在军事作战领域的广泛应用,迫切需要训练样本输入对各级各类军事智能体进行学习。通过训练样本对训练集的扩充作用,能够使智能算法具有更强的适应性。目前,训练样本比较成熟的领域有图像识别、语音分析、文本挖掘、噪声源识别多个研究方向。在军事智能领域缺少统一规范的训练样本分类体系研究,已成为军事智能化应用快速发展的瓶颈限制。本文将尝试从训练样本的分类、训练样本产生分类、训练样本的管理应用等几个方面,对军事智能训练样本分类体系进行研究,通过分类整理,促进提升智能算法训练的效果和能力。
军事智能训练样本用于对智能算法模型的训练能力与学习能力进行测试与评估,确保智能化能力水平的置信度。训练样本可以从指控业务、数据格式等不同的层次进行分类,具体如下页图1 所示。
图1 军事训练样本分类体系
从指控业务角度,依据军事作战指挥控制的OODA(观察、研判、决策、行动)环的角度,提出了涵盖军事目标智能识别、智能情报处理、智能态势感知、智能指挥决策类等样本构成的训练样本分类体系,将通过对抗仿真推演方法生成样本。例如,针对军事目标智能识别算法,其训练样本包括:飞机、舰船、坦克等遥感影像类图像样本、可见光图像样本等。
从数据格式角度,针对图像、视频、文本、语音等4 类具备结构化、半结构化、非结构化不同模态的训练数据及其生产的特点开展分类研究。针对图像类样本,按照数据格式的不同,主要包括可见光图像、红外图像等。针对视频类样本,主要包括航拍无人机视频、演习视频、实兵对抗视频等样本。
针对上述训练样本,通过分析军事智能对抗训练样本的约束条件,提取训练样本特征,设计训练样本标签,分别建立了军事目标图像、智能情报处理、智能态势感知、智能指挥决策等4 类训练样本的表征模型。
2.2.1 军事目标图像类训练样本表征
军事目标图像类训练样本主要来自于无人机/ 卫星侦察SAR 图像等非结构数据。本文将从特征、标签两个维度,对军事目标图像类训练样本进行表征。其中,训练样本特征包括:目标图像形状、目标图像尺度、方位、纹理材质、轮廓、灰度值等要素。设计的训练样本标签包括:目标图像类型、型号、位置、格式与文件存储位置。
2.2.2 智能情报处理类训练样本表征
智能情报处理是在战场目标融合、动向情报处理的基础上,采用大数据、深度学习等智能化技术,提供智能化的情报广义关联、文本实体自主识别与事件自动抽取、异构情报的语义关联与融合等智能情报处理算法模型,实现对战场目标的智能识别和规律分析能力。
2.2.3 智能态势感知类训练样本表征
智能态势感知完成对战场目标行为意图估计、威胁时间告警分析、敌作战目标威胁等级估计等,并基于当前态势信息,实时预测未来不同时刻的态势趋势演化与走向,辅助指挥员及时准确掌控战场态势。
针对目标航迹训练样本,提出的训练样本特征包括:目标类型、目标名称、目标航线等;设计的训练样本标签包括目标行为意图、目标行为发生概率等。
针对目标价值排序训练样本,提出的训练样本特征包括:任务类型、作战阶段、目标类别、目标能力等要素,设计的训练样本标签包括:目标任务、目标排序等级。
2.2.4 智能指挥决策类训练样本表征
在智能指挥决策方面,其典型智能算法模型为智能博弈对抗模型,如美国辛辛那提大学的空战AI中采用遗传模糊树智能算法模型,通过开展博弈对抗试验积累样本数据,学习并优化战术战法,为实时指挥提供决策支持。
智能指挥决策类训练样本特征与标签,将从智能空战对抗模型、智能海战对抗模型、智能陆战对抗模型等维度进行提取,例如智能空战对抗模型的训练样本的特征包括:红蓝双方的初始兵力部署、相对距离、相对方位、拦截点位置等。
美海军陆战队研制的“雅典娜”对抗推演测试平台思想,通过构建智能对抗推演试验环境,为军事智能AI 算法学习训练积累训练样本数据,开展机器学习,验证AI 算法,最终用于方案推演、态势预测、战法创新、指挥训练。虽然美军报告研制除了AI 算法训练与测试平台,但其具体平台功能性能与相关技术未见任何报道。本文借鉴美军产生训练样本的思路,设计了基于对抗推演的训练样本生成框架,其核心思想是:通过构建虚拟对抗仿真环境,设计面向训练样本的智能对抗试验场景,驱动红方、蓝方开展智能对抗推演,在虚拟对抗仿真环境下推演红蓝双方的自主对抗行为和裁决行动结果,实时采集智能对抗试验数据,对试验数据进行清洗预处理,从中抽取出训练样本特征,生成训练样本。具体生成架构如图2 所示。
图2 基于对抗推演的训练样本生成框架
3.1.1 智能对抗推演平台
智能对抗推演平台用于负责智能对抗想定设计、智能对抗推演环境生成、智能对抗推演运行过程的管控,实时监控推演运行状态,对交战效果进行实时裁决与评估等任务,具体涵盖智能对抗场景设计、仿真推演引擎、智能对抗推演导调控制、智能对抗交战效果裁决、训练样本生成,以及探测仿真模型、单元决策模型、指挥决策模型、交战裁决模型及战场环境模型等核心组成部分。具体描述如下:
1)仿真推演引擎:为智能对抗推演平台的核心部分,主要负责智能对抗推演过程驱动、推演过程中时间管理、事件管理、模型调度运行和数据管理等,调度红蓝双方仿真模型运转,完成仿真模型之间的信息交互。同时为仿真运行过冲的态势显示、导调控制等提供推演态势数据,是开展智能对抗推演的基础。
2)智能对抗推演导调控制:负责智能对抗推演运行进程控制、仿真状态监控与导调干预等,对推演运行过程进行全程管控。其中,智能对抗推演运行进程控制功能主要涵盖:推演运行初始化、暂停、恢复、结束、加减速、复盘、回放等控制。
仿真状态监控功能主要负责监控推演运行过程中的红蓝双方实体运行状态、实体交互信息、交战事件等要素,收集仿真实体状态、模型数据、实体交互等信息,用于建立仿真日志和仿真过程数据,为事后分析、复盘、回放等提供必要的支持。
导调干预功能主要负责智能对抗推演过程中自然环境、对抗兵力、作战任务、末端等导调,使得推演过程和推演效果朝着预定方向演进。
3)智能对抗交战效果裁决:依据智能对抗实时推演态势数据,对红蓝双方交战效果进行实时计算与判决,包括探测效果、毁伤效果、干扰效果等。同时,将交战效果裁决结果反馈至仿真推演引擎,实时更新仿真模型状态。
4)模型库:模型库主要包括单元决策模型、指挥决策模型、交战裁决模型、战场环境模型、作战实体模型等。其中,单元自主决策模型模拟的是武器平台级、群体/编队级的自主决策行为与动作,在接受到事件激励下对自身行为作出决策,包括来自上级的命令、来自传感器或下级的告警,以及系统自身系统产生的告警等激励。
指挥决策模型模拟的红蓝双方的决策行为,是在掌握了一定指挥决策知识的基础上,用于代替一方/双方指挥员开展人-机/机-机对抗博弈实验。
裁决模型库模拟的是白方的裁判员,是在机器掌握了一定裁决知识的基础上,用于代替白方裁判员,自动化地完成裁决任务,包括单元行为产生的效果,以及随机事件发生的概率等。
3.1.2 红方模拟环境
红方模拟环境为被试验的军事智能指控算法模型提供典型作战体系模拟能力,与蓝方作战体系模拟一起构成一个对抗的试验环境。通过部署和调度对抗试验基础支撑环境中的相关红方仿真模型资源,包括红方的探测模型、单元决策模型与指挥决策模型等,快速生成红方模拟环境。
3.1.3 蓝方模拟环境
蓝方模拟环境为被试验的军事智能指控算法模型提供典型的作战对手模拟,通过部署和调度对抗试验基础支撑环境中的相关蓝方仿真模型资源,包括红方的探测模型、单元决策模型与指挥决策模型等,快速生成蓝方模拟环境。
3.1.4 白方
白方充当“裁判员”的角色,可以任意设定对抗试验场景与对抗试验规则,具体涵盖:红蓝双方对抗试验的兵力编成与部署、作战区域、兵力行动计划、交战规则,以及交战过程中裁决规则和评判标准等。此外,白方还有一些裁判员,负责博弈过程中一些具体的裁决任务,如探测是否发现、打击是否命中等。可按“出题人”的要求临时改变状态、生成交战事件、控制暂停继续等,来引导智能对抗推演运行进程。
依据上述基于对抗推演的训练样本生成框架,以空中智能对抗为典型应用案例,设计了面向空中智能对抗决策算法的训练样本生成流程,通过构建空中智能对抗推演仿真环境,在仿真环境中模拟红蓝双方对抗行动,蓝方作战行动以预定规则生成,红方作战行动以AI 算法来模拟。通过收集海量的智能对抗推演数据,对试验数据进行清洗与特征抽取,生成可用于空中智能对抗算法学习训练的样本数据,具体如图3 所示。
图3 空中智能对抗算法的训练样本生成案例
在对空中智能对抗算法进行训练之前,需要根据算法模型训练训练的能力需求,分析影响训练样本的关键因素,针对每一种输入因素进行组合列出对应的全面可能输出结果。设置智能对抗试验想定,包括红蓝双方目标运行状态、机动能力、火力打击能力等信息。通过智能对抗推演引擎,加载试验想定,调度红蓝双方仿真模型,驱动红蓝双方目标行动模拟、雷达探测功能模拟等。通过交战裁决模型对红蓝双方交战效果、对抗胜负结果进行实时裁决,根据对抗裁决结果对当前策略进行评分,并根据评分结果对该条策略的权重进行更新,重复这一过程,在迭代过程中对全部策略的权重进行更新。在上述过程重复一定次数后,对样本数据进行采集与清洗处理,过滤异常带有噪声的样本数据,通过对样本数据进行标注,生成本轮智能对抗场景下的训练样本。
针对军事AI 算法学习训练缺乏大量训练样本的难题,探索一种基于对抗推演的训练样本生成框架,通过构建智能博弈对抗场景和自主对抗模拟产生训练样本数据,支撑军事AI 算法的学习训练。后续,将重点围绕着生成高质量的训练样本目标,开展可覆盖各种对抗场景的智能对抗训练环境构建技术攻关研究。