许 潇, 周丽娜, 冯剑红, 解巨峰
(1.清华大学,北京 100084;2.中国人民解放军32366部队,北京 100042;3.中国电子科学研究院,北京 100041)
现代战争具备快节奏、高度混乱且极具杀伤力的特点,是海陆空天网的全域对抗。作战信息系统在作战过程和结果中发挥越来越大的影响力,美军已将作战信息系统增加到作战要素中,由C4ISR变成C5ISR。作战信息系统的核心是数据的交换和信息的共享,提高作战流程的集中化、自动化和程序化水平,高效同步作战行动,成为支撑形成信息优势乃至认知优势的关键。美国防部首席信息官达纳·迪西表示:“数据是数字现代化战略的‘弹药’,是夺取未来战争胜利的重要决定力量。”各军兵种通过实施各类计划持续推进数据优势的形成。美国空军参谋长小查尔斯·Q·布朗将军签署批准了空军有史以来第一个先进战斗管理系统行动计划,作为实现“决策优势”的蓝图,以支持美国国防部的联合全域指挥和控制计划。布朗将军确定了美国空军和太空军必须发展能够实现决策优势的八项作战能力,数据共享位居第一位,并在2022财年申请2.04亿美元,用于开展两个子计划。第一个计划“释能1号”(CR-1),致力于在“战术边缘”实现数据处理和共享;第二个计划“释能2号”(CR-2),基于云计算、光纤网络、人工智能和其他新技术加快国土防御任务的决策速度。
美军从多年的作战经验中总结出数据共享的两个误区:一是单一的数据共享过程误区,这会导致未在共享过程中的人无法使用数据,也会给数据共享基础设施造成不必要的负担。二是固化的数据共享流程误区,只有进行流动式的数据共享才能打破信息孤岛,相关数据才能在各个领域、组织和国界之间无缝流动,推动形成数据优势。
基于对军事数据重要性的共识,美国防部自2008年开始持续发布《国防部数据战略》,对美军数据作战能力建设做出详细规划。2021版《国防部数据战略》指出,美国防部将成为一个“以数据为中心的机构”,助力美军通过快速使用数据获取作战优势、提高作战效率。战略提出数据有七条使用要求:1)使数据可见,确保用户可以查找所需数据;2)使数据可访问,确保用户可以检索数据;3)使数据易于理解,确保用户可以识别内容、语境和适用性;4)使数据可链接,确保用户可以通过固有关系利用数据元素;5)使数据可信,确保用户对数据信任,从而进行决策;6)使数据可互操作,确保用户对数据有共同的理解;7)确保数据安全,防止未经授权的使用或操作。
数据的使用是共享的根本需求,基于对数据的使用要求,并结合大数据以及人工智能在未来提供智能算法所需的高质量训练数据需求,数据共享将从范围、深度和可用性三个维度不断深入扩展,如图1所示。
图1 数据共享的三个维度
在共享范围上的扩展是从部门内共享、跨部门共享扩展到跨领域共享,从一对一共享、多对多共享发展到参与算法训练的大众共享。更多的部门与人员参与到数据工作中,作战过程中的每个人都是评估人员、分析人员、反馈提供者,有助于更好地分析、使用数据。
在数据可用性方面,从可见、可访问、可获取到可互操作、可信,数据不仅被用户使用,而且能被不同的应用程序通过接口调用。基于数据安全措施,保证数据不被非法篡改。
在共享深度方面,从原始数据共享到附带到数据产品上的信息共享,推进数据共享向认知方向发展。
美国空军一直在探索前沿技术。2020年10月19日,美空军与麻省理工学院合办的人工智能加速器实验室宣布制定军种数据共享协议,以便全美学术机构的研究人员使用真实国防数据来解决现实问题。同时,美国空军正在计划推出一个基于区块链的图形数据库试点项目,通过该项目来实现空军内部以及与国防部和盟国政府各部门间的数据共享,使用者可以通过SPARQL查询语言和符合数据交换标准资源描述框架(RDF),从现有的旧系统中搜索和提取数据,其中包括存储在第三方Wiki上的数据。由于使用了区块链技术进行加密,因此能够确保存储的数据不可更改,从技术体制上确保数据安全。
面向作战数据跨域泛在共享需求,综合利用当前大数据、区块链等技术,以跨域数据流动为核心,开展数据共享平台设计。数据共享平台在支持各类数据源的接入、存储和安全保密的基础上,向各类用户提供基于知识和语义的数据目录检索、数据订阅、推送数据分析及可视化、面向深度学习等智能算法等训练服务。
数据共享平台系统架构如图2所示,由数据存储层、数据治理层、数据传输层、语义映射层、数据服务层以及跨越各层的平台运维6部分组成。数据存储层提供多种数据源的接入和托管存储,包括关系型数据库、文件存储系统、分布式数据库以及图数据库等。数据传输层支持HTTP、HTTPS、TCP、SOAP、FTP等多种协议,提供分段传输、数据缓存、断点续传,支持区块链的账本式架构。数据治理层,针对非标准数据的清洗和加密及脱敏需求,提供一套ETL工具,方便对数据进行治理。语义映射层支持共享交换模型、RDF描述以及相应的语义映射关系的建立和使用。数据服务层将各类服务进行封装后直接提供给用户使用,包括数据检索、订阅推送、数据分析、数据可视化、训练语料等。
图2 数据共享平台系统架构
数据共享平台的目的是使数据更安全、更高效的共享,从安全方面考虑推荐使用联盟链确保数据范围可控,通过非对称加密来保证数据不可篡改。
高效的共享需要用户对数据有共同的理解和认知。平台提供三个层次的数据描述:1)以共享交换模型为核心的数据标准模型描述,参照美国国家信息交换模型,建立核心领域的数据描述模型,并可以通过对不同领域的模型的自定义来进行扩展,数据描述模型使用xml格式描述,便于不同的应用系统进行跨语言处理;2)RDF描述,RDF首先定义了用于描述资源的框架,允许任何人定义元数据来描述特定的资源。基于数据描述模型中的元数据集,通过使用简单的资源-属性-值三元组,对属性和关系进行描述;3)语义层面的映射,利用自然语言处理相关算法,对文档背景、描述的实体及关系进行提取,并与其他数据进行映射和关联,提升对非结构化数据的处理能力。
美国防部首席信息官达纳·迪西表示:“数据是数字现代化战略的‘弹药’,是夺取未来战争胜利的重要决定力量。”随着数据共享和使用场景的丰富,与数据相关的角色从数据提供者、使用者、维护者扩展到数据标注者、评估者、分析者以及反馈提供者。未来的数据优势方即是最快处理和使用数据的一方,因此需要对数据共享平台进行有效管理,确保任务指挥官、作战人员、决策者和任务合作伙伴实时、安全地获取并访问可信的关键数据,促进作战行动迅即展开,将数据优势转化为决策优势和行动优势。
共享平台的运行主要包括四类,围绕三个小循环和一个大循环展开,如图3所示。第一个小循环是应用程序直接调用数据并将相关数据产品反馈回数据共享平台,此类循环所用数据相对固定,平台主要负责数据的更新推送;第二个小循环为联机数据分析(OLAP),使参与作战的不同需求的人员能够迅速、一致、交互地从各个维度获取信息,以达到深入理解数据的目的;第三个小循环为算法训练,共享平台提供多种数据标注工具以及多样化的脱敏数据训练集,为面向作战的智能算法提供训练数据和环境,并确保数据的安全;大循环支持从数据接入、治理到形成数据产品共享给不同类型用户的全生命周期过程。
图3 数据共享循环
在这些循环中,数据安全不仅涉及数据的存储、传输、获取,还需要对获取和分析数据的人员进行权限控制,既要维护数据的可靠性也要确保数据分析结果的可信度。因此,需要配合数据权限管理制度、数据脱敏制度、权威数据管理制度、平台运维制度、数据共享制度等多方面的制度配合平台共同推动数据共享的有序开展。
数据共享是作战效能发挥的一个重要环节,是达成信息优势、认知优势的分项能力目标。作为一种能力,数据共享的功能依托数据平台实现,但数据共享的流程和高效的运转需要数据提供方、使用方、维护方等所有相关部门的通力合作,这种合作不仅需要共享的管理运行机制支持、政策支持,来保障不同环节的责权利分配,还需要有乐于共享的气氛,促进数据的高效流动。
美军在多年的信息化探索和实践中逐渐认识到,数据共享需要一系列政策引导和策略推进,并逐步建立起由国防部制定政策进行引导,各军兵种根据各自需求和条件分步建设的实施体系。数据共享的推动需要各环节中数据使用的意愿和氛围,以及法规、政策和一系列相关的条例规范的有序引导,根据需要有序建设共享软件和体系。美军的数据共享建设具有较高的参考价值,为我军后续的信息化建设和数据共享建设提供一定的借鉴参考。同时还要考虑到,不同的军兵种需结合自身的特点和不同的作战需求,开展适应各自需求的数据共享建设。