杨阳 薛丽惠
摘要:为解决海空目标标签体系未构建难以生成完整画像的难题,通过总结海空目标画像和标签技术的基本概念,提出了构建海空目标标签的三级标签体系及技术架构,并对构建过程中的基于混合存储的标签数据存储、实体/属性抽取、关系抽取、关联融合等关键技术进行详细阐述。仿真实验对比分析了不同标签生成算法的准确率,最后介绍了标签技术的实际应用场景。该文对军事大数据的应用模式具有一定的探索和借鉴意义。
关键词:标签;标签体系;作战目标;海空目标画像;军事大数据
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2024)07-0074-03
开放科学(资源服务)标识码(OSID)
0 引言
海空目标是作战体系研究的重要对象,全面、准确地掌握海空目标,将帮助指挥员进行作战决策[1]。随着各类战场传感器和侦察监视装备的广泛使用,作战数据的生成速度成指数增加[2]。如何从这些海量数据中分析挖掘出准确、高价值的情报信息,获取作战数据优势,成为军事领域迫切需要解决的难题。
用户画像在商业领域的应用,展现出其在解决精准信息服务方面问题的巨大优势。标签体系作为用户画像的基础,其广度和粒度对画像的刻画程度有较大影响,因此开展标签体系构建的研究具有一定的实用价值[3]。
目前,随着大数据挖掘分析越来越广泛,标签及画像技术的研究多应用于电子商务、健康医疗、交通运输、精准营销等通用领域[4-5]。在军事大数据领域的应用相对较少,尤其是面向海空目标大数据技术研究尚处于起步阶段,在实际应用中面临数据深层价值利用不足、专业性较强不便理解、标签体系未构建无法生成完整的目标画像等难点。
基于此,本文利用标签技术,提出基于海空目标画像的大数据标签体系构建方法,构建完备的海空目标标签体系,并分析构建过程中的关键技术,对军事大数据的应用模式具有一定的探索和借鉴意义。
1 海空目标画像与标签技术
1.1 海空目标画像
作战目标指交战双方为实现某种作战意图,彼此进行跟踪、打击、压制、攻占或摧毁的目标对象[6]。海空目标是作战目标的子集,主要指敌对双方打击或抗击对方的舰船、飞机等。
海空目标画像借鉴用户画像的概念[7],采集特定传感器、情报分析、指挥决策、武器装备系统等作战环节中的各类数据,并将其转换为画像标签,形成数据合力。通过构造合理准确、标准统一、全面实用的标签体系,形成标签画像模型,进而利用大数据、人工智能等技术,可准确勾勒出立体的海空目标画像,有助于个体认知、群体识别、行为分析等。
1.2 标签技术
标签是对一类对象或特定群体的某项特征或某种特质的具象描述,具备较强的业务归纳性。标签是目标画像的基础,两者之间的关系如图1所示。
依据分析整理,海空目标标签可分为4类:基本属性类、事实行为类、业务场景类和管理评价类。基本属性类标签体现海空目标的静态特征,如目标类型、敌我属性、国别属性等;事实行为类标签描述目标的活动行为、参与任务、途径区域等行为信息,反映目标的动态特征;业务场景类标签则带有清晰的业务逻辑,可解释性强,如热点话题、军事专题、高价值目标、时敏目标等;管理评价类标签用于数据在加工处理和管理使用过程中,对数据进行具体环节的标记。
2 海空目标标签体系
2.1 标签体系
分层分级的标签体系设计既提高标签的实用性和精准性,又避免在语义理解、特征描述等方面的差异性。海空目标标签体系按照三级标签体系架构进行设计,综合利用作战环节的各类数据,产生完整的目标画像标签。
1) 一级标签。海空目标的一级标签描述目标画像基本的分类维度,归纳了海空目标的共性特征,如表1所示,可分为基础信息、行为信息、关系信息、任务事件、统计分析和数据管理等6类维度。
2) 二级标签。海空目标的二级标签是对其一级标签分类维度的细化,包括目标的生产研制情况、战技性能、武器装备特征、活动区域、活动航路、搭载关系、隶属关系、参与任务事件类型、统计分析规律、数据来源、数据可信程度等多个方面,如表2所示。
3) 三级标签。三级标签是对二级标签具体内容的细化,反映了海空目标的具体状态。其主要通过以下三种方式获取:
一是直接映射。此类标签无需经过复杂的计算逻辑即可从原始数据中获得,如通过海空目标属性表进行基本属性规则判定即可生成标签,如目标类型、敌我属性、国别属性等。
二是简单规则统计。此类标签基于简单规则的统计计算即可获取,如基于目标活动信息表中的出发基地、活动时间等维度进行出港统计、出动次数等标签的计算。
三是算法分析挖掘。此类标签需要利用大数据挖掘分析相关技术,结合业务规则和专家先验知识,整合运用作战过程中敌我双方的各类数据,进而生成可以反映海空目标某一维度的标签数据,如目标威胁指数、活动热力等。
2.2 技术架构
海空目标标签体系的技术架构如图2所示,可分为数据汇聚、标签构建和标签应用等3层。技术架构重点围绕标签的构建、挖掘分析及管理,面向标签应用,综合运用大数据分析挖掘技术,汇聚并处理作战环节的各类数据源,对标签体系进行全生命周期管理,满足指挥控制、情报分析、战场环境保障等典型军事领域的业务需求。
数据汇聚层对作战过程中涉及的传感器数据、非合作截获数据、军事信息系统生成数据、互联网开源数据、海空目标知识数据等,进行数据预处理、数据解析、数据标注等,最后入库存储。
标签构建层基于数据汇聚层处理存储后的数据,按照标签体系設计,生产加工刻画海空目标画像的具体标签内容。标签管理通过标签定义、评估验证、标签规则管理、标签任务管理、标签存储、标签展示等多个环节,全过程服务于标签的生成、存储和优化。标签挖掘利用大数据技术进行实体、属性、关系的抽取,以及聚类、分类、预测、关联融合等挖掘分析,为标签生成提供算法支撑。标签全生命周期管理能够追溯标签从定义、应用到调整的全过程,并随着业务流程的调整、数据的丰富等,对标签体系进行调整优化。
标签应用层则基于海空目标标签库,结合具体军事需求,开展目标画像、作战决策辅助分析、作战数据服务保障等军事化应用。
3 关键技术
3.1 基于混合存储的标签数据存储技术
海空目标标签数据涉及的内容及格式复杂多样,在存储架构的设计上,需兼顾各类数据的规模与业务处理特点,采用多类型存储库以实现标签数据的混合存储,包括离线数据库、对象存储库、MPP数据库、关系数据库、内存数据库等。离线数据库作为数仓,存储所有原始结构化数据,事实行为类、业务场景类标签基于离线库进行加工生产;对象存储库主要存储海空目标关联的作战文书、情报文本、话音报以及战场图像视频等非结构化数据;MPP数据库主要存储海量时空航迹数据,便于上层业务查询的快速响应;关系数据库重点存储业务规则、知识数据、配置信息等;内存数据库,主要存储热点标签数据,降低业务应用与数据库的交互频次,提高查询响应效率。
通过提供多源异构库统一访问技术,屏蔽底层物理库的语法差异,降低应用开发复杂性,使得业务访问异构数据库时,能够基于同一套语法逻辑进行统一访问,提高开发效率。
3.2 实体/属性抽取技术
实体/属性抽取技术是获取海空目标基础信息、行为信息、任务事件等类别标签的重要方式。传统的基于模式匹配的方法,包含字典词库匹配和正则表达式匹配两种,字典词库匹配法适用可枚举的命名实体类型,如目标名称、地点等;正则表达式匹配方法适用于报文结构相对固定的实体类型,如目标属性、时间、数量等信息。
基于机器学习的方法,主要的模型是条件随机场(CRF) [8],其特点是假设输出随机变量构成马尔可夫随机场,是解决分词、实体抽取等序列标注问题的常用方法。但CRF模型复杂度高,参数相对较多,其准确率和召回率尚不够理想。
考虑到海空目标数据涉及的实体/属性分类相对固化,行文方式有其独特的要求,采用单一的方式难以在所有的实体/属性类型上表现良好,利用预定义分类与机器学习相结合的方式,能够增强不同实体/属性类型抽取的效果。
3.3 关系抽取技术
关系抽取技术是获取海空目标关系信息类别标签的重要方式。早期的方法主要通过人工构造规则集合,结合领域业务知识,利用模式匹配方式来识别关系。基于机器学习的方法通常把关系抽取问题转换成分类问题来解决,利用特征提取方法来获取代表性特征,这部分特征经训练后获得分类模型,利用分类模型判定实体间的关系。
由于海空目标数据的实体关系较为复杂,可首先手动标注少量样本数据,再结合大规模军事领域内无监督语料训练的预训练模型,如BERT(Bidirectional Encoder Representation from Transformers) [9]、GPT(Generative Pre-Training) [10]等,加入军事领域特殊行文规范的先验知识作为实体关系对识别的补充特征向量,获取实体关系分类模型,再依据该模型来识别关系。
3.4 关联融合技术
针对海空目标的标签关联融合问题,可通过时空行为分析、属性分析、业务规则分析等方式实现。
时空行为分析根据实体活动的时间、地点等时空维度信息进行实体对象之间的数据碰撞,计算所需识别的实体对象间的行为轨迹相似性[11]或行为轨迹的交叠度,通过设置相似度或交叠度的阀值,实现目标实体对象的关联融合。
属性分析利用实体对象间的共性属性其中一个或若干个组合取值相同,作为实体对象识别约束条件,实现实体对象的关联融合。
业务规则分析从业务角度出发,通过业务值班的经验、规则等业务知识,利用知识特征的比对实现目标实体的识别和关联。
4 仿真实验
本文利用大数据离线分析平台,基于某方向相关的3 000余篇動向报文、100余万条目标活动过程数据进行实验。数据涉及100余个海空目标,下面以某型战斗机FJ0001、某舰船JC0001为例进行说明。
利用实体/属性抽取方法进行热点事件、演习事件、日常训练、侦察巡逻等任务事件类标签的生成,实验结果如表3所示,结果表明,CRF算法结合模式匹配的算法准确率大幅提升,达到90%以上,基本满足实战的要求;利用关系抽取技术进行指挥、协同、补给、通联等关系信息类标签的生成,实验结果如表4所示,结果表明,相比GPT算法,BERT算法准确率较高。
5 标签应用
标签技术在军事大数据领域有着广泛的应用研究价值,具体以目标画像、作战辅助决策分析、作战数据服务保障等场景为例进行阐述。
5.1 目标画像
通过构建基于大数据的标签系统,实现了对海量数据进行规整、关联、挖掘,形成了较为完备的海空目标标签体系,在此基础上能够快速形成海空单目标画像、群目标画像,完整刻画了海空目标的真实情况、目标信息、行为模式、作战关系,为智能推荐、智能搜索、目标情报保障、战场态势感知等各类业务提供有据可查的画像服务。
5.2 基于标签的作战辅助决策分析
目标相关数据转化为离散的业务标签后,统计分析更容易。如获取“F-22过去一年参与的任务事件”“钓鱼岛海域近期活动的海空目标数量”等结果,直接统计相关标签即可。同样,基于标签进行作战目标的分类、聚类、预警预测、威胁程度、意图识别等挖掘分析也容易实现。
5.3 基于标签的作战数据服务保障
标签数据有着明确的业务逻辑,实质上也形成了对数据的分类。基于标签的查询检索能够灵活快速获取到准确的数据,再基于这些查询结果进行专题分析、数据分发推送、数据可视化等,能够事半功倍,达成精准数据服务保障的目的。
6 结束语
本文基于作战应用中的业务需求,系统阐述了海空目标画像与标签技术的背景、三层标签体系内容、技术架构及关键技术,通过仿真实验分析了不同标签生成算法的准确率,最后分析了标签应用的典型案例,是对大数据在军事领域业务应用模式的一次新探索,后续将持续结合具体作战需求,进一步拓展标签技术运用的场景,迭代完善标签体系,优化提升业务场景类标签算法的准确性。
参考文献:
[1] 左毅,张桂林,吴蔚,等.面向战场目标识别的知识图谱应用[J].指挥信息系统与技术,2019,10(3):1-5.
[2] 李卫星,王峰,李智国,等.面向多源数据的军事信息系统设计[J].中国电子科学研究院学报,2020,15(3):237-243.
[3] 李娜,范正洁,郝传州,等.采用语义分析的标签体系构建方法[J].西安交通大学学报,2019,53(1):169-174.
[4] 蔡莉,王淑婷,刘俊晖,等.数据标注研究综述[J].软件学报,2020,31(2):302-319.
[5] 王洋,丁志刚,郑树泉,等.一种用户画像系统的设计与实现[J].计算机应用与软件,2018,35(3):8-14.
[6] 江志浩,周卿,石敏,等.作战目标知识图谱构建与应用[J].海军航空工程学院学报,2020,35(6):471-477.
[7] 费鹏,林鸿飞,杨亮,等.一种用于构建用户画像的多视角融合框架[J].计算机科学,2018, 45(1):179-182,204.
[8] 冯蕴天,张宏军,郝文宁.面向军事文本的命名实体识别[J].计算机科学,2015,42(7):15-19.
[9] 刘欢,张智雄,王宇飞.BERT模型的主要优化改进方法研究综述[J].数据分析与知识发现,2021,5(1):3-15.
[10] 刘睿珩,叶霞,岳增营.面向自然语言处理任务的预训练模型综述[J].计算机应用,2021,41(5):1236-1246.
[11] 成磊峰,覃锋,贾莹,等.基于时空相似性的跨域目标关联分析方法[J].电讯技术,2019,59(4):426-430.
【通联编辑:王 力】