基于主题模型的地理环境时空数据隐含语义理解

2021-11-25 09:48张宏军廖湘琳田江鹏
测绘学报 2021年10期
关键词:战场文档时空

朱 杰,张宏军,廖湘琳,田江鹏

1. 陆军工程大学指挥控制工程学院,江苏 南京 210002; 2. 73021部队,浙江 杭州 315023; 3. 信息工程大学地理空间信息学院,河南 郑州 450001

理解战场环境,是指作战人员对战场空间的理解,由空间、空间知识的表达方式,以及运用推理生成新知识的能力而构成的认知思维,一般通过心象、纸图或者计算机等工具将战场环境可视化,从而建立与环境可交互的思维活动[1]。在理解过程中,无论是作战人员本身对空间的理解,还是不同人员之间的相互沟通,地图、文本是记录和传输战场环境信息的最基本的两种模态,特别是作战过程中产生大量的非结构化信息,如各类作战文书。文本是其最主要的载体之一,越来越多地成为一种主要信息媒介的数据模态,是表达战场环境信息的重要形式。然而,文本除了具有通用知识的内涵和特点之外,还承载了描述战场的时间、空间、事件和资源等丰富信息,具有特定的地理时空特征。战场文本信息不仅包含了作战任务语义信息,还蕴含了丰富的地理空间语义信息,表现为同一任务区域的空间数据隐含语义会随着时间的不同而发生变化,相似任务主题的位置数据隐含语义也会随着空间的不同而发生变化。由此,地理环境时空数据的隐含语义信息既存在时间上的变化,也存在空间上的变化。

面对大量的战场文本数据,以传统的人工方式理解战场环境信息已经不能满足高效、准确的需求,如何利用人工智能的理论和方法,由机器对数据进行自动获取、学习与解译,从而输出与人脑认知思维相符的计算结果,是当前战场环境空间认知和理解在大数据环境下所面临的挑战。自然语言处理技术的发展为文本数据理解提供了新的思路和方法,也为战场环境数据理解提供了新的工具。如何从大量的战场文本数据中获取地理环境知识,如何利用机器学习技术挖掘与事件主题相关的地理环境时空语义信息,如何对不同时空主题进行管理、检索和推理,这一系列问题,都是机器理解战场环境数据过程中所要解决的关键问题。其中,如何融合事件主题对地理环境时空主题进行抽取与分析,成为战场环境信息理解的核心问题之一。通过提取带有地理空间标识的文本主题来挖掘任务指定的实施作战行动的区域空间信息及其对应的意图,获取作战行动模式转换、任务事件焦点时空演变及地理环境效能变化等知识,为行动方案推荐、战情趋势预判、威胁目标预警分析等军事服务提供有力支撑。

本文立足现有研究基础,通过分析战场文本数据句法结构,提出一种融合任务事件主题的地理环境时空主题模型,建立地理时空因素与事件主题之间的语义相关性计算方法。通过对文本信息中蕴含的时空分布、地理环境要素特征及影响效能等规律进行分析,考虑事件主题偏好对时空数据隐含语义信息的影响,建立事件主题与时空语义特征的联合分布模型,自动发现时间、空间区域与事件主题之间的关联关系,生成地理时空隐含的语义主题,以提高定位应急事件时空信息的准确性,为有效识别异常区域的分布规律提供支持。

1 相关研究工作

时空语义信息是表示现实事物所代表的时空概念和含义及其相互之间的关系,是数据在时空域上的解释和逻辑表示,对于各类事件信息的挖掘有着关键作用[2-3]。战场环境时空数据描述了战场环境的时间和空间属性,是战场环境的基本组成要素,从不同粒度记录了不同层次的战场环境各要素的活动信息。理解战场环境时空数据语义对于深挖战场环境各要素作战效能、提高作战计划推演评估精度、提升态势推理与威胁估计效率有着关键作用。例如,利用数学方法描述地理实体、地理现象及其相互之间的时空关系,形式化描述战场环境对联合作战活动影响的基本规律[4];利用全球空间立体网格剖分并对时空信息进行编码,简化复杂的时空运算以提高时空属性定量表达的精确性[5];利用模板匹配与贝叶斯网络相结合的推理算法处理高维时空数据,建立有效推理模式以合理预估敌军行为模式和作战意图[6]。总之,准确理解战场环境时空语义信息对于战场信息融合有着十分重要的意义,随着战场时空数据类型与体量持续增长及作战应用深入需求,将会越来越多地受到不同作战领域的关注。

目前,随着以深度学习为代表的人工智能技术的发展,从方法上,战场环境时空数据语义理解由传统的基于规则的模式匹配向基于信息识别与分类的自主学习发展,并在无人平台、知识图谱、辅助决策等方面取得了一定的研究进展。国内,文献[7]针对现有无人自主平台在复杂环境上认知和理解不足,提出建立任务关联环境模型形成持续自主学习模式,在不断的数据交互中实现机器对环境的理解;文献[8]通过构建基于深度认知神经网络,从战场情报中高效准确地发现有价值信息,获取多源情报隐含的关联分析,从而提取满足需求的可理解并利用的时空知识;文献[9—10]从语义层面统一多源异构的战场环境数据资源,利用知识图谱集成融合各类概念关系,提高时空知识整体认知水平;文献[11]将深度学习方法应用于态势理解,以用户需求和作战任务的综合情境作为知识过滤约束条件,实现对相关语义知识的自动检索,提高辅助决策的智能化程度[11]。国外,美军从2007年提出“深绿计划”开始,一直致力于计算机对战场数据理解及智能化处理的研究,并在最新的《2017—2042年无人系统发展路线图》中将语义理解和语义分析技术作为无人指挥信息系统关键技术,包括自然文本、图像、语音等各种类型载体的自动整合及生成,利用深度学习方法从战场获取的各类数据中抽取隐藏的有价值特征,用于模式识别、特征分类、关系挖掘及事件预测,实现从不确定信息中理解数据、分析结果和推理关系[12-13]。

从战场文本中提取相关地理环境时空主题,是地理环境时空数据语义理解的首要解决问题。尽管上述文献从不同角度利用时空数据处理与分析方法,阐述时空语义理解的相关技术和应用,但是从时空主题角度研究战场环境时空数据挖掘中的相关任务,特别是对其隐含语义信息挖掘的相关工作尚未完善。目前,主题模型作为文本挖掘的重要数学模型,已广泛应用于遥感影像分类及检索、地理信息分类与融合、位置轨迹数据挖掘及地理时空主题提取等方面[14-17],通过基于抽象文档主题的统计模型研究了在不同主题分类下时空信息提取与时空事件发展规律并取得了一系列成果[18-21]。这也为地理环境时空主题挖掘提供了基础模型。为了进一步研究任务事件与时空主题之间的相关性,挖掘影响事件主题特征的时空因素,获取地理环境时空数据隐含语义信息,本文借鉴GIS领域研究者从融合地理位置及其相应的区域环境特征语义出发,按照不同时空语义变化条件,挖掘地理位置中的隐含语义信息。如,文献[22]利用web日志提取公共主题来发现时空主题模式,分别通过给定位置生成的主题生命周期和主题快照的比较分析,发现主题模式的演变;文献[23—24]从空间、时间和行为3个方面建立一个联合概率模型,有效地应用于社交网络生成的与地理信息相关的文本信息主题发现;文献[25]考虑用户位置的马尔可夫性质,提出一种基于主题多样性、地理多样性的社交网络文本数据的多样性建模算法;文献[26]结合移动位置数据,提出一种新的位置和文本相结合的联合模型,能有效地找到热点位置和感兴趣的区域,解决地理分布与主题建模之间关系问题。

2 方 法

地理环境时空数据隐含语义与文本主题密切相关,并通过相关的主题特征词汇进行表达。具体体现为:不同空间区域对其范围内的任务事件主题影响程度是不同的,通常与地理环境的军事效能相关,如不同地貌对机动任务的影响,反映在文本中由“越野机动”或者“道路机动”等相关功能性词汇相组合进行描述,以表示山地或者平原区域;不同时间对其阶段内的任务事件主题也会产生不同的影响程度,如一日内白天与夜晚对道路机动速度影响程度不同,一年内雨季与非雨季对道路机动速度影响程度也不同。

因而,为了有效判别不同时空区域对任务事件主题的影响程度,挖掘时空数据的隐含语义,形成时空数据语义理解过程,主要采取如下的解决方法:数据获取、数据预处理和数据主题计算等。如图1所示。下面重点阐述数据主题计算过程:①分析战场文本的句法结构,通过信息抽取的方法抽取主题要素,建立基于LDA的事件主题分类及其对应的特征词汇分布;②通过构建基于事件的地理环境时空主题模型,将事件主题与空间、时间特征词汇建立联合分布,提高时空数据隐含语义获取的准确性;③基于支持向量机方法结合主题模型实现地理时空主题的实时分类,以满足实时信息的主动发现需求。

2.1 基于句法分析的主题要素抽取

战场文本数据是指战场信息以文本形式进行描述和传递的各类数据,包括各类命令、指示、计划、方案、请求、报告等。为了从这些非结构化信息中抽取出与地理环境信息相关的主题信息,首先对其进行句法分析,获取主题要素的结构组成及其语义特征。由于战场文本在通常情况下都是按照军用文书的格式进行编辑,因而其数据的语义结构在一定程度上符合军用文书的编写规范,并具有以下几个特征。

(1) 句法结构相对固定。战场文本基本上以陈述句为主,且句式简短,其中复合句的形式也以简单谓语构成的并列复句为主,较少出现连词构成的复杂句式,如连贯复句、递进复句等。

(2) 文本内容层级易解。从内容对象上,分为对象的静态状态描述(如部队部署位置、时间等信息)和动态行为描述(如部队行动路线、行为规划等信息);从内容词义上,内容描述按照文字字面意思组合而成,有利于人机理解。

(3) 语义描述明确无歧义。为了确保不同信息系统对战场文本的一致性理解,文本语义描述必须是明确清晰,避免出现歧义现象。

图1 地理环境时空数据隐含语义理解过程Fig.1 Latent semantic understanding process of geographical environment spatio-temporal data

从上述特征可以看出,在语法结构上,战场文本数据通过具有一定语法结构的句子来描述事件发生过程,即“主语+谓语+(宾语+状语+…)”;在语义表达上,战场文本数据语义结构由主体、行为关键词、客体及相关属性等主题语义要素组成。因此,可将其形式化描述为四元组模型,即:主题语义要素=〈主体,行为关键词,客体,属性〉。

其中,构成主题语义要素中的每一项元素都可以与句中的词组相对应,形成特征词组与主题要素相关联的模式。具体表示为:主语对应事件发生的主体,一般由名词、数量词组合表示;谓语对应事件发生的行为,一般由动词表示;宾语对应事件发生的客体,一般由名词、数量词组合表示;其他部分描述对应事件发生的相关属性,如时间、位置等,一般由名词、代词、介词等组合表示,文本词组主要以实词构成,较少出现虚词。

采用正则表达式进一步将文本主题要素与词组以字符串的形式相匹配,从而将文本语义转换为词义组合表达[27]。作为主题要素自动抽取的基本模式,以一个简单句semPattern作为实例,使用正则表达式如下

semPattern=(^|)[(option_modifier|)subject_

noun|behkey_verb(|object_

noun)|attribute_phrase]

(+)(|$)

式中,subject_noun表示主体名词;behkey_verb表示行为关键动词;object_noun表示客体名词;attribute_phrase表示属性词组;option_modifier表示修饰词组;[]表示所必须组成要素;()表示可选项;“^”表示字符串序列开头标识;“|”表示语义匹配逻辑;“+”表示字符串表达式可多次匹配;“$”表示字符串序列结尾标识。时空语义信息通常是以属性词组形式进行描述。由此可将attribute_phrase进一步分解为表示空间语义的where字符串和表示时态语义的when字符串,即

attribute_phrase=[at-where](|route-where)[|start-when](|end-when)

以某个文本片段为例:“2连于4月08日12时占领1号地域南侧”,其相应的正则表达式分解如下

semPattern=〈subject_noun:2连|behkey_verb:占领|object_noun:1号地域|at-where:南侧|start-when:4月08日12时|attribute_phrase:于〉

2.2 基于LDA的任务事件主题分类

战场文本数据内涵丰富,但是语义主题比较明确。以作战任务信息为例,任务事件内容包括行动目的、行动对象、行动类型、时空信息及其他属性信息,每一条信息又可以按照层次和尺度进行分解,归类至不同执行者,按照相应的主题形成具体的行动序列。任务事件主题分类与文本分类相似,将任务事件映射为一篇文档,任务中的意图或者目的作为一个主题,每个事件的主体和客体对象关联的属性及其行为活动作为单词。一个目的任务相当于主体和客体对象完成行为过程的集合,包括任务执行对象、地理环境对象、行为作用等,在文档中映射为构成上述事件主题要素特征的词汇,如描述任务下达者、执行者、行为以及区域、兴趣点、位置、作用关系、时间等相关主题特征词汇。

潜在的狄利克雷分布(latent Dirichlet allocation,LDA)模型是一个建立“文本-主题-词汇”3层贝叶斯模型,通过主题分布与词分布的概念,能够将文档转换到主题空间进行分析,根据主题进行语义区分,从而获得文档在隐主题空间的表示,也就是既能将词汇聚类成主题,也能将文档聚类成多个主题[28-29]。

因此,使用LDA模型能够抽取构成主题要素的特征词汇,并得到事件主题分布。具体方法是:①将战场文本集合记作D(d1,d2,d3,…,dn),每一篇文档d内容可视为由不同任务事件主题混合组成,每个文档按一定的概率分布表达多个主题,设目前按照任务主题区分获取已知主题数为K;②在前述句法结构分析基础上,通过分词、过滤、关键词提取等步骤,生成描述主题要素的关键词集W(w1,w2,w3,…,wn),每个主题按一定的概率分布选择不同的词汇进行表达,也就是由若干描述事件主题要素的词汇构成一个概率分布;③通过Gibbs采样,由每个词汇在不同的文档中对应不同的主题概率得到相应主题分布,生成主题集Z(z1,z2,z3,…,zn),同时输出基于主题集Z下的词汇分布Wd。由概率图来表示LDA模型实现过程,如图2所示。

图2中,空心圆部分表示潜在概率,wd,n表示文档d中第n个词汇概率,zd,n表示文档d中第n个词汇所对应的主题概率,θd表示文档d中主题分布概率,ψk表示组成主题k的词汇分布概率,α表示文档中主题分布的超参数,β表示主题中单词分布的超参数;矩形框部分表示重复的过程,M表示文档中词汇个数,Q表示文档个数,K表示文档主题个数,分别用于每个矩形框内容重复的次数。由此,通过主题分布的采样获取任务事件主题z,通过基于主题z下词汇的分布概率获取词汇w,并不断地重复上述过程直至文档主题对应的所有词汇生成完毕。

图2 基于LDA模型的事件主题分布过程Fig.2 Event topic distribution process based on LDA model

利用OPTICS聚类方法[30],可对每个任务事件每个主题概率分布进行聚类分析,获得相对集中的任务事件主题分类结果,与作战任务类型相结合,将描述相似任务类型内容的词汇合并为一个大主题,形成具有层次结构的事件主题分类。表1为部分相关主题的特征词汇分布。

2.3 基于事件主题的地理环境时空主题模型

按照空间相关性原理,地物之间的相关性与距离有关,距离越近,地物间相关性越大;反之,地物间相关性越小。在文本中由自然语言描述空间信息,利用词汇之间的语义相似性来反映空间对象之间的相关性,由此通过聚类方法发现地理时空主题,即如果两个词汇语义对事件主题的描述很相似,那么它们极有可能属于同一空间区域;如果两个词汇语义描述同一空间区域,那么它们就可被聚类为同一空间主题。

为了能够有效获取时空主题,每个文档经主题要素抽取后,形成由实体词向量组与描述空间、时间、事件等主题特征的属性词向量组组成,即d={wd,rd,td,zd},其中wd表示文档经过分词与实体抽取后形成的实体词向量组;rd表示文档中描述事件相关的空间特征属性的词向量,如事件发生位置的经纬度;td表示文档中描述事件相关的时间特征属性的词向量,如具体日期与时间点;zd表示文档经主题分类后描述事件主题特征属性的词向量。

表1 部分相关主题分类及其特征词汇分布

利用LDA主题模型对上述词向量建立联合分布模型,通过对事件主题模型的改进,构建地理时空主题模型。其思路是:①通过LDA模型将高维的“事件文本—时空特征”数据矩阵降维成“事件文本—主题—时空特征”低维数据矩阵,利用“文档—主题—词汇”3层贝叶斯模型计算“事件文本—主题”、“主题—时空特征”的分布并分别得到事件主题、空间主题及时间主题的多项分布参数;②由主题分布参数计算每个事件文本对应的时空主题概率方差并对其进行排序,获得相应的时空主题分布;③按照一定的阈值过滤不符合实际的主题,并对满足阈值条件的主题记录其对应选择的特征词汇分布。由概率图模型表示其实现过程如图3所示。具体实现过程如下:

(1) 由设定超参数α0的Dirichlet分布,采样得到文档中事件主题z分布参数θ0。

图3 时空主题模型实现过程Fig.3 Implementation process ofspatiotemporal topic model

(2) 由设定超参数β0的Dirichlet分布,采样得到文档中每个事件主题z=1,2,…,k对应的实体词的条件概率分布φz。

(3) 从空间域上,按照任务事件尺度,在全局条件下划分任务执行空间区域集R,R={r1,r2,…,rn},每个区域r内包含地理环境要素空间属性及其效能特征:①在位置特征上,采用基于经纬度l(longitude,latitude)由位置均值向量μ和协方差矩阵ε构成的高斯分布,由此形成具有军事效能的局部地理主题分布,并对各自任务区域内的事件主题产生影响;②由设定超参数η0的Dirichlet分布,采样得到文档中空间区域r的主题分布参数ηr;③由设定超参数γ0的Dirichlet分布,采样得到文档中每个事件主题对应的区域R地理实体词汇的条件概率分布λgeo。

(4) 从时间域上,文本中往往描述的是一个时间点,如以“年-月-日时:分:秒”格式描述事件相关的时间变量。为了避免这种离散时间造成跨度大小不一的问题,在时间特征上采用Beta分布,从Beta(δ0)中采样得到每个事件主题z=1,2,…,k对应的时间分布参数φz,以此描述不同事件主题时间连续变化的强度[31]。

(5) 从主题域上,一个文档的主题由背景主题分布和区域主题分布共同影响,主题表达通过相应的词向量的语义进行描述,反映在事件文本上对应事件主题分布和区域地理主题分布。对于每个事件主题z=1,2,…,k,由θ0、ηr、λgeo构建主题多项式分布,从中抽取形成任务事件主题分布Zd和区域地理主题分布Zgeo。

(6) 依据事件主题分布Zd对应实体词的条件概率分布φz,与区域地理主题分布Zgeo对应地理实体词的条件概率分布λgeo,分别从其多项式分布中抽取相应的词汇w,并依据Beta(δ0)对应的时间分布参数φz抽取相应的时间词汇t。

任务事件主题Zd所包含的地理时空词汇W在语义上与区域地理主题分布Zgeo相关联,而区域地理主题分布Zgeo又从语义上反映了时空主题类型的区域分布,因此,这里依据任务事件主题Zd、区域地理主题分布Zgeo建立联合分布概率P。引入上述时空主题模型中各元素求解相应主题中潜在变量的词汇分布W,使用欧拉公式可得如下依赖关系

(1)

式中,事件主题分布参数θ、区域空间主题分布参数η和实体词汇主题分布参数φ计算公式如下[31],相应的主题类型条件概率分布可基于主题分布参数进行求解

(2)

(3)

(4)

对于每个文档,利用Gibbs采样估计主题模型参数,生成空间区域、位置、事件和词汇的主题分布并分别满足以下相应的条件概率分布。

(1) 生成潜在的空间区域分布R,使之满足

rd~p(rd|η0+ηz)

(5)

式中,η0满足空间全局分布;ηz满足任务事件主题空间区域分布,表示潜在的空间区域分布依赖于空间全局分布和任务事件主题区域分布。

(2) 生成位置分布L,使之满足

ld~N(μr,εr)

(6)

式中,μ为位置均值向量;ε为协方差矩阵,表示每个位置依赖于潜在空间区域并服从高斯分布。

(3) 生成主题分布Z,使之满足

zd~p(zd|θ0+θz+θgeo)

(7)

式中,θ0满足主题全局分布;θz满足事件主题分布;θgeo满足区域地理主题分布,表示根据空间区域分布和位置分布,潜在主题分布依赖于事件主题和区域地理主题。

(4) 生成词汇主题分布W,使之满足

wd~p(wd|φ0+φgeo)

(8)

式中,φ0为全局事件主题参数;φgeo为区域地理主题参数,表示特征词分布依赖于主题分布。

改进后的基于LDA模型计算时空主题分布算法过程如下所示。

算法1:基于LDA模型计算时空主题分布算法过程

输入:文档向量集合{d},主题数目k,超参数α0、β0、η0、γ0、δ0

输出:多项分布参数θ、φ、η,主题类型分布{zd}以及对应的词分布{wd}

(1) 初始化参数。

(2) 主题采样:

for all文档m∈[1,M] do

for all单词n∈[1,Nm] in 文档m do

采样Zm,n,使得Zm,n=k~multi(1/K)

更新相应m,n计数

(3) Gibbs采样:

for all文档m∈[1,M] do

for all单词n∈[1,Nm] in 文档m do

更新相应m,n计数

(4) 检查收敛性,读取主题分布参数:

if 收敛且达到阈值then

归一化参数;

利用式(2)—式(4)读取相应的主题分布参数

(5) 基于上述参数计算主题分布及词分布,分别满足式(5)—式(8)。

2.4 基于支持向量机的实时主题分类

由于军事语料标注样本的局限,为了能够利用文本特征学习实现文本的主题检测,采用监督学习方式中的支持向量机(support vector machine,SVM)方法,在基于训练样本的学习特征基础上,建立机器学习模型,解决小样本情况下的机器学习问题,从而当新的任务事件文本输入时,结合SVM通过主题模型判断文本中对应的地理时空主题类别,实现时空主题实时分类。

(1) 对已有的样本数据按照主题分布的概率进行排序,找出文本集合中隐含的地理时空主题,将其作为已发现的主题。

(2) 利用SVM算法构建时空主题分类模型,基于已发现的地理时空主题及其特征词汇分布作为文档样本集,将构建的联合主题分布特征向量作为输入。如下所示

(9)

式中,m为样本个数;x(i)、y(i)分别为样本i输入、输出值;ωTx(i)+b=0为超平面;ξi为第i个样本的松弛系数;C为惩罚系数。

3 试验与应用分析

3.1 试验数据

本文以某战术训练场为研究区域,试验数据集选用近年战术演习导调系统采集获得的文本数据,包含690个计划、2250条命令、695条指示、1035条报告等共4670篇文档,如表2所示。位置数据采用的是该区域1∶5万系列比例尺矢量地图数据,各类文本信息均包含位置、时间及相应事件主题信息。

表2 文本数据源及其分类

对上述战场文本数据内容按要素进行标注形成训练样本语料库,见表3。

3.2 试验设计及精度评估

本试验利用上述已有的文档语料库进行模型主题分类验证。将文档样本集随机分组,其中80%作为训练集,20%作为测试集,构建主题模型输入的文档集D。采用perplexity[32]指标计算战场文本的时空主题数K。首先,设定K∈(4,120),利用80%的训练集计算此时的时空主题分布及其perplexity值域;其次,在训练集计算的时空主题分布基础上,利用20%的测试集计算此时的时空主题分布及其perplexity值域;最后,基于perplexity分布曲线确定主题数K,同时通过交叉验证,得到模型的准确率。

表3 部分训练样本语料片段示例

如图4所示,试验中perplexity指标分布曲线按照主题数K的增加而不断下降,且下降趋势逐渐减小。当K=4时,perplexity值最高,接近750;当K在(4,40)区间时,perplexity值随K值增加而迅速下降;当K>40时,perplexity值随K值增加趋于稳定。由此,当K=40时作为主题数临界值,文本主题的可信度并未随K值增加而明显提高,因而,选择主题数为40。

图4 不同主题数量下困惑度比较Fig.4 Comparison of perplexity values with different topics

此时计算文本的时空主题分布概率,表4所示为部分主题类型及其所对应空间对象的分布概率。同一主题下分布概率较高的空间对象突出了与事件主题紧密联系的相关特征表达,从影响任务事件的效能特征上反映了时空主题类型。如主题6中“公路”“街区”“车站”“村庄”等空间实体类型,反映了道路机动相关时空主题;主题17中“高地”“树林”“密灌”“冲沟”“沼泽地”等空间实体类型,反映了越野机动相关时空主题。

表4 不同时空主题类型对应的部分空间实体对象分布

根据上述方法获取样本数据的分类精度,如表5所示。在3736个训练样本中,3347个任务事件被提取主题分布,其中2881个样本被正确提取时空主题,分类精确率为86.1%;在934个测试样本中,819个任务事件被提取主题分布,其中702个样本被正确提取时空主题,分类精确率为85.7%。由此,总体上说明该模型适合对战场文本数据从任务事件主题中提取相关的时空主题分类。

3.3 应用分析

为了验证上述方法在实际应用中的可行性与价值,将基于任务事件的地理环境时空主题模型对战场文本数据进行主题信息抽取和语义相关性分析,应用于时空主题趋势及不同主题下时空分布特征分析,以验证隐含语义理解方法的可行性,从而为数据挖掘自动化提供支撑。

表5 时空主题分类精度

3.3.1 时空主题趋势分析

在上述样本的基础上对任务事件及地理时空主题信息进行抽取。选取某一个时间阶段任务过程所包含的文本数据来计算不同主题所占的比例,随着时间变化相应的主题比例发生规律性变化,如图5所示。线状表示事件主题,点状表示地理主题。从主题相关性角度,分析任务事件主题与时空主题之间存在的语义关联性,发现地理环境对任务事件所具有的军事效能;从主题发展趋势角度,分析不同主题在时间轴上的分布,发现事件主题的发展过程规律。

图5 不同主题随时间变化所占比例发生变化Fig.5 Trend of proportion under different topics over time

(1) 主题相关性分析。 由图5可以看出,每个任务事件主题关联着若干个时空主题,每个时空主题又关联着若干个空间实体对象。利用统一资源描述框架RDF来描述两者的语义相关性,见表6。采用“主语—谓语—宾语”结构描述“主体—语义关系—客体”,能够清楚地陈述主题数据之间的对应关系,从军事效能上进一步表达时空主题隐含语义信息。

表6 部分事件主题与地理主题的语义关系

以任务事件主题“道路机动”为例,其关联较密切的地理主题有“接近路”“地面障碍”“观察与射界”,其中“接近路”与任务事件的相关度最大,空间实体对象“道路”相比“植被”“居民地”等对地理主题“接近路”影响要大,这与地理环境实体对任务影响效能结果是一致的。因此,一个任务事件主题随着事件时间发展,事件发生区域地理主题的变化能够反映事件发展不同阶段所关注的时空对象。通过分析时空对象的主题相关性,能够进一步从语义上解析时空数据里面隐含的主题知识。

(2) 主题发展趋势分析。一个任务过程随着事件时间发展可以分为若干个任务事件主题。如图5中在4月21日05时00分至17时00分,共包括“隐蔽集结”“道路机动”“阻击防御”等3个任务事件主题。分别统计每个主题在此期间所对应的比例,发现9时之前以“隐蔽集结”主题为主,任务关注重点是如何利用从空中和地面免受观察的地形要素,如植被与隐蔽配置,完成集结任务;9时至13时以“道路机动”主题为主,任务关注重点是根据通路分析计算通道容量,分析利于武器装备通过的机动走廊相关地形要素,完成机动任务;13时之后以“阻击防御”主题为主,任务关注重点是利用对特定武器部署位置有影响的、且具有防御能力的地形要素,构建直瞄和间瞄武器射击区域,避免受敌火力威胁区域地理环境,达成阻击任务。结合时间信息,对应时空主题分布分别从“隐藏配置”主题,“接近路”主题发展为“观察与射界”主题,将整个任务过程分为3个阶段,分别对应任务事件的初期、发展期和结束期。因此,一个任务过程中包含不同的事件主题,能够反映不同阶段任务关注的重点,由时空主题关联反映出区域地理环境变化特征,有助于进一步从不同角度预测任务发展进程。

以上对时空主题趋势分析可以看出,随着战场位置与任务事件进展发生变化,地理环境时空主题也随之发生改变。通过分析这些变化可以发现任务事件主题与时空主题之间的关系及发展趋势,有助于发现事件的发展规律并研判地理环境对任务执行的影响效能,利用不同的时空主题作出趋利避害的对策。

3.3.2 不同主题下时空分布特征

由于战场文本数据中包含了丰富的位置信息,将每个任务事件主题与位置信息相关联,形成带有主题属性的点状地理实体,对其在一定空间区域内进行聚类分析,产生不同主题下的时空分布规律,从而为新事件的位置预测提供基础。

选取上述任务过程所包含最主要的3个事件主题“集结”“机动”“防御”进行空间聚类分析,分别包含了115条、370条、406条位置信息文本。采用OPTICS聚类方法对上述主题关联的位置信息进行分析,得到的聚类核心(十字表示)如图6所示。

图6 相关主题的空间聚类Fig.6 Spatial clustering of related topics

“集结”主题空间分布得到的聚类核心主要分布在区域A,与其相对应地理主题可以发现,该区域以“植被与隐藏配置”时空主题分布为主,与“植被”“居民地”等空间实体关联较强,结合任务过程事件时间分布,与“早期”阶段任务主体行为为达成隐蔽集结意图是一致的;“机动”主题空间分布得到的聚类核心主要分布在区域B,与其相对应地理主题可以发现,该区域以“接近路”时空主题分布为主,与“道路”“居民地”等空间实体关联较强,结合任务过程事件时间分布,与“发展期”阶段任务主体行为为达成沿道路机动意图是一致的;“防御”主题空间分布得到的聚类核心主要分布在区域C,与其相对应地理主题可以发现,该区域以“观察与射界配置”时空主题分布为主,与“高地”“植被”等空间实体关联较强,结合任务过程事件时间分布,与“结束期”阶段任务主体行为为达成阻击防御意图是一致的。

从上述对不同主题下的空间数据聚类分析,能够发现时空主题的空间分布特征受到事件主题的影响,并对事件的发展产生新的作用。当新事件发生的时候,通过主题分类结合空间分析,预测事件可能影响的位置区域,从而有效作出趋利避害的对策。

4 结 语

战场文本信息不仅直接反映战场行为过程,还蕴含着丰富的区域地理时空语义信息,与地理环境变化密切相关,并揭示了未来时空过程发展趋势。本文以与任务事件相关的战场文本数据为信息源,研究基于句法分析的主题要素抽取及事件主题分类方法,并通过主题模型分析地理时空主题与事件主题之间的隐含语义分布形态,揭示区域地理时空主题与任务事件主题之间存在的相关性特征及在时序上的发展趋势,反映了不同事件主题影响下的时空分布规律。由于本文选择的数据源较为单一,尽管一定程度上能够反映客观趋势,但是文本数据样本数量上的不足使得主题隐含语义研究存在一定偏差。未来将结合不同类型战场文本数据,进一步深入挖掘多源文本数据中的语义信息,提高主题分类精度;同时,需要考虑不同尺度时空区域与不同等级任务对结果可能造成的影响,此外,还需考虑算法运行的效率对分类结果与精度的影响。

猜你喜欢
战场文档时空
浅谈Matlab与Word文档的应用接口
跨越时空的相遇
战场上的神来之笔
有人一声不吭向你扔了个文档
C-130:战场多面手
镜中的时空穿梭
贴秋膘还有三秒到达战场
玩一次时空大“穿越”
基于RI码计算的Word复制文档鉴别
时空之门