刘冬瑞,潘越,郭继光
(中国电子科技集团公司 电子科学研究院,北京100041)
军事预警情报在战争中扮演着重要的角色。传统战争过程中,首先围绕情报的争夺拉开战争序幕[1]。随着信息技术的飞速发展以及网络的高度普及,军事预警信息承载形式也发生了变革[2]。收集到的预警情报数据具有多元、复杂、无序和异构等挑战,为军事预警情报准确定位及服务带来巨大挑战,是情报工作者必须解决的问题。使用本体技术能够更加规范、完整地将情报内容描述出来,增强情报的透明度和共享性。
由于本体可以描述数据语义,所以在网络或传统数据库中的任何数据都可以用本体来表示,使不同用户可以进行高效的数据交互,有效解决了预警情报信息共享和复用效率低的问题。本体映射是解决异构本体之间互操作的有效方法[3,4],是本体研究领域中的基础性研究。
本文针对互联网络中的预警情报信息,使用本体技术描述预警情报的特征,为决定作战决策提供辅助。并且结合LDA主题建模技术,建立本体之间的映射依据,提供自动化本体映射的有利依据,为研究本体构建策略提供参考。
20世纪90年代以来,以信息化为核心的军事预警变革蓬勃发展,信息化武器装备大量出现和广泛运用,信息作战正成为一种全新的作战样式,信息化战争的核心之一就是情报战。随着现代技术在情报领域的运用,军事预警情报呈现出情报范围广泛、数据量大、保密性强、成为战争前沿等特性,增加了军事预警情报搜集和使用的难度,针对这些特性研究者进行了相关研究,包括实现了基于Web 军事预警情报挖掘模型[5]、提出一种基于云计算架构的四层军事预警情报融合系统实现模型[6]、建立了基于本体的情报元数据模型等。
使用本体技术能够有效解决情报信息共享和复用效率低的问题,但由于本体本身具有分散性,不同用户可以构建不同本体,而导致在同一个领域产生了大量冗余的本体,出现本体异构问题。异构的本体之间不能进行互操作,用户之间也不能进行相互理解。本体映射能够很好地解决本体异构的问题,为本体之间的互操作提供支撑。
目前本体理论在军事情报领域当中已经有了相关的研究,如信息检索、知识管理、信息服务等方面。基于本体的元数据思想引入军事情报描述中,建立了用于描述军事情报资源的元数据模型,能够更加清楚地反映军事情报资源所涵盖的信息,提出了基于本体的情报需求满足度计算方法,解决了海量军事情报排序问题,提出基于军事训练本体的向量空间模型构建方法,使用文档相似度作为参考标准,解决了语义相关问题。
以上研究将本体技术应用于军事情报领域,在一定程度上提升了情报共享和信息检索的效率。但本体自身带有分散的特性,很多具有相似属性的数据可能来自多个不同本体。由于本体的创建和建模方法不同,即使对同一领域内数据的建模,不同专家开发的本体也很可能存在差异,导致本体异构问题,限制了本体之间的互操作。本体映射可以有效解决本体异构的问题,从根本上解放本体互操作的限制,从而进一步提升本体应用价值。
本体异构问题已经成为语义网所面临的重要问题之一,而本体映射能够较好地解决本体异构问题。国内外对本体映射较为统一的认识是:“假设O1 和O2 两个本体,用一种方式来映射本体O1 中的每一个概念,使其能在本体O2 中找到相应的类或概念,反之亦然”。
近年来,本体映射技术已经成为一个研究的热点,许多国内外研究者开发出了不同的本体映射方法。例如:基于Schema 的本体映射方法、基于上层本体的映射方法、基于语义相似度的本体映射方法、基于机器学习的本体映射方法、组合映射方法等。
本文首先使用LDA 主题模型提取本体文本的主题,将文本主题词作为本体的文本概念,通过比较不同文本概念的相似度,为确认本体之间的映射关系提供依据。
最早在2003年,David M.Blei 等人提出LDA 主题模型。该模型的目标是识别文档中的主题词集,根据词集对文档进行分类。目前LDA 已经广泛应用于文档分类、人脸识别、信息演化分析等方面。本文结合LDA 和本体技术,构建语境情报领域内容本体映射关系,为数据共享提供支撑。
本文对本体映射依据进行研究,主要分为3 个步骤:
①根据专家经验为本体添加描述性综述文档作为本体文本特征;
②抽取文本特征的主题信息,作为本体映射依据;
③构建本体映射依据的映射关系。
在构建本体过程中,依靠专家经验,为每一个本体添加描述,作为本体的文本特征。在不解读本体概念关系前,提供本体摘要性描述,该过程依赖于专家的经验。
本文目标给本体映射提供依据,为实现自动构建本体映射关系提供支撑。所谓本体映射,是根据两个本体O1、O2之中不同概念的相似度进行比较,认为概念相似度较大的本体属于同一本体库。给出本体O1和O2的映射过程:
①map:O1→O2;
②如果Sim(C1,C2)>ε,则map(C1)=C2,其中ε 是设定的阈值,C1∈O1,C2∈O2。
概念C1和C2的相似度sim<(C1,C2)如果高于阈值ε 时,则建立O1和O2之间的映射关系,将异构本体不同概念建立映射关系的过程转化为概念语义相似度计算。如果本体库中存在大量本体,构建本体映射关系以前,首先要确定相似的本体集合。
为了提高映射的整体效率,对于待映射的本体概念,首先直接比对本体的文本主题词集,如果相似度大于阈值ε,继续建立映射关系,否则没有映射关系,阈值ε 根据专家经验给出,公式(1)表示如下:
使用Jaccard 相似度模型计算不同本体中不同主题词集Ct1与Ct2的相似度,如公式(2)所示:
针对多本体之间构建映射关系问题,设计了适用于本体文本映射的算法,如算法1 所示。算法思想:在所有本体Os中,本体Oi之间的文本特征Ct进行相似度比较,若相似度大于阈值ε,则对本体间的文本概念建立映射关系,继续建立其
余概念映射关系。
算法1:
通过以上方法,能够确认本体之间的映射依据。在映射依据的基础之上,对本体之间继续构建映射关系,提升多本体之间建立映射关系的效率。
表1 试验数据
本文选择10 个有关预警情报特征的本体进行试验。根据专家经验为每个本体添加综述性文档特征,试验数据描述如表1 所示,其中每个文档特征用一篇综述性文章进行表示。依照本体的构建过程,本体3 与本体4 非常类似。
使用Mallet 主题建模工具提取每个本体文本特征的主题,设置主题个数为20。例如提取本体7 文档特征的主题如下:model space vector training military ontology based construct revelance semantic representation text index problem solve VSM show results experimental reduction。
依照主题之间的相似度作为本体映射的依据,选择了本体1、3、5、7、9 的数据进行显示,如图1 所示,其中横轴表示10个本体,纵轴表示本体间文本概念相似度。明显发现其中本体3 和本体4 的文本主题相似度达到50%,而其余本体之间的文本主题相似度均低于25%。说明本体3 和本体4 具有映射依据,很有可能是异构的本体,应该对其进行本体映射处理。
图1 本体映射依据
进一步分析发现,影响构建映射依据有效性的原因可能有以下几个方面:①根据专家经验为本体添加文本概念,能够在解析本提前对其进行描述,为后期本体映射提供依据。但该文本概念还没有固定的形式,依赖于专家的决策,直接影响到本体的映射依据。②LDA 提取到的主题,能够对文本概念进行较为准确的描述。但字符数较多的文本概念无法用20 个主题进行准确表现,因此LDA 提取的主题个数应该随着文本概念长度的变化而变化,可以进一步提升映射依据的准确性。
本文在军事预警情报领域当中,使用本体相关技术,提升军事情报的共享和复用性。首先根据专家经验为每一个本体添加文本概念,接着使用LDA 技术提取文本概念的主题,最后通过比较主题之间的相似度,为本体映射提供依据。试验选取了10 个预警情报领域的本体,经验证发现本文所提方法能够在多个本体映射之间,提供本体映射依据,为本体之间自动构建映射关系提供支撑。