基于开源情报的海上大中型目标检测与识别*

2021-08-12 09:02王景石何佳洲蒋丙栋
舰船电子工程 2021年7期
关键词:尼米兹信息库舰艇

王景石 乔 慧 何佳洲 蒋丙栋

(江苏自动化研究所 连云港 222006)

1 引言

航空母舰、潜艇、驱逐舰、护卫舰、两栖登陆舰等海上大中型目标是各国海军作战的主力,是实施全球海洋战略的担当。掌握海上大中型目标的位置,了解敌对国家的海军动向,是洞悉全球海洋态势,占据战略有利地位的前提。当前针对大中型目标的探测,主要依赖于人力侦察、雷达探测与卫星可见光图像侦察等手段,然而人力侦察成本大,风险高[1];雷达探测范围有限,干扰信号多[2];卫星可见光图像照射范围太大、发现效率低[3]。这些缺点制约了大中型目标的检测与识别。

开源情报因低成本、高回报的特点而日益受到各国的重视,据美国中央情报局的统计,2007年的情报收集总数中超过80%来自开源情报。曾任美军中央司令部司令的安东尼·辛尼,在《新时代的指挥官》一书中写道:“在作战所需情报中,有4%来源于秘密渠道,而有95%的情报不是通过标准情报活动(秘密方法)获得的,是从学术界、民间、商业、政府、执法机关、媒体、非政府组织等渠道公开、廉价地获得的。”[4~5]互联网技术的飞速发展,网站、论坛、网络出版物等新型信息媒体不断涌现,形成了纵横交错、无处不在的公开信息空间。以互联网为主要获取手段的开源情报,凭借其信息容量大、内容丰富、来源广泛、不受时间地域限制等优势,日益受到各国的关注,被视为最广泛、最经济、最安全和最迅速的情报搜集手段[6~8]。通过舰船自动识别系统(AIS)获取的位置、身份等信息,结合互联网上有关大中型舰艇的公开报道及论坛跟帖信息,为海面舰艇的动态检测提供了详细可靠的信息获取渠道,是大中型目标检测手段的有力补充。

在这样的背景下,本文从远海大中型目标检测与识别的需求出发,在网络公开信息搜集的基础上,建立目标身份信息库,利用信息库中的AIS信息,通过船舶定位网站发现目标舰艇的位置和属性信息。同时建立网络爬虫工具获取目标舰艇的近期中英文通讯报道,利用实体识别工具,抽取公开报道信息中的目标舰艇名称、时间和位置信息。最后将不同渠道获得的目标舰艇身份信息、出现的时间和地点信息进行比对分析,对目标身份和活动事件进行一致性检验,最终实现海上大中型目标的检测、识别与验证。

2 目标检测与识别

AIS系统作为船和岸、船和船之间的海事安全与通信的开放式数据传输助航系统,通过VHF通信机可自动交换船位、航速、航向、船名、呼号等重要信息,并通过与互联网连接,构成海上交管和监视网络,广泛应用于民船、军用舰艇等海上船舶的通信交流、导航避碰、海上救援等领域[9]。

AIS通信信息中的身份信息为识别海上大中型目标提供了开源渠道,通过互联网等开源渠道获取外军军用舰艇的身份信息,形成舰艇身份信息库,结合库中目标舰艇的身份信息,利用船舶方位查询网站获取目标舰艇的位置信息,并通过身份信息比对,实现大中型目标的检测和识别。

2.1 建立舰艇身份信息库

为了收集整理国外海上大中型目标的身份特征信息,通过互联网新闻报道、军事爱好者论坛和国外舰艇门户网站等开源渠道获取舰艇名称和身份等相关信息,建立舰艇身份信息库。该信息库主要包含名称、编号、特征及活动等四类信息,如图1所示,名称类信息包括英文名称、中文名称和英文别名;编号类信息包括MMSI号码(水上移动通信业务标识码)、呼号和船舶序号;特征类信息包括船体长度、最大宽度和舰艇类别;活动类型信息包括母港、历史事件和活动区域。为保证数据库的准确性和完整性,信息库信息在目标检测过程中不断更新和完善。当前舰艇信息库包含美、日、台各军航空母舰、潜艇、两栖登陆舰、驱逐舰、濒海战斗舰和联合高速舰等大中型舰艇526艘。随着开源信息的不断收集和整理,信息库包含的舰艇数量和信息种类将不断提升。

图1 舰艇身份信息结构

2.2 目标发现及信息提取

根据AIS网站信息查询特点及数据格式,目标发现及信息自动获取流程主要分为以下四个步骤:舰艇身份信息获取、AIS网页解析、目标舰艇特征匹配和舰艇活动信息存储,如图2所示。

图2 目标发现和信息获取流程图

大中型舰艇发现及信息提取主要流程如下所示。

1)选择所需检测的舰艇,通过舰艇身份信息库获取其MMSI号码,并在AIS查询Url库中选取合适的船舶方位查询网站,船舶方位查询中文外文网站如表1所示;

表1 船舶方位查询网站

2)利用MMSI号码对相应的AIS查询网站进行请求并得到响应,解析得到目标舰艇的位置信息、时间信息、特征信息和图片信息。如查询失败,更新查询Url,并重新请求,当遍历Url库仍然未得到解析结果,对该舰艇的AIS信息进行查验并更新舰艇身份信息库;

3)根据网站解析得舰艇的长度、宽度、呼号等身份信息和图片信息与舰艇身份信息库中的相关信息进行比对,如差别较大,对该舰艇的AIS信息进行查验并更新舰艇身份信息库;

4)如果Url反馈信息完整并且舰艇特征匹配成功,保存舰艇出现的时间、所在时区、经纬度、出现区域和附近港口等信息,否则舰艇位置查询失败。

3 公开信息采集与加工处理

因AIS信息具有时间滞后、身份信息可修改等特点,单纯依赖AIS信息并不能保证信息的准确性,为增加舰艇活动信息的可靠性,还需多种信息来源对舰艇活动事件进行比对,辅助验证事件的同一性。航空母舰、驱逐舰、两栖登陆舰等海上大中型目标因在国防领域发挥重要作用而受到社会的广泛关注,这些舰艇在驻留港口码头、靠港维修补给、出海访问交流、国防公开教育等活动过程中,当地新闻媒体、军事自媒体、军事爱好者或者随舰通讯记者会在网上进行相应的通讯报道、发帖和留言,这些获取信息的网络公开渠道为信息可靠性分析提供了另一个重要的信息来源。

隐藏在公开报道中的名称、时间和位置等关键信息是验证目标舰艇活动的关键,必须对其中的关键信息进行识别和提取。因通讯报道信息的权威性、准确性和完整性,本文以通讯报道为处理对象。中英新闻通讯中目标舰艇活动时间和地点等关键信息的提取,主要由以下三步完成。

1)公开信息获取。利用舰艇身份信息库获取目标舰艇的名称信息,通过商业搜索引擎,获取目标舰艇最近的公开信息,并保存相关网址;

2)网页关键内容抽取。结合网页解析工具,完成正文、发表时间等网页关键内容的抽取;

3)关键信息抽取。利用自然语言信息处理工具,实现公开信息正文中舰艇名称、出现时间和地点等关键信息的获取。

下面就各步骤进行详细说明。

3.1 公开信息获取

首先确定待检测的目标舰艇,从舰艇身份信息库中获取中文名称、英文名称,利用爬虫工具通过搜索引擎检索目标舰艇名称并将检索结果以时间排序,同时剔除百度、维基等百科类网址,以当前时间为基准,检索目标舰艇近三个月的新闻报道,如果未有相关信息,则检索目标舰艇别名或简称,以此来获取相关新闻通讯网址,最后将新闻网址进行保存,如图3所示。

图3 公开信息获取流程图

3.2 网页关键内容抽取

本文从目标舰艇的开源情报信息内容要求出发,爬取的网站以英文网站为主,中文网站为辅,重点关注页面标题、文章作者、发表时间、正文、关键词、摘要、图片、视频等关键信息,忽略网页无关信息。不同语言不同类别的网站语法规则不太相同,这为网页适配带来了额外的工作[10]。

传统的 Xpath,Css,正则表达式,Beautifulsoup来解析新闻页面的时候,网页源码中混有大量无用的语法信息,总是会遇到各种问题,严重影响工作进度。而开源python库提供了丰富的网页信息获取工具,其中基于提取模板的newspaper库就是优秀代表,不仅自动识别和处理包括中英文在内的10多种语言网页,可以通过自然语言处理相关技术自动生成网页关键词和摘要。具体应用步骤如图4所示。

图4 Newspaper提取关键信息流程

3.3 关键信息抽取

目标舰艇相关情报发生的时间和地点是体现其情报价值的核心要素。在一般的开源新闻报道中,标题和正文通常包含关键的时间和地点信息。如何将隐藏在标题和正文中的关键信息进行正确识别和提取是从公开信息中提取高价值情报的关键。

本文通过斯坦福大学开发的开源自然语言处理工具Stanford CoreNLP,抽取标题和正文中时间地点信息,该工具支持英文、中文、西班牙语等六种语言的命名实体识别、词性标注、情感分析等功能。在命名实体识别中,时间词语被标注为“DATE”和“TIME”,地点词语被标注为“LOCA⁃TION”,“CITY”,“COUNTRY”,“STATE OF PROV⁃INCE”。中文英文时间地点要素识别分别如图5和图6所示。

图5 中文时间和地点要素识别示例

图6 英文时间和地点要素识别示例

4 事件一致性检验

虽然通过检索舰艇名称获取相关新闻报道,并利用Stanford CoreNLP较好地抽取文中舰艇出现的时间和地点,但是在新闻报道中目标舰艇活动信息的时间位置精度和通过AIS获取的不相同,一般在新闻报道中时间精确到天、地点精确到城市或者港口,而AIS时间地点精度较高,一般时间精确到秒,地点以经纬度表示,因此不能判定AIS获取的舰艇活动事件和新闻报道中的是同一个事件,必须对二者进行事件一致性检验。事件一致性检验是在身份一致性的基础上,通过时间和地点一致性来判断是否是同一事件[11]。具体流程如图7所示。

图7 事件一致性检验流程图

4.1 身份一致性检验

从AIS获取的名称类信息指向性强,特指某舰艇,具有唯一性。而在利用名称通过搜集引擎检索网页过程中,因搜索机制问题,可能出现正文或者标题中目标舰艇名称出现了一次,而正文中的事件描述其他舰艇活动情况。为保证新闻报道的参考价值,必须验证通讯报道中具有活动信息的舰艇与AIS目标舰艇是否为同一舰艇,即身份一致性检验。

根据自然语言处理工具处理结果,如果标题和正文仅出现目标舰艇的身份信息而未出现其他舰艇,则判定该新闻报道具有较高参考价值,无需人为检阅,直接进行时间和地点一致性检验。如果标题和正文中不仅出现目标舰艇身份信息,还出现其他舰艇身份信息,则无法判断该通讯报道是否具有参考价值,必须人为审阅对应通讯报道,判断新闻是否描述目标舰艇的相关行动信息。

4.2 时间一致性检验

在进行时间一致性检验前,必须对时间信息进行预处理。主要分为三步:

1)针对不同时间粒度的规定。对于文中抽取时间大多数只具体到日期而无具体时间情况,统一将具体时间定为12:00;

2)将不同时区时间换算成统一时区时间。AIS时间通过获取的时区符号换算,而文中抽取的时间所在时区因不确定性较大,因此必须通过词性标注为“DATE”和“TIME”的短语人为确定;

3)统一时间格式。将时间统一为“年:月:日小时:分钟”格式。

若AIS获取时间和文中抽取时间之差的绝对值小于3×24h,则通过时间一致性检验,否则不通过。之所以选择3×24h作为判断标准,是由新闻报道的时间滞后性和模糊性所决定的[12]。

4.3 地点一致性检验

AIS获取的位置精度较高,一般为经纬度信息和港口信息,而文中抽取的位置精度较低,一般为城市或港口信息,涵盖范围较大。如果AIS获取的港口在文中抽取位置所在行政区范围内或者AIS获取的经纬度位于文中出现的海域或者区域内,则通过地点一致性检验,否则不通过。

5 试验分析

尼米兹号航空母舰是美国海军尼米兹级航空母舰首舰,以第二次世界大战期间任太平洋战区的盟军总司令,美军五星上将尼米兹的名字命名,为美军现役核动力大型航空母,其舰艇身份信息库资料卡片如图8所示。

图8 尼米兹号航空母舰资料卡片

5.1 目标发现与信息提取

利用尼米兹号航空母舰MMSI号通过爬虫工具获取其最近出现时间、地区、港口、经纬度等信息,如图9所示。

图9 通过AIS获取的尼米兹号航空母舰行动信息

将爬取的尼米兹号航空母舰活动信息与通过marine-traffic网站人工检索的信息,如图10所示,进行比较分析,二者结果基本一致,证明了爬虫工具的稳定和可靠性。

图10 AIS信息检索页面

5.2 公开信息采集与关键信息抽取

首先利用航空母舰简称“USS Nimitz”,通过搜索引擎获取搜索结果,同时将搜索结果中百科类、照片类和视频类网页信息剔除,然后根据发表时间远近选取最近的新闻报道,筛选得到于2020年2月22日发表在网络的“USS Nimitz Hosts Junior Navy ROTC Students”新闻稿[13],一篇关于尼米兹航空母舰邀请高中海军预备军官上舰参观的新闻报道,并将新闻稿中含有时间和地点等关键信息的第一段文字内容单独提取,最后利用自然语言处理工具将文字中的关键内容进行标注,同时提取相应的关键信息,如图11所示。

图11 关键信息提取过程

5.3 事件一致性检验

利用MMSI号通过AIS查询网站获取的船舶全长、宽度特征信息与照片资料和尼米兹号航空母舰信息相符,同时尼米兹号航空母舰被AIS检测到的时间为当地时间2020年2月22日的1:17刻,地点为BREMERTON(布雷默顿,美国华盛顿州港口城市),该港口是尼米兹号航空母舰母港。新闻稿中报道的对象是USS Nimitz(CVN68),活动时间为当地时间2020年2月21日,地点为Puget Sound(普吉特海湾,美国华盛顿州西北部),目的地为Bremer⁃ton,Washington(华盛顿州布雷默顿)。

从时间上看,尼米兹号航空母舰被AIS检测到的时间与新闻稿中被报道的时间间隔小于2天,时间较为接近;从空间上看,尼米兹号航空母舰被AIS检测到出现在布雷默顿港口,该港口恰好位于新闻报道中出现的普吉特海湾,同时新闻中出现的目的地信息——布雷默顿与1天后被AIS检测到的地点信息一致。结合以上判断AIS于2020年2月22日检测到的尼米兹号航空母舰信息是真实有效的。

6 结语

本文针对远距离和超远距离海上大中型目标的发现困难和识别模糊问题,从利用AIS信息的角度提出了一种基于开源情报的海上大中型目标检测和识别方法,同时结合公开信息报道中出现的目标名称、出现时间和地点,进行事件一致性检验,增强开源信息的可信度。本文最后通过对真实目标的检测和识别对方法进行了实验评估,实验结果表明通过开源渠道对海上大中型目标进行检测和识别是可行的。

猜你喜欢
尼米兹信息库舰艇
海战中的蒙面杀手——隐形舰艇
“尼米兹”级航空母舰
2021年10月3日,美、英、日海军舰艇在菲律宾海进行多航母打击群作战演习
尼米兹的提醒
尼米兹的提醒
借助BIM构建动态造价信息库的新思路
海军舰艇前往演戏海域
基于普元EOS平台的信息库的设计与实现
机会均等