海外公共安全场景下的开源情报组织与分析方法研究*
——基于“事件-主题-相关者”的多源数据融合框架

2022-04-12 03:55李白杨
情报杂志 2022年3期
关键词:瓜达尔相关者巴基斯坦

白 云 李白杨,2 周 艳 李 纲,2

(1. 武汉大学信息管理学院 武汉 430072;2.武汉大学信息资源研究中心 武汉 430072;3.湖北国际旅行卫生保健中心 武汉 430072)

0 引 言

随着我国深入推动“一带一路”倡议和“走出去”战略,越来越多的中资企业在海外投资设厂,遍布全球的海外企业、员工和财产所构成的海外利益成为我国国家安全和发展利益的重要组成部分。但是,随着世界的不确定性趋势加强,在经济全球化高速发展的同时,国际形势与地区安全态势也变幻莫测,对我国海外利益安全构成重大风险[1]。在这种内部安全与外部安全相统一、传统安全与非传统安全相交织的形势下,由于海外安全不在传统管辖范围内,传统以人力与秘密情报为主的渠道存在对全盘安全态势难以掌握和对安全事件相关的人、事、物难以快速反应能力不足的风险,这就需要开源情报对传统情报渠道进行必要的补充。因此,利用公开的多源数据集成、融合和分析等方法可以对海外安全场景进行细粒度的态势感知,从而补充和增强风险预测和预警能力,这对于探索情报学服务海外公共安全情报工作具有理论意义和现实价值[2]。

但是,多源数据的异构、异质、多模态等特征也给数据组织和分析带来障碍,传统的分析方法对多源数据中离散知识的识别和关联较为困难。针对这一问题,本研究在海外公共安全场景下,提出利用实体识别、事件抽取的方法,实现多源数据在细粒度知识实体的关联与融合,进而对海外公共安全事件进行多维度分析,并选择瓜达尔港的安全场景验证该方法的可用性。

1 研究背景

当前,世界三元化趋势加速发展,由物理世界(Physical space)、信息空间(Cyberspace)和人类社会(Human society)所构成的三元世界影响着人、物、网络等实体之间信息流的重塑和调整,通过获取、组织、分析和观测这个复杂系统中的大数据产生和流动,就能够从中发现有价值的情报信息[3]。面对庞杂的数据来源,如何实现在特定任务下的多源数据融合是关键所在。

1.1海外安全场景下多源数据的适用性海外公共安全事件是指发生在国境外对中国公民、机构、资产的安全状态造成威胁或损害的突发事件[4],与传统意义上的公共安全事件相比,海外公共安全事件具有更加复杂化、多样化、影响大等特点,加之跨境管辖、执法等问题存在现实障碍,造成目前对海外公共安全事件的应急处置手段少、难度大。海外安全场景是特定地区特定时间范围内所有海外公共安全事件的集合,其包括时空属性、事件主客体、事件类别、危害情况、伤损情况等多种要素。及时、准确、全面地获取海外公共安全事件情报信息,是进行相应应急处置的重要保障。

根据兰德公司[5]的定义,情报渠道一般包括人力情报、地理空间情报、信号情报和开源情报,其中人力、地理空间、信号三种情报源都由专门的情报与安全部门掌控,带有较强的秘密性特征,这类型情报对特定事件极为准确,但对海外安全场景各要素的掌握和分析却有所不足。而开源情报则是政府部门、商业机构乃至民间智库都可以开展的业务,决定开源情报有效性的关键因素是数据来源和分析方法,可以很好地补充秘密情报渠道的局限性。因此,本文所述的多源数据是开源情报中可以合法、公开获取的不同来源、不同类型、不同结构、不同模态的数据。在美国情报界(Intelligence Community,IC)的情报融合体系中,开源情报已成为美国国防、反恐、科技安全等方面的重要支撑,以国务院情报研究局、国会图书馆研究部为代表的开源情报服务也越来越受到重视。

因此,根据特定安全场景的情报需求对多源数据进行采集、组织和分析,能够有效补充秘密情报渠道的不足。网络公开的多源数据主要有:①各国政府门户,包括与海外安全相关的政策、规定、指令、报告、通告等;②新闻网站,发布关于海外安全事件完整的叙事报道、图像、录像等;③社交媒体,拥有最快的事件反馈信息;④专门数据库,卫星、海事、航空、气象等各类型专门开源数据库[6];⑤其他开放数据,来自研究机构已加工整理好的数据集。由此可见,公开的多源数据对于了解海外公共安全事件的态势、趋势具有很强的适用性,但必须解决其多源异构多模态带来的分析难题。

1.2海外公共安全场景下多源数据的利用方法利用和分析多源数据的关键在于知识融合并在此基础上进行事件抽取。多源数据融合可以有效地将核心信息与从多个信息源收到的大量、多样且有时相互冲突的数据相结合,从而更加准确地评估复杂情况。

1.2.1 多源数据融合 多源数据融合是集成多个信息源,并生成有关实体、活动或事件的具体而全面的统计估计,以获得更复杂、可靠、一致和准确的信息以提供决策支持的过程。

数据融合技术可以根据数学方法分为三大类[7]:①基于概率的方法,包括贝叶斯理论、马尔可夫链和蒙特卡洛方法;②基于人工智能的方法,包括监督机器学习、神经网络、模糊逻辑和卡尔曼滤波器;③基于证据的数据融合理论,信念函数理论[8],也被称为证据理论(Evidence Theory)或Dempster-Shafer理论(DST),是一个用于建模认知不确定性的一般框架。也可以根据数据空间分为三类[9]:①网络-物理(Cyber-Physical)空间融合,常用方法有:加权平均、贝叶斯方法、模糊集合论、粗糙集、随机集合论等;②网络-社会(Cyber-Social)空间融合,常用方法有:主成分分析、奇异值分解、非负矩阵分解等;③网络-物理-社会(Cyber-Physical-Social)空间融合,常用模型有:基于张量的统一融合(TUF)模型、多元多步过渡张量(M2T2)模型、网络-物理-社会转换张量(CPST2)模型等。

多源数据融合框架经历了一系列的发展,包括早期的TheJointDirectorsofLaboratories1991年引入的JDL数据融合过程模型[10],将数据融合划分为了5个层次,为不同领域的数据融合提供了一个较为统一的流程,明确了数据融合的过程、功能及可用技术;Bedworth等[11]提出强调较低级别处理功能的瀑布融合模型,并在英国国防数据融合社区中得到了广泛的应用;Boyd模型[12](OODA)是一种基于军事策略的快速适应方法,用于态势感知的决策支持系统与融合系统;Bedworth等[13]在已有模型基础上提出Omnibus模型,用于表征和构建整个数据融合系统;分布式数据融合框架(DFuse)[14]支持异构自组织无线传感器网络中的数据融合,将应用程序建模为数据源、融合点和数据接收器的任务流。在实际应用中,Yerva等[15]从Twitter和气象传感器数据中提取与天气相关的情绪信息。该Cyber-Physical空间融合框架能够分析推文消息以根据日期、天气和位置提取人们的情绪;Kalamkar等[16]融合来自不同来源(如临床资料库、传感设备、历史或文本数据)的数据并提出了医疗保健领域的数据融合架构。

1.2.2 事件抽取 事件抽取[17]的目标即自动化地从非结构化的信息中完成上述信息的获取,并结构化进行展示。事件抽取是信息抽取领域中一项重要且具有挑战性的任务。其可以为知识库构建,问答以及语言理解任务提供有效的结构化信息。

第一,事件识别和抽取:从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来,包括发生的时间、地点、参与角色以及与之相关的动作或者状态的改变。

第二,事件监测和追踪:事件检测与追踪旨在将文本新闻流按照其报道的事件进行组织,为传统媒体多种来源的新闻监控提供核心技术,以便让用户了解新闻及其发展。具体而言,事件发现与跟踪包括3个主要任务:分割、发现和跟踪,将新闻文本分解为事件,发现新的(不可预见的)事件,并跟踪以前报道事件的发展。事件发现任务又可细分为历史事件发现和在线事件发现两种形式,前者目标是从按时间排序的新闻文档中发现以前没有识别的事件,后者则是从实时新闻流中实时发现新的事件[18]。

2 海外公共安全场景下基于“事件-主题-相关者”的多源数据融合框架

2.1基于“事件-主题-相关者”的多源数据融合框架概述位于巴基斯坦俾路支省的瓜达尔港项目是我国援建的重大海外项目之一,但由于俾路支省长期经济欠发达、基础设施极为落后、部落冲突不断,加之外部势力的干预使该地区安全局势堪忧。在中国援建瓜达尔港以来,该地区严重公共安全事件频频发生,包括武装袭击、绑架、游行示威等。同时,美、英、印等国也在瓜达尔港活动频繁,对该地区的安全态势、社情、舆情等有一定的影响。

在这种背景下,利用多源数据的组织与分析能够及时全面地了解和掌握瓜达尔港的安全态势、舆情、利益相关者等信息,有助于维护我国海外战略利益,能够为我国该地区的人员、机构提供有价值的安全信息。该场景下可以公开获取的数据源包括各国政府机构网站、新闻媒体、社交媒体、智库研究报告、地理信息数据、气象数据、海事数据等,但数据获取和分析难度存在较大差异。本文针对公共安全的应急情报需求,选择数据可靠性较高、获取难度相对较小的政府网站及新闻媒体和数据即时性、广泛性较强的社交媒体作为主要数据源开展实验,重点是构建一个面向开源情报服务的多源数据融合框架,如图1所示:①采集瓜达尔港相关数据后进行初步数据处理获得原始可用数据集;②在原始数据集的基础上获取事件结构化组织结果,包括用于媒体分析和情感计算的事件源、用于刻画事件的基本描述、标志事件内含属性的事件主题和事件利益相关者,从而获得瓜达尔港安全事件数据集;③针对上个步骤的结果进行主题分析、利益相关者分析、媒体来源分析和情感计算并根据分析结果给出相应的治理建议。

图1 海外安全场景下多源事件组织与分析框架

2.2关键技术与方法本框架主要采用四种关键技术方法实现面向多源数据融合、组织、分析的任务需求,包括:

2.2.1 事件聚类与分类 事件(Event)是海外公共安全场景的基本信息单元,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实。事件的描述一般是句子级的文本,在话题检测与跟踪(Topic Detection Tracking,TDT)中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的。一个主题事件由多个实体、动作、状态等要素组成,其描述信息通常分散在一个或多个文档中,主题事件抽取[19]的关键是如何确定描述同一个主题事件的文档集合,以及如何通过篇章内或跨篇章的理解技术将这些集合中分散的主题事件片段进行归并,本研究采用事件描述框架来表示主题事件的基本组成以及各成分间的联系。在事件描述框架基础上,通过定义结构化、层次化的事件框架实现事件属性的抽取,利用框架来概括事件信息,表达主题事件的不同特征[20]。

在事件的聚类与分类过程中,主要采取两种技术方法:一是基于事件描述框架的分类,事件描述框架包括个人、组织、状态、时间、空间等多重属性,通过标注、提取和计算属性之间的关系;二是主题相似度计算,通过主题提取和计算主题向量之间的相似度构建事件相似度矩阵,实现不同事件特征在同一主题的聚类和关联,以揭示事件的演化过程。

2.2.2 基于复杂网络的关联与融合 现实生活中,许多复杂系统(例如电力系统、航空网络、计算机网络以及社交网络等)都可以建模成复杂网络进行分析。钱学森对于复杂网络给出了一种严格定义:具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络称之为复杂网络[21]。

对于海外公共安全场景而言,利用复杂网络能够在离散的多源数据中发现一些特定事件要素的关联性,并根据其关联性的强弱给出事件中利益相关者的位置。网络中与其他节点没有连接的节点称作孤立节点[22],往往代表重要度较低的组织/个人;网络中与众多节点相连接的节点称作超级节点,一般是网络中的“枢纽”,代表重要度高的组织/个人。

2.2.3 利益相关者分析 利益相关者分析(Stakeholder Analysis)是针对特定主题下的组织、机构、人进行二次分析,以获取本区域同一主题下的利益相关者,在安全事件发生后,为决策者提供快速情报反应[23],对于识别重大利益相关者的影响及制定战略具有重要意义[24]。在海外公共安全场景下,事件的利益相关者是指与事件有一定利益关系的个人或组织群体,可能是事件发生地内部的(如当地政府、人民、组织等),也可能是事件发生地外部的(如其他国家政府或商业组织或个人等)。利益相关者能够影响组织,他们的意见一定要作为决策时需要考虑的因素。但是,所有利益相关者不可能对所有问题保持意见一致,其中一些群体要比另一些群体的影响力更大,这是如何平衡各方利益并为战略制定考虑的关键问题。在巴基斯坦瓜达尔港的安全场景中,利益相关者既包括美、英、印、日等国家势力,也包括巴基斯坦塔利班、俾路支解放军等本土武装势力,所有相关者都是影响安全局势的要素之一。

2.2.4 情感计算 文本情感计算[25]侧重研究情感状态与文本信息之间的对应关系,提供人类情感状态的线索。文本信息采集模块通过网页爬虫工具获得情感评论文本(新闻),并传递到情感特征提取模块,将新闻中包含的自然语言文本转化为计算机能够识别和处理的形式,并通过情感信息分类模块得到计算结果。

3 数据组织与分析过程

3.1数据采集针对瓜达尔港公共安全信息需求,本文设计了多源数据的采集策略,主要从政府门户、新闻网站、社交媒体、专题数据库等来源采集。以瓜达尔港为事件发生地进行数据检索,时间范围为2015年1月1日到2020年10月1日,从不同来源采集相关数据并进行数据清洗,提取出有效数据。

a.政府门户。包括巴基斯坦政府官方网站(pakistan.gov.pk)、巴基斯坦内政部(interior.gov.pk)、巴基斯坦总理办公室(pmo.gov.pk)、巴基斯坦外交部(mofa.gov.pk)等及其他相关国家政府门户网站,例如美国政府官方网站(usa.gov)、英国政府官方网站(gov.uk)等,共采集到173条有效数据。

b.新闻网站。按照利益高度相关国别/地区确定作为数据源的媒体网站,此外,选取全球主流新闻媒体网站作为数据源补充,包括巴基斯坦财经日报(brecorder.com)、巴基斯坦每日时报(dailytimes.com.pk)、巴基斯坦电讯报(pakistantelegraph.com)、巴基斯坦观察者(pakobserver.net)、BBC News(bbc.com)、中国日报(cn.chinadaily.com.cn)等,共采集到329条有效数据。

c.社交媒体。包括Twitter,共采集到13 043条有效数据。

d.GDELT项目是全球人类社会的实时网络图和数据库,用于开放研究。在GDELT[26]全球知识图数据表中,每个记录都有27个字段,以CAMEO[27]格式获取与特定事件有关的信息,共采集到1 021条有效数据。

3.2数据融合本文将海外安全事件定义为特定时间在特定地点发生的特定事件。由于存在多个数据来源,每一个特定事件都可能出现在不同数据源中,不同数据源通常包含有关同一事件的关键性信息重复,而不同数据源对事件描述的具体细节可能不尽相同,因此,快速而有效地合并不同来源的事件描述并融合成新的结构化事件简明描述对于事件分析相当重要。安全事件抽取和融合的主要步骤包括:①识别文本中提到的各事件所在位置;②识别同一事件不同角度的事件描述;③将同一事件的不同事件描述融合并生成结构化描述。传统媒体内容通常包含详细的新闻特征,即when,where,who,whom,where[28]。由于Twitter具有短文本特性,因此Twitter的新闻特征往往分布在不同的帖子中,难以对Twitter进行深入的数据分析。在此背景下,本文选择将政府门户、新闻网站、社交媒体、专题数据库作为主要分析数据源,Twitter数据作为事件描述的补充。为达到使用统一的事件描述框架将多来源新闻数据、社交媒体数据与专题数据库数据组织统一的目的,对采集到的多源数据进行实体识别,解构数据中的时间、地点、组织、人物、数字、专有名词等实体,参考GDELT专题数据库的数据组织方式,选择共10个基本属性进行事件结构化组织,如表1所示:

表1 安全事件描述框架属性表

续表1 安全事件描述框架属性表

3.3数据分析按照前文定义的事件描述框架,融合政府门户、新闻网站、社交媒体、专题数据库采集到的数据,共提取出542条事件数据。

3.3.1 数据概况 表2为事件数据按年度归类后的数据分布情况。图2为事件数据按月度归类后的数据分布情况。通过观察某些数据量剧增的年份或月份,可以获知瓜达尔港该时间点发生相关事件的全球关注度和事件影响。例如,表2中2015-2017年度的数据量较大,导致瓜达尔港相关数据量剧增,其标志性事件可能为:2015年巴方将把瓜达尔港2000亩土地租赁给中方,为期43年,用于建设(瓜达尔港)首个经济特区,后续几年因此成为“中巴走廊”建设的关键时期。

图2 数据分布(月度)

表2 数据分布(年度)

按事件数据对利益相关者提取(包括个人、组织、专有名词)。分别计算个人/组织/专有名词的词频,对结果进行直方图处理,并丢弃仅出现一次的个人/组织/专有名词,以消除大多数误匹配。其中只出现一次的个人为947个,组织为790个,专有名词为2 786个。剩余个人数目为1 283,组织数目为1 169,专有名词数目为3501个。

同理,提取事件数据包含的主题列表。这些主题包含92个0级主题(例如:Leader),123个1级主题(例如:ENV_COAL),848个2级主题(例如:TAX_ETHNICITY_CHINESE),314个3级主题(如WB_1803_TRANSPORT_INFRASTRUCTURE),以及132个4级、98个5级、46个6级、9个7级、1个8级主题。

3.3.2 事件主题提取 事件主题是安全事件的重要特性,基于海外安全场景的事件主题聚类分析能够揭示事件之间的隐含关系以及海外安全维护需要着眼的关键主题类别。事件主题分布为0~8级,其中大部分衍生主题可视为0级主题的下层分类,因此可以根据0级主题对事件数据进行聚类。

对542个事件进行0级主题提取,提取结果如表3所示。

表3 主题提取

使用主题向量相似度计算方法:

(1)

其中,common(A,B)是A与B的所有匹配片段的长度之和,len(A),len(B)是A与B向量的长度。相似度取值区间为[0,1]。

根据公式(1)根据获得的主题提取0级归类列表计算各主题向量之间的相似度,并构建出基于主题的事件相似度矩阵(如表4所示)。表头为事件唯一标识符(GKGRECORDID)。

表4 相似度矩阵(示例)

使用AP聚类算法[30]在相似矩阵的基础上进行聚类。AP聚类是一种基于图论的聚方法,将全部样本看作网络的节点,然后通过网络中各条边的消息传递计算出各样本的聚类中心。聚类过程中,共有两种消息在各节点间传递,分别是吸引度和归属类度。AP算法通过迭代过程不断更新每一个点的吸引度和归属度值,直到产生m个高质量的Exemplar(类似于质心),同时将其余的数据点分配到相应的聚类中。

由于无真实簇标签,本文采用轮廓系数[31](Silhouette Coefficient)和Calinski-Harabasz指数[32](也称为方差比率标准)来衡量聚类效果。根据图3和图4,选择阻尼系数(Damping)为0.70时的聚类结果。

图3 主题聚类效果-轮廓系数

图4 主题聚类效果-CH指数

3.3.3 事件利益相关者提取 对542条事件数据提取事件参与者(个人、组织与专有名词),结果如表5所示。对利益相关者中的个人、组织、专有名词(主要是重大项目)分别进行聚类以构建利益相关者网络,并结合社会关系网络分析和事件主题聚类结果,识别出利益相关者中的核心组织、项目以及潜在的参与者和与之相关的其他相关者或事件。

表5 利益相关者聚类结果示例

4 实验结果

4.1基于“事件-主题-相关者”框架的安全态势分析作为“一带一路”的战略节点之一,瓜达尔港是一座资金、技术都来自中国的完全中资建设港口,同时是进口石油运输新航线的关键枢纽,除航运、陆运外,空运也是瓜达尔港的重要交通方式。在此背景下,本文选择以下三个核心事件主题:能源、基建、运输并根据个人、组织、专有名词分别构建事件利益相关者网络进行重点分析:

4.1.1 能源 瓜达尔港作为进口石油的关键节点,对中国的能源战略有重大意义。港口临近主要石油产地波斯湾,航运距离相比马六甲海峡路线缩短80%以上,通过连接瓜达尔港和新疆地区的输油管道以保证资源供应的安全。以"Gas"为筛选词对专有名词聚类结果进行划分,分析得到,能源主题主要涉及项目:伊朗-巴基斯坦天然气管道、瓜达尔-纳瓦布沙管线项目、奥巴马核弹道导弹计划等;涉及的国家:中国、印度、伊朗、法国、俄罗斯等;涉及公司:Sui南方天然气公司(SSGC)、波斯石油和天然气工业发展有限公司、伊朗国家石油公司、德国施泰根博阁酒店、洲际燃气系统(IGGS)、塔德比尔能源发展集团;涉及组织:欧洲议会、拉乌尔·沃伦伯格世界反对种族主义自由运动组织、伊朗可再生能源组织。结合分析结果与相关新闻源可得出以下结论:由于巴基斯坦国内能源缺乏且局势动荡,而天然气作为巴基斯坦年均消耗量最大的能源,需求量近几年呈急剧增长,巴基斯坦现存能源储备无法保证长期稳定供应,因此巴方亟需大宗能源提供方。伊朗—巴基斯坦天然气项目也被称为“和平管道”,最初计划将天然气通过管道从伊朗出口到印度和巴基斯坦,瓜达尔—纳瓦布沙天然气管道项目是伊巴天然气管道项目在巴境内部分,项目原计划于2014年12月完工,但因伊朗遭受美国制裁而搁置。俄罗斯日前已替代伊朗,填补了向巴基斯坦市场供应液化天然气的空缺。瓜达尔港作为能源运输线的关键节点,不仅涉及各国的经济博弈,更是大国间政治博弈的重要着手点。为保证瓜达尔港能源供应的稳定性,应稳步推进建设原油储备设施和炼油厂,并做好瓜达尔港和新疆喀什的铁路及输油管道的安全维护。

4.1.2 基建 瓜达尔港的建设是一个综合性开发的系统工程,最终目的是形成一个包括“港口+园区+城区”的综合体。瓜达尔港作为中巴经济走廊的枢纽和巴基斯坦通往波斯湾和阿拉伯海的大门,与“海上丝绸之路”相接,目前,瓜达尔港港口运营、自由区开发、交通基础设施和社会民生项目建设取得重要成果。以"Construction"为筛选词对专有名词聚类结果进行划分,分析得到,基建主题主要涉及项目:中-巴经济走廊、丝绸之路、一带一路;涉及的国家或地域:中国、斯里兰卡、巴基斯坦、土耳其-伊斯坦布尔机场、波斯湾;涉及公司:天津电力建设公司、中国海外港口控股公司、中国交通建设总公司、广东龙豪航空集团、中国中枢电源有限公司(CPHGC)、西北电力设计院有限公司、国家电力投资有限公司(SPIC);涉及组织:航空航天中心、国家电力监管局、航空机场建设中心数据库、国际航空运输协会、巴基斯坦航空联合体。结合分析结果与相关新闻源可得出以下结论:由中国海外港口控股有限公司接管的瓜达尔港是一个完全中资设计、投资、承建、运营的港口。例如电力能源建设方面,巴基斯坦瓜达尔300兆瓦燃煤电厂项目作为瓜达尔港唯一能源项目,由中国交通建设总公司投资,西北电力设计院有限公司设计,天津电力建设公司承建,国家电力监管局监督,为当地基建项目建设运营提供电力能源保障,有效解决了当地发展用电困难问题。国际社会对于瓜达尔港基建的主要关注点是基础配套能源设施(电力)和机场的建设情况,后续可将这两个项目作为瓜达尔港建设作为援建的重大成果进行多方位重点展示以提升我国的国家形象。

4.1.3 运输 援巴基斯坦瓜达尔新国际机场为3C级军民合用国际机场,项目由巴基斯坦政府与中国合资建设,是中-巴经济走廊建设重要项目。项目建成后,将成为该地区现代化标志性建筑,显著改善瓜达尔地区的基础设施和对外交通条件,并为港口和城市未来发展打下更好的基础。以"Airport"为筛选词对专有名词聚类结果进行划分,分析得到,运输主题主要涉及项目:中-巴经济走廊、五年计划、航空丝绸之路;涉及的国家:中国、印度、沙特阿拉伯;涉及的机场:帕坦科特机场、伊斯兰堡国际机场、卡拉奇国际机场、阿卜杜勒阿齐兹国王国际机场、马斯喀特国际机场;涉及公司:巴基斯坦国际航空公司、Habib银行、沙欣航空;涉及组织:巴基斯坦选举委员会、疏散信托委员会、边境工程组织、穆罕默德·哈比中心、国际航空运输协会、开伯尔政治代理机构、奥拉兹凯政治代理机构、沙特旅游业委员会、伊斯兰教法法院。结合分析结果与相关新闻源可得出以下结论:瓜达尔新国际机场由中国交通建设公司设计建造,巴基斯坦民航局管理和运营,中国、巴基斯坦和阿曼的合资企业拥有,不仅包含国内航线(伊斯兰堡国际机场、卡拉奇国际机场),也包含国际航线(帕坦科特机场、阿卜杜勒阿齐兹国王国际机场、马斯喀特国际机场)。瓜达尔新国际机场承担港口的空运职能,将成为连接巴基斯坦国内和中东主要城市的重要交通基础并有效提升中巴经贸合作关系。结合涉及组织中的沙特旅游业委员会来看,沙特在瓜达尔港不仅以投资大型能源项目形式参与走廊建设,还积极通过发展航线带动瓜达尔的旅游业。在平等和互利基础上构建三边合作关系,将瓜达尔港打造为多边合作平台有利于长期稳固维护我国海外利益。

4.2媒体来源分析与情感计算针对以瓜达尔港为关键词采集的相关新闻进行媒体来源分析,分析瓜达尔港相关的新闻报道中折射出的瓜达尔港形象及其演变趋势,挖掘各国公共媒体对瓜达尔港的关注热点及态度,其中主要涉及的国家有:巴基斯坦、印度、美国、中国、英国、英国,相关新闻数量分布如图5所示。

图5 新闻报道来源国家分布

针对以瓜达尔港为关键词采集的相关新闻,对不同国家和时间节点的新闻集进行文本情感计算,分别提取中新闻集中情绪最正面与最负面的部分,按照来源国家进行划分,如图6所示,针对瓜达尔港的正面报道主要来自于巴基斯坦和中国,而负面报道则主要来自于美国、印度和澳大利亚。

图6 极性报道来源国家

将媒体来源分析与情感计算的结果结合可得出以下结论/建议:除巴基斯坦本国和中国之外,印度、美国媒体对于瓜达尔港较为关注,其中印度与美国的媒体报道主要呈现负面态度。结合印度与美国在瓜达尔港建设过程中采取的阻挠行为,为加强中国在瓜达尔港的海外利益保护,应提升对美国和印度在瓜达尔港相关问题上采取措施的关注度,并针对两国媒体报道中提到的问题做出正面回复以维护我国的国际形象。

5 结 语

本文面向海外安全场景的多源数据组织与分析方法。a.根据三元世界理论解析海外安全事件场景情报源;面向多源异构的开源数据,提出统一的事件描述框架和基于“事件-主题-相关组织/人”模型的多维特征分析方法体系;b.基于本文提出的方法,针对瓜达尔港相关的开源、多源、异构数据进行细粒度多维分析。借助于事件利益相关者多层网络,能够更精准定位到相关联的特定组织或个人,有利于政府针对性地制定政策与方案。同时,基于事件及地区的事件情感走势分析,能够揭示地区安全事件舆情的演化规律,有助于相关部门进行舆情管理。因此,本文提出的海外安全场景的多源数据组织与分析方法能够对海外安全场景进行细粒度的态势感知,从而增强风险预测和预警能力。

目前,本文只针对瓜达尔港的相关数据进行了详细分析,未来将进一步展开对西哈努克港、皎漂港、汉班托塔港、吉布提港、比雷埃夫斯港的相关数据分析工作,形成对我国海外战略利益的情报支持与服务。另外,本文只针对开源文本数据进行分析,下一步将优化分析方法,加入对视频、图片等其他数据的多模态语义分析。

猜你喜欢
瓜达尔相关者巴基斯坦
3300万巴基斯坦人受灾
校园篮球利益相关者的分类研究*
乡村旅游开发中利益相关者的演化博弈分析——以民族村寨旅游为例
商业模式设计:从共生体出发
神秘的瓜达尔初露面纱
中巴今天签约移交瓜达尔港
印媒:瓜达尔对北京是福是祸
组织的利益相关者研究述评分类及战略