面向涉恐领域的知识图谱构建方法*

2019-09-17 00:39廖浚斌何小海王正勇卿粼波
网络安全与数据管理 2019年9期
关键词:爬虫本体图谱

廖浚斌,周 欣,2,何小海,王正勇,卿粼波

(1.四川大学 电子信息学院,四川 成都 610065;2.中国信息安全测评中心,北京 100085)

0 引言

目前,世界处于网络时代,各领域的信息呈爆炸式增长。涉恐信息零散地分布在海量的数据中[1],包括涉恐分子信息、涉恐组织信息、涉恐事件信息以及反恐策略等信息。如果能够有效地获取、组织及利用这些信息,将对各个国家在反恐、防恐工作中起到重要的促进作用。为了帮助相关人员对多元化的涉恐信息进行更好的分析及表达,需要建立一个基于涉恐领域的知识图谱。涉恐领域知识图谱的建立可以将海量的涉恐信息整合成结构化的有意义的知识,极大程度地方便了安全人员对涉恐人员及组织的分析[2]。

1 涉恐领域知识图谱实现流程

涉恐领域知识图谱技术路线如图1所示。具体流程为:(1)数据获取,使用分布式爬虫技术采集互联网上已存在的非结构化数据和半结构化数据;(2)信息抽取,对于半结构化数据,需要根据其数据结构特征提取出人物、组织等实体和实体间的关系信息,对非结构化数据需要进行信息抽取,如采用实体识别[3-4]、关系抽取以及属性抽取等技术,最终使数据通过三元组的方式进行链接;(3)实体对齐,借助构建的涉恐领域本体库来辅助判断数据中任意两个实体是否指向真实世界同一对象,消除异构数据中的实体冲突、实体间指向不明等实体间的指向二义性问题[5];(4)通过构建的本体库对数据进行推理补充,进一步完善数据,最终形成涉恐领域的知识图谱。

1.1 数据采集

本知识图谱主要从互联网数据中获取与恐怖主义相关的人物与组织信息,这些信息主要以两种形式存在:半结构化的形式和非结构化的形式。第一类数据主要是各种社交媒体数据,如维基百科、FaceBook、Twitter等。第二类数据来源主要以政府网站、新闻媒体网站以及各研究机构的公开网站为主,该类型网站的数据往往以非结构化的文本形式存在。针对以上两类信息,考虑到其信息量的巨大,本文采用分布式爬虫进行数据的采集。分布式爬虫架构如图2所示。

图1 涉恐领域知识图谱实现流程

图2 分布式爬虫架构

分布式爬虫由三部分组成:(1)集中的统一资源定位符(Uniform Resource Locator,URL)调度管理和分配,即URL仓库;(2)爬虫节点;(3)数据存储。URL仓库负责对URL队列进行管理并将URL分配给各爬虫节点;爬虫节点由多个子节点构成,每个子节点负责获取和解析不同网站的数据,最终将爬取的数据存储到数据库中。

1.2 实体关系抽取

实体关系抽取是指从文本信息中提取出实体之间隐含关系的方法,是实现知识图谱的关键技术之一[6]。本文在构建涉恐领域知识图谱时应用BI-GRU+Att模型完成了文本信息中实体的关系抽取任务,模型结构如图3所示。

图3 BI-GRU+Attention模型

其中,门控循环单元(GRU)网络是循环神经网络的一种变体[7],可以有效地克服循环神经网络无法很好处理远距离依赖的问题;而注意力机制可以增大关键词的注意力权重,使得神经网络更关注与关键词相关的上下文信息[8]。

1.3 涉恐领域本体库构建

本体是对特定领域中的概念及其相互关系的形式化表达,是同一领域不同主体进行交流、连通的基础[8-10],其相邻层节点之间具有严格的从属关系。在知识图谱中,本体库是用于管理知识图谱的模式层,用于描述概念层次体系,是知识图谱中知识的概念模板。通过本体库形成的知识图谱层次结构分明、冗余度小[11]。本文使用Protege本体库构建工具进行涉恐领域本体库的构建,Protege软件是语义网中本体构建的核心开发工具。

2 涉恐领域知识图谱实现

本节将主要对数据爬取、实体的关系抽取和本体库构建的实验进行说明。

2.1 数据爬取

本文使用的涉恐领域的人物及组织信息主要从维基百科网站进行爬取,另外通过对反恐怖主义信息网、环球网等网站的爬取获取更多的信息。总计获取人物实例数据1 000条,组织实例数据200条。爬取的人物实例之一如表1所示,组织实例之一如表2所示。

表1 人物信息

表2 组织信息

2.2 关系抽取

本文使用BI-GRU+Att模型对隐含在涉恐人物和组织数据中的关系进行抽取,结果如表3所示。

表3 本文应用模型评价

从表3可以看出,本文针对涉恐信息的关系抽取方法由于网络结构简单,且使用字符级向量作为输入,所以得到了较高的准确率。因此可以证明本文针对涉恐信息的关系抽取任务使用的关系抽取模型有一定的效果,但还有一定的提升空间。表4为人物关系抽取的实例展示,表5为组织关系抽取的实例展示。

表4 人物关系实例

表5 组织关系实例

从表4、表5可以得知,本文模型可以较好地从文本中抽取出实体间隐含的关系。

2.3 本体库的构建

本文构建的人物本体库与组织本体库的类同属于超类“Thing”,统称为涉恐领域本体库的类,本体库的类结构如图4所示。

图4 类层次结构图

其中人物库的类包括人物类(People)和地点类(Location),而组织库的类包括组织类(organization)、事件类(Event)和地点类(Location)。

2.4 涉恐领域知识图谱可视化

本文通过使用非关系型图数据库Neo4j将通过上述流程所得的信息转换为图数据库。图5为知识图谱部分节点的可视化展示。图中展示的是与国家民主联盟组织节点相关的节点。

图5 知识图谱可视化

3 结论

本文首先使用了分布式爬虫技术从互联网中爬取涉恐领域的人物与组织数据,然后利用BI-GRU+Att模型等技术实现对信息的抽取,并构建了涉恐领域的本体库,最终实现涉恐领域的知识图谱以及使知识图谱可视化。因为本文的研究重点集中于特定领域的知识图谱实现,而针对基于知识图谱的应用的研究尚处于初级阶段,所以在未来的工作中将进一步研究基于知识图谱的问答等应用领域,以便更好地满足涉恐领域的需求。

猜你喜欢
爬虫本体图谱
利用网络爬虫技术验证房地产灰犀牛之说
基于图对比注意力网络的知识图谱补全
基于Python的网络爬虫和反爬虫技术研究
眼睛是“本体”
绘一张成长图谱
目前互联网中的网络爬虫的原理和影响
一种基于社会选择的本体聚类与合并机制
图表
主动对接你思维的知识图谱
专题