基于知识图谱构建5G协议知识库

2020-10-27 09:46徐健
移动通信 2020年8期
关键词:知识图谱搜索引擎深度学习

徐健

【摘  要】

随着5G技术的日趋成熟,运营商相关研究人员面临着快速掌握5G相关知识的压力,然而5G知识内容种类繁多,知识面广,如何高效地从5G协议中查询到亟需学习的知识点是当前亟待解决的问题,为了解决这一问题,本文基于知识图谱及信息搜索方法构建5G协议知识库。由于网优人员搜索相关知识一般只需得到与关键字相关的知识信息,而不必通晓全文,本文采用专业领域知识库结合多种方法对信息进行抽取,建立术语的属性、基本关系以及文本结构的关系,同时采用Neo4j图数据库对构建成的三元组进行存储,极大地提高了搜索性能,本文将该知识图谱运用到5G协议知识智能检索中,并取得了很好的效果。

【关键词】知识图谱;Neo4j;搜索引擎;深度学习;知识抽取

[Abstract]

With the maturity of 5G technology, operator-related researchers face the pressure to quickly acquire 5G knowledge. However, there are various types of 5G knowledge content with a wide range, and how to efficiently extract the knowledge points from 5G protocol is an urgent issue to be solved. In order to solve it, this paper constructs a 5G protocol knowledge base using the methods of knowledge graph and information search. Since network optimization engineers usually need to get knowledge related to key words rather than being familiar with the full text when searching relevant knowledge, this paper adopts professional domain knowledge bases and combines multiple methods to extract information to establish term attributes, basic relationships and text structures. At the same time, the paper also uses the Neo4j graph database to store the construed triples, which greatly improves the search performance. This paper applies the knowledge graph to intelligent retrieval in 5G protocol knowledge and obtains a successful achievement.

[Key words]knowledge graph; Neo4j; search engine; deep learning; knowledge extraction

0   引言

随着网络领域人工智能技术的发展,自然语言处理技术得到了进一步的发展,由于网优领域知识的大规模、非结构化等特点,这使网优人员获取信息的难度加大,同时,知识图谱的快速发展,又给网优知识整理提供了可能性,知识图谱以其强大的语义处理能力和开放性组织能力,为网络领域的知识整理和自动化应用打下了根基,许多领域面临数据的不断增长所带来的许多挑战,因此可以利用知识图谱技术,针对不同的业务需求,实现通用领域和专用领域应用“遍地开花”的景象。

DBpedia是知识图谱中很典型的例子,是从维基百科的结构化数据中提取出来的知识图,这种提取的数据主要来源是维基百科信息框中的键值对,在一个众包过程中,提取信息框中的内容作为实体,而相应的键值作为属性,基于这些映射,可以提取知识图[1]。和DBpedia一样,YAGO也是从DBpedia中提取的,YAGO从维基百科的范畴系统和词汇资源WordNet[2]中隐式构建分类,将信息框属性手动映射到固定的属性集,DBpedia为每个语言版本的Wikipedia创建不同的相互关联的知识图[3],YAGO的目标是利用不同的启发式方法,将从不同语言版本中提取的知识自动融合起来[4]。无论用何种方法来构造知识图谱,其结果都不会是完美的[5],作为现实世界的一个模型或它的一部分,形式化的知识不能合理地达到完全覆盖,即不可能包含关于宇宙中每一个实体的信息,此外,特别是在应用启發式方法时,知识图不太可能是完全正确的,通常在覆盖率和正确性之间存在权衡,这在每个知识图中都有不同的解决方案。已有很多学者对知识图谱相关技术进行了研究,Dong C, Zhang J等[6]通过使用神经网络的变种形式双向的LSTM-CRF进行命名实体识别,利用字符级等方法进行表示,并在没有精心设计的特性的情况下获得更好的性能。M Ganzha, L Maciaszek等[7]利用原始的PDF文件提取出句子和单词,所提取的句子之间的关系以网络图的形式构建出来。Rajman等[8]提出了一种采用文本数据挖掘技术进行知识抽取的对策,他们提供了两个可以从文本集合中提取信息的示例——关键字和原型文档实例的概率关联,同时,该文章表明了自然语言处理技术在知识抽取应用中至关重要。Alani等[9]按文档检索、实体识别和提取过程等步骤,利用预定义的本体从文档中自动提取知识,在知识抽取过程中,采用了多种自然语言处理技术,句法分析、语义分析和关系抽取,而且已经得到了很好的结果。翟社平、段宏宇等人[10]通过采用一种基于RNN网络的变种BiLSTM_CRF网络结构实现了实体提取技术,在使用双向短时记忆网络BiLSTM提取文本信息时,又利用CRF技术对序列标注之间的关系进行表示,实验表明该方法可以获得很好的结果。Peter Clark和Phil Harrison等[11]通过创建“元组”数据库来研究知识提取,从而捕获简单的单词知识,然后用它来改进文本潜在的语义规则的语法分析和可信性评估。Parikh[12]提出了一种学习语义解析的方法,用于提取带或不带注释文本的嵌套事件结构,此方法背后的思想是将注释构建为潜在变量,并合并与事件语义解析匹配的先验知识。

伴随着“互联网+5G”的蓬勃发展,人们的思想和生活理念会发生天翻地覆的变化,5G所影响的将是全产业、全链条的技术创新,不仅是日常生活到工业生产的变化,文化娱乐、智能驾驶、教育医疗都会发生深刻的变化,5G的影响将随处可见。构建网优知识的知识图谱对5G的发展起到极大的推动作用,对网优专家以及工程人员及时获取5G相关的知识起到至关重要的作用。根据我们的设想,网优专业以及工程人员无需去阅读所有的协议,只需要懂得查找并及时获取相关的知识即可,所以要求知识图谱抽取的知识是在有限的时间里提供给用户简洁且容易获得的信息。

本文通过自然语言处理技术,对5G协议进行数据处理,通过自然语言处理相关技术构建网优领域的知识图谱,通过智能搜索技术实现搜索引擎,查找相关的协议内容和知识,并且对比了深度学习实体提取算法的优劣,最后选择了BiLSTM-CRF进行知识提取。此外,知识图谱的构建方便了网优人员进行参数查询和自主学习,并取得了令人满意的结果。

1   基于知识图谱的5G协议检索

目前,知识图谱的构建形式,一般有两种形式,其中,自顶向下方式需要通过构建好的知识库进行提取出实体和关系的基本模式,然后再从新的数据源中抽取出正确的实体和属性,合并到已定义好的概念体系当中[13-15],但这种构建知识图谱的方式相对简单。例如,Google在初期为了保证知识的准确性和高效性,很多数据都是从Freebase数据库中获取的;DBpedia则是基于维基百科大规模数据的基础上构建完成的。然而,随着深度学习等知识提取技术的快速发展,逐渐形成了以自底向上为主的构建形式,这种构建知识图谱的方式,实体和关系抽取更高效,其构建的图谱叶更加完善且丰富,Knowledge Vault[16]就是采用该深度学习的方式进行构建知识图谱的典型例子,对现存的图谱进行了填补和完善。

1.1  5G协议检索架构设计

网优领域的知识图谱是为了让网优人员都能获取专业领域的知识,因此,网优知识图谱应针对网优领域的知识进行构建,而且领域中有组织有结构的数据更容易获取准确的三元组。在研究分析网优领域的数据时可以发现,网优领域知识难度大,即使是工作多年的工程师也会存在技术短板,因此现有结构化数据十分缺失,收集较为困难,所以,可信度較高的5G协议知识作为基础数据源,本文将采用多种方式来构建网优知识图谱,本文的构建流程图如图1所示:

本节介绍系统的总体思路及架构,该架构主要由如下几个部分组成:数据格式转化、数据处理、知识整理模块、数据库存储的转化模块、知识融合模块、知识库引擎模块、前端用户交互模块等。

该流程首先通过文档数据进行预处理,再进行知识图谱的知识整理,包括实体提取,关系提取和属性提取,然后再针对定义好的专业领域数据中的相关知识,经过知识融合的本体对齐和实体匹配等操作进行网优知识图谱的构建,并用图数据库进行储存。由于网优知识图谱主要为网优工程人员提供服务,对图谱中的实体和关系的准确性提了很高的要求,因此本文在分析5G协议数据源之后,考虑到网优领域知识的难度大等特点,通过对文本结构以及网优术语及其之间关系进行三元组构建,确定网优核心概念,构建网优领域的知识图谱。

1.2  图数据库Neo4j实现知识搜索

表1为几种不同的数据库对比,经过对比,Neo4j图数据库有如下优点:高可用性,实时数据分析,轻松检索,Neo4j不仅可以可视化显示,而且还可以比较容易地实现检索(遍历/导航)其他数据库中的连接数据,具有查询速度快,代码量少等优点,因此,该系统采用通用的图数据库Neo4j作为存储数据库,在数据经过处理后以三元组的形式表达的元素作为基本输入构建知识图谱。搜索引擎是知识图谱最典型的应用之一,其目的是协助工程人员通过所输入的关键字获取所需要的信息,本文以Neo4j为知识搜索引擎,该系统主要实现以下查询功能:实体查询,显示关系以及对应的实体;查篇名,显示文档的内容以及关系;查术语,显示相关的关系以及对应的实体。

2   构建5G协议检索知识图谱

2.1  基于知识图谱的数据处理流程

该系统结合了自然语言数据处理技术和图数据库,也提供了结果的可视化功能,从数据上说,本文的方法是与数据处理和领域专家知识相结合的(如图2),显示了数据处理流程。

该模型包含了如下步骤:

(1)从数据文档转化为HTML格式文件;

(2)对HTML格式文件进行分析,分析HTML中需要提取出的内容;

(3)对数据进行前处理;

(4)抽取出标题,相关的内容以及术语的实体等;

(5)本体构建,建立三元组关系;

(6)对数据进行融合;

(7)存储数据,并可视化数据。

本文所采取的数据来源于5G协议,针对5G现有的规范化协议,采用了1 500多份协议进行研究,这些协议是word.doc格式,所以不得不从doc文件格式中抽取信息,为了提取文本的结构,因此先将word.doc格式转化为HTML格式进行处理,利用win32com库实现文档的自动转化。

对数据进行前处理的过程中,先要对数据进行分析,并分析数据结构,观察提取的内容所在位置以及标签,本文采用BeautifulSoup进行HTML解析,预处理时需要对标签等噪声进行移除,因为部分标签都是不需要的信息,并且还会引起干扰,容易形成噪声,所以忽视相关的噪声。

2.2  基于知识图谱的实体提取

本文的实体抽取部分采用了两种方式:一种是基于文本结构的实体提取方法,提取文章中的结构,以便更好的查询文章以及内容,该方法相对较简单,主要通过word转化为HTML后的结构进行提取,HTML的结构都是带有标签,可以通过python提取标签及内容进行提取。

第二种方式是基于深度学习的BILSTM+CRF方法进行实体提取,长短时记忆模型网络被称为LSTM,是一种变种的RNN,理论上,RNN可以利用任意长序列中的信息,但在实践中,它们只能往回看几个步骤。长短期记忆(LSTM)网络是循环神经网络的改进版本,它使记忆中更容易记住过去的数据,它不仅解决了RNN的消失梯度问题,而且非常适合于对未知时间滞后的时间序列进行分类、处理和预测。此外,LSTM的核心是使用隐藏状态来保留通过的输入信息,但一个LSTM只能从左到右获取信息,而语义关系到上下文的信息,因此,双向的循环神经网络(Bi-LSTM)应运而生。在向后运行的LSTM中,保留了将来的信息,并且两个隐藏状态相结合能够在任何时间点上保存过去和未来的信息,它们都适合非常复杂的问题,但是Bi-LSTM表现出了很好的结果是因为它可以更好地理解上下文,能够通过同时考虑到上下文的语义信息。双向LSTM正是基于这样一种思想,即t时刻的输出可能不仅取决于序列中先前的元素,还取决于未来的元素,例如,要预测一个序列中缺失的单词,需要同时查看左右上下文,双向网络非常简单,它们只是两个重叠在一起的神经网络,因此本文采用BiLSTM+CRF进行命名实体识别,并且采用了预先训练好的词向量模型,将文本映射到300维空间中,并且采用BIO进行数据标注。此外,本文也采用了BERT-BiLSTM-CRF进行了命名实体识别计算,但经过对比发现,BERT-BiLSTM-CRF与BiLSTM-CRF相差无几,但是需要使用GPU进行训练,消耗了大量的资源,而BiLSTM-CRF在CPU上即可训练,所以BERT-BiLSTM-CRF并无太大的优势,因此本文选择使用BiLSTM-CRF进行训练,采用准确率P(Precision)和召回率R(Recall)作为评价标准,计算公式分别为:

2.3  基于知识图谱的关系提取

本体原来是指一个哲学概念,指的是对客观机制的解释和描述:一个决定名词概念和物质关系的模型,本体的实体是一个类别,其所代表的节点就是类的一个例子,本体的关系是表现类型的关系,类型的关系类型远比不上本体的关系类型,本体代表了许多具体的概念,如:实体、关系、对象节点、数据节点等。本体设计包含概念、关系以及实体的设计,概念是包含全部实体的统称。该系统有标题概念,关键术语概念等,关系主要包括主次关系以及从属关系,从属关系包含父与子概念之间的关系和概念与实体之间的关系,实体是概念中的一个个体。例如,术语中的每个术语都是该概念的实体;本文主要构建两種格式的三元组,一种是文章的结构,即标题和内容,每级标题之间的关系等,第二种是术语的属性以及关系。表3列出了一部分知识图谱三元组以及属性和关系:

2.4  基于知识图谱的数据融合

在数据预处理阶段,初始数据的质量会直接影响到最终链接的结果,不同的协议数据集对同一实体的描述方式往往是不相同的,一个实体可能有多种不同的表示方式,他们只是对知识进行了不同的表述,基于实体属性的实体对齐方法通过计算实体的名字属性中字符串的相似度来判断实体是否相同以及在相关的内容中进行判断实体之间的相似性,相似度主要通过Cosine距离、Jaccard相关系数等方式进行计算:

3   结果可视化

构建的网优知识图谱是以5G协议作为基础知识大纲,主要涉及一些网优术语以及相关的协议要求,知识图谱就是将网优知识进行组织整理,整合的目的是使工程人员更容易理解,能更好地挖掘和呈现知识。本文基于图数据库Neo4j实现了搜索引擎功能,方便了工程人员进行知识搜索。本文采用Neo4j图形数据库对知识图谱进行存储,并对其可视化,图3显示了网优知识图谱构建的部分示例。

此外,5G协议数据也是随时更新版本,因此,知识图谱也需要随时更新,但5G协议通常会更新一部分协议,而另一部分未更新,所以,对更新版本的5G协议数据,对数据进行预处理并以三元组的JSON文件形式进行储存,经过质量评估之后将三元组作为新增知识,并替换掉旧版本的5G协议数据,再依据Cypher语言进行实体和关系的建立,对已构建的网优知识图谱进行更新或修正。

4   结束语

本文利用数据进行转化、预处理、信息抽取和实体融合、知识图谱的更新迭代等方法,构建了网优领域知识库,实现了5G协议的知识引擎搜索功能,构建了各种术语的概念、属性以及相互之间的关系和协议文本结构间的关系,并实现了5G协议的知识引擎搜索功能,便于网优工作人员的查找和理解。本文所提出的模型适用于特殊领域因标注数据较少,文档数据较难提取而导致无法构建知识图谱的场景。此外,本文也可以推广到网优其他领域进行知识图谱构建,比如网优根因定位等问题,在下一步的研究计划中,可以从两方面对该系统进行改进,第一:建立5G协议术语之间更多的关系,补充知识图谱,使知识图谱更加准确和完整;第二:增加知识推理规则,能提高知识的精准度,而且利用规则建立更多的关系。

参考文献:

[1]    JENS LEHMANN, ROBERT ISELE, MAX JAKOB, et al. DBpedia-A Large-scale, Multilingual Knowledge Base Extracted from Wikipedia[J]. Semantic Web Journal, 2015,6(2): 167-195.

[2]    GEORGE A, MILLER. WordNet: a lexical database for English[J]. Communications of the ACM, 1995,38(11): 39-41.

[3]     VOLHA BRYL, CHRISTIAN BIZER. Learning conflict resolution strategies for cross-language Wikipedia data fusion[C]//In Proceedings of the companion publication of the 23rd international conference on World wide web companion, International World Wide Web Conferences Steering Committee. Geneva, 2014: 1129-1134.

[4]   FARZANEH MAHDISOLTANI, JOANNA BIEGA, FABIAN M, et al. YAGO3: A Knowledge Base from Multilingual Wikipedias[C]//The Semantic Web-ISWC 2016. Cham, 2016: 177-185.

[5]   ANTOINE BORDES, EVGENIY GABRILOVICH. Constructing and Mining Web-scale Knowledge Graphs[C]//In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, 2014: 1967.

[6]    DONG C, ZHANG J, ZONG C, et al. Character-based LSTM-CRF with Radical-level Features for Chinese Name Entity Recognition[J]. Natural Language Understanding and Intelligent Applications, 2016: 239-250.

[7]   M GANZHA, L MACIASZEK, M PAPRZYCKI. Semantic Knowledge Extraction from Research Documents[C]//In Proceedings of the 2016 Federated Conference on Computer Science and Information Systems. Gdańsk, 2016: 439-445.

[8]    MARTIN RAJMAN, ROMARIC BESANCON. Text mining-Knowledge extraction from unstructured textual data[C]//In Proceedings of the 6th Conference of the International Federation of Classification Societies. Roma, 1998: 473-480.

[9]    ALANI, HARITH, KIM, et al. Automatic Extraction of Knowledge from Web Documents[C]//In 2nd International Semantic Web Conference Workshop on Human Language Technology for the Semantic Web and Web Services. Florida, 2003: 634-640.

[10]  翟社平,段宏宇,李兆兆. 基于BILSTM_CRF的知識图谱实体抽取方法[J]. 计算机应用与软件, 2019,36(5): 275-280.

[11] PETER CLARK, PHIL HARRISON. Large-Scale Extraction and Use of Knowledge from Text[C]//In Proceedings of the fifth international conference on Knowledge capture. USA, 2019: 153-160.

[12]  ANKUR P PARIKH, HOIFUNG POON, KRISTINA TOUTANOVA. Grounded Semantic Parsing for Complex Knowledge Extraction[C]//In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver, 2015: 756-766.

[13]   刘峤,李杨. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016,53(3): 582-600.

[14]   WANG C, GAO M, HE X, et al. Challenges in Chinese knowledge graph construction[C]//IEEE 2015 31st IEEE International Conference on Data Engineering Workshops. South Korea, 2015: 59-61.

[15]  WANG Y, YOU W, ZHANG W, et al. Knowledge graph construction method and device[J]. US Patent Application, 2019,16(34): 799.

[16] DONG X, GABRILOVICH E, HEITZ G, et a1. Knowledge vault: a web-scale approach to probabilistic knowledge fusion[C]//Proc of the 20th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York, 2014: 601-610.

猜你喜欢
知识图谱搜索引擎深度学习
MOOC与翻转课堂融合的深度学习场域建构
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
网络搜索引擎亟待规范
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析