杨媛媛
本刊核心层次论文
领域知识图谱的基本概念与构建特点
杨媛媛
(渤海大学 文学院,辽宁 锦州 121013)
知识图谱作为人工智能发展的基础性内核技术,逐渐成为计算语言学与自然语言处理研究的热点问题。对领域知识图谱的基本概念和构建特点进行系统梳理,对领域知识图谱的理论与实践研究具有一定价值。本文对领域知识图谱的基本概念、主要特点、发展历程、构建流程等内容进行了描写和分析。在梳理领域知识图谱取得的研究成果的基础上,总结了目前领域知识图谱构建的主要特点:数据来源和数据处理具有较强的领域特性,关系抽取是领域知识图谱构建的关键技术问题,领域知识图谱构建需要领域知识与构建技术的深度融合。
领域知识图谱;知识图谱;构建;特点
国家“十四五”发展规划明确将科技自强作为国家发展的重要战略任务,将人工智能列为最高级别优先发展的对象。《国务院办公厅关于全面加强新时代语言文字工作的意见》明确提出“大力推动语言文字与人工智能、大数据、云计算等信息技术的深度融合。”知识图谱作为基础性内核技术,是人工智能得以实现的重要基础。2012年,搜索引擎巨头谷歌公司最早提出了“知识图谱”的概念。知识图谱的出现,为传统信息检索带来了巨大的变革,让人们看到了信息检索所可能达到的最简洁、直接的效果,也让人们看到了相关问题的无限延伸,意识到知识库规模的重要性。继谷歌之后,各大互联网巨头纷纷构建了自己的知识图谱,国外如Freebase、WikiData等;国内如百度知心、搜狗知立方等。目前,世界各大公司都在不断扩充自己的知识图谱规模,使其包含的实体规模数量更大,关系更复杂,体系更完备。与覆盖各个领域的通用知识图谱相比,专注于某一特定领域的领域知识图谱所需实体数量规模和关系搭建难度相对降低。各个领域都在构建自己的知识图谱,并试图将其应用在专业领域来解决实际问题,如医疗、金融、地理、军事、政治、语言、旅游等领域。目前各领域知识图谱构建都有了初步探索,并取得了一定成果。
“知识图谱”产生于语义网(Semantic Web)的快速发展,其本质内涵是语义网的延伸和扩展。20世纪中后期,计算机科学领域的专家学者普遍发现,使用图形来表示知识更便于知识的表达和理解。随着学者们逐渐认识到语义关系在计算机信息处理中的重要性,将图论与语义关系构建相结合的语义网络便应运而生。语义网络,是用网络表示不同实体和概念之间语义关系的一种形式,通常以图的形式表现出来。
“知识图谱”正是在语义网络的基础上发展起来,其本质是一种使用图形表示知识之间关系的知识表示形式。与语义网络相比,知识图谱所覆盖的知识范围更大,关系更复杂。“知识图谱”主要由实体和关系构成。实体就是一个确切的对象,每个实体都会有很多属性,比如“梅西”是一个实体,属性包括身高、生日、国籍、所属俱乐部等。实体是相对独立的,而属性往往依附于实体,有时实体的某个或多个属性,也可以是一个或多个独立的实体,比如“梅西的家人”对应了父亲、母亲、哥哥、姐姐等,在每个称谓都对应了一个实体的同时,这个称谓本身就是一种属性。关系则包括实体与属性、实体与实体、属性与属性之间各种各样的联系。关系是形成知识图谱的关键,基于知识图谱的检索系统正是通过遍历每个节点寻找它们之间的语义关系,从而锁定检索目标。
知识图谱分为通用知识图谱和领域知识图谱。通用知识图谱中的实体与关系覆盖范围广,能够满足人们日常对各个行业、各种知识的检索。领域知识图谱只服务于特定的研究领域。
通用知识图谱与领域知识图谱的主要区别就是实体的范围。领域知识图谱在构建过程中,只构建特定领域内的实体,实体之间的关系描述与抽取则需要熟练的专业知识作为支撑。同时,领域知识图谱通常为解决特定领域内专业人员的检索需求而构建,具有很强的针对性,服务特定领域和特定人群,如双语旅游知识图谱、区域地理知识图谱、政治领域知识图谱等。领域知识图谱的上位概念是行业知识图谱,多个精专的研究领域构成了特定行业。行业知识图谱的规模通常比领域知识图谱更大,知识覆盖的广度更大。
“知识图谱”从诞生之初的通用知识图谱(General-purpose Knowledge Graph),到行业知识图谱,再到领域知识图谱(Domain-specific Knowledge Graph),这一系列知识图谱的产生和构建,体现了人工智能为了满足人们对知识和知识表示形式不同层面的需求而取得的一系列成果。与通用知识图谱相比,领域知识图谱具有以下特点:
领域知识图谱与通用和行业知识图谱相比,最突出的特点是具有领域专业性,这种专业性主要体现在知识表示的深度与粒度上。领域知识图谱根据具体需求可以达到更深的知识层面,比如我们最熟悉的电商领域,相对“裙子”这个通用概念,“日系夏季新款百搭气质优雅收腰显瘦小个子中长款修身连衣裙”在通用概念的基础上,进行了精细化分类,从各个分类角度对实体进行描述与定位,从而为搜索引擎提供了更多的检索链条。有时人们对于深度的认识不能达成一致,即使在相同的学科背景之下,对于一些概念或知识点的分层,学者们存在一定的分歧,这种主观认知上的差别是领域知识图谱构建所面临的主要困难之一。
领域知识图谱所覆盖的知识粒度也更细,知识图谱内部的知识单位,可以是一个几十页的文件,几百字的段落,或只有一个汉字的关键词。领域知识图谱为了满足专业的检索需求,其粒度往往要覆盖到具体知识点,甚至一个知识点的下位概念、相关概念、相关概念的下位概念等。如,医学领域知识图谱,关于一种疾病的知识表示,包括它发生的部位、产生症状、对应检查、并发疾病、治疗方式、治疗药物、相关流行病、社会学调查等一系列知识单位。每个知识单位继续层层展开分类,直到具体的关键词为止。正是因为领域知识图谱所覆盖的粒度更细,粒度之间的联系更加复杂、多维,才能满足专业领域的深度检索需求,解决更专业的问题。
“知识图谱”的诞生要追溯整个人工智能的发展历程。作为人工智能庞大体系中的一个组成部分,知识图谱是人工智能在大数据时代发展的重要突破。人工智能研究的终极目标是使计算机像人脑一样,不仅仅能够处理简单的计算和推理,并且能够完成类似人类大脑通过思考来处理问题的一系列复杂任务。
人工智能兴起之初,学者们并没有像现在这样认识到知识的重要性,而是侧重于使用符号构建各种各样的推理模型。面对某一特定问题,通过构建模型和数据的推导来得到一个结果,这就是答案。这种推理方式可以说是冷酷无情的,将互联网中所有的信息转化为格式化数据,所有信息的关系依靠运算符号进行推导和归纳,这种数据化的结构方式忽略了信息本身的特性,突出的是结构化的共性。
随着人工智能的发展,当信息处理发展到一定程度,仅依靠单一化、绝对化的符号处理不能体现庞大、多元、复杂的结构关系,也无法充分体现数据的本质特性之后,学者们逐渐认识到“知识”的重要性。“知识”体现在两个方面:
第一是结构化数据背后所隐藏的信息的特有属性和知识价值;
第二是模拟人脑所具有的,使用已经获得的知识进行相关推理的能力。让计算机能够像人脑一样具有相关知识的识别和推理能力,而不是单纯通过构建模型进行数据推导,使人工智能发展到了一个新的阶段。
这种让计算机具有领域专家一样的知识推导能力的思想叫作“知识工程”。“知识工程”的核心思想是让计算机具有专家级别的知识体系,构建“专家系统”。在专家系统的构建工程中,这些门类复杂的知识如何有效地表达出来,是一个关键问题。海量知识的存储和表示,是构建知识之间推理关系的重要前提。
因此,寻找一种能够准确、高效地完成知识表示的方法是推动知识工程构建的关键步骤。知识表示是将来源于现实世界的具体信息转换成结构化数据,以便实现后期知识推理。而现实世界中的海量信息语义关系复杂,逻辑关系层次混乱,常常需要专业的分析和思考。为了解决知识表示所面临的困难,学者们尝试了多种知识表示的方法,语义网络就是其中一种,此外还包括谓词逻辑、决策树、贝叶斯网络、马尔科夫逻辑网等[1]。
知识图谱就是在这些方法的基础上诞生的知识表示方法之一。但知识图谱诞生之初,就有着与传统知识工程的知识表示方法本质的区别。知识图谱兴起于大数据时代,互联网的高速发展催生了用户对数据规模的需求,这就要求新的知识表示方法,能够适用于具有庞大数据规模并且处于不断更新之中的大数据网络。
2012年谷歌公司推出了知识图谱,这种全新的知识表示形式更新了传统的知识表示,扩大了知识工程的规模,打破了传统知识工程中既定专家系统的边界,满足了大数据时代的互联网信息检索需求。知识图谱诞生于大数据时代,根植于互联网系统,以大规模的知识表示为主要任务。作为大数据时代知识工程的代表性方法,其突出特点是融合了互联网所生成的内容,包括网站、网页、论坛、百科以及各种信息来源和各种形式的信息。这些来自用户的海量信息以极大的开放性、复杂性和超乎想象的速度日益增长,面对如此巨大的信息规模,基于互联网的知识图谱的构建面临着巨大的挑战,同时也具有极大的应用价值。
领域知识图谱的核心要件是海量的实体和多维复杂的实体之间的关系,因此构建知识图谱的工作主要分为实体识别和抽取实体之间的两大关系。
实体识别是构建知识图谱的基础性工作。实体是构成知识图谱关系网络的个体,拥有足够数量的实体才能构成规模性知识图谱。实体识别是在来源各异、形式多样的海量信息中将具体的时间、地点、任务、学科等实体信息识别出来。根据构建需求,实体的识别可以达到不同的粒度,如机构的识别,就有“中央民族大学”和“中央民族大学中国少数民族语言学院蒙古语言文学系”两种不同的粒度,识别的层次分别是学校名称和具体院系名称。实体识别的方法主要有两种:
一种是制定好规则或者固定的模板,并配合一定的人工参与,比如“大学”这个字段前面的内容就是一个特定机构的名称,“大学”就是模板之一。而规则的制定是需要丰富的语言学知识的,需要一定的人工参与。这种方法的特点就是高度依赖模板和规则,前期模板描写和规则制定需要大量的准备工作。
另一种方法就是依靠机器学习,通过训练模型对目标文本进行自动标注和识别。根据具体的需求,构建标签体系,对目标文本中的每个词语进行标签标注,使用各种特征进行模型训练,从而完成标注,实现实体识别。比较经典的训练模型包括隐马尔科夫模型(HMM)、条件随机场模型(CRF)和深度学习模型。
实体之间关系的抽取是构建知识图谱的核心内容。通过实体之间关系抽取和搭建才能形成规模性网络,从而实现智能推荐和立体检索。实体之间关系的抽取方法,与实体识别类似,主要有两种:
一种是依靠触发词或依存句法匹配的方法,这种方法类似于使用固定模板,即出现特定的触发词,就进行关系抽取;或者对目标语句进行分析,将分析结果与依存语法规则匹配,匹配成功就生成一组实体与关系。这种方法的实质是依靠前期丰富的触发词和大量的依存语法规则的制定,后期只需要进行简单的匹配就能得到结果。其优点是操作简单,结果准确;其缺点是前期模板的构建工作量大,规则库一旦构建,可调整性差。
另一种方法是依靠机器学习,训练模型实现自动抽取的方法。为了达到自动抽取,尽量减少人工标注和人工设计特征的目标,实体关系抽取的机器学习模型从传统的有监督学习使用特征标注的最大熵模型、核函数方法中的句法树、SPT最短依赖路径树、上下文相关的最短依赖树等思想,到递归神经网络、卷积神经网络、图神经网络等深度学习关系抽取模型,以及不断提出的不满足于深度学习大量标注而提出的半监督抽取方法。实体关系自动抽取的方法经历了一系列的演变和发展[2]。
与通用知识图谱相比,领域知识图谱的数据来源具有较强的领域特性。这种特性主要体现为数据的专深性,是由领域知识图谱的性质决定的。在目前的领域知识图谱构建研究中,大多数研究集中在某一特定领域的具体方向上。因此,与通用知识图谱相比,数据来源的范围相对狭窄,只针对特定研究方向的特定问题;同时数据来源的深度相对延长,往往需要具有专业背景的专业人士进行前期的数据选取和加工处理。如,医学领域的疾病名称、药物名称、病理体系[3-5],语言学领域甲骨文的字际关系[6-7]、汉语与外语或少数民族语言之间跨语言的同源词对应[8],军事安全领域的情报获取与反恐感知,政治领域的事件划分与事理推断[9],地理领域的位置数据和时空转换[10],司法领域的罪名判断,电商领域的商品信息对应[11],海关领域的商品甄别,农业领域的虫害信息等。领域内部专业知识的获取,除了使用网络爬虫对相对应的网络页面进行爬取之外,还要对获得的文本信息进行人工地分析和筛选,去除研究主题无关的干扰项。
领域知识图谱的数据来源具有较强的领域特性也体现在实体抽取中。对来源数据进行数据清理以后,领域知识图谱构建的基础工作是对数据库中的实体进行识别和抽取,哪些命名实体是构建领域知识图谱的主体,是实体抽取的主要对象,实体和它的各个属性信息之间是怎样的对应关系,实体与实体之间的关联关系,都需要在抽取工作开始之前,进行系统地整理和规范。而这些实体、属性、关系之间的规则建立则需要由具有专业背景和领域知识才能完成,与通用知识图谱中的通用知识有着本质区别。
所以,在领域知识图谱构建的前期,在构建领域知识库的过程中所有涉及到数据文本的处理问题都体现出较强的领域特性,是领域知识图谱构建的主要特点之一。
不论是通用知识图谱还是领域知识图谱的构建,都围绕着实体、实体的属性、实体之间的关系这三个核心元素展开。在知识图谱的构建过程中,人们通常将这三者从海量信息中抽取出来,构成一个实体的三元组。同一个实体的属性通常是多元的,具有很强的扩展性,是否将实体的所有属性信息在海量的信息中全部抽取出来,或者只是有选择地进行抽取和组合,是构建知识图谱的另一项至关重要的决定。因为同一个实体所选定的属性数量的多少,将同时决定实体与实体之间关系的数量、关系的种类、关系的层次等等。而知识图谱构建工作的关键技术问题就是在海量的实体与属性信息中,抽取那些显性的或隐性的语义关系。
领域知识图谱构建的主要技术问题包括知识抽取、知识表示、知识融合与知识推理。这四个主要技术问题实际上是领域知识图谱构建的四个主要步骤,它们都是围绕着知识图谱的核心——实体关系展开的。不论是知识抽取、知识表示还是知识推理,这几项工作的处理对象都是实体和属性信息之间的语义关系。而在这三项对实体和属性信息关系的处理工作中,实体和属性信息的关系抽取是核心基础工作,不论是知识表示还是知识推理都是在前期的关系抽取的基础上完成的。因此,关系抽取工作的结果,将直接影响后期知识表示和知识推理的质量和层级。关系抽取是领域知识图谱构建的关键技术问题。
在面向各领域的知识图谱构建中,针对各领域的具体的实体关系,提出了不同的关系抽取框架和模型。传统的关系抽取方法主要是人工制定语义规则或模板,随着自然语言处理技术的发展,关系模型逐渐取代了人工定义的规则。目前,在领域知识图谱构建中常用的关系抽取方法主要包括马尔科夫逻辑网和本体推理等。马尔科夫逻辑网MLN(Markov logic network)[12]是一种基于关系学习框架的实体关系抽取模型,该模型融合了马尔科夫网络与一阶逻辑。在马尔科夫逻辑网的基础上,提出了各种各样针对实体关系抽取的改进模型,包括可自动生成抽取器的StatSnowball模型[13]、将关系抽取与实体识别结合的EntSum模型[14]、简易马尔科夫逻辑模型[15]等。
这些关系抽取的框架和模型,随着大数据时代计算机技术和人工智能的快速发展而不断改进,没有一种框架和模型是一成不变的。针对不同具体领域的数据特征,调整模型和参数,从而促进了领域知识图谱关系抽取技术的全面发展。
领域知识图谱的构建是在知识图谱构建技术与领域知识进行深度融合的基础上完成的,与通用知识图谱相比难度更大。与领域知识深度融合的知识图谱构建,从数据获取、数据清洗、规则建立等基础性工作,到信息抽取、知识表示、图谱可视化等一系列工作中都要对领域知识进行有针对性地处理。例如,地理领域知识图谱的构建,必须充分考虑地理领域知识的特性。地理空间数据是地理领域知识图谱数据区别于其他领域知识图谱的主要特征。除了一般领域知识图谱构建需要的实体属性、语义关联之外,还要抽取地物的空间方位等地理语义特征。
来自通用知识库的属性信息只能提供地物的一般语义特征,如名称、长度、宽度、坐标,以及与其他地物之间的关系等;而地理空间信息则包括地物的空间方位信息,如东南西北、穿过、邻接、覆盖、远近等。此外,地物的空间特征具有几何形状与空间关系两重特征。几何形状如点(车站)、线(道路)、面(行政区域);空间关系包括方位(东、南、西、北)、拓扑(相等、相离、邻接、相交、穿过、在之内、覆盖)、距离关系(远、近、非常近、非常远、中等)[16]。因此,地理领域知识图谱的构建,在实体抽取和关系抽取中,除了属性和语义关系的抽取,还要进行空间关系的抽取,并将地理空间知识与通用知识进行知识融合,实体对齐,属性融合,从而构建领域知识图谱。除此之外,地理领域知识图谱在关系抽取过程中,在处理语义信息的基础上,还要处理位置信息[17]。这使得地理领域知识图谱的实体构建和关系抽取工作量更加繁重复杂。构建一个地理领域知识图谱的工程要大大超出其他领域知识图谱,融合了位置信息和语义信息的实体关系变得更加复杂,很多时候要将各种关系进行分层处理。这使得实体之间的关系链条大大增加,在显性关系的基础上补全隐性的、需要进一步推理的实体关系,对实体之间的链接进行预测和补全是地理领域知识图谱构建技术关注较多的问题[18]。
此外,政治领域、医学领域、电商领域、法律领域等各领域知识图谱的构建都要对领域知识与构建技术进行深度融合,充分考虑到具体领域知识在语义表达上的突出特征,并将这些特征进行充分和完整地表达,从而构建具有领域特色的知识图谱。但深度融合了领域知识的知识图谱构建,在技术上和工程上所面临的难度和挑战也更大。因此,很多领域知识图谱构建的研究并不聚焦于整个领域知识图谱的构建工作,而专注于领域知识图谱构建微观技术的实现,如基于实体关系的知识补全、链接预测、知识推理模型、算法改进等。这些专注于关系抽取或知识表示的细微技术的改进对领域知识图谱的构建有着重要意义。正是在每一次技术和方法改进的技术上,这种领域知识与构建技术的深度融合才得以实现。
[1] 肖仰华. 知识图谱概念与技术[M]. 北京: 电子工业出版社, 2020: 10.
[2] 陈华均. 知识图谱导论[M]. 北京: 电子工业出版社, 2021: 64-83.
[3] 刘道文. 基于多源知识图谱融合的智能导诊算法[J]. 中文信息学报, 2021, 35(1): 125-134.
[4] 龚乐君, 杨璐, 高志宏, 等. LncRNA与疾病关系的知识 图谱构建[J]. 山东大学学报, 2021, 51(2): 26-33.
[5] 谭玲. 医学知识图谱构建关键技术及研究进展[EB/OL]. (2021-03-08)[2022-02-23].https://kns.cnki.net/kcms/ detail/10.1321.g2.20210428.0849.002.html
[6] 熊晶, 钟珞, 王爱民. 甲骨文知识图谱构建中的实体关系发现研究[J]. 计算机工程与科学, 2015, 37(11): 2189- 2194.
[7] 蔡鸿博. 基于上位词的中文实体关系图谱构建[D]. 哈尔滨: 哈尔滨工业大学, 2014.
[8] 冯小兰, 赵小兵. 汉藏双语旅游领域知识图谱系统构建[J].中文信息学报, 2019, 33(11): 65-72.
[9] 贺博驿. 思政领域知识图谱构建与系统实现[D]. 武汉: 华中师范大学, 2020.
[10] 刘俊楠, 刘海砚, 陈晓慧, 等. 面向多源地理空间数据的知识图谱构建[J]. 地球信息科学报, 2020, 22(7): 1476-1486.
[11] 王思宇. 基于知识图谱的在线商品问答研究[J]. 中文信息学报, 2020, 34(11): 104-112.
[12] DOMINGOS P, LOWD D. Markov logic: an interface layer for artificial intelligence[M]. San Rafael, CA: Morgan & Claypool, 2009: 24-30.
[13] ZHU Jun, NIE Zai-qing, LIU Xiao-jiang, et al. Stat-Snowball: a statistical approach to extracting entityrela-tionships[C]//Proceedings of the 18th International Con-ference on WorldWideWeb. Switzerland: WWW 2009: 101-110.
[14] LIU Xiao-jiang, YU Neng-hai. People summarization by combining named entity recognition and relation extraction[J]. Journal of Convergence Information Te-chnology, 2010, 5(10): 233-241.
[15] DOMINGOS P, WEBB A. A tractable first-order probabilistic logic[C]//Proceedings of the 26th AAAI Conference on Artificial Intelligence. San Francisco, CA: AAAI, 2012:1902-1909.
[16] 段鹏飞. 基于空间投影和关系路径的地理知识图谱表示学习[J]. 中文信息学报, 2018, 32(3): 26-33.
[17] 李恒. 地理社会网络数据可视化分析研究综述[J]. 中文信息学报, 2018, 32(10): 11-18.
[18] 张宁豫. 基于位置的知识图谱链接预测[J]. 中文信息学报, 2018, 32(4): 80-86.
H17
A
1674-327X (2022)03-0057-05
10.15916/j.issn1674-327x.2022.03.014
2022-01-14
国家社科基金青年项目(17CYY044); 辽宁省哲学社会科学青年人才委托项目(2022LSLWTKT-059)
杨媛媛(1986-),女(满族),辽宁锦州人,讲师,博士。
(责任编辑:付春玲)