李欣宇,赵 震
(渤海大学 信息科学与技术学院,辽宁 锦州 121013)
在信息化发展迅速的今天,众多通用知识图谱和特定领域知识图谱应运而生。但随着网络上不断增加的数据量,针对一词多义和多词一义的语言现象,如果双方对于同一事物的理解不一致,就会造成非常多的误解和问题。如何确定某个实体指向的精确实体概念就变得更加重要,这也就是实体消歧的主要研究内容。实体消歧是自然语言处理中的一项基础环节,如何提高实体消歧准确率,解决实体消歧的难点问题,已经成为各领域当前的研究重点。
该文主要的工作内容如下:
(1)对国内外研究现状进行分析,并整理了命名实体识别、候选实体生成等实体消歧相关研究理论。
(2)介绍了实体消歧的具体含义及其研究内容,同时以一个新颖的角度对实体消歧方法进行综述,详细阐述了基于全局和局部特征的实体消歧、基于上下文特征的实体消歧和基于字符串相似度的实体消歧方法。
(3)详细描述了实体消歧领域存在的难点,对实体消歧方法的优缺点及评价指标进行了总结,同时对如何提高实体消歧的准确率进行了讨论。
(4)对实体消歧领域的应用及未来发展进行了总结。
总体框架如图1所示。
图1 总体框架
在Web of science上对字段“Entity Disambiguation”进行检索,如图2所示,分析检索结果得到:第一,中国学者们对实体消歧相关研究发表的文章数多于外国,说明相比国外,中国对实体消歧的相关研究更加感兴趣。第二,国外对实体消歧相关研究的文章最早发表于2013年,近十年发表的文章总数呈上升趋势,说明实体消歧已经成为外国学者们越来越关注的研究内容。
图2 实体消歧国内外研究趋势
同时,在中国知网上对关键词“实体消歧”进行检索,如图3所示,分析检索结果得到:2008年中国发表首篇实体消歧相关的文章,2020年的发文量达至顶峰。2008年至今,总体上看中国学者们在实体消歧研究领域的发文量呈上升趋势,但近三年文献数量显著减少,说明中国学者们也更加关注实体消歧领域的相关研究,但是近三年对实体消歧领域的研究热度有所减弱。
图3 实体消歧中国研究趋势
通过对国内外实体消歧研究背景的分析可以看出,近年来,实体消歧技术取得了较大进展。同时,从温萍梅、段宗涛等一些研究人员在实体消歧方面的综述文章中可以看出,从文献全文等长文本到推特、微博、查询语句等短文本,再到专业领域语料,针对不同语料特征,学者们提出了对应的消歧策略[1-2]。然而,实体消歧技术还具有一定的提升空间,对于实体消歧技术的各个环节中仍存在着的一些问题和挑战,该文主要从命名实体识别、候选实体生成、候选实体排序、实体链接四个方面进行总结。
命名实体识别是搭建知识库与自然语言之间的桥梁,它负责从给定文本中准确地识别出人名、地名、机构名、时间等所有类型的实体命名指称。
近年来,随着深度学习的流行,研究人员逐渐利用神经网络进行命名实体识别工作[2]。Lample等[3]介绍了两种用于序列标记的神经结构,一种基于双向长短期网络(Bi-LSTM)和条件随机场(CRF),另一种使用基于转移的方法,即使与使用外部资源的模型相比,它们也能在标准评估设置中提供最好的NER(Named Entity Recognition)结果。Kuru等[4]描述了一个采用深度Bi-LSTM架构的字符级标记器,句子不是用单词表示的,而是用字符序列表示的,评估结果展示了相同的深度字符级模型能够在多种语言上获得良好的NER性能。Rocktäschel等[5]介绍了一个从自然语言文本中提取化学实体的混合系统ChemSpot,该系统使用了将CRF与字典相结合的混合方法,通过结合这两种方法的优点,ChemSpot实现了NER性能的大幅提高。
简单来说,候选实体生成就是为每个实体指称在知识库中生成其可能的候选实体集合的过程。
Sui等[6]提出一种分层多任务模型,将提取的超细类型信息引入到候选生成任务中,改进了高级零射实体链接候选生成任务,实验结果证明了该方法的有效性。Fang等[7]通过从多方面检索候选实体,提高了候选集的质量和候选实体生成方法的召回率。Hebert等[8]提出一种密集检索方法进行候选生成,在Twitter领域该方法通过使用两个独立的语言模型分别对推文和实体的语义内容进行编码来实现,有效提高了候选生成的召回率。
候选实体排序问题研究的内容是:给定一个查询q和一个由实体e∈E填充的知识库(Knowledge Base,KB),找到满足该查询q的最佳匹配实体e。
近年来,学者们对实体排序问题的研究有所增加。Hasibi等[9]建立一个可以插入不同候选实体排名和消歧方法的框架,对于其中的每一个组件都用无监督和有监督的替代方案进行了实验,研究结果表明,在候选实体排序步骤中使用监督学习更有益。Cao等[10]提出一种基于二部图的实体排名方法,该方法利用候选实体之间的Co-List关系来帮助提高实体排名,实验结果验证了该方法尤其在提升那些相关但不受欢迎实体的有效性。Mondal等[11]提出一种基于候选知识库条目与疾病提及的相似度对候选知识库条目进行排序的方法,该方法使用三元网络进行候选人排名,结果表明其很大程度上优于现有的排序系统。
实体链接是自然语言处理中的一项重要技术,它负责把给定文本中的实体指称链接到知识库中的一个无歧义实体,通常将维基百科作为知识库[12]。一个准确的实体链接系统对于许多与知识相关的任务,如智能问答和信息提取等是至关重要的。
为了严格解决Twitter上几乎没有上下文的实体链接问题,Guo等[13]提出一种用于实体链接的结构化SVM(Support Vector Machine)算法,通过同时考虑提及检测和实体消歧,构建了一个优于当前最先进系统的端到端实体链接系统。Le等[14]使用MIL(Multiple Instance Learning)方法,同时引入一个新的组件,即噪声检测分类器,与实体链接模型联合估计,从而产生更准确的实体链接模型。为了解决潜在实体类型常被忽略的问题,Chen等[15]提出将潜在的实体类型信息注入到基于预训练BERT的实体嵌入中,并将基于BERT的实体相似度评分集成到最新模型的本地上下文模型中,来更好地捕获潜在的实体类型信息,实验结果表明该方法可以有效地改进实体链接。
实体消歧是指将特定文档中的文本提及链接到KB中的正确命名实体的过程,它是自然语言处理的一个基本任务。
基于词典的语义消歧是对词的处理,指根据一个多义词在特定文本中出现的上下文语义环境来确定其词义,通过使用词典或者类似词典的知识库进行消歧。基于词典的语义消歧是自然语言处理的核心和基础环节,有效解决基于词典的语义歧义问题,也会带动自然语言处理领域的新发展。整个基于词典的语义消歧过程可用公式描述如下:
S'=argmaxR(Sk|C)
其中,C表示词语W所在的特定上下文语言环境,Sk表示词语W在特定上下文语言环境C中的每个词义,R(Sk|C)表示词语W的每个词义Sk和特定上下文语言环境C存在的不同强弱的关系,S'表示词语W在N个词义中的确定词义。
形式化地,基于词典的语义消歧过程就是通过分析和计算词语W所在的特定上下文语言环境C与每个词义Sk间的关系R,找到关系最强的Sk即词语W的确定语义S'。如“苹果”在百度百科中共有24个义项,常用的义项有“蔷薇科苹果属植物”“美国高科技苹果公司”“2007年李玉执导电影”,基于这三个义项,“苹果”这个多义词的消歧示例如图4所示。
图4 “苹果”消歧示例
基于实体的语义消歧研究的主要内容是解决同一个实体指称项在不同的上下文中可以对应到不同真实世界实体的语言现象。例如,给定如下两个包含“Zhang Wei”的句子:
(1)Zhang Wei is a responsible entrepreneur.
(2)Zhang Wei is a famous piano player.
基于实体的语义消歧过程:在给定的特定文本“Zhang Wei won the piano competition.”中,“Zhang Wei”是待消歧实体指称项,通过将实体指称项在知识库中的两个定义“entrepreneur”,“piano player”和待消歧文本中“piano competition”一词分别计算并比较其语义相关度得到:特定文本中的“piano competition”与该实体定义中的“piano player”具有较高的语义相关度,所以该实体指称项“Zhang Wei”应指的是“一个著名的钢琴演奏家”。
基于实体的语义消歧研究的角度可以分为如下两种:
(1)实体指称多样性:一个命名实体可以有多种不同的方式表达。
(2)实体指称歧义性:一个实体指称在不同的上下文语言环境中可能表示不同的实体含义。
实体消歧研究内容的特点总结如表1所示。
表1 实体消歧研究内容的特点总结
表2 实体消歧方法总结
在局部消歧方面常用基于Bi-LSTM和注意力机制(Attention)相结合的方法,在全局消歧方面常用基于关联图和PageRank算法相结合的方法。目前,将局部和全局两种模型结合起来的消歧方法可以有效改善实体消歧的准确率。
例如,NCEL(Neural Collective Entity Linking)[16]方法就是应用图卷积网络集成局部上下文特征和全局图特征进行实体消歧。Yang等[17]第一个使用SGTB(Structured Gradient TreeBoosting)算法,并将全局特征与局部特征联合建模,来消除集体实体的歧义。Shahbazi等[18]提出一种新的实体消歧模型,该模型通过LDS(Limited Discrepancy Search)方法结合了局部上下文信息和全局证据,以从全局角度改进局部解决方案。Hu等[19]采用GNED(Graph Neural Entity Disambiguation)图神经网络模型,该模型充分利用了在同一文档中的候选实体之间的全局语义关系,解决实体消歧问题。Tang等[20]使用图注意网络捕获全局主题连贯性,图注意网络通过一种特殊的自注意机制,动态获取不同邻居节点的重要信息。
随着机器学习技术的发展,卷积神经网络(CNN)和循环神经网络(RNN)被用于实体消歧任务中,但针对其存在的上下文文本特征提取不充分、语义信息获取较少的问题,姜丽婷等[21]提出一个新的混合卷积网络(MCN)模型,该模型融合了CNN和图卷积网络(GCN)两种模型的优势来解决上下文文本特征提取不充分的实体消歧问题,获得了很好的结果。
Wang等[22]提出一个具有多视角注意力的神经网络,以丰富不同视角下的提及和实体表示,捕捉更多信息特征,提高消歧性能。Deng等[23]提出关联图和候选实体关联图,利用图神经网络(GNNs)获得同一文档的多主题相干特征进行消歧。Veloso等[24]提出EAND (Eager Associ-ative Name Disambiguation),LAND (Lazy Associative Name Disambiguation),SLAND(SelfTraining LAND)三种关联作者姓名消歧方法,特别是SLAND,它利用引文特征,扩展了LAND的自我训练能力,大大减少了构建有效消歧函数所需的示例数量,从而很好地实现了作者姓名消歧效果。
机器学习用于教机器如何更有效地处理数据,赋予计算机在没有明确编程的情况下学习的能力,它依靠不同的算法来解决数据问题。孙笑明等[25]使用半监督学习算法,以特征向量(如姓名相似度、分类号相似度等)为信息提取源,构造基于决策树C4.5算法的分类模型,识别姓名歧义问题。
近年来,神经网络也得到了广泛的研究,并被证明可以有效地用于各种数据挖掘和分析任务。神经网络结合结构信息和语义特征的能力对自然语言处理任务中的实体消歧工作至关重要。例如,He等[26]次将深度神经网络引入实体链接框架,提出了一种基于深度神经网络(DNN)的实体消歧模型,通过直接优化给定相似性度量的文档和实体表示来消除实体歧义,进一步提高了消歧性能。Phan等[27]提出一种NeuPL(Neural network model combined with Pair-Linking)方法来计算实体之间的语义相似度,进而更好地实现实体消歧。
另外,DoSeR[28]设计了一种利用实体知识图上的个性化PageRank值的集体消歧方法,该方法利用语义嵌入来计算实体间的语义相似性从而进行实体消歧。Mingke等[29]提出了一种基于分类语义关联和结构语义关联的命名实体消歧方法,该方法综合考虑了实体之间的显式和隐式语义关联,通过计算结构语义相关度和分类语义相关度显著提高了实体消歧效果。Zhu等[30]提出了一种基于词和类别嵌入联合学习的Category2Vec嵌入模型,该模型可以更好地计算词类别的相似性,有效地解决了上下文信息有限的短文本实体消歧问题,改善了实体消歧性能。
各类实体消歧方法涉及的主要技术和数据集如表 2 所示。
与中文的知识资源相比,英文的知识资源更加成熟和丰富。由于汉语语义知识资源的稀缺,知识获取瓶颈在汉语中更为严重,这也就导致了中文实体消歧的困难性。邵发等[31]针对开放文本中中文实体关系抽取的一词多义问题,利用贝叶斯分类器和模式合并法提高实体关系抽取性能。Lu等[32]为了解决中文消歧知识瓶颈的问题,提出一种基于图的多知识集成中文WSD(Word Sense Disambiguation)方法来消除歧义。
短文本的上下文通常是嘈杂和稀缺的,具有信息模糊和不完整的问题。无法提供给实体消歧任务所必需的丰富的上下文信息,这一局限性给实体消歧任务增加了难度。Jiang等[33]提出一种基于神经网络的胶囊网络和CNN的实体消歧方法,充分利用了短文本数据的全部语义信息来执行实体消歧任务。Feng等[34]针对短文本信息模糊和不完整的问题,提出一种知识增强的短文本实体消歧方法,可以显著提高短文本实体消歧任务的性能。
跨语言实体消歧在过去几年得到了学者们的关注,不同语言之间的翻译是跨语言信息抽取的难点,而在翻译过程中自然存在着实体歧义性问题。Barrena等[35]提出一个0-shot XNED(zero-shot cross-Lingual Named Entity Disambiguation)架构,为每个可能的提及字符串提供了一个模型,从而消除了本机先验概率的需要,而不是一个单一的消歧模型。Maeda等[36]针对基于查询翻译的CLIR(Cross Language Information Retrieval)方法所需要的自然语言资源不易获得的问题,提出一种基于词典的查询翻译的消歧方法,实现足够的检索效率。
传统的实体消歧方法通常是基于文档中提到的所有实体都紧密相关,但研究表明,在一些新闻、推文中也常常存在着一些低相关性的实体。Phan等[37]针对文档中提及到的实体存在低程度的一致性问题,提出一种新的基于树的集合链接模型MINTREE,该模型利用最小生成树的权值来度量实体图中的相干性。Zhang等[38]在同一份文件中的提及通常对应不同的主题,提出一种多主题全局一致性特征提取的全局模型。
因为实体间存在着较为复杂的关系,所以应用更优异的相似度计算方法能够更准确地描述出它们之间的关联度,进而可以提高实体消歧的准确率。
汪沛等[39]采用一种基于图的随机游走算法辅助计算相似度,可以高效地获取实体指称项与目标实体间的相似度,进一步提升了特定领域实体消歧的准确率。Fan等[40]提出一种基于图的GHOST(abbreviation for GrapHicalframewOrk for name diSambiguaTion)算法,结合AP(A-ffifinity Propagation)聚类算法进行相似度计算,在人名消歧方面取得了较好的实验结果。
丰富的上下文依赖关系,可以增强实体间的关联程度,进而来帮助实现消歧的过程。
曾维新等[41]提到现有的实体消歧方法大多采用集体排序方法以更好地捕捉实体指称间的依赖性,进而提升消歧效果。Li等[42]提出一种结合双注意机制和分布强化的图卷积网络关系提取模型,该方法通过两个并行注意模块聚合全局特征语义信息,增强特征全局依赖性。
大多数关系提取方法都需要足够的数据来实现良好的性能,挖掘实体的隐藏语义可以更准确地提取文本中的实体关系,改善实体消歧性能。
Guo等[43]提出一种以结构化数据库为领域知识的连体图神经网络——传记神经网络模型,提高了从生物医学文献中提取实体关系的准确性。它还可以在生物医学文献中发现一些潜在的、未被发现的关系。Zeng等[44]提出利用潜在文本特征,通过基于双注意的长短期记忆网络(LSTM)生成提及和实体的表示,挖掘表面形式下的语义关系,并进一步用于计算提及-实体相似度。
充分考虑实体特征并综合提取文档属性特征,可以进一步提高实体消歧的精确度。
Deng等[23]提出一种新的HRFAENE(Heterog-eneous Relation Fusion and Attribute Enhanced Network Embe-dding)模型,该模型通过对网络结构和属性的多次学习,有效地解决了有效信息利用不足的问题,提高消歧效果。贺紫涵[45]针对文档级实体消歧问题中一致性特征提取不精确的现象,在实体局部一致的前提下,提出一种GN-CED(Graph Neural Collaborative Entity Disambiguation)协同实体消歧模型,实验结果表明,相比于其它方法,应用该模型可以改善实体消歧的准确率。
前文所介绍的实体消歧方法具有良好的准确率,对它们的优缺点和评价指标进行汇总如表3所示。
表3 实体消歧方法优缺点及评价指标汇总
实体消歧在自然语言处理工作中扮演重要角色,在智能推荐、智能问答、信息检索、知识库构建领域都有着广泛的应用价值。其中,武汉音乐学院构建了智慧型博物馆,当人们对某件乐器感兴趣,在该乐器前停下来时,VR、AR设备就会展示出该乐器的知识图谱,参观者可以根据自身专业和兴趣提取相关知识。其知识图谱中存在的非结构化类型数据就需要实体消歧技术做进一步处理。该智慧型博物馆旨在实现网络与实体馆的多维度互动,进而探索音乐与科技融合的新模式。
实体消歧领域未来发展方向:
(1)充分考虑消歧特征,提高中文短文本的实体消歧效果。
(2)优化不同语言文本间的相似度计算方法,保证较好的通用性。
(3)深入研究结合文本和图形信息的实体消歧方法,提高消歧准确率。
(4)将图卷积网络应用于实体消歧。应该更多的将图卷积网络应用于实体消歧,可以获得更高的消歧性能。
未来对实体消歧领域的研究应该更多地结合卷积神经网络、图卷积网络等深度学习方法,更多地应用于文本语言环境不理想的实体歧义现象中。知识图谱与自然语言处理关系密切,实体消歧是知识图谱构建中的一个关键技术,期待研究人员更多地关注到实体消歧领域,探索提高实体消歧准确率的方法,从而进一步推动自然语言的发展。