中文实体关系抽取研究综述

2018-09-06 01:54武文雅陈钰枫徐金安张玉洁
计算机与现代化 2018年8期
关键词:语料语义实体

武文雅,陈钰枫,徐金安,张玉洁

(北京交通大学计算机与信息技术学院,北京 100044)

0 引 言

20世纪90年代中期以来,随着网络信息资源的日渐丰富、计算机速度的大幅度提高,主要以文字、图像等形式为依托的信息化时代强势到来。信息化时代的标志是信息爆发价值,如今信息化成为了时代发展的主流趋势,是前沿生产力的主要标志。随着信息时代的高速发展,信息数据呈现规模巨大、模态多样和高速增长等特征。在网络搜索过程中,当用户输入要查询的信息时,希望计算机能够从语义层面理解用户真实想要获取的信息,而不只是关键字的提取和搜索,这就迫切要求能快速、准确地获取用户真正所需信息的技术手段——信息抽取技术的进一步发展,以满足用户搜索的需求。比如说,当用户输入“英国伦敦”时,希望得到的是关于英国伦敦这座城市的多方面相关信息,如政治、经济、文化、地理位置、旅游景点、教育机制等,而不仅仅是简单的关于伦敦的关键字的句子提取。

近年来,自然语言处理领域的研究者们开始致力于知识图谱构建的研究。知识图谱究其根本是一种语义网络图,通俗来讲,就是把多种信息按照一定的规则融合在一起而得到的关系网络。知识图谱是从“关系”的角度来分析问题的,为搜索提供了新思路:直接返回问题的答案,而不是返回包含关键词的文档序列。信息抽取则是知识图谱构建的关键一步。

信息抽取主要含有命名实体识别和实体关系抽取这2类子任务。命名实体识别指的是从自然语言文本中识别出实体类、时间类和数字类3大类,以及人名、机构名、地名、时间等7小类命名实体[1]。命名实体识别准确率的提高可以促进信息提取、语篇理解、句法分析以及机器翻译等任务的发展,对自然语言处理技术产业化发挥着奠基性的作用,但是实体识别得到的只是以离散形式存在的实体,并不能有效地反映命名实体之间的关系,而实体关系抽取就是用来处理这个问题的方法。实体关系抽取是从自然语言文本中辨别出2个实体间所存在的语义关系,例如,对于句子“李克强在阿斯塔纳会见阿富汗首席执行官阿卜杜拉。”中的实体“李克强”和“阿卜杜拉”之间存在着“会见”关系,同时,实体“阿富汗”和“阿卜杜拉”间拥有“首席执行官”的关系。作为自然语言处理的重要任务之一,实体关系抽取为海量信息处理、中文信息检索、知识库自动构建、机器翻译和自动文摘等众多自然语言处理任务提供了重要的技术支持。

1 实体关系抽取的产生与发展

1.1 实体关系抽取的产生

美国国防高级研究计划委员会(DARPA)资助的MUC会议鼓励关于信息抽取新方法的提出[2]。1995年举办了MUC-6会议,前面几届会议都聚焦在“信息提取”任务上:分析自由文本,识别某种特定类型的事件,并使用每个事件的信息去填充数据库模板。随着前5次MUCs的开展,任务和模板变得越来越复杂。NYU和NRaD合作提出了命名实体识别(NER)、指代(Coreference)、模板元素(Template Elements)和场景模板(Scenario Templates)[2]这4项任务。

1998年最后一次MUC-7会议在MUC-6会议任务的基础上初次提出了关系抽取(模板关系,Template Relation)任务,是用模板关系来进行描述的[3]。MUC-7会议的语料是与飞机失事事件(airplane crashes)和航天器发射事件(rocket missile launches)相关的新闻报道,主要包含LOCATION_OF、EMPLOYEE_OF和PRODUCT_OF[4]这3种实体关系类别。

1.2 实体关系抽取的发展

MUC会议一共举办了7届,进入21世纪后,美国国家标准技术研究所(NIST)组织的自动内容抽取(ACE)评测会议成为信息抽取研究进一步发展的主要动力[5]。自动内容抽取(ACE)评测会议是21世纪初期继MUC会议之后,文本分析会议(TAC)之前的研究先进信息抽取技术的会议。该评测会议将实体关系识别作为一项重要的评测任务进行发布[5]。

ACE的实体关系语料是语言资源联盟(LDC)供给的,语种已由单一的英文扩展到了阿拉伯语、西班牙语和中文。中文的数据是由哈工大自然语言处理实验室标注的,数据内容涉及广播新闻、新闻专线和网络会话。ACE的实体关系语料的语种数量和数据规模在MUC的基础上都有了大幅度的扩展。ACE 2008的关系抽取任务共定义了组织机构—附属、部分—整体、人—社会等7个大类的实体关系,细分为使用者—拥有者—发明人—制造人、公民—居民—宗教人士—种族人士、组织—位置等18个子类的实体关系。ACE评测会议给实体关系抽取研究提供了新的发展平台[5]。从2009年开始,ACE被归入文本分析会议(TAC),成为了Knowledge Base Population工程中不可缺少的一部分[6]。

除了MUC和ACE会议之外,语义评估(Semantic Evaluation, SemEval)会议也是自然语言处理领域中一个极具影响力的评测会议。该会议聚焦于句子级单元间的彼此联系(例如语义角色标注)、语句间的联系(例如指代)和人们所说的自然语言(语义关系和情感分析)。SemEval-2007的评测任务4中设置了7种常用名词和名词短语间的实体关系,在SemEval-2010第8项任务中将实体关系类型扩充到了9种:Component-Whole、Instrument-Agency、Member-Collection、Cause-Effect、Entity-Destination、Content-Container、Message-Topic、Product-Producer和Entity-Origin。在2010年的评测中掀起了普通名词和名词短语间实体关系抽取研究的新高潮[7]。

MUC、ACE、SemEval评测会议所用的实体关系语料都是事先标注好的,即由领域专家制定好关系类型体系,然后对大规模文本进行人工逐个判断。这样的方法耗时耗力,成本极高,同时不利于扩展语料类型。近年来,开放域实体关系抽取方法逐渐受到关注,相比传统实体关系抽取来说,在语料方面它解决了语料获取困难的问题。Wikipedia、HowNet、WordNet和Freebase等涵盖大规模事实性信息的知识库为标注语料的获取提供了有效的数据支持。与传统的人工标注语料方法相比较,基于Web开放语料的规模更宏大,涉及的领域更广阔,囊括的关系类型也更丰富[8]。

2 中文实体关系抽取的研究现状

在当今时代中,中文在全球的使用越来越广泛,因此对中文实体关系抽取的研究也日趋紧迫。根据输入数据是否有标签,即语料中的实体关系是否被标注出来,本文把中文实体关系抽取方法分为有监督学习方法、半监督学习方法、无监督学习方法和开放域抽取方法[9],下面对这几种方法分别进行相关介绍。

2.1 有监督的中文实体关系抽取

有监督的实体关系抽取方法是最早开始使用的,也是发展最快的方法。在这种学习方法中,关系抽取常被当作分类问题来解决。关系抽取所依赖的方法基本可以归纳为:基于模式匹配的方法和基于机器学习的方法[11]。其根据关系实例的表示方式不同分为基于特征的方法和基于核函数的方法[10]。

基于模式匹配的关系抽取方法需要领域专家和语言学家互相合作,运用语言学知识和专业领域知识构造出基于词语、词性或语义的模式集合。通过将预处理后的语言片段和模式进行匹配来实现关系抽取,如果两者相匹配,则可以说该语句拥有相应模式的关系属性。这种方案的关键之处在于关系模式的确立,关系模式的建立需要语言学家对领域专业知识通达,穷举所有可能的关系表达,人工罗列关系模式。限于语言学家对专业知识的了解,该方法既费时费力,又不可避免地出现错误;同时领域自适应性能极差,当出现新领域语料时,需要语言学家重新列举关系模式,研究者针对此问题提出了一些经过实验证明可行的解决方法[11]。

Appelt等[12]在MUC-6会议上阐述了FASTUS抽取系统,并提出了“宏”这一新概念,用一般通用形式来构建领域规则。若想迅速构建不同专业领域的关系模式体系只需要重置相应“宏”中的参数。Yangarber等[13]在MUC-7会议上展示的Proteus抽取系统中融合了样本泛化的关系抽取模式方法,一定程度上提高了模式构建的领域自适应能力。周诗咏[14]提出了一种融合语义模式匹配的实体关系抽取模型SPMREM,在分析文本语义结构的基础上提出一种字符串匹配方法,并结合相似密度方法对关系模式进行聚类,提取关系模式集,实验表明该方法能高效地从语料中抽取相关的关系模式。

基于模式匹配的方法已有了一定的成效,同时基于特征向量的关系抽取目前也已经取得了不可忽视的成果。若想改进基于特征向量的方法则需要在有效特征的抽取与集成上下功夫。准确地获取词法、句法、语义等特征,并把它们融合在一起,这才是特征向量方法进步的根源。中文实体关系抽取的结果通常采用F值来进行评价,计算方法如下[15]:

与F值计算相关的准确率(Precision)和召回率(Recall)的计算公式如下所示[15]:

在基于特征向量的中文实体关系抽取研究方面,车万翔等[15]运用Winnow和SVM算法,谨慎研究比较发现,当选取每个实体的周围2个词为特征时,抽取效果达到最佳。在ACE RDC 2004语料上实验,加权平均F值分别达到73.08%和73.27%。在不同的语料上,通常会存在不同的最优特征向量,例如,在ACE2004的语料上,车万翔等[15]实验得出实体周围2个词为最优特征,但是在微博新闻语料上,当选取实体周围3个词为特征时,效果要优于2个词的情况。黄鑫等[16]提取了语料词语、实体和语法的基本特征后,将其进行特征组合,在ACE RDC 2005中文语料上进行实验,结果表明组合特征的性能比单独特征的性能更好,F值平均提高了2.0%。一般而言,组合特征的效果由于融合了多种特征,在效果上有一定的提升,除非组合特征过于贴合训练集,过拟合现象严重,会导致F值不升反降。郭喜跃等[17]在词法特征和实体原始特征的基础上加入了依存句法关系、核心谓词和语义角色标柱等特征,实验结果表明加入的多种特征对关系抽取准确率的提高颇有帮助。依存句法信息和语义角色标注等信息的加入使得特征向量更加饱满,特征更具代表性,极大程度上提高了关系抽取的性能。

有监督关系抽取方法的另一个主流方法是基于核函数的方法。早期使用较多的是序列核函数,它一方面拥有较好的复合性能,另一方面考虑了特征间的顺序和结构信息。在序列核函数的基础上加入语义信息可以拓展算法应用范围。将多种核函数融合在一起联合抽取实体关系会充分发挥各种核函数的优势,实验证明其结果提升明显。虞欢欢等[18]构造了句法和语义关系树,方法是将实体语义信息加入关系实例的结构化信息中,不仅可以获得结构化信息,还可以获取实体语义信息。在ACE RDC 2005中文语料上进行的实验表明,构造实体语义结构树方法能提高F值,同时也说明规则化的结构句法信息和语义信息相结合可以增强有效特征。Zhou等[19]提出了一种基于树核的语义信息抽取方法,利用解析树和实体对构造丰富的语义关系结构,来综合句法和语义信息,在ACE 语料上的实验结果表明这种树核方法在当时处于世界领先水平。王敏[20]把基于特征向量的平面核融合到了基于句法分析树的结构核中,这种多核融合的方法使得关系抽取性能得到了提升。陈鹏等[21-22]详细考究了特定领域信息的特征,构造出含有语义关系的领域知识树,并将其应用到领域信息的句法树中。在旅游相关领域的语料上进行关系抽取实验,结果表明由于引入了语义知识该方法优化了关系抽取性能。郭剑毅等[23]针对传统径向基核函数的训练矩阵中所有元素接近于零不利于分类的问题,提出了一种向量离散化的训练矩阵,将改进的径向基核函数融合多项式函数及卷积树核函数进行实验,实验结果证实了相对单一核函数,改良的多核融合方法性能更优。

基于核函数方法在运算速度上有一定的弊端,尽管如此,研究者还是希望通过对核函数的进一步研究来获得关系抽取的进步。

2.2 半监督的中文实体关系抽取

运用半监督的方法进行中文实体关系抽取,只需要少量的标注数据,因此,当需要处理标注语料较少的实体关系抽取任务时,可以选用半监督的方法。

自举方法(Bootstrapping)、协同训练(Co-training)和标注传播(Label propagation)方法是目前在关系抽取任务中经常使用的半监督方法,以下分别进行介绍。

Brin[24]首先使用了基于Bootstrapping的半监督方法进行实体关系抽取。该方法首先需要确立关系种子类型,接着从包含种子的上下文中总结关系模式从而寻找更多的关系种子实例以便于扩充种子集合,最后迭代得到领域关系实例和序列模式。余丽等[25]运用Bootstrapping方法在地理领域的语料上分析词语的特征,比如词性、位置、距离,根据这些特征来提取表示实体关系的关系指示词。该方法能自动挖掘自然语言的部分词法特征,避免对大规模标注语料的依赖,适合用于缺乏大量标注语料的关系抽取任务。

基于Bootstrapping的方法对初始关系种子的质量要求较高,如果初始关系种子选择不恰当,会对种子集合的扩展有影响。当领域发生迁移时需要重新确立序列模式并且重新构建高质量的关系种子。

基于协同训练思想的BootProject方法被Zhang提出用来进行半监督语义关系分类[26]。BootProject方法是从一个大的特征集合中任意抽取出含有合适数目的特征子集当作一个窗口,反复此进程获得多个窗口,运用开始少量的种子集合语料训练分类器,对实例进行分类,以此找出有代表性的关系实例,投入种子集合中以便下一次的种子集拓展。初始种子集大小与结果准确率有关,在一定范围内,它们成正相关。张一昌[27]将协同训练关系抽取方法和核函数融合在一起,F值提高了0.05%,同时,他还把Word-embedding应用于协同训练关系抽取中,使F值有了0.1%的提升。这个方法涉及的2个问题是,怎样抽取理想的初始种子集以及怎样减少迭代过程中的错误实例数量。

标注传播算法是一种基于图的半监督学习方法,它的目的是训练计算机从半结构化或者非结构化的文本中自动识别出实体对之间存在的关系。该方法的特别之处在于利用图策略建立关系抽取模型,图上的节点表示样本实例,图上边的权重表示样本实例之间的距离,关系抽取任务就此转化成为根据该图估计一个满足全局一致性假设的标注函数,这种任务转化的思想为中文实体关系抽取任务提供了新的解决思路。当标注数据较为缺乏时,标注传播算法在中文实体关系抽取任务中往往可以取得远高于有监督方法(SVM,NB,RNN)的抽取准确率[28]。这是因为标注传播算法可以借助图模型来平滑无标签样本的标签信息。也就是说,在半监督学习方法中,无标签样本的标签信息同时由与其相邻的有标签样本和无标签样本来决定。然而在有监督方法中,无标签样本的标签信息仅仅取决于与之相邻的有标签样本。郝建柏[29]提出基于局部线性嵌入算法构建图的标签传递算法,该算法中的图比传统图更容易使用,分类精度更高,在实验中的结果也证实了这一点。该方法的缺点是占用更多的存储空间,运行时间也比较长。

对于半监督学习,共同存在的问题是初始种子集的选取,以及如何缓解迭代过程中的噪音干扰等语义漂移问题。当然,进一步探索新的半监督学习方法是提高半监督学习抽取性能的有效手段。

2.3 无监督的中文实体关系抽取

在没有标注数据的情况下,研究者们使用无监督方法进行中文实体关系抽取,主要包括实体对聚类和关系指示词选择2部分。具体做法是首先将上下文相似度高的实体对聚为一类,然后选择具有代表性的词语来标记这一类关系。

Hasegawa等[30]在ACL会议上首次使用了无监督的关系抽取方法,该方法识别出实体对的类型,把共同出现次数多于一定阈值的实体对作为潜在的语义关系,并且计算实体对间的词汇相似度对其进行聚类,最后根据经验给聚类的实体对冠上合适的关系名称。实验中使用这个方法发现的公司实体对之间的语义关系F值高达0.75,实验证明这种无指导的方法效果较为明显。Rink等[31]基于产生式模型构建了无监督实体关系抽取框架,实现了医学专业领域中实体关系的有效抽取,这一在特定领域中进行无监督的关系抽取方法的应用,在一定程度上促进了关系抽取产业化的进一步发展。孙勇亮[32]采用密度聚类算法,在无监督实体关系抽取任务中获得了不错的结果,实验表明优化聚类算法对无监督关系抽取性能的提升有着重要的作用。王晶[33]提出了一种语料相关的提取特征算法,其中考虑到了启发式规则,并且根据数据集特征孕育出一种新的聚类算法,在大规模网络文本中进行实验,表明该方法在关系抽取任务上有效果。施琦[34]使用了一种弹性上下文窗口代替传统固定窗口大小的模式来进行特征词的选取,并且充分利用互信息计算特征词权值同时融入了改进的k-means算法,在网络文本上的实验表明,这些改进都可以使关系抽取的精度提高。

使用无监督的方法进行实体关系抽取不需要预先定义实体关系类型体系,领域适应性强,在处理大规模网络文本数据时极具优势,改进方法主要在于选择合适的特征和优化聚类算法。无监督的实体关系抽取需要预先确定聚类阈值,这是该方法的难点,同时,无监督的实体关系抽取尚缺乏客观的评价标准。

2.4 开放域中文实体关系抽取

近年来,专家学者们提出了一种针对开放领域实体关系抽取的Open Information Extraction(Open IE)方法[35-37],不需要人工标注语料,也不需要事先知道抽取哪些实体关系。它的目标是自动将自然语言句子转换为有意义的事实性命题。例如,输入句子“莫言,山东高密人,是中国历史上第一位获得诺贝尔文学奖的作家。”输出命题:莫言,是,山东高密人;莫言,是,作家;莫言,是,中国人;莫言,第一位获得,诺贝尔文学奖。通过对输出命题的分析,可以得到很多有效的信息。在海量网络文本数据中,可以通过开放式关系抽取快速地从中提取大量的实体关系三元组。例如,从“北宋有名的诗人范仲淹政绩突出,文学成就卓越。”中抽取出(北宋,诗人,范仲淹)这个关系三元组。“北宋”和“范仲淹”这2个实体的关系用句子当中的名词“诗人”来描述。当然,通常可以用句子当中的名词、动词或者名词性短语来描述实体关系。

Open IE方法的难点主要在于复杂句子的处理和关系短语语义的归一化,不是所有的句子都能很容易地找到正确命题。对于开放域实体关系抽取可用的技术有句法模式学习、自学习技术、句子分解技术、Clustering和Inference Rule Discovery等。针对复杂句子的处理,Corro和Gemulla等[38]提出了Clause IE,它根据语言语法规律定义了7种简单句子模式和一系列句子分解规则,将复杂句子分解为简单句,借助化繁为简的方法,使复杂句子转化为简单句来进行处理。对于语义的归一化,目前的解决方案是计算不同关系短语之间的相似度来识别表达相同语义的关系短语,代表性模型有Topic Model[39]、Random Walk[40]。

Washington大学的人工智能研究组在开放式实体关系抽取领域作出了很大贡献。TextRunner[41]、WOE[42]等系统都是其开发用于开放域关系抽取研究的。

目前,对于中文开放域实体关系抽取也有了一定的进展。秦兵等[43]在大规模的网络文本上进行了无监督的实体关系抽取。通过观察,其首先利用实体间的距离和关系指示词的位置限制得到大量的候选关系三元组,接着使用基于规则的方法提取能正确表示实体间关系的关系指示词,最后通过对错误三元组进行分析,构建合适的句式规则,对其过滤得到精确度较高的实体关系三元组,可用于充实文本知识库。郭喜跃[44]在百科类开放领域文本上使用弱监督方法获取了高质量的关系三元组,其在借助于百度百科信息框得到标注语料的同时对其进行筛选和合并,这种做法使初始语料的质量有了进一步的提高。通过对初始语料的加工,其整体F值达到了79.27%。针对存在多元实体关系的抽取问题,李颖等[45]运用依存关系分析来抽取多元实体关系,在百度百科数据集上的抽取准确率可达81%。

开放式实体关系抽取还存在很大的进步空间。其一,由于数据来源的不统一,实体关系抽取结果评价体系还没有达成一致标准;其二,当前大部分实验都是在数据进行大量清洗之后的干净数据上进行的,数据真实性难免会有所下降。如何在真实网络数据上进行关系抽取是要继续研究的重点问题之一。

2.5 4种实体关系抽取方法的总结

针对中文的实体关系抽取任务,上面所介绍的4种方法各有优劣,表1对上述的4种方法作了总结。从实现方法、泛化能力、对语料标注的依赖程度和性能提升方法等方面对这4类实体关系抽取方法进行了详细的比较。

表1 实体关系抽取方法总结

3 实体关系抽取中深度学习的应用

21世纪以来,深度学习被广泛运用于自然语言处理任务。近十多年来,深度学习也开始在实体关系抽取领域取得成果。

Socher等[47]提出运用递归神经网络来应对关系抽取任务,该方法考虑了句子的句法结构信息,但是无法考虑到实体对的位置和语义信息。Zeng等[48]应用卷积神经网络解决关系抽取任务,向卷积神经网络输入词向量和词位置向量,之后通过卷积、池化和非线性变换得到句子表示。由于考虑到了实体的位置向量和其他相关词汇特征,句子的实体信息也同步被关注到了。Miwa等[49]提出了一种双向LSTM和树形LSTM模型相结合的方法。该方法运用这2种网络的同时对实体和句子进行建模,取得了较好的效果。

除了在有标注语料上的研究,关系抽取在纯文本上的研究也有了一定的进展。Lin等[50]提出了一种在纯文本中进行关系抽取的方法。他们引入了一种多语言的神经关系抽取框架,在单语文本中采用单语注意机制,并且提出跨语言注意机制来考虑跨语言文本信息的一致性和互补性。Lin等[51]运用基于句子级别注意力机制的神经网络模型解决了实体对对应的噪音句子问题,使得模型能利用所有有效句子进行学习,通过实验发现此方法有效地控制了噪音句子的影响,使得关系抽取效果得到了提升。

以上都是深度学习在英文语料上的应用,在中文研究方面,由于标注语料的短缺,深度学习在实体关系抽取领域上的应用相对于在其它自然语言处理任务上的应用来说较少。孙建东等[52]在COAE2016的数据集上使用了卷积神经网络模型,但是由于数据集较少的原因,效果比SVM方法的F1值低近10%。

深度学习中的卷积神经网络、循环神经网络、LSTM网络等架构在自然语言处理领域的应用极其广泛,并且取得了良好的效果。如果能将深度学习方法运用于缺乏标注的数据集上,那么中文实体关系抽取研究将取得进一步的成果。

4 结束语

尽管实体关系抽取在一定程度上已经取得了不菲的成绩,但是在中文语料上的研究成果还有待提高。有监督的实体关系抽取方法将关系抽取任务当作分类任务,在标注语料上提取有效的特征,训练分类器来预测实体关系,特征的选取对于实验结果往往起着至关重要的作用。无监督实体关系抽取领域移植性强,适合处理大规模无结构的网络文本数据。半监督实体关系抽取适用于缺乏标注语料的实体关系抽取,但其实现过程中引入的噪声容易造成语义漂移。开放式实体关系抽取不需要事先定义好关系类型,直接用句子中的关系指示词来表示实体关系,具有广阔的发展前景。近年来快速发展起来的Deep Learning方法在中文实体关系抽取任务上还没有大量的应用,主要是因为标注数据集匮乏,如果无监督的中文实体关系抽取在大规模网络文本上有了飞跃性的发展,那么Deep Learning也将在此领域大放异彩。无论运用哪一种方法,不断的技术更新是不可缺少的,只有克服相应的问题,找出解决办法或者替代方法,基于中文的实体关系抽取研究才能取得长足的进展。

猜你喜欢
语料语义实体
基于归一化点向互信息的低资源平行语料过滤方法*
语言与语义
前海自贸区:金融服务实体
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
批评话语分析中态度意向的邻近化语义构建
“社会”一词的语义流动与新陈代谢
“吃+NP”的语义生成机制研究
《苗防备览》中的湘西语料