刘丽
(上海对外经贸大学 上海市 201600)
随着互联网和信息技术的不断发展,沉淀出海量的非结构化数据,如何将这些数据更加智能化地应用在信息服务中成了大数据时代热门的研究课题。谷歌在2012年提出知识图谱项目,旨在实现搜索引擎的智能化搜索,得到质量更高的搜索结果。
信息抽取是知识图谱构建的关键环节和核心任务,从海量数据中提取出实体、实体关系和属性等知识元素,为下游智能化应用提供数据支撑。实体识别和实体关系抽取是信息抽取的核心关键任务,近年来,深度学习方法被广泛应用于信息抽取,抽取效率和效果均有明显的提升。
本文首先介绍关系抽取的基本概念,然后总结出基于深度学习方法的实体关系抽取技术框架,最后系统地介绍了联合学习方法的分类以及对应的研究现状。
实体抽取任务首次出现在1998年的MUC-7 会议[1],涌现出模板方法和机器学习方法等实体关系抽取方法。早期的关系抽取任务大多采用模板方法[2]和机器学习[3]方法,而这些方法都需要具备一定的领域知识,通过构造出的模板或者提取出的语义特征来预测实体对之间存在的语义关系。
深度学习技术兴起后,因其具备较好的领域迁移性以及能够自动学习语义特征等优势,被广泛应用于信息抽取等自然语言处理任务,并取得较好的效果。
实体关系抽取是为了抽取非结构化数据中实体对之间的语义关系,得到实体关系三元组
根据实体识别和关系抽取实现的先后顺序,可以将信息抽取分为流水线方法和联合学习方法。流水线方法是在识别出实体的基础上判断实体对之间的关系,联合抽取方法是在同一个模型中同时识别出实体和实体关系。
以句子“北京是中国的首都”为例,使用流水线方法需要首先识别出实体对“北京”和“中国”,然后再根据预定义的关系集合,判断该实体对最有可能的语义关系。使用联合学习方法则在同一个模型中,同时识别出实体对和实体关系。
根据数据标注的程度,基于深度学习的流水线方法可以分为有监督方法和远程监督方法两类。有监督方法是在标注好训练数据的情况下开展模型的训练,远程监督方法则不需要进行数据标注,可以大大地减低数据标注的成本。主流的流水线学习方法主要采用卷积神经网络[4](CNN)和循环神经网络[5](RNN)两大类结构,在此类结构的基础上发展出长短时记忆网络[6](LSTM)、双向长短时记忆网络[7](BiLSTM)以及图卷积神经网络[8](GCN)。
在关系抽取任务中使用流水线学习方法通常会出现实体冗余和错误传播的问题,另外,流水线方法也难以解决关系重叠和复杂关系问题。关系重叠问题可以看作是一对多的问题,即一个实体与语料中的其他实体存在多个语义关系。复杂关系问题指的是一个实体对之间存在多种语义关系,通常是由于存在嵌套实体,导致实体对之间出现复杂关系。
联合学习方法能够解决流水线方法中实体识别和实体关系抽取两个子任务之间联系不紧密的问题,避免子任务之间的错误累积。同时,可以解决实体重叠或关系重叠问题,提高关系抽取的效果。目前,联合学习方法的实体关系抽取技术可以分为基于参数共享的方法,基于序列标注的方法和基于图结构三类方法。
基于参数共享的联合学习方法分别对实体和实体关系建模,共享模型中的部分参数,将实体识别的损失与关系抽取的损失相加作为联合模型的整体损失。
Miwa 等人[9]将两个BiLSTM-RNN 模型应用于联合抽取实体和关系,该方法在第一个LSTM 模型中预测出实体标签,在下一个LSTM 单元上连接树结构LSTM 模型,从而实现两个子任务共享LSTM 编码层的输出。Katiyar 等人[10]将注意力机制融合到联合学习模型中,首先利用BiLSTM+softmax 得到实体标签,再利用注意力机制进行关系分类。这两个模型中的关系分类子任务和实体识别子任务都共享了编码层的双向序列LSTM 表示,但是没有解决实体重叠问题,会出现匹配不到语义关系的实体冗余和计算复杂度高等问题。Zheng 等人[11]将BiLSTM 模型和CNN 模型融合成一个实体关系抽取的联合模型,共享BiLSTM 编码层,在实体识别和关系抽取模块中,分别采用LSTM 模型和CNN 模型解码,解决了实体冗余和错误累计的问题,但是无法是别处复杂实体中的实体重叠问题。Giannis 等人[12]将一对多的关系抽取看作是多头选择的问题,搭建了基于参数共享的多头选择联合抽取模型,在联合模型中同时得到一个实体与其他实体存在的多个语义关系,解决了关系重叠问题。
基于序列标注的联合学习方法同时对实体和实体关系建模,在同一个模型中得到实体关系三元组。对实体和实体对同时做标注,在一个模型中共同编码,将实体与实体关系的联合抽取转换成序列标注的问题。
Zheng[13]等人提出了一个新的标注策略,同时标注实体的位置信息、实体关系类型信息和实体角色信息。采用BIOES 标注集标注实体词的位置信息,预定义关系类型并编码,如{CF,CP…..},并对实体角色编号。Dai 等人[14]提出了一种新颖的联合抽取模型,该模型为n 个单词的句子生成n 个标记序列,根据查询词位置P 标记实体和关系标签。同时,引入位置注意力机制为每个查询位置生成不同的句子表示,该模型可以同时提取实体以及实体类型和所有重叠关系。Yu 等人[15]将实体关系抽取任务看作是头实体的标记以及对应尾实体的标记任务,对每个实体关系标记相应的头尾实体。刘雅璇等人[16]提出了基于头实体注意力的联合抽取模型JSA,将实体关系抽取分为两个互相影响的实体抽取子任务,第一个子任务对头实体的起止位置进行标记,第二个子任务分别对每个头实体标记对应的尾实体起止位置。该方法解决了流水线模型中的实体冗余和实体重叠问题,同时学习头实体和尾实体之间的依赖关系。Duan等人[17]设计了一种基于多头自注意力和稠密连通图卷积网络的关系自适应实体关系联合提取模型(MA-DCGCN),利用多头注意机制为实体之间的多种关系类型分配权重,以保证多个关系的概率空间不互斥。该机制还可以灵活预测各种关系类型和实体对之间的关系强度,通过稠密连通图卷积网络提取文本图中更深层次的结构信息。
基于图结构的方法利用图对实体和实体关系建模,充分考虑实体和实体关系之间的依赖。实体和关系构成的图结构能够充分地考虑到所有实体对之间的关系,对于实体重叠和关系重叠问题具有一定的改善作用。
Wang 等人[18]设计了一种转化框架将实体关系抽取转化成有向图,便于捕获实体与关系之间的联系和实体之间的联系,交叉进行实体抽取和关系抽取任务。Fu 等人[19]提出了一种基于图卷积网络(GCNs)的联合抽取模型GraphRel,通过堆叠的BiLSTM 编码器和GCN 依赖树编码器自动学习特征,利用线性和依赖结构图提取文本的序列特征和区域特征,使用词图提取文本所有词语之间的隐含特征。该模型通过对实体关系赋权建立全连接图,考虑到了所有词对之间的关系以及实体与关系之间的相互作用,有效地解决实体重叠和关系重叠问题。
联合学习方法将实体识别与实体关系抽取两个子任务合并成一个任务,在同一个模型中同时得到所有的实体关系三元组,有效减少流水线模型存在的错误累积和错误传播问题,也能够减少冗余实体的出现。同时,联合学习方法可以在不同程度上解决实体重叠以及关系重叠问题,基于图结构的关系抽取方法为研究人员提供了新的联合抽取思路,整体来说,联合抽取方法的模型性能还有待提升。