基于深度学习的关系抽取关键技术综述

2020-10-20 03:23熊常春辜贤杰张林
商情 2020年40期
关键词:深度学习

熊常春 辜贤杰 张林

【摘要】知识图谱在人工智能领域扮演了重要角色,在智能搜索、千人千面推荐、机器人助手等智能信息服务中创造了巨大价值。构建知识图谱不可或缺的工作是关系抽取,同时随着基于深度学习的预训练、图神经网络、远程监督等研究与实践的开展,关系抽取工作硕果累累。本论文总结了近几年来基于深度学习的关系抽取研究进展的同时,并就未来关系抽取研究与工业实践工作存在的机遇与挑战进行了梳理。

【关键词】关系抽取  深度学习  联合学习  远程监督  预训练

引言:在知识图谱领域,Google做了很多开创性的工作,其概念最早来自于该公司2012年一篇博文,在这之前的语义网、链接数据的概念已经流行,其初衷是让搜索引擎能洞察用户语义信息,提高信息搜索质量和网络服务体验。知识图谱在学术上来说可以解释为是一种语义网络或本体论,即我们口头常说的多关系图。目前一大批知识图谱系统如KnowItAll、YAGO、DBpedia、Freebase、Probase、Microsoft Concept Graph和OpenKG等相继建设起来。知识图谱可以用RDF格式对事物、关系进行形式化描述,目前在智能搜索系统、个性化推荐应用和目标导向型、闲聊型的智能助手系统等领域得到广泛使用。

知识图谱工程工作量相对来说比较大,内容涉及比较多,其中知识抽取主要包括实体识别、关系抽取和事件抽取。“关系抽取[2]就是找出文本中的实体,同时区别实体间的语义关系”。即从待处理的文本中抽取<实体,关系,实体>集合。

传统的实体关系抽取方法主要有基于特征向量、核函数和神经网络模型等多种基于模板、监督或无监督的方式方法,随着研究和实践的深入,当前预训练模型在垂直和开放领域都取得不错的效果。由于篇幅所限本文主要探讨基于深度学习的关系抽取关键技术即:流水线、联合学习、远程监督和预训练等。

本文首先以知识图谱框架体系为基础,以关系抽取核心技术为重点,详细阐述流水线学习、联合学习、远程监督、预训练模型的相关研究。其次介绍了关系抽取在金融、医疗、机器人助手等领域的相关应用,最后讨论了关系抽取技术研究和工业实践所面临的机遇和挑战。

一、知识图谱框架体系

知识图谱(体系架构如示意图1)一般是从结构化、非结构化等授权数据、公开数据或者第三方数据中来,通过图映射、D2R转换、包装器和知识抽取等多种方法获取数据。经过知识获取(如实体识别、概念提取、关系抽取、新词发现)、知识融合(实体对齐、消歧、分类、规范化)、知识存储(如图数据库Neo4j)、知识计算(知识表示、知识推理)以及后期的可视化等环节来为推荐、搜索、推理等应用服务。

搭建工业级知识图谱的方式多样,大多数都采用自底向上的方式进行建设。最底层是各种数据源,包括人、事、物和机器的相关数据;中间层是通过信息抽取技术形成知识图谱,最上层是语义搜索、辅助推荐及智能助手等应用。

二、关系抽取的核心技术

随着深度学习的发展,关系抽取相关综述论文热度不减,呈现百花齐放的态势,关系抽取模型有流水线和联合学习的监督模型,以及后来的远程监督、预训练模型等。

在有监督的关系抽取技术中,卷积神经网络CNN首先被引进来,随后注意力机制Attention以及 Attention+Bi-LSTM等神经网络模型先后被借鉴。在这过程中有很多开创先河的研究者譬如Zeng D、Katiyar A等人。后期还有一些学者把增强学习也引用到关系抽取任务中,不过案例较少。

最近用于处理图数据结构的神经网络结模型GNN越来越引起研究者注意,在各个领域包括社交网络、推荐系统以及生命制药等领域都有不同的发展。图神经网络一般分为:图卷积网络、图注意力网络、图自编码器、图生成網络和图时空网络。鉴于一般深度学习模型只提取实体之间的关系,2019年Zhu Hao等人利用图神经网络GNN实现关系抽取,由于GNN在复杂图结构建模方面的超强能力,在关系推理、链路预测方面取得了非常好的效果,架构如图2。

同时远程监督学习方法也被借鉴到实体关系抽取中来,远程监督就是将已有的知识库“映射”到可以获取的自有非结构化数据中,从而生成大量的训练数据,进而为工业知识图谱打磨出一个效果不错的关系抽取器。学者们提出PCNN与多示例学习的融合方法、PCNN与注意力机制的融合方法、Ji GL等人提出在PCNN和 Attention的基础上添加实体的描述信息方法等取得重大进展,这些模型总体说来不但高效、而且成本低。

自2018年10月,Google公布BERT预训练模型后,关系抽取取得划时代的进步。

(一)流水线(Pipeline)学习

流水线方法中一般是基于RNN、CNN和LSTM模型。其中CNN模、CNN模型+ Attention注意力机制、LSTM 模型+最短依存路径(SDP)、和LSTM+CNN结合等几种模型表现较好。

Zeng 等人第一次借鉴卷积神经网络模型CNN思路来构建关系抽取任务,尽管设定的卷积核大小是固定的,能够抽取到的特征相对来说也比较少,但是其F1值达到当时的最高值82.7,是早期的CNN实现关系抽取的经典方法。Thien Huu Nguyen等人把关系抽取、关系分类当做两个主要任务,在Zeng等前人卷积神经网络基础上且有别于使用多粒度卷积核进行特征抽取,效果提升了0.1%。Santos Cicero Nogueira dos在Zeng等人基础上创新性的优化损失函数为Ranking loss函数,F1值达到84.1,其在结构上没有什么区别,都是CNN+全连接。其主要创新点在:①模型为句子的每种关系学习一个向量表示:②训练过程中每个句子对应一个正、负例;而且正例分数要尽量高,其他类别分数尽量低,其函数为:

L=log(1+exp(γ(m+sθ(x)y+))+log(1+exp(γ(m-+ sθ(x)c- )

为解决Santos解决方案的缺点——模型结构缺陷,Zhou P等人利用Attention注意力机制以及Bi-LSTM ,虽然F1值84.0,但是操作方便简单,为后续研究解放了思路。Cai R等人跳出CNN、RNN研究框架的限制,提出了一种 BRCNN 网络模型即:双通道LSTM +最短依赖路径SDP模型,该论文的亮点比较突出,双向进行了融合,F1值达到历史最高86.3。

(二)联合学习(Joint Learning)

联合学习模型主要解决以前模型存在三种问题:①错误传播会累积,②子任务间关系依赖被忽视;③而且容易产生冗余实体。综合来看,根据其研究模型的建模对象不同有参数共享和序列标注两类联合学习方法:①参数共享就好比一个4*4*3的卷积核,这个卷积核内48个参数被整张图共享,而不会因为图像内位置不同而改变卷积核系数;就关系抽取参数共享模型,解码层目前探索出 Bi-LSTM、依赖树和注意力机制等几种变化来解决上述错误传播等问题;②序列标注有很多种方法,就关系抽取模型主要用了一种端到端模型的新标注策略,目的是解决实体冗余问题。

M Miwa提出端到端实体关系联合抽取开山巨作模型,首次将神经网络模型运用到实体关系联合抽取任务中,为后来很多研究工作者提供了参考和借鉴。随后Zheng Suncong等人利用共享神经网络来进行联合学习。根据Miwa和Zheng等人的实践,充分说明使用共享参数联合学习比流水线学习方法有一定的优势(F1值约提高1%),这促使该方法成为当时通用的研究与实践方法。Zheng Suncong等人又提出不同的端到端模型,该方法优美的将实体、关系联合抽取工作看作序列标注任务,创新性的采用新标注策略,能讓人眼前一亮的直接展示结果,成果当然显著,后来该篇论文不负众望的被评为2017年ACL最佳论文。

(三)远程监督学习

远程监督关系抽取技术使用外部知识库作为监督源,基于一个小型标注好的语料库,自动对现有语料库进行标注,这样可以节省人工标注成本,为研究或工业界的数据收集开启了新纪元。

Mike Mintz等人第一个将远程监督模型引用到关系抽取工作中。Zeng等人使用神经网络+远程监督模型(如图3),该论文成为当时的扛鼎之作,其主要奉献是:1)使用PCNN解决标注问题即:主动学习文本特征,并有效提取实体对关键信息;2)使用多层实例解决错误标签问题。

Yankai Lin等人用注意力机制Attention来选取对关系提取有影响的句子,刷新了历史最好记录。后来Ji GL等人使用APCNN模型,具有两大优势:①使用句子层注意力模型,同时像PCNN一样,在一个包里选择多个有效实例;②使用传统CNN抽取实体特征,为预测关系提供描述信息。清华大学、复旦大学针对篇章级别、开放领域做了大量富有成效的研究。

(四)预训练模型

2018年10月,Google发布了预训练模型BERT在自然语言处理任务中的实验结果,取代了特别有影响的残差网络效果,标志着NLP工作取得划时代的进步。研究发现从word2vec到ELMo到BERT,是NLP把具体任务的工作逐渐上移到预训练产生词向量的过程。BERT模型出现后,预训练词向量级别变成句子级别,方便下游NLP应用调用。BERT采纳Masked Language Model(MLM)模型,解决“自己看到自己问题”,最终能生成双向的语言表征。

2003年Mikolov T等人首次向世人展示了影响深远的word2vec模型,该模型采用无监督的训练方法以得到词嵌入,当时取得巨大成功。后期谷歌、微软等公司或学者提出基于语言模型的预训练方法。Matthew Peters等人提出了ELMo模型来取得深层的上下文表示。Alec Radford 等人提出了将LSTM更改成单向Transformer生成预训练模型 GPT,后来Logan Iv R L等人将语言模型和知识图谱嵌入结合使用,Bosselut A等人将 GPT2 语言模型与种子知识图谱相结合,不但可以生成新的种子图,而且学习到其结构和关系。Devlin等人提出了具有划时代意义的双向预训练模型BERT(ELMo、GPT和BERT架构比较如图四),采用Transformer双向编码器提取更为有效的信息;Soares L B等人提出一种通用目的关系抽取器,一种在零样本和小样本任务中效果比较突出的关系模型——像 BERT预训练,提取非常通用的关系。微软研究者提出MASS模型,解决了BERT预训练过程Encoder-Decoder的相互脱离问题。同时清华大学的ERNIE、哈工大讯飞联合实验室在多个中文数据集上取得了当时最好水平。当然还有北京大学和腾讯联合研究的基于垂直领域关系抽取模型也收获不少,读者还可以参考国内清华大学刘知远团队论文以及中科院计算机所、复旦大学、西湖大学等NLP相关杰作。针对BERT比较耗时问题,You Y等人提出了LAMB优化器,属于通用的神经网络优化器,无需大量调试超参数,可以应用的网络也较多,最终该算法提速惊人,BERT训练从81.4小时缩短到76分。

三、典型应用

经过关系抽取,能使互联网的信息服务更贴近人类思想,更能满足人类所搜所要。充分运用关系抽取构建的知识图谱,不但可以让人类拥有开放的知识库,而且还能找到一把开启各个智慧行业的钥匙。当前关系抽取运用在搜索、推荐和推理案例多而且价值巨大,其中今日头条、谷歌Google Search等搜索、推荐技术服务于广大人民大众,创造了不可估量的价值;在垂直行业如在金融、医疗、电商和机器人助手等均有不少案例。平安科技基于BERT预训练的方法攻克的法律关系抽取模型,能从法律文书、合同等文本中实现关系抽取,从而获得如人物与担保、质押、股权的机构关系。同样在医疗健康领域,中国中医科学院构建了6个中医药知识图谱资源集,把各个医学概念的语义关系,各个应用系统的知识等链接起来,为人民大众提供智能化的医疗健康服务;中国科学院自动化研究所类脑智能研究中心通过文献自动分析与挖掘,构建了脑科学领域的脑结构与各种认知功能、脑疾病之间的关联关系。另随处可见外机器人助手出现在移动大厅、医院大堂或大型游乐场,为人们提供智能客服或闲聊服务。

四、关系抽取面临的挑战

知识图谱的构建不光涉及人工智能具体技术,而且触摸到人类的思维运作原理。在当前行业数据之间差异性、数据分布不均性的情况下,要做好这项任务是极具挑战的。我们可以尝试从模型可解释性这点上来优化和建模,可以找寻“通用特征”(如常用知识库)来丰富其他特征。

(一)降噪问题

噪音问题的研究到目前为止涌现出很多新思路,譬如基于图谱的去噪方法就有空间域滤波、基于变换域滤波、偏微分方程、小波域滤波、全变分图像去噪和形态学噪声滤除器等;噪声的研究范围和深度也在不不断扩展,譬如有图像去噪、音频去噪、文本去噪等。噪声问题是建立数据集的最大挑战,特别是在海量非结构化数据方面存在准确率过低,成本过大的问题。在研究实践时需要把噪音样例过滤掉,目前吸引了大批的学者。

(二)数据问题

自然语言处理领域主要有低资源、复杂样本和数据质量等主要问题。同时还有数据隐私问题:即使匿名情况下,也可以根据关系特征搜索出个人或企业不愿意公开的相关信息。这些问题将是未来一段时间内研究的热点。

(三)可解释性问题

可解释性属于深度学习需要攻克的高地,需要打通机器感知和认知,这将是关系抽取乃至整个人工智能领域的主要研究方向之一。随着深度学习的研究和实践,深度学习的可解释性在不断突破,特别是在智能助手系统、阅读理解中取得一定成绩。Keras的作者认为:深度学习有可能把自然语言、数学方程等与已经比较发达的符号处理系统融合。如果把深度学习的智能高效化优势;把符號处理系统已经在垂直行业积累的专家知识、方法和思想;把知识图谱、推理和上下文融合起来,最终以智能大脑的形式为人类美好生活服务,那么未来可期。

参考文献:

[1]AMIT S.Introducing the knowledge graph[R].America:Official Blog of Google, 2012.

[2]肖仰华等著.知识图谱-概念与技术 [Z].网站,2020-03-20.

[3]徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606.

[4]Jacob Devlin,Ming-Wei Chang,Kenton Lee,and Kristina Toutanova.2018.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.arXiv preprint arXiv:1810.04805.

[5]Zeng D,Liu K,Lai S,Zhou G,Zhao J.Relation  classification  via convolutional  deep  neural network. In: Proc.of the 25th Intl Conf.on Computational Linguistics: Technical Papers (COLING 2014).2014.2335 2344.

[6]S.Zheng,F.Wang,H.Bao,Y.Hao,P.Zhou,B.Xu,Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme,ACL.(2017).

[7]Zeng D,Liu K,Chen Y, Zhao J.Distant supervision for relation extraction via piecewise convolutional neural networks.In:Proc.of the Conf.on Empirical Methods in Natural Language Processing.2015.1753 1762.

[8]Zhu H, Lin Y,Liu Z,et al.Graph Neural Networks with Generated Parameters for Relation Extraction[J].2019.

[9]Zhang Z,Han X,Liu Z,Jiang X,Sun M and Liu Q.2019.ERNIE:Enhanced language representation with informative entities.arXiv preprint arXiv:1905.07129.

[10]Yuan Yao,Deming Ye,Peng Li,Xu Han,Yankai Lin,Zhenghao Liu,Zhiyuan Liu,Lixin Huang,Jie Zhou,Maosong Sun.DocRED:A Large-Scale Document-Level Relation Extraction Dataset.The 57th Annual Meeting of the Association for Computational Linguistics(ACL 2019).

猜你喜欢
深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究