面向煤矿领域的文本关系抽取关键技术研究

2020-10-09 10:24张淑霞龚炳江
电脑知识与技术 2020年22期

张淑霞 龚炳江

摘要:关系抽取是信息抽取的子任务,将关系抽取应用到煤矿的规范、章程等诸多复杂的文本信息方面,对于煤矿行业知识图谱的构建等研究有重要的价值。文章将目前基于规则、基于机器学习和基于深度学习的关系抽取等主要技术的方法和思路进行分析,并提出了使用BiLSTM-ATT(双向长短期记忆网络一注意力机制)模型来实现煤矿行业文本信息中实体关系的抽取。该课题可以为从事煤矿行业的人员和其他领域的研究提供较大的实际意义。

关键词:煤矿行业;关系抽取;主要技术;BiLSTM-ATT模型;文本信息

中图分类号:TP391.1 文献标识码:A

文章编号:1009-3044(2020)22-0187-03

开放科学(资源服务)标识码(OSID):

1 背景

近年来,随着网络信息资源的不断扩充,信息数据呈现高速增长,在互联网中准确高效地获取所需要的信息成为当下研究的热点,因此信息抽取技术得到广泛关注。而煤矿行业本身就存在着诸多烦琐的规章、条例、规范等信息,因此本课题旨在挖掘煤矿领域文本数据中的语义关系,为构建知识图谱、智能问答等能够快速获取所需信息的研究提供坚实的基础。关系抽取是信息抽取的主要步骤之一,在自然语言处理中有着广泛的应用。

关系抽取具体来讲是指从非结构化的文本数据中找出实体之间存在的关系,并表示为三元组:<实体1,关系,实体2>。通过关系抽取,可以找出实体间更多隐藏的关系,帮助计算机更好的理解大规模的文本数据信息。本文将对目前已有的关系抽取技术进行分析对比,并在此基础上针对煤矿领域的条例、规范等数据,提出实现关系抽取的解决方法,为构建煤矿行业知识图谱和实现智能问答提供有效的帮助。

2 关系抽取的发展历程

MUC是美国一个研究委员会资助的信息理解会议,一直致力于信息抽取方法的研究,关系抽取最早是MUC于1998年的第七次会议上以关系模板的形式提出的[1]。MUC只召开过七次,之后在1999年,美国的研究院又召开了ACE(自动内容抽取)评测会议,ACE针对新闻行业的实体关系抽取展开研究,为以后关系抽取的发展提供了基础的语料和关系类型,在一定程度上推动了关系抽取技术的进步。近年来,开放域关系抽取方法在语料获取方面提供了有效的解决方法,逐渐走进研究人员的视野,慢慢受到越来越多的关注。目前的维基百科、Freebase等大规模知识库涉及的领域更广、关系类型更多,为研究人员在标注语料的获取方面提供了有效的支持。在当今时代,中文在世界上的使用越来越广泛,对中文实体关系抽取的研究越来越迫切。

3 关系抽取技术的分析比较

本文将中文实体关系抽取方法按照模型的特点分为规则、机器学习和深度学习三类分别进行分析。

3.1 基于规则的方法

基于规则的方法是通过专家对语料的深入分析,列举出其中存在的各种关系模板,构建出大规模的关系模板库,然后在数据集中寻找与模板相似的句子实例,从而获取实体间的语义关系。Fukumoto等人根据谓语动词来判断实体之间的关系,实验结果显示召回率很低,在测试中F指数只达到了39.1%[2]。Aone利用语义关系特征,识别出句子的中心词和修饰词之间的关系,在测试中达到了75.6%的F指数,效果是最好的[3]。 人工规则往往是高精度的,可以针对特定领域进行定制,具有较好的准确率。但是通常会出现低召回率,信息缺乏覆盖率,人工成本高、代价大,设计过程艰难。

3.2 基于机器学习的方法

基于机器学习的方法中最依赖于标注的就是有监督的关系抽取,主要包括特征向量和核函数两种方法。特征向量方法速度很快,但因为语义关系复杂多样,再找出更适合的有效特征来提高性能是不太容易的。核函数的方法是将句子构造为结构树,使用核函数来计算树和树之间的距离,可以综合利用多种不同方面的特征,但核函数计算过程复杂,需要花费大量时间。

最常见的半监督方法是自举方法( Bootstrapping),在没有足够的标注语料时,只需要将每种关系标注少量种子实体对,选择包含种子实体对的相关句子集合,再从句子中抽取关系的模式,以此循环迭代,最終得到关系数据[4]。此方法能自动挖掘句子中的部分词法特征,适合没有足够语料标注的关系抽取场景,但是对种子的质量要求高。

无监督的抽取方法不需要人工标注语料,是通过聚类方法寻找相似度比较接近的实体对,将其归为一类,再使用合适的词语来标注这种关系[5]。相比有监督和半监督的方法有很大的优势;但是聚类阈值确定困难,缺乏必要的语料库,频率少的实例抽取率也低,在评价标准上难以量化和统一。

3.3 基于深度学习的关系抽取方法

有监督关系抽取方法虽然抽取效果不错,但是十分依赖于人工标注提供有效特征,而标注通常会存在一些误差,在关系抽取过程中这些误差最后可能使得结果产生很大偏差,达不到想要的效果。近年来,深度学习的神经网络模型在关系抽取中受到许多研究者的关注,不但节省了人工的工作,并且取得不错的效果,使用神经网络模型来实现关系抽取时,可以自动提取特征,不需要有复杂的设计过程。卷积网络可以通过卷积和池化操作提取句子的重要特征,长短期记忆网络是通过记忆句子的上下文,来提取句子的重要特征。

3.4 方法对比总结

基于规则的方法精确率较高,但局限性强,数据集发生改变时,原来制定的规则可能就不能再满足新的需要,人工再制定规则是非常困难的;而机器学习的方法不再过度依赖专家对语料库的详细分析,只需要有一定的专业知识来提取重要的特征,减少了一定的人工工作量;基于深度学习的方法其实是机器学习的发展分支,能够避免人工特征选择的步骤,自动提取出隐藏的实体关系特征,减少特征误差,效果比机器学习要好。

4 煤矿领域文本关系抽取实现方案

4.1 方法选择的原则

传统的基于规则的方法实现关系抽取任务,需要专家针对语料库手工编写规则,设计规则耗时耗力,过程艰难,若规则设计得不好,会达不到预期的效果,基于机器学习的方法,需要提供标注好的语料库,然后根据定义好的关系类型提取特征,但特征的提取需要经过复杂的设计和验证,也是非常艰巨的任务。目前,基于深度学习的方法得到广泛应用,构造神经网络模型来自动提取特征,可以有效减少误差和人工的工作量。本课题选择使用深度学习的BiLSTM-ATT模型来实现关系抽取任务。

4.2 BiLSTM-ATT模型结构

该关系抽取模型主要分为四部分,分别为:词向量、BiL-STM、注意力机制和Softmax分类器。词向量层的作用是把输入的句子用词向量来表示,也就是将自然语言的文本转换为计算机可以理解的向量形式,嵌入到输入矩阵中;BiLSTM的作用是通过神经网络抽取实体间的关系特征;注意力机制会计算出各个关系特征最终所占关系类型的权重;Softmax分类器会对实体间的关系类别做出最后的判断。

4.3 词向量

词向量层是把自然语言的文本转化为模型所需的数字化向量。使用训练工具Word2vec进行训练,并采用CBOW词袋模型,将一个词的上下文对应的词向量输入,得到该词的词向量。例如一个句子为:“…natural language processmg is an im-portant direction in the field of computer science -”,取上下文大小为6,那么“direction”的前六个和后六个词的词向量就作为输入,“direction”就是需要输出的词向量,在词袋模型中,关键词前后的词没有顺序,不需要考虑这些词之间距离的大小。

4.4 双向长短期记忆网络

循环神经网络(RNN)对于很长的文本,不能很好地联系上下文,只能记住比较近的信息,比较远的信息记忆不到。长短期记忆网络(LSTM)通过引入门机制来决定需要被记住或者需要被丢弃的信息,实质上是优化过的RNN,可以有效记住长文本的内容。

所谓门机制,即模型中包含三个门:忘记门、输入门和输出门,通过公式来计算最终被传递的信息。公式中:输入表示为X,词向量表示为W,,BiLSTM模型对词向量的编码表示为ht。

输入门用来决定当前传人的信息和上一级传送的信息哪些需要被传递,保留在细胞状态C+中,公式为:

但是单纯的LSTM只能单向传递信息,不能记住未来时刻的内容,在一个句子中,实体间的关系不仅仅会被前面所影响,还可能会被后面所影响,所以在BiLSTM中使用前向和后向两个顺序来记忆上下文,最后将两个方向的输出向量连接起来,可以更有效地利用上下文。

4.5 注意力机制

注意力机制的原理就像人在靠视觉感知周围的事物时,往往不会完完全全的每个点都认真看,而是根据需要观察特定的部分。在实体对的句子集合中,不同的句子对于分类的贡献不一样,使用注意力机制学习实例权重,可以从诸多复杂信息中快速注意到对于需求来说更重要的信息,在输出层融入注意力机制,能够更加有效的表征实体间的关系。输出向量以Rh表示,注意力层的权重矩阵由以下公式得出:

4.7 BiLSTM-ATT模型训练过程

首先使用word2vec训练词向量模型,也就是将文本以计算机可以理解的向量形式来表示,构建初始数据集,以词向量矩阵作为BiLSTM层的输入,将初始数据集分别放入forward cell和backward cell,把两个方向的输出向量合并,融合上下文信息,提取句子中的特征,再通过注意力机制计算出特征的权重,最后,使用softmax函数将特征转换为对应的关系类别的概率。

5 结果分析

5.1 实验环境

实验采用的环境见表2。

5.2 实验数据

本次研究针对的数据是煤易联网站中的法规、标准和规范,由于条件限制,只选取了2300个句子作为数据集进行关系抽取,涉及的实体关系共有5种:包含、依据、装配、禁止、影响。关系定义见表3。

5.3 实验结果

由于条件限制,只选择了小部分数据做实验,将数据集中的1840个句子作为训练集,460个句子作为测试集,各类关系的测试结果见表4:

由测试结果可知,“禁止”这类关系的准确率最高,“包含”关系、“依据”关系和“装配”关系的识别准确率较高,“影响”这一关系的识别效果最差,召回率也是最低的。

6 结束语

本文首先分析了目前的关系抽取方法的优劣,然后提出了使用BiLSTM-ATT模型完成煤矿领域语料的关系抽取任务。首先使用word2vec将文本句子转换为词向量的形式,然后将词向量输入到BiLSTM提取关系特征,最后通过注意力机制计算特征的权重,使用分类器对关系类型做出概率计算。实验结果表明,对整体语料库的抽取效果较好,但是由于条件限制,语料不够多,对于“影响”关系类型识别的效果较差,因此,需要在语料库的获取和优化上继续进行研究。

参考文献:

[1]阳小华,张硕望,欧阳纯萍.中文关系抽取技术研究[J].南华大学学报(自然科学版),2018,32(1): 66-72.

[2] Fukumoto J,Masui F,Shimohata M,et al.Oki Eletricity In-dustry: Description of the Oki System as Used for MUC-7[C].Proceedings of the 7th Message Understanding Conference(MUC-7),1998.

[3] Aone C,Ramos-Santacruz M.REES:a large-scale relation and event extraction system[C]//Proceedings of the sixth confer-ence on Applied natural language processing .April 29-May 4,2000. Seattle, Washington. Morristown, NJ, USA: Associationfor Computational Linguistics, 2000: 76-83.

[4]武文雅,陳钰枫,徐金安,等.中文实体关系抽取研究综述[Jl.计算机与现代化,2018(8): 21-27,34.

[5]杜嘉,刘思含,李文浩,等.基于深度学习的煤矿领域实体关系抽取研究[J].智能计算机与应用,2019,9(1):114-118.

[6]陈鹏,郭剑毅,余正涛,等.融合领域知识短语树核函数的中文领域实体关系抽取[Jl,南京大学学报(自然科学),2015(1):181-186.

[7]郭喜跃,何婷婷,胡小华,等.基于句法语义特征的中文实体关系抽取[Jl,中文信息学报,2014,28(6):183-189.

[8]朱珊珊,唐慧丰,基于BiLSTM_Att的军事领域实体关系抽取研究[J].智能计算机与应用,2019,9(4): 96-99.

【通联编辑:谢媛媛】

作者简介:张淑霞(1997-),女,河北衡水人,硕士,主要研究方向为自然语言处理;龚炳江,教授,硕士。