基于PCNN-Attention的土壤肥力关系抽取研究

2022-09-21 03:34周乐乐张彩丽刘楠楠
安徽农业科学 2022年17期
关键词:土壤肥力注意力实体

季 丰,周乐乐,张彩丽,任 竹,刘楠楠,陈 磊

(安徽省农业科学院农业经济与信息研究所,安徽合肥 230001)

在农业生产的过程中,准确、迅速地获取土壤肥力相关数据,进行综合评估与分析,对精准农业生产具有重要的意义。随着时代的进步,计算机技术在农业生产领域得到了普遍的应用。利用知识图谱构建土壤肥力知识问答系统,能够有效、快速获取土壤肥力的相关数据,有助于开展精细化农业生产。

关系抽取(Relation Extraction,RE)是知识图谱构建中的重要环节,具有关键的理论意义和丰富的应用前景,为多种应用提供重要的支持。关系抽取主要负责在命名实体识别的基础上,抽取实体间的语义关系,组成实体A、关系、实体B的结构形式。一个完整的RE系统包含3部分:实体识别(用于抽取文本中的实体)、实体链接(将抽取的实体和已有的知识图谱关联)、关系分类(根据上下文对实体关系进行分类)。

在中文土壤肥力相关的文本中,存在“一个文本中存在多种指标类型”“有些存在关系的实体之间距离较远,抽取困难”“文本中对同一种指标的描述方式不一样”等问题,传统的关系抽取方法效果一般,针对这类问题,笔者提出了一种基于PCNN-Attention的土壤肥力关系抽取方法,能够较好适用于土壤肥力领域的文本,满足土壤肥力知识图谱系统构建的需求。

1 相关研究

关系抽取的方法大致有监督学习、半监督学习及无监督学习3类。其中监督学习使用的数据集通常经过完全正确的标注,因此只需要对关系进行分类即可。半监督学习是通过人工部分标注文本,从而构建模板,通过模板选取实力组成训练集,这种方法受到模板构建和规则的影响,会产生噪声影响结果,从而使数据精确度较低。 无监督学习不需要进行人工标注,而是利用语料中的冗余信息进行聚类,通过结果判断关系,但由于聚类方法对关系的描述不够准确,无监督学习通常无法取得精确的关系抽取效果。

监督学习方面,2013年Liu等提出了使用卷积神经网络进行关系抽取。与传统方法相比,提高了准确度。 2014年Zeng等改良此方法,对输入的词向量进行预处理,同时加入了实体的词汇特征,优化了关系分类的效果。之后,Zhang等提出使用循环神经网络进行关系分类,效果显著优于卷积神经网络。Zhou 等借助长短期记忆人工神经网络,并添加注意力机制,提高了分类的准确度。Zhu等尝试将注意力机制与卷积神经网络相结合,在英文数据集中取得了不错的效果。在半监督学习方面。2015年Zeng等借助多示例学习方法降低噪声,并优化了远程自动标注导致的数据错误问题。虽然降低了噪声对于关系分类的干扰,但也遗失了部分数据。Lin等在此基础上添加注意力机制,在降低噪声影响的同时,提高了数据的利用率。

目前英文数据集上的关系抽取研究较为成熟,而因为中文数据集的缺失,中文关系抽取领域研究较薄弱。Wu等结合注意力机制和卷积神经网络尝试进行中文关系抽取,在中文文本数据上提升了准确性。丁泽源等利用结合注意力机制的双向长短期记忆网络实现关系抽取,在中文生物医学领域得到了不错的结果。姚博文等针对中文人物关系领域的文本中语法结构复杂,文本语义特征不明显的问题,通过预训练模型较强的语义表征能力生成词向量,并将文本句子分层次进行特征提取,在中文人物关系数据集上验证了较好的准确性。

从早期基于模式匹配的关系抽取到后来基于机器学习的关系抽取,实体关系抽取得到了广泛的关注。目前随着以深度学习为基础的人工智能潮流席卷全球,自然语言处理也取得了突破进展。深度学习下实体关系抽取有效改善了传统标注工具的自身缺陷,取得了良好的效果,并成为近些年研究的热点与关键。然而实体关系抽取至今仍面临许多挑战,如实体语义关系的复杂性、句与句之间实体关系的模糊性、数据规模不足与模型学习能力的冲突等都制约着实体关系抽取的发展。

2 基于PCNN-Attention的关系抽取

采用PCNN-Attention模型实现关系抽取,模型结构如图1所示,包括BERT预训练语言模型、卷积层、分段池化层以及Softmax分类层。

图1 模型结构Fig.1 Model structure

本层的作用是对文本进行向量化,与其他模型有所区别的是,该研究使用的PCNN模型同时考虑单个实体词语义信息和每个实体词与其他词的相对位置,因此需要分为词向量化和位置向量化2步,从而将输入的文本转化为向量形式,以便于计算机进行处理。

训练数据集为中文土壤肥力领域文本,为了便于计算机的处理,利用BERT预训练语言模型进行词向量化,训练得到每个词对应的向量。

通过以下方法对句子向量化:首先,将句子拆分为数个单词,并将2个实体词作为基准词,将其在句子中的位置视为0,分别计算其他词相对于基准词的位置。例如,“五莲县土壤全氮含量为0.82 g/kg”,可以分为“五莲县”“土壤”“全氮”“含量” “为”“0.82 g/kg”6个词,其中“五莲县”和“0.82 g/kg”为实体词,则其他词关于“五莲县”的相对位置为[1,2,3,4,5],关于“0.82 g/kg”的相对位置为[-5,-4,-3,-2,-1]。

首先将经过BERT预训练语言模型处理的数据输入本层进行卷积,本层设计了3个卷积,每个卷积包含100个卷积核,卷积核的大小为1*3,1*5,1*7。

依据中文土壤肥力领域文本的特征,本层采用了GELU激活函数。设输入为,公式为式(1)所示:

(1)

本层功能是将卷积层输出结果进行分段,再分别池化。由图2可知,模型将句子按照实体词的位置分段,分别为句首~实体1、实体1~实体2、实体2~句末,再分别进行池化。

图2 分段池化Fig.2 Segmented pooling

句子分段完成后,对3部分分别进行填充,按照其中最长的1个分句的长度为基准,分别对另外2部分进行填充,并将填充的位置标注为1,未填充的位置标注为0。

由于句子被2个实体词分为3段,每个卷积核的输出同样为3份,若设卷积核的数量是,本层的输出向量是一个长度为3的向量,如式(2)所示:

(2)

为了防止模型过拟合,提高鲁棒性,模型在分类前经过Dropout层、ReLU层以及线性层处理池化层的输出,然后对数据进行降维操作,借助线性层将维度降到维,为关系类别。最后采用Softmax进行关系的分类,通过输入数组中第个节点的值和节点的个数,即分类的类别数,得到Softmax函数的输出值,如式(3)所示:

(3)

注意力机制(Attention Mechanism)是深度学习的核心技术之一,该技术参考了人类视觉系统的选择性注意机制,人类视觉可以快速扫描目标,从而获取目标中的重点区域,对其投入更多注意力资源,以获得更多关注目标的细节,而抑制其他无用信息,提高了视觉信息处理的效率与准确性。借助此机制,在文本数据中可对数据进行权重分配,通过信息的重要性来确定权重,给予重要信息更高的权重分配,导致其对关系抽取产生更大的影响,从而提升关系抽取效果,具体过程如式(4)、(5)、(6):

=()

(4)

(5)

(6)

式中,为输入状态序列,是学习函数,受到的影响。通过该公式,可以视为计算的加权平均,从而确定权值,将其视为注意力。最后,通过该注意力权值对序列的隐含向量进行加权,从而计算出关系向量。该向量则为通过注意力机制优化的输出向量。

3 结果与分析

通过中国知网精确检索土壤肥力相关文献构建实验数据集,检索式为SU=(土壤)*(肥力+测土配方+土壤养分+全氮+全磷+全钾+pH+有效磷+有效氮+有机质+黏粒+砂粒+粉粒)NOT TI=(订阅+订购+征文+征稿+稿约+声明+启事+通知+须知+通讯+论文索引),选取下载1980年至2021年土壤肥力相关文献共计1 036篇,并对文献中土壤肥力水平十大指标(pH、全氮、全磷、全钾、有效氮、有效磷、有机质、粉粒、黏粒、砂粒)进行标注,从而形成文本数据集。其中训练集725篇,测试集311篇。

试验环境如下:操作系统为Windows 10;CPU为Intel(R)Xeon(R)Bronze 3106 CPU @1.70 GHz;GPU为NVIDIA GeForce RTX 2080 Ti(11G);Python为3.7.3;TensorFlow为1.14.0;内存为32 G。参数设置如表1所示。

表1 参数设置Table 1 Parameter setting

分别采用准确率、召回率以及值3组数据评价模型性能,具体公式如式(7)、(8)、(9):

(7)

(8)

(9)

式中,为被正确地划分为正例的样本数,为被错误地划分为负例的样本数,被错误地划分为正例的样本数。

在上述试验设置下,通过PCNN-Attention模型对7种关系进行提取,具体结果如表2所示。从结果数据中可以看出,准确率、召回率、值的宏平均值分别达到了85%、78%、80%,加权平均值分别达到了89%、89%、88%,证明该模型能够有效提取土壤肥力相关的7种关系,能够满足土壤肥力知识图谱系统构建的需求。

4 结语

针对中文土壤肥力文本中指标类型较多,语法结构较为复杂,同一指标描述方式不同等问题,提出一种基于PCNN-Attention的土壤肥力关系抽取模型,该模型先结合BERT预训练语言模型进行文本的向量化,再利用分段卷积神经网络实现关系抽取,并在此基础上添加了注意力机制,以提高关系分类的准确性。在中文土壤肥力相关文献数据集上对模型进行试验,试验结果数据显示,该模型在中文土壤肥力领域,对土壤肥力相关数据指标能够有效进行关系抽取,具有较为可靠的准确率,能够满足土壤肥力知识图谱系统构建的需求。

表2 不同指标准确率和召回率的比较Table 2 Comparison of accuracies and recall rates of different indexes %

猜你喜欢
土壤肥力注意力实体
让注意力“飞”回来
前海自贸区:金融服务实体
拉萨市土壤肥力变化趋势与改良策略
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
“扬眼”APP:让注意力“变现”
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
安吉白茶园土壤肥力现状分析
不同有机物料培肥对渭北旱塬土壤微生物学特性及土壤肥力的影响
不同种类绿肥翻压对土壤肥力的影响