基于深度字词融合的小麦种质信息实体关系联合抽取

2024-04-23 04:34刘合兵贾笑笑熊蜀峰马新明
计算机工程与设计 2024年4期
关键词:种质实体向量

刘合兵,贾笑笑,时 雷,熊蜀峰,马新明,席 磊+

(1.河南农业大学 信息与管理科学学院,河南 郑州 450046;2.河南农业大学 河南省农田环境监测与控制工程实验室,河南 郑州 450002)

0 引 言

由于小麦种质数据包含大量非结构化文本数据,使其在存储、检索和利用方面变得困难复杂。实体关系联合抽取作为信息抽取领域的重要子任务,旨在同时提取非结构化数据中的实体与实体间的关系[1,2],为知识管理、检索及应用提供关键性支撑[3,4]。

因此,为解决小麦种质信息实体关系联合抽取任务面临的实体边界模糊以及关系重叠问题,本文针对小麦种质数据开展实体关系联合抽取研究,主要贡献为以下方面:

(1)使用三轮标注方法人工构建23类实体,25种关系的小麦种质数据集WGD(wheat germplasm dataset)。

(2)提出WGIE-DCWF模型。模型通过BERT的Transformer encoder进行深度字词融合,并使用BiLSTM双向提取上下文语义,提高了实体识别能力,同时建立层叠指针网络,提升了重叠三元组的抽取能力。

(3)分别在WGD与DuIE上进行测试,WGIE-DCWF的F1值分别达到93.59%和77.73%,验证了该模型在提高小麦种质信息数据实体关系抽取效果的同时拥有较好的泛化性。

1 相关工作

目前主流的基于深度学习的实体关系抽取按照实体识别与关系抽取任务的顺序分为流水线抽取和联合抽取,虽然流水线抽取方法[5,6]简单灵活,但是容易带来误差传播以及实体冗余等问题,目前研究者们逐渐聚焦于联合抽取方法研究。

ZHENG等[7]首先提出将联合抽取转化为序列标注的方法,然而由于标签就近匹配,不能抽取重叠关系三元组。唐晓波等[8]提出了VOE标签,虽解决部分关系重叠问题,但需要设计复杂的标注方案。ZENG等[9]设计了Seq2Seq的CopyRE模型,通过引入复制机制将实体复制多次以解决关系重叠问题,但由于解码结构复杂导致局部信息抽取效果较差。文献[10,11]通过关系直接获取头实体和尾实体,但识别候选关系类别难度较大。WANG等[12]统一了标注抽取框架,并通过单阶段解码解决了曝光偏差问题,但句子过长容易出现矩阵混淆问题。WEI等[13]提出了层叠指针标注模型,将关系视为头实体到尾实体的映射,较好地解决关系重叠问题,但语义信息获取不充分。为此,文献[14-16]分别对WEI方法进行改进,添加CLN网络层、双向语义信息以及实体类型提升三元组抽取效果。虽然上述文献能较好地解决关系重叠问题,但是仅使用字符语义信息,未充分结合字符与词汇信息。

在文本向量表示中,字符向量不能表示丰富的语义信息,而词汇向量存储了词的边界信息和语义信息,因此字词混合向量表示有利于实体边界模糊问题的解决。ZHANG等[17]使用Lattice LSTM将词汇信息嵌入到字符的表示中,较好地缓解分词错误,但计算性能较低。Li等[18]基于Transformer融合词汇信息,加快了运行速度。葛军伟等[19]将词汇信息与BERT字符信息混合应用到实体关系联合抽取任务中,较好地解决实体边界模糊问题。以上任务将词汇信息与字符信息融合,虽然提高了实体识别效果,但是仅在模型级别融合词汇信息与字符信息,属于浅层字词融合,没有充分利用BERT的表示能力进行词汇语义信息与字符信息的深层次利用。本文将词汇信息集成到BERT底层,在BERT内部使词汇信息与字符信息进行深度知识交互,以丰富字符编码特征信息。

近年来,相关研究者将实体关系联合抽取技术应用到农业领域,促进了农业信息化的进步。李林等[20]使用多源信息融合以丰富字符向量,但只初步实现了农作物病虫害领域的命名实体识别。武锡梦等[21]采用流水线方法,提取我国珍稀动植物与分布区域和濒危等级之间的联系,但是存在实体冗余现象。吴赛赛等[22]提出主实体概念,以解决小麦病虫害领域关系重叠问题,但标注方案复杂。周俊等[23]对WEI方法进行改进,使用单位标注器和隐藏层提高模型的性能,较好地解决了水稻施肥领域的重叠三元组问题。

针对小麦种质信息数据抽取时面临的实体边界模糊与关系重叠的问题,本文引入词汇信息,提出深度字词融合,并采用层叠指针网络,构建小麦种质信息实体关系联合抽取模型,以实现小麦品种表型和遗传描述自动信息提取。

2 小麦种质数据集

2.1 小麦种质信息本体建模

为了细粒度刻画小麦种质数据蕴含的农艺性状、形态学性状、抗性以及亲缘关系等信息,本文在《小麦种质资源描述规范》和小麦专家的指导下,自上而下地构建小麦种质信息本体,包括小麦品种名称、株高、千粒重等23类实体和25种关系如图1所示。

图1 小麦种质信息本体

2.2 小麦种质信息语料采集与标注

本研究的数据主要来源于中国种业大数据平台,通过爬虫抓取小麦品种审定数据,为避免噪声问题,进行人工删除无效和重复数据,最终构建了包含3063个小麦品种的小麦信息语料,约46万字符。

小麦种质信息语料标注采用头尾实体分离的“01”标记方案。实体关系抽取的标注策略包括序列标注法和指针网络标注法。其中,序列标注法采用就近原则标注实体关系,难以有效应对关系重叠问题。指针网络标注法采用头尾实体分离的“01”标记方案,即实体的开始token和结束token标注为“1”,其余token标注为“0”,并将开始 token和结束token拼接输出实体,可以有效解决关系重叠问题,并且标签使用少,降低了预测时的复杂性。标注方案如图2所示。

图2 头尾实体分离的“01”标注方案

基于小麦种质信息本体构建的23类实体和25种关系,利用doccano在线标注平台(https://github.com/doccano)对小麦种质信息语料进行标注,doccano的标注界面如图3所示。为了获得高质量小麦种质数据集,通过3次迭代的人工标注与纠错模式确保标注数据的准确性。最终构建了小麦种质数据集WGD,其中包含11 681条数据、76 587个实体和73 446个关系。

图3 doccano 标注界面

3 基于深度字词融合的小麦种质信息实体关系联合抽取模型

基于深度字词融合的小麦种质信息实体关系联合抽取模型WGIE-DCWF由编码层和三元组抽取层构成。其中,深度字词融合和上下文语义特征融合两个模块组成编码层;抽取头实体和联合抽取尾实体与关系两个模块组成三元组抽取层。模型总体结构如图4所示。

图4 基于深度字词融合的小麦种质信息实体关系联合抽取模型

3.1 编码层

3.1.1 深度字词融合模块

深度字词融合模块DCWFE(deep character and word fusion encoder)实现将词汇知识集成到BERT预训练语言模型内部,缓解了由于边界模糊导致实体识别性能较低的问题。对于输入句子s={z1,z2,…,zn} 的每个字zi在经过BERT的Embedding 输送进Transformer提取特征时,DCWFE模块在Transformer之间集成字zi对应的候选词向量,并通过多层Transformer encoder,得到深度混合字词表示。该模块由小麦种质词向量表、候选词表示、字词融合向量表示和深层字词融合向量表示构成,其结构如图5所示。

图5 深度字词融合编码层

(1)小麦种质词向量表

为了更好地对小麦种质信息进行统一的知识表示,本文基于通用领域词汇数据和小麦种质领域词汇数据,建立小麦种质词向量表。其中通用领域词汇采用腾讯词向量[24],小麦种质领域词汇使用fastText[25]进行词嵌入计算训练获得,最终形成包含20 300个词汇,维度为200的小麦种质词向量表。

(2)候选词表示

对于输入句子s={z1,z2,…,zn}, 遍历句子s的每个字zi,并查找其在小麦种质词向量匹配的所有候选词,组成字词对,表示为s={(z1,c1),(z2,c2),…,(zn,cn)} 其中ci为字zi在词向量表中匹配到的所有词,例如:“深”字通过小麦种质词向量匹配到的字词对为(深,[色深,深绿,深绿色])。

(3)字词融合向量表示

(1)

(2)

(3)

(4)深度字词融合向量表示

3.1.2 上下文语义特征融合模块

在实体关系联合抽取任务中文本的前向和后向信息都至关重要,如:小麦品种名称实体“中麦159”,“麦”不仅应该包含前向信息的“中”字特征,也应考虑到了后向“159”的语义信息。针对上述问题,选择BiLSTM对深度融合的字词向量进一步提取特征,以深度字词混合向量M1作为输入,以拼接前向信息和后向信息的M2作为输出。

3.2 三元组抽取层

3.2.1 头实体抽取模块

头实体抽取旨在获取输入文本中可能存在的所有实体。其直接对经过字词深度融合和双向语义编码后的向量M2进行解码,确定实体开始和结束位置,具体如式(4)、式(5)所示

(4)

(5)

候选头实体提取使用“就近匹配原则”。如图6所示,输入文本的候选实体的开始位置为“中”、“8”和“1”,结束位置为“9”、“升”和“%”,“8”作为头实体的开始位置,根据就近匹配原则,将位于“8”后面且距离“8”最近的头实体结束位置“升”与“8”配对,因此“827克/升”为候选实体。

图6 头实体抽取过程

3.2.2 联合抽取关系与尾实体模块

关系和尾实体抽取任务是找寻所有候选头实体在每一个特定关系下的尾实体。例如语料“中麦159,容重827克/升,粗蛋白含量(干基)14.8%”在头实体抽取任务获取“中麦159”、“827克/升”、“14.8%”这3个候选头实体,首先为3个候选头实体分别建立“湿面筋含量”、“容重值”、“粗蛋白质含量”等23类关系,其次检测候选头实体在不同关系下的尾实体。具体如式(6)、式(7)所示

(6)

(7)

4 实验设计与结果分析

4.1 数据集与评价指标

本文实验分别在WGD和DuIE两个数据集上进行,其中DuIE[26]数据集是百度大规模人工标注且被广泛使用的信息抽取数据集。两个数据集的训练集、验证集、测试集以及关系类别数量见表1。

表1 数据集划分统计

通过准确率(Precision,P)、召回率(Recall,R)和F1值计算三元组抽取结果,验证模型的有效性。评价指标具体计算如式(8)~式(10)所示。Npred、Npredright、Ngold分别为预测的三元组数量、预测正确的三元组数量以及数据集中含有的三元组数量

(8)

(9)

(10)

4.2 实验环境与参数设置

本实验的硬件环境:处理器为Intel(R) Xeon(R) Silver4116 CPU@2.10 GHz,运行内存191 GB;运行环境:Pytroch1.10.0和Python3.6。使用Adam优化器,模型参数设置见表2。

表2 模型参数值

4.3 实验结果及分析

4.3.1 深度字词融合位置设置分析

为了验证深度字词融合位置对模型的影响,实验分别将深度字词融合位置设置在BERT的第N个Transformer encoder之后,N={1,3,6,9,12}, F1值变化趋势如图7所示。

图7 深度字词融合位置分析

当深度字词融合位置在第1层Transformer encoder之后模型达到最优性能,F1值为93.59%,并且随着字词融合位置后移,模型的性能逐渐变差,当在第12层Transformer encoder之后进行字词融合,即浅层字词融合,F1值最低,为92.23%。说明在第一层后融合字词向量,充分利用了BERT结构,可以更好地深度交互词汇信息和字符信息,进而缓解实体边界模糊问题,提升了语义表征能力。

4.3.2 匹配词数量阈值设置分析

经统计,WGD数据集每个字可匹配的词数量众数为2,平均数为3,最大值为5。因此,实验将字匹配词数量阈值设置为N,N={2,3,4,5}, F1值如图8所示。

图8 字匹配词数量参数设置分析

字的匹配词数量值为3时,模型的性能最佳。当阈值从2升为3时,模型获取更多的词向量信息,从而提升其性能。但是当字匹配词数量继续提高,引入的“PAD”填充信息会干扰模型提取特征的能力,F1值逐渐降低。

4.3.3 对比实验结果分析

为了评估WGIE-DCWF方法的有效性,本文选用BERT+BiLSTM、CopyMTL[27]、TPLinker[12]、BERT+CASREL[13]模型与WGIE-DCWF在WGD和DuIE两个数据集进行对比实验。模型的实验结果见表3。

表3 模型综合性能评估

(1)BERT+BiLSTM:基于序列标注的流水线抽取方法,使用BERT字嵌入表示。

(2)CopyMTL:基于复制机制的联合抽取方法,为CopyRE的改进[9],使用word2vec字嵌入表示。

(3)TPLinker:基于统一标注抽取框架的联合抽取方法,使用BERT字嵌入表示。

(4)BERT+CASREL:基于层叠指针网络的联合抽取方法,使用BERT字嵌入表示。

(5)WGIE-DCWF:基于层叠指针网络的联合抽取方法,使用深度字词融合嵌入表示,深度字词融合位置为第1层Transformer encoder之后,字匹配词数量阈值为3。

实验结果表明,本文模型WGIE-DCWF在WGD和DuIE两个数据集的F1值分别为93.59%和77.73%,较其它基线模型取得了最优效果。通过对比发现,实体关系联合抽取模型整体优于流水线抽取模型,主要原因是流水方法可能存在实体冗余和错误传播。同时,BERT+CASREL模型的准确率、召回率和F1值评价指标均高于CopyMTL和TPLinker模型,表明同为联合抽取模型,BERT+CASREL模型性能更佳,其原因为BERT+CASREL通过层叠指针网络能够更好地解决关系重叠问题。因此,本文模型WGIE-DCWF正是通过建立层叠指针网络,提升重叠三元组的抽取能力,同时进行深度字词融合和上下文语义特征融合,解决小麦种质信息领域实体边界模糊问题,使模型三元组抽取性能整体得到提高。此外,需要指出的是在DuIE数据集上进行实验,WGIE-DCWF模型的召回率低于BERT+CASREL模型,分析其原因为在深度字词融合编码模块引入小麦种质词向量会带来冗余信息,影响了模型在通用数据集的联合抽取性能。

4.3.4 细粒度关系实验结果分析

为分析WGIE-DCWF模型在不同关系类别粒度上的实验结果,统计了WGD数据集上23类关系类别的F1值,如图9所示。“稳定时间”、“粗蛋白质含量”关系类别F1值较高,推测原因为关系类别样本量充足,使得模型能够充分学习其特征。反观样本量仅占0.87%和1.14%的“籽粒形状”和“熟性”关系类别,F1值低于其它关系类别,说明较少的样本量在模型训练中容易被忽略,导致其抽取效果低于样本量高的关系类别。“拉伸面积”、“芒长短”、“冬春性”以及“壳颜色”关系类别抽取效果较好,其原因为其语境较为简单。“播种量”、“播种日期”、“感病”以及“籽粒硬度”关系类别抽取F1值低于平均水平的原因为头实体与尾实体距离较远,存在长距离依赖问题,并且语境较为复杂,例如:小麦品种名称实体和亩播种量、高肥水条件下播种量以及基本苗数量等实体均可以产生播种量关系类别。因此,样本量是否均衡分布以及语境复杂程度影响实体关系联合抽取效果。

图9 细粒度关系抽取F1值

4.3.5 消融实验结果分析

为了探索WGIE-DWCF方法中深度字词融合模块(DWCFE)、上下文语义特征融合模块(BiLSTM)以及小麦种质词向量表对模型的影响,设计消融实验,实验结果见表4。其中DWCFE*为小麦种质词向量表中仅保留通用词汇,去除领域词汇的深度字词融合。

表4 消融实验结果

实验结果分析可以发现,引入深度字词融合模块和上下文语义特征融合模块,F1值分别提高10.09个百分点和9.8个百分点,说明两个模块单独使用均能提高实体识别能力,进而提升模型整体性能,并且说明深度字词融合与上下文语义特征融合的作用同等重要,相较而言深度字词融合对模型性能的贡献更多。为探明领域词向量在模型中的作用,可以发现DCWFE*+BiLSTM+CASREL模型F1值下降了0.74个百分点,表明引入领域词向量可以提高实体识别能力,从而辅助三元组抽取。

5 结束语

为了获得结构化的小麦品种表型和遗传描述,本文构建了细粒度小麦种质数据集,解决小麦种质信息领域数据匮乏问题,提出了基于深度字词融合的小麦种质信息实体关系联合抽取模型。模型通过深度字词融合与上下文语义特征融合,提升实体识别能力,建立层叠指针网络,提升重叠三元组抽取能力。实验结果表明,本文模型优于其它模型,可以缓解实体边界模糊与关系重叠问题的影响,有效改善小麦种质领域复杂场景的实体关系抽取效果,可以为小麦种质信息知识库构建提供技术支撑。

猜你喜欢
种质实体向量
华南地区最大农作物种质资源保护库建成
向量的分解
聚焦“向量与三角”创新题
前海自贸区:金融服务实体
亚麻抗白粉病种质资源的鉴定与筛选
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
贵州玉米种质资源遗传多样性及核心种质库构建
向量垂直在解析几何中的应用