基于字符级特征自适应的生物医学命名实体识别

2023-09-06 04:29于祥钦李智强
小型微型计算机系统 2023年9期
关键词:生物医学字符命名

于祥钦,王 香,李智强,徐 贤

(华东理工大学 信息科学与工程学院,上海 200237)

1 引 言

每年都有大量生物医学相关的文献在各类的期刊和会议上被发表,生物医学文献中蕴含丰富的化学物质-疾病关系,可以帮助药物研究人员预测化学物质和疾病之间的关系,研究药物机理,降低药物研究、临床试验等的复杂性[1],生物医学命名实体识别是其他生物医学领域相关任务的先决条件,如:文本分类、语音识别、机器翻译、机器问答、推荐系统等.作为基础而又关键的一步,高效的从海量的生物医学文本中识别出不同类型的实体信息,可以帮助相关领域的研究学者高效的开展研究,推动相关领域的发展.

目前生物医学命名实体识别的主流方法有以下几种:基于词典的方法、基于规则的方法、基于传统机器学习的方法和基于深度学习的方法.基于词典和规则的方法的性能受限于词典质量和规则完整性;基于传统机器学习的方法在数据集完善且特征选取合理的情况下能发挥较好性能;基于深度学习的方法可以在不依赖人工特征的情况下发挥较好性能.

近年来,词嵌入(Word Embedding)技术与深度学习结合的方法在自然语言处理领域获得广泛应用.词嵌入技术所得到的分布式词向量有着低维、稠密等特点,每一个维度都包含了潜在语义信息,可以通过词向量之间的相似度来了解到单词语义之间的相关性,通常在大规模相关语料上生成预训练词向量.相较于通用领域,生物医学领域的命名实体任务的性能提升面临诸多挑战.如实体长度较长、形态复杂多变、缩写命名规范不统一、存在嵌套情况和新增相关词汇数量迅速增加等问题,而预训练词表容量有限,在初始化词向量查找词表时容易出现未登录词(out of vocabulary,OOV)问题,且词向量是单词级别的特征表示,缺少对生物医学实体前后缀和拼写等内部特征的关注.

字符嵌入(Character Embedding)表示对单词的字符序列向量化,是对词嵌入的一种补充,在遇到词表中没有出现的单词时可以使用字符嵌入对其语义进行推断.卷积神经网络(Convolutional Neural Networks,CNN)[2,3]和双向长短期记忆网络(Bidirectional Long Short Term Memory,BiLSTM)[4,5]常被用来提取字符级特征,CNN更关注局部特征,适合表示单词的前后缀和组成;BiLSTM更关注长距离时序特征,适合表示单词的拼写,在不同上下文语境下两种字符级特征对单词的重要程度有所倾向,单一字符特征能捕捉到的潜在语义有限.

针对以上问题,本文提出一种基于字符级特征自适应的生物医学命名实体识别模型.本文的主要贡献点如下:

1)针对单一字符级特征对字符形态的表征有限,联合使用CNN和BiLSTM提取字符级特征,将组合后的字符级特征作为词表示的一部分;

2)针对不同语境下两种字符级特征的重要程度不同问题,训练过程中动态计算两种字符向量的权重,使得重要的字符级特征权重变大,不重要的字符级特征权重变小;

3)将词性分析、组块分析作为额外特征辅助模型进行实体边界识别,实验结果表明,本文所提的字符级特征自适应模型相比其他模型性能有明显提升.

2 相关工作

早期生物医学命名实体识别常采用基于词典和规则的命名实体识别方法.Yang等人[6]通过构建一个基于词典的系统用来识别多种生物医学实体,该系统在匹配过程中改进了编辑距离算法,结合前后关键字扩展,词性扩展等后处理方法有效提升了命名实体识别的性能.但受词典大小影响以及短语歧义的影响,该系统的识别性能受到一定限制.Fukuda等人[7]使用了基于规则的方法用来识别文本中的蛋白质实体,无需特定背景知识,在仅使用专有名词字符串本身特征情况下,识别准确率得到一定提升.但设计的规则依赖于当前特定任务,在新实体不断更新的情况下识别过程容易产生错误.基于规则和词典的方法虽然简单实用,但性能受词典质量和规则完整性的限制,且可扩展性较差.

基于传统机器学习的方法主要是从人工处理标记好的数据设计选取合适的特征,采用机器学习算法对模型进行训练,训练迭代过程中优化模型最终使其能够在预测未标注数据过程发挥较好性能.目前常用在命名实体识别任务中的机器学习方法有:隐马尔科夫模型[8](Hidden Markov Model,HMM)、最大熵马尔科夫模型[9](Maximum Entropy Markov Model,MEMM)、支持向量机[10](Support Vector Machine,SVM)、条件随机场[11](Conditional Rondom Field,CRF)等.Ponomareva等人[12]利用HMM模型来构建生物医学实体识别器,将新的知识特征融入到HMM模型中.Li等人[13]利用大量未标记数据中具有高度指示性特征的词频和共现信息生成更高层次的特征,将字典和基于条件随机场(CRF)的方法结合,在基因识别任务上有不错的表现.基于统计机器学习的方法的性能和实体的特征组合密切相关,另一方面受训练数据质量的影响,此类方法效果有限.

深度学习方法以其强大的非线性变换能力,已经应用在多种自然语言处理任务中.Habibi等人[14]采用了BiLSTM-CRF模型用于生物医学命名实体识别,取得了较好的表现.Luo等人[15]在BiLSTM-CRF模型的基础上额外加入了一个注意力层(attention),有效的解决了同一文章中的标注歧义问题.基于深度学习的方法在不依赖人工特征的情况下,能够依靠自身的非线性变化能力学习到深层次的特征,在生物医学命名实体识别任务上取得了不错的效果.

字符嵌入在处理OOV问题时表现出了良好的性能,常被作为词表示的一部分.卷积神经网络广泛应用在计算机视觉相关任务中的视觉特征提取,在自然语言处理任务中的语料大部分是连续的,CNN能够从输入的单词中很好的提取局部信息.CNN被应用于序列标注[16]和文本分类[17]领域.Santos等人[2]利用CNN提取了字符特征用于英语和葡萄牙语的词性标注工作并取得了良好的效果.李丽双等人[3]使用CNN提取了字符级特征作为词表示的一部分用于生物医学命名实体识别并取得了很好的效果.

BiLSTM主要用于提取文本的上下文特征,可以捕捉文本中前后单词的相关性.BiLSTM也可以用于提取字符级特征,与CNN提取字符级特征不同的是,BiLSTM更关注时序信息,可以捕捉单词中前后字符的相关性.Gridach[4]使用BiLSTM提取了单词的字符级特征并将其应用于生物医学命名实体识别,实验结果表明字符级能够捕获单词的拼写和形态学信息.Wang等人[5]利用BiLTSM对单词的字符序列进行建模,应用于多任务学习中来进行生物医学命名实体识别任务,实验表明字符级的特征能够很好的处理OOV问题从而提升系统的识别性能.

门控循环单元(Gate Recurrent Unit,GRU)是一种特殊的循环神经网络(Recurrent Neural Network,RNN),GRU在性能上和LSTM接近但更加简单高效,在保留重要时序特征的情况下训练时间大大缩短.Xu等人[18]使用GRU来捕获中文字符的长距离特征应用于中文命名实体识别,并取得了不错的效果.Jebbara等人[19]在细粒度情感分析中使用BiGRU提取了字符级别的词向量将其作为输入的一部分,结果表明BiGRU提取的字符级特征对于模型性能有积极的影响.

相关研究工作表明,字符级特征在生物医学命名实体识别任务中效果显著,但不同提取器所形成字符级特征有不同特点,使用单一的字符级特征提取器效果有限.因此,本文联合使用CNN和BiLSTM提取不同类型的字符级特征,在不同语境下对两种字符级特征进行适应性融合,提出基于字符级特征自适应的生物医学命名实体识别模型.

3 字符级特征自适应模型

3.1 模型整体结构图

图1为本文所提出的字符级特征自适应模型整体框架图,模型整体由3个模块组成:词表示层,BiLSTM层和CRF层.首先查找预训练词向量表得到单词的词向量;使用CNN生成单词的字符向量VP,使用BiLSTM生成单词的字符向量VT,对他们加权拼接形成字符级组合特征;将词性信息、组块分析信息作为额外特征.最后将词向量、字符级组合特征和额外特征进行拼接形成词表示.词表示输入到BiLSTM模型中进行训练,最后使用CRF模块加入标签约束输出概率最大的标签序列.

图1 字符级特征自适应模型Fig.1 Character level feature adaptive model

3.2 字符级特征提取

字符级特征在各种NLP任务中已经被证实是有效的,能够较好地提升此类任务的性能.文献[20-22]表明字符级特征能够明显提升机器翻译的性能,Xiao等人[23]将字符级特征应用于文本分类中提升了一定的性能.使用字符级特征的优势在于可以直接从原始文本中提取而不用设计额外的手工特征,对原始语料无需复杂的预处理过程.本文分别使用CNN、BiLSTM和双向门控循环单元(Bidirectional Gate Recurrent Unit,BiGRU)来提取单词的字符级特征.

3.2.1 字符级CNN模型

CNN适合单词的前后缀和组成进行特征提取.CNN的结构图如图2所示,具体过程如下,将原始文本中的每一个单词进行拆解,填充为最大单词长度,使得字符向量矩阵维度大小保持一致.通过卷积操作从每个单词的字符构成的矩阵中提取当前单词的局部特征,卷积核大小决定了CNN可以提取局部特征的范围大小;经过池化过程进行特征中关键信息的提取;最终映射成30维的字符向量.

图2 CNN提取字符级特征示意图Fig.2 Schematic diagram of character level feature extraction by CNN

3.2.2 字符级BiLSTM模型

BiLSTM适合表示单词的拼写信息.BiLSTM提取字符特征的结构如图3所示,首先从前往后读取单词的每个字符以计算前向的字符向量Vf,然后从后往前读取单词的字符计算后向的字符向量,将前向向量和后向向量进行串联,可获得单词字符级别的向量VT,VT,同时保留了前向和后向的信息,最终表示为30维的字符向量.

3.2.3 字符级BiGRU模型

GRU结构与LSTM大体相似,优化门控网络使得重要特征得以保留并减少训练时间,使用BiGRU提取字符特征的流程与使用BiLSTM的提取过程相似,已在3.2.2节阐述.

3.2.4 字符级特征自适应

不同的字符级特征提取模型有着不同的特点,CNN适合提取局部特征,适合表示单词的前后缀和组成等信息,而缺少对长距离的依赖信息的关注;BiLSTM和BiGRU更关注时序特征,适合表示单词的字符拼写信息,而对局部特征缺少关注度.Cho等人[24]在生物医学命名实体识别中将CNN和BiLSTM提取的字符级特征进行直接拼接形成组合字符特征并将其作为输入的一部分,实验结果表明组合特征的效果要优于单个特征.Xu等人[18]将BiGRU提取的字符级特征再经过卷积过程提取其中的局部特征用于中文命名实体识别,取得了不错的效果.

1http://www.nactem.ac.uk/GENIA/tagger/

α0+β0=2

(1)

(2)

Mish(x)=x·(tanh(ln(1+ex)))

(3)

z1=σ(Mish(VP))

(4)

z2=σ(Mish(VT))

(5)

(6)

β1=2-α1

(7)

VP′=α1·VP

(8)

VT′=β1·VT

(9)

(10)

上式中,Mish代表Mish激活函数,该激活函数允许更好的信息深入神经网络,σ是sigmoid激活函数,z1和z2分别是经过一系列非线性变换后的过渡矩阵,z1和z2中每一个数字的范围都是0到1之间.α1代表局部特征矩阵的权重矩阵,β1代表时序特征矩阵的权重矩阵,对于输入文本中的每一个单词,模型有选择性对该词对应的字符级局部特征进行强化或弱化,同时对该词的字符级时序特征进行弱化或者强化,对两种特征的操作的趋势是相反的.最终将变换后的两种字符级特征进行拼接得到字符级组合特征.

3.3 额外特征层

由于生物医学命名实体识别的复杂性,基于传统机器学习的方法经常会使用语言特征作为输入[25],词性分析POS(Part Of Speech)和组块分析特征Chunking是语言特征中重要的组成部分.生物医学相关实体在文本的词性是有规律的,如常见的基因、化合物和疾病等实体常以名词形式出现,文本加入词性分析POS辅助模型进行判断,将词性信息映射为20维的向量.由文本中单词的词性信息分析得来的组块特征,可以反映句子中单词之间的内联情况,本文使用组块分析特征来辅助模型进行实体边界的判断,将组块分析信息映射为20维的向量.本文所使用语料的POS和Chunking特征均由GENIA Tagger1工具生成,表1是该工具输出的一个示例.

南水北调东线工程淮安段水质保证措施及实施效果……………………………… 王道虎,吴昌新,谢亚军等(10.45)

表1 GENIA Tagger输出示例Table 1 GENIA Tagger output example

3.4 BiLSTM-CRF层

3.4.1 BiLSTM层

LSTM是一种特殊形式的循环神经网络,很好的改善了传统循环神经网络的梯度消失、梯度爆炸和短距依赖等问题.LSTM通过门控机制有选择性的保存上下文信息,适合应用在命名实体识别等任务中.LSTM的主要结构可以表示为式(11)~式(16):

it=σ(Wi·[ht-1,xt]+bi)

(11)

ft=σ(Wf·[ht-1,xt]+bf)

(12)

ot=σ(Wo·[ht-1,xt]+bo)

(13)

(14)

(15)

ht=ot⊗tanh(ct)

(16)

3.4.2 CRF层

通过简单的softmax分类器能够输出每个单词对应概率最大的标签,得到局部最优的标签序列,但这种方式没有考虑相邻标签之间的约束关系.CRF层能够对BiLSTM的输出进行合理修正从而捕捉依赖关系,例如针对疾病的命名实体识别任务中,当使用BIO标注方案时,疾病实体只能由“B-Disease”开头而不能以“I-Disease”开头,如果实体由多个词语组成则“B-Disease”后只能跟“I-Disease”而不能跟“O”标签.对于输入的文本句子X,对应句子的得分公式如式(17)所示:

(17)

其中,A是标签转移矩阵,Ai,j是标签i转移到j的概率,Pi,yi表示句子中第i个词语标签为yi的概率.在给定输入语句X时,使用softmax函数归一化计算序列y的概率公式如式(18)所示:

(18)

训练过程中,模型的目的在于最大化p(y|X),标记序列的似然函数如式(19)所示:

(19)

在预测阶段,可以得知概率最大的序列:

(20)

4 实验与结果分析

4.1 数据集介绍

本文在NCBI-disease[26]数据集和Biocreative Ⅱ GM[27](BC2GM)数据集上进行训练NCBI语料详细介绍见表2,NCBI数据集包含的实体类型为疾病,BC2GM语料详细介绍见表3,BC2GM数据集包含的实体类型为基因.本文对两种数据集的评估均采用精确匹配模式,即严格匹配实体的前后边界和类型.数据集采用BIOES标注方案,该标注方案在传统的BIO标注方案上增加了实体结束标签(End)和由单个词组成组成的实体(Single).BIOES标注方案提供了更多的信息,更有利于实体边界的划分[28].

表2 NCBI-disease数据集详细信息Table 2 NCBI-disease dataset details

表3 BC2GM数据集详细信息Table 3 BC2GM disease dataset details

4.2 参数设置

本文分别使用Moen等人[29]在PubMed数据库的摘要和全文文章以及维基百科语料库通过Word2Vec模型得到的预训练词向量,预训练词向量的维度为200;学习率选取1e-3;字符级局部特征和字符级时序特征都是30维的向量;额外特征中POS和Chunking特征分别得到20维的向量.将预训练词向量、组合字符特征和额外特征进行拼接,输入到BiLSTM中进行训练,BiLSTM的隐藏层维度为200,通过Dropout来缓解模型过拟合的问题,Dropout值设置为0.5;优化器选用随机梯度下降SGD算法.

4.3 评估标准

本文对模型的评价采用3种指标,分别是准确率P(Precision)、召回率R(Recall)和F1值.具体公式如下:

(21)

(22)

(23)

4.4 实验结果分析

实验结果如表4所示,为了验证本文所提出方法的实用性和意义,选择BiLSTM-CRF并使用预训练词向量(Word Embedding)作为基准模型BCW,与其他方法进行对比.

表4 不同方法在NCBI-disease和BC2GM数据集上的性能对比Table 4 Performance comparison of different methods on NCBI-disease and BC2GM dataset

4.4.1 字符级特征自适应效果对比

为了验证字符级特征自适应对于生物医学命名实体识别任务的效果影响,进行了单个类型、简单拼接式组合和自适应式组合所形成的字符级特征的对比实验.单个类型的字符级特征提取器包括:(char-CNN)、(char-BiLSTM)和(char-BiGRU);简单拼接式组合字符级特征提取器包括:char-(CNN,BiLSTM)和char-(CNN,BiGRU);自适应字符级特征提取器包括:char-adapt-(CNN,BiLSTM)和char-adapt-(CNN,BiGRU).

从结果表中可以看出,BCW+(char-CNN)、BCW+(char-BiLSTM)和BCW+(char-BiGRU)模型相比于基准模型BCW,P、R和F1值均有明显提升,在两个数据集上F1值平均提升了4.54%.生物医学相关实体形态复杂,多数实体包含大小混合字母和特殊字符,且预训练词表容量有限,在初始化词向量时容易出现OOV问题,实验结果表明CNN、BiLSTM和BiGRU模块能够有效抽取字符级特征,缓解OOV问题,提升识别的F1值.其中BCW+(char-CNN)模型的F1值明显高于BCW+(char-BiLSTM)和BCW+(char-BiGRU)模型,表明对于NCBI和BC2GM数据集而言,字符级局部特征相对于字符级时序特征更有利于提升模型的识别性能.而BCW+(char-BiLSTM)和BCW+(char-BiGRU)模型的F1值基本持平,表明在这2个数据集上BiLSTM和BiGRU所提取的长距离时序字符级特征对模型识别的增益效果没有太大差别.BCW+char-(CNN,BiLSTM)和BCW+char-(CNN,BiGRU)模型的F1值高于单一字符级特征的模型,在2个数据集上的F1值相较于BCW+(char-CNN)模型平均提升了0.78%,召回率平均提升了0.97%.表明拼接后的组合字符特征相较于单一字符级特征能表达更加充分的信息.

为了说明给局部和时序字符级特征分配不同的权重对模型识别性能的影响,设置了手动权重对比实验,实验结果如表5所示,模型BCW+char-(α0CNN,β0BiLSTM)代表给CNN提取的字符级特征乘以权重系数α0,给BiLSTM提取的字符级特征乘以权重系数β0,将处理后的字符级特征进行拼接.结果表明,当给不同类型的字符级特征向量分配不同权重后,对模型的识别性能有明显影响,当α0和β0都为1.0时,相当于进行直接拼接.当α0取值为1.2时,相对于α0取值为 1.0时,模型在NCBI-disease数据集上的F1了提升0.11%,而在BC2GM数据集上手动更改权重后,性能均有所下降.实验结果表明,调整不同类型字符特征的权重值会对模型性能产生一定影响,但宏观的手工调整难以确定最优权重系数,且随意调整对模型识别性能会产生消极影响.

表5 手动更改权重性能对比Table 5 Manually change the weight performance comparison

采用自适应结构可以在单词级别对不同字符级特征的权重进行细粒度的调控,添加自适应结构的模型的F1值有明显提升.其中BCW+char-adapt-(CNN,BiLSTM)模型在两个数据集上的F1值相较于BCW+char-(CNN,BiLSTM)平均提升了0.26%,召回率提升了0.28%.BCW+char-adapt-(CNN,BiGRU)模型的F1值相较于BCW+char-(CNN,BiGRU)提升了0.21%,召回率提升了0.25%.表明自适应方法能够有选择性的将需要关注的字符级特征进行强化,避免了人工调整权重的不确定性,在字符粒度上更加充分的利用了信息,对模型的识别性能产生了积极的影响.

4.4.2 额外特征效果对比

为了验证所加入的POS和Chunking特征对生物医学命名实体识别性能的影响,本文对基准模型BCW和字符级特征自适应模型BCW+char-adapt-(CNN,BiLSTM)分别设置了一组对比实验.实验结果表明,对基准模型BCW,加入词性和组块分析特征作为额外特征后,在2个数据集上的F1值平均提升了0.59%,准确率平均提升了0.69%.对于字符级特征自适应模型BCW+char-adapt-(CNN,BiLSTM),加入词性和组块分析特征后,在2个数据集上的F1值平均提升了0.40%,准确率平均提升了0.51%.结果表明,将词性特征和组块分析特征作为额外特征,提升了识别任务的准确率,可以提升生物医学命名实体识别模型的性能.

4.5 与现有方法结果对比

1)NCBI-disease语料

为了进一步验证本文所提出方法的有效性,将其与相关文献的NCBI数据集的表现进行对比,如表6所示,Dang等人[30]提出D3NER模型将词性信息、缩写信息和字符特征等各种语言学特征输入到BiLSTM-CRF模型中进行训练,获得了84.41%的F1值;Wang等人[5]使用BiLSTM提取了字符级特征并应用到多任务学习中,获得了86.14%的F1值;Xu等人[31]在多种生物医学相关语料库上训练了词向量,并在BiLSTM-CRF模型的CRF层结合了疾病缩写识别工具,获得了86.20%的F1值;Cho等人[24]在BiLSTM-CRF模型中将CNN和BiLSTM提取的字符级特征进行拼接并结合注意力机制,获得了86.93%的F1值.以上方法在提取字符级特征时所用方法比较单一,效果有所局限.

表6 NCBI-disease数据集实验对比Table 6 Experimental comparison of NCBI-disease dataset

本文使用CNN提取字符级局部特征,使用BiLSTM或BiGRU提取字符级时序特征,在对文本中每一个句子中的每一个单词提取字符向量时,动态计算局部特征和时序特征的权重,使重要特征得到进一步加强,在更细粒度上利用字符级特征;其次,本文将词性和组块分析特征作为额外特征作为词表示的一部分,辅助模型进行实体边界的判断.实验结果表明,相比于Dang等人[30]提出的模型F1值平均提升了2.73%;相比于Wang等人[5]提出的模型F1值平均提升了1.00%;相比于Xu等人[31]提出的模型F1值平均提升了0.94%;相比于Cho等人[24]提出的模型F1值平均提升了0.21%,取得了不错的效果.

2)BC2GM语料

为了说明本文所提模型的泛化能力,在BC2GM数据集上的表现对比如表7所示.Crichton等人[32]提出了基于CNN的多任务学习模型,获得了73.17%的F1值;Lample等人[28]和Habibi等人[14]提出了基于BiLSTM-CRF的模型并使用BiLSTM提取了字符级特征,获得了80.51%的F1值;Wang等人[5]将多任务学习引入生物医学命中实体识别中,在单任务模型中使用BiLSTM-CRF模型并结合BiLSTM提取的字符级特征,获得了80.74%的F1值.本文使用不同类型的提取器分别提取字符级的局部特征和时序特征,并在训练过程中动态计算每种特征的权重,有选择性的对重要特征进行加强,并结合语言特征中的POS和Chunking信息辅助模型进行实体边界判断.实验结果表明,相比于Crichton等人[32]提出的模型,本文模型的F1值提升了7.87%;相比于Lample等人[28]和Habibi等人[14]提出的模型,本文模型的F1值提升了0.53%;相比于Wang等人[5]提出的模型,本文模型的F1值提升了0.30%,召回率提升了0.48%,取得了良好的效果.

表7 BC2GM数据集实验对比Table 7 Experimental comparison of BC2GM disease dataset

5 结束语

本文提出一种基于字符级特征自适应网络的生物医学命名实体识别模型.模型使用CNN提取单词字符序列的局部特征,使用BiLSTM提取单词序列的时序特征,并在模型训练过程中动态给两种字符级特征分配不同的权重,使得重要的字符级特征得到进一步加强,弱化不重要的字符级特征,在字符粒度上更充分利用信息.得到组合字符级特征后,将词性信息和组块分析特征作为额外特征,辅助模型判断实体边界,进一步提升了模型的性能.实验结果表明,本文所提出方法能更充分利用文本字符粒度的信息,比已有的相关方法在生物医学命名实体识别任务上表现更好.特征增多使得模型效果变好,但是同时也使得模型收敛时间增加,未来会考虑优化模型的结构,在保证性能的前提下缩短训练时间.

猜你喜欢
生物医学字符命名
刍议“生物医学作为文化”的研究进路——兼论《作为文化的生物医学》
寻找更强的字符映射管理器
灵长类生物医学前沿探索中的伦理思考
命名——助力有机化学的学习
字符代表几
一种USB接口字符液晶控制器设计
消失的殖民村庄和神秘字符
国外生物医学文献获取的技术工具:述评与启示
有一种男人以“暖”命名
为一条河命名——在白河源