少样本高质量医学知识的命名实体识别研究
——以肺癌诊疗规范为例

2023-02-21 13:07琚沅红牟冬梅王书童徐静雯吕淑贞
现代情报 2023年2期
关键词:字符词典语料

琚沅红 牟冬梅,2* 王书童 李 桦,2 徐静雯 吕淑贞

(1.吉林大学公共卫生学院,吉林 长春 130021;2.吉林大学第一医院临床研究部,吉林 长春 130021;3.长春中医药大学医药信息学院,吉林 长春 130117)

近年来,随着数据的指数级增长、科学技术的不断突破,以知识驱动的人工智能应用已被广泛落地于各种现实场景中,该现象带动了人们对精炼、专业化、个性化知识需求的不断增加的同时,推动了大数据研究范式从数据密集型向知识密集型转变进程,也促进了情报工程化、智能化的发展和壮大。情报工程化、智能化为创新科技情报服务提供了有效途径,但如何从海量多源异构数据中识别并抽取知识,是当下情报工程化、智能化亟需解决的问题,也是解决大数据时代信息超载的关键[1-2]。而数据的真实性、准确性、可靠性、完整性程度对于提高数据到知识这一过程的有效性,增强所获得知识的实用性起决定性作用。

诊疗规范作为高质量医学知识的重要组成部分,对于提升科研效率和促进成果产出具有重要价值。其是包括临床实践指南、专家意见、专家共识、临床路径、技术标准、指导原则、国家标准在内的,由领域权威专家以循证医学为前提,结合自身经验对具有代表性、有效性以及可行性的最新研究成果的全面总结和深度提炼。诊疗规范作为健康医疗大数据的一部分,不仅能对临床诊疗过程起到重要的指导和规范作用,且作为临床决策支持系统(Clinical Decision Support System,CDSS)的核心知识源,能够以“证据支持者”的角色为诊疗决策提供科学依据,提高临床诊疗效率的同时,从整体上改善医疗服务同质化水平。总的来说,诊疗规范对医务工作者的指导和约束作用贯穿于疾病诊疗过程始终。然而,当下诊疗规范以篇章为粒度且多以文本形式集成于各网站或数据库系统中,未能以计算机可读的形式嵌入到医疗信息系统中,文本形式的诊疗规范的难利用、不易扩展及可植入性差等问题无法满足医护人员在诊疗过程中对知识的需求,更加无法在实际诊疗的决策制定过程中提供自动化知识支持[3]。而且随着互联网+人工智能技术的发展,传统的以经验为主导的临床实践模式正在向数据驱动的循证医学、精准医学、人工智能+医疗等智慧化医学模式变革。医护人员对知识形式的需求逐渐从散在、孤立、简单向聚合、关联、复杂的方向发展,对知识的获取深度也向着精准化、个性化和智能化的方向转变。因此,如何从医学数据中精准、智能、高效地提取知识,实现零散、异构数据的有序化组织、结构化存储,从而促进对医学知识的智能化应用,为医护诊疗提供决策支持,是智慧医疗发展过程中的首要环节,也是最为基础的一步[4]。

命名实体识别(Named Entity Recognition,NER)作为解决这一问题的基本手段,现阶段主要用于对领域文本进行挖掘,其能够根据目标实体的粒度、语义层次、语义深度从非结构化文本中对命名实体进行识别,其准确性、完整性对构建知识库或知识图谱起到了关键性的奠基作用。鉴于肺癌是对人类生命健康威胁最大的恶性肿瘤之一,《2020年世界癌症报告》指明,肺癌发病率和死亡率一直位于全球各种恶性肿瘤首位(死亡率占总数18.4%)[5],其中,中国为发病率增幅最大的地区之一(年均增长率超过2%)[6],且根据国家癌症中心发布的《2019年全国癌症报告》显示,按发病及死亡人数顺位排序,肺癌位居我国恶性肿瘤发病率及死亡率首位,且其死亡率呈现逐年上升趋势[7],对国家、社会和个人造成了严重的负担。因此,本文以肺癌诊疗规范为例,以解决高质量医学知识在实际应用过程中遇到的瓶颈为切入点,以结合词汇增强的命名实体识别方式完成对非结构化肺癌诊疗规范文本中实体边界及其类别的识别,实现肺癌诊疗规范文本的有序化、结构化,这对于提高诊疗水平的均等化和同质化程度,促进医疗模式变革具有重要意义。

1 相关研究

纵观NER的发展历程,其经历了早期的基于字典、基于规则的方法,基于隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)、条件随机场(Conditional Random Fields,CRF)等传统的机器学习的方法,基于循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)的深度学习的方法以及以上方法的混合等阶段,而不同方法的更新迭代的宗旨均是为了提高NER性能[8]。其中,因为基于深度学习的方法不论在特征学习深度还是在模型识别精度上都表现出远优于传统的基于机器学习方法的特点,而受到界内学者的广泛应用。特别的,将机器学习与深度学习相结合而形成的LSTM+CRF、BiLSTM+CRF是现阶段中英文NER的主流方法[9]。但不论采用哪一种方法,其性能均依赖于足量的标注数据以及标注数据的质量。而大多数标注数据均体现出依赖人工、数据量小、质量参差不齐等特点[10]。且垂直领域的术语或概念专业性更强,更加需要领域专家的加持,尤其是专业性极强的医学领域,其对知识精准度、完整度要求更高。对医学领域文本数据进行NER时,对数据的准确标注要求更高,且鉴于疾病类型种类繁多,不同的疾病诊疗过程各异的特性,不同疾病所代表的知识概念体系间也存在较大差异,这使得医学数据样本在标注时没有统一的模板可循,再加上中文的表述不若英文没有天然的分界,因此标注过程也更为复杂。这也是造成研究者对医学相关文本进行NER时缺乏用于模型训练的数据集的关键原因[11]。特别在总体数据量本身就少的中文诊疗规范数据识别方面,更加缺乏标注数据的支持。因此,对中文诊疗规范命名实体识别进行深入研究不论是在理论突破还是现实意义方面均具有重要价值。

目前,少样本NER研究还处于发展阶段,相关工作大多聚焦于通用领域,对医学领域的研究极少。石教祥等[12]认为,现阶段少样本NER大体分为4个研究方向:数据增强、模型迁移、特征变换以及知识链接。其中,数据增强相关研究更为常见,且主要从模型结构设计和数据资源优化两个方面来提升少样本NER性能。

1.1 模型结构设计

NER模型结构一般分为输入表示层、序列建模层和标签解码层。研究者们通常对基线模型中的某一层或某几层进行结构上的改良以实现更优的NER性能。在输入表示层方面,有Ding R等[13]利用多图结构实现实体词典与基于字符的NER模型间的交互,进而解决词典匹配冲突的问题。也有Ma R等[14]对Embedding层进行设计,避免信息损失的同时还能引入词汇相对应的Word Embedding;或者通过为每个词汇的末尾字符进行编码实现Batch并行化以获得较高的识别效率[15]。在序列建模层方面,其模型构造先后经历了从Zhang Y等[16]提出LatticeLSTM和从Li Z等[17]提出MGLatticeLSTM,即通过更改LSTM结构将词汇信息与基于字符的LSTM相融合。到Gui T等[18]提出LR-CNN,引入CNN实现并行化训练并提出了一种Rethinking机制来解决词汇冲突问题。到Sui D等[19]提出CGN,通过拼接多个图注意力网络的计算结果来对模型中的图网络层进行设计。再到Li X等[20]提出FLAT,通过使用Transformer并对字符的相对位置进行编码来更好地融合词汇信息等过程。此外,相关研究多采用网络多层感知机+激活函数(MLP+softmax)、CRF、RNN和指针等方式对序列建模层输出的序列进行解码,其中以CRF最为通用[21]。整体来看,对输入表示层的研究主要是构建基于词汇信息的自适应Embedding,模型可移植性好。对序列建模层的研究以模型动态框架设计为核心,在基于字符的基础上融入词汇信息,此类模型设计及运行较为复杂,且移植性较差,不适合在专业性较强的领域推广使用。

1.2 数据资源优化

梳理现有研究成果发现,利用深度学习算法对相关领域内各类命名实体进行识别的方法或流程已逐步趋于成熟。因此,学者们多以前人研究中的模型或算法为基础,将研究的重点聚焦于对训练语料的优化方面。研究以此为出发点,将少样本NER过程中所用到的数据资源分为内部资源和外部资源。其中,内部资源指用于训练、验证以及测试模型性能的数据集;外部资源指由外部引入的用于提高模型性能的数据。当下,以数据资源为操作核心的少样本NER研究,或以内部资源为优化对象,通过增加资源支持体量、优化资源特征表示、增强语义表示能力等方式来提升少样本NER性能,或以外部资源为优化对象,通过扩大资源提供维度来提高模型识别能力。

就资源体量而言,可通过主动学习采样[22]为模型提供高质量数据集,或通过半监督采样[23]、无监督采样[24]等方式增加模型对负样本的学习难度以提高样本筛选的准确率。就特征表示而言,周康等[25]在BiLSTM的基础上引入AdaBoost集成学习算法,通过整合各细分子类的分类器,从全局角度对数据不同维度的特征进行刻画,提高模型的特征捕获能力。陈曙东等[26]基于词典并通过加权的方式对序列中的字符进行动态匹配后得到字符的增强特征表示,从而提高模型的自动推理能力。就语义表示而言,主要集中于对预训练语言模型的研究,研究者们在研究过程中通过不断增强对字或者词的语义表示能力以实现对字或者词的多义性表征,从最初的利用Word2Vec工具[27]训练词向量到近年来基于Transformer的BERT模型[28],从ElMo算法[29]、GloVe算法[30]到XLnet模型[31]再到如今的将XLnet模型和BERT模型相结合[32-34]的方法,虽然方法的复杂度越来越高,但对语义的表达能力越来越强。就资源维度而言,指外部资源的种类,可通过引入字典[14]、词典[35]、本体库[36]、知识库[37]等外部资源来启发式地标记数据,降低标注数据的获取难度,从而提高目标NER任务的完成效率。

鉴于当下医学领域内,尤其是专病相关训练语料稀缺,且少样本NER研究在医学领域较为薄弱的现状,本研究从改良模型结构、优化资源特征表示以及扩大资源提供维度的角度出发,以肺癌为例,以中文各版肺癌诊疗规范文本为原始语料,通过自建肺癌专业术语词典并将其与字符级模型输入表示层相融合的方式实现词汇增强的肺癌诊疗规范NER模型的构建,并将该模型与基线模型BiLSTM-CRF、Soft-Lexicon相比较,从而进一步证实字词融合方式在NER中优越性的同时,实现肺癌诊疗规范有序化、结构化,也为医学领域内少样本高质量医学知识的命名实体识别研究提供路径参考。

2 融合领域词典特征的词汇增强NER框架

基于词汇增强的NER的核心思想在于将词汇信息引入到字级别的NER模型中,这种同时考虑字符和词汇的做法分别在词信息补全和词边界校准两方面发力,既能避免词级别模型出现分词错误传播的问题,也能解决字级别模型词汇信息缺失的问题。本研究通过创新Soft-Lexicon模型[14]在医学领域的应用,提出Fusion-Lexicon模型,即在利用字符词典以及通用词典进行字级别模型构建的基础上,特别引入领域专业术语词典,使字级和词级特征相融合,进而促进NER效率的提升。具体研究框架设计如图1所示。

图1 融合领域词典特征的诊疗规范命名实体识别框架

2.1 数据准备层

本研究在对肺癌诊疗规范文本进行预处理的基础上,以肺癌概念体系为依据凝练出肺癌的核心概念,将核心概念作为领域词典中描述肺癌术语或概念的基本大类,而后通过对肺癌相关的各种专业、权威参考资料的收集、筛选、归纳和提炼等过程,实现对各大类的术语或概念分支的丰富,从而完成对肺癌领域专业词典的构建。研究将领域词典和肺癌诊疗规范文本作为模型的基础数据,借鉴分词工具以及合适的标注体系,实现对诊疗规范文本语料的自动标注,并进一步在领域专家的指导下,基于分词标注结果对领域词典进行修正和完善,为融合了领域词典的诊疗规范命名实体识别研究提供数据支持。

2.2 特征融合层

1)字符表示:以字符级中文NER模型为基础,利用字符词汇表Sc对输入序列x={x1,x2,x3,xi,…,xn, 1≤i≤n}∈Sc中的字符进行匹配,将x中的每个字符xi映射为密集向量,其中,Lc表示字符Embedding查找表。

(1)

2)字+词特征融合:基于词典D,D=D1∪D2,其中D1为领域词典,D2为通用词典,将其中的单词信息与输入序列的字符表示相融合,并用ai,j={ci,ci+1,…,cj}表示任意输入序列x中存在的词组。其中,labs(xj)表示与xj相关的所有分词标签,研究利用“BMESO”标注体系对文本序列进行标注,其中“B”“M”“E”分别代表一个词的开头、中间和结尾,“S”代表单独成词,“O”代表非实体词。elabs(labs(xj))代表{B,E,M,S,O}五维multi-hot向量。

(2)

以图1所示的“外周血细胞”为例,通过将每个字符在D中的所有匹配结果归类到以每个字符在词组中位置为标准的4个集合“BMES”中,并用4个词边界标签进行标记,若未能在词典中找到匹配词使得词集为空,那么另添加一个词集Δ并将其中的取值定义为“None”。对于输入序列x中的每个字符xi的集合表达用如下公式表达:

B(xi)={ai,j,∀ai,j∈D,i

(3)

M(xi)={am,j,∀am,j∈D,1≤m

E(xi)={am,i,∀am,i∈D,1≤m<1}

S(xi)={xi,∃xi∈D}

Δ(xi)={None,∀ap,q∉D,1≤p

3)词集权重归一:为了提高NER模型的并行化计算效率,在对获得的每个字符的“BMES”词集Ζ进行维度统一的基础上,利用基于统计的静态加权的方法对词典词w的频率p(w)进行统计并将其作为每个词的权重,词集Z的加权函数rz表示如下:

(4)

其中,Lw表示单词Embedding查找表。将词集表示组合成固定维度的特征后,对词集进行串联并将其添加到每个字符表示中,利用每个字符相对应的4个词集权重,对每个字符进行表示如下:

Lz(B,M,E,S)=[rz(B);rz(M);rz(E);rz(S)]

(5)

vc←[vc;Lz(B,M,E,S)]

2.3 序列建模层

文章通过构建Fusion-Lexicon特征,将输入序列与词典D相匹配的结果添加到每个字符的向量表示中,序列建模层以这些词汇增强的字符表示为输入,利用单层BiLSTM对输入序列中字符间的依赖关系进行建模。其中,LSTM单元运算公式如下:

(6)

iα=σ(w[hα-1,xα]+k)

hα=oα*tanh(cα)

其中,iα、oα、fα分别为LSTM的输入门、输出门以及遗忘门因子,cα为当前状态,hα为隐藏状态,σ代表为Sigmoid激活函数,w和k为可训练参数,*为元素间的乘积。前向、后向LSTM得到的隐藏状态hα形成cα的上下文表示。序列建模层由3个上述LSTM单元串联组合而成,第1个LSTM单元是基于字符的模型,对输入序列中的字符进行建模。第2个LSTM以第1个LSTM单元中的字符Embedding为输入,通过融合字符序列中的词信息得到第3个LSTM单元,最终实现融合词信息的字级别NER模型。

2.4 标签预测层

该层以序列建模层的结果为输入,利用CRF对整个输入序列中字符的标签进行预测:

(7)

βα(y′,y|x)=exp(wy′,yhj+ky′,y)

yx表示序列x的所有可能存在的序列标签,wy,y′和ky,y′是(y′,y)标签对的可训练参数,φ代表模型参数。此外,在对标签预测的过程中,模型使用维特比算法,对给定的输入序列x,以条件概率最高值作为阈值对标签序列y*进行搜索,从而实现对标签的预测,F(y,x)代表特征向量,w代表权值向量。

(8)

3 实验与结果分析

3.1 数据来源及处理

文章通过线上、线下手段相结合的方式广泛收集各版肺癌诊疗规范(2009—2022)共计103篇,原始语料以.doc或.pdf的格式存在,且收集过程中已排除标题重复的文献。本研究首先对肺癌诊疗规范文本来源进行核查,删除内容同源以及源于个人或非权威机构发表的肺癌诊疗规范,共计17篇,保留了由中国抗癌协会、中国临床肿瘤协会、中华医学会、国际呼吸学会、国际肿瘤学会发布的以及国家发布的指导性文件,共计86篇。之后通过Python自编代码将.doc及.pdf格式的肺癌诊疗规范批量转化为.txt格式,并通过人工分别对转化结果进行了文字校对,对转义字符串、多余标点符号、题录信息、参考文献等内容进行了删除以供后续研究使用。

3.2 领域词典构建

为了实现文本语料的自动标注,鉴于诊疗规范所具备的知识领域性强、术语表达规范、语言不规范现象较少等特点,本研究参考医学领域NER相关研究中所设置的实体类别,根据Hadzic M等提出的四维通用疾病本体模型[38]、OMAHA“七巧板”医学术语集[39]、UMLS等医学术语体系结构和术语分类标准,根据肺癌发生发展过程、诊疗特点以及文本形式诊疗规范的行文规律,在医学专家的指导下,构建肺癌诊疗过程所涉及的概念体系,如图2所示。

本研究以肺癌概念体系为依据,凝练出临床表现、检查、检验、分期等核心概念。以核心概念为基础,考虑诊疗规范行文用词规范性较强的特点,充分利用教科书、官方发布的标准规范、领域公认的专业术语表等参考资料对肺癌核心概念下的子类概念或术语进行辨析后,通过阅读、筛选、归类以及去重等人工操作,参考肺癌诊疗规范分词标注结果,在医学专家的指导下,不断地对领域词典进行勘误和细化,最终得到共计10个大类,72 041个词汇的肺癌专业术语词典,如表1所示。

表1 肺癌相关核心概念界定及其相关术语参考资料

3.3 实验过程与参数设置

NER过程的本质是一种序列标注任务,为了得到能够用于NER的训练语料,本研究将肺癌专业术语词典作为自定义词典与结巴分词相结合,通过对预处理好的肺癌诊疗规范文本进行语词匹配、注释核心概念标签等分词处理操作实现对语料的词性特征构造,并在标注结果的基础上不断地对领域词典进行补充和完善。利用Python自编程序对分词后数据进行边界特征构造,即利用“BMESO”标注体系实现对语料中词汇或字符的边界界定,以“Ⅳ期小细胞肺癌,首选治疗模式为全身化疗。”为例,其标注结果如图3所示。

图3 标注结果示例

为了获得更优的模型参数,本研究以句子为单位,将经过分词处理后的肺癌诊疗规范文本按照8∶1∶1的比例随机拆分成训练集、验证集和测试集,并在融合了领域词典特征的Fusion-Lexicon模型、Soft-Lexicon模型和BiLSTM-CRF模型上进行实验,其中,各数据集中各类别的实体数量统计结果如表2所示。具体的,本文在Torch框架下,采用Python语言在CPU为Intel(R) Core(TM) i7-7700HQ CPU @ 2.80GHz,操作系统为Win 10的环境下进行实验,其他模型参数设置如表3所示。

表2 各数据集中各类实体数量

表3 实验参数设置

3.4 实验结果分析

基于肺癌诊疗规范文本,以经典的字级别NER模型BiLSTM-CRF、Soft-Lexicon为基线模型,以融合了领域词典特征的词汇增强模型Fusion-Lexicon为实验模型,对肺癌诊疗规范进行命名实体识别。其中,采用精准率(Precision)、召回率(Recall)以及调和平均值F(F-measure)对模型性能进行综合评价。

3.4.1 模型整体识别效果分析

为了明确基线模型BiLSTM-CRF、Soft-Lexicon和实验模型Fusion-Lexicon对肺癌诊疗规范命名实体的识别效果差异性,本研究对3种模型的性能进行了比较,具体结果如表4所示。从表中数据可以明确,Fusion-Lexicon模型对肺癌诊疗规范文本中实体的识别效果在整体上均优于BiLSTM-CRF和Soft-Lexicon,且Soft-Lexicon的识别效果整体上优于BiLSTM-CRF。这一结果验证了相较于单纯的字级别模型,将字符和词汇相融合,兼顾保留词信息以及重视词边界对肺癌诊疗规范文本进行NER的方式具备可行性,尤其是将领域词典特征引入到已经融合了通用领域词典特征和字符特征的Soft-Lexicon中,在提高肺癌诊疗规范文本的NER性能上更具优越性。

表4 各模型整体识别效果对比

3.4.2 各类实体识别效果分析

在模型整体识别效果的基础上,为进一步探究肺癌诊疗规范文本中不同实体类别的识别差异性。本文分别以P、R、F1值为评价指标,对实验模型Fusion-Lexicon和基线模型BiLSTM-CRF、Soft-Lexicon在肺癌诊疗规范文本中不同命名实体类别上的识别效果进行了比较研究,结果如图4所示。Fusion-Lexicon模型对药物类实体的识别效果最好,F1值为96.43%。其次为分期、诊断/治疗/预防操作或程序类实体,F1值分别为94.39%,94.01%。且除部位外,其他类实体识别效果也不差,F1值均在92%以上。这均与诊疗规范文本表述内容的规范性、领域词典的专业性密切相关。研究对错误识别中识别较好和较差的结果进行分析发现,药物大多被预测为物质成分,从实体词本身来看无误,因为有些机体中的物质也可以是药物的主要成分。例如:表皮生长因子、PD-L1等。但从语义上来看,模型对该类实体的上下文语境理解稍显不足,后期可从增加资源支持体量的角度出发,通过正样本采样来改善此类实体的识别效果。分期大多被预测为疾病诊断,因为分期也是疾病诊断的一部分。另外,诊断/治疗/预防操作或程序除被识别为该类词的某一部分外,大多被识别为检查、检验,因为从实体类型的本质来看,检查、检验、操作或程序类实体在大类上均属于操作。因此,后续研究需要严格把握实体类间的范畴界限,细化词典分类体系,进而保障生成更高质量的标注数据。

此外,3种模型对部位识别的效果均不佳。通过分析模型预测结果发现,在识别错误的结果中,该类实体大多趋向于被识别为疾病诊断、操作、临床表现类实体。一方面是因为这3类实体中的字符大多包含部位相关的词;另一方面与肺癌领域词典中部位类实体粒度较粗或实体数量相对较少有关。后续还需进一步对领域词典中的部位类实体进行扩充和完善,进而改善该类实体识别效果欠佳的问题。

4 结 语

“双轮驱动”下情报研究范式的变革,为实现数据知识化、知识实践化提供了理论支持,为有效推动情报工程化和智能化发展打开了新局面。本研究从情报学领域面临的如何高效实现数据/知识结构化、有序化问题出发,结合医学领域高质量数据资源特点及其NER特性,从少样本NER研究方法入手并对其研究现状进行梳理发现,整体上,少样本NER相关研究呈现出以模型结构设计和数据资源优化为研究趋势,且在数据资源优化方面,以数据资源为操作核心,以内部或外部资源为优化对象,以增加资源支持体量、优化资源特征表示、增强语义表示能力、扩大资源提供维度为优化方式,内外联动,协力提升少样本NER性能。

本研究基于综述发现,以肺癌诊疗规范文本为例,提出了一种面向少样本高质量医学知识的,融合了字符词典、通用词典和领域词典的词汇增强型命名实体识别框架Fusion-Lexicon。该框架相较以往研究,在实现路径上有以下3方面的优越性:①在模型结构设计上,通过在已经融合了字符词典特征、通用领域词典特征的字级别模型中引入专业领域相关的词级别的词汇信息和位置信息的方式改良了模型的输入表示层,保证了NER模型在其他类似任务上可移植性,一定程度上解决通用领域NER模型在医学领域中扩展性差的问题,并且在提高了模型对实体边界识别效率的同时,实现了对语料中不同粒度信息特征的提取,更大程度上保留了文本的语义信息;②在优化资源特征表示上,在分词标注手段的支持下,基于通用词典、字符词典以及领域词典,将语料中每个字符所涉及的4个BMES词向量进行串联后得到Fusion-Lexicon特征,并将该特征与每个字符的Embedding进行拼接以得到模型的输入数据,尽可能地保留语料中语词的边界信息和语义信息,为实现高效的NER奠定数据基础;③在扩大资源提供维度上,研究在利用通用词典、字符词典的基础上,额外引入全面、准确、细化的领域词典,以扩大资源维度的方式为模型训练提供更坚持的数据支持。总的来说,该模型能够在整体实验数据较少的情况下,使诊疗规范文本命名实体识别任务的准确性和高效性达到较高水平,从而促进诊疗规范文本的有序化和结构化,并为后续诊疗规范知识图谱的构建奠定基础。

特别的,在构建领域词典时,鉴于医学领域概念和术语表达的专业性、特殊性和稳定性以及医学领域相关概念或术语词表的通用性等特征,为了更好地发挥领域词典在少样本高质量医学知识NER中的作用,与以往的研究中多基于统计学方法通过利用通用语料或者高频词的方式构建领域词典不同[40-41],本研究通过人工的方式整合归纳了与肺癌相关的各种权威资料,构建出了高质量、类别多、体量大的肺癌专病词典。虽然人工构建肺癌专病词典花费了大量的人力和物力,但这种消耗在一定程度上是一次性的。因为,在医学领域内,不同疾病相关实体,尤其是检查检验等大多是相同的,这就意味着在绝大多数情况下,基于病种的特殊性进行微调后的高质量专病词典能够被应用于其他疾病相关的文本NLP任务中。且通过利用领域词典代替专家对语料进行标识并将其与基于深度学习的NER方法相融合的方式,一定程度上实现语料自动、准确、快速标注的同时提高了对医学数据中少样本高质量医学知识资源的利用率,也在很大程度上提升了NER模型性能的同时为相关疾病的命名实体识别研究提供方法参考。因此,医学专病领域词典的构建不但能大大减轻领域专家在语料标注上的负担,还能经过微调适用于不同病种的NER任务中,解决在医学领域进行NER任务时的冷启动问题,更能在很大程度上优化命名实体识别过程中出现的实体边界识别不清以及语义信息丢失的问题。

本文的局限性主要有两个方面:第一,领域词典的体量需进一步扩大且其分类体系也有待进一步细化。例如:加大部位类实体的词量,从样本数据量上入手提高模型对部位类实体的识别效率。例如:优化分类体系,厘清药物与物质成分、分期与疾病诊断、诊断/治疗/预防操作或程序与检查、检验等类别之间的边界。且通观各类文本命名实体识别研究,原始语料的标注质量是决定NER效果的关键因素之一。同理,少样本高质量医学知识的NER效果在很大程度上依赖于领域词典的知识覆盖率,为进一步提高模型对高质量医学知识的识别效果,后续研究将在现有词典的基础上,通过人工+自动相结合的方式,例如:收集、整理、归纳更多权威资料以及咨询相关领域专家等人工方式,采用语义相似度、字词构词特征学习、语义映射、迁移学习等自动方式,丰富完善领域词典体量、不断细化现有分类体系的同时,对词典进行归一化处理,为高质量医学知识语料的自动化标注提供专业数据支持。第二,文章仅对以诊疗规范为例的高质量医学知识中的纯文本数据进行研究,未涉及其中的图表数据。解决高质量医学知识中数据的多模态问题能够更好实现高质量医学知识的有序化和结构化,后续研究将分别通过表格文档重建、流程图识别等方法实现高质量医学知识资源中图表内容的自动识别。

猜你喜欢
字符词典语料
字符代表几
一种USB接口字符液晶控制器设计
消失的殖民村庄和神秘字符
评《现代汉语词典》(第6版)
词典例证翻译标准探索
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
《胡言词典》(合集版)刊行