基于ERNIE预训练的中医临床病历分类

2023-02-07 00:30杜中敏
南阳师范学院学报 2023年1期
关键词:微调语料库分类

程 强, 杜中敏

(南阳师范学院 计算机科学与技术学院,河南 南阳 473061)

作为一种古老的医学体系,中医在中国几千年来一直扮演着不可或缺的角色,并且在世界各国越来越多地被用作现代医学的补充疗法.历史上积累的中医临床记录是做出临床诊断的主要知识来源,而文本分类作为自然语言处理(NLP)的一项基本任务,在管理和检索临床记录以支持诊断和处方方面发挥着重要作用,这些方法无一例外地也适用于中医.

现有的临床文本分类研究主要集中在用英文书写的现代医学临床记录上,推广到中医临床记录分类的应用上存在一些障碍和困难.前期的工作是研究中医临床病历分类的特征和学习算法,这需要投入大量的人力进行人工标注特征工程.

1 相关研究

STANFILL等对临床文本分类研究进行了全面的文献调查,大多数临床文本分类工作都集中在英文临床病历和特征工程上,而对中文临床文本和深度学习模型的研究有限[1].MUJTABA系统地探讨了中医临床文本的特征和分类器,并进一步提出了基于知识的词嵌入方法,但并没有使用最新的深度学习模型[2].近年来,HU等将中医证型建模作为文本分类任务,并使用了卷积神经网络(CNN)和fastText两种深度学习模型[3],然而仍有许多先进的深度学习模型尚未应用到中医学领域.

目前文本分类任务中三种常用的深度学习模型有CNN、循环神经网络(RNN)和fastText.为了提高这些深度学习模型的表示能力,通常会引入注意力机制(self-attention)当作模型的组成部分.近年来,引入self-attention的Transformer模型,凸显出其在机器翻译等NLP任务中的优势,而ELMo、ULMFiT、BERT和ERNIE,这类深度学习模型,也在NLP领域取得了巨大的成功;这些模型利用海量的自由文本数据,学习上下文的词嵌入,在多语言理解任务中获得极高的准确度.ERNIE模型,通过掩码语言建模(Mask LM)和下一句预测(NSP),在大规模通用领域语料库上训练双向编码器,可以为中文提供一个预训练模型.Alsentzer等用MIMIC-Ⅲ临床记录对BERT进行了预训练,并针对自然语言推理和命名实体识别任务,对BERT模型进行了微调[4].HUANG等也在MIMIC-Ⅲ临床记录上对BERT进行了预训练,针对出院病人的再入院可能预测,在BERT上进行了微调[5].本文的方法与以上不同,采用对百度最新的预训练ERNIE2.0模型进行二次微调,先是用未标注的临床文本对通用领域的ERNIE模型进行微调,构建出特定领域的模型,然后用临床文本分类任务对特定领域模型进行二次精调,构建TCM-ERNIE模型,专门用于中医临床病历分类,取得了不错的分类效果.

2 数据集

本文从《二续名医类案》(ISBN 7-5381-2372-5)中提取的中医医案,构建临床基准数据集.该数据集包含7037条记录,分为5个专科类别(内科、外科、妇科、耳鼻喉科和儿科),按照不同的医学专业来检索疾病.中医的大多数疾病(除了眼病和骨病)都可以分为这5类.每条记录只属于5类当中的一类.训练集包含4882条记录,测试集包含2155条记录.平均字符数为316个.关于数据集的更多信息,请参考文献[6].图1显示了训练集的一条示例记录.

图1 训练集的记录示例

本文使用了中国工程科技知识中心(CKCEST)的46205份未标注临床病历记录,构建特定领域的语料库,提供中医专业领域知识库,其中包含有18327723个标记.

3 实验方法和模型

3.1 ERNIE模型

ERNIE是在多层Transformer双向编码器架构上开发的最先进的预处理模型,具有注意力机制.ERNIE框架有两个步骤:预训练和微调.在预训练期间,ERNIE模型通过两个自监督的任务,即掩码语言建模(Mask LM)和下一句预测(NSP),在无标签的多语言通用领域数据(本文使用的数据来自百度中文百科)上进行训练.为了进行微调,ERNIE模型用预训练参数进行初始化,并利用下游任务的标注数据对所有参数进行微调,比如文本分类、句子对分类和问题回答任务.

3.2 TCM-ERNIE模型

标准ERNIE是在百度百科和百度新闻文本上进行预训练的模型,它只能捕捉到一般的中文语法和语义信息.然而中医临床记录与通用领域的文本有很大不同,它不仅包含了许多中医领域特有的症状、证候和中药词汇,而且许多中医临床记录是用古文书写的,古汉语文字在句子不同位置中可以代表不同的含义.

针对预训练的ERNIE模型在中医临床记录分类方面的不足,本文在对ERNIE文本分类器进行最终微调之前,只使用未标注的临床语料库对预训练的ERNIE模型进行微调.中间步骤使用与预训练过程相同的目标值,采用的方法与ULMFiT中的3个步骤类似,同时遵循ERNIE的学习衰减率.

TCM-ERNIE微调方法采用的3个步骤如图2所示.第1步与ERNIE预训练相同:使用百度最新发布的ERNIE2.0模型作为结果.第2步,使用46205条记录中的实例句子来构建句子对.如果第1句和第2句是相邻的,则NSP标签为正的.如果把句子2的50%部分,随机用另一条临床记录中的句子替换掉,则NSP标签为负的.Mask LM任务与预训练ERNIE模型的相同.第3步,将临床文本中的整条记录作为ERNIE的单个句子输入.步骤2采用步骤1的预训练权重作为初始化,步骤3使用步骤2的微调权重作为初始化.

标准ERNIE和TCM-ERNIE的主要区别是在步骤2中进行中医临床领域建模的微调.LM:语言建模,NSP:下一句预测.在Mask LM任务,保留一部分输入令牌用作预测.在NSP任务,ERNIE预测两个输入句子是不是相邻的.

与标准ERNIE一样,TCM-ERNIE模型三个步骤中的每个步骤的输入,可以是单个句子或者是句子对.“句子”可以是步骤1和步骤3中任意的相邻文本,不必是实际语言意义的句子.输入的第一个标记始终是某个特殊分类的标记[CLS],句子对被打包成由特殊标记[SEP]分隔的单个输入序列,每个输入令牌i都有一个嵌入标记Ei.对应于[CLS]和第i个输入令牌相对应的H维最终隐藏状态,C∈RH和Ti∈RH,用于分类任务的总序列指示和令牌指示.

图2 TCM-ERNIE精炼方法的三个步骤

4 实验结果与分析

将本文的TCM-ERNIE模型与之前表现最好的、具有代表性的深度学习模型进行了比较,具体如表1所示.

表1 具有代表性的深度学习模型

根据Devlin等的观点[10],笔者为文本分类器设置了以下参数,以便对TCM-ERNIE和ERNIE进行微调,步骤1:训练批次大小为32,学习周期为3,学习率为2e-5.对于TCM-ERNIE的步骤2,训练批次大小为32,学习周期为3,学习率为3e-5.为了获得Yao等的最佳性能,使用了他们的默认参数设置[6].对于CNN模型,使用了以下参数:过滤器的数量256,内核大小5,退出率0.5,学习率1e-3,批次大小128.对于LSTM模型:退出率0.5,学习率1e-3,批次大小128.对于fastText,使用其默认设置.通过对比发现,参数的微小改变并没有使结果发生很大的变化.对于TCM-ERNIE、ERNIE、CNN和Bi-LSTM模型,随机抽取10%的训练记录作为验证集.

4.1 评价指标

本文采用评估模型的常用的三个评价指标即精确率(P)、召回率(R)和F1值.具体公式为:

(1)

式中,TP为模型正确识别的实体数,FP为模型识别错误的实体数,FN为模型没有检测到的实体数.

4.2 实验结果

表2列出了不同模型的精确度、MacroF1得分和MicroF1得分.TCM-ERNIE表现最好,在3个指标上明显优于所有基线模型(学生t检验,p<0.001),这也显示出本文所用方法的有效性.进一步分析,可以注意到PV-DBOW比词袋模型表现更好,这意味着由文档嵌入捕获的本地词共现信息,比文档中的词出现更有预测性.之前表现最佳的ESA-PV-DBOW+SVM仍然表现良好,甚至超过了某些深度学习模型,比如Word CNN、Bi-LSTM和fastText,这说明中医领域知识中的词相关度可以克服其稀疏性,以改善文档嵌入方法.表2显示出字袋模型比词袋模型分数的更低,说明词的出现比字的出现,更具有预测意义.相反,Word CNN和Word Bi-LSTM明显比Char CNN和Char Bi-LSTM表现差,深度学习模型优先考虑局部的词/字序列连续,而不是词/字的出现,所以它们才表现出不同的学习差异.这一结论也与HUANG的研究成果一致,基于字的深度学习模型效果一直优于基于词的模型.基于词的模型处于劣势是由于单词分布的稀疏性(中文里词比字多得多),这会导致更多的词汇缺失和过度拟合.除了前面提到的原因外,古文风格的中医临床记录,因为古文行文非常简练,仅字符也可以代表足够的语义.CNN模型比LSTM表现要好得多,因为CNN可以学习更多的词/字n-gram特征,以区别标签分类.例如,“鼻衄屡发”和“发疡焮肿”与外科分类关联度比较高.LSTM模型能够以顺序模式学习文本,可是文档太长时就可能效果表现不佳.当引入了注意机制,由于选择了最具预测性的字符,char Bi-LSTM的性能得到了极大的改善.fastText模型也显示出不错的效果,因为它能以监督的方式学习文档嵌入.ERNIE模型的效果明显优于前面的几种方法,得益于ERNIE模型的Transformer可以学习n-gram特征,并通过注意力机制同时选中大部分预测性字符,而且在百度百科上精炼的ERNIE编码还可以进一步扩充通用领域知识.本文提出的TCM-ERNIE模型,从未标注的临床语料库中提取的中医领域知识,进一步提高了分类性能,这证明了专业领域知识在未标记语料库的有效性.在步骤2,将通用知识和中医领域知识编码到微调语言模型的参数中,如果提供更多的临床文本和领域知识,分类效果还可以进一步提高.

表2 不同方法的测试结果

对于在文档嵌入和学习过程中具有随机性的深度学习模型,本文将所有模型运行10次,并报告平均值±标准差.粗体数字是表现最好的结果.根据学生t检验,TCM-ERNIE的表现明显优于其他方法(p<0.001).

表3显示了几个表现最好的模型,在每个类别中取得的F1分数.可以看到,TCM-ERNIE在各个类别中都取得了最高分.与其他类别相比,训练记录较少的类别(如耳鼻喉科-口腔科)改进得更为明显,因为未标注语料库中的中医领域知识可以克服这些类别的稀疏性.就类别而言,可以看出妇科记录的参考价值最大,因为它们包含许多只针对女性患者的字/词,而且表3中的4个模型在预测妇科类别时都表现良好,记录较少的类别则更难分类.还应注意到,许多方法如ESA-PV-DBOW+SVM方法,对儿科记录不能达到满意的F1分数,因为儿童婴儿与成人有许多共同的疾病和症状.ERNIE和Char CNN这样的深度学习模型表现得更好,意味着注意力机制和对n-grams的最大池化可以提炼出儿科的特征,如年龄描述.

表3 每个类别的F1分数以及模型

图3 TCM-ERNIE中注意力模式的可视化

图3显示了TCM-ERNIE中的注意力机制,本文使用BertViz工具箱对第11层进行可视化显示.可以看到,记录中的指示性症状特征,如“鼻衄”和“发疡”,与标签“[CLS]”具有较高的注意力权重.该示例很好解释了ERNIE如何才能取得更好的效果.学习到的注意力可以通过在交互系统中突显出关键症状,提醒医生关注,可以减轻医生的阅读负担.

用图1的示例记录作为输入,图3中显示了[CLS]与第11层Transformer模型中的字符的注意力权重.线条的粗细和颜色反映了注意力的权重值.指示性字符具有较高的注意力权重.

5 结论

本文研究了用于中医临床文本分类的多个深度学习模型,利用7037份名老中医医案和46205份临床记录,构建中医临床记录的特定领域语料库,采用二次微调的方法重新优化了ERNIE模型,在没有任何预处理或特征提取的前提下取得比传统方法更好的结果,而且还可以通过在未标注的临床语料库上进行微调来进一步提高性能.最后,本文结合中医特定领域的语料库,重新优化了ERNIE的最新双向编码器,构建了专门用于中医临床分类的TCM-ERNIE模型.只需将临床记录的原始文字作为输入,不再需要任何预处理和特征工程,例如中文分词和停用词/稀有词的删除,该方法在发现分类标签进行自动文本标注方面取得了令人满意的结果.未来研究方向可以通过增加更多的未标注中医临床数据语料库,进行微调以提高TCM-ERNIE模型的分类效果,也可以通过知识图谱进行知识蒸馏来强化预训练过程.

猜你喜欢
微调语料库分类
乐海乐器“微调轴”研发成功
分类算一算
《语料库翻译文体学》评介
分类讨论求坐标
数据分析中的分类讨论
灵活易用,结合自动和手动微调达到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
教你一招:数的分类
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
隐显结合 听读辩证——高职高专听读模式教学方法与实践的总结、理论适用及模式微调