基于混合深度学习的藏医古籍命名实体识别研究

2023-11-24 06:42边俊伊
现代情报 2023年11期
关键词:医典藏医古籍

刘 佳 边俊伊

(吉林大学商学与管理学院,吉林 长春 130012)

藏医的研究由来已久,因藏族地区独特的地理人文环境而充满神奇的色彩,藏医与青藏高原文化生活环境密切相关,反映了千百年来藏族人民对自然、健康和生命的认知、探索,以及战胜疾病的智慧与经验成果。藏医不仅在藏族地区广泛流传,更在维吾尔族、蒙古族,甚至在其他的国家和地区都有传播,经过长期的沉淀,已经成为世界传统医学中不可分割的一部分。藏医文献数量巨大,在对少数民族医药文献整理中,55个少数民族的医药古籍一共3 100种,其中藏医就占了2 700种。但由于历史久远,保存条件简陋,藏医古籍文献霉变、腐蚀、虫蛀、损毁、遗失等现象十分严重。2022年4月,中共中央办公厅国务院办公厅印发的《关于推进新时代古籍工作的意见》[1],2022年10月全国古籍整理出版规划领导小组制定的《2021—2035年国家古籍工作规划》[2]等都提出要加强古籍保护与开发利用。对藏医古籍知识的保护与传承,深度开发与利用,对藏医的文化教育、科学研究、临床实践、药物开发,对维护国家文化主权与安全,弘扬中华优秀传统文化,铸牢中华民族共同体意识,具有重要意义。

本文以藏医古籍文献为对象进行命名实体识别(Named Entity Identification,NER)研究,利用深度学习技术识别、提取藏医古籍中具有特定意义的实体,如疾病、症状、病因等,为藏医古籍知识的深度挖掘与利用提供基础与支持。

1 研究现状

1.1 传统的藏医文献研究方法

传统藏医文献研究主要采用统计分析、可视化分析和知识组织等方法。在基于统计规则的方法中,才让南加等[4]对《四部医典》中治疗“痞瘤”方剂配伍规律进行研究,利用统计和关联规则的方法,抽取出相关的高频次的药物与方剂,以总结治疗规律,这种方法对藏医药规律研究具有重要意义,但传统的统计方法无法挖掘出潜在的、丰富的藏医古籍文献知识。文成当智等[5]以藏医“味性化味”理论对《四部医典》的用药规律进行可视化的分析,详细从“味性化味”理论视角,应用Gephi v0.8.2可视化软件等方法梳理3 000余函藏医古籍文献,作者从藏医更核心的理论对藏医古籍内容、规律进行梳理与分析,但限于目前藏医古籍文献的数字化开发程度,所涉猎的古籍文献量仍局限于一部古籍。娘本先[6]研究了藏医古籍本草知识的描述方法,并利用其所构建的知识元和知识体模型,构建藏医古籍本草知识库,实现基于规则库的知识检索功能。上述研究中,对藏医知识内容的研究多采取人工抽词与统计的方式,准确性高,但是无法为大规模的藏医知识抽取与开发利用提供支持。

1.2 基于机器学习的传统医学文献命名实体识别方法

相较于传统的藏医文献研究方法,基于机器学习的自然语言处理技术应用于传统医学文献研究,为藏医知识提取、检索、问答系统构建以及元数据标注等提供了重要的参考。目前,命名实体识别方法在传统医学文献的应用多集中在对传统医学文献中的疾病、药物的抽取上。罗计根等[7]提出,一种融合梯度提升树的双向长短期记忆网络的关系识别算法(BiLSTM-GBDT),开始了机器学习方法在识别中医文本实体领域的尝试。Tao Q等[8]通过构建BERT-CNN-LSTM的文本建模框架,从上下文中学习字符的表示,来进行中医药说明书的文本实体识别。Chen T等[9]利用生物创造与化学疾病关系语料库、中医文献语料库和i2b2 2012时间关系挑战语料库,进行关系提取的预训练模型BERT微调训练。肖瑞等[10]采用BiLSTM-CRF模型对中医文本中的疾病、草药、症状3类实体进行实体抽取,获得较高的测试结果。谢靖等[11]对古代中医繁体文献进行增强的SikuBERT预训练模型研究,有效提高了中医命名实体识别的效率。何家欢等[12]通过中国知网获取藏药药理相关文献155篇,构建中文藏医药药理实体识别语料库,设计基于BiLSTM-CRF深度学习模型的藏药药理命名实体识别方法,采用信息抽取技术从科技文献中提取并识别藏药药理,为藏医药文献研究提供新途径。

上述研究为藏医古籍的实体识别研究提供了方法与思路的借鉴。目前基于机器学习的藏医古籍文献研究成果仍较为匮乏。作为世界四大传统医学之一,藏医学有其独特的诊疗与用药方案,完全复用中医文献的研究方法不能够准确地反映藏医学的知识特点,也不能精准地识别藏医文献中的实体与关系。

综上,针对藏医古籍文献的内容分析仍以统计分析与共现分析方法为主。藏医文献体例的独特性导致藏医知识及其关系呈现分散、不明确等特点,无法直接复用传统医学文献的方法进行实体识别。目前收录藏医资源的开放数据库较少,尚未建立专门的藏医语料库,使得利用深度学习模型进行藏医知识提取与深度分析研究方面的进展缓慢。而藏医古籍文献作为藏族文化与智慧的载体,包含丰富的传统医学知识,具有重要的挖掘价值,因此,基于藏医古籍文献的实体识别还有待更深入的研究。基于此,本文以小样本的藏医古籍文献资源为研究对象,将人工标注与深度学习方法相结合,尝试构建ALBERT-BiLSTM-CRF模型对藏医古籍《四部医典》中的疾病、症状、药物、方剂等进行实体识别实验,并与BERT-BiLSTM-CRF、BiLSTM-CRF、BERT 3种目前普遍使用的实体识别模型进行比较分析,以确定藏医古籍文献实体识别的最优模型,解决传统命名实体识别方法准确率低的问题。

2 关键技术与藏医古籍命名实体识别模型构建

本文利用Albert、BiLSTM、CRF模型等深度学习模型与自然语言处理技术构建藏医古籍命名实体识别模型,旨在为藏医领域知识图谱的构建、知识检索、知识推理等提供基础与方法支持。

2.1 关键技术

2.1.1 ALBERT模型

ALBERT(A Lite BERT)[19]是BERT的改进版本,它拥有3个方面的创新。

首先是参数共享,降低Transformer Block的整体参数量级。BERT的Transformer编码器是一个包含了Encoder-Decoder结构的编码器,同时使用了多头自注意力层以便处理更长的序列信息[20],而ALBERT模型只保留了Encoder的部分,降低了原来BERT的多层Block的迭代,使参数降低,从而实现参数共享。

其次是词向量分解,有效降低词向量层参数量级。BERT中的隐藏层(H)和编码层(E)是相等的,如果词表的大小是V,当V很大时,E参数变大,即V*H=V*E。在ALBERT中通过降低E的纬度进行因式分解,当H≥E时,即V*E+E*H,降低了模型的参数,提高了模型的性能。

最后是使用句子顺序预测的自监督损失(Sentence-Order Prediction,SOP)方法,可以增强文中句子的上下文联系。在BERT中使用的是下句话预测(Next Sentence Predict,NSP),NSP主题预测任务会使在学习中出现知识重叠的现象。而SOP避免了主题预测,使句子之间更具有连贯性,提高了ALBERT下游多语句编码任务的性能。

2.1.2 BiLSTM模型

BiLSTM(Bidirectional LSTM)双向长短期记忆网络模型是由循环神经网络模型LSTM改进得到的一种新模型。LSTM(Long Short-Term Memory)是长短期记忆网络,在RNN(Recurrent Neural Network,RNN)循环神经网络的基础上增加了3个门结构,分别为输入门、遗忘门和输出门。分别控制变量的输入、输出和细胞单元的状态[21]。门结构可以解决对于较长输入的反向传播过程中RNN出现梯度消失和梯度爆炸的问题。BiLSTM是双向的LSTM模型,向前可以获得输入序列的上文信息,向后可以获得输入序列的下文信息。在Forward层从1时刻到t时刻正向计算一遍,获得并保存每一个时刻向前隐含层的输出。在Backward层沿着时刻t到时刻1反向计算一遍,获得并保存每一个时刻向后隐含层的输出[22]。最后在每一个时刻结合Forward层和Backward层的相应时刻输出的结果获得最终的输出。

2.1.3 CRF模型

2.2 藏医古籍命名实体识别模型构建

针对藏医古籍文献样本量小、内容多样,且语义复杂等特点,本文的命名实体识别算法以预训练模型ALBERT为基础,构建ALBERT-BiLSTM-CRF模型进行藏医古籍文本的命名实体识别研究。

本文所使用的实体识别模型共有3层,如图1所示,第一层是ALBERT层,先将输入文本进行句子标记,句首标注[CLS],句尾标注[SEP],句子的上层抽象信息作为最终的最高隐层输Softmax中,通过词向量分解降低参数量级。ALBERT将每一层Transformer Encoder Block参数共享,之后学习的每一层,通过重用第一层并进行共享,使每一层都学习到了第一层的信息,相当于只学习了一层。最后将文本转化为字向量X1、X2、X3…与BiLSTM层相连接。

图1 ALBERT-BiLSTM-CRF模型

第二层是BiLSTM层,通过学习正向的h(h1、h2、h3…)信息和反向的h(h1、h2、h3…),提取出上下文本特征,计算最大概率值,输出Y(Y1、Y2、Y3…)。

第三层是CRF层,准确对BiLSTM输出内容进行解码,做实体类型的序列标注,为每个字符输出最可能的实体标签。

3 实验与结果分析

模型实验之初,需要确定数据来源并进行数据预处理,构建实验数据集;然后针对藏医古籍知识特点,设计、训练、优化实体识别模型。

3.1 数据来源

藏医古籍文献种类繁多、复杂,多为半结构化的信息文本。目前中医领域已经建立了不同规模的中医语料库,极大地推动了人工智能技术在中医文献知识挖掘、知识关联与深度开发中的应用。然而,藏医古籍中记载的藏药、疾病名称等有其独特的命名规则与记录方式,其语料在语法与内容编写方面,与中医语料存在较大的差异,因此需要对藏医文献预先进行精确标注,构建以藏医语料为基础的数据集,为后续智能化处理提供数据基础。

《四部医典》是一部藏医理论与实践相结合的经典著作,也是藏医学的奠基之作,内容广泛,涉及藏医理论知识、临床经验、药物功能、治疗方法等。藏医学的诊疗方法主要以《四部医典》为依据,是藏医研究中不可或缺的文献,因此,本文选择1987年出版的,由宇妥·元丹贡布等著、马世林等译注的《四部医典》[13]为主要语料来源,辅之参考相关研究论文与参考资料,构建藏医古籍实体识别实验的数据集,以确保所构建的命名实体识别模型具有普适性与推广性。

3.2 实体类型

在确定数据来源的基础上,根据数据集特点来定义实体类型。命名实体识别的概念目前还没有统一的定义,Marrero等总结了前人对命名实体的定义,通过分析和举例等方式,最终得出应用方面的需求目的是定义命名实体唯一可行的标准[14]。本文以此为依据,通过分析《四部医典》的内容,并参考相关传统医学命名实体研究,确定藏医古籍的实体类型。

《四部医典》中记载了许多临床治疗方法,除药物治疗外,还包括药浴治疗法、催吐疗法、放血疗法、灌肠法、鼻药疗法等特色疗法。在药物性能方面,《四部医典》记载了汤剂、丸剂、散剂、膏剂等3 000余种方剂,对草药的功效、属性、气味等都有详细的记载。在专家的指导下,根据文献内容特点,本文制定了命名实体识别模型中的实体类型及其标识,将具有藏医特色的实体类型归纳为6类,疾病、病因、症状、药物、方剂、疗法,如表1所示。

表1 《四部医典》实体类型

3.3 数据标注

数据标注是使未经处理的文本能够被机器识别和学习的信息处理过程,通常包括自动标注和人工标注两种方式。自动标注是利用机器和算法对文本内容进行识别的方式;人工标注是标注人员利用标注工具对文本内容进行标识的方式。人工标注与自动标注相比具有高效、准确的优势,但是在标注效率上要远远低于自动标注方式。鉴于上文所述藏医古籍体例的独特性,本文采用人工标注方式进行数据标注。

按照上文所制定的实体类型,对《四部医典》进行人工标注。《四部医典》共4部,分别是《总则本》《论述本》《密诀本》和《后序本》,包括基础理论、生理解剖、疾病诊断治疗的原则和方法、预防、药物等内容。本文主要对《四部医典》三、四部中约3万字内容进行了人工标注,得到4 350条数据,并邀请具有藏医背景的专业人员对数据集进行多轮的检验与修正,构建出藏医词表。具体标注示例如表2所示。

表2 人工标注示例

本文采用BIO标注法进行随机标注,其中“B”表示实体的首部(Begin),“I”表示实体的中间(Inside),“O”则表示该元素不属于任何实体类型(Outside)。在对文本数据进行分句的基础上,对分句后的结果按照标注规则对语料库中的疾病和药物等进行序列标注。对语料中词语的标注采用B/I-XXX的形式,B/I表示此词是实体的内容,XXX表示实体的类型。O表示该词不是实体中的内容。使用Label Studio平台标注《四部医典》三、四部,得到24 918个实体,其中,疾病类实体14 049个,病因类实体506个,症状类实体209个,药物类实体8 919个,方剂类实体236个,疗法类实体999个。标注示例如图2所示。

3.4 实验方法与参数设置

本文的实验平台为恒源云(GPUSHARE)云服务器Linux操作系统、2080ti(11G)GPU(显卡)类型、16G运行内存、Python3.7.10编程语言、Tensorflow1.15.5深度学习框架。主要模型参数设置如下:字符向量长度为128,ALBERT隐藏层的大小为768,ALBERT学习率为2e-5。为了测试ALBERT-BiLSTM-CRF模型的性能,将标注语料按8∶2的比例划分为训练集和测试集,用于模型的训练与测试,并从训练集当中随机抽出20%作为验证集来评估模型效果。

3.5 评价指标

本文采用自然语言处理当中常用的精确度(Precision,P)、召回率(Recall,R)和F1-score作为度量指标,检验各个模型在命名实体识别中的效果[23],具体内容如下:

3.6 实验结果分析

为检验本文所提出的藏医古籍命名实体识别模型的性能,统一使用标注好的藏医语料数据集,对目前命名实体识别研究中常用的BERT-BiLSTM-CRF、BiLSTM-CRF、BERT模型进行训练和比较。4个模型的F1-score、Precision、Recall值如表3所示。

表3 模型对比结果

由实验结果可知,4种深度学习模型在藏医古籍文献实体识别上存在一定的差异。其中达到最优效果的是ALBERT-BiLSTM-CRF模型,F1-score达到96.28%,说明该深度学习模型在藏医古籍文献这种小样本数据集命名实体识别中取得的效果较好,可以实现较优性能。此外还观察到,BERT模型与BiLSTM-CRF模型一起使用时,对F1-score没有提升作用,反而造成F1-score降低。而BiLSTM与CRF的结合使用,则会对F1-score和Precision值有一定的提升作用。

如图3所示,进一步分析ALBERT-BiLSTM-CRF、BERT-BiLSTM-CRF、BiLSTM-CRF、BERT 4种深度学习模型对不同实体类型的识别效果。以F1-score作为指标进行比较,由实验结果可见,药物(RES)类型的实体在各模型中识别效果最优。这是因为在《四部医典》中,对药物的描述较为集中,并且语义简单,识别效果较好。而疗法(THE)类型实体的识别结果在4种模型中的F1-score相对都比较低。在《四部医典》中,疗法数据较为复杂、分散,有的在介绍药物效果中出现,有的在疾病治疗方法中出现,疗法描述的不规则性导致模型在识别疗法时的难度增加,因此影响了模型训练的效果。在今后的研究工作中,还需要进一步扩大训练数据规模,标注更多语料来进行研究,从而改善和提高模型的识别效果。

图3 各实体F1-score对比

4 藏医古籍命名实体的应用

运用机器学习与人工标注相结合的藏医古籍命名实体识别方法,可以在藏医古籍文本中识别出更多的藏医知识实体。本文进一步对实体之间的关系进行分析,构建了藏医古籍实体关系模型,如图4所示。

图4 藏医古籍实体关系模型

以《中医药学语言系统语义网络框架》[24]作为标准,并借鉴其他中医语义网络模型,结合藏医文本自身的特点,对藏医实体间的关系进行规范化定义,如表4所示。

表4 《四部医典》关系类型

本文利用Neo4j图数据库建立《四部医典》知识库。Neo4j本质上是一种由节点(实体)和边(实体之间的关系)组成的关系图,可以用来揭示知识之间的关系[25]。将《四部医典》中识别出的实体存储于图数据库中,依据关系类型表对不同实体类型进行关系的识别和连接,实现藏医实体的关联,并进行可视化展示。图5是本文所构建的部分藏医古籍知识图谱。从该图可以看出,图中的节点向“龙”“赤巴”“培根”3个节点聚合,显示出“龙”“赤巴”“培根”作为藏医中的3个核心因素,在藏医病理与诊疗中的重要地位与作用。对照藏医古籍文献内容,“龙”“赤巴”“培根”构成了人的生命三要素,疾病也是由于这三要素失衡所致。由此可见,藏医古籍知识图谱能够反映出藏医古籍文献中的核心知识内容与知识关联。

图6是与疾病“热症扩散”相关的部分知识图谱。图谱清晰地显示出,“热症扩散”包括“心脏热疾扩散”“命脉热疾扩散”“肝脏热疾扩散”等类型的疾病,这类疾病由“赤巴”引起;由“赤巴”导致的疾病多呈现“口渴”“呕吐胆汁”“口苦”等症状,图谱中的“热疾扩散”类疾病也多呈现出这样的症状。通过观察各种方剂的药物构成可以发现,“红花”节点周围汇聚了多种方剂,可以初步判断“红花”是治疗各类“热症扩散”疾病的核心药物,可作为供藏医研究者进一步进行实验研究的依据。通过知识图谱还可以对比分析不同疾病的病因与症状表现,指导方剂与疗法的选择,辅助藏医工作者研究病机、病理,挖掘疾病用药的规律等。藏医古籍命名实体识别模型为藏医古籍知识的挖掘与知识图谱的构建提供了不可或缺的数据支持。

图6 热症扩散知识图谱

5 结 语

本文针对藏医古籍知识的特点,将人工标注与深度学习的方法相结合,构建了基于深度学习的命名实体识别模型。基于4种深度学习模型,选择具有“藏医百科全书”之称的、集藏医理论与实践知识于一体的藏医古籍《四部医典》进行实体识别实验,以确保所构建的命名实体识别模型具有通用有效性。结果表明,ALBERT-BiLSTM-CRF模型对藏医领域的实体识别效果最优。利用实体识别结果,构建了藏医古籍知识库与知识图谱,为藏医学的深入研究提供支持,也为藏医知识的进一步深度开发与利用提供了语料基础。

后续研究可以从以下几个方面展开:扩大语料规模,提升藏医实体识别模型的效果;进一步扩充、细化数据模型,以更全面地挖掘藏医古籍文献中的知识资源,支持藏医古籍知识的研究;在已有的数据集上进一步训练和优化模型,以提高模型在藏医古籍中命名实体识别任务中的性能;对藏医古籍命名实体识别系统进行功能模块的开发,使其能够被广泛应用于藏医潜在知识推理、医学自动问答、辅助决策等领域。

猜你喜欢
医典藏医古籍
《黄帝内经》五行学说与《阿维森纳医典》四元素说的比较研究
中医古籍“疒”部俗字考辨举隅
关于版本学的问答——《古籍善本》修订重版说明
关于古籍保护人才培养的若干思考
我是古籍修复师
浅谈藏医《四部医典》外涂药的开发价值
藏医治疗慢性肠炎
藏医对肝硬化的认识及治疗研究
藏医外敷治疗类风湿性关节炎
《四部医典》与《阿维森纳医典》中的放血疗法比较