付 兴 李芊芊 杨 凤 周冉冉 侯鉴宸 陶晓华
(北京中医药大学 北京 102488)
中医古籍记载了我国数千年来医疗实践的经验,是传承中医科学和医疗创新的源泉和根基。但中医古籍数量众多、门类庞杂,要充分挖掘中医古籍的价值,需要深化基于知识元理论的中医古籍整理挖掘技术与方法。叙词表也称主题词表,以更加规范化的系统语言代替标引人员使用的自然语言,是中医古籍文献检索中进行文献主题标引的检索工具之一,是中医古籍知识库的基石,也是连接中医各种专业词语与计算机系统语言的纽带。但是,现有词表无法满足现代疾病与中医病证名的相关性研究需求。因此,本研究基于600种中医古籍的深度标引工作,选取4种中医诊疗具有一定优势和特色的疾病——脑卒中、心力衰竭、肝硬化和糖尿病,通过叙词表构建,将相关中医词汇进行集合,用以指导后续的标引和检索,揭示概念间关系,也可为后续4种重大疾病中医临床术语知识框架建立奠定基础。
叙词表是概括各门或某一学科领域并由语义相关、族性相关的术语所组成的、可以不断补充的规范化词表[1]。叙词表主要由叙词与叙词间关系组成,叙词间基本语义关系采用不同的参照符号以示区分。中国《汉语主题词表》采用“用、代、属、分、参”结构。一般叙词表中包括等同关系、等级关系和相关关系3种关系[2]。叙词表作为一种术语控制工具,可以通过将古籍资料、文献、检索者的自然语言等转换成相对规范化的语言,从而形成某特殊领域内的表达事物概念的词汇集合;还可以通过各方式对各叙词之间的各种语义联系进行显示,是可以不断补充、完善和调整的动态词表[3]。
国外主要的医学叙词表包括美国国家癌症研究所的《NCI主题词表》(NCIt)和美国国家医学图书馆(National Library of Medicine,NLM)编制的《医学主题词表》(MeSH)等,其中MeSH影响力最大[4]。MeSH最早出版于1960年,经过医学学科专家和MeSH工作人员的不断修订和更新,2019版MeSH收录了29 351个概念和247 209个补充概念记录。这些补充概念来源于生物医学领域的其他相关词表。MeSH具有独特的主-副主题词组配表达形式,采用树状结构表代替传统的分类表。MeSH用于标引世界领先的生物医学数据库PubMed的文献,也用于NLM编目数据库的书目描述。
2.3.1 中医药学主要叙词表 现代中医药词表的研制工作起步于20世纪70年代[5]。我国现有的医学领域叙词表包括医学(现代医学)、药学和中医药3个领域,代表性叙词表有:中国医学科学院医学信息研究所将MeSH翻译为中文,并在此基础上建立的“中文医学主题词表检索系统”(CMeSH)[6],是国内医学领域权威的叙词表;国家食品药品监督管理局于2013年编制出版的《中国药学主题词表》,共收录术语29 000条[7];中国中医科学院中医药信息研究所编制的《中国中医药学主题词表》,1987年出版第1版,2015年发布网络版,目前共收录术语21 466条[8]。其中,“中文医学主题词表检索系统”和《中国中医药学主题词表》都建立了持续更新机制,而且二者还建立了网络版服务系统[9]。此外,中国中医科学院从2002年开始,借鉴统一一体化语言的经验,研制了“中医药学语言系统(Traditional Chinese Medicine Language System,TCMLS)”,对中医药学的名词术语进行了系统梳理,构建了中医药概念术语的层次结构和复杂语义网络。已收录约12万个概念、30万个术语以及127万条语义关系[10-11]。定位在专门面向中医临床的大型术语系统“中医临床术语集”,已收录11万多条概念词,27万多个术语,内容覆盖临床所见、病证、操作、治则治法和中药等中医临床知识各个方面[12]。建立了概念与概念之间的层级关系、概念与概念之间的相关关系。
2.3.2 问题分析 目前基于本体技术的中医药知识库系统成为中医药信息化领域的主流研究方向[13]。叙词表采用一种树形结构方式展现中医古籍中的概念结构关系,表现出来自于古籍的内容与概念,是对中医古籍文献的客观反映,也展现了古籍文献本身的结构。领域本体的编制以叙词表为依据,继承了叙词表的树状结构特征[14]。然而,尚缺乏以现代疾病为研究对象且基于中医古籍词语的叙词表,尽管中西医是两种不同的学科体系,但二者的研究目的与对象是一致的。因此,为架设传统医学与现代医学的研究桥梁,构建具有中医特色的《4种重大疾病的中医古籍叙词表》,具有重要的研究意义与临床价值。
为满足中医药领域内4种重大疾病的研究工作需求,采用“以主题为主,主题与学科相结合”的原则,突出叙词表中4种重大疾病的专业性,保证实用性,充分考虑地域和时代。词表的编制标准参考《汉语叙词表编制规则(GB 13190—1991)》和《军用主题词表编制规则(GJB1776A—99)》制定。语料构建参考《中国药学主题词表》《中国中医药学主题词表》《健康信息学-中医药学语言系统语义网络框架(GB/T 38324—2019)》以及中医语言系统发布平台等。
词表选词遵循以下3个原则,一是保证参考标引频率,选用在中医药领域较常出现,具有一定使用频率的名词术语;二是保证基本词汇准确,参考《中国中医药学主题词表》的基础上,保证与MeSH词表内中医药相关词语兼容,同时以《国际疾病分类第十一次修订本(ICD11)》《中医病证分类与代码(GB/T 15657—2021)》的术语内容为标准;三是保证所选词语概念清晰简练,词义明确。
本研究基于采用“病脉证并治”知识元标引技术与方法的中医古籍标引平台(http://114.255.40.130:60080/metaservice2/#),在对中医古籍进行标引时,以“病脉证并治”标引模版为首选,并根据不同类别、不同内容的古籍配置9种标引模版及元数据。其中“病脉证并治”标引模版以中医疾病名为核心,包括病名、病因、病机、治则、治法、主脉、兼脉、辨证、方剂、药物、针灸、预后、宜忌等30个知识元,以及59种语义类型。9种标引模版及元数据包括中医理论、诊法、病证、本草、方剂、医案、预防调护、学术流派、针灸标引模版。
现代疾病与中医病名的对应问题一直是学界争议的关键。首先,本研究以4种重大疾病及其并发症为对象,以现代文献研究为抓手,以4种重大疾病相关的中医疾病名为核心,在中国知网文献数据库中以脑卒中、心力衰竭、肝硬化、糖尿病、并发症及其同义词为关键词进行精确检索,共检索1995年1月1日—2022年2月1日的中文文献6 003篇,其中脑卒中519篇,心力衰竭445篇,肝硬化947篇,糖尿病4 092篇,提取文中涉及的并发症名称,将相同病名进行合并,如中风后抑郁、卒中后抑郁、脑卒中抑郁症合并为抑郁症,从中归纳出4种重大疾病及其并发症共208种,其中脑卒中76种,心力衰竭15种,肝硬化45种,糖尿病72种;其次,再以筛选出的4种重大疾病及其并发症名称、中医病名或中医为关键词,在中国知网文献数据库中再次进行精确检索,去除缺乏中医认识的部分现代疾病,例如电解质紊乱、酸碱失衡等;最后,参考《国际疾病分类第十一次修订本(ICD11)》和2020年颁布的《中医临床诊疗术语第1部分:疾病》以及相关临床指南与专著等,剔除部分欠规范的中医病名,最终形成4种重大疾病及其并发症相关的中医疾病名318种,其示例,见表1。
表1 4种重大疾病并发症中西医病名对应
基于中医古籍“病脉证并治”知识元标引体系,以中医疾病名为导向,突显“以病为纲”(由于4种重大疾病的并发症存在交叉,而其并发症的中医病名并无区别,因此未对其并发症的中医病名进行区分),同时参考《中国中医药学主题词表》等现有叙词表,制定现代医学病名、中医疾病名、中医理论、病因病机、诊法、症状体征、推荐方剂、中药、治疗、预防调护、古籍书目、学术流派及医家共12个范畴。以4种重大疾病及其并发症相关的中医疾病名遴选知识体,将其中的知识元与语义提取出来,将不同类型语义归入不同范畴类目中,如语义类型为治法的语义“滋阴”归入“治疗”范畴下的“治法”中,从而形成4种重大疾病相关的中医古籍叙词表语料库。
构建中医古籍叙词表流程包括选词过程、编制主表、编制词族表、编制范畴表、编制英汉索引表等内容,见图1。
图1 《4种重大疾病的中医古籍叙词表》构建流程
4.3.1 选词过程 对中医古籍进行原始版本数字化处理,形成计算机可读文本文件,并按“病脉证并治”知识元核心要素进行深度标引加工,遵循“一标、二查、三复审、四抽检”的原则,对标引后的条目进行人工和机器“病脉证并治”知识元核心要素双分析,利用自然语言处理等技术手段,对数字化后的古籍原文内容进行机器分析挖掘,提取出其中的词汇及词汇出现的频次,构建4种重大疾病中医古籍叙词表的基本素材词库。采用自然语言处理等技术提取词汇(尤其是高频词汇)。参考各类文献数据库,以及中医叙词表与词典工具书等传统纸质文献和书籍资料,如《中国中医药学主题词表》《中医大辞典》等,并保证与MeSH词表内中医药相关词语兼容。
4.3.2 编制主表 通过以上选词来源,基于网络关键字统计系统统计期刊的关键字,在分词结果和关键字统计结果中,通过制定词频阈值、词汇过滤规则、选词范围、选词原则来选取正式主题词。
4.3.3 编制词族表 采用本课题合作单位搭建的“知识组织系统管理与构建平台”构建词汇语义成族的结构体系,其中包括展示词汇的范畴号、英汉对照关系、同义关系、等级关系、关联关系等内容。在编制主表过程中,制定正式主题词与非正式主题词的编制结构体系。在编制词族表过程中,制定词汇语义成族的结构体系,属、分、族项通过导入词族表的等级关系来实现,范畴号由导入范畴表中设定的类别号来实现。
4.3.4 编制范畴表、编制英汉索引表 制定范畴表编排的结构体系,制定汉语拼音索引、英汉对照索引的结构体系。本叙词表研究旨在中医古籍知识分类体系下进行扩展与深化,尤其关注以疾病为纲的中医古籍叙词编著与研究。建立叙词的概念关系,借鉴词表概念间的逻辑关系,结合古籍知识库语义元数据,参考中医药一体化语言系统,采用自下而上与自上而下相结合的方法,构建中医疾病古籍叙词表的概念语义网络。
《4种重大疾病的中医古籍叙词表》包括主表、范畴表、词族表和索引表(汉语拼音索引、英汉对照索引)。其中范畴表类目,见表2。该词表涵盖现代医学病名、中医疾病名、中医理论、病因病机、诊法、症状体征、推荐方剂、中药、治疗、预防调护、古籍书目、学术流派及医家共12个范畴,在各类目之下,再按中医理论逐项细分,最深达7级,见表3。目前收录包含树形号、中文、英文、拼音、定义或简介以及范畴号的正式主题词7 234个,非正式主题词5 255个。语义关系参考《健康信息学-中医药学语言系统语义网络框架(GB/T 38324—2019)》,包括上下位关系、相关关系、分支、包含等10余种。
表2 《4种重大疾病的中医古籍叙词表》范畴表类目
续表2
表3 范畴各级数目(个)
综上所述,基于中医古籍的4种重大疾病叙词表旨在立足于中医古籍知识分类体系下进行扩展与深化,探索性试以现代文献研究为依据,寻求现代医学病名与中医疾病名的连接。采用具有“病脉证并治”特色的中医古籍知识元标引方法,完善以中医疾病名为纲的中医古籍叙词编著与研究,从而形成4种重大疾病的中医古籍叙词表。构建4种重大疾病的中医古籍叙词表后,为其他现代疾病的叙词表建立提供范本与参考,或可为构建4种重大疾病的中医临床术语知识框架奠定良好基础。