张妮楠 曹馨宇 林睿凡 王斌 史华新 周洪伟 谢琪
摘 要:中醫常采用自然语言描述疾病症状,导致症状命名不统一,影响数据挖掘分析和临床疗效评价结果。该研究主要以中医临床专病诊疗数据为研究对象,示范性地探索和整理了临床诊疗数据中术语该如何规范化的问题,从语义分析的角度来规范化整理症状术语,在首选术语制定过程中引入术语属性和术语间关系的概念,解决了症状间多词一义、多义一词的问题。参照ICD-11中文版整理了疾病诊断术语;参照《中国药典》规范了中药药名;按照“治愈”“好转”“未愈”分类整理疗效评价术语。最终整理获得症状术语558条,其中首选术语164条,同义术语394条;诊断术语23条;疗效评价术语21条,规范后的数据可用于数据挖掘分析。
关键词:癫痫诊疗数据;数据规范化;首选术语;同义术语;术语属性
中图分类号:N04;R276文献标识码:ADOI:10.3969/j.issn.1673-8578.2021.02.006
Study on Standardization of Clinical Data of Epilepsy Diagnosis and Treatment//ZHANG Ninan, CAO Xinyu, LIU Ruifan, WANG Bin, SHI Huaxin, ZHOU Hongwei, XIE Qi
Abstract:Chinese medicine often uses natural language to describe the symptoms of the disease, which leads to inconsistent naming of the symptoms and affects the results of data mining analysis and clinical efficacy evaluation. Based on the diagnosis and treatment data of clinical special diseases of a famous Chinese medicine practitioner, this study explored on how to standardize the terminology in clinical diagnosis and treatment data. From the perspective of semantic analysis of standardization symptoms terms, we introduced the concept of the term properties and the relationships between terms in the process of establishing the preferred terms, and solved the problem of multi-word meaning and polysemy between symptoms. Also, we sorted out the disease diagnosis terms according to the ICD-11 Chinese version, standardized the names of traditional Chinese medicines according to Chinese Pharmacopoeia, and sorted the curative effect evaluation terms according to “cure”, “improvement”, and “unhealed”. We finally obtained 558 symptom terms, among which 164 were preferred terms, and obtained 394 synonymous terms, 23 diagnosis terms, 21 terms of efficacy evaluation. The standardized data can be used for data mining analysis.
Keywords: epilepsy diagnosis and treatment data; data standardization; preferred term; synonymous term; term properties
引言
开展中医真实世界研究,基于临床诊疗工作积累的病案,进行中医药个体化诊疗评价和分析,已经成为中医药专家学术经验传承、临床有效药物挖掘的重要途径。中医真实世界数据也已成为中医临床评价和药物监管决策证据体构成的重要来源。从临床诊疗病案中获得的真实世界数据,要通过数据相关性和可靠性评估其适用性,而数据规范化的工作更是数据研究与利用的首要关键环节,只有规范化的数据,才能够成为研究资料而发挥其应有的研究价值。
中医真实世界数据有几个特点:(1)非结构化,即医案数据主要来源于医院电子信息系统存储的门诊或住院电子病历、患者保留的门急诊病历手册,数据分布在主诉、现病史、既往史、刻下症等段落,每段的文字,由医生在诊疗过程中以自然语言书写而成,而不是从预设的字段中勾选,整体段落连贯,没有字词间的拆分结构。(2)表达形式多样。如痰热相关证候术语,有痰热内蕴、痰热蕴结、痰热壅盛、痰热互结、痰热互阻、痰热内生等15种之多。(3)中医症状术语外延模糊、复合症状随意组合而症状的量化程度不足,如纳呆有纳差、纳少、食少、饮食减少、食欲不振等表达,给数据的分析和利用带来困难。这样的问题引起了关注,全国科学技术名词审定委员会先后审定发布了内妇儿外等多个学科的《中医药学名词》,给中医药学名词以标准化的定义。黎敬波[1]等收集大量文献和临床病案,整理了常见症状术语2069条,分析了术语的使用习惯,并进行了解释和规范;张启明等人[2]以古代及近现代名家的数百部医案及著作为语料库对中医症状学进行研究,得到了内涵最小的症状399条,并按照五脏功能异常的临床表现为分类框架,对症状术语进行分类;王永炎等人[3]通过文献普查方式得到症状术语100余条、中西医疾病1500余种。
这些工作为中医术语的规范化提供了较好的基础,但是规范化术语的临床转化应用相对不足,尤其体现在专病研究中。某种确定的病种或病证,术语相对密集,在整体的术语体系中呈偏性分布。如癫痫,我们在研究工作中尝试采用现有术语集与病历数据集中的术语进行比对和匹配,尚不能准确、成簇、翔实地刻画癫痫的临床表现。余瀛鳌在充分的文献循证与临床实践的基础上,提出“审因—辨病—辨证”相结合的“中医通治”理论,癫痫促效方是其代表性通治方,他认为癫痫病理要素是痰、瘀,实多于虚。2014和2018年2篇博硕论文的主要结论也印证了这一观点[4-5]。为了从真实世界数据中获得依据,进一步分析余瀛鳌诊治癫痫的通治方及其病证人群特点和证治规律,本研究以余瀛鳌多年诊治癫痫的门诊病历作为研究资料,进行系统的规范化整理,也为传承中医临证经验的数据整理工作提供参考。
1 构建癫痫临床诊疗数据语料库
语料来源:就诊于中国中医科学院中医门诊部和鼓楼中医院京城名医馆余瀛鳌教授门诊近十年的癫痫患者临床诊疗病例信息。共收集数据243诊例、1219诊次,其中50%的数据缺少一般人口学信息如年龄、性别、出生日期;69%的數据缺少诊疗信息如主诉、现病史、既往史。一般人口学信息和诊疗信息数据完整的有121诊例、329诊次。
语料库构建:对数据进行去标识处理,选取既往史、现病史、刻下症、处方部分。以患者ID号为主索引,以逗号为分隔符,将345条病历数据拆分成3029条语料数据,例如:“患者近期5次发作癫痫,均于每日凌晨2—3点发作,易流口水”。在同一主索引下有3条数据,分别为“患者近期5次发作癫痫”“均于每日凌晨2—3点发作”“易流口水”,完整地存入Excel,通过人工校对,避免数据缺失或遗漏,保证数据的准确性、完整性。
2 癫痫症状术语的规范化
症状术语是中医审因辨治的基础,来源于真实诊疗环境,数量庞大而表达多样,例如:记忆力下降、忆减、记忆力减退、忆差等,临床中都是用来描述健忘这一症状。症状术语的规范化主要分为三步,分别为语料库构建、症状术语获取、建立首选术语与同义术语的映射关系,详见图1。
2.1 获取症状术语
症状术语的获取有直接提取核心词、复合症状词拆分、语义分析提炼3种形式。对于不影响用药判断含症状属性的术语特点,可通过核心症状抽取,直接获取症状术语。相比从标准中获取症状术语,基于临床病历中症状术语更加丰富多样,涉及症状较复杂,多涉及症状属性的描述,如疼痛性质、程度、持续时间、加重缓解因素等,门诊病历数据不仅涉及癫痫的主症、兼症、伴随症状,还涉及其他诊断,这些术语在概念和层次上较标准文件中术语复杂。本研究首先抽取词条中的核心症状,从3029条语料中抽取核心症状1674条。例如“发作时突
然昏倒”是以时间状语修饰核心症状,根据核心症状抽取法从中得到术语“突然昏倒”。
对于不影响用药判断的复合术语,可采取复合症状术语拆分的方式。对于抽取的1674条核心症状术语,去重后得到675条症状术语,筛选出其中复合症状术语65条,复合症状多由两个症状组成,临床上这些症状多不同时出现,拆分后既可以单独统计症状—药物的相关性,也可通过术语关系建立两个症状同时出现的强关联性再进行挖掘分析,因此本研究对复合症状予以拆分。例如“口干渴”拆分成“口干”和“口渴”。
对于描述性无核心症状的术语特点,需采用语义归纳间接获取症状。语义归纳是指根据自然语言描述的内容,来归纳所要表达的临床症状。它是对症状的描述性解释,也必将影响临证加减和遣方用药。语料具有叙述性的特点,如“两年前曾来就诊”类似此类语料不包含症状术语;再如“大便3~4日一行”虽为叙述性语料且没有核心症状,但却能从语义归纳提炼核心症状为“便秘”。本研究通过语义归纳得到症状术语5条。
2.2 确定首选术语
首选术语指当一个概念出现正名和别名时,根据临床用语习惯或使用频率,选其一为首选术语,同义术语为与首选术语含义相同的其他术语。对于通过语义义类法获得的204类术语,按照首选术语的选取原则,选其一用于数据的挖掘分析。首选术语的制定应当满足以下原则:(1)出处明确;(2)符合中医药表达习惯,当出现现代表达与古语表达时以现代表达方式为首选;(3)语义完整;(4)语义单一;(5)满足本次研究需要;(6)当出处不明时应同时满足条件(2)(3)(4)。
本研究以全国科学技术名词审定委员会《术语工作原则与方法》《中医药学名词审定原则与方法》为依据,在遵循科技术语单义性、简明性、约定性的命名原则下,以《WHO西太平洋地区传统医学名词术语国际标准》[6]《中医药学名词》[7]《中医药常用名词术语词典》[8]《中医大辞典》[9]《中医症状鉴别诊断学》[10]《中医临床常见症状术语规范》[1]等为蓝本,并前期从整理规范文件来构建癫痫中医症状术语词典的基础上进行癫痫临床诊疗症状术语规范化工作,在诸多同义表达中选择有明确出处的术语作为标准术语。还有一类术语查阅了参考蓝本和各个知识平台,如北京大学中国语言学研究中心语料库、术语在线、wordnet等没有收录的术语,则按照文献等级、使用频次、用语习惯等,选其一为首选术语。本研究共获取症状首选术语164条。
首选术语用于数据挖掘分析时应该根据挖掘需求来选择术语层级,例如《中医药学名词》载录的失眠(insomnia)指经常性的睡眠减少,或不易入睡,或睡眠短浅而易醒,甚或彻夜不眠的表现。本研究根据其概念将失眠列为上位术语,入睡难和醒后难入睡归为下位术语,在不同研究的数据分析阶段则需要根据研究目的和数据特点,选择上位术语或下位术语作为首选术语,本研究根据余瀛鳌临证用药特点,选取上位术语为首选术语进行数据挖掘,首选术语中涉及术语上下位关系的为16条(表1)。
上下位术语关系还涉及术语的属性。按照首选术语的制定原则,本研究根据研究需要在选择首选术语时,去除症状属性保留核心症状作为首选术语,含有属性的其他术语在本研究中暂且作为同义术语,首选术语用于数据挖掘分析,涉及术语属性类型有5种(表2)。