王 健,任剑锋,刘竺华,陈国宁
(1.山西中医学院,山西太原030024; 2.山西中医学院附属医院,山西太原030024)
名老中医脾胃系统常见病医案数据挖掘技术的研究
Study on date mining techniques of common medical cases about distinguished TCM doctor′s experience in spleen and stomach system
王 健1,任剑锋1,刘竺华2,陈国宁1
(1.山西中医学院,山西太原030024; 2.山西中医学院附属医院,山西太原030024)
目的:以中医临床诊疗信息采集系统为技术平台,获取名老中医治疗脾胃系统常见病临床诊疗数据,以数据挖掘分析平台为工具,构建名老中医经验传承研究的方法学。方法:以名老中医脾胃病临床病案为原始资料,运用结构化临床诊疗信息采集系统,全面、动态地采集临床信息,人机结合,以人为主,总结名老中医药专家治疗脾胃系统常见病的临床诊疗经验。结果:采集127位名老中医、1 457例患者的临床诊疗数据,建立结构化名老中医脾胃病病例数据仓库,形成了3个病种名老中医专家经验总结报告。结论:确定了名老中医经验传承研究的方法,即利用结构化临床诊疗信息采集系统对临床病历数据化,利用数据挖掘分析平台进行分析挖掘,形成知识库,在临床上进行应用验证,将证明有效的经验形成治疗方案及治疗理论来指导临床,并进一步在临床上推广。
名老中医;医案;数据挖掘;经验传承;方法学
本项目以三种脾胃系统常见疾病(胃痛、泄泻、腹痛)作为对象进行研究,建立脾胃病医案数据库,运用数据挖掘技术对医案数据进行处理分析,挖掘其内涵,探索名老中医临证规律。期望本项目的研究能为数据挖掘技术在中医药信息领域的应用提供方法学参考,并对名老中医临床经验的继承起到积极的推动作用。
1.1 数据采集
为了获得可靠的结果,对所收录医家、时间、内容等进行了严格控制。
1.1.1 医家 为了保证数据质量,医案全部选自经验丰富的中医专家医案,医家的出生年代限制在20世纪30年代。为了避免医家医案数量选择的不均衡导致挖掘结果的偏差,数据库中单个医家的医案控制在10例以内。
1.1.2 时间 全部为现代医案,所选医案来自中国知网公开发表的期刊文献,发表时间为1982年-2012年。
1.1.3 内容 由于本课题旨在对医案中的病-症-证-方-药-效等方面进行数据挖掘[1],收集的医案必须包括以上6项内容。病案遵循中医传统辨证论治的模式,症状除主症之外,必须有两个以上的次要症状。证型必须含有病性和病位两部分,所选医案全部是单纯中草药内服治疗。经过筛选,本课题所采集医案总数为1 457例,其中胃痛536例、泄泻504例、腹痛417例,涉及医家127位。
可以看出,随机森林算法的分类性能依然优于朴素贝叶斯算法,无论准确率(ACC)还是召回率(recall)都接近95%,精确率(pre)也接近97%,说明利用敏感API作为鉴别特征,基于随机森林分类算法能达到很好的分类效果。
1.2 建立结构化数据库
本课题利用中国中医科学院建立的“个体化中医临床诊疗信息采集系统”为技术平台,建立中医脾胃系统3个常见病(胃痛、泄泻、腹痛)的多维关系数据库。
1.2.1 数据采集模板的制作 按照“数据的结构表格”格式和内容建立模板,调查表中的各项内容在录入时均可自行选择,包括病史采集、中药处方、中西医诊断、治则治法等界面。
1.2.2 数据的录入和质量保障 由经过培训的专业人员录入病历,课题组质控人员进行审核,保证病案的临床信息全部结构化,如:主症、舌脉、辨证要点、中医诊断(包括中医疾病诊断和中医证候诊断)、治法、主方、药物、剂量[2]。数据录入完成后,形成数据库,即可进行数据的分析挖掘。
1.3 数据预处理
将数据导入数据仓库前,需进行数据的预处理。由于数据来源于多中心,对于中医病名、中医证候、治法等描述上存在表述上的差异,故需对上述数据采用人机结合的方式进行数据预处理。预处理主要采用“人机结合”的方式进行,利用数据抽提转化加载工具(ETL)完成数据的规范化整理,将录入的欠规范的信息转化为规范的结构化信息,方可进行数据挖掘。
对于中医病名、中医证候、治法的整理,按照国家标准、行业标准执行,如专业术语可参照《中医临床诊疗术语·疾病部分》(GB/T16751.1-1997)、《中医临床诊疗术语·证候部分》(GB/T16751.2-1997)《中医临床诊疗术语·治法部分》(GB/T16751.3-1997)[3]、《中国中医药主题词表》[4]进行规范。遇到复合证型或涉及两个或多脏腑的,尽量予以拆分,如气滞血瘀,分成“气滞”“血瘀”;治法分割成以最小术语单元进行,如行气止痛,分成“行气”“止痛”。
1.4 数据挖掘方法
本课题利用中国中医科学院“中医药防治重大疾病临床个体化诊疗评价体系的研究”建立的“中医临床多维关系查询系统”来完成胃痛、泄泻、腹痛3个病种的“病-症-证-方-药-效”关系分析,联合应用WEKA,Business Objects等数据挖掘方法。治法之间、药物之间的关系运用复杂网络的无尺度网络(Scale-free network)方法进行分析[5]。
1.5 数据分析
经过数据录入、审核、预处理和整理后,形成用于数据分析的数据仓库(datawarehouse),即可实现数据分析[6]。
1.5.1 病-证关系分析 根据每一种疾病的症状、体征、理化检查及其权重,症状指标对证候诊断结果的相关度、贡献度,判别各类证候的核心症状群,即“病-证”关系。
1.5.2 分析“方-证”“方-病”及“药-症”的关系 通过对“方-证”“方-病”及“药-症”内涵的相关性分析,体会老中医对于同一种疾病常有自己不同的诊疗思路和用药特点,发现临床适应病证及相应的方证相关信息。
1.5.3 对常用治法及其核心用药进行研究 采用无尺度网络分析方法,根据治法出现的频次及该治法与药物相互联系的关联度,分析上述3种疾病的临床常用治法。
以泄泻为例进行阐述。
2.1 常见证候分布
对504例泄泻患者数据分析,常见证候为脾虚湿阻、脾肾阳虚、肝脾不和、脾胃虚弱、脾胃湿热、中气下陷、脾胃虚寒、脾胃阴虚、气滞血瘀等证候。
2.2 常用治法分析
治疗泄泻的治法依次为健脾化湿、温肾健脾、抑肝扶脾、健脾益气、清热化湿、健脾理气、固涩止泻、温中健脾、补中益气、升清降浊、消食导滞、益胃养阴、活血化瘀等。
2.3 常用中药分布
常用中药有白术、甘草、茯苓、党参、陈皮、木香、白芍、山药、黄连、砂仁、薏苡仁、山楂、神曲、麦芽、炮姜、防风、诃子、黄芪、扁豆、苍术、干姜、升麻、枳壳、桔梗等。
2.4 主要治法及药物的无尺度网络图分析
结果见图1、图2。
图1 泄泻常用治法无尺度网络图
图2 泄泻常用药物无尺度网络图
从图1可以看出,健脾与祛湿出现的频度为98和94,理气出现的频度为90。
从图2可以看出,504例泄泻患者以炒白术、党参、薏苡仁、炒白芍、防风、太子参等药物为核心药物,与临床实际用药基本符合。
本研究是以名老中医的病案为基础,利用结构化临床诊疗信息采集系统对临床病历数据化,利用数据挖掘分析平台进行分析挖掘,建立脾胃系统常见病临床信息数据库,做到了真实再现老中医治疗脾胃系统常见病的学术思想和临床经验。结合WEKA、Business Objects、复杂网络的无尺度网络方法等数据处理方法,将传统中医临床实践与先进的方法学有机地结合,遵循“人机结合”的观点,多学科交融,从多角度、多层次展现老中医治疗脾胃系统常见病的治法及用药规律[1]。由于该方法的运用是与中医学自身的研究特点和规律相结合的,故研究的结果能与传统的观点相吻合,以期进一步在临床、科研上推广应用。
本课题以脾胃系统3个常见疾病为例,运用数据挖掘和数理统计分析相结合进行研究,为寻求老中医经验传承方法提供了经验。但同时也感到由于技术和方法的限制,如隐含知识发现不够,疗效评价数据信息不够等。因此需要在该方法学基础上进一步优化采集内容,围绕与研究密切相关的信息深入研究,开展后续验证性研究[6]。
[1]张润顺,王映辉,姚乃礼,等.名老中医电子病历中病史动态结构化数据录入规范[J].中国中医药信息杂志,2007,14(2):100-101.
[2]张润顺,王映辉,周雪忠,等.名老中医经验要素研究及智能挖掘平台功能设计[J].世界科学技术:中医药现代化,2008,10(1):46-52,63.
[3]王映辉,姜在汤,闰英杰,等.基于信息和数据挖掘技术的名老中医临床诊疗经验研究思路[J].世界科学技术:中医药现代化,2005,7(1):98-105.
[4]吴兰成.中国中医药主题词表[M].北京:中医古籍出版社,1996.
[5]王映辉,周雪忠,张润顺,等.利用复杂网络与点式互信息法分析挖掘名老中医用药经验研究[J].数据库技术与应用,2011,6(4):76-80.
[6]周霞继,王映辉,刘保延,等.基于临床病历数据化的名老中医经验传承方法学研究[J].中国中医药图书情报杂志,2014,38(4):4-9.
(编辑:翟春涛)
R249
A
1671-0258(2015)01-0037-03
山西省科技攻关项目(20120313026-1)
王健,副教授,副主任医师,医学博士,硕士研究生导师,E-mail:syl7899@163.com