聂佳,任玉兰,江蓉星,许霞
成都中医药大学,四川 成都 610075
巴蜀中医药古籍医案数据挖掘系统构建及应用
聂佳,任玉兰,江蓉星,许霞
成都中医药大学,四川 成都 610075
中医药古籍是中医药传承发展宝贵的知识财富,巴蜀中医药古籍特色突出。承载医家丰富理论和临床经验的医案,是知识发现不可或缺的研究对象。构建基于关联规则方法分析的巴蜀中医药古籍医案数据挖掘系统,不仅能深入研究巴蜀中医药学术流派的特色,亦能为中医药古籍数据挖掘系统开发和应用提供有效的支持。
巴蜀;中医药;古籍;医案;数据挖掘系统;构建
巴蜀地区独特的地理和文化环境,造就了一批在传统中医药方面卓有成就的名医大家,如北宋的唐慎微、清代的齐秉慧等,尤其在中医诊疗、方药方面特色突出,给后人留下了宝贵的医案记录,为祖国的医药事业继承和发展作出了不朽的贡献。本研究基于所收集1063部巴蜀中医药古籍中医案的特点,利用现代计算机技术,构建数据挖掘系统,旨在深层次发现巴蜀历代医家辨证论治的知识信息,发扬巴蜀中医药文化。
1.1 总体思路
数据挖掘能从大量的、不完全的、有噪声的、模糊的、随机的数据集中提取有效的、新颖的、潜在有用的知识和规律,具有处理海量模糊性、非线性数据及知识发现的优势。本研究以中医药古籍资源的分析利用和知识发现为目的,在试验相关数据挖掘技术特点和适用性基础上,结合巴蜀中医药名家诊治思路和特点,探索性地建立了基于关联规则的辨证施治、用药规律挖掘模型,并验证了其可行性,建立符合中医临床规律的数据分析方法,建造巴蜀中医药古籍数据挖掘的计算机模型[1-2]。
1.2 主要构建步骤
构建步骤共两部分。第一部分先明确研究需要,定义研究数据,将原始数据通过数据转换、加工等数据预处理方式,抽取正确可靠的数据,构建多维的数据仓库挖掘模型;第二部分即根据不同的查询条件进行数据挖掘,根据研究需要,选用恰当的数据挖掘算法,计算出满足条件的模式集合,以数据条形式表达出来,调整参数进行模式筛选,通过挖掘前台系统向导进行数据挖掘操作,将数据挖据信息以关联规则形式展现给用户,总过程如图1所示。
1.2.1 数据的转换和加工 从数据源中抽取的数据不一定完全满足目的库的要求,例如数据格式的不一致、数据输入错误、数据不完整等,因此有必要对抽取出的数据进行数据转换和加工,包括数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等。本研究根据抽取数据的特点进行数据转换和加工研究,主要包括数据清洗、噪音处理、数据规范[3-5]。
图1 巴蜀中医药数据挖掘系统构建步骤
1.2.1.1 缺失值的处理 在中医处方信息中,有时会出现期望有数据的地方却没有数据的情况,如对临床决策有重要价值的药量等数据的缺失。针对数据的特点和对决策意义的不同,采用不同的缺失值填充算法,补充缺失数据。如针对树脂类数据,缺失值采用平均值填充法[6-7]。
1.2.1.2 噪音数据的处理 主要指针对一词多义、多词一义、词义模糊、词义交叉或涵盖等噪音数据进行处理。处理方法主要是根据《中华人民共和国药典》《中医诊断术语标准》《中医证候鉴别诊断学》《中医症状鉴别诊断学》《中药学》《方剂学》等标准进行删除或规范处理。
1.2.1.3 药物名称的规范处理 针对处方中对药物的描述存在大量异药同名、同药异名等现象,本研究采用改进的编辑距离算法,对数学名称进行自动化、智能化的规范处理。规范处理过程通过两级数据规范实现[8-10]。
1.2.1.4 症状名称的规范 中医古籍文献对症状的描述常存在不规范性,多表现为症状名称不标准以及症状表述的模糊性。为了使系统可以正确处理对症状的描述,本研究根据症状规范采用改进的编辑距离算法,对症状进行自动化、智能化的规范处理。规范过程与药物规范一致[11-13]。
1.2.2 数据仓库的实施 构建巴蜀中医药古籍数据仓库的目标数据库由药物表、症状表、疾病表等构成。数据库中各表根据情况向下细化到不能分解的原数据。各表之间的数据可以借助外键建立联系,从而形成一个庞大的中医体系结构。
1.2.3 建造数据挖掘模型 为了从多个维度、不同概念层次对药物运用规律进行渐进分析,本项目基于中医数据存在复杂冠词,结合关联规则建立了症候关联、药物配伍等挖掘模型。
1.2.4 数据挖掘 运用多维关联规则分析在不同维度下症状、证候、药物的频次和支持度,提取中医某一疾病的多发症状、证候及治疗所需常用药物;运用关联规则分析的频繁项集分析中医医案中症状与证候、药物与药物等的配伍规律,计算症状、证候、药物项集的支持度和置信度,提取常用二元或者多元症状、证候、药物配伍;采用多维关联规则挖掘算法分析中医辨证思路、处方选药规律,分析不同年代、出处、文献类型等条件下辨证论治规律[14-16]。
2.1 功能界面操作
用户通过用户名和密码登录巴蜀中医药数据挖掘系统,进入数据挖掘操作界面,见图2。首先选择“导入数据”选项,在目标文件中选择准备数据挖掘的源数据,导入数据挖掘系统,然后根据研究需要,分别选择药物关联、症候关联(症状与证候关联)等选项,实现疾病与药物、病因与症状等之间的关联规则分析,达到数据挖掘的目的。
图2 巴蜀中医药数据挖掘系统操作界面
2.2 药物关联分析展示
以《圣余医案》为例,导入所要进行数据挖掘的源数据,点击“药物关联分析”按钮,在病名下拉选项中选择“咳嗽”,在药物复选框中选中“全部药物”,在支持度和置信度选项中选择0.5,点击“数据挖掘分析”按钮,显示出如下结果。见表1。
表1 《圣余医案》药物关联情况
从表1中可以看出,在《圣余医案》中治疗咳嗽所用的药物配伍组合,支持度和置信度>50%的共有12条数据。其中,半夏与白术组合的支持度为78.95%,置信度为100.00%。说明该书记载咳嗽病医案中,半夏和白术同时出现的频率为 78.95%;而当半夏或白术二者其中一味出现时,另一味中药出现的概率为100.00%。可见,在《圣余医案》中,医家治疗咳嗽时,半夏与白术是常用药对,而且其单味药使用频率也是最高,均为 15。半夏燥湿化痰、降逆止呕,白术健脾益气、燥湿利水,二者伍用倍增镇咳化痰之功。
本研究引进现代计算机技术,针对巴蜀中医药古籍医案,探索性地构建基于关联规则方法分析的数据挖掘系统,以期为中医药古籍数据挖掘系统的开发和应用提供有效的支持。关联规则是中医药领域数据挖掘研究常用的方法,对于蕴含丰富的理论知识和实践经验的中医药古籍而言,应尝试不同的方法,多角度发现知识。将数据挖掘技术应用于不同种类的中医药古籍,将是下一步研究工作的重点。
[1] 舒正渝.浅谈数据挖掘技术及其应用[J].中国西部科技,2010,9(5): 38-39.
[2] 郑频捷.数据挖掘在数据分析中的应用[J].福建电脑,2010,26(10): 104-106.
[3] 崔有文,周金海.基于KETTLE的数据集成研究[J].计算机技术与发展, 2015,25(4):153-157.
[4] 罗强,何利力,王晓菲.数据仓库中数据清洗技术分析[J].电脑编程技巧与维护,2015(2):61,76.
[5] 李志坚,莫建麟.一种改进的基于概念格的数据挖掘算法[J].重庆师范大学学报(自然科学版),2013,30(2):92-95.
[6] 王汾雁,李志蜀,钟涵,等.数据挖掘技术在中药自动发药系统中的应用[J].计算机应用研究,2007,24(9):31-33.
[7] 于力超,金勇进,王俊.缺失数据插补方法探讨——基于最近邻插补法和关联规则法[J].统计与信息论坛,2015,30(1):35-40.
[8] 符永驰,李斌,郭敏华,等.中医古籍电子化系统的研究与实现[J].中国中医药信息杂志,2008,15(2):103-104.
[9] 孙志勇.中医“方剂、药物、病症”数据归一化技术的研究[J].黑龙江科技信息,2012(4):35.
[10] 王俊文,崔蒙,赵英凯.中医临床医案信息的抽取、规范和计量规则[J].西部中医药,2012,25(1):95-96.
[11] 孙海舒,李斌,王蕊,等.中医古籍书目数据库标注中若干问题的探讨[J].中国中医药信息杂志,2007,14(10):103-104.
[12] 张志强,王永炎,盖国忠.论中医症状名称规范五原则[J].北京中医药大学学报,2010,33(9):595-596.
[13] 刘保延,张启明.构建中医临床科研信息一体化平台需要解决的症状规范问题[J].中医杂志,2011,52(20):1714-1716.
[14] 胡波,谭工.基于关联规则的中医治疗乳腺增生病用药规律研究[J].中国实验方剂学杂志,2012,18(15):12-17.
[15] 王亚强,金晖,于中华,等.基于关联规则的中医症状组团分析[J].四川大学学报(自然科学版),2009,46(6):1650-1654.
[16] 于琦,王映辉,李敬华,等.中医名医医案分析系统研究[J].中国数字医学,2015,10(3):51-53.
Construction and Application of Data Mining System of Bashu Ancient TCM Book Records
NIE Jia, REN Yu-lan, JIANG Rong-xing, XU Xia
(Chengdu University of TCM, Chengdu Sichuan 610075, China)
Ancient TCM books are the valuable wealth of knowledge for TCM inheritance and development, among which Bashu TCM books are with prominent features. With wealthy theories and clinical experience, medical records are the essential research object for knowledge discovery. Construction of data mining system of Bashu ancient TCM book records based on association rules analysis, not only can deeply study the characteristics of Bashu TCM academic schools, but also can provide effective support for development and application of TCM ancient book data mining system.
Bashu; TCM; ancient book; medical record; data mining system; construction
10.3969/j.issn.2095-5707.2015.04.004
教育部人文社会科学研究西部和边疆地区项目(10XJA870003);成都中医药大学校基金项目(ZRMS201362)
聂佳,助理研究员,研究方向为中医药古籍数字化。E-mail: 7919536@qq.com
2015-04-17;编辑:魏民)