中医古籍芳香类方药外治数据挖掘系统构建及应用

2017-03-22 04:02:14，，，，，

中华医学图书情报杂志 2017年8期

，，，，，

芳香类方药在古代中国疫病防治过程中具有重要作用，以“辟秽”“除恶”为典型[1-2]。元代许国祯所撰《御药院方》记载芳香类方药不仅用于中风、脾胃、疮肿、折伤等疾病，而且在治疗妇、儿、五官诸种病症有显著疗效[3]。现代临床中，芳香类方药的单方、验方、秘方得到传承[4]，如以芳香开窍药物为主创立的“芳香类方药三宝”，即苏合香丸、至宝丹、紫雪丹，在高热神昏痉厥急危病人抢救，及温热疫病的治疗中有着不可磨灭的功绩[5]。尤其在2003年，以芳香类方药为主药的方剂在SARS肆虐期间起到了西药无法取代的防治效果。

目前学界对芳香类方药防治疾病的实验验证研究屡见不鲜，不论是传统医学还是现代研究均发现芳香类方药在疾病尤其是外治中有显著效果，但是其防治知识存在于历代文献和医家的临床经验记载中，信息分散且疏于整理。

若能在大数据集成基础上与现代数据挖掘方法相结合，围绕芳香类方药外治证治规律，进行结构化处理予以集中存储，并对其中特色方药外治证治规律及古文献中内涵的学术价值予以分析挖掘，不仅便于学习、传承和应用，而且通过临床验证反过来促使其不断优化，真正做到古为今用，进而促进芳香类方药外治理论与实践的发展，为中医外科学、方剂学提供可信的文献学依据，具有及其重要的意义。

1 数据挖掘系统构建

1.1 总体思路

数据挖掘又称“数据库中的知识发现”，是从海量数据中，提取、转换、分析一些潜在的、有价值的信息或知识的过程。近年来数据挖掘在中医药领域得到广泛应用[6-9]。以历代中医典籍中芳香类方药资源的分析利用和知识发现为目的，基于南京中医药大学特色数据库——中医药古籍全文数据库，通过应用数据仓库、人工智能、认知模型、数据挖掘等方法与思路，利用频数分析、因子分析、R型(指标)聚类分析等分析方法，遵循“数据挖掘-原生态信息再现-保护性利用-理论指导实践”的研究模式，建立相关数据平台，从多维角度分析挖掘中医典籍中芳香类方药外治用药经验与组方规律。

1.2 数据来源

主要基于南京中医药大学中医药古籍全文数据库，该库是目前国内较全面的古籍数据库，现收录有线装中医药古籍2 300多种，其中珍善本300多种、孤本10余种，还有各家抄、稿本，此外还收录了综合性汇编丛书中的中医古籍，如《四库全书》《中医古籍孤本大全》《中华善本再造》。《外科正宗》《疡科心得集》《疡医大全》《太平圣惠方》等古籍文献资源为构建芳香类方药学科体系奠定了重要的物质基础。

1.3 数据库构建思路、框架及流程

数据库的构建主要包括数据收集与整理建立数据采集系统；书目元数据分配、标引及分类、原文图像扫描、文本录入构建数据库管理系统；症、方、药、法-证关联分析建立数据挖掘分析系统，其构建思路与流程如图1所示。按照《中医古籍书目元数据标准》对古籍元数据源进行收集，包括朝代、书名、著者、版本、卷号、摘要、医案名(按照医家、病者及病证特点命名)、出版年等；“以方列病、以方列法”收集方剂名称、剂型、中药名、方剂组成、外治方法等；“以病列法、以病列方”对疾病名称、证候、病机等重新排列组合。对于同一病案中同一疾病相关的多次诊疗记录，记为不同方案，予以分别收集。对于同一医家医案所治疾病相同，且用药用方相同时，予以采集，但是不予重复统计。

图1 芳香类方药数据库构建思路与流程

1.4 病案文本的规范

中医典籍记载往往包括模糊化的病史、症状、体征、治疗情况等，以及发病季节、发病影响因素，体质等信息[10]。且由于历代医家典籍医案疾病表述，方药记载名称有诸多相异之处，以致中医药数据结构化一直显得非常复杂。在南京中医药大学古籍全文数据库中，除了典籍医案本身具有的类型繁多、关系复杂的特点之外，由于不同流派、不同医家临床诊断和治疗的思维决策过程的个体化特色非常明显，这种个性化特色一方面代表了典籍医案所折射的证治思想实质所在，另一方面，也造成了这种“以人为纲”的典籍医案的数据分析挖掘与“以病为纲”的基于流行病学症候调查基础上的一般意义上的医学数据挖掘的巨大差异。

在典籍病案信息的规范化方面，为了体现方法的客观性，既要遵照中医界现有的规范或标准对相关信息进行取舍、合并或分解，又要与医家流派的特色紧密结合，以保证规范后的信息不偏离名医医案的本质，只有这样才能从源头上保证挖掘结果不失真。参照《中国中医药主题词表》《中医症状鉴别诊断》《方剂学大辞典》《中华本草》等工具书对中药名、外治方法等进行规范处理，如古籍中记载的药物名称“良姜”规范为“高良姜”。

1.5 文献整理、归纳与分类

在数据库框架构建的基础上对芳香类方药古籍文献信息进行筛选、整理和有序化处理，如文献的标引、自动分词，按照《中医外科学》[11]中传统分类方法分别纳入，如疮疡、乳房疾病、肛门直肠疾病等。同时根据《中药学》教材，将常用66种芳香类方药，按照6种功效，即芳香解表、芳香化湿、芳香温里助阳、芳香理气、芳香开窍、芳香活血分别进行归类分析。对古籍中存在“同书异名”“同名异书”现象，以及处方中方药描述存在“异药同名”“同药异名”现象，采用改进的编辑距离算法，对数学名称进行自动化、智能化的规范处理[12]。对病案中繁体字、异体字、古今字及通假字等参照《汉字简化字总表》要求进行整理统一。同时对古籍原文中较难理解的内容进行注释、释义，按照古籍整理通则的要求对文献进行整理、归纳，将具体数据结构化和规范化处理，转化为计算机能够识别处理的语言。

芳香类方药外治文献具有一定的特殊性，数据收集的质量将直接影响数据库的构建，因此必须对文献收集工作进行质量控制，以提高文献收集整理的准确度与可信度。

1.6 挖掘方法的选择、组合与优化

名医特色体现在“理-法-方-药”的各个层面。要研究典籍芳香类方药外治证治特色，就需要从其典籍医案信息的不同角度对其中蕴含的相关性和规律性信息进行全面探讨。在中医经验继承中[13]，运用单用一种方法试图实现临证证治经验的全面继承是不现实的，多种分析挖掘方法相结合才有可能在古籍全文数据库数据中寻找模式，发现规律，归纳隐含的逻辑关系，发现多个信息单元之间相互关联规则。如证的规律、治的规律、防的规律、方的规律、药的规律，以及病、证、治、防、方、药相互之间关系的规律等。并可通过对数据的综合分析进行症状序列模式、疾病转归的异常和趋势进行预测性研究。本文中，我们将优化分析挖掘方法组合中存在的不足予以算法优化与重新组合，从症候、治法、方药信息入手，通过药物配伍、药症相关、症-证相应等角度对其诊疗经验作深入分析，通过“理-法-方-药”之间多维关系的揭示，分析其用药特色、组方结构与配伍规律，以更好更客观地反映典籍医案中的隐含知识。

2 应用示范

2.1 功能界面操作

用户登录芳香类方药外治数据挖掘系统，进入数据挖掘操作界面(图2)。首先录入数据，将目标数据导入数据表中进行数据挖掘。可根据数据挖掘类型分别选择组方分析(频次统计、组方规律、新方分析)、方证分析(网络展示、关键药物、关键症状)、症候分析(症状排序、症状规律、症状聚类)等选项，实现多维关联规则分析。

图2 芳香类方药外治数据挖掘系统操作界面

2.2 药物频数分析

以《医宗金鉴》为例，对古籍中40种芳香类方药进行频次分析，得出总频次为837次，其中使用频次在4次以上的中药有26味，频数为808次，占总频数的96.5%，是《医宗金鉴》外治用药的主要芳香类药物。使用频数最多的前10味药物，按照频率递减顺序排列分别是麝香、当归、没药、白芷、川芎、藏红花、苍术、木香、血竭、细辛(表1)。

表1 药物频数及频率

2.3 药类频数分析

对频数在4次以上的26味芳香类方药，按照功效进行分类。在《医宗金鉴》外治用药中芳香类方药中占主导地位的是芳香活血类药物，频数为392次，占总用药的48.5%；其次是芳香解表类药物，频数为129次，占总用药的16.0%；第3位是芳香开窍类药物，频数为125次，占总用药的15.5%，详见表2。

表2 药类频数及频数

2.4 药物关联分析

构建26种药物关联网状图，清晰、直观地反映药物之间的关联程度(图3)。如图3所示，蓝色粗线代表关联程度较强，反之，蓝色细线代表关联程度较弱。其中当归与白芷，当归与没药，当归与川芎，当归与肉桂，没药与川芎，没药与肉桂，没药与血竭，没药与藏红花的关联程度最强。

图3 药物关联分析结果

2.5 药物关联规则分析

对频次在4次以上的26种药物进行关联规则分析，设置支持度>20%，置信度>80%，共获得关联规则12条，结果见表3。支持度表示箭头前后药物(对)同时出现的概率；置信度表示箭头前药物出现条件下，箭头后药物(对)出现的几率。结果显示当当归或没药二者其中一味出现时，另一味中药和肉桂出现的概率为100%。

表3 高频次药物关联规则分析结果

3 小结

芳香类方药外治文献整理与利用研究是中医外科、方剂学研究的重要组成部分，本文利用现代计算机和网络技术，针对芳香类方药外治医案，探索性地构建基于关联规则方法分析的数据挖掘系统，对芳香类方药予以调査梳理，根据获得的结果确定数据采集、分类与标引的规范标准，便于对可获取的病案信息进行结构化或半结构化处理，深入挖掘芳香类方药外治用药规律，旨在为中药学芳香类方药理论及实践发展提供新的尝试。后期将在继续查找相关古籍完善数据库、使芳香类方药外治数据库信息全面化的同时，补充摘要、主题分类等信息，使数据库更加完善，使标引更加细致化。