王 东,王益民,张伯礼
(天津中医药大学,天津 300193)
近年来,关联规则、聚类分析、贝叶斯网络、神经网络、复杂网络分析等数据挖掘技术为名老中医学术思想传承工作提供了新的方法学基础[1-5]。但对许多中医背景的传承人来说,数据挖掘作为多学科交叉的新产物难以熟练运用[6]。
针对这一现状,为探寻更加实用、高效的数据挖掘方法,本研究组基于复杂网络分析和关联规则分析创建“组方配伍网络分析法”,对天津中医药大学张伯礼教授治疗胸痹的处方进行可视化网络重建及用药规律分析。总结出的重点药物、治法及学术特点,与相关文献[7-13]结论基本一致,得到了张教授本人认可。
相关研究[14-15]指出,关联规则分析法在支持度与置信度的参数设置上缺乏统一标准,不仅影响处方数据挖掘效率,甚至会造成挖掘结果与中医理论相悖。
为体现中医思维,在挖掘组方思路时,借助复杂网络分析软件记录药物的录入顺序,模拟传统师承的“抄方学习模式”,以体现专家遣方用药思路的连续性、系统性;在挖掘配伍思路时,借助关联规则分析法,以获得不同药物间具体的配伍概率。最终,整合两类数据构建“组方配伍网络”,既能从纵向体现组方思路,又能从横向展示配伍关系。
2.1 数据来源 张伯礼教授的处方数据调取自天津中医药大学附属保康医院门诊系统(2016年),具体内容包括:数据入库顺序、就诊时间、处方编号、患者编号、患者姓名、录入药物、录入顺序、药物剂量、用药周期、ICD诊断名、诊断备注、药物金额及医师姓名。
2.2 处方纳入标准 纳入标准定为:1)ICD诊断名为“胸痹”。2)无第二诊断。3)无其他诊断备注。
按上述标准,共369个胸痹处方被纳入。
2.3 处方排除标准 为保证研究结论能够体现组方思路的连续性,排除标准如下:1)处方药物录入起始序号不为1。2)处方药物录入顺序不连续(缺项)。
最终,13个不合要求的处方被剔除,保留合格处方356个。
2.4 数据编辑与处理
2.4.1 建立处方库 使用Excel 2016(以下简称Excel)从原始资料中提取处方编号、录入药物、录入顺序进行建库。
2.4.2 数据处理 网络的构建及分析采用Gephi 0.9.2[16](以下简称Gephi)完成,由介数中心性、K-壳分解法[17-19]发现网络中的重要节点和筛选核心网络,社团模块由Gephi自带的社区探测算法(基于Louvain算法)[20-21]进行划分。频数统计与关联分析依靠R软件(以下简称R)的关联规则分析包实现。
1)组方数据挖掘:组方数据挖掘借助复杂网络分析软件完成,并以组方网络图的形式呈现。
将处方库中的数据转制为Gephi可调用的CSV格式,所有处方的“首尾”加入“开始”和“结束”标记,即“A-B-C-D-E”转为“开始-A-B-C-D-E-结束”,以避免两个不同处方“首尾”的药物节点生成连接。
数据导入Gephi生成组方网络后:①使用内置工具统计介数中心性;②使用内置模块化工具完成分类;③以不同颜色区分不同模块;④以介数中心性降序决定节点大小和节点名称汉字大小;⑤以K-壳分解法提取核心群。
2)配伍数据挖掘:配伍数据挖掘借助R的关联规则工具箱和复杂网络分析软件共同完成,以配伍网络图的形式呈现。
为收集所有的“两两药物组合”情况,本次研究将支持度和置信度的值均设为0,获得32 400个组合。剔除17 760个频数为0的组合及7 230个镜像关联情况,最终获得7 230个共现频次至少为1的“两两药物组合”,用于构建配伍网络。
将筛选完毕的关联数据转制为Gephi可调用的CSV格式,导入Gephi生成配伍网络后,网络参数调节同“组方网络”。
3)建立组方配伍网络:组方配伍网络的数据可以由组方、配伍网络的CSV文件直接拼接获得,导入Gephi生成组方配伍网络后,网络参数调节同“配伍网络”。
2.5 比较与验证
2.5.1 模型比较 参考频次统计结果,从网络概况、节点、社团模块、链路4个方面,将组方网络、配伍网络、组方配伍网络及各自核心群进行对比,评价组方配伍网络及其核心群能否如实反映处方信息,体现组方思路和配伍关系。
2.5.2 文献验证 以“张伯礼”、“胸痹”、“学术思想”为关键字,分别在知网、万方、维普三大检索平台进行期刊文献检索,经去重和剔除无关文献后,保留继承总结张伯礼教授学术思想的相关文献7篇。结合文献内容,评价组方配伍网络及其核心群的链路、社团模块、节点能否反映张伯礼教授治疗胸痹的学术思想、治则治法、重点药物。
2.5.3 专家确认 经相关文献验证后,将组方配伍网络以图片输出,并对各社团模块、节点、链路的内容及其意义向张伯礼教授做说明,确认分析结果是否能得到专家本人认可。
3.1 频数统计 借助R内置的关联规则分析包,统计不同药物的使用频次、药物组合的共现频次。截取部分频数统计结果制成表1、表2进行展示。
表1 不同药物使用频次前20名
表2 药物组合使用频次前20名
3.2 网络模型对比
3.2.1 概况对比 本次研究共构建了6个网络,分别是组方网络、配伍网络、组方配伍网络及其各自的核心群。具体参数见表3。
表3 网络概况对比
组方网络节点连接相对稀疏,核心群最小,模块数最多;配伍网络和组方配伍网络节点连接较紧密,核心群较大,模块数方面组方配伍网络比配伍网络多。
3.2.2 节点对比 介数中心性能够反映所评价节点连接其他节点的能力,即所评价药物与其他药物的配伍关系是否密切。各网络介数中心性前10的药物如下:1)组方网络及其核心:柴葛根、夏枯草、杜仲、知母、黄芩、茯苓、生龙齿、玉竹、桑寄生、干姜。2)配伍网络和组方配伍网络为:丹参、郁金、茯苓、黄连、麦门冬、生龙齿、生牡蛎、首乌藤、半夏、延胡索。3)配伍网络核心和组方配伍网络核心为:郁金、丹参、茯苓、延胡索、柴葛根、降香、黄连、麦门冬、生龙齿、首乌藤。
参考频次统计情况,组方网络(及其核心群)重要节点与频次统计结论的一致性较差,而配伍网络、组方配伍网络(及其核心群)较好。
3.2.3 模块对比 社区探测算法可以依据节点连接的疏密情况,将整个网络划分为若干网络模块。基于方剂学理论,中医处方至少应包括“君臣佐使”4个基本模块。结合表3各网络的模块数来看,组方网络及其核心的模块数较多,而配伍网络及其核心的模块数较少,只有组方配伍网络及其核心的模块数较为符合预期。
从连接情况来看:1)组方网络的各模块内部连接较紧密,而模块之间连接较稀疏。2)配伍网络中只有1个模块内部连接紧密,其余模块及模块间连接较为稀疏。3)组方配伍网络各模块内部、模块间的连接都较为紧密。
3.2.4 链路对比 药物节点相连构成的链路反映了不同药物间存在的配伍关系。从链路的节点构成来看:1)组方网络及其核心群的链路可体现某一用药目的,如丹参、郁金、元胡、降香体现了活血化瘀、行气止痛的用药目的,但不同链路间是否存在联系难以确定。2)配伍网络及其核心群的链路反映使用频次较高的药物组合,但各链路内部药物重复率高。3)组方配伍网络及其核心群的链路节点重复较少,不同链路间部分节点相互连接,既可以反映不同药物组合的用药目的,又可以观察到不同药物组合间的协同关系。
3.3 比较与验证 通过不同网络模型之间的比较,经文献验证和与专家本人确认,研究认为组方配伍网络能够如实反映处方信息,张伯礼教授治疗胸痹的学术思想、治则治法、常用药物可从组方配伍网中的链路、社团模块和节点中得到反映。具体内容详见图1,图中药物节点的字号大小与使用频次高低正相关,节点间连线的粗细与配伍概率大小正相关,不同的模块以不同颜色区分。
4.1 结果分析 在对相关文献[7-13]研究中发现,张伯礼院士治疗胸痹的特点可概括为:1)理论上以“痰瘀学说”为基础,主张“痰瘀并治”,重视痰瘀在疾病发展各阶段的变化。2)治法上依患者具体情况,采取活血化瘀(丹参、郁金、延胡索、降香、三七粉、五灵脂)、益气养阴法(生地、沙参、麦门冬、党参、黄精)、健脾祛湿(党参、茯苓、白术)、通经活络(鸡血藤、桑枝)等方法。3)用药上根据不同病情条件下的痰瘀特点,选取相应的对(队)药予以治疗(湿邪重用萆薢、苍术、蚕砂,湿邪化热用茵陈蒿、知母、黄连、大黄,痰火盛用黄芩、浙贝母,痰湿蕴肺用细辛、干姜、半夏)。4)兼顾气、血、阴、阳及诸脏功能的平衡(女贞子、旱莲草、杜仲、牛膝、当归、何首乌),注重调养心神(酸枣仁、柏子仁、夜交藤、生龙齿、生牡蛎)。
图1 2016年度张伯礼教授治疗胸痹的组方配伍网络图
参照张伯礼教授治疗胸痹的特点[7-13],结合组方配伍网络的节点、链路、社团模块情况,本研究组认为:1)社团模块及其内部介数中心性高的节点,能够反映特定的用药目的,如:模块1体现了健脾祛湿法(党参、茯苓、白术)。模块2以牛蒡子、射干、橘红、浙贝母等化痰药为主,体现了治痰的用药变化。模块3体现了活血化瘀法(丹参、郁金、延胡索、降香、三七粉、五灵脂)。模块4以柴葛根、杜仲、夏枯草、鸡血藤等药物为主,包含药物最多,是兼顾气、血、阴、阳及诸脏功能的临证加减用药模块。模块5以首乌藤、生龙齿、柏子仁、酸枣仁等为主,体现了注重调养心神。2)不同模块间重点药物的连接,能够反映专家治疗某一疾病的学术特点,如:本研究中,模块1与模块3的重点药物及其构成的链路,体现了张伯礼教授治疗胸痹的“痰瘀学说”。
4.2 组方配伍网络的优势 基于药物录入顺序构建的组方网络及其核心,有利于体现组方思路,但缺乏关联数据支撑;基于关联分析构建的配伍网络及其核心,有利于挖掘核心配伍组合,但会使处方信息碎片化,难以揭示组方思路。
作为组方网络和配伍网络的有机结合体,组方配伍网络既可以直观展示组方思路,又可以在关联数据的基础上明确具体的药物配伍关系。以链路、社团模块反映理论和治法,基于介数中心性筛选重点药物,符合“理、法、方、药”的中医临床思维。
4.3 问题与展望 名老中医经验的存在形式既有显性的,也有隐性的。单纯照搬某种方法的分析结果,很难得到名老中医本人的认可。因此,需要在中医理论指导下综合运用多种方法,对名老中医经验方进行系统、全面地挖掘和总结[22-23]。
作为一种多分析方法综合应用的尝试,“组方配伍网络”在参考传统师承“抄方”的基础上,综合运用关联分析、复杂网络分析两种方法,为总结名老中医治疗某一病证(疾病)的“理、法、方、药”提供了一套较为完备的解决方案。
但完备并不等于完美,它也存在一些问题需要深入探讨,例如:如何确定社团模块划分的最优解析度。析其原因,复杂网络分析法虽已应用于中医药数据挖掘领域,但具体操作中相关参数设置尚无统一标准可以借鉴。因此,需要在大量数据实验的基础上,由相关研究人员共同寻找最优参数,制定统一标准。