陈小波,虞 立,应雨棋,于哲轩,许守超,李晓红,金伟锋
(浙江中医药大学 杭州310053)
对于现阶段的局势而言,大数据一点一滴逐渐走进了我们生活,可以说是在生产生活的每一个领域中都有所涉及,并且所占的比重越来越高。同时,信息科学与多学科的交汇融合已成为科学技术发展的一个重要趋势。而且在半个多世纪以来,信息技术已经深入渗透到医疗卫生领域的方方面面,如医院信息管理系统、电子病历等。医药各个领域与医学信息相关的学科方向也在不断发展,产生了临床信息学、药物化学信息学等学科。这些系统的应用和学科的发展已经为我们形成了中医临床和中医药文献古籍中的海量方剂数据和临床信息,挖掘其所隐含的有价值知识,阐述中医药方剂、临床信息的内在规律等变得可行而有意义[1-2]。
作者团队分别通览《当代心脑肾肝胆病医方集成》、《冠心病良方大全》、《冠心病效验秘方》、《心脑血管疾病良方精选》等[3-6]治疗冠心病的书籍,从中提取治疗冠心病方剂的信息,使用Excel软件将各个方剂的中的药材信息(若含中药提取物,则将该中药提取物转换成对应的中药)录入数据库中。数据录入完成后,双人双机独立进行数据审核,将相异率控制在5%以下。
辨证论治是中医有别于西医的特色所在。多年来,人们总是努力寻找表征本质的特异指标,但效果不明显,究其原因主要是思路陷入“朴素还原论”(naive reductionism,也译幼稚还原论)的误区[7]。以全局的思维模式对疾病存在的某些规律及特点进行了解的系统科学。从一定意义上来讲,中医学学科不仅仅是理论上的研究分析,更多的是需要临床实验,并从中总结经验,发展验证的一门系统学科。中医的新技术、新方法、新药物、新配方都是起源于临床,发展于临床,最终也应用于临床。从古至今通过不断的临床实践,已经积累了大量的病例数据、治疗方法、药物配伍方式等。而在当今这个大数据时代,整合从古至今的中医学临床资料,从数据中挖掘对现在临床治疗具有现实意义的理论知识和价值方法,能为形成新的系统性的中医临床治疗体系打好坚实基础[8,9]。
近年来复杂网络理论和技术飞快发展,网络方法已成为解决中医药等复杂问题的新途径和强有力的工具[10]。复杂网络简言之是由多个相互作用的节点及其关系共同构成的网络。这种网络的复杂性体现在结构复杂、节点多样化、连接多样化、网络进化、动力学复杂性、多重复杂性融合等方面[11],并且除此之外,它还具备相关的小规模网络体系架构,与此同时,还具备着许许多多的节点异构以及复杂的演化规则[8]。以这些复杂的网络体系为依据,可以很好的研究网络中某一节点潜在的和整个网络的联系和对整个网络的动态影响[12]。
中医学的临床诊断过程实质上就是对医生的思维决策以及干预手段二者间非线性互动的一种表现形式,在这个过程中往往具备以下几个特点:涌现性、复杂性以及相关性等等类似特性。其中,中药配伍是最为复杂的问题,其具有多成分、多靶点、调节方式多样化的特点,蕴含了极大的信息量,而中药方剂更是由多味中药组合而成,其包含的巨大信息和复杂性是不言而喻的[12]。网络生物学方法及中药方剂的组合机理在中医药研究中存在着巨大的应用潜力[14],因此将复杂网络理论与方法应用于中药方剂配伍研究,以构建特定的网络结构体系为手段,能够更好的将这些繁琐的问题进行简洁化,在能够展现其内在特征的同时,还能够使用数字对各个节点彼此存在的特定关系的特性进行细致科学的阐述,比如强度、紧密性等等,以这种模型结构为依据,能够非常直观、清晰的对各个中医药剂之间存在的关系进行定义描述,并突出特定节点在网络体系中所发挥的作用及实际地位。
随着社会经济发展,人民各方面的生活习惯都或多或少的发生着改变,尤其是近几年内生活的节奏在逐渐加快,从而导致了中国居民出现冠心病、甚至因此死亡的案例在逐渐增多[15],这一疾病已经慢慢发展为目前对人类的生命健康产生巨大威胁的疾病之一,在心脏病的死亡统计之中,美国的冠心病案例占总数的60%左右,而我国则是在15%左右[16]。
本篇文章的研究主体就是对冠心病的分析。运用复杂网络中的分析方式为主要手段,对冠心病辨证论治核心中药以及彼此间存在的配伍规律进行深入探讨分析[17,18]。最先需要准备的就是搭建一个相应的网络模型,从而使用该模型进行数据的分析挖掘,并利用复杂网络的节点中心性所涉及的一些算法,比如:度中心性、特征向量中心性、介数中心性等[19],来刻画网络中的类聚特征和药物与药物之间的关系。复杂网络的中心节点是指具有更大强度的网络结构影响力与功能的一些特殊节点[20],通过这种方式就能够对中药节点中某些重要特征进行科学有效的细致分析。在上述提到的算法之中,度中心性就是对网络结构中的节点中心性进行计算阐述的直接指标。在通常情况下,网络中的一个节点如果其节点度的值越大,那么相应的其度中心性也就随之增高,从而得出该节点在网络中的重要性程度。而另一种算法介数中心性则是对经过一个节点的最短路径的个数在整个网络中经过该节点最短路径个数的百分比,而特征向量中心性这一分析算法则是对网络中某一个节点的周围节点的重要性进行统一分析考虑。
最终,使用以节点中心性为依据的聚类算法CNM-Centrality[21]来对该网络模型结构进行聚类计算分析,通过这种方式就能够对其包含的配伍关系进行科学合理的确立。
中药方剂,是古代医家经过长期的医疗实践,在辨证、立法的基础上,将几味药物配合起来,是中医临床治疗疾病的主要手段。中药数据信息量巨大,其品种繁多,成分复杂。中药复方是多味中药配伍组方,有其特有的组方结构和配伍原则,其成分和关系较为复杂[19]。复方中的病与药、剂量与药、药与药等都存在着大量复杂的非线性关系。中医在辨证论治和复方配伍方面都是综合考虑病症和药物的复杂性及其高度非线性关系的特点,因此中医药系统属于典型的复杂系统[22]。
本文以治疗冠心病书籍中的方剂为数据来源,对所有中医药治疗案例中对冠心病进行治疗的相关数据进行搜寻,并进行汇总式分析探讨从而搭建一个科学合理的网络结构模型。本篇文章就是把治疗方剂中的每一种药材作为节点,那么该节点的连边就可以当作是网络中该节点度值。在这个网络模型里面,节点的度值是衡量节点在网络中重要性的标准。如果说某两种药材多次同时出现在网络体系之中,那么在网络中该两点间的连线就越多,从而看出这两种药材之间具备较为密切的关系。
冠心病案例的中药网络模型如图1所示。就以“丹参”、“炙甘草”二者为例,两者在网络中出现时就会在之间出现一条连边;也就是说如果在网络中二者一起出现的情况越多,那么边的权重越大,边就越粗。
图1 冠心病中药网络模型
CNM-Centrality算法是一种基于中心性理念的聚类算法。该算法首先对给定网络的每个节点,运用PageRank算法计算其中心性值,并从大到小以降序的模式进行排列组合。然后该算法再以社团的模式对各个节点进行归纳概括,通过数据分析得出其模块度值[22](衡量网络划分质量的标准)。再之后,把这些节点能够构成的最大模块度值进行填入操作,将其归入最大值堆中。最终就是以最大模块度值为依据,对与之对应的两个社团进行比较判别:在这两个社团里面,如果存在一个或一个以上的社团中不具备中心节点,那么就可以直接对这两个社团执行合并操作;而如果两个社团都具备中心节点,那么就可以对其SNN相似度值进行相应的科学计算,并按相似度值的高低来判别是否合并:若较高则合并,并选择中心性值较大的那个网络节点来当作是合并后社团的中心节点;如果相似度值大小并不高,那么就不执行合并操作,再选取模块度值第2大所对应的两个社团进行上述的分析合并操作。在社团合并完成的情况下,对模块度值的矩阵模型进行相应的更新。直到所有的社团都无法再进行合并操作以后,就不再进行迭代,从而输出最后的计算结果[23]。
根据CNM-Centrality算法思想和实现该算法的具体步骤,对上述图1冠心病中药网络图中的中药进行类聚,得到如下图2中药网络聚类分析示意图。其中节点的圈大小代表了节点度的大小。
图2 中药网络聚类分析示意图
3.3.1 度中心性
度中心性(Degree Centrality,DC),是衡量节点中心性最直接的度量指标。即一个节点的度中心性越大,节点在网络中的重要性越大。网络中的中心节点是指那些拥有较多连接的节点。节点自身的连接总数体现了个体对网络影响,其只强调节点对网络的直接影响,而忽略了邻节点的影响力。
定义:节点v的度deg(v)定义为与该节点连接的其他节点的数目。度中心性定义为节点v的度与该节点可能存在的最大边数的比率[24]。
节点v的点度中心性CD(v)可表示为:
其中:deg(v)是节点v的度数,N是网络节点的总个数。
中介中心性(Betweenness Centrality,BC)描述假设信息仅仅沿着最短路径来传播。越重要的节点与最短路径联系越紧密,经过节点的最短路径越多。现实网络中会出现节点拥有较小的连接度,却对网络的联通性起到关键作用,中介中心性则可以很好的体现[18,26]。
节点v的中介中心性CB(v)可表示为:
其中:δst为s到t的最短路径数,δst(v)为从s到t,且经过节点v的最短路径总数。
3.3.3 接近中心性
接近中心性(Closeness Centrality,CC)描述的是每个结点到其它结点的最短路的平均长度。也就是说,对于某个结点而言,它距离其它结点越近,那么它的中心度越高。也就是说,接近心性直接体现在网络流中,网络中节点到达整个网络其他所有节点的难易程度[16,17,25]。
定义:节点v的接近中心性定义为其到网络中其他所有节点距离之和的倒数。
节点v的中介中心性Cc(v)可表示为:
其中dG(v,t)为节点v到节点t的最短路径。
设入射光线与水平面所成的角为α(0°<α> <90°),则点A的坐标为(0,cosα,sinα).因为反射光线在水平面内,所以设反射光线与x轴的正半轴所成的角为β(即从上向下看,将x轴正半轴按逆时针方向旋转到与OB重合时转过的最小正角,0°≤β<360°),则B点坐标为(cosβ,sinβ,0).α
3.3.4 特征向量中心性
特征向量中心性(Eigenvector Centrality,EC)是考虑节点已建立连接节点的重要性对该节点的影响而提出的。描述重点强调节点之间的相互影响,但邻居节点的重要性决定了自身节点的重要性,故该描述在考虑自身位置的同时还要考虑邻居节点对网络的贡献程度[18,26]。
定义:网络中节点v的特征向量中心性指数与所有连接它的节点的指数成比例。
定义:节点v的介数定义为网络中节点对s与t之间的最短路径经过节点v的条数占所有最短路径数的比例。
节点v的中介中心性CE(v)可表示为:
其中:A为网络的邻接矩阵,节点对(v,t)之间存在连接,则avt=1;否则,avt=0。λ1,λ2,…,λN为A的特征值,且a=(e1,e2,…,eN)为特征值λN所对应的特征向量,向量关系可表示为。
3.3.5 社团模块值
Newman等人[23]提出社团模块值作为网络划分质量衡量标准,来评价网络划分效果,不同算法的性能比较也可通过计算模块值而进行评定。
假设网络被划分为k个社团,那么定义k阶对称矩阵e=(eij),eij代表i社团与j社团的边的数量。矩阵对角线上各元素之和为,代表相同社团中节点之间边的集合。社区内部联系越密集,Tre值则越大。但若划分结果只有一个社区时,将会导致Tre=1。因此再定义参数,ai代表所有连接于i社团的边的数量。最终得到模块度公式:Q=。其中||e2||代表矩阵e2中所有元素之和,即社团内部边权比例减去社团外部边权比例的期望值。其中Q≤1,越接近于1,则社团结构越稳固。
冠心病的中药网络由160个节点和1816条边构成,每个节点代表一味中药,每一条边表示两味中药在同一药方中出现,而边的粗细则表示该两味药物一起出现在同一药房中的频率高低。由图2可得,丹参是该网络中出现频率最高,度值最大的节点。CNMCentrality算法对冠心病的中药网络划分结果如图2所示,通过测试得出,本网络被划分为7个类聚结果时,可以清晰地表现节点的关系特征,其中颜色相同的为同一类别的节点。根据度中心性值对治疗冠心病的中药排序,排名前15名的中药见表1(全表见附录)。结合图2和表1,丹参、川芎、黄芪等节点中心性较高;玄参、山药、太子参、远志、麦冬、山楂、三七、高丽参、熟地黄、肉桂等中药划分到以五味子、葛根、桂枝、赤芍为核心节点的网络划分中,其配伍关系较为亲密;玉浆、蜂蜜、川石斛、炒山楂、生郁金、忍冬藤、青茹竹、羌活、竹茹、藿香等中药划分到以百合为核心节点的网络划分中,其配伍关系较为亲密;佩兰、生大黄、生晒人参、广藿香、全当归、枳壳、旋覆花、紫苏梗等中药划分到以半夏、延胡索、郁金为核心节点的网络划分中,其配伍关系较为亲密;杏仁、山楂子、苍术、黄连、知母、金银花、生姜、地龙、生附子、升麻等中药划分到以人参、甘草、白芍、白术为核心节点的网络划分中,其配伍关系较为亲密;广郁金、广陈皮、苦桔梗、醋延胡索、血丹参、北沙参、焦远志、云茯苓、杭白菊、薤白头等中药划分到以全瓜蒌、炒枳壳为核心节点的网络划分中,其配伍关系较为亲密;炙甘草、炙远志、炒陈皮、炒竹茹、生晒参、熟附子、生香附、陈胆南星等中药划分到以制半夏、砂仁为核心节点的网络划分中,其配伍关系较为亲密;另有丹参、川芎、黄芪三味中药在绝大多数药方中出现,故不聚类如任何区块。最后分析认为丹参是治疗冠心病的核心中药。
表1 中药网络节点中心性分析
本文以治疗冠心病的中药复方数据为基础,通过构建复方的复杂网络模型,运用复杂网络的理论与方法,引入描述复杂网络拓扑性质的相关概念,并结合CNM-Centrality算法对所建立网络中的药物节点进行刻画与分析。最后,本文对网络节点进行了多角度的评估,挖掘该网络的核心节点。特别地,基于CNMCentrality算法在处理网络的分区上有较高的效率,计算结果可较好反映中药的配伍知识与规律。
对实际的医疗大数据进行深度挖掘是近年来热门的探索方向,而其中用复杂网络分析数据是一大研究热点[27]。该研究能揭示节点与节点之间的潜在关系,以及各节点在整个网络中的重要性。本文利用复杂网络对冠心病的方剂配伍规律进行研究,是对前人治疗冠心病的经验进行总结,为今后中医治疗冠心病和新药的研发以及深入研究中药方剂配伍规律提供了基础[9,28]。
CNM-Centrality算法是一种基于节点中心性理念,具有快速贪婪聚类算法CNM全局性层次聚类优点的社团探测算法,适合用于构建相关医疗数据复杂网络模型[12],如:药物之间的隐形关联、药物-疾病之间的关联等。胡芳[12]利用该算法进行了悲惨世界人物关系网络、美国国家西部电力网络等8个真实世界网络的社团探测,发现其能够对社团进行准确探测、高效区分,展现了良好的性能,同时根据模块度值与CNM、Walktrap和Infomap算法进行了性能对比,发现CNMCentrality算法的模块度值和归一化互信值最大。王嫣然等[8]利用CNM-Centrality算法对失眠症的中药网络进行聚类划分,通过聚类结果、度值和紧密中心性值等较好的量化了失眠症中药药物的配伍关系。改进后的CNM算法与改进的GN算法、极值优化算法等相比较,具有较为满意的划分效果[20]。模块度值、最大值堆及特征向量的运用,使得CNM算法计算复杂度接近线性,划分效率显著提高。
冠心病属于中医胸痹、心痛、厥心痛与真心痛范畴,心痛病名出于《内经》是胸痹进一步发展的病症。其基本病机是本虚标实,根本原因在于气血阴阳亏虚,心气鼓动无力,导致痰浊血瘀,内阻心脉,不通则痛,则以虚为本,实为标。《金匮要略·胸痹心痛短气病脉证治》曰:“夫脉当取太过不及,阳微阴弦,即胸痹而痛。所以然者,责其极虚也。今阳虚知在上焦,所以胸痹、心痛者,以其阴弦故也。”阳微为本虚,阴弦为标实。属于本虚标实之证,本虚为血虚、气虚、阴虚、阳虚,病以心为主,与脾、肺、肾三脏功能失调联系紧密;标实为气滞、血瘀、寒凝为主,多伴有不同程度的血瘀之证。气虚血瘀证为冠心病最常见的证型。中医的辨证(证型)与方剂相匹配,若能根据配伍药方推断出证型,则说明模型和算法具有较好的可靠性和完整性。
根据CNM-Centrality算法对冠心病的中药网络划分,最终得到了7个类聚结果,以全瓜蒌、炒枳壳为核心节点的网络类聚为例。广郁金、广陈皮、苦桔梗、醋延胡索、血丹参、北沙参、焦远志、云茯苓、杭白菊、薤白头等中药划分到以全瓜蒌、炒枳壳为核心节点的网络划分中,其配伍关系较为亲密。
广郁金辛散苦泻,既能活血祛瘀以止痛,又能疏肝行气以解郁,善治气滞血瘀之证;醋延胡索辛散温通,既能活血,又能行气,且止痛作用显著,为活血行气止痛要药;血丹参入心肝血分,性善通行,能活血化瘀,通经止痛,为治疗血瘀证的要药;杭白菊与苦桔梗、焦远志配伍有很好的祛痰作用;云茯苓可治痰饮之目眩心悸;炒枳壳开提气结,理气宽胸;广陈皮辛行温通,入肺走胸,能行气通痹止痛;全瓜蒌涤痰散结,宽胸理气,调畅血脉,通达阳气,与薤白头相伍,辛散能助阳气以行,苦降能涤痰散瘀,二药相用,涤痰之中能通阳,散瘀之中能通脉,走心窍而除痹,兼疗痰中有瘀、瘀中有痰之胸痹[29]。结合以上分析,可以推断以全瓜蒌、炒枳壳为核心节点的网络类聚极有可能对应气虚血瘀证型。
通过对治疗冠心病的方剂配伍研究发现,丹参、川穹以及黄芪这三味药材是治疗冠心病的关键药材。提示今后临床治疗冠心病时,优先考虑丹参、川穹和黄芪等中药[30]。丹参具有活血祛瘀,通经止痛,清心除烦,凉血消痈之功效;川穹适宜瘀血阻滞各种病症,祛风止痛;黄芪具有补气,增强机体免疫力的功效。从中医辨证论治的角度,这三味治疗冠心病的核心中药同样对应于中医的气虚血瘀证。与上文提到的气虚血瘀证为冠心病最常见的证型相呼应,验证了复杂网络分析冠心病配伍方剂的可靠性和完整性,同时为冠心病的方剂配伍研究提供新颖的发现。
附录
中药网络节点中心性分析表:
续表
续表
续表