两种关联规则算法在中医药治疗方面的应用及比较
王倩,金卫,生慧*
(山东中医药大学,济南 250355)
摘要:关联规则数据挖掘方法作为数据挖掘领域最活跃的研究方法之一,已广泛应用于中医药领域的各个方面,使得中医药庞大的信息数据库得以有效的利用,推动了中医药信息化的发展。关联规则算法中的Apriori算法和FP-growth算法在中医药治疗方面一直备受关注,两种算法在不同的中医、疾病、方剂、治法等方面所挖掘出的不同关联规则揭示了中医药治疗的潜在规律,为传承和发展中医中药知识奠定了理论基础。对两种算法在算法本身和算法应用方面进行简单比较,为进一步探索关联规则在中医药治疗方面的应用提供了参考。
关键词:关联规则;中医药;Apriori算法;FP-growth算法
DOI:10.13463/j.cnki.jlzyy.2015.01.003
中图分类号:R2-03文献标志码: A
文章编号:1003-5699(2015)01-0009-04
基金项目:山东省高等学校科技计划项目(J11LF10)。
作者简介:王倩(1990-),女,大学本科,主要从事生物医学信息处理研究。
收稿日期:(责任编辑:张晔2014-09-24)
*通信作者:生慧,电话-18560011658,电子信箱-shenghui2217@163.com
Application and comparison of two kinds of association rules in traditional
Chinese medicine treatment
WANG Qian,JIN Wei,SHENG Hui*
(Shandong University of Traditional Chinese Medicine,Jinan 250355,China)
Abstract:As one of the most active research methods in the field of data mining,the data mining method of association rule has been widely used in various aspects in the field of traditional Chinese medicine,which makes the large database of traditional Chinese medicine information can be utilized effectively,and promotes the development of traditional Chinese medicine modernization.Apriori algorithm and FP-growth algorithm of the association rules have attracted much attention in traditional Chinese medicine treatment.The different association rules mined by the two algorithms in aspects of Chinese medicine,diseases,drugs,treatment etc.reveal the potential rules of TCM treatment and establish the theoretical foundation for the inheritance and development of traditional Chinese medicine knowledge.A simple comparison between the two kinds of algorithm in the algorithm itself and the use of the algorithm was made to provide reference for further exploring in the application of association rules in traditional Chinese medicine.
Keywords:association rules;Traditional Chinese Medicine;Apriori algorithm;FP-growth algorithm
关联规则反映一个事物与其他事物之间的相互依存性和关联性。而关联规则挖掘则是数据挖掘中最活跃的研究方法之一,其本质是要找出隐藏在数据间的相互关系。关联规则数据挖掘的步骤主要有两步:找出所有支持度大于或等于规定最小支持度的频繁项集,再由频繁项集产生所期望的关联规则[1]。其关联规则的产生由支持度和置信度决定。在中医药领域,数据挖掘技术可用于证候诊断、方剂配伍、文献研究、临床病历等方面,以辅助传承中医文化,指导现代中医的发展。在目前针对中医药领域的数据挖掘中,关联规则Apriori算法和FP-growth算法倍受研究人员的青睐。
1概念
Apriori算法为布尔关联规则挖掘频繁项集的原创性算法。该算法属于宽度优先算法[2],使用逐层搜索的迭代方法,其中k项集用于探索(k+1)项集。首先,扫描整个数据库,累计每个项的计数,找出满足最小支持度的项,得到频繁1项集的集合L1。接下来循环进行以下两步:连接步,产生候选项集Ck;剪枝步,根据先验性质“频繁项集的所有非空子集也一定是频繁的”[3],剪除(k-1)项子集不在Lk-1中的候选k项集,当Lk为空时终止循环[4]。
FP-growth算法则是一种不产生候选项目集而采用模式增长的方式挖掘频繁模式的算法。通过两个步骤来完成:构造频繁模式树FP-tree和调用FP-growth算法进行频繁项集挖掘。其原理是通过把每个事物映射到FP树中的一条路径将数据库压缩到一颗频繁模式树,但仍保留项目集关联信息,然后将这种压缩后的数据库分成一组条件数据库,每个关联一个频繁项,并分别挖掘每个数据库[5]。对于每个模式片段,只需要考察与它相关联数据集。因此,随着被考察的模式的增长,这种方法可以显著压缩被搜索的数据集的大小。
2在中医药领域的应用
2.1方剂配伍规律的研究方剂配伍规律能阐明方剂与病证之间治法的关系,揭示构成方剂的诸要素与功效之间的关系。关联规则数据挖掘可以辅助认识方剂的效用和方内各药物之间的配伍关系,揭示方剂效用的物质基础和作用机制,进而发现方剂的潜在功效和新用途,以便改进传统剂型,研发复方新药[6-7]。
采用Apriori算法对《中医方剂大辞典》中治疗不同疾病的方剂进行挖掘分析,得到针对不同疾病的相应组方规律、核心药物、高频药对及药物功效配伍规律等。例如对其中587首肿瘤方进行挖掘。结果表明,肿瘤方中理气和活血药物使用频率最高,支持度高的药对多为活血药与行气药配伍,支持度前20的药组都含有活血化瘀药,且大多为活血化瘀药与理气药配伍应用。最终发现《中医方剂大词典》所收录的肿瘤方常选用的药物多具有行气止痛、活血化瘀、补气健脾的功效[8]。对治疗肺痿疾病的方剂进行组方规律分析,揭示了肺痿组方中药物关联规则,并根据关联结果进行新方分析,得到9个核心组合和9个候选新方,为临床治疗肺痿提供了核心组合及候选方剂[9]。应用单味药—药对—药组的数据挖掘思路,从简单到复杂,对四物汤中4味药物的配伍关系进行挖掘,发现四物汤中当归是联系其他药物的中心环节,而当归—地黄为方中的核心药对,同时为方剂配伍规律的研究提供了新的思路和方法[10]。对治疗痛经的217首方剂进行药对应用规律挖掘,得到当归—川芎等高频药对,而它们也是治疗针对寒凝血瘀和气滞血瘀型痛经的少腹逐瘀汤、温经汤两方的主要组成药物,从而发现临床上痛经发病多为这两种辨证分型,为临床痛经的辨证施药提供参考[11]。在Apriori算法支持度、置信度的基础上再引入兴趣度概念,用以修剪无趣的规则,挖掘出更有意义的关联规则,并以脾胃类方剂库中的1 060首方剂为例使用Apriori算法进行试验,通过设置兴趣度值排除无意义的药对人参—甘草,得到固定药对白术—茯苓和尚未作为药对使用但具有客观关联性的茯苓—木香药物组合,提出如何利用这些相互关联的药物,是数据挖掘重点探讨的对象[12]。
采用FP-growth算法对《方剂》教材中的方剂进行挖掘来探讨中药复方配伍的规则。以治风剂中的疏散外风剂为例得到方剂的配方规则,得到防风—细辛、甘草—细辛、川芎—细辛等药物组合,为疏散外风剂组方提供了参考[13]。以解表剂为例得到关系密切的中药组合,麻黄—甘草、甘草—芍药、桂枝—芍药等,为解表药组方提供了参考[14]。采用该算法的改进算法FP-growth*算法,在存在共享前缀的条件下,遍历结点的第一个子女结点就发现共享前缀,减少搜索共享前缀的时间,从而减少生成FP-Tree的时间,以提高挖掘效率。并对取自华佗中医院的临床方剂和上海市中医中药数据中心《中医方剂数据库》的脾胃方剂进行挖掘,得到脾胃方剂的主药甘草、陈皮、白术、人参等,补气健脾方剂是最基本的用方,显示出脾胃方剂遣方组药的一些规律[15]。
2.2中药药性药效的研究中药药性理论是中药基本理论的重要组成部分,也是指导临床使用中药和阐释中药作用机制的重要依据。关联规则数据挖掘可以探讨中药药性四气五味与具体功效之间的关联关系,揭示四气五味的药性规律,为开发中药新资源及指导临床用药提供理论线索。
采用Apriori算法对选自《中华本草》中8 980味中药的四气数据及关联的药物功能进行关联规则挖掘,得到涉及温、平、寒三性的分类关联规则11条,揭示了中药温平寒药性规律[16]。挖掘选取《神农本草经》中的365味中药,在建立气—味—效三维立方体的基础上,寻找气—味—效之间的关联规则并进行初步分析,得到四气、五味及四气合五味与功效的关联规则,为中药药性四气五味理论研究提供新思路和新方法[17]。采用改进的Apriori算法,对取自《中国药典》《中药学》教材等书籍的中药药性及其他属性的相关数据进行挖掘,将数据库划分成n部分,针对每个部分单独产生一组频繁项集,然后将这些项集并为一个总体的候选频繁项目集,再对其执行连接及剪枝等循环处理,直至产生强关联规则。挖掘结果显示,药性与药味、归经、化学成分、功能、药理作用关系最密切的依次为温—辛、平—肝、温—挥发油、寒—清热、温—抗炎。通过中药药性与其他属性间的关联进行初步探索,所得结果与中药药性传统认识相符,对中药的药性分析具有指导意义[18]。
采用FP-growth算法对含有596味药、177个不同功效的数据进行“效—效”关系挖掘。得到的结果表明,FP-growth算法挖掘中药“效—效”关系正确率较高,60.30%基本符合中医知识和中医专家的经验[19];发现感冒药材间关联规则知识,得到3味药材组合的配伍规律,体现了感冒药材之间存在客观的药性相互作用,并据此编排设计了新的中药斗谱,提供了探索中药斗谱内外布局编排设计的新思路[20]。
2.3中医治法用药规律中医强调辨证论治,即根据证的不同采取不同的治法及方药,并通过古代及当代名医的积累总结产生了许多针对特定病证或证候的治法。关联规则数据挖掘可以探索某一特定中医治法潜在的用药规律,通过其内在的药物联系更深入地剖析中医治法的根本,为中医治法在临床应用和改进上提供有力的理论依据。
采用Apriori算法,对检索医学数据库中以滋阴补肾法治疗脑卒中恢复期的临床研究报道得到的16首方剂,分析方剂中药对的应用规律,得到使用频率较高的药对牛膝—桑寄生,牛膝—地龙等,与中医经典记载及临床应用相吻合[21]。对检索中国知网、中国生物医学文献数据库中有关运用清热、活血方为主的熏洗法治疗痔病术后恢复期的临床研究报道得到的87首方剂,得到应用频率较高的药对苦参—黄柏,苦参—当归等,并发现清热药和活血化瘀药物的使用频次、药对配伍最多,对痔病术后预防和缓解并发症疗效确切,治愈率高,可以有效指导临床实践[22]。对检索医学数据库中以补肾益气活血化瘀法治疗脑卒中恢复期的临床研究报道得到的18首方剂,得到支持度较高的药对黄芪—川芎,黄芪—水蛭等,发现补肾益气活血化瘀法治疗脑卒中恢复期的用药规律,为临床提供有效的理论指导[23]。
2.4名老中医医案挖掘名老中医医案是将中医理论与临床实践相结合并不断创新的结果,包含了中医的基本原则和名老中医的独特见解,为中医的传承提供了宝贵资源。关联规则数据挖掘可以分析记录这些名老中医临床诊疗经验的医案,发现他们诊疗方式及辨证用药的独特性,为更好地指导临床工作奠定了理论基础。
采用Apriori算法对收集自中医肾病专家聂莉芳治疗CRF(慢性肾功能衰竭)患者的门诊及病房病案,对症状、中药、方剂及其相互关联进行分析挖掘。结果说明,慢性肾衰病机气阴两虚证最为多见,并得到治疗CRF常用中药、常用药对药组和常用方剂等,体现了抓主症选方、随症加减的用药规律,为CRF在中医临床的诊疗提供了可靠的依据[24]。以颜正华教授治疗胃脘痛的临床处方为研究数据,采用Apriori算法提取关联规则,得到药物的核心组合和新处方,为传承和深入挖掘名老中医的治疗方法提供了参考[25]。以中医院中名老中医关于典型的Ⅱ型糖尿病医案为研究对象,构建了基于Apriori算法的数据挖掘平台,挖掘名老中医关于Ⅱ型糖尿病的医案中药物之间的相互关联,得出治疗Ⅱ型糖尿病最常用的中药和药对,为Ⅱ型糖尿病在中医临床诊疗提供了宝贵经验[26]。
3结语
在现有中医药领域的关联规则数据挖掘中,就算法本身来说,有实验证明在支持度较小的情况下,FP-growth算法较Apriori算法有着明显的优势[27]。Apriori算法易于实现,但在实际应用中存在一些难以克服的缺陷,频繁扫描数据库、产生大量候选项集等;FP-Growth算法可以实现对无向项集图的实时构造,无需频繁扫描数据库,算法性能显著提高[28]。就算法应用来说,Apriori算法多于FP-growth算法。作为原始经典算法之一的Apriori算法已广泛应用于中医药方剂配伍、药性药效、中医治法、中医医案等多方面的挖掘当中,挖掘结果也基本与中医经典记载和临床经验相吻合[29];而FP-growth算法明显在应用上不及Apriori算法,应用范围相对较局限。
总体来说,两种算法的运用大部分还停留在小范围数据的理论阶段,尚未有大范围数据的关联规则挖掘,其结论的应用也相对局限,能为相应领域提供一定理论指导,但尚未真正应用到临床实践中。随着中医药数据库的逐步建立和完善,关联规则Apriori算法和FP-growth算法挖掘将有更加全面的数据支持,探索结果也将会更加准确实用,指导性和实践性提高,必定会对数据挖掘在中医药领域的发展有极大的推动作用。
参考文献:
[1]马丽伟.关联规则算法研究及其在中医药数据挖掘中的应用[D].南京:南京理工大学,2009.
[2]张成叔.数据挖掘中关联规则挖掘方法的研究及应用[J].软件,2013,34(9):138-140.
[3]韩家炜,Micheline Kamber,裴健.数据挖掘概念与技术[M].北京:机械工业出版社,2012.
[4]刘闽碧.基于粗糙集和Apriori算法的中医病证关联研究[J].福建电脑,2012(10):105-107.
[5]韦玉科,汪仁煌,李江平,等.一种新的关联规则挖掘算法研究[J].计算机应用研究,2008,25(10):2962-2964.
[6]王春山.数据挖掘技术在方剂配伍领域的应用研究[D].杭州:浙江大学,2006.
[7]王喜军,张宁,常存库,等.方剂配伍规律的研究现状和未来发展[J].世界科学技术,2006,8(4):13-16.
[8]尹刚,唐德才,赵凡,等.中医肿瘤方配伍规律初探[J].南京中医药大学学报,2013,29(2):111-113.
[9]李健,张瑞贤,唐仕欢,等.《中医方剂大辞典》中治疗肺痿方剂的用药规律分析[J].中国实验方剂学杂志,2012,18(10):1-5.
[10]陈芳,朱敏,尚尔鑫,等.基于Apriori算法的四物汤类方组方特点分析[J].中华中医药杂志,2011,26(2):246-252.
[11]宿树兰,尚尔鑫,叶亮,等.治疗痛经方药的关联规则分析[J].南京中医药大学学报,2008,24(6):383-385.
[12]李湘君.改进的Apriori算法在中药复方数据挖掘中的应用[J].中华医学杂志,2013,19(8):621-628.
[13]刘闽碧.基于FP-Growth算法的中药配方数据挖掘[J].医学信息,2009,22(12):2629-2631.
[14]王瑞祥,崔利锐,白玲玲,等.基于FP-Growth算法的中药关联程度分析[J].辽宁中医药大学学报,2007,9(4):7-8.
[15]董辉.基于改进FP-Growth算法的中药方剂配伍规律挖掘研究[J].中国卫生统计,2007,24(6):656-658.
[16]杨雪梅,林端宜,赖新梅,等.挖掘中药功能组合判定四气药性的规律[J].中国中药杂志,2013,38(10):1624-1626.
[17]金锐,张冰,刘欣.基于Apriori算法的中药气-味-效三维数据关联规则挖掘研究[J].中西医结合学报,2011,9(7):794-802.
[18]于红艳,许成刚.关联挖掘技术在中药药性及其他属性间关系的应用研究[J].中国实验方剂学杂志,2013,19(14):343-346.
[19]蔡争真,田玲.基于FP-growth方法的中药“效—效”关系挖掘[J].成都信息工程学院学报,2007,22(6):677-681.
[20]桑秀丽,肖汉杰,高松.感冒药材关联规则知识发现下的配伍规律与斗谱编排研究[J].昆明理工大学学报,2013,38(1):54-58.
[21]赵耀武,张斌,张文亮,等.滋阴补肾法治疗中风恢复期的用药规律研究[J].时珍国医国药,2010,21(3):677-679.
[22]赵洪波,吴晓晶,杨云.清热活血法在痔病术后的用药规律[J].世界华人消化杂志,2014,22(1):153-158.
[23]张斌,张文亮,赵耀武,等.补肾益气活血化瘀法治疗中风恢复期的用药规律及研究[J].中国中药杂志,2010,35(8):1082-1085.
[24]李赛,聂莉芳,孙红颖.聂莉芳治疗慢性肾功能衰竭经验的关联规则分析[J].中华中医药杂志,2011,26(7):1602-1606.
[25]吴嘉瑞,张冰,杨冰.基于关联规则和复杂系统熵聚类的颜正华教授治疗胃脘痛用药规律研究[J].中国实验方剂学杂志,2012,18(20):1-5.
[26]蔡莉.基于名老中医Ⅱ型糖尿病医案的数据挖掘研究[J].佳木斯教育学院学报,2013(11):447-448.
[27]晏杰,亓文娟.基于Apriori & FP-growth算法的研究[J].计算机系统应用,2013,22(5):122-125.
[28]张博.FP-Growth算法在中药数据挖掘中的应用[J].湖南工程学院学报,2011,21(3):28-30.
[29]王树鹏,刘书宇.数据挖掘技术在中医药领域中的应用研究[J].中华中医药学刊,2011,29(1):36-38.