肖洁 冒宇清 李新霞
摘 要:数据挖掘是知识发现过程中的重要步骤,中医药数据挖掘是目前一个热门的研究方向。文章探讨了关联规则方法中经典的Apriori算法在中医药数据挖掘中的应用,初步发现中医治疗皮肤科疾病常用方剂中的最主要中药,对中医临床治疗皮肤科疾病具有一定的参考意义。
关键词:数据挖掘;Apriori;中医皮肤科;频繁项集
中医是我国优秀的民族文化遗产,其历史悠久,理论独特、疗效显著,承载着中华民族几千年的宝贵经验和理论知识。对中医在长期的医疗实践中积累的大量數据进行整理,总结归纳其中的精髓,能够丰富中医的理论体系,推动中医的发扬光大。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的现实世界数据中,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。因此可以运用数据挖掘技术对中医药的数据进行分析,从中获得有价值的知识。中医药的数据挖掘就是对采集到的中医药类的数据进行分析处理,运用合适的挖掘算法对中医诊治过程中的辨证—治法—方剂—中药进行挖掘,实现中医药的知识发现,为提高中医药理论研究和经验总结提供支持。
1 数据挖掘与关联规则
1.1 数据挖掘
数据挖掘又称为数据库知识发现,一般是从大量的数据中通过算法搜索寻找隐藏在数据背后的信息的一个过程。数据挖掘通常是与计算机相关技术有关的,通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现目的。
数据挖掘这一技术的关键就在于数据挖掘的方法,目前常用的方法有:因子分析、描述性分析、关联规则、聚类分析、人工神经网络、遗传算法、对应分析、粗糙集、模糊集、决策树方法、贝叶斯网络、频繁集方法和支持向量机等。当前数据挖掘这一技术最主要是应用在数据仓库、数据挖掘语言、复杂数据类型等方面。
1.2 关联规则
关联规则是数据挖掘的核心技术之一,是通过对海量数据进行充分有效的分析与研究来获取知识,寻找隐藏在数据中的关联,以提高数据挖掘的效率。其最初是来源于“购物篮分析”,通过分析购物篮里各种商品的关联程度来总结购物习惯,优化营销。
关联规则方法首先定义集合I={i1,i2,i3,…,in},其中ik称为项,n是集合I中项的个数,I集合也称为项集。假设事务数据库D是一个与任务相关的数据集合,其中每个事务T是一个项集的子集,即T?I,每个事务存在唯一的标识符TID。如果I中包含另一个项集X,当且仅当X?T时事务T包含X。关联规则即为X?Y的蕴涵式,其中X?I,Y?I且X∩Y≠φ,表示若项集X在某一任务中出现,可致Y以某一概率出现。通常关联规则可用3个标准衡量:支持度、置信度和提升度。支持度S是任务D中包含X和Y两个事务的百分比,S(X?Y)=P(X∪Y)/P(D)。置信度C是在含有X的项集中同时含有Y的可能性,C(X?Y)=P(Y|X)。提升度L是置信度与项目集Y发生的概率之比,L(X?Y)= P(Y|X)/P(Y)。对于某个任务中的最小支持度的阈值,支持度大于等于该阈值的项集称为频繁项集,关联规则算法发现事务中的频繁项集,并且通过设置最小置信度以发现强关联规则,即同时满足最小支持度阈值和最小信任度阈值的关联规则,最后通过不断地重复修剪获得所需的关联规则。
2 Apriori算法
Apriori算法是一种经典的频繁项集挖掘算法。Apriori的意思是先验的、推测的,Apriori算法的核心思想就是先验性:在进行推论的过程中满足后续条件的结果一定是满足之前的条件。Apriori算法采用逐层搜索迭代的方法获得频繁项集,先通过对事务数据库的扫描找出支持度不小于最小支持度的频繁项集[1],再利用循环,对之前得到的频繁项集中的项进行连接剪枝,生成新的候选项,扫描数据库,计算支持度,从候选项集中删除支持度小于最小支持度的候选项,直至不再有候选项集为止。
但随着项目集个数的增加,产生的候选项集数目也随之不断增加,从而导致算法的效率迅速下降;同时在产生候选项后,还需要对每一项验证其支持度,由于候选项数目巨大,对每个候选项的扫描又需要重新针对所有的数据库进行,更进一步提高了计算机的工作负荷。针对这些不足,目前出现了很多Apriori算法的改进算法,例如韩家炜老师提出的FP-Growth算法,极大地减少了运算量,提高了数据挖掘的效率。但是由于Apriori算法能够准确进行数据挖掘,且我们所用到的方剂数据对算法而言并不算大,对运行能力及运行速度没有较明显的影响,所以我们选择采用这一算法来挖掘中医方剂数据的用药规律。
3 用药规律
由于中医治疗皮肤科疾病方剂数据的复杂性与多样性,在收集数据时就需要做好筛选和清洗工作。在数据录入阶段,进行规范化处理,并利用自然语言处理技术,去除无用的信息,统一中药的名字,通过数据预处理工作,将原始数据转化为数据挖掘方法所需要的数据形式。
本研究通过对大量中医文献中治疗皮肤科疾病的记录,以及南京中医药大学附属医院的名中医治疗皮肤科疾病的处方数据进行统计与分析,从所有方剂包含的中药名中筛选得到320条数据,共计158味中药。运用关联规则方法中经典的Apriori算法进行挖掘,所挖掘出的频繁项集是中医治疗皮肤科疾病方剂中的重要核心方,对中医治疗皮肤科疾病具有一定的研究价值。本次计算设置的最小支持度S为20%,最小置信度C为70%。通过实验,得到本数据集所有方剂中的中药频繁项集,结果如表1所示。
通过Apriori算法对我们所得数据的挖掘,我们得到相关的研究结果,分析可知有“利水渗湿,健脾,宁心”性能的茯苓在这种以治疗皮肤科疾病时是使用最多的一种中药,频率高达53%[2],而具有“补血活血,调经止痛,润肠通便”性能的当归以及功效为“滋阴清热,凉血补血”的生地黄也分别以49%,48%的占比紧跟其后[3],生甘草、赤芍、川芎、牡丹皮、黄芩、栀子、泽泻、防风、红花这9味中药也是较高频度出现的[4],也就是对于中医治疗皮肤科疾病而言,这12味中药是最主要、最有效的,它们出现的原因自然也与它们的功效有着重要的联系[5-6],这也是我们以后实验中更需要注意的方向,以便为中医临床治疗提供更多有效的信息。
4 结语
本研究利用Apriori算法对中医治疗皮肤科疾病方剂进行关联规则挖掘,在支持度为20%,置信度为70%的条件下得到核心中药19味。该结果为中医临床治疗皮肤科疾病提供了初步的治疗依据,具有一定的参考价值。但中医方剂的中药频数并不是中医用药规律的唯一要素,在接下来的研究中,需要进一步挖掘高频中药之间的关联信息,并且结合证型、药物的剂量和用药周期等特征,对中医用药规律进行更深层次的挖掘,以发现更加有用的知识。
[参考文献]
[1]汪玉薇.面向中医处方的关联规则挖掘模型改进与应用研究[D].武汉:湖北中医药大学,2017.
[2]刘广.基于Apriori算法的中医治疗咳嗽关联规则挖掘研究[J].信息系统工程,2016(7):123,127.
[3]杨青.基于关联规则的近十五年紧张型头痛中医用药规律研究[D].济南:山东中医药大学,2016.
[4]吴同恩.基于关联规则的脑出血中医用药规律研究[D].济南:山东中医药大学,2016.
[5]石昆.基于关联规则三叉神经痛近十五年中医用药规律研究[D].济南:山东中医药大学,2016.
[6]严刚.关联规则算法在中医数据挖掘中的应用[J].硅谷,2009(24):65.