基于Weka关联规则挖掘的针灸腧穴规律研究

2014-04-23 01:25胡绿慧任玉兰
电脑知识与技术 2014年7期
关键词:关联规则数据挖掘

胡绿慧 任玉兰

摘要:针灸腧穴规律在针灸临床治疗中起着十分重要的作用,针对古今针灸临床治疗方案数据量大、关联性强的特点,运用关联分析中的Apriori算法,结合针灸学科特点和临床诊治规律,将经过筛选转换的数据在Weka平台中分析,充分利用其中的类和可视化功能,得出用穴规律、腧穴配伍规律等的分析结果。实验结果表明,基于WEKA的关联规则挖掘技术能有效的为针灸腧穴规律研究提供信息支持。

关键词: Weka;针灸腧穴规律;数据挖掘;关联规则

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)07-1361-03

针灸学是以中医理论为指导,在继承和发扬古代针灸学术思想和实践经验的基础之上,运用传统和现代科学技术研究经络、腧穴、操作技能、治疗法则、作用机制和防治疾病的一门学科,作为中医学科体系中最具特色和优势的学科,以其独特的治疗方法和卓越的临床疗效得到了国内外广泛关注和高度重视。临床上,由腧穴、施术方法和治疗时间组成的针灸处方是实现针灸疗效的重要条件,但在针灸临床治疗决策中,如何选取最优化的针灸处方是针灸医生面临的一大难题。随着信息技术的发展,医学信息的迅猛增加,而人脑的储存和处理信息的能力又有一定的局限性,因此会对临床问题的思考、信息的判断、寻找解决问题的办法和制定临床治疗方案决策造成必然的困扰。

本文针对针灸临床治疗方案的数据特点,借鉴循证医学的理念和方法整理、加工、更新以及评价古今针灸治疗疾病的临床证据,通过运用数据仓库存储、管理针灸诊断、治疗疾病的古代和现代临床证据以及相关针灸知识,结合针灸学科特点和临床诊治规律;通过对关联规则及相关算法进行分析,将针灸穴位数据与关联规则相结合,将历代针灸数据在WEKA软件中进行挖掘,得出用穴规律、腧穴配伍规律等的分析结果,从而指导医生的临床治疗方案决策。

1 关联规则挖掘算法

1.1 关联规则挖掘的基本概念

关联规则挖掘是指从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。

1.2 APRIORI算法

经典的关联规则挖掘算法是Agrawal R提出的Apriori算法,该算法是利用大项目集的任一子集也一定是大的这一性质。使用逐层搜索的迭代方法,利用K项集探索K+1项集,将原始数据结构分层。Apriori算法的基本思想是生成特定规模的候选项目集,然后扫描数据库并进行计数,以确定这些候选项目集是大的。即扫描一次事务数据库,找出频繁1-项集的集合L1,基于L1来寻找所有可能的候选2-项集集合L2,类似上一步,L2用于寻找 L3,如此循环,直到不能找到频繁项集。其中,候选项集的生成主要通过两个步骤:连接和剪枝。即在第i趟扫描过程中,对候选项目集的集合Ci进行计数,也就是说用大项目集的集合Li生成Ci+1。只有一个项目集的所有子集都是大的,它才被认为是一个候选。为了生成大小为i+1的候选,要对前一趟扫描发现的大项目集进行连接运算。

2 Weka的框架结构

WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一个运行于Java平台的开源系统,是现今最完备的数据挖掘工具之一。

Weka主要提供了数据挖掘的框架结构,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。这些算法一般是直接应用于一个数据集上,还可以在其他的Java代码中调用。在这些数据挖掘算法生成模型时,用户可以自定义算法的各个相关参数,并且可以实现对测试集的验证, 和对算法的比较。Weka提供了可编程的接口,使我们可以通过拓展算法来实现新的功能,同时Weka也允许我们通过调用它的公用包,在自己的项目中利用包中的算法实现相应的功能。使用WEKA不仅支持本身提供的ARFF格式的数据,同时还提供了对CSV文件的支持,而这种格式是被很多其他软件所支持的。此外,WEKA还提供了通过JDBC访问数据库的功能。

3 Apriori算法在针灸腧穴规律中的应用

在中医药领域,数据挖掘技术已应用于中医药数据库的建立、方剂配伍规律的研究、名老中医经验总结、中医药数据规范处理,以及临床诊断、疗效评价、处方分析、图像识别等研究。目前,已有不少学者开始将数据挖掘技术利用在临床诊疗决策方面,而数据挖掘在针灸临床决策的研究还处于起步阶段,研究还比较少,主要是成都中医药大学的学者在从事这方面的研究,还有待进一步的发展,使用数据挖掘方法来处理大量的针灸临床数据已显得十分重要。本研究挖掘工具采用Weka3.7开放源代码平台,用Apriori方法,以贝尔面瘫病例数据为例,找出其中的用穴规律。

3.1 数据选择与处理

对于古代文献数据参照了《中国针灸文献提要》、《中国医籍大辞典》《中国针灸荟萃·现存针灸医籍卷》等书籍,选取影响范围较大、传播范围广的著作;对于现代文献数据采用计算机检索和手工检索;数据以针灸疗法治疗贝尔面瘫1400条医案为例,取每条数据病名、针灸方法、穴位、疗程等字段。现代数据分为篇名、作者、病名、取穴等数据项。文献录入要保证忠实原始文献并进行规范,对难以规范需要特殊处理的内容填入“备注”项。部分数据如表1所示。

通过WEKA平台使用关联规则挖掘结果得出:针灸治疗面瘫地仓、颊车两穴使用频次最高,疗效最好。其他具体穴位使用频次见表2。针灸治疗面瘫腧穴配伍规律中,颊车与地仓两穴配伍使用最多,他们的支持度和置信度都达到最高。具体配伍、置信度见表3。

通过对针灸治疗面瘫数据库进行分析,从用关联规则挖掘结果并结合针灸专业知识进行分析,其结果显示:应用针灸疗法治疗贝尔面瘫的经络腧穴的应用有明显的规律特征。首先,从腧穴使用频次分析来看,重视局部取穴,地仓、颊车、阳白、合谷、翳风等面部穴位的应用,体现了“腧穴所在,主治所在”的治疗规律;同时迎香、下关、四白等穴位的应用也十分常见,体现了“经脉所过、主治所及”的治疗规律;其用穴还体现了针灸辩证论治的特点以经脉辨治为主,对经脉的选择中,特别重视对翳风、合谷、风池等祛风解表穴位的应用,体现了对病因辨证治疗的原则。从分析结果可以看出,循经取穴是针灸治疗面瘫的重要原则,特定穴的运用是针灸处方的主要部分,这与针灸理论与临床实践是相符的。

5 结论

本文以大量针灸文献为基础,采用关联规则挖掘方法,得出针灸治疗面瘫的用穴规律和配伍规律,为临床医生的治疗方案提供了决策依据。 数据挖掘技术,对针灸临床治疗文献海量数据的处理和分析有着重要的意义,其结果将为今后针灸临床和科研提供新的思路和参考。

参考文献:

[1] 梁繁荣,余曙光,李瑛,等.针灸治疗贝尔麻痹临床多中心随机对照试验研究[J].中医杂志,2004,45(8):584.

[2] 马丽伟.关联规则算法研究及其在中医药数据挖掘中的应用[M].南京:南京理工大学,2009.

[3] 宋新葵.一种新的改进的Apriori算法[J].微计算机信息,2009,12(45):78-81.

[4] Agrawal R,Mannila H,Srikant R,et al.Fast discovery of association rules[J].Advances in Knowledge Discovery and Data Mining,1996:327-328.

[5] Karaboga D,Basturk B.On the performance of Artificial Bee Colony(ABC) algorithm[J].Applied Soft Comprting, 2010,8(1):687-697.

摘要:针灸腧穴规律在针灸临床治疗中起着十分重要的作用,针对古今针灸临床治疗方案数据量大、关联性强的特点,运用关联分析中的Apriori算法,结合针灸学科特点和临床诊治规律,将经过筛选转换的数据在Weka平台中分析,充分利用其中的类和可视化功能,得出用穴规律、腧穴配伍规律等的分析结果。实验结果表明,基于WEKA的关联规则挖掘技术能有效的为针灸腧穴规律研究提供信息支持。

关键词: Weka;针灸腧穴规律;数据挖掘;关联规则

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)07-1361-03

针灸学是以中医理论为指导,在继承和发扬古代针灸学术思想和实践经验的基础之上,运用传统和现代科学技术研究经络、腧穴、操作技能、治疗法则、作用机制和防治疾病的一门学科,作为中医学科体系中最具特色和优势的学科,以其独特的治疗方法和卓越的临床疗效得到了国内外广泛关注和高度重视。临床上,由腧穴、施术方法和治疗时间组成的针灸处方是实现针灸疗效的重要条件,但在针灸临床治疗决策中,如何选取最优化的针灸处方是针灸医生面临的一大难题。随着信息技术的发展,医学信息的迅猛增加,而人脑的储存和处理信息的能力又有一定的局限性,因此会对临床问题的思考、信息的判断、寻找解决问题的办法和制定临床治疗方案决策造成必然的困扰。

本文针对针灸临床治疗方案的数据特点,借鉴循证医学的理念和方法整理、加工、更新以及评价古今针灸治疗疾病的临床证据,通过运用数据仓库存储、管理针灸诊断、治疗疾病的古代和现代临床证据以及相关针灸知识,结合针灸学科特点和临床诊治规律;通过对关联规则及相关算法进行分析,将针灸穴位数据与关联规则相结合,将历代针灸数据在WEKA软件中进行挖掘,得出用穴规律、腧穴配伍规律等的分析结果,从而指导医生的临床治疗方案决策。

1 关联规则挖掘算法

1.1 关联规则挖掘的基本概念

关联规则挖掘是指从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。

1.2 APRIORI算法

经典的关联规则挖掘算法是Agrawal R提出的Apriori算法,该算法是利用大项目集的任一子集也一定是大的这一性质。使用逐层搜索的迭代方法,利用K项集探索K+1项集,将原始数据结构分层。Apriori算法的基本思想是生成特定规模的候选项目集,然后扫描数据库并进行计数,以确定这些候选项目集是大的。即扫描一次事务数据库,找出频繁1-项集的集合L1,基于L1来寻找所有可能的候选2-项集集合L2,类似上一步,L2用于寻找 L3,如此循环,直到不能找到频繁项集。其中,候选项集的生成主要通过两个步骤:连接和剪枝。即在第i趟扫描过程中,对候选项目集的集合Ci进行计数,也就是说用大项目集的集合Li生成Ci+1。只有一个项目集的所有子集都是大的,它才被认为是一个候选。为了生成大小为i+1的候选,要对前一趟扫描发现的大项目集进行连接运算。

2 Weka的框架结构

WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一个运行于Java平台的开源系统,是现今最完备的数据挖掘工具之一。

Weka主要提供了数据挖掘的框架结构,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。这些算法一般是直接应用于一个数据集上,还可以在其他的Java代码中调用。在这些数据挖掘算法生成模型时,用户可以自定义算法的各个相关参数,并且可以实现对测试集的验证, 和对算法的比较。Weka提供了可编程的接口,使我们可以通过拓展算法来实现新的功能,同时Weka也允许我们通过调用它的公用包,在自己的项目中利用包中的算法实现相应的功能。使用WEKA不仅支持本身提供的ARFF格式的数据,同时还提供了对CSV文件的支持,而这种格式是被很多其他软件所支持的。此外,WEKA还提供了通过JDBC访问数据库的功能。

3 Apriori算法在针灸腧穴规律中的应用

在中医药领域,数据挖掘技术已应用于中医药数据库的建立、方剂配伍规律的研究、名老中医经验总结、中医药数据规范处理,以及临床诊断、疗效评价、处方分析、图像识别等研究。目前,已有不少学者开始将数据挖掘技术利用在临床诊疗决策方面,而数据挖掘在针灸临床决策的研究还处于起步阶段,研究还比较少,主要是成都中医药大学的学者在从事这方面的研究,还有待进一步的发展,使用数据挖掘方法来处理大量的针灸临床数据已显得十分重要。本研究挖掘工具采用Weka3.7开放源代码平台,用Apriori方法,以贝尔面瘫病例数据为例,找出其中的用穴规律。

3.1 数据选择与处理

对于古代文献数据参照了《中国针灸文献提要》、《中国医籍大辞典》《中国针灸荟萃·现存针灸医籍卷》等书籍,选取影响范围较大、传播范围广的著作;对于现代文献数据采用计算机检索和手工检索;数据以针灸疗法治疗贝尔面瘫1400条医案为例,取每条数据病名、针灸方法、穴位、疗程等字段。现代数据分为篇名、作者、病名、取穴等数据项。文献录入要保证忠实原始文献并进行规范,对难以规范需要特殊处理的内容填入“备注”项。部分数据如表1所示。

通过WEKA平台使用关联规则挖掘结果得出:针灸治疗面瘫地仓、颊车两穴使用频次最高,疗效最好。其他具体穴位使用频次见表2。针灸治疗面瘫腧穴配伍规律中,颊车与地仓两穴配伍使用最多,他们的支持度和置信度都达到最高。具体配伍、置信度见表3。

通过对针灸治疗面瘫数据库进行分析,从用关联规则挖掘结果并结合针灸专业知识进行分析,其结果显示:应用针灸疗法治疗贝尔面瘫的经络腧穴的应用有明显的规律特征。首先,从腧穴使用频次分析来看,重视局部取穴,地仓、颊车、阳白、合谷、翳风等面部穴位的应用,体现了“腧穴所在,主治所在”的治疗规律;同时迎香、下关、四白等穴位的应用也十分常见,体现了“经脉所过、主治所及”的治疗规律;其用穴还体现了针灸辩证论治的特点以经脉辨治为主,对经脉的选择中,特别重视对翳风、合谷、风池等祛风解表穴位的应用,体现了对病因辨证治疗的原则。从分析结果可以看出,循经取穴是针灸治疗面瘫的重要原则,特定穴的运用是针灸处方的主要部分,这与针灸理论与临床实践是相符的。

5 结论

本文以大量针灸文献为基础,采用关联规则挖掘方法,得出针灸治疗面瘫的用穴规律和配伍规律,为临床医生的治疗方案提供了决策依据。 数据挖掘技术,对针灸临床治疗文献海量数据的处理和分析有着重要的意义,其结果将为今后针灸临床和科研提供新的思路和参考。

参考文献:

[1] 梁繁荣,余曙光,李瑛,等.针灸治疗贝尔麻痹临床多中心随机对照试验研究[J].中医杂志,2004,45(8):584.

[2] 马丽伟.关联规则算法研究及其在中医药数据挖掘中的应用[M].南京:南京理工大学,2009.

[3] 宋新葵.一种新的改进的Apriori算法[J].微计算机信息,2009,12(45):78-81.

[4] Agrawal R,Mannila H,Srikant R,et al.Fast discovery of association rules[J].Advances in Knowledge Discovery and Data Mining,1996:327-328.

[5] Karaboga D,Basturk B.On the performance of Artificial Bee Colony(ABC) algorithm[J].Applied Soft Comprting, 2010,8(1):687-697.

摘要:针灸腧穴规律在针灸临床治疗中起着十分重要的作用,针对古今针灸临床治疗方案数据量大、关联性强的特点,运用关联分析中的Apriori算法,结合针灸学科特点和临床诊治规律,将经过筛选转换的数据在Weka平台中分析,充分利用其中的类和可视化功能,得出用穴规律、腧穴配伍规律等的分析结果。实验结果表明,基于WEKA的关联规则挖掘技术能有效的为针灸腧穴规律研究提供信息支持。

关键词: Weka;针灸腧穴规律;数据挖掘;关联规则

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)07-1361-03

针灸学是以中医理论为指导,在继承和发扬古代针灸学术思想和实践经验的基础之上,运用传统和现代科学技术研究经络、腧穴、操作技能、治疗法则、作用机制和防治疾病的一门学科,作为中医学科体系中最具特色和优势的学科,以其独特的治疗方法和卓越的临床疗效得到了国内外广泛关注和高度重视。临床上,由腧穴、施术方法和治疗时间组成的针灸处方是实现针灸疗效的重要条件,但在针灸临床治疗决策中,如何选取最优化的针灸处方是针灸医生面临的一大难题。随着信息技术的发展,医学信息的迅猛增加,而人脑的储存和处理信息的能力又有一定的局限性,因此会对临床问题的思考、信息的判断、寻找解决问题的办法和制定临床治疗方案决策造成必然的困扰。

本文针对针灸临床治疗方案的数据特点,借鉴循证医学的理念和方法整理、加工、更新以及评价古今针灸治疗疾病的临床证据,通过运用数据仓库存储、管理针灸诊断、治疗疾病的古代和现代临床证据以及相关针灸知识,结合针灸学科特点和临床诊治规律;通过对关联规则及相关算法进行分析,将针灸穴位数据与关联规则相结合,将历代针灸数据在WEKA软件中进行挖掘,得出用穴规律、腧穴配伍规律等的分析结果,从而指导医生的临床治疗方案决策。

1 关联规则挖掘算法

1.1 关联规则挖掘的基本概念

关联规则挖掘是指从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。

1.2 APRIORI算法

经典的关联规则挖掘算法是Agrawal R提出的Apriori算法,该算法是利用大项目集的任一子集也一定是大的这一性质。使用逐层搜索的迭代方法,利用K项集探索K+1项集,将原始数据结构分层。Apriori算法的基本思想是生成特定规模的候选项目集,然后扫描数据库并进行计数,以确定这些候选项目集是大的。即扫描一次事务数据库,找出频繁1-项集的集合L1,基于L1来寻找所有可能的候选2-项集集合L2,类似上一步,L2用于寻找 L3,如此循环,直到不能找到频繁项集。其中,候选项集的生成主要通过两个步骤:连接和剪枝。即在第i趟扫描过程中,对候选项目集的集合Ci进行计数,也就是说用大项目集的集合Li生成Ci+1。只有一个项目集的所有子集都是大的,它才被认为是一个候选。为了生成大小为i+1的候选,要对前一趟扫描发现的大项目集进行连接运算。

2 Weka的框架结构

WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一个运行于Java平台的开源系统,是现今最完备的数据挖掘工具之一。

Weka主要提供了数据挖掘的框架结构,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。这些算法一般是直接应用于一个数据集上,还可以在其他的Java代码中调用。在这些数据挖掘算法生成模型时,用户可以自定义算法的各个相关参数,并且可以实现对测试集的验证, 和对算法的比较。Weka提供了可编程的接口,使我们可以通过拓展算法来实现新的功能,同时Weka也允许我们通过调用它的公用包,在自己的项目中利用包中的算法实现相应的功能。使用WEKA不仅支持本身提供的ARFF格式的数据,同时还提供了对CSV文件的支持,而这种格式是被很多其他软件所支持的。此外,WEKA还提供了通过JDBC访问数据库的功能。

3 Apriori算法在针灸腧穴规律中的应用

在中医药领域,数据挖掘技术已应用于中医药数据库的建立、方剂配伍规律的研究、名老中医经验总结、中医药数据规范处理,以及临床诊断、疗效评价、处方分析、图像识别等研究。目前,已有不少学者开始将数据挖掘技术利用在临床诊疗决策方面,而数据挖掘在针灸临床决策的研究还处于起步阶段,研究还比较少,主要是成都中医药大学的学者在从事这方面的研究,还有待进一步的发展,使用数据挖掘方法来处理大量的针灸临床数据已显得十分重要。本研究挖掘工具采用Weka3.7开放源代码平台,用Apriori方法,以贝尔面瘫病例数据为例,找出其中的用穴规律。

3.1 数据选择与处理

对于古代文献数据参照了《中国针灸文献提要》、《中国医籍大辞典》《中国针灸荟萃·现存针灸医籍卷》等书籍,选取影响范围较大、传播范围广的著作;对于现代文献数据采用计算机检索和手工检索;数据以针灸疗法治疗贝尔面瘫1400条医案为例,取每条数据病名、针灸方法、穴位、疗程等字段。现代数据分为篇名、作者、病名、取穴等数据项。文献录入要保证忠实原始文献并进行规范,对难以规范需要特殊处理的内容填入“备注”项。部分数据如表1所示。

通过WEKA平台使用关联规则挖掘结果得出:针灸治疗面瘫地仓、颊车两穴使用频次最高,疗效最好。其他具体穴位使用频次见表2。针灸治疗面瘫腧穴配伍规律中,颊车与地仓两穴配伍使用最多,他们的支持度和置信度都达到最高。具体配伍、置信度见表3。

通过对针灸治疗面瘫数据库进行分析,从用关联规则挖掘结果并结合针灸专业知识进行分析,其结果显示:应用针灸疗法治疗贝尔面瘫的经络腧穴的应用有明显的规律特征。首先,从腧穴使用频次分析来看,重视局部取穴,地仓、颊车、阳白、合谷、翳风等面部穴位的应用,体现了“腧穴所在,主治所在”的治疗规律;同时迎香、下关、四白等穴位的应用也十分常见,体现了“经脉所过、主治所及”的治疗规律;其用穴还体现了针灸辩证论治的特点以经脉辨治为主,对经脉的选择中,特别重视对翳风、合谷、风池等祛风解表穴位的应用,体现了对病因辨证治疗的原则。从分析结果可以看出,循经取穴是针灸治疗面瘫的重要原则,特定穴的运用是针灸处方的主要部分,这与针灸理论与临床实践是相符的。

5 结论

本文以大量针灸文献为基础,采用关联规则挖掘方法,得出针灸治疗面瘫的用穴规律和配伍规律,为临床医生的治疗方案提供了决策依据。 数据挖掘技术,对针灸临床治疗文献海量数据的处理和分析有着重要的意义,其结果将为今后针灸临床和科研提供新的思路和参考。

参考文献:

[1] 梁繁荣,余曙光,李瑛,等.针灸治疗贝尔麻痹临床多中心随机对照试验研究[J].中医杂志,2004,45(8):584.

[2] 马丽伟.关联规则算法研究及其在中医药数据挖掘中的应用[M].南京:南京理工大学,2009.

[3] 宋新葵.一种新的改进的Apriori算法[J].微计算机信息,2009,12(45):78-81.

[4] Agrawal R,Mannila H,Srikant R,et al.Fast discovery of association rules[J].Advances in Knowledge Discovery and Data Mining,1996:327-328.

[5] Karaboga D,Basturk B.On the performance of Artificial Bee Colony(ABC) algorithm[J].Applied Soft Comprting, 2010,8(1):687-697.

猜你喜欢
关联规则数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于关联规则和时间阈值算法的5G基站部署研究
关联规则,数据分析的一把利器
数据挖掘技术在中医诊疗数据分析中的应用
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索