数据挖掘在外感疾病药对中的应用研究*

2012-12-01 02:14:14冯天保谭定英陈平平
中国中医基础医学杂志 2012年6期
关键词:选项卡项集病证

冯天保,刘 梅,谭定英,陈平平

(广州中医药大学,广州 510405)

药对,又称“对药”,是临床上常用的、相对固定的2味药物的配伍形式。药对是集中医之理、法、药为一体的数据集合,体现交叉错综的关联与对应。数据挖掘正是通过对数据特征、关系、聚类、趋向、偏差和特例现象的深层多维分析,来揭示数据间复杂和特殊的关系,发现其隐含的规则、模式和规律。本研究以《张仲景药对集》[1]、《中药药对大全》[2]中外感疾病相关的药对为数据源,利用SQL Server 2005建立数据挖掘模型,应用数据挖掘中的关联规则算法,对药对作“药物-药对-病证”对应关系进行分析。

1 数据挖掘与关联规则

数据挖掘(Data Mining)是用于开发信息资源的1种新的数据处理技术,主要用于海量数据的分析与研究。数据挖掘技术已被广泛地应用于经济管理以及社会生产的各个领域,并逐渐渗入到中医药研究领域中,取得了一定的阶段性成果。关联规则指描述数据之间存在关系的规则,是从给定的数据中,挖掘出事物特征之间满足一定支持度和置信度的关联现象[3]。关联规则相关术语如下:(1)项集:项集是1组值,每个项都是1个属性值。每个项集都有一个大小,该大小表示项集中包含的项的数目。如项集{葶苈子、麻黄/杏仁、咳嗽}的大小是3;(2)支持度:支持度用于度量1个项集的出现频率。最小支持度是1个阈值参数,必须在处理关联模型之前指定该参数;(3)概率:也称置信度,是关联规则的属性。最小概率是1个阈值参数,必须在运行算法之前指定该参数,它表示用户只对某些规则感兴趣,这些规则拥有比较高的概率;(4)重要性:重要性用于衡量项集和规则[4],重要性用下面的公式来定义:Importance({A,B})=probability(A,B)/(probability(A)×probability(B))。计算结果,如果importance=1,则表示 A和 B是2个独立的事件。如果importance<1,则 A和 B是负相关,它表示 A发生,B也不太可能发生。如果 importance>1,则A和B是正相关,表示A、B很有可能发生。

2 数据挖掘在外感疾病药对中的应用研究

2.1 数据准备

数据来源于《张仲景药对集》及《中药药对大全》,主要采用其中解表类、温里类、清热类、泻下类、祛湿类和止咳类药对。将筛选后的数据进行标化、量化、录入,并创建中药药对数据库,使之易于管理、分析与查询。

2.2 数据预处理

2.2.1 药名的预处理 《张仲景药对集》、《中药药对大全》中的数据几乎都是文字性的描述,需要作归类和数据属性数据化。书中药名几乎每1种药物都存在一物多名的情况,处理这一类药名的时候,根据《中药配伍应用》与《常用中药配伍与名方精要》两书进行规范化处理,统一药名。

2.2.2 用量的预处理 在《张仲景药对集》和《中药药对大全》中药物所用剂量基本上都是以“克”为单位做计算的,所以不存在单位转换的问题。在用量中如果是1个连续值的话,分2种方法转化;若剂量小于30g则取最大值;反之,取平均值。如白术用量为6g~15g,最大剂量小于30g,那么取最大剂量15g;绿豆用量为30g~70g,那么就用平均值(30+70)/2=50g。

2.3 数据转换

单味药物本身具有的属性包括功用、四性、五味、升降浮沉、归经和药物毒性等,为本数据取药物的基本属性,包括四性五味、归经和功用。

2.3.1 四性的数字化 表1显示,药物的四性包括寒、热、温、凉、平,如果药物具有相应的属性,就在相应的属性上编码为“1”,反之为“0”。如某药具有热性,则编码。

表1 药物四性表

2.3.2 五味的数字化 表2显示,药物的五味包括酸、苦、甘、辛、咸、淡、涩,如果药物具有相应的属性,就在相应的属性上编码为“1”,反之为“0”。如某药具有辛味,则编码。

表2 药物五味表

2.3.3 归经的数字化 表3显示,药物的归经包括肝、心、脾、肺、肾、胃、胆、大肠、小肠、膀胱、心包、三焦经等几类,如果药物具有相应的属性,就在相应的属性上编码“1”,反之为“0”。

表3 药物归经表

2.3.4 药物功效属类数字化 表4显示,将药物功效属类分为解表药、清热药、泻下药、祛湿药、温里药、理气药、消食药、止血药、活血化瘀药、化痰止咳平喘药、安神药、平肝息风药、补虚药、收涩药、杀虫药等共17大类,如果药物具有相应的属性,就在相应的属性上编码“1”,反之为“0”。

2.4 数据库的建立

2.4.1 属性表的建立 在数据库中建立了3个药物属性表,包括药物性味表、药物归经表、药物功用表。性味包括寒、热、温、凉、平、酸、苦、甘、辛、咸、淡、涩,归经包括肝、心、脾、肺、肾、胃、胆、大肠、小肠、膀胱、心包、三焦,功用表包括解表、清热等17种。这些属性表既是药物的基本属性,也作为药物数据挖掘的依据。

表4 药物功效属类表

2.4.2 事实表的建立 事实表中的事实是指描述1种物体的详细情况并能体现物体特征。事实表的建立可以发现物体之间的异同,也有利于信息的查询,主要有药对表(药对ID、药对组成、功效、主治等)、药物表(药物 ID、药物名、药物功能、用量(g)等)、药对-药物表(药对 ID、药物 ID、药对功用ID、病证 ID等)。

2.5 数据建模及数据展现

经过数据转换、数据录入、数据清洗,数据库正式完成并可以导入Microsoft SQL Server2005进行挖掘模型的创建。采用关联分析方法,试图预测药对-药物-病证三者之间的关系,发现频繁项集。(1)创建Analysis Services项目;(2)创建数据源和数据源视图;(3)选取关联规则算法,建立数据挖掘模型;(4)利用关联规则进行药对数据的挖掘。下面选取2个选项卡数据作为药对挖掘结果展示,其中项集是指该选项卡能显示被模型识别为经常发现一起出现项集的列表,网格中有“支持”、“大小”和“项集”项目,而规则是指该选项卡显示关联算法发现的规则。

选择药对-药物表为事例表,药物表和药对表作为嵌套表(见图2)。

①项集选项卡的数据,在此选择了其中之一作为数据展示(见图3);②规则选项卡数据,在此选择了部分数据展示(见图4)。

3 结果与分析

图2 挖掘模型

图3 项集选项卡

图4 规则选项卡

本文主要研究治疗伤寒疾病的药物-药对-病证之间的关系,利用 SQL Server 2005作为数据库,通过关联规则算法对伤寒疾病药对进行挖掘。笔者只选取了部分数据进行归纳分析如下。

3.1 药物药对关联规则挖掘结果及分析

表5显示,数据信息包括药物和药对关联规则、置信度和重要性,反映出药物与药对之间是可以互相预测的,具有双向关联。如“陈皮→麻黄/附子”与“麻黄/附子→陈皮”等,这些规则提示前者比后者更有用,可以理解为临床上若以陈皮治疗寒咳痰多,加入温阳平喘的药对麻黄/附子效果会更加好;若以麻黄/附子温阳平喘,加入陈皮增效的作用可能没那么显著,而要考虑与其他药物配伍。从表中还可以看出,有些药物与药对和药对与药物之间的关系具有相同的置信度和重要性,表明这些规则的可用性是一样的。如“竹叶→茵陈/栀子/大黄”与“茵陈/栀子/大黄→竹叶”等。

表5 项集大小为2的药物-药对关联规则表

3.2 药物-药对-病证关联规则挖掘结果及分析

在表6的各组合中,大部分是药物与药对之间是互相独立的,可以看成这些药物的重新组合对相关病证的治疗起到更好的协同或相反相成的作用,即组成一个新的药串。药串[5]是指相对固定的3味或3味以上的药物组合,作为中药配伍的独立单元,是针对一定病证,从历代医家用药经验中提炼出来行之有效的、符合一定的理论依据和法度的固定配伍。如表中的“葶苈子,麻黄/杏仁 → 咳嗽;细辛,麻黄/附子→感冒,水肿”等多数组合均属这种情况。麻黄、杏仁均有宣肺平喘之功,加入泻肺平喘、行水消肿之葶苈子作为组合,则对咳嗽痰多者疗效更佳。但对于“乌头,旋覆花/代赭石→呕逆,呕吐,咳嗽”这类组合,加入有回阳逐冷、祛风湿功效的乌头,从医理药理上很难解析其对呕逆、呕吐、咳嗽等症的治疗效果,故此时还要结合临床、古文献及现代中药药理研究来综合分析与行取舍挖掘的规律。

表6 项集大小为3的药物-药对-病证关联规则表

4 结语

本实验利用数据挖掘技术对中药药对进行研究,在一定程度上揭示了中药药对的应用特点,发现了一些新的用药规律及药物组合规律,如单味药与药对的对应关系,以及出现了一些新的药物配伍组合——“药串”,此将有助于指导临床科学用药,提高药对治疗的效果。笔者在挖掘过程中也发现,对挖掘出来的所有结果不一定都可用,此需结合临床、古文献及现代中药药理研究结果来综合分析,遵循“人机结合、以人为主”的原则进行取舍。目前所研究的“药物-药对-病证”关联分析方法较为简单,而中药药对、证、症、病等信息形成的多维关联关系的深入揭示,还需在今后工作中进一步研究。

[1]王玉芝,吕昌宝.张仲景药对集[M].长治:山西省晋东南医学专科学校,1984.

[2]胥庆华,中药药对大全[M].北京:中国中医药出版社,2001.

[3]李虹,蔡之华.关联规则在医疗数据分析中的应用[J].微机发展,2003,13(6):94.

[4]Jiawei Han,Micheline Kamber著,范明,孟小峰,译.数据挖掘概念与技术[M].2版.北京:机械工业出版社,2007.

[5]赵进喜,肖永华,傅强.吕仁和用药经验举隅[J].中医杂志,2009,50(4):300-301.

猜你喜欢
选项卡项集病证
基于病证结合的脾胃病湿热理论的创新与应用研究
侯氏黑散在糖尿病相关病证中的应用
基于太阳阳明经病证探讨颈椎病的防治规律
从病证结合角度探析亚急性甲状腺炎的治疗
禁用一切 优化无限
电脑爱好者(2018年4期)2018-03-02 15:38:00
关联规则中经典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一种频繁核心项集的快速挖掘算法
计算机工程(2014年6期)2014-02-28 01:26:12
Windows 8专栏
鼠标滚轮隐藏在IE浏览器中的快捷操作
一种新的改进Apriori算法*