门诊处方药物关联的数据挖掘

2011-11-22 01:30杨樟卫陈盛新陈长虹何宇涛黄晓钟
药学实践杂志 2011年2期
关键词:置信度抗菌处方

傅 翔,杨樟卫,陈盛新,陈长虹,何宇涛,黄晓钟

(1. 第二军医大学药学院药事管理学教研室,上海 200433;2.长海医院药学部,上海 200433;3.长海医院信息科,上海 200433)

·药事管理·

门诊处方药物关联的数据挖掘

傅 翔1,杨樟卫2,陈盛新1,陈长虹3,何宇涛3,黄晓钟3

(1. 第二军医大学药学院药事管理学教研室,上海 200433;2.长海医院药学部,上海 200433;3.长海医院信息科,上海 200433)

目的对某医院门诊处方数据进行分析,挖掘处方中药物的关联规则,揭示处方模式,发现问题。方法应用数据挖掘软件PASW®Modeler 13,建立Apriori关联分析模型。结果在抽样获得的47 132张处方中,防治心血管等慢性疾病药物使用最为频繁;祛痰药、镇咳药、清热解毒中成药等与头孢菌素类抗菌药有较为明显的关联。结论数据挖掘技术能较快速地处理和分析处方数据,反映处方模式,适用于当前药物利用研究中对大量数据的分析。

处方;关联;数据挖掘

1 研究背景

药物不合理使用引起的医疗资源浪费和不良事件是监管部门、医疗机构和病患共同关注的问题。抗菌药物是临床应用最广泛的药物之一,抗菌药物大量使用导致的细菌耐药性已成为当今乃至未来人类健康面对的巨大威胁。中国是抗菌药物使用大国,也是世界上使用抗菌药物问题最严重的国家之一,据2006~2007年度卫生部全国细菌耐药监测结果[1],全国医院抗菌药物年使用率高达74%,每年因抗菌药物不合理使用造成8万人死亡;住院的感染患者中,因耐药菌感染的病死率为11.7%,而普通感染的病死率为5.4%。为加强抗菌药物的使用和管理,卫生部分别于2004年和2009年颁布了《抗菌药物临床应用指导原则》和《关于进一步加强抗菌药临床应用管理的通知》。1993 年世界卫生组织基本药物行动委员会(WHO/ DAP) 与合理用药国际网络(INRUD)合作编写了主要适用于第三世界的《医疗单位合理用药调研方法与评价指标》(SDUIs)[2],其中的处方指标中也包含了有关抗菌药物的使用比例等要求。

80%的抗菌药治疗出现在初级医疗机构的门诊处方中[3],因此,对门诊处方模式进行调查、分析和干预,是促进抗菌药物合理使用的重要策略和途径。当前,医院信息系统(HIS)的推广为开展处方模式的调查分析提供了数据基础,如能利用基于数据库的数据挖掘(data mining)技术,提取隐含在大量处方中的、事先不知道的、但又潜在有用的信息和知识,能帮助分析人员寻找原先未知的关系和关联,发现被忽略的要素,为预测趋势和辅助决策提供十分有用的信息[4]。

2 研究目的

本研究应用数据挖掘软件PASW®Modeler 13,对医院门诊处方数据进行数据处理和分析;建立Apriori关联分析模型挖掘门诊处方中,全身性抗菌药物与其他药物间关联规则;揭示处方模式,发现问题,为制定针对性的干预措施提供依据。

3 数据及方法

3.1数据的抽样和预处理 研究数据来源于某军队三甲医院信息管理系统2009年门诊处方及门诊病人信息。按系统抽样的原理从数据库中,按每隔30 d提取1 d处方数据,共12 d处方。除了就诊日期、处方号,还包括病人(编号、性别、费别、出生日期)、医生(编号、科室)、药品(代码、名称、规格、单位、数量、金额)等字段。为保护病人隐私,对病人的姓名等身份信息不予采集。

利用PASW®Modeler软件进行数据处理。合并12 d的数据,定义字段类型。为提高分析的效率, 尤其是为获得数据挖掘有效计算阈值,按照世界卫生组织药物统计方法学合作中心制定的“药品解剖学治疗学化学(ATC)分类”[5], 将处方中每一项药品通用名按ATC分类中的第3层次编码进行归类,例如氨苄西林,代码为“J01C”。中成药分类按国家基本药物的分类层次,借鉴ATC规则进行编码。将处方按是否包含全身性抗菌药物分为两类,分别对相关病人的人口统计学特征进行描述性分析。

3.2利用Apriori算法挖掘关联规则

3.2.1关联规则基础[6]数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联规则(association rule)是寻找在同一事件中出现不同项的相关性。

关联规则是形如X⟹Y的逻辑蕴含式,其中任一X⊆Ⅰ,Y⊆Ⅰ,X∩Y=Φ,X称为前项,Y称为后项。表示“如果X成立,则Y成立”。关联分析中的三个重要的概念为支持度、置信度、提升度。

支持度(support):指的是事务中包含X的百分比,支持度低的规则很可能是偶然现象;

置信度(confidence):包含X的事务同时也包含Y的百分比, 即confidence(X⟹Y)=support(X∪Y)/support(X);置信度反映发现规则的确定性,置信度越高,则Y出现在包含X的事务中的概率越高;

提升度(lift):lift(X⟹Y)=confidence(X⟹Y)/support(Y)lift=1时表示X和Y独立。这个数越大(>1),越表明X和Y存在于同一事务中不是偶然现象,X的出现对Y出现的可能性影响越大。

3.2.2关联规则Apriori算法[7,8]Apriori算法是最为经典的关联规则挖掘算法,由R.Agrawal和R.Srikant于1994年提出,采用两阶段挖掘的思想,并且基于多次扫描事务数据库来执行,是挖掘单维布尔型关联规则频繁项目集的有效算法。

同时满足指定的最小支持度 (minsup)和最小置信度阈值(minconf)的规则称作强关联规则(strong association rule)。关联规则挖掘的任务就是在事务数据库中找出具有用户给定的最小支持度和最小置信度的强关联规则,因此求解关联规则的问题可以分解成两个步骤:①找出数据集中所有大于最小支持度的频繁项目集( fre-quent item set);②根据频繁项目集和最小置信度阈值产生关联规则 (图1) 。

图1 关联规则挖掘的基本模型图

3.2.3数据挖掘建模 选用数据挖掘软件PASW®Modeler中的“Apriori节点”建模,通过逐步提高最小支持度和最小置信度阈值,缩减规则的数量。本研究最终选择最小支持度1.5%和最小置信度20%,进而对获得的规则进行过滤(规则“约束”),最后得到如“药品类别1或(药品类别1+药品类别2)或…⟹抗菌药物”的关联规则。

4 研究结果

4.1通过抽样,共得到门诊处方47 132张作为分析的样本,共包含药品101 284项。包含全身性抗菌药物项的处方为5 132张,未包含全身性抗菌药物项的处方42 000张,分别占处方数的10.89%和89.11%。经PASW®Modeler相关节点进行数据处理,将两类处方基本情况汇总(表1),单张药品处方平均药品项数分别为2.816项和2.067项;病人平均年龄分别为49.23岁和57.85岁;两类处方病人性别和支付费别间分布也存在差异。

4.247 132张门诊处方中,共包含药品1 001种,按第3层ATC码分类,共222类;使用频率(该类药品总项数)居前20位的药品类别占了全部药品项数的近50%(见表2),包含这些药物的处方数排序与药品项数排序基本一致。排名靠前的主要为抗血栓药(B01A),钙通道阻滞剂(C08C),降血脂药(C10A),血管紧张素II拮抗剂(C09C),口服降血糖药(A10B)等主要针对“高血压、高血脂、高血糖”等慢性疾病的药物。网络图显示处方中不同类药品之间关系的紧密程度(图2),线条越粗代表关联越强,可见强关联的药物集中在上述几类药物。表2中属于抗菌药物的只有1类,为“其他β内酰胺类抗菌药(主要是头孢菌素类)” ,占全部项数的2.63%,排8位(处方数第6位),与其他药物的关联属于中等强度。

表1 47 132张门诊处方基本情况

1)两类处方平均药品项数有差异,F=2 033.744,P<0.001,单因素ANOVA; 病人平均年龄有差异,F=1 012.284,P<0.001,单因素ANOVA;2)两类处方病人性别有差异,χ2=10.72, df=1,P=0.001;病人费别有差异,χ2=1 156.627, df=2,P<0.001 (不明或空缺未列入统计)

表2 47 132张门诊处方中出现频率前20位药品类别(按ATC分类)

图2 47 132张门诊处方中排名前20类药物关联图

4.3155类药在处方中的项数在100(按所有处方药品总项数的0.1%)以上,占全部药品项目数的97.54%。为提高数据挖掘的效率,选择这155类药品的数据进行关联规则的挖掘。利用“Apriori节点”建模,选择最小支持度1.5%和最小置信度20%。共获得规则37条,结果如图3所示。因本次研究主要分析处方中抗菌药物的关联模式,故对37条规则进行过滤操作,得到后项(结果)为抗菌药物的规则共5条。

图3 PASW® Modeler 13挖掘门诊处方药物关联规则汇总

表3为按置信度由高到低排序的后项(结果)为抗菌药物的门诊处方药物关联规则。可见,在本研究的门诊处方中,祛痰药(单方)、祛痰与镇咳复方药、清热解毒中成药、其他感冒复方药和其他治疗药(主要为自制制剂“感冒安颗粒”)与“其他β内酰胺类抗菌药(主要为头孢菌素类)”存在着较为明显的关联。以关联规则1为例,具体解释为,全部处方的1.53%,即710张处方中存在“祛痰药”;在这710张处方中,又有29.86%的处方同时包含“其他β内酰胺类抗菌药”,且这两类药是正相关的,“祛痰药”会增加“抗菌药”的使用。

表3 门诊处方中抗菌药物与其他药物间的关联规则

注:药物按WHO的ATC的第三层次分类

5 讨论

5.1药物利用分析人员的工作重点已从数据获取转为对数据的清洗整合,以及对分析维度和分析方法进行探索和创新。门诊处方是包含门诊病人用药信息的重要数据形式,与住院病人的诊疗信息相比,门诊处方数据维度相对简单,预处理更为便捷。与国内以往药物利用研究的方法不同,本研究尝试运用数据挖掘的软件,对样本医院门诊处方数据进行处理和分析,并对处方中药物间关联进行挖掘。实践证明,能较快速地处理和分析数据,如实反映重点关注的药物,如抗菌药物的处方模式;尤其适用于对“大量”数据的分析和“少量”问题的发现。

5.2关联规则数据挖掘原先在商业领域被广泛应用,但在药物利用研究领域中的应用尚少见。与其他挖掘技术,如预测分析相比,关联规则算法的优点在于能发现数据库任何属性之间存在的关联,且并不需要清楚其中的关联函数;虽然对于海量数据,运行时间较长,但随着计算机硬件的发展,在较大的搜索空间中也能快速查找规则;值得一提的是,即便对于并非数据分析的卫生专业人员,也能较容易地理解其概念和原理。当然,除了对处方模式的分析,关联规则挖掘的关联性规则还有助于门诊药房药品货位的合理布置,提高药师配方的效率。

5.3本研究在对药品数据的预处理上,按照ATC分类,对药品数据整合,避免以药品个体,而是以药物类别的角度分析,提高了数据的处理效率和结果集中度;适合国内用药环境中“药品种类多,同类药多”的特点,使原先可能较为分散和不明显的用药模式得以集中和体现。在对关联规则的挖掘中,具体表现为“规则支持度”增加,使研究人员能够提高挖掘软件的阈值,避免偶然性对分析结果的干扰。

5.4对样本医院门诊处方的分析结果表明,该院门诊处方中,针对“高血压、高血脂、高血糖”等慢性疾病的药物是使用最广泛的药物,由于使用这些药物的,大多为中老年病人,造成有无抗菌药物的处方组之间病人年龄的差异;另外,这些中老年病人,大部分属于地方医保,定期在门诊开药,引起无抗菌药处方组中,医保病人比例增加。β内酰胺类抗菌药(主要为头孢菌素类)是该门诊使用较为频繁的抗菌药物;祛痰药(单方)、祛痰与镇咳复方药、清热解毒中成药、其他感冒复方药与抗菌药物有着明显关联,即当处方中出现这几类药物时,都会增加抗菌药物的使用;由于这几类药均与治疗上呼吸道症状有关,提示在门诊药物治疗上呼吸道感染疾病(感冒)时,仍然习惯性地使用抗菌药物。一般而言,感冒大多因病毒引起,因此,虽然从总体而言,抗菌药物在该院门诊的使用率不高,但仍有干预和规范的必要。

5.5本研究在数据采集时,发现门诊处方诊断项的填写不够规范,因此未用疾病诊断信息对发现的规则在医学上的合理性进行解释和评价;由于重点不在于预测,在建模过程中,未采用验证数据进行评估。数据的完整性、规范性以及对数据的理解是数据挖掘和分析的基础。数据挖掘阶段发现出来的“模式”,最好经过评估,以剔除冗余或无关的,甚至重新选取数据、采用新的数据变换方法、设定新的参数值等。因此,如何更好地在药物利用数据分析中运用数据挖掘这一技术,有待进一步的探索。

[1] 滥用抗生素催生“超级细菌”[EB/OL].http://discover.news.163.com/special/00014INC/superbug.html.

[2] 屈 建.医院药学中的合理用药[J].药学服务与研究,2004,4(1):5.

[3] Wise R, Hart T,Cars O,etal. Antimicrobial resistance: is a major threat to public health[J].BMJ,1998,17:609.

[4] 傅 翔,陈盛新,杨樟卫. 数据挖掘在合理用药信息分析中的应用[J].药学实践杂志,2009,27(6):411.

[5] WHO药物统计方法学合作中心. 药品的解剖学治疗学化学分类索引及规定日剂量[M].北京:中国协和医科大学出版社, 2003,4.

[6] 元昌安.数据挖掘原理与SPSS Clementine应用宝典[M].北京:电子工业出版社, 2009,8.

[7] 邵 峰,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社, 2003.

[8] 韩家炜,堪博(Kam ber,M.).数据挖掘概念与技术[M].北京:机械工业出版社, 2008,6.

2010-12-27

[修回日期] 2011-01-07

Dataminingtheassociationrulesinoutpatientserviceprescriptions

FU Xiang1, YANG Zhang-wei2, CHEN Sheng-xin1, CHEN Chang-hong3, HE Yu-tao3, HUANG Xiao-zhong3

(1.Department of Pharmacy Administration, School of Pharmacy, SMMU, Shanghai 200433,China;2.Department of Pharmacy, Changhai Hospital, Shanghai 200433,China;3. Department of Information, Changhai Hospital, Shanghai 200433,China)

ObjectiveTo mine the association rules in and to identify the patterns of the prescription.MethodsPASW Modeler 13 was applied to establish Apriori model and analyze the data.ResultsIn 47 132 prescriptions, the drugs for prophylaxis and treatment of some chronic disease were present frequently. Expectorants, cough suppressants and prepared Chinese medicine for “Qing Re Jie Du” played dominant roles in the associations with cephalosporins.ConclusionThe data mining technique was able to process and analyze prescription data effectively, which will be widely applicable to drug utilization research.

prescription; association; data-mining

上海市重点学科建设项目资助(B907).

傅 翔(1972-),男,博士研究生. E-mail:fqj2000@hotmail.com.

陈盛新.E-mail:sxchen@smmu.edu.cn.

R95

A

1006-0111(2011)02-0131-05

猜你喜欢
置信度抗菌处方
什么是抗菌药物?
基于数据置信度衰减的多传感器区间估计融合方法
一种基于定位置信度预测的二阶段目标检测方法
竹纤维织物抗菌研究进展
人间处方
卫健委新规:药师将审核医生处方
校核、验证与确认在红外辐射特性测量中的应用
祝您健康处方(8)烧心、反胃
祝您健康处方(7)心悸、过早搏动