关联分析在中药斗谱编排中的应用

2012-11-30 02:33伍海鹏刘红雄兰乐霞张红莲
中国药房 2012年43期
关键词:中药房频数数据挖掘

伍海鹏,刘红雄,兰乐霞,康 洁,张红莲

(冷水江市人民医院中药房,湖南冷水江 417500)

关联分析在中药斗谱编排中的应用

伍海鹏*,刘红雄,兰乐霞,康 洁,张红莲

(冷水江市人民医院中药房,湖南冷水江 417500)

目的:找寻中医处方所含药物的关联规律,据此对药斗摆放进行合理规划。方法:选取我院中药房2009年11月至2010年8月共2 054张处方,采用数据挖掘软件SPSSClementine进行统计分析,找出药物的排列规律。结果:使用频数较高的为甘草、黄芩、玄参、板蓝根、苦杏仁等30味药,与这30味药关联度较大的有41味常用药;把这41味药排列在药斗的最适位置,其相关药在周围,可提高调剂效率。结论:使强关联的中药摆放在合适区域,可加快中药调配速度,提高劳动效率。

数据挖掘;关联分析;中药;斗谱

药斗是盛装中药饮片的容器,为了便于调剂工作,药斗架内存放饮片有一定的规律,称为“斗谱”。中药房每天最基本的工作是中药调剂,在基层医院,患者的经济状况决定了中药房的绝大部分工作还得延续传统的手抓称量方式来调配中药饮片,这使得中药房调配任务重、用药量多、工作繁忙。故合理的斗谱编排对于降低工作人员的劳动强度和提高劳动效率有重要意义,而且是避免发生差错的重要因素。

中药斗谱的编排多按处方需要、方剂组成、入药部位、药物性味、调配人员的习惯等原则进行。这种排列的科学性一直受到关注,有研究者采用计算机对此进行了改进[1~4],或就其排列原则阐明了自己的看法[5]。对调配的操作进行分解后,笔者发现调配的流程主要由单人逐张处方执行,调配耗用时间与单味药量的关系不大,但与处方中药物的种类直接相关。在不同区域药斗间反复走动是占用时间最多的步骤,如何减少这种重复走动是缩减工作时间的关键因素。使同一张处方中的不同药集中在一个区域以方便抓取,即可有效地解决这个问题。为此,需要考虑单独每张处方含有中药的关联度(或聚集度),以便更合理地进行斗谱排列。

数据挖掘(Data mining)是一个从海量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。其中的关联分析(Association analysis)是从给定的数据集发现频繁出现的项集模式知识,广泛用于市场营销、事务分析等应用领域。门诊中药房处方量大,每张处方包含信息量也多,适合于用应用数据挖掘原理进行关联分析。

基于上述考虑,笔者采用数据挖掘专用软件SPSSClementine(12.0版)对我院门诊中药房的处方进行了统计分析,以期找出其排列规律。

1 资料来源

调取我院门诊中药房2009年11月至2010年8月所有中药调剂处方,采用整群随机抽样的方法,以天为单位抽样。随机数由Excel随机函数发生(2003版),乘以30后取整数即为某月抽中的天数,抽中的当天所有处方均纳入研究。

2 方法

由于我院门诊中药房的管理软件不能完整导出处方数据,故采用人工录入的方法,将总计2 054张处方按日期、医师名、处方流水号、处方药物录入Excel表格中,双人核对,对其单元格数据格式进行规范化(“1”代表处方中含有该中药,“0”代表不含有)后导入SPSSClementine软件中建立处方数据库,数据类型为“标志”,字段输入方向为“两者”,建立节点和数据流。

对所有纳入研究的处方按单味药物的使用频数进行统计,并按频数排名次序计算其累积使用频数。从数据库去除使用频数低于30次以下的药物,建立筛选数据库。

按支持度为0.5%、置信度为40%,对筛选数据库进行关联分析(在同一张处方中出现的中药相互间均为关联),绘出环形Web图(舍去300以下的链接,用线条粗细代表关联的强弱);对频数排名前30味药物分别作关联分析,绘制定向Web图。

3 结果

采用整群随机抽样的方法获得2 054张处方,建立处方数据库后,统计共使用了229味中药,基本覆盖了药房的全部中药。对中药使用的频数进行统计排序后发现,使用频数最高的为甘草(1 924次),近93.8%的处方中含有它,其频数是排序第2位黄芩(982次)的2倍。使用频数排序前30味中药使用频数总和占药物总使用频数的61.7%,依次为甘草、黄芩、玄参、板蓝根、苦杏仁、前胡、白前、旱半夏、山茱萸、浙贝母、丹参、黄芪、桔梗、川贝母、白芷、山楂、紫苏叶、桑白皮、牛膝、黄柏、党参、金银花、麦芽、砂仁、生地黄、白芍、川芎、当归、黄连、荆芥。统计还显示,排名前58味的中药使用频数总和占药物总使用频数的80.4%,表明绝大部分中药调剂工作与这些药有关。

使用频数第122~225位的中药累积使用次数均在30次以下(平均每月使用<3次),可以认为这些药的使用频数较低,即使与其他药有关联,其数据对分析的意义不大。为减少计算量,对使用频数第1~121位的中药重建筛选数据库,对其进行关联分析(见图1),得到链接>300的17味中药,依次为甘草(GCO)、黄芩(HQG)、玄参(XSG)、板蓝根(BLG)、苦杏仁(KXR)、前胡(QHU)、白前(BQN)、旱半夏(HBX)、山茱萸(SZY)、浙贝母(ZBM)、丹参(DSG)、黄芪(HQI)、桔梗(JGG)、川贝母(JBI),白芷(BZI)、山楂(SZO)、紫苏叶(SYE),这与使用频数的排序基本一致(见表1)。同时对使用频数第1~30位的中药分别在筛选数据库中进行定向关联分析(例如与黄芪关联度大的药物依次为甘草(GCO)、山茱萸(SZY)、丹参(DSG)、党参(DAS)、山楂(SZO)、玄参(XSG)、黄柏(HBI),见图2),分别得到与这30味中药关联度较大的前8名药物,去重复后合计共41味药。

表1 强关联药物表(links>300)Tab 1 Herbswith strong correlation(links>300)

4 讨论

既往的斗谱排列改良所应用的方法多为自编的计算程序[1,2]或者利用微软 Office中的Excel程序[3,4],其表格的容积和计算量有限,并不适宜门诊中药房的大量处方统计;其计算原理大都基于药物的使用频数统计[3,4],相对合理的则利用模糊数学隶属函数进行计算[1,2],未对调配过程进行更进一步的探索。数据挖掘技术用于中药斗谱的研究尚未见报道。

本研究以关联度而非使用频数作为主要的统计变量,利用关联分析方法对大量处方进行分析。关联分析的计算量与处方量及每张处方中含有的药味成正比,门诊处方量每月数以千计,中药处方的品种组合较多,无法按化学药的系统疾病药物归类简化,大时间跨度的处方量完全进行数据挖掘分析对计算机硬件要求较高。为了适应现有的计算条件,尽可能多地涵盖多个时间段,本研究采用整群随机抽样的方法对门诊处方以天为单位取样,确保了数据样本的代表性,较好地保留了处方中的关联度特征,又不会因处方量增加而使计算量激增。在计算过程中合理地舍弃了累积使用频数低于一定数目的药物,建立筛选数据库,进一步减少了计算量,使关联分析工作得以在普通计算机上进行。由于关联分析的排序与使用频数有一定的关系,某些强关联的药物可能由于使用率较低而被软件漏掉,为此对单味药进行定向关联分析是整个数据库关联分析的必要补充。

本研究得到的使用频数最高的30味药,其组成有一定规律:多为清热解毒或滋补药物,表明在我院中医科就诊患者以中医内科疾病为主;对使用频数排列前121味药的关联分析显示其与使用频数排序基本一致,这与临床工作的经验相符。对其中每一味药分别做定向关联计算,也体现了这一特征:定向关联得到的41种常用药物均包含在使用频数前60名内。把这41味药排列在药斗的最适位置,其相关药在周围,只需要变动不多的药斗位置,就可较好地避免斗谱改良后员工的记忆紊乱;对此笔者还采用人机工程学原理对药斗的摆放位置、药柜高度、强关联药物的分布进行了重新设计和布局,得到了较好的效果(另文发表);对于使用频数最高的甘草,每日消耗量也大,采用大斗装药,并多处设斗放置的方式较好地满足了其用量和频数的要求。

本研究尝试采用GRI或Apriori算法建模进一步分析处方数据的规律,未获成功,仅作描述性的图形分析。究其原因与数据库规模较大(2 052×229=469 908个),药物的种类多导致数据库的列数很多,显著增加关联计算量,单味药的使用记录在其中占的比例较小(最大使用频数的甘草也只占8.5%),其支持度很难满足建模要求有关。

本研究仅从门诊中医处方的药物关联度进行统计分析,对组方的合理性未作更多的考究;基于医师个人的组方偏好,本研究得到的结论也不完全适合其他医院,但其应用数据挖掘原理处理药房数据、进行关联分析的模式可以借鉴。在此基础上更进一步地提取处方中含有的其他信息,也可以为药房的各种药事管理提供数据支持。

(致谢:感谢广州中医药大学临床药理研究所伍海涛老师的指导!)

[1] 文亦兵,文洪宇,吕得屏.用模糊数学考查中药饮片斗谱的编排[J].中国药房,1997,8(6):288.

[2] 文洪宇,文亦兵.中药饮片斗谱的编排与考查[J].中国医院药学杂志,1999,19(1):60.

[3] 陈忠东,雷 颂.中药斗谱编排的电子计算机辅助设计[J].中国药房,2007,18(12):950.

[4] 崔丽娟,朱立平.利用现代化手段科学编排中药斗谱[J].北京中医药,2011,30(6):463.

[5] 石 江,杨建文,叶 风.中药斗谱编排的合理性探讨[J].遵义医学院学报,2001,24(2):189.

Application of Association Analysisin Arrangement of Drawer Position of Traditional Chinese Medicine

WU Hai-peng,LIU Hong-xiong,LAN Le-xia,KANG Jie,ZHANG Hong-lian
(TCM Pharmacy,Lengshuijiang Municipal People’s Hospital,Hunan Lengshuijiang 417500,China)

OBJECTIVE:To look for the association rule of herbs in TCM prescription so as to arrange the position of drawers.METHODS:2 054 prescriptions collected from TCM pharmacy of our hospital during Nov.2009-Aug.2010 were analyzed statistically by using SPSS Clementine software to find out the regularity of herb arrangement.RESULTS:Herbs occupying the top place of frequency were Glycyrrhizae Radix et Rhizoma,Scutellaria baicalensis,Scrophularia ningpoensis,Isatis indigotica,Armeniacae Semen Amarum and other 30 herbs.41 commonly used herbs were closely associated with them;the 41 commonly used herbs were arranged in the suitable position of drawers and surrounded by relevant herbs to improve dispensing efficiency greatly.CONCLUSION:Herbs with close correlation should be placed at suitable position to accelerate dispensing of TCM and improve labor efficiency.

Data mining;Association analysis;Traditional Chinese medicine;Drawer position

R282;R942

B

1001-0408(2012)43-4120-03

DOI 10.6039/j.issn.1001-0408.2012.43.35

2011-11-23

2012-01-09)

*博士研究生。研究方向:药物政策、中药监管。电话:024-23595055。E-mail:fangfang1119@126.com

#通讯作者:教授,研究员。研究方向:社会药学。E-mail:h5831@yahoo.cn

猜你喜欢
中药房频数数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
处方分析在中药房药学服务中的应用
中药房药师如何开展优质中药学服务
探讨人工智能与数据挖掘发展趋势
中药质量规范化管理在中药房管理中的应用价值
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
中考频数分布直方图题型展示
软件工程领域中的异常数据挖掘算法
学习制作频数分布直方图三部曲
频数和频率