基于数据挖掘的中药药斗摆放设计

2013-09-26 02:35伍海鹏兰乐霞刘红雄张红莲康洁伍海涛
中国合理用药探索 2013年10期
关键词:中药房频数数据挖掘

伍海鹏 兰乐霞 刘红雄 张红莲 康洁 伍海涛

(1冷水江市人民医院中药房,湖南娄底417500;2广州中医药大学临床药理研究所,广东广州510405)

药斗是盛装中药饮片的容器,为便于调剂工作,药斗架内存放饮片有一定的规律,称为斗谱。中药房每天最基本的工作就是中药调剂,基层医院尚不能完全实现独立小包装、颗粒剂等减轻工作量的制剂方式,绝大部分工作还是延续传统的手抓称量中药饮片,用药量多、调配任务量大、工作繁忙,合理的斗谱编排对于降低工作人员的劳动强度,避免发生差错事故有重要意义。

中药斗谱的编排多按处方需要、方剂组成、入药部位、药物性味、调配人员的习惯等原则进行,排列的科学性一直受到关注,有研究采用计算机对此进行了改进[1-4],或就其排列原则阐明了自己的看法[5]。对调配的操作进行分解后,可发现调配的流程主要由单人逐张按处方执行,调配耗时与单味药量的关系不大,但与处方中药物的种类直接相关。在不同区域药斗间反复走动是占用时间最多的步骤,如何减少这种重复走动是缩减工作时间的关键因素。使同一张处方中的不同中药集中在一个区域以方便抓取即可有效地解决这个问题。为此考虑单独每张处方含有中药的关联度(或聚集度)更合理。

数据挖掘是一个从海量数据中抽取挖掘出未知的、有价值的模式或规律等的复杂过程。其中的关联分析是从给定的数据集发现频繁出现的项集模式知识,广泛应用于市场营销、事务分析等领域。门诊中药房处方量大,每张处方包含信息量也多,适合应用数据挖掘原理进行关联分析。

基于上述考虑,本研究采用数据挖掘专用软件SPSS Clementine 12.0对我院门诊中药房的处方进行了统计分析,以期找出中药斗谱排列规律应用于实际工作。

1 资料与方法

1.1 资料来源

我院门诊中药房2009年11月 -2010年8月所有的中药调剂处方,采用整群随机抽样的方法,以天为单位抽样。随机数由Excel 2003随机函数产生,乘以30后取整数即为某月抽中的天数,抽中天的所有处方均纳入研究,共计2 052张。

1.2 方法

1.2.1 建立处方数据库 由于我院门诊中药房的管理软件不能完整导出处方数据,采用人工录入的方法,将处方按日期、医师、处方流水号、处方药物录入Excel表格中,双人核对,对单元格数据格式进行规范化后 (“1”代表处方中含有该中药,“0”代表不含有);导入 SPSS Clementine 12.0中建立处方数据库,数据类型为“标志”,字段输入方向为“两者”,建立节点和数据流。

1.2.2 建立筛选数据库 对所有纳入研究的处方按单味药物的使用频数进行统计,并计算其累计使用频数。从数据库去除使用频数低于30次以下的药物,建立筛选数据库。

1.2.3 绘制Web图 按支持度为0.5%、置信度为40%,对筛选数据库进行关联分析(在同一张处方中出现的中药相互间均为关联),绘出环形Web图(舍去300以下的链接,用线条粗细代表关联的强弱);对使用频数居前30位的中药分别作关联分析,绘制定向Web图。

2 结果

2.1 我院使用的中药药味数及使用频数统计

建立处方数据库后,统计显示共使用了229味中药,基本覆盖了药房的全部饮片药材。对药物使用的频数进行统计排序。使用频数前60位的中药见表1,其中使用频数最高的为甘草(1 924次),约93.76%的处方中含有,其频数约为排序第2位的黄芩(982次)的2倍。前30位中药使用频数总和占药物总使用频数的61.7%,前58位的中药使用频数总和占药物总使用频数的80.4%,表明绝大部分中药调剂工作与这些药有关。

表1 使用频数前60位的中药 (使用频数百分比,%)

2.2 筛选数据库重建及关联分析

第122~229位的中药累积使用频数在30次以下(平均每月使用<3次),认为这些中药的使用频数较低,即使与其他药有关联,其数据对分析的意义不大,为减少计算量,以使用频数第1~121位的中药重建筛选数据库(见图1),对其进行关联分析,得到链接>300的17味中药,依次为甘草、黄芩、玄参、板蓝根、苦杏仁、前胡、白前、旱半夏、山茱萸、浙贝母、丹参、黄芪、桔梗、川贝母、白芷、山楂、苏叶,与使用频数的排序基本一致。链接数>300的强关联药物具体分布见表2。

图1 前121位中药关联分析环形Web图

表2 强关联药物分布(链接数>300)

同时对使用频数1~30位的中药分别在筛选数据库中进行定向关联分析,以板蓝根为例,其定向关联图见图2。与板蓝根关联度大的药物依次为甘草、黄芩、玄参、苦杏仁、前胡、白前、浙贝母、旱半夏,分别得到和这些药物关联度较大的前8位中药,去除重复后合计41味。

3 讨论

图2 板蓝根定向关联图

既往的斗谱排列改良所应用的方法多为自编的计算机程序[1-2]或者利用Excel程序,但其表格的容积和计算量有限,并不适宜门诊中药房的大量处方统计;其计算原理大都基于药物的使用频数统计,相对合理的则利用模糊数学隶属函数进行计算[1-4],但未对调配过程进行更进一步的探索。数据挖掘技术常用于改进商品销售,也有用于药物摆放[6-7]的研究,但用于中药斗谱的研究尚未见报道。

本研究以关联度而非使用频数作为主要的统计变量,利用关联分析方法对大量处方进行分析。关联分析的计算量与处方量及每张处方中含有的药味成正比,门诊处方每月数以千计,中药处方的品种组合较多,无法按西药的系统疾病药物归类简化,大时间跨度的处方量完全进行数据挖掘分析对计算机硬件要求较高。为了适应现有的计算条件,又能不失真地反映门诊处方中隐含的特征,尽可能多地涵盖多个时间段,本研究采用整群随机抽样的方法对门诊处方以天为单位取样,确保了数据样本的代表性,较好地保留了处方中的关联度特征,又不会因处方量增加而使计算量激增。在计算过程中合理的舍弃了累积使用频数低于一定数目的药物,建立筛选数据库,进一步减少计算量,使关联分析工作得以在普通计算机上进行。由于关联分析的排序与使用频数有一定的关系,某些强关联的药物可能由于使用率较低而被软件漏掉,为此对单味药进行定向关联分析是整个数据库关联分析的必要补充。

本研究得到的使用频数最高的30味药,其组成有一定规律:多为清热解毒或滋补药物,表明在我院中医科就诊患者以中医内科疾病为主;对使用频数排列前121味药的关联分析显示其与使用频数排序基本一致,这与临床工作的经验相符。对其中每一味药的分别做定向关联计算,也体现了这一特征,定向关联得到41味常用中药均包含在使用频数前60味中药之内。把这41味药排列在药斗的最适位置,其相关药排列在周围,只需要变动不多的药斗位置,能较好地避免斗谱改良后员工的记忆紊乱;对此采用人机工程学原理对药斗的摆放位置、药柜高度、强关联的药物的分布进行了重新设计和布局,得到了较好的效果 (另文发表);对于使用频数最高的甘草,每日消耗量也大,采用大斗装药并多处设斗放置的方式较好地满足了其用量和频数的要求。

研究尝试采用GRI或Apriori算法建模进一步分析处方数据的规律,未获成功,仅作描述性图形分析。究其原因与数据库规模较大(2 052×229=469 908个),药物的种类多导致数据库的列数很多,显著增加关联计算量;单味药的使用记录在其中占的比例较小(最大使用频数的甘草也只占8.5%),其支持度很难满足建模要求。

传统的中医处方与标准药名存在一定差别,理想的斗谱对提高工作效率,改善中药调配速度有很大帮助,本研究仅从门诊中医处方的药物关联度进行统计分析,对组方的合理性未作更多的考究;基于医师个人的组方偏好,本研究得到的结论也不完全适合其他医院,但其应用数据挖掘原理处理药房数据,进行关联分析的模式可以推广;在此基础上更进一步地提取处方中含有的其他信息,也可以为药房的各种药事管理提供数据支持。

[1] 文亦兵,文洪宇,吕得屏.用模糊数学考查中药饮片斗谱的编排[J].中国药房,1997,8(6):288.

[2] 文洪宇,文亦兵.中药饮片斗谱的编排与考查[J].中国医院药学杂志,1999,19(l):60.

[3] 陈忠东,雷颂.中药斗谱编排的电子计算机辅助设计[J].中国药房 2007,18(12):950-952.

[4] 崔丽娟,朱立平.利用现代化手段科学编排中药斗谱[J].北京中医药,2011,30(6):463-465.

[5] 石江,杨建文,叶风.中药斗谱编排的合理性探讨[J].遵义医学院学报,2001,24(2):189-190.

[6] Tan PN,Steinbach M,Kumar V.数据挖掘导论[M].范明,范宏建,译.北京:人民邮电出版社,2011.

[7] 陈中标.基于鲁棒性分析的关联规则在大型药房中的应用[J].常州工学院学报,2010,23(2):48-52.

猜你喜欢
中药房频数数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
处方分析在中药房药学服务中的应用
中药房药师如何开展优质中药学服务
探讨人工智能与数据挖掘发展趋势
中药质量规范化管理在中药房管理中的应用价值
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
频数与频率:“统计学”的两个重要指标
中考频数分布直方图题型展示
软件工程领域中的异常数据挖掘算法
学习制作频数分布直方图三部曲