基于频繁项集挖掘的零售医药企业药品关联研究

2019-02-11 05:33尚庆生王丽华
关键词:库存量项集阿莫西林

尚庆生 王丽华

(兰州财经大学信息工程学院, 兰州 730020)

连锁药店经营的各类药品差异性很大,其销售情况往往受季节特点、流行性疾病、风俗习惯等因素的影响。这就要求配送中心的库存也要随之作出改变,而药店某一时间段的药品销售量变化和库存量相互关联。购物篮分析是关联规则的一种典型应用,其研究初衷是,从海量的商品销售历史数据中发现顾客的购买习惯,了解顾客的购买行为,从而指导销售管理行为[1]。在本次研究中,主要考虑到销售订单内容与相关药品库存量等情况,通过挖掘频繁项集来挖掘各种药品之间的关联关系,并根据药品的库存信息来进行库存优化。

1 FP-Growth概述

Agrawal等人于1994年提出了基于挖掘关联规则的Apriori算法,韩家炜等人于2000年在此基础上发展并提出了FP-Growth算法[2-4]。FP-Growth算法是一种关联分析算法,可用于顾客购物篮数据分析,挖掘其中的关联规则。Apriori算法在应用中需要重复扫描数据库,产生大量的候选项目集,因此,搜索空间较大,挖掘效率不高。FP-Growth算法中使用了FP-tree(频率模式树)数据结构,在挖掘过程中无须生成候选项目集,只需扫描数据库2次即可,显著地缩小了搜索范围,提高了挖掘效率。在此,我们应用FP-Growth算法,对某零售药店的销售及库存数据进行分析挖掘。

2 基于FP-growth算法的零售药店药品数据分析

2.1 数据预处理与特征提取

数据预处理是指对原始数据中可能会影响数据分析结果的脏乱数据进行清洗、筛选和删除,从而提高数据的质量和分析结果的准确性[5]。

在实际应用中,原始数据大多为不完整或不一致的数据,无法直接用于数据挖掘。通过数据预处理技术可以很好地整理原数据,提高数据挖掘质量,其主要方法包括数据清洗、数据集成、数据转换等[6]。

(1) 数据清洗。根据问题的特殊性,将数据中的缺失值及零值删除;对于订单号中的异常值、非数值型的商品编号、经核实是错误编号的信息,根据真实的商品信息予以修正。

(2) 数据集成。将分析所需的销售数据和相关药品的库存信息在逻辑上集合成统一模式,以便快速完成算法的运行和分析。

(3) 数据转换。将药品详情数据转换成可用于挖掘的数据形式。

本次研究所选数据包括某医药零售连锁企业的销售数据、库存数据、药品详情数据,所用到的数据特征有药品编号、销售订单号、销售药品的名称、对应药品的库存量。由于系统中的数据为人工输入,难免有错漏,这时就需要对数据进行清洗,使数据能更好地融入模型。通过FP-Growth算法挖掘销量较高药品所在订单的频繁项集,根据药品之间的关联关系,并结合药品的库存情况进行组合促销。

提取部分客户交易原始记录,如表1所示。

表1 客户交易记录

2.2 数据分析

本次分析的主要目的是根据挖掘结果设计药品促销组合,暂时不考虑中药,只考虑成药。医药连锁企业品类繁多,如果要实现对每种药品的精确管理,就要分别设定每种药品的库存上下限,这样工作量会太过繁重。现在只考虑每种药品的剩余库存是否在安全库存的允许范围内,如果某种药品的剩余库存超出了安全库存的允许范围则对其予以优化。

库存警戒线,设定为采购时间内所需药品销售量与库存下限值的总和。库存上限的设定必须结合企业的实际销售情况,其正常范围一般是1个配送周期库存量的2 ~ 3倍。该零售连锁药店的药品并非定量配送,因此,以店里销量较高药品在5个配送周期内的平均配送量为参考,来判断现有剩余库存是否超过库存警戒线。上限判断参数设定为1个配送周期的2.5倍。以奥美拉唑肠溶胶囊为例,5个配送周期内的平均配送量为26.50件,即其安全的库存范围为66.25件,而剩余的库存量80件明显高于这个数值。因此,应对奥美拉唑肠溶胶囊的销售进行优化。

排除库存药品中的中药及不频繁项,统计销量较高药品及其库存信息,表2所示为部分数据。

表2 部分销量较高药品及其库存信息

针对库存量不在安全警戒线范围内,且又存在频繁项集里的药品进行频繁项集挖掘。为了加强数据挖掘结果的置信度,特设置minsup=0.02,minconf=0.50。运行FP-Growth算法,分析药品之间的关联性,挖掘有较强关联性的药品信息。部分匹配参数的挖掘结果如表3所示,其中阿莫西林胶囊的关联性最强。设置库存量较高的目标药品为“阿莫西林胶囊”,则关联文件包含“阿莫西林胶囊”的关联规则。

如表3所示,客户购买奥美拉唑肠溶胶囊的同时,购买阿莫西林胶囊的概率为58%。原因在于,奥美拉唑肠溶胶囊是一种治疗胃溃疡的药品,而阿莫西林胶囊属于抗生素类药品,可降低消化道溃疡的复发率。客户购买多潘立酮片的同时,购买阿莫西林胶囊的概率为50%。原因在于,多潘立酮片适用于由胃排空延缓、胃食道反流、食道炎引起的消化不良症,是一种胃肠促动药,而阿莫西林胶囊与其功效相关。同理,可分析其他药品与阿莫西林胶囊关联的原因。

表3 部分挖掘结果示例

按照挖掘结果,建议在售卖其他关联高销量药品时对近效期或超出库存安全线的阿莫西林胶囊进行搭配优惠促销,并合理安排关联药品的库存摆放位置。零售药品的促销也是吸引客户的重要手段之一,根据实时药品库存量变化和药品保质期等信息来安排零售药品的促销活动,可减少库存浪费,提升利润。

3 结 语

频繁项集挖掘和关联规则分析是数据挖掘中的简单知识模式。运用FP-Growth频繁项集挖掘算法可以有效地对药品销售信息进行挖掘分析,其挖掘结果可在一定程度上展现相关药品之间的关联性。在本次关联分析中以药品库存为参考,挖掘目标明确。可按照此挖掘结果,重新调整药品的摆放位置,策划相应的促销组合活动,减少库存积压成本,提升销售业绩。

猜你喜欢
库存量项集阿莫西林
国内大豆库存量攀升!6月豆粕价格能否走弱?
阿莫西林是好药,但只对这几种病有效
基于矩阵相乘的Apriori改进算法
不确定数据的约束频繁闭项集挖掘算法
阿莫西林与阿莫西林-克拉维酸钾不良反应的对比研究
阿莫西林联合两种质子泵抑制剂治疗胃溃疡的临床效果比较
国际橡胶研究组织公布全球天然橡胶库存量
2014年2月14日日本橡胶库存量增长4.1%
2014年2月马来西亚棕油库存量减少到166万t
阿莫西林克拉维酸钾片溶出度对比研究