摘 要 采用数据挖掘技术中的Apriori算法,对购物篮进行关联规则的分析。本文首先介绍了关联规则算法的基本概念,然后运用R软件中arules包中的函数Apriori对选取的数据进行分析,找到商品之间的关联,并根据模型结果给商场提出销售建议,提高商场的竞争力。
关键词 数据挖掘;Apriori算法;R软件
引言
随着科学技术的不断发展 ,各个行业都产生了大量的各种形式的数据。这些数据看起来复杂抽象,好像无任何规律,但是如果对数据进行分析,会发现其背后隐藏着很多有价值的重要信息,因此数据挖掘应运而生。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程[1]。
购物篮分析是零售行业最关注、最具有挑战性的问题。本文应用关联规则算法对顾客购买商品的种类、消费金额以及整个卖场的销售数据进行分析,从而得到顾客的消费特征,这些特征包括顾客对商品的喜好、消费能力、品牌忠诚度以及潜在的消费需求,并根据这些特征制定行之有效的方案。
1关联规则算法
1.1 关联规则算法的相关概念
关联规则的支持度和置信度是用于度量关联规则强度的两个指标。
支持度表示A和B同时发生的概率,如式(1)所示。
置信度为A发生的条件下B发生的概率。提升度是A发生的条件下B发生的概率和B无条件下发生的概率之比。若lift>1,则说明A对B 具有提升作用;若lift<1,则作用相反。
设I={i1,i2…i3}是二进制的集合,表示的是购物篮中商品的类别数为,其中每类商品称为项。项的集合称为项集,包含k项的集合为k-项集[2],其中()。每个项集都是的子集,项集的频率等于所有包含此项集的购物篮个数与购物篮总数之比,它被称为支持度。若项集的支持度大于或是等于预先规定的最小支持度的阈值,则此项集为频繁项集,含有k项的频繁项集记为Lk[1]。
1.2 Apriori算法步骤
假设共十个购物篮:{a,c,e},{b,d},{b,c},{a,b,c,d},{a,b},{b,c},{a,b},{a,b,c,e},{a,b,c},{a,c,e},运用Apriori算法步骤如下:
步骤一:确定最小支持度为0.2,最小置信度为0.5;
步骤二:确定I={a,b,c,d,e},以每样商品为一项得到候选一项集的集合C1,根据式(1)计算每项的支持度,扫描C1,如果商品的支持度小于0.2,则删除,得到一项频繁项集L1;
步骤三:L1和L1连接得到候选2项集C2,这步称为连枝。然后计算C2中每项的支持度,然后是剪枝,如果支持度小于0.2,则删除。频繁项集还有一项要求是:频繁项集的子集也必须是频繁项集。根据这两条原则得到二项频繁项集L2;
步骤四:L1和L2连接得到候选3项集C3,再扫描所有事务集,计算C3中每项的支持度,然后剪枝,得到三项频繁项集L3;
步骤五:以此类推L1和L3连接得到候选项集C4,再计算支持度,得到最终的频繁项集;
步骤六:应用R软件求解,得到关联规则。
2应用Apriori算法分析购物篮
某大型超市存储了一段时间的购物篮数据,共包括4835个购物篮的数据,售出商品总数为22309件,包括168种不同的商品。首先应用R软件对商品的销售情况排序,全脂牛奶销量最高,销量为1278件,占比约为5.7%,其次为面包卷销量为972,占比约为4.4%等。前20种商品的销量占比约为50%,基本符合“二八原则”。通过对商品占比的分析,可以确定那些商品为主力商品,那些为辅助商品,初步确定商品的摆放顺序。
R语言中的arules包中的函数apriori可以对数据集进行关联规则分析,经过多次分析,发现运用Aprior算法,当最小支持度取0.02,最小置信度取0.35时得到的关联规则数目适中,结果良好。已提升度从高到低排列的前5条规则如表1所示,
通过关联规则分析,我们可以知道顾客在购买其他商品时会购买全脂牛奶,其次是购买其他蔬菜,这也和我们分析的热销商品相符合。因此,超市应该把这些热销商品放在顾客购买商品的必经之路,或是商场的中心位置,方便顾客购买。通过关联规则还可以知道顾客会同时购买猪肉、根茎类蔬菜、其他蔬菜、蛋类等的可能性较高,因此这些物品应当放的位置比较接近,或是捆绑销售,这样方便了顾客,提升顾客的购物体验,也会提高顾客对超市的忠诚度。
3结束语
随着计算机技术和机器学习技术的不断发展,数据挖掘技术有着广阔的发展前景。关联规则分析除了可以对购物篮进行分析,还可以应用到银行客户行为分析、学生成绩关联分析、试卷知识点关联分析、医疗保险分析等。随着电子商务的发展,关联规則技术还被应用到电商平台,根据客户以往的购买记录,分析他可能感兴趣的商品。它还可以和其他的算法相结合运用,比如协同过滤算法 ,两者结合,就可以向顾客推荐他们可能感兴趣的商品。随着对关联规则认识的不断加深,我们可以将更多的因素融入其中,来拓展关联规则的应用广度,让其为更多的领域提供决策支持。
参考文献
[1] 韩宝国,张良均.R语言商务数据分析实战[M].北京:人民邮电出版社,2018:109.
[2] 李毅.基于Apriori算法的试卷知识点关联分析[J].新校园,2018(7):52.
作者简介
司凤娟(1979-),女,山东菏泽人;学历:硕士,职称:讲师,现就职单位:菏泽学院,研究方向:概率论与数理统计。