基于 APRIORI 算法的某品牌化妆品之间关联分析

2020-09-10 07:22谭凯波周静

天府数学 2020年3期

谭凯波周静

摘要：随着社会的不断发展，化妆品成为现代女性不可或缺的必需品，掌握顾客消费习惯，是提升销售策略的重要方法和手段。基于此，本文对关联规则算法（Apriori）算法的相关定义及其原理进行了剖析，并以某网店交易数据为例，利用关联规则算法（Apriori）分析了各种化妆品之间的强关联关系，为化妆品销售提供了决策参考。

关键词：化妆品;Apriori算法;关联规则;消费习惯

1 引言

近年来，随着生活物质水平的不断提高，人们对生活的追求越来越高，尤其在当代很多女性为追求时代潮流开始频繁的使用化妆品。线上线下的化妆品店的出现，生成了大量的销售交易数据。对这些数据进行了解分析，可以找寻其中的强关联关系，进而掌握顾客消费习惯，提升销售策略。

2 关联规则与Apriori算法

关联规则分析算法（Apriori）的主要功能是挖掘所有支持度和置信度分别大于等于预定的最小支持度（Min-Support）和最小可信度（Min-Confidence）的关联关系。从而描述了一个事物中某些属性同时出现的规律和模式。

2.1 相关定义

关联规则分析算法（Apriori）又称为关联规则学习，是指在大规模数据集中寻找数据之间的关联规则。相关定义说明如下：

（1）项集

包含事物的集合称为项集，包含k个项的项集称为k-项集。

（2）支持度与置信度

支持度和置信度是用来量化关联分析是否成功的两个指标。支持度是数据集中某项记录所占的比例。置信度是针对一条具体的关联规则来定义的，表示包含A事务中同时包含B事务的比例，即同时包含A和B的事务占包含A事务的比例[1]。其计算公式分别为：

（3）频繁项集

频繁项集是经常出现在一起的事物的集合，只要某个项集的支持度大于给定的阈值，那么该项集称作频繁项集。

（4）关联规则

关联规则是表示两种物品之间存在的联系，大于或等于最小支持度阈值和最小置信度阈值的规则叫做强关联规则。找出强关联规则是关联分析的最终目标。

2.2 Apriori算法原理

Agrawal在1993年设计了一个基本Apriori算法并提出了挖掘关联规则的一个重要的基于两阶段频集思想的方法，这是最典型的层次算法，是布尔关联规则挖掘算法中最成功的一类算法。其核心技术为其它各类布尔关联规则挖掘算法所广泛采用[2]。

Apriori算法是将关联规则挖掘算法的设计分解为两个子问题：

①所有支持度大于所设定最小支持度的项集（Itemset），这些项集被称为频集（Frequent Itemset）。

②使用第1步找到的频集产生期望的规则。Apriori算法是一种宽度优先算法，通过对数据库D的多次扫描来发现所有的频繁项目集。在每一次扫描中只考虑具有同一长度k （即项目集中所含项目的个数）的所有项目集。

在第1次扫描中Apriori算法计算D中所有单个项目的支持度，生成所有长度为1的频繁项目集L1。在后续扫描的第k次中，首先以前一次扫描中所发现的所有频繁项目集为基础，生成所有新的候选项目集（Candidate Itemsets）即潜在的频繁项目集，然后扫描数据库D，计算这些候选项目集的支持度，最后确定候选项目集中哪一些真正成为频繁项目集Ck。如此循环下去，一直重复上述过程直到再也发现不了新的频繁项目集[3]。Apriori的具体计算过程如下：

①在数据库集D中扫描所有记录，找出频繁1项集的集合，记作L1

②其次在L1中找出频繁2项集的集合，记作L2

③在L2中找出频繁3项集的集合，记作L3

④如此下去，直到不能找到频繁k-项集。

3 实例分析

随着人们生活水平的提高，女性对化妆品的选购通道不仅仅只在实体店中购买还可以利用网上购物，网络化妆品经销商对于销售产品的越来越受到关注。利用网络数据进行关联规则分析，可以掌握女性顾客关于化妆品的消费习惯，从而提升销售策略。

3.1 化妆品数据收集

本文从淘宝网站上获取国内某知名品牌化妆品的用户购买清单，经过随机抽样选取十条交易记录作为分析对象。其交易数据如下表1所示

表1中，TID是一个唯一的标识，数据库中的每一条交易记录称为一笔事务。每条交易记录对应的商品显示为“1”表示这笔交易购买了该商品，否则显示为0。如表1中所示，在TID等于1的事务中，顾客购买了精华露、清莹露和精华霜。

3.2 基于Apriori算法的挖掘过程

下面用实例展示利用Apriori算法对交易数据进行挖掘，从而发现关联规则的过程。定义数据集{D}={精华露，清莹露，洗面乳，隔離乳，精华霜，化妆水}，设置最小支持度minsup=0.4，设置最小置信度minconf=0.9，由Apriori算法在数据集{D}中确定的频繁1-项集如下表2所示：

同理可得，根据表2中的频繁1-项集，寻找满足最小支持度（minsup）要求的频繁2-项集、频繁3-项集，将没有达到最小支持度的舍去，其结果分别如表3、表4所示。

基于频繁3-项集，生成的候选4-项集为空集，则频繁4-项集为空，算法停止。

3.3 关联规则结果

由表4可知，l1， l2， l5满足最小支持度（minsup=0.4）的要求，关联关系存在。故剔除其余指标，只保留l1和l2， l5间的相互影响关系。筛选出最小支持度α=0.4的关联规则，然后设置最小置信度为0.9，确定强关联规则。各指标间的关联规则如表5所示。

从表5中可以发现有3组关联规则置信度均为100%，符合最小置信度（minconf=0.9）的要求，分别为：{ l1（精华露）， l2（清莹露）， l5（精华霜）}，{ l1（精华露）， l5（精华霜）}，{ l2（清莹露）， l5（精华霜）}

4 结果讨论分析

从以上强关联规则中可以初步的得出简略结论。

①首先从规则l1∩l2=>l5可以得出，顾客只要选购了精华露和清莹露的就一定会够购买精华霜。

②然后，从规则l1=>l5可以得出，顾客选购了精华露的就一定会选购精华霜。

③其次，从规则l2=>l5可以得出，顾客选购了清莹露的就一定会选购精华霜。

根据以上的关联规则，可以运用到具体销售实践当中去，以便掌握顾客消费习惯，提升销售策略。例如，为提升该店的销售额，可以针对分析中关联性很强的商品，如将精华露、清莹露和精华霜进行捆绑销售。针对其它关联性的商品，可在节假日实行促销等活动。

5 结语

本文对淘宝某化妆品网店的交易数据进行简单的随机抽取，抽取的样本为10个，如果抽取的样本更大，数据更多，分析的结果也就更加的精准。不仅仅在化妆品商中，甚至在整个商业行中，如果能够将这种关联规则与Apriori算法有效的运用在线上线下的销售中，通过消费者的交易数据，挖掘出顾客购买商品之间的强关联规则，了解消费者在购买商品过程中的行为习惯，可为商家的管理层在制定相应的营销策略时提供参考和依据，在提升交易额的同时，也可以使经销商改善服务质量，真正实现“顾客就是上帝”的经营理念。

参考文献：

[1]Python数据分析与挖掘实战[M]，机械工业出版社，张良均， 2019.

[2]肖劲松，林子禹，毛超.关联规则在零售商业的应用[J]，计算机工程， 2004， 30 （3）：189-190.

[3]王方华，陈洁.数据库营销[M].上海：上海交通大学出版社， 2006.