大型超市“购物篮”分析

2018-03-16 16:11李骁申浩男
科学与财富 2018年2期
关键词:关联规则

李骁 申浩男

摘 要:本文研究了大型超市购物篮数据库关联度的分析与处理的问题,建立基于0-1变量的密切性分析模型来定量表达多种商品间关联关系的密切程度。定义密切性指标来表示多种商品间关联关系的密切程度,通过0-1变量建立关联性模型,得到了密切性指标矩阵。任意挑选两两组合和三三组合下各10组做定量分析。

关键词:购物篮;密切性;关联规则

1 引言

现代零售商品种类极端丰富,消费者需要处理的信息量急剧增加。市场分析员要从大量数据中发现顾客放入其购物篮中的不同商品的关系。在超市购物时,人们往往会一次性购买多种商品,这些商品可能是有关联的。而作为超市的经理,常常关心的问题是顾客的购物习惯,他们想知道:什么样的商品组合或是集合顾客多半会在一次购物中同时购买?购物篮分析作为一种量化的分析工具,已越来越多的被众多零售企业所采纳和运用。

2 两种商品基于0-1变量的关联性分析模型的建立

假设共有M种商品,对于第i个顾客,用向量 xi=(xi1,…,xiM)来描述该顾客的某次购买行为。其中,若该消费者的购物篮中发现了第j种商品,那么xij=1;否则xij=0。假设共有N位顾客,定义向量vi=(vij,…,vNj),该向量刻画出第j种商品被第i个顾客购买的情况。如果vj由大量的1構成,那么该商品被顾客购买的频率很高;反之,如果vj由大量的0构成,那么该商品被顾客购买的频率很低。

如果有两种共同的商品k和商品p,我么可以通过比较向量vk和vp的相似性来度量他们的密切性。也就是说,如果vk和vp的各个分量非常相似,说明商品k和商品p很容易被同时购买,或者同时不被购买。因此,度量商品密切性指标 如下:

4密切性分析模型的求解

利用matlab软件,根据中4717名顾客对999种商品的购买情况作出4717行999列的0-1矩阵,依据(2)式可以计算出任意两种商品组合的密切性度量指标,由于商品两两组合的种类过多,因此本文在这里只列举部分任意10组商品组合,求出其密切性度量指标的值,并对这些组合进行密切性和同时被购买的次数进行排序,如下表。

由表1,我们发现商品两两组合之后,发现大体上购买次数与密切性是同增同减的,符合理论,即任意两种商品同时被购买的顾客数越多,那么他们的密切性越大。但是密切性并不是随着购买次数的增加严格递增的,而呈现曲折式增加。

利用同样方法,在999种商品中任选三种进行组合,与前面两种商品组合的排名情况基本一致,其密切性排名大体上是随购买次数的增加而增加的,虽有小的波动,但是都在合理的波动范围之内。还可以拓展到四种商品、五种商品甚至更多,该模型可以很好地定量表达多种商品关联关系的密切程度,由于篇幅有限,不做一一列举。

参考文献:

[1]薛红,聂规划.基于关联规则分析的“购物篮分析”模型的研究.北京工商大学学报(社会科学版)[J].第23卷第4期.2008年7月.

[2]刘晓素,郭福亮.一种有趣关联模式挖掘方法[J].计算机工程,36(11).2010.

[3]陈耿,朱玉全,杨鹤标;关联规则挖掘中若干关键技术的研究[J];计算机研究与发展;2005年10期

作者简介:

李骁(1991-),山西长治人,山西财经大学2015(统计学)学术硕士研究生,研究方向:经济统计分析与社会统计.

申浩男(1994-),女,山西屯留人,山西财经大学2015(数量经济学)学术硕士研究生,研究方向:金融计量.

猜你喜欢
关联规则
数据挖掘技术在电站设备故障分析中的应用
基于关联规则的数据挖掘技术的研究与应用
面向用户需求的自适应学习系统个性化学习路径推荐研究
工业大数据挖掘分析及应用前景研究
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于关联规则和时间阈值算法的5G基站部署研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于关联规则的中医肺癌数据挖掘应用研究
数据挖掘在超市大数据中的应用