校园超市数据关联规则与统计分析

2016-09-20 08:14黄晓艳蔡丽清张钰莎
现代计算机 2016年21期
关键词:项集置信度时间段

黄晓艳,蔡丽清,张钰莎

(广东外语外贸大学南国商学院,广州 510545)

校园超市数据关联规则与统计分析

黄晓艳,蔡丽清,张钰莎

(广东外语外贸大学南国商学院,广州 510545)

随着社会的发展,校园超市已经成为学生日常生活必不可少的一部分。然而对校园超市进行数据挖据,既可以为商家提供有效地销售手段使利润增加,又可以满足学生的购物需求,达到双赢的局面。

数据挖掘;关联规则;统计分析

0 引言

随着社会的发展,校园超市逐渐在大学校园中兴起,但是却出现了校园超市没有满足学生的需求而逐渐流失客源,导致经营不善。大学生们由于在校园超市没有购买到自己心仪的商品而舍近求远。所以对校园超市进行数据挖掘有着重要的意义。通过数据挖掘中的关联规则,我们不再是传统的所有数据的关联规则,而是针对某一个特定的时间段做关联规则分析[1],这样得出来的结果更具有时间性,使商家可以准确的了解到在特定时间段里大学生对商品的需求,而做出相对应的销售手段。还可以通过数据统计分析超市工作时间与人员配置。校园超市与数据挖掘的结合能更加建设校园生活。

1 数据预处理

本次实验的数据取自广东外语外贸大学南国商学院联合100超市2015年3月~11月的数据,总共有为60几万条原始数据。

然后对数据进行预处理:

①数据筛选:将60几万条数据中,空缺和错误的数据通过SQL2008将其筛选出来。

然后通过商品表将所以的商品替换成字母,便于操作。通过SQL语句(select distinct*from test)把重复的数据剔除掉之后将结果保存为tested通过sql(select *from tested where id in(select*from tested group by id having count(*)>1))筛选出购物篮中商品有两件以上的数据再通过VS2010制作成购物篮:

图1 预处理结果

2 Apriori算法分析商品销售规律

通过数据统计,发现了每日的18:00:00到18:59:59校园超市的销售量最大。由于原始数据中3月、11月的数据是没有特殊假期相对完整,接下来我们就以11月每日的18:00:00到 18:59:59时间段一共有3696条数据和3月份每日18:00:00~18:59:59的销售数据一共有3149条数据进行关联规则分析。

2.1 APriori算法频繁项级的产生

在关联规则中有四个基本的概念:

项集与支持度计数[2]

①支持度:support(A,B)=p(A∪B)=ó(A∪B)/N其中ó(A∪B)表示包含项A和B的事务在事务数据库中出现的次数,N是事务数据库的大小。

②置信度:confidence(A,B)=p(A∣B)=ó(A∪B)/ó (A)其中ó(A∪B)表示事务数据库D中同时包含项A 和B的事务占包含项A的事务的百分比。

③频繁项级和强关联规则:根据用户预先设定的最小支持度和最小置信度阈值,若支持度不小于最小支持度阈值的项集,称为频繁项级。若支持度不小于最小支持度阈值且置信度不小于最小置信度阈值的规则,称为强关联规则。

根据11月份所筛选的3696条数据中设支持度为1.19% 置信度为15%。通过搭配及计算支持度得出不小于支持度阈值的项集构成频繁2项级[3]。Aprior算法通过合并频繁2项集产生候选3项集时,为了避免产生太多重复的候选项集,同时确保没有遗漏频繁项集Apriori算法以频繁项级按字典排序,若两个频繁2项级前者相同则合并,得出候选3项集如表1所示。

表1 候选3项集

为了提高效率,在计数支持度得出频繁3项级之前可以进行候选项集的前剪枝,可以有效的减少支持度计数过程中I/O的次数。然后计算支持度,结果如下表2所示。

表2 候选3项集的支持度

2.2 产生关联规则

由频繁2项集产生的关联规则置信度小于15%的删除,可以利用Apriori的性质最后得出强关联规则有A4,K→F17,如表3所示。

表3 商品的支持度和置信度

2.3 相同时段、不同季度所得关联规则的比较

共同点:在3、11月份的18:00:00~18:59:59这个销售高峰中的主要销售的商品是饮料、水果、面包、零食。所以说主要影响着校园超市销售量的商品是食品类。

①超市可以在3、11月的时间段里,生活用品类和清洁品类而并不是主要的销售商品,所以校园超市应该减少这类商品的进货量。

②同时在下午6点这个时间段,超市可以在收银台附近添加几个面包架摆放面包,以增加销量。

③在摆放面包的附近可以摆上与它有关联的商品,例如:糖、果脯、香肠等零食。

④在这个时间段可以对商品进行捆绑消费,例如:泡面和面包,牛奶和面包,饮料和面包,面包和香肠等。

不同点:在11月份,广州的天气闷热,比较多的学生在买其他商品的同时买上水果,所以商家可以尝试新的促销方式,将水果、面包、酸奶同时进行促销以增加销售量。

3 超市工作时间与人员配置

目的:因为某些时段会有许多学生来超市购物,以至于所有工作人员忙不过来,而有些时间段却几乎没有学生购物,而浪费了不少的资源与金钱。因此我们希望通过对销售数据的分析挖据发现顾客的购物时间规律,为超市的人员及服务配置等工作提供决策参考。对数据中每一天的每个时间段的销售额的统计中,分别以3月份~4月份、5月份~6月份、9月份到10月份为一组,对这三组的数据查询出每个时间段的销售额(以早上6点开始,晚上11点结束,每一个钟为一个时间段)。

其次,对于每一周每一个工作日的销售额进行统计,选择3月份和9月份的数据显示,分别对星期一到星期天一整天的销售数据进行统计。对于上述描述,利用Excel工具分别得到以上两张图表:

结论:对于上面两张图表,可以得到以下几点结论:

①一天中,超市销售共有3个高峰期,分别为早上8点~9点、12点~13点、18点~19点,其中15点~16点也是一个小高峰期,因此,超市管理人员可以在高峰期中增加超市工作人员。

②一天中,除了有3个高峰期中,我们从图中也可以看出4个低峰期,分别为早上9点~10点、14点~15点、16点~17点、19点过后销售额呈下降趋势。因此,在这几个低潮期超市管理人员可以合理安排超市工作人员的工作时间,同时可以增强工作人员对超市的忠诚度。

③一周中,星期一的销售额最高,星期六的销售额最低,星期二到星期五呈下降趋势,同样可以合理安排超市工作人员的工作时间。

图2 超市经营时间销售图

[1]张钰莎.数据挖掘在高校图书馆服务中的应用研究[J].廊坊师范学院学报,2015,7:32-35

[2]蒋盛益.商务数据挖掘与应用案例分析[M].北京:子工业出版,.2014,1:104-109

[3]张钰莎.数据挖掘技术在教学质量评估中的应用研究.暨南大学[D],2012,6

图3 星期销售折线图

4 结语

校园超市作为大学生校园生活必不可少的一个部分,但是如何经营超市和如何满足广大学生的日常生活成了一大难题。商家们对校园超市进行数据挖掘可以准确的发现学生们日常需求的规律,构建一个繁荣和谐的校园环境。

HUANG Xiao-yan,CAI Li-qing,ZHANG Yu-sha
(Guangdong University of Foreign Studies South China Business College,Guangzhou 510545)

With the development of the society,the campus supermarket has become an indispensable part of the students'daily life.However to dig,according to the data,the campus supermarket can make profits for merchants to provide effective sales approach,and can meet the demand of the students'shopping,achieve win-win situation.

The Data Mining;Association Rules;Statistics Analysis

广东省大学生创新创业训练项目(No.201512620039)

1007-1423(2016)21-0032-04

10.3969/j.issn.1007-1423.2016.21.007

黄晓艳(1995-),女,广州人,研究方向为数据挖掘

张钰莎(1982-),女,山西晋城人,硕士,副教授,研究方向为数据挖掘,E-mail:zys1982xx@163.com

2016-04-27

2016-07-20Association Rules and Statistical Analysis of Campus Supermarket Data

蔡丽清(1995-),女,广州人,研究方向为数据挖掘

猜你喜欢
项集置信度时间段
基于数据置信度衰减的多传感器区间估计融合方法
一种基于定位置信度预测的二阶段目标检测方法
基于共现结构的频繁高效用项集挖掘算法
夏天晒太阳防病要注意时间段
基于矩阵相乘的Apriori改进算法
正负关联规则两级置信度阈值设置方法
发朋友圈没人看是一种怎样的体验
不确定数据中的代表频繁项集近似挖掘
校核、验证与确认在红外辐射特性测量中的应用
“三天后”是啥时候?