李 敏,姚 昕,李 红
(1.哈尔滨商业大学计算机与信息工程学院,哈尔滨150028;2.中石油辽河油田公司钻采院,辽宁盘锦124010)
在市场的竞争日趋激烈以及顾客消费的心理日趋成熟的今天,充分了解顾客的购物需求已经成为商家成功经营至关重要的一个因素.大部分的零售企业认识到这一点,并在这一方面做了不少的努力,如各种常客登记分析、计算机辅助销售、人口统计分析以及我们本文提到的最普遍的购物篮分析等方法.但是我们这些方法依然存在很多的缺陷.因此,本文提出了一种基于自律计算的购物篮分析模型,对其中的购物篮分析方法进行了优化,使得自律计算在购物篮分析中占有非常重要的位置.
2001年,IBM公司首次提出了有关于自律计算的概念,是“一种能够以最少的人工干预实现系统的自我管理的技术”,可以解决日益复杂的计算环境中所面临的成本与管理问题,其最终目的是系统能够自动的对自身进行管理,并维持其可靠性.自律计算为解决计算机系统构造和管理的复杂性提供了新的思路,迅速成为研究热点[1].
根据IBM公司的自律计算的定义标准,一个自律计算系统要具有自我配置、自我恢复、自我优化和自我保护4个基本特征.这4个特征并不是相互独立的,每个属性都能改变系统的配置,实现自我管理的特性[2].由于应用领域的不同,这4个特征在具体实现过程中有不同的实现机制和内涵解释[3].
购物篮分析是指在顾客同一次购物活动中,对其所购买商品组成的相关性进行研究的方法学.购物篮分析首先要把每个购物篮中的商品分类,然后再分析各个商品所占的比例.假设设定一个阈值,如果购物篮中某一类商品的比例超过了该阈值,那么就可以认为该类商品是流行的.
市场购物篮分析最常见的应用是用来实现更有效的价格促销策略.潜在的假设是:有关联的产品表现出积极的交叉价格弹性,换一种说法就是,价格的促销对于有关联的产品的销售产生了积极的影响.市场购物篮分析常常去选择那些对全额利润的相关产品的销售有着有利影响的产品进行价格促销.“企业管理人员或分析人员可以通过市场购物篮分析去发放优惠券或指定打折优惠等策略”.把两种顾客可能会同时购买的商品一起进行促销就不是一个很好的方法,我们可以选择通过对一种物品进行促销来带动另一种物品的销售量.但是目前在国内还没有通过自律计算来优化购物篮分析的案例.
市场购物篮分析是购物篮分析应用于市场的最常见类型之一,它确定了顾客会同时购买哪些物品.该算法的名称取自于顾客在购物时把所购的商品放在购物车(一个“购物篮”)中.知道人们会同时购买哪些物品,对零售商或者其他企业是有意义的.商店可以利用这些信息在同一商店中摆放经常同时售出的物品[4].
我们可以通过关联规则来确定消费者所购买的不同产品之间的关联.关联规则挖掘的一个典型例子是购物篮分析.该过程通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯.通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略.例如,在通一次去超级市场,如果顾客购买牛奶,他也购买面包(和什么类型的面包)的可能性有多大?通过帮助零售商有选择的经销和安排货架,这种信息可以引导销售.
自律计算是一门新兴的学科,目前还处于发展的初级阶段.在商业系统中,数据通过DB接口到达至购物篮中,然后对这些数据进行清理并通过挖掘算法对之进行决策,随之通过自律计算单元来判断该数据是否符合要求,若符合,则通过I/O接口到达商业用户;若不符合则返回购物篮继续进行数据清理,直到数据符合条件为止.
本文以商业流程为基础,建立优化的数据库结构,把自律计算算法作为研究核心,以仿真实验验证,结合购物篮分析决策模型完成自律计算及其在购物篮分析中的应用研究.技术路线模型如图1所示.
本文从一家实际的小型超市入手,通过对顾客所购买的商品交易数据进行分析,通过挖掘布尔关联规则频繁项集的算法找到强关联规则,最后通过自律计算进行自我管理、自我优化等等.通过这些可以使得零售商们准确的把握顾客的消费心理,并对此制定一系列的销售策略(见图1).表1为商品交易表格.
图1 技术路线模型图
表1 商品交易表格
从表1可以看出:
ID1={B、D、E};ID2={A、C、F};ID3={A、B、C、E};ID4={B、C、E、F};ID5={A、C、D};ID6={C、D、E};ID7={B、D};ID8={A、C};
假定最小事务支持计数为2(即min_sup=2/8=0.25),由Apriori算法可以找出满足min_sup=0.25的最大频繁项集,过程如下:
1)在算法的第一次迭代,每个项都是候选1-项集的集合C1的成员,算法简单的扫描所有的事务,对每个项的出现次数计数:
2)为发现频繁2-项集的集合L2,算法使用L1⊕L1产生候选项2-项集C2,如下所示.
3)令C3=L1⊕ L2,根据 Apriori性质,“频繁项集的所有子集必须是频繁的”,我们删除其中不是频繁项集的候选集,注意:Apriori算法使用逐层搜索技术,给定k-项集,只需要检查它们的(k-1)-子集是否频繁,其结果如下.
算法使用L3⊕L3产生候选4-项集的集合C4.计算得C4=Φ,因此算法终止,找出了所有的频繁项集.
Apriori算法的第1步找出频繁1-项集的集合L1.随后使用Apriori性质删除那些具有非频繁子集的候选,一旦产生了所有的候选,就扫描数据库.对于每个事务,使用subset函数找出事务中是候选的所有子集,并对每个这样的候选累加计数.最后,所有满足最小支持度的候选形成频繁项集L.然后,调用一个过程,由频繁项集产生关联规则.根据本例,如果最小置信度阈值为60%,那么只有三条规则可以输出,即 B,C→E;B,E→C;E,C→B,因为只有这些是产生的强规则.
在{面包B、矿泉水C、牛奶E}三种商品中,在购买其中两个商品的前提下,购买另外一个商品的概率是很高的.根据算法所推出的结果,该小型超市把{面包、矿泉水、牛奶}这三种不同类的商品摆放在一起或非常临近的位置.最终可以看出,三种商品的销售额都提高了.而自律计算则使系统从整体上表现出一种自我管理的特点.由此看出,基于自律计算上的购物篮分析给商家带来了极大的经济效益[4-5].
自律计算的概念源于人类复杂的自主神经系统,换句话说,在任何不需要人工干预的情况下,它能够“自我配置”、“自我优化”、“自我修复”和“自我保护”,终极目标是“用技术进行管理技术”.这可以在计算机环境中解决我们面对的管理和成本问题,本文中零售商可以通过自律计算去判断哪些商品是流行的,然后根据它制定一个计划,以便赚取更高的利润.
[1] 张海涛,王慧强,刘洪刚,等.自律计算评估技术研究[J].小型微型计算机系统,2009,30(9):1791-1795.
[2] 杜海涛,陈定方,张 波.一种基于关联规则的超市购物篮分析方法[J].湖北工业大学学报,2008,23(2):53-55.
[3] 薛 红,聂规划.基于关联规则分析的“购物篮分析”模型的研究[J].北京工商大学学报:自然科学版,2008,23(4):1-5.
[4] [加]HAN J W,KAMBER M.数据挖掘概念与技术[M].2版.范明,孟小峰,译.北京:机械工业出版社,2007:146-155.
[5] 李 敏,潘祥光,曲云波,基于数组的关联规则挖掘算法的研究[J].哈尔滨商业大学学报:自然科学学报,2011,27(5):705-708.