李洪燕,万 新
(四川理工学院自动化与电子信息工程学院,四川 自贡 643000)
交叉销售是实际生活中常见的商业问题,它是根据客户的购物篮中的历史产品信息来推荐客户最有可能购买的产品[1]。最优的推荐信息会提高顾客的购买欲,从而增加总的销售额。相反,劣质的推荐信息可能使客户失去购买兴趣。当面对的销售产品目录比较小时,根据丰富的销售经验来提供建议时可能比较容易实现,当不同产品的信息和数量比较庞大时,推荐信息就会失去有效性和准确性。
Microsoft关联规则算法属于Apriori关联规则算法系列[2]。Microsoft关联规则算法由两部分构成,第一部分是挖掘频繁项集,第二部分是基于频繁项集来生成关联规则。
设L={L1,L2,…,Lm}是项的集合,设任务相关的数据D是数据库事务的集合,其中每个事务T是一个非空项集,使得T⊆L。每一个事务都有一个标识符,称为TID。设A是一个项集,事务T包含A,当且仅当A⊆T。关联规则是形如:A⇒B的蕴涵式,其中A⊂L,B⊂L,A≠Φ,B≠Φ,并且A∩B=Φ。
Microsoft关联规则算法使用一种逐层搜索的迭代方法[3]。首先,通过扫描数据库,累计每个项的计数,并收集满足最小支撑度的项,找出频繁1项集的集合L1。然后,使用L1找出频繁2项集的集合L2,使用L2找出L3,依次下去,直到所有的侯选项集都不满足条件,算法终止[4]。
挖掘为事务数据库D(图1)的频繁项集的过程如下所示:
图1 事务数据D
(1)首先设每个项都是候选1项集的集合C1的成员。扫描所有的事务,并对每个项的出现次数计数。
(2)假设最小支持度计数为2,即minimum_support=2。确定频繁1项集的集合L1(图2)。
(3)若想找到频繁2项集的集合C2,首先连接L1产生候选2项集的集合。
(4)扫描D中事务,同时累计C2中每个候选项集的支持度计数(图3)。
(5)确定频繁2项集的集合L2,L2是C2中满足最小支持度的候选2项集构成的。
(6)确定候选3项集的集合C3。首先令L2={{I1,I2,I3},{I1,I2,I5},{I1,I3,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5},{I3,I4,I5}},根据先验性质,频繁项集的所有子集必须是频繁的,可以确定{I2,I4,I5},{I3,I4,I5}不是频繁项集,因此,把它们删除。
(7)扫描D中事务以确定L3,它由C3中满足最小支持度的候选3项集组成,如图4所示。
图4 候选项集C2和频繁项集L2的生产过程
(8)候选4项集的集合L3={{I1,I2,I3,I5},{I2,I3,I4,I5}},但它的子集{I2,I3,I5}不是频繁的,所以L4=Φ,算法终止,找出了所有的频繁项集。
在客户购买的历史信息中,提取了32 265个样本数,部分数据源如图5所示。图5中包含了客户的订单号、购买的产品的类别和单价。
图5 事务数据
一旦提取完所需数据,并通过预处理,就可根据任务选择适当算法对数据进行分析处理。在该任务中,利用SQL Server 2008 Data Mining Add-Ins for Microsoft office 2007工具完成商品推荐,并选择关联算法对数据源进行分析处理,处理结果如图6所示。
图6 基于关联算法的详细分析信息
从图6中可知各类捆绑商品的销售数量、销售价格以及销售总值。以捆绑road bike和helmets为例:road bike和helmets同时购买的销售数量为805,从对事务数据的统计中可知客户单独购买helmets单价为53.99,销售数量为3794;购买road bike的单价为2443.35,销售数量为2369;平均销售单价为1248.67低于捆绑销售单价的平均销售价格1570.22;销售总值为1 005 179也低于捆绑销售总值1 264 033,因此利用该解决方案可增加产品的总销售额。
通过对数据进行分析和处理之后,就可得到理想的解决方案,从图7中推荐商品依据可知,如果客户购买了fenders就可向客户推荐Mountain Bikes,并且购买该商品的购买率为43.54%;客户购买了Cleaners、Helmets、Bike Stands、Bike Racks等任何一样产品就可向客户推荐Tires and tubes,并且其中最有可能购买的客户为已购买了Bike Stands产品的客户;客户购买了Gloves可推荐Helmets,购买率为41.46%;客户购买了Hydration Pack就可推荐Bottles and cages其购买率为44.63%。因此如果市场部要策划一次营销活动,就可根据此解决方案来制定营销策略,有针对性地寄发产品海报,从而节约营销成本,得到最大的客户响应度和产品购买率。
图7 推荐商品的详细依据
庞大的销售数据库中隐含了客户的消费习惯和行为特征,而关联规则算法[5]能够帮助数据分析者和营销决策者发现海量交易数据背后的有价值的信息,以SQL Server 2008 Data Mining Add-Ins for Microsoft office 2007工具提供的样例数据基于microsoft关联规则算法建立模型来实现购物篮分析,并生成推荐信息,帮助商家制定营销策略,合理安排,提高销售额[6]。
[1]孙晓佳,朱宏丽.浅谈如何成功实践交叉销售[J].现代商业,2008(21):112.
[2]Crivat JM,著.董 艳,程文俊,译.数据挖掘原理与应用[M].北京:清华大学出版社,2010.
[3]Pei JH,著.范 明,孟小峰,译.数据挖掘概念与技术[M].北京:机械工业出版社,2012.
[4]Agrawal R,Shafer J C.Parallel mining of association rules:Design,implementation,and experience[M].IEEE Trans.Know ledge and Data engineering,1996.
[5]Ballou D P,Tayi G K.Enhancing Data M ining:Models and A lgorithms[M].New York:Springer,2008.
[6]徐 菊.商业性文献数据库的营销策略研究[D].广东:广东师范大学,2008.