卢喜利,周月鹏
基于全文索引技术的超市商品的关联分析
卢喜利,周月鹏
超市的货架摆放、商品陈列,在一定程度上影响了商品的销售。通过对销售数据的分析,挖掘出商品之间的关联程度,进而确定商品在货架上的摆放位置,便于购物者就近选择,有利于提高超市的销售额。虽然,在分析数据过程中可以通过精确查询得到某两种或几种商品之间的关系,但同类型商品和某种其它商品之间的关系就不能通过精确查询得到。全文索引技术是目前搜索引擎的关键技术,由于商品种类繁多,在分析过程中使用全文索引技术可以减少系统开销,提高检索效率和精准度。
全文索引;关联度;检索;挖掘
随着信息技术的发展,各个超市在运营过程中产生大量的销售数据记录,一般情况下这些记录都保存在数据库中,没有被充分利用。通过关联技术挖掘销售数据间的关联关系,科学合理的利用历史数据,找出交易数据间的关联关系。
超市管理者在制定商品在货架上摆放位置的策略,在一定程度上影响着超市的销售额和利率。沃尔玛将啤酒和尿不湿放在一起,显著提高了销售量就是一个成功的案例。通过对顾客购买商品历史信息的分析,挖掘出顾客在购买商品过程中商品之间的关联关系,调整商品位置,使商品摆放搭配更加科学合理,将类型不同但用途关联的商品陈列在一起,增加了不同商品之间购买的机会,扩大销售范围和规模,增加销售额和利润[1]。
1.1 定义分析
关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、因果、关联或相关性结构。也可以说,关联分析是用来发现有关交易的数据库中不同商品(项)之间的联系[2]。
关联分析是一种应用型很强的分析技术,通过分析发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式[3]。
关联分析是从大量数据中发现项集之间有用的关联和相关联系。关联分析的一个典型例子是购物篮分析。该过程通过发现顾客每次购买的不同商品之间的联系,分析超市商品之间的关联程度[4]。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商调整货架上商品的摆放位置。
通过数据库的关联分析可以得出“由于某些事件的发生而引起另外一些事件的发生”之类的规则。如“67%的顾客在购买啤酒的同时也会购买尿布”,因此通过合理的啤酒和尿布的货架摆放或捆绑销售可提高超市的服务质量和效益。1.2关联度计算
在超市商品集合中,利用组合方法从历史记录中选取两类商品,然后从购物记录中通过全文索引进行检索,某种商品组合占该种商品百分比达到一定程度时将这两种或者几种商品在货架上摆在一起,便于购物者就近选择[5],也可以增加销售额。
数据库中用来保存商品购买信息的表格包括八个字段,分别是编号(SerialId)、收银员编号(UserId)、流水号(SerialNum)、商品编号(GoodId)、商品名称(GoodName)、购买数量(Amount)、购买时间(PayTime)、备注(Memo)。编号是表格中主键,长整形且自增,用来唯一标识一条记录;收银员编号用来确定操作的工作人员;流水号是每次购买的一个编号,每一次消费的多数商品会有一个对应的编号;商品编号和商品名称是商品的信息;购买数量是某种商品一次购买的数量;购买时间是消费时间。在创建全文索引的过程中,索引字段是商品名称(GoodName)。
在查询过程中,通过输入参数@pName1和@pName2进行查询,内部两个子查询分别得到消费记录中的商品,包含@pName1名称的商品和包含@pName2名称的商品的流水号,两个批次编号取交集,外层查询得到的就是同时购买两种商品的流水号,最外层的查询得到交集中记录的条数赋值给@pCount1。
第一个查询
第二个查询
第一个查询得到同时购买@pName1的商品和@pName2的商品数量,通过第二个子查询得到购物商品名中仅包含@pName1的商品数量,将符合条件的数值赋值给@pCount2,通过@pCount1和@pCount2得到@pName1的商品和@pName2的商品的关联度,然后将两个商品名和对应的关联度存到另一个表格Result中,Result表有三个字段,分别是@pName1、@pName2和关联度。
通过上面两部分代码得到了某两种商品之间的关联度。每个商品都有一个对应的编号(GoodId),通过商品编号进行循环的嵌套,每取一个商品编号,查出对应的商品名称,分别给@pName1和@pName2进行赋值,然后进行查询。外层循环执行一次就可以得到@pName1名称的商品和所有商品之间的关联度,将结果保存在Result表中。
可以结合季节性以及消费习惯进行整合,同时关注销售,适时进行调整。根据需要可以将分析的时间确定为一个月、三个月或者半年。从Result表中取出比较结果,当关联度高于某个指定的阈值时,在货架商品摆放时可以考虑将这些商品摆放在一起。
从商品中抽取部分进行分析,选取的样品包括:怡宝矿泉水、农夫山泉矿泉水、康师傅矿泉水、老坛酸菜牛肉面、康师傅牛肉面、苹果、背包、纸巾。
在商品集合中,三个牌子的矿泉水都属于一类,如果使用精确查询进行匹配商品的关联度,就可以得到某个牌子的矿泉水和某个牌子的方便面之间的关联程度。有时顾客在买这些商品的过程中,只是要买该类商品,不一定看是什么牌子的,这样的关联就不是很科学。当牌子很多,某两种关联度很高的商品通过查询得到的关联度不是很高,不能将两类商品放在一起,影响了商品的销售。
不管是哪个牌子的矿泉水都包含“矿泉水”这个关键词,不管是哪个方便面都包含“方便面”这个关键词,在操作过程中就可以使用like关键词进行检索,但like的检索效率很低,当数据量很大的时候检索时间是不能忍受的。全文索引技术是目前搜索引擎的关键技术,由于商品种类繁多,在分析过程中使用全文索引技术可以减少系统开销,提高检索效率和精准度。对比情况如表1所示:
表1 like查询和全文索引检索结果对比
通过测试结果可以看出,当数据量非常大的时候,全文索引的查询速度比like的查询速度快很多。超市销售的数据是海量的,这样如果使用like进行查询就远不如使用全文索引技术的效率高。
每次分析之后,将结果保存在Result表中;再次分析后首先将Result表中数据备份到Result_History表中,然后删除Result表中原有记录删除,将新结果保存在Result表中。每次分析的结果都保留在历史表中,通过对历史表数据的分析,可以看出商品关联度的走向,是递增的或递减的趋势,可以对销售情况进行预测。
针对目前超市中的需求,本文设计了从历史记录中挖掘商品关联度的方法,为企业和超市提供科学合理的门店布局、货架摆放、商品陈列、关联推荐和促销等管理决策。促进顾客购物,从而提高超市的销量和竞争力[1]。
[1]杨丰梅,李梦.一种带记忆性的零售商品关联度分析方法[J].系统工程理论与实践,2014.
[2]梁锋.数据挖掘技术在寿险客户流失中的应用[J].电子科学技术,2015.
[3]钱勤,张瑊.用于入侵检测及取证的冗余数据删减技术研究[J].计算机科学,2014.
[4]杨秀萍.大数据下关联规则算法的改进及应用[J].计算机与现代化,2014.
[5]朱峰.基于视景仿真的3D购物系统[J].计算机系统应用,2014.
Correlation Analysis of Supermarket Goods Based on Full Text Indexing Technology
Lu Xili,Zhou Yuepeng
(Institute of information science and engineering,Shaoguan University,Shaoguan,512005,Guangdong,China)
The placement of shelves and commodity display can affect the sales of the goods to some extent.Mine the correlation between the commodities through the analysis of sales data,and then confirm the placement of commodities on the shelves for the convenience of shoppers’proximity selection.It is advantageous to increase sales of the supermarket.Although the relationships between two or more than two types of commodities can be obtained by exact queries in the process of data analysis,the relationships between the same type of goods and some other commodities can’t be obtained by the same approach.Full text indexing technology is the key technology of the present search engine.Due to the wide variety of goods,it can reduce the system cost and improve the retrieval efficiency and accuracy in the analysis process with full text indexing techniques.
Full-text Index;Correlation;Retrieval;Mining
TP311
A
1007-757X(2015)06-0059-02
2015.03.31)
广东省教育厅“质量工程”建设项目(粤教高函〔2014〕97号);广东省高等教育教学改革项目(GDJG20142436);韶关学院教育教学改革研究重点项目(SYJY20131404);广东省自然科学基金资助项目(2014A030307029);广东省高等学校科技创新(重点)项目(2013KJCX0168);韶关学院教育教学改革研究青年项目(SYJY20141561);广东省哲学社会科学项目(GD13XGL29);广东省普通高校特色创新项目(2014KTSCX171)
卢喜利(1982-),女,河南省焦作人,韶关学院,信息科学与工程学院,助教,硕士,研究方向:物联网技术和数据挖掘,韶关,512005
周月鹏(1982-),男,河南省平顶山人,韶关学院,信息科学与工程学院,讲师,硕士,研究方向:物联网技术和数据仓库技术,韶关,512005