叶建龙
(1.陇南师范高等专科学校,甘肃陇南,742500;2.甘肃省高等学校农村电商人才培育重点实验室,甘肃陇南,742500)
浅析电子商务中关联推荐算法的应用
叶建龙1,2
(1.陇南师范高等专科学校,甘肃陇南,742500;2.甘肃省高等学校农村电商人才培育重点实验室,甘肃陇南,742500)
如今这个时代可以称作大数据时代,任何行业都需要依靠网络以及数据,其中电子商务更是离不开数据。关联推荐算法则是电子商务系统中近几年来常用的数据挖掘方法。本文将了解关联规则相关概念,探讨关联推荐算法在电子商务中的应用。
关联规则;关联推荐算法;电子商务应用
利润约束就是在关联规则中依据着利润为量化参数。采用属性加权的方式,引入利润这一权重来分析关联规则。传统的数据挖掘算法是没有考虑量化参数这一方面,但根据数据显示往往会有百分之二十的商品业务带来百分之八十的利润,因此利润约束可以更加准确计算关联规则。
其实关于关联推荐有一个关于“尿布”和“啤酒”的故事更常被提及。国外家庭父亲往往在周末照顾孩子的同时会观看球赛,而看球赛会选择喝啤酒。因此国外父亲在逛超市时,基本会同时购买啤酒和尿布。超市发现这一现象将尿布与啤酒摆放一起,销售额也随之增加。这就是啤酒与尿布之间的关联规则,如下图就是尿布,啤酒以及其他商品之间的关联规则示意图。
图2 “尿布”和“啤酒”
关联推荐其实已经潜移默化的进入我们的生活中了。随着电子商务行业的发展,关联推荐算法的应用也逐渐变多。
在电子商务系统中,主要根据用户购买记录与爱好显示,作为数据来对用户进行关联推荐。数据来源主要依靠两个方面一面是产品自身属性,另一面是用户信息来源。
关联推荐算法中最常用的算法为Apriori算法。下图(图3)就为Aprior算法的具体程序图。
其实我们可以看出Aprior算法主要分为两步首先需要生成一个项目集,这个项目集需要支持度大于最小支持度的项目集合,被称作频繁项目集。接着依靠上述的频繁项目集生成可信的关联规则。而此处的可信的关联规则中的置信度要小于最小置信度。这就是Aprior算法的基本流程。Aprior算法的关键问题就是开始的频繁项目集的生成。它的主要运行环境主要为My eclipse和Windows XP系统及其以上的系统。
其中Aprior算法的优化方法有:(1)基于划分的方法。此法就是将数据分为集合互不交及的分块,先单独考虑单个分块产生的频繁集合,再合并成所有的可能的频集,再计算支持度;(2)还有基于采样的优化,此法则依靠总的扫描次数小于最大的频繁项目集的项的数目;(3)动态项集计数也是一种优化方式,这方法就是利用动态评估,可以在任何点上添加。
对于关联推荐算法的验证方法可通过对电商系统的试用来判断,例如在系统中输入购买牙刷,出现的推荐建议为牙膏、牙杯等,再依靠数据库查询出通常购买牙刷的顾客,还会继续购买牙膏和牙杯等,就说明关联规则算法挖掘出来的结果正确,此次算法应用成功。
在日常生活中,人们在浏览网购网站时购买想要的东西时,总会有其他相关产品推荐出现在视野中。关联推荐算法在电子商务中的应用说明了数据的重要性。电商系统根据顾客信息来了解顾客推算顾客潜意识中其他购买欲望,为顾客提供更加良好的服务,为电商谋求更多利益。
[1]夏敏捷,朱国华.基于关联规则挖掘的电子商务个性化推荐系统研究[J].中原工学院学报.2009,20(5):41-43.
[2]曹毅,贺卫红.基于内容过滤的电子商务推荐系统研究[J].计算机技术与发展.2009,19(6):182-185.
图3 Apriori算法流程图
Analysis of the application of association recommendation algorithm in E-commerce
Ye Jianlong1,2
(1.Longnan Teachers College,Longnan Gansu,742500;2.Key Laboratory for Rural E-business Personnel Cultivation in Institutions of Higher Learning of Gansu Province,Longnan Gansu,742500)
Today, this era can be called big data era, any industry needs to rely on the network and data,in which e-commerce is inseparable from the data. Association recommendation algorithm is a commonly used data mining method in e-commerce system in recent years. This paper will understand the related concepts of association rules, and discuss the application of association recommendation algorithm in e-commerce.
Association rules;Association recommendation algorithm;Electronic commerce application
关联规则的基本定义为:设定非空集(例如N={n1,n2,n3,…nm})为项的集合,再给定一个已知的事务集(交易数据库)(例如D={d1,d2,d3,…dm})。其中每一个 d(d=d1,d2,d3…)都是 N 的非空子集(即d属于N)。每一交易都与唯一标识符TID对应。关联规则就是像X=>Y这样,这个蕴涵式中X,Y都属于开始给定的项的集合N并且X交Y不是空集。
支持度就是指事务集D中有百分之几(例:S%)的事务支持集X,Y。这S%就为关联规则里X=>Y的支持度了。具体来说就是指某天有1500名顾客进超市购买商品,其中有150名顾客同时买了牙膏与牙刷,这其中的关联规则的支持度S%=10%。
可信度是指在事务集D里支持集合X中同时有百分之几(如C%)也支持集合Y,这C%就是此关联规则X=>Y的可信度。如上述的实例,1500名顾客去超市购买商品中,一位顾客购买了牙刷之后他在继续购买牙刷的可能性有多大。如购买了牙刷后的顾客中有50%的人继续购买了牙膏,就说明这个关联规则中的可信度为50%。
在关联规则中,还有一个很重要的数据指标:提升度。提升度可以更进一步的筛选关联规则。提升度中有一个名词叫规则提升度(lift),这个指标就反映这关联规则的价值。提升度的存在就说明了拥有关联规则的预测比没有关联规则的预测更加准确些。如图1,规则提升度由支持度等数据计算得出,当lift大于1时,说明在关联规则X=>Y中X的出现促进了Y的出现;相反的当lift小于1时,就说明X的出现抑制了Y的出现。因此我们可以知道lift越大则越好。
图1 规则提升度的计算
陇南市科技局项目编号(2016_16)。
叶建龙(1981.11—-),男,汉族,甘肃西和县人,本科,讲师,研究方向:算法,数据挖掘。