基于Apriori算法的农资网站用户行为分析

2018-05-22 06:48王玉珍
关键词:项集农资数据挖掘

王玉珍,常 丹

(1.兰州财经大学 丝绸之路经济研究院,甘肃 兰州,730020;2.兰州财经大学信息工程学院,甘肃兰州,730020)

随着“互联网+”概念的不断深入,很多传统企业开始开设网站,将部分线下业务搬上了互联网,开始开展电子商务;与此同时,越来越多的纯网络型零售企业也迅速发展起来,导致电子商务领域的竞争越来越激烈,因此企业要想在激烈的竞争中立于不败之地,就必须对用户行为进行研究。而对于农产品来说,满足用户的个性化需求,帮助网站精准营销[1]的前提是了解用户需要什么样的产品。因此文中以某农资网站为例,通过使用关联分析中的经典算法——Apriori算法,对该网站用户行为进行研究,挖掘出强关联规则,从而改善网站结构,提高用户满意度。

由于很多领域事物间存在某种关系,而关联规则挖掘可以发现这种规律,从而帮助人们做出决策,因此受到各界学者广泛的关注。如,张文斌认为传统的购物篮分析不能按照时间序列做出演化和预测,因此提出通过聚类来重组购物篮,并对演化的参数和模型进行研究,开发出购物篮可视化交互系统,实现购物篮分析结果的可视化功能,使得分析结果更容易理解[2];李伟针对传统的Apriori算法中存在的不足,提出一种基于并行矩阵目标明确的Apriori算法,并通过实验证明改进后的算法挖掘出来的关联规则更符合用户的需求[3];吴青基于关联规则,对远程教育平台上的学习行为数据挖掘分析,发现某种内在规律以帮助学习者改善学习行为,帮助老师完善教学过程[4];黄常海基于Apriori算法对船舶交通事故数据进行关联规则分析,发现船舶交通事故发生的潜在关系,提出防范措施,以保证海上交通的安全[5];翟广宇使用Apriori算法,挖掘出兰州市上呼吸道感染患者人数与兰州市空气质量和气象因子之间的关联规则[6];晏杰研究了Apriori算法和FP-growth算法,指出两个算法各自的优缺点,通过具体实例说明了算法的使用,并对两个算法进行性能上的比较[7];应毅针对数据挖掘系统处理海量数据的瓶颈,提出一种基于云计算技术的数据挖掘技术,实验表明,使用云计算处理大数据集可以明显提高效率[8];雷蕾使用关联规则挖掘算法,找到化学组分之间的强关联关系,为组分中药发现提供新途径[9]。可见,因关联性分析在各领域发展中的重要性,近年来,该领域的研究成果较丰富,涉及到很多行业。但随着农村电商的发展,对农资电商的研究显得尤为重要,而目前对这方面的研究尚未形成系统性,因此文中应用关联规则挖掘的主要算法——Apriori算法对某农资网站的销售数据进行分析,发现用户的行为特征,改善网站的运营结构,使网站获得新的利润增长。

1 关联规则理论

1.1 相关概念和衡量指标

关联规则是形如A→B的表达式,其中AI,BI,并且A∩B=。设I={i1,i2,…,im}为所有项的集合,T={t1,t2,…,tn}表示所有事务的集合,T中每个事务是项集I的子集,在关联分析中,包含k个数据项的集合称为k-项集。事务集T中项集出现的次数称为支持度计数,项集(A∪B)在事务T中同时出现的概率称为支持度,当一个项集的支持度大于或等于给定的最小支持度阈值时,称为频繁项集。置信度则是指项集B在事务集T中与项集A同时存在的概率。

用公式表达:

1.2 Apriori算法

文中采用的Apriori算法适用于挖掘布尔关联规则,该算法使用逐层递推的方法找出频繁项集,采用连接和剪枝两部分完成。具体实现主要分为两部分:一是找出所有的频繁项集,二是在这些频繁项集中找出强关联规则。图1为Apriori算法中产生频繁项集的部分为代码。

图1 Apriori算法产生频繁项集的部分伪代码Fig.1 Apriori algorithm to generate frequent itemsets part of the pseudo-code

以上是Apriori算法中产生频繁项集的部分伪代码,在关联分析数据挖掘的实际应用中也是通过这种方法来找出事务集中的频繁项集,进而进行关联规则分析。

2 Apriori算法在用户行为分析中的应用

利用关联规则分析,能够发现用户在农资网站中购买产品时存在的某种关联关系,通过分析用户在购买产品时的行为特征,能够准确预测用户下一个购买行为,这种有价值的联系以及规律能够指导企业做出决策,改善网站结构。

2.1 Apriori算法应用过程

文章选取某农资网站作为研究对象,该网站从2016年开始销售不同配方的液态肥,主要配方有180-50-260-TE、170-170-170-TE 等几十多种。由于该农资网站原始订单信息比较多,因此文中仅选取一个季度的销售数据进行关联分析。因涉及到该农资网站的商业机密,将隐去网站的所有原始数据,通过对原始数据清理后量化表示(如表1所示)。

表1 某农资网站某季度交易记录Table 1 A quarterly transaction record of an agricultural website

续表

表1中A~Y表示该农资网站液态肥的配方,如A表示105-50-400-TE配方的液态肥,1~18表示18个用户的这一季度的购买记录。

2.1.1 产生频繁项集

①根据多次实验结果,最小支持度设为4是最适合实验数据的,得出的结果也最有效。通过扫描事务数据库中的所有事务,将事务数据库中的每个项集都作为候选1-项集C1中的元素,统计每个项出现的次数,根据最小支持度计数,生成频繁1-项集(如图2所示)。

图2 产生候选1-项集和频繁1-项集Fig.2 Produces candidate 1-itemsets and frequent 1-itemsets

②运用频繁1-项集,产生候选2-项集C2,并计算出C2中每个候选项集的支持度计数,确定频繁2-项集的集合L2(如图3所示)。

图3 产生候选2-项集和频繁2-项集Fig.3 Produces candidate 2-itemsets and frequent 2-itemsets

③根据设定的最小支持度阈值,对候选3-项集进行剪枝,生成频繁3-项集L3(如图4所示),利用频繁3-项集产生候选4-项集C4={I,K,M,Y},支持度计数为3,小于最小支持度计数,所以无法生成频繁4-项集。

图4 产生候选3-项集和频繁3-项集Fig.4 Produces candidate 3-itemsets and frequent 3-itemsets

④此时就找到了所有的频繁项集,即{I,K,M}和{I,M,Y}以及它们的非零子集。

2.1.2 产生强关联规则

关联规则分析主要分为两部分,一是发现频繁项集,二是通过频繁项集挖掘出强关联规则,通过分析图2、图3、图4可以发现:

(Ⅰ)在找出频繁项集 C3后,对于每个频繁项集 C3,取 C3的非空真子集:{I,K}、{I,M}、{K,M}、{I,Y}、{M,Y}、{I}、{K}、{M}、{Y}。

(Ⅱ)设定最小置信度阈值为70%,根据公式计算各关联规则的置信度:

根据各关联规则的置信度可知,第(1)、(2)、(3)、(4)、(5)、(6)、(9)规则属于强关联规则,即规则在数据集上的可靠性比较大,因此保留下来。

2.2 结果分析

根据以上的关联分析可以得出,该农资网站的用户在购买液态肥时存在某些特征。通过(1)可知用户购买了I和K,则一定会购买M;通过(6)可知用户购买了M和Y产品后,一定会购买I;由(2)和(3)可知用户在购买了I和M产品后,再购买K或Y产品的概率为80%;由(4)可知如果用户购买了K和M,则有80%的概率购买I产品;由(5)可知购买了I和Y产品的用户,有80%的概率在购买M产品;由(9)可知如果用户购买了K产品,则有80%的概率再购买I和M产品,由此可以得出:

(1)I、K产品与M产品之间存在强关联规则,即用户在购买I和K产品的同时一定会购买M产品;同样,M、Y产品和I产品之间也存在强关联规则,即在购买M和Y产品的同时一定会购买I产品。

(2)I、M产品和K、Y产品的销售有一定的关联关系,即在购买I和M产品时,有很大的可能再购买K产品或Y产品;另外,用户在购买K、M的组合销售产品时,有很大可能再购买I产品;在购买I、Y的组合销售产品时,有很大可能再购买M产品。

(3)产品K和I、M产品之间有很大的关联性,所以用户在购买K产品时很可能同时购买I和M产品。

通过以上的关联规则分析可以发现,用户在购买某农资网站的农资产品时存在某种关联关系,这种关联关系体现出来的用户行为特征对改进网站结构有一定的帮助。除此之外,根据各产品间的关联关系,该农资网站能够采取合适的促销手段,充分满足用户需求,提高用户满意度,从而提高网站的销售利润。

3 总结

农资电商作为农村电商的重要组成部分近年来得到了快速发展,对农资网站的交易数据进行挖掘,分析用户在购买农资产品时存在的某种关联关系对农资电商的发展具有重要意义。文中采用Apriori算法,对某农资网站的交易记录进行挖掘,通过数据挖掘的结果,分析用户的行为特征,从而制定相应的精准营销策略、优化网站结构,进而提高用户的满意度,使农资网站获得新的利润增长。

参考文献:

[1]周朝进,王玉珍.基于改进协同过滤算法的农产品个性化推荐研究[J].邵阳学院学报(自然科学版),2017,14(06):23-31.

[2]张文斌.购物篮重组与演化及可视化方法研究与设计[D].深圳:深圳大学,2017.

[3]李伟,朱赵元.一种基于并行矩阵目标明确的Apriori算法[J].浙江工业大学学报,2017,45(05):574-579.

[4]吴青,罗儒国,王权于.基于关联规则的网络学习行为实证研究[J].现代教育技术,2015,25(07):88-94.

[5]黄常海,高德毅,胡甚平,等.基于Apriori算法的船舶交通事故关联规则分析[J].上海海事大学学报,2014,35(03):18-22.

[6]翟广宇,王式功,董继元,等.兰州市上呼吸道疾病与气象条件和空气质量的关联规则分析[J].兰州大学学报(自然科学版),2014,50(01):66-70.

[7]晏杰,亓文娟.基于 Aprior& FP-growth 算法的研究[J].计算机系统应用,2013,22(05):122-125.

[8]应毅,任凯,刘正涛.基于云计算技术的数据挖掘[J].微电子学与计算机,2013,30(02):161-164.

[9]雷蕾,崔蒙,秘仲凯.关联规则挖掘在治疗肺癌组分中药发现中的应用研究[J].中国中药杂志,2010,35(16):2192-2195.

猜你喜欢
项集农资数据挖掘
送农资增收致富添助力
探讨人工智能与数据挖掘发展趋势
不确定数据的约束频繁闭项集挖掘算法
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
农资人,你是否看见鱼在流泪?
一个幸福的农资人
参加农资展会,细节绝不能丢
基于GPGPU的离散数据挖掘研究
一种新的改进Apriori算法*