刘钊勇
(四川化工职业技术学院,四川 泸州 646005)
近年来,随着中国互联网的飞速发展,食用菌行业在电商领域也发展迅速,2013年仅在淘宝平台上的农产品销售额已达千亿元,这一数字相当于2008年淘宝网全网交易额[1]。
食用菌行业在电商领域的发展势头良好,各种电子商务网站和平台随着时间的推移,积累了大量的商业交易数据和客户、供应商信息[2]。将这些海量的商业信息分析并充分利用,发现商业和市场运行的潜在规律,预测食用菌销售市场的发展趋势,从中发现一些未知、隐藏的有用信息,帮助企业从宏观上把握食用菌行业和销售市场的发展方向,更好地为广大消费者服务。
食用菌商业数据挖掘是指从海量的食用菌电子商务网站和商业交易数据中,提取出一些隐含、未知的有一定潜在价值的数据或信息。这些挖掘出的商业数据在原来商业数据中是不完整的、模糊的信息,通过数据挖掘得到的是更加清晰完整的信息,以一种清楚解释和更有价值的方式呈现在决策者面前。通过食用菌商业数据的挖掘,如对客户购买的食用菌种类、购买的时间、交易模式等商业数据的分析,食用菌销售商可以调整品种和价格,实施更加精准的营销策略;而生产商则可以即时调整订单数量和生产时间;同时,通过数据挖掘还可以发现食用菌电子商务运营的基本规律,发掘潜在的客户和细分的市场,预测未来食用菌市场的发展趋势。
而对于食用菌企业决策者来说,还可以从中发现产品之间的关联关系,如淘宝网上的“猜你喜欢的商品”功能,就可以发现客户可能感兴趣的商品;在20世纪90年代的美国超市在分析销售数据时发现了“啤酒”和“尿布”2个看上去毫无关系的商品会经常被人一起购买[5],尿布和啤酒摆在一起出售使两个商品的销量双双增加,这是数据挖掘算法关联规则在实际中的成功应用案例[5]。这就是一种产品之间的关联关系,食用菌企业如果发现了产品间的这种关联次第,就可以实行“交叉销售”的销售策略,创造新的销售模式。
食用菌商业数据挖掘的目的是从海量商业数据中找到潜在的、有价值的、具有预测性的信息,为商业决策提供依据。具体在数据挖掘中使用关联规则算法来实现。该关联规则算法以事务数据库为对象,使用Apriori算法来进行关联规则的数据挖掘[3]。Apriori算法是一种用于挖掘数据集内部关联规则的算法,算法主要分2步,第一步找出商业数据的频繁项集;第二步生成关联规则,从而确定商业数据中项集间的关联关系。
生成频繁项集过程如图1。
由图1所示,创建含有k项的商业数据集,依次对1项集、2项集……k项集进行扫描,接着以给定的最小支持度min_support为阈值,对项集进行筛减,得到频繁项集L1、L2……Lk。
由第一步中生成的频繁项集Li和设定的最小可信度min_confidence构成强关联规则。对于每个频繁项集 Li,如果 Lk⊆Li,Lk≠ Φ,并且 Confidence(Lk⇒ (Li-Lk))≥min_confidence,则构成强关联规则Lk⇒ (Li-Lk)。
以上2步就是Apriori算法的主要步骤,可以看出求解数据集的频繁项集是基础,得到关联规则是算法的目的。由于每生成一个频繁项集都需要对事务数据库进行一次扫描,会造成算效率降低,对于数据集较大的商业数据集将严重影响算法性能[4]。因此,为了提高算法效率,需要降低扫描数据库的次数。
经典Apriori算法在面对数据量较大的数据集时,会因为每次生成频繁项集而多次扫描事务数据库,造成算法效率降低。针对这一问题,我们设计了改进的Apriori算法,采用一次性访问数据库策略,完成频繁项集的生成。
算法设计思想:在对经典的Apriori算法进行研究时发现,每生成一个候选项集就会对数据库进行一次访问,没有利用之前产生的数据,而导致大部分信息被舍弃。因此,开辟新的存储空间,一次访问数据库并记录相关信息并利用频繁项集的性质进行剪枝,减少候选项集的数量,加快频繁项集的生成。
对上述改进算法进行对比试验。给定一个4条记录的事务数据集示例:(001,{1,2,3})、(002,{2,3,5})、(003,{1,2,3,4}、(004,{2,5})。设定最小支持度min_Support计数为2,则改进的Apriori算法运行过程如表1所示。
传统算法与经典Apriori算法对比情况如表2所示。
在食用菌商业数据集中,使用关联规则挖掘算法对销售数据进行挖掘可以为制定销售方案、货品摆放和进货选择提供支持决策。测试试验以一个有20 000条食用菌销售数据集为试验数据,表3仅给出示例数据展示,试验比较Apriori和改进的Apriori两种算法在关联规则挖掘时运行时间的消耗情况。
对12 000条的食用菌销售数据集,用Python语言分别对Apriori和改进的Apriori算法进行编程,两种算法的运行时间情况比较如图2所示。
通过以上试验结果可以看出,改进后的Apriori算法,由于仅访问一次数据库,且不会增加候选项集,缩短了算法运行时间,提高了算法效率,并具有较强的稳定性。面对记录多的海量食用菌商业数据集时具有明显的优势。
表1 改进的Apriori算法挖掘过程Tab.1 Modified apriorialgorithmic mining process
表2 传统算法和改进算法运行情况对比Tab.2 Comparing traditional algorithm with improved algorithm
表3 部分购物记录数据表Tab.3 Partial shopping record data table
食用菌商业数据挖掘主要通过各种数据挖掘算法来实现,常用的商业数据挖掘涉及企业的各个方面,包括企业的经营、销售、产品开发、市场和客户管理等,其中以客户和市场营销的数据挖掘为主。数据挖掘算法主要有分类、回归、聚类、预测、关联等机器学习算法。其中,关联规则算法是商业信息数据挖掘中的重要算法,他可以反映食用菌电子商务中产品与其它产品之间的相互关系和关联性,特别适合海量商业数据中挖掘出有价值的商品和客户数据,并发现他们之间的关联关系。本文对数据挖掘的经典Apriori算法进行了改进,相比于经典的Apriori算法,改进的算法只需要对数据库进行一次访问,节省了数据库的访问开销,提升了数据挖掘的效率。该数据挖掘算法可以帮助食用菌企业分析客户购买习惯、帮助经销商制定销售策略。