机器学习在购买意图方面的应用

2020-11-11 08:01刘占玉高荣芳
智能计算机与应用 2020年6期
关键词:贝叶斯朴素样本

刘占玉, 高荣芳

(西安石油大学 计算机学院, 西安710065)

0 引 言

随着互联网的发展,网络购物几乎成为人们最常用的消费渠道,然而不同类型的消费者、不同的购物网站、不同促销活动和特殊日期等,都会影响消费者的购买意图。 社会环境不同,使得消费者的购物需求出现了个性化和多样化,如受新冠肺炎疫情影响,大部分消费者选择网上购物。

在线购买领域,国内学者也做了很多相关研究。如:袁智慧采用实证研究的方法,来探究中UGC 不同形式的自我披露对消费者在线购买意愿的影响机理,并分析了产品熟悉度在其中的调节作用,不仅对自我披露理论的发展起到一定的补充和深化作用,也能给社会化商务平台通过UGC 达到商家、消费者、平台三方共赢的局面提供一定的决策支持[1]。卢美丽等人考虑在线重复购买强化效应,建立顾客重复购买通用模型[2]。 Verhagen 等人针对没有研究检查在线商店信念和消费者在线情感状态之间的效果等级是否因产品类型而异。 研究通过检查思考层次和感觉思考层次在解释针对搜索产品与体验产品的在线购买意向以及高参与度与低参与度产品的在线购买意向中的解释能力[3]。 本文使用机器学习对电商平台的顾客在线购物数据进行分析,帮助商家更好的预测并掌握消费者的购买意向。

1 机器学习

1.1 随机森林算法

随机森林是Leo Breiman 把随机子空间算法和集成学习算法相结合,最终得到了解决决策树过拟合问题的随机森林算法。 它是一种基于树的分类器,由多棵决策树构成对样本进行训练,并预测的一种分类器。 对于一棵树,训练样本采用放回式,从总的训练集中随机采样出来,而训练树的结点{G1,G2,…,Gn} 时,特征是从原有特征中按照一定的比例随机地无放回式抽取的,类别的输出是由各节点预测结果来决定最优的预测结果,如图1 所示。

1.2 SVM 算法

支持向量机是由Vapnik 等人根据统计学理论提出的一种新的机器学习方法,是通过监督学习的方式对样本数据进行二分类的广义性分类器,它主要寻找一个超平面对样本数据进行分割,让训练集样本中的数据恰好分布在超平面两侧。 分割原则是间隔最大化,最终转化为一个凸二次规划问题来求解[4]。 给定训练数据集D ={ ( x1,y1) , ( x2,y2) ,…,(xm,ym)},其中xi∈χ =Rn,yi∈γ = { + 1, - 1},i =1,2,…,N,xi为第i 个特征向量,yi为xi的类标记。 它最基本的想法就是在训练集D 的样本空间中找到一个划分超平面,将不同类别的样本分开,其中样本的划分存在很多个超平面,找到一个最佳的分类超平面,如图2 所示。

图1 随机森林Fig. 1 Random forest

图2 支持向量机Fig. 2 Support vector machines

对线性不可分情况的SVM,选择恰当的核函数K(xi,xj) 和恰当的参数C,构造并求解最优问题,如公式(1):

其中:ai为拉格朗日乘子,K(xi,xj) 为核函数,C 为惩罚系数。

支持向量机最终的判别函数,如公式(2):

1.3 朴素贝叶斯算法

朴素贝叶斯算法是结合贝叶斯原理和特征条件假设的分类方法。 有n 维特征向量X ={x1,x2,…,xn},类变量Y ={y1,y2,…,ym}。 根据朴素贝叶斯基本理论,其后验概率,如公式(3):

朴素贝叶斯算法根据样本的特征X,计算所有类别的概率,最终概率最大的类别即为该样本所属的类。P(X) 是不变的,在比较后验概率时,只比较上式分子部分,得到一个样本数据属于类别yi的朴素贝叶斯计算方法,如公式(4):

2 在线购买意向预测

本文实验使用Anaconda 3 5.0.1 环境,UCI 网站公开的Online Shoppers Purchasing Intention Dataset Data Set 数据集,该数据集包含12330 个实例和18个字段,字段包括BounceRates(跳出率)、ExitRates(退出率)、SpecialDay(特殊日期)、Region(区域)、PageValues(页面值)、VisitorType(访客类型)等,其中Revenue 是类标签。

实验使用大部分样本数据进行模型训练,小部分数据进行模型预测。 使用清洗过的数据集建立随机森林、SVM、朴素贝叶斯模型。 为了选出可靠的模型,每个模型都进行k 折交叉验证,参数cv 设置为3、5、10,通过实验验证,得到效果最好是cv =5,即3个模型采用五折交叉验证,结果如表1 所示。 支持向量机模型的参数c 表示惩罚系数,通过多次实验取得c =10 的模型训练效果最好。

表1 模型五折交叉验证评估结果Tab. 1 Model 5-fold cross-validation evaluation results

采用准确率、召回率、F1 值、AUC 作为衡量性能的标准,在构建的在线购买意图预测模型中,其性能评价结果如表2 所示。 从表2 中可以看出随机森林比SVM 准确率、召回率、F1 值、AUC 分别高0.18、0.06、0.12、0.263,比朴素贝叶斯的分别高0.05、0.1、0.08、0.039,因此对在线购买意图预测最好的算法是随机森林。

表2 在线购买意图预测模型性能评价指标Tab. 2 Performance evaluation index of online purchase intention prediction model

3 结束语

在线购买已经成为一种消费趋势,文章使用机器学习中随机森林算法、SVM 算法、朴素贝叶斯算法建立在线购买意图预测模型,通过比较模型的准确率、召回率、F1 值、AUC,得到随机森林算法更适合用于在线购买意图的预测。 就此,电商网站可以通过网站消费者的行为数据预测用户的偏好和购买行为,机器学习发挥了重要的作用,对提高产品购买销售具有重要的意义。

猜你喜欢
贝叶斯朴素样本
隔离朴素
朴素的安慰(组诗)
他是那样“笨拙”和朴素——30多年后,我们为什么还需要读路遥?
基于贝叶斯网络的海盗袭击事件影响因素
最神奇最朴素的两本书
规划·样本
人大专题询问之“方城样本”
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
贝叶斯公式的应用和推广