基于决策树法的在线餐饮外卖店铺评分影响因素研究

2019-03-29 12:04谢明君
商情 2019年3期
关键词:决策树影响因素

谢明君

【摘要】店铺评分是各个商家及消费者都较为关注的方面,如何提升在线餐饮外卖店铺评分则成为了很多商家关心的问题。本文利用CHAID决策树算法对影响在线餐饮外卖店铺评分的因素进行了实证研究。研究结果表明,该模型拥有较高的准确率,可帮助商家明确需要提升的方面,从而提高其店铺评分,成为高分店铺,获取更多消费者的满意。

【关键词】决策树;店铺评分;餐饮外卖;影响因素

一、引言

外卖是一种将线上与线下进行结合的餐饮模式,其依托互联网,整合各餐饮类型的商家信息,包括其位置、商品种类、价格、配送时间、配送费用、满减信息等情况,为消费者提供一个较为全面的选择平台,让消费者足不出户,即可通过线上外卖平台下单,享受各类美食。同时外卖平台也为各个商家提供了获取更多消费者的机会,使其能够触达更多的用户,从而提升其销售量、销售额及知名度。

近几年,我国在线餐饮外卖市场为了给消费者提供更多选择,满足消费者越来越多元化、个性化的需求,不断完善,整体发展速度较快。据易观《互联网餐饮外卖行业数字化进程分析》数据显示,2018年第3季度中国互联网餐饮外卖市场整体交易规模达1275.4亿元人民币,环比上涨24.0%。与去年同期相比,增幅高达119.0%。可见,消费者对外卖的需求还是较大的。但这并不意味着消费者对外卖的要求会降低,反而由于消费者有了更多的选择,更容易进行商品对比、商家对比,消费者的期望值会更高,要求也会更高,那么店铺评分(即:消费者订单完成后,可对该店铺提供的商品和服务进行评价和打分,以此来体现消费者对此订单的满意情况。)将成为消费者选择的一个重要依据,高分店铺有哪些特征,也是各外卖商家较为关注的一个事情。

目前现有研究成果来看,大多是从消费者和平台的角度对外卖市场进行研究分析的,很少有从商家的角度进行研究。消费者方面包括消费者忠诚度、消费者满意度、消费者重复购买意向等,例如,李行天、于亚卓和肖泽中通过问卷调研,利用因子分析、结构方程模型、回归分析方法研究了外卖消费者的顾客忠诚形成机制;刘佩琦对影响020模式下餐饮外卖顾客满意度指标的研究;耿爽爽对餐饮外卖020用户重复购买意向影响因素进行了研究。平台研究方面包括食品安全、信用评价体系等,例如,张志祥和石岿然对020平台上外卖食品安全问题进行了研究;朱园园和周芳对网络外卖平台信用评价体系进行了研究。

因此,本文将从商家的角度出发,采用CHAID算法对高分店铺进行了实证研究,旨在帮助商家明确哪些因素对消费者打分有重要的影响,以期帮助商家找到提升店铺评分的切人点。

二、决策树算法

(一)决策树算法

决策树算法是对数据分类及预测的一种方式,其最终的展示结果是以一颗树的形式展现。其中这棵树的根节点包含的信息量最多,中间节点是以该节点为根的子树中含有信息量最多的。决策树可分为分类树和回归树两种,分类树用来实现对定类或定序目标变量的分类,回归树是对定距目标变量取值的预测。经常被使用的决策树模型有卡方自动交互检测法(Chi-squared AutomaticInteraction Detector,CHAID)、快速无偏有效统计树法(QuickUnbiased Efficient Statistic Tree,QUEST)、分类和回归树法(Classification and Regression Tree,CART)、ID3算法(IterativeDichotomiser Version 3,ID3)、C4.5算法(Commercial Version 4.5,C4.5)等。其中CHMD算法最早由Kass于1980年提出,用来发现变量之间关系的工具。利用CHAID算法可以高效地挖掘出影响的主要因素,其不仅可以处理非线性和高度相关的数据,而且可以将缺失值考虑在内,能克服传统的参数检验方法在这些方面的不足。并且当变量较多且都是分类变量时,CHAID算法更适合,因此,本文便采取CHAID算法对在线餐饮外卖店铺的评分做了研究。

(二)CHAID算法.

1 CHAID算法决策树的构成

(1)根节点:包含因变量或目标变量;(2)父节点:该算法将目标变量分为两个或多个分类,这些分类被称为父节点或者初始节点;(3)子节点:CHAID分析树中独立变量分类低于父节点的分类被称为子节点;(4)終端节点:CHAID分析树最后一个分类被称为终端节点。

2.CHAID算法的过程

(1)找出可以使目标变量实现分布差异最小化的两个分类,即P值最大。不同的目标变量类型,P值的计算方法也是不同的:当目标变量为连续型变量时,采取F检验;当目标变量为分类型变量,采取卡方检验或者似然估计法检验;当目标变量是离散型或者定序型变量,采取似然估计法检验。

(2)找到P值最大的两类,并将P值与事先设定好的合并水准进行比较,如果P值大于合并水准,则对这两类进行合并,生成一个新的大类,重复上述步骤。若果P值小于合并水准,则采用步骤(3)。

(3)用Bonferroni法对x和Y的列联表计算。

(4)选择Bonferroni-Adjusted P值小的x。将其P值与事先设定好的类拆分水准进行比较,如果P值小于类拆分水准,则按照一系列x类目对节点进行拆分;如果P值大于类拆分水准,则该节点为叶子节点。

决策树按照上述步骤生长至结束。

3.CHAID算法的优点

(1)可产生多分枝的决策树;(2)目标变量类型可以是定类变量或者是定距变量;(3)从统计显著性角度确定分支变量和分隔值,进而优化树的分枝过程;(4)建立在因果关系探讨中,依据目标变量实现对输入变量众多水平划分。

三、CHAID算法在在线餐饮外卖店铺评分中的应用

本文采用CHAID算法实现影响因素和店铺评分之间的映射,挖掘出两者之间的关联情况。研究思路如图1所示:

(一)数据准备

本文是以某外卖平台上的店铺数据为例,从而进行实例分析。总条数为2125条,共包含24+指标维度。获取的数据主要包含与店铺相关的信息数据和与商品相关的信息数据。

1.店铺相关信息有:店铺名称、店铺所在省份、店铺类型、店铺营业时间、店铺评分、平均送达时间、店铺最小起送单价、店铺月销量等信息。

2.商品相关信息有:商品标题、商品好评率、商品配送费用、商品原价、商品现价、商品月销量、商品类别等信息。

(二)数据预处理

有些时候,我们直接获取的数据并不能很好的为我们所用,如数据缺失、不一致等因素,因此在获取数据后,需要对所获数据进行一定的预处理。

1.数据清洗

由于数据是通过爬虫获取的,所以需要清洗掉一些无用的数据,以保证数据的有效使用。

2.变量分组

本文中对获取的数据进行了一定的分组,以便更好的使用CHAID算法。

如商品现价划分为:(0,10]、(10,20]、(20,50]、大于50;商品好评率划分为:[0,90]、[91,95]、[96,100];店铺月销量划分为:[0,500]、[501,1000]、[1001,2000]、大于2000;菜品评价划分为:(0,4.3]、[4.4,4.7]、[4.8,5.O]等。

同时本文中将店铺综合评价分值在[4.8,5.0]的店铺定义为高分店铺,并且在是否为高分店铺选项中标记为是,其他则为否。部分处理后的数据见表1。

(三)数据集划分

本文共有样本总数2125条,抽取70%样本作为训练样本;其余30%作为测试样本。

(四)数据分析过程和结论

1.数据描述性统计

本文中商品数据总条数为2125条,共包含24个指标维度。部分数据统计情况如下:

共有267个商品归属于高分店铺,占比12.6%。商品现价集中在0-10元,占比49.1%;

其次是10-20元,占比29.4%;20元以上占比21.5%。商品好评率为9 1%-95%占比50.7%;

96%-100%占比32.1%;90%及以下占比17.2%。商品配送费用占比最多的是0-3元,占比

56.3%;其次是4-6元,占比 36.1%;6元以上占比7.6%。商品归属为品牌店铺的有403条,占比19.0%;商品评价送达时间为30-40分钟,占比78.4%。

2.数据分析过程

本文使用SPSS统计软件进行操作,其中将“是否为高分店铺”选为因变量,将剩下的变量放人自变量框中,即用这些变量描述高分店铺的特征。通常情况下,需要对自变量和因变量进行相关性检验,选取对目标变量有显著影响及相关程度高的自变量用来预测,过滤掉没有显著影响的因素。但是SPSS软件在构造决策树时会自动对因素进行检验,不会让没有显著影响的变量出现在决策树中,因此本文将剩下的变量均选人自变量框中。通过对输出、条件、验证、保存等模块的设置,SPSS统计软件输出了以下结果:

(1)模型摘要表格,见表2

可以看出,最终的模型只纳入菜品评价得分、高于周边商家得分、商品好评率三个自变量。

(3)节点增益表,见表3。可以看出在节点3处,高分店铺的占比有显著提升。

3.模型效果评估与结论

通过SPSS输出的风险表格和分类表格,可以得知训练集的风险估算值为0.064,总计正确百分比为93.6%;检验集的风险估算值为0.065,总计正确百分比为93.5%。可见模型的效果良好,可以有效进行预判。根据模型输出的决策树,可以总结出高分店铺的特征:

(1)菜品评价得分介于4.8-5.0之间,更易被评为高分店铺。因为训练样本中高分店铺一共有191個,占比12.5%;但是在菜品评价得分介于4.8-5.0之间时,高分店铺一共有122个,占这部分样本的81.3%,因此可以看出菜品评价得分的重要性,商家可以在这部分多下功夫,获得高分店铺的可能性越大。

(2)菜品评价得分介于4.4-4.7之间,且高于周边商家评分位于4.8-5.0之间,也是可以获得高分店铺的。研究表明,这种情况下,商家获得高分店铺的可能性为37.7%。因此如果商家对菜品评价得分不知如何提高,并且其位于中档,即4.4-4.7之间时,可以从提高高于周边商家评分人手,使其分值位于4.8-5.0之间,为商家提供了另一种获得高分店铺的可能;

(3)菜品评价得分介于4.4-4.7之间,高于周边商家评分小于等于4.7,但商品好评率位于96%-100%之间,亦是可以获得高分店铺的,此种可能性达到8.5%。虽然商家在菜品评价得分和高于周边商家评分上面均未能处于高分档,但还可以从提高商品好评率着手,使其位于96%-100%之间,从而变为高分店铺。

四、结束语

本文提供了一种基于CHAID决策树算法对在线餐饮外卖店铺评分影响因素的研究。通过高分店铺与非高分店铺的对比,发现高分店铺存在的一些特征,筛选出与高分店铺相关的显著性指标,这些工作对于进一步深入的店铺评分分析,可以起到参考意义。

猜你喜欢
决策树影响因素
简述一种基于C4.5的随机决策树集成分类算法设计
一种改进的MEP决策树剪枝算法
决策树学习的剪枝方法
突发事件下应急物资保障能力影响因素研究
农业生产性服务业需求影响因素分析
村级发展互助资金组织的运行效率研究
基于系统论的煤层瓦斯压力测定影响因素分析
决策树在施工项目管理中的应用