沈思怡 倪杰 夏晓倩 杨晓蓉
(1.浙江工商大学统计与数学学院,浙江 杭州 310018)
(2.统计数据工程技术与应用协同创新中心,浙江 杭州 310018)
随着网络的普及、物流体系的不断完善,网络购物以其商品类型多样、商品价格低廉以及消费方式便捷深受广大消费者的喜爱,成为当下最盛行的购物模式[1]。然而,由于买卖双方无法协调退货运费而产生大量退货纠纷阻碍了电子商务市场的健康稳定发展。退货运费险在解决这方面问题上发挥了积极作用,成为我国电子商务市场中不可或缺的环节。因此,为了维护买卖双方的利益和保证保险公司的盈利,进一步研究有关退货运费险定价方面的问题,制定符合电商平台发展需求的退货运费险定价方案十分必要。
本文从网购消费者视角切入,首先,寻找不同商品类别下网购消费者退货情况的重要影响因素。其次,采用预期损失定价法和贝叶斯网络方法建立定价模型,对退货运费险进行合理定价。最后,在模型的基础上,给出相应的结论与建议。
贝叶斯网络结合了概率论与图论的知识,是一种基于概率推理的图形化网络,适用于表达和分析不确定性和概率性的事件。贝叶斯网络在给定某些先验信息后,能够利用条件概率表定量地描述事件之间的关系。设贝叶斯网络表示成BN=(G,P),其中BN代表贝叶斯网络,G代表有向无环图,P代表节点条件概率表。令?表示网络中所有节点的集合,pa(Xi)表示节点Xi所有父节点的集合,当pa(Xi)为空集时,P(Xi|pa(Xi))为先验概率P(xi),则P(Xi|pa(Xi))表示节点Xi的条件概率表,由此可计算得到联合概率分布[2],即
贝叶斯网络学习包括结构学习和参数学习。结构学习方法常用的有基于评分搜索的方法,其将贝叶斯网络结构学习问题视为优化问题,根据某种评分函数,利用搜索算法寻找评分最优的网络结构。该方法主要包括两个部分,一个是评分函数,用于评价网络结构与样本数据的拟合程度;另一个是搜索算法,用于搜索评分最高的网络结构。目前,评分函数主要包括贝叶斯评分(MAP)、贝叶斯信息准则评分(BIC)等,搜索算法主要包括爬山算法等,具体原理可参考文献[3-4]。参数学习方法常用的有贝叶斯估计法[5],该方法基于贝叶斯理论,充分考虑了先验信息和样本信息对待估参数的影响,基本原理是:首先将待估参数θf视作一个随机变量,然后确定参数θ的先验分布P(θ),最后通过贝叶斯公式计算出参数θ的后验概率P(θ|D)。
根据退货运费险市场的实际情况,本文将影响消费者退货概率的主要因素归纳为消费者个人因素、商家因素和商品因素三个方面,采用调查问卷的方式获取所需数据。
1.消费者个人因素侧重于消费者个人情况对其退货情况的影响,共有14个,包括性别、年龄、网购年龄、平均每月网购交易额、平均每月网购频率、挑选商品的时间长度、常用的物流公司、平均每月退货频率、历史退货率、退货运费险补偿金额、是否购买过保险、购买商品总数、消费者忠诚度、退货运费价格。
2.商家因素侧重于商家情况对消费者退货情况的影响,共有2个,包括商品降价补偿措施、商家的综合信誉度。
3.商品因素侧重于商品情况对消费者退货情况的影响,共有5个,包括商品类别、商品最高价位、商品包装精美程度、商品质量情况、商品电子口碑好评度。
考虑到数据的实际搜集情况以及消费者之间的差异性,本文选取“退货”的样本数较多的商品类别作为本文研究的对象,最终选取衣帽鞋饰品类、数码电子类和美容护肤类这三组分别进行建模。
在建模之前,对所获取的数据进行预处理,以保证数据的可用性。针对这三组样本数据存在明显类不平衡问题,使用欠采样的方法处理,使每个数据集中的类别达到平衡。此外,本文使用基于互信息的变量选择方法筛选消费者退货情况的重要影响因素,即以退货情况作为被解释变量,以上述21个影响因素作为解释变量,分别计算三种商品类别下各影响因素与退货情况之间的互信息值,阈值设定为0.01,按照关联程度筛选变量,留下关联性较强的变量作为后续用于建模的变量。
经过变量选择,筛选得到不同商品类别下影响消费者退货概率的重要因素各10个,具体见表1。
表1 三种商品类别下的重要影响因素
由结果可知,消费者购买不同类别的商品,其退货的主要影响因素会有所不同。经过变量选择后,在上述三种类别中,共同的影响因素有平均每月退货频率、历史退货率、商品质量情况、商品包装精美程度、商品降价补偿措施、商品电子口碑好评度,但每个变量在不同的商品类别下,它们的重要程度是不同的。另外,不同商品类别的退货情况还受到特定的因素影响。例如,衣帽鞋饰品类的退货情况还受到平均每月网购交易额、是否购买过保险的影响,数码电子类的退货情况还受到购买商品总数、商家的综合信誉度的影响,美容护肤类的退货情况还受到年龄、退货运费价格这些因素的影响。
1.构建退货运费险定价模型
考虑到预期损失定价法具有一般性,且计算原则简单,本文建立预期损失定价模型对退货运费险进行合理定价。预期损失定价法的定价公式如下。
预期损失率=预期违约概率*风险敞口*预期违约损失率
上式中,预期违约概率一般根据消费者预期退货概率确定;风险敞口在一般情况下等于1;预期违约损失率是指违约造成的损失占被保单运费总额的比例,通常情况下也等于1。如此就把退货运费险定价模型转换为求预期退货概率这一关键参数的值。下面则重点对消费者退货概率进行预测。
2.构建贝叶斯网络预测模型
贝叶斯网络是研究不确定性问题的优良方法,是描述随机变量间关系的一种工具。消费者退货情况受诸多因素影响,这些影响因素彼此关联,其蕴含的信息又具有不确定性和相关性的特点,因此本文选用贝叶斯网络方法建立消费者退货概率的预测模型,这样既能够挖掘出影响因素与消费者退货情况的关联关系,也更加贴近现实情况。
根据前面筛选出的不同类别下影响消费者退货情况的重要变量,在确定网络节点时,将这些变量全部考虑在内,并把退货情况这一被解释变量也纳入网络结构,即衣帽鞋饰品类、数码电子类和美容护肤类这三种商品类别的网络节点均为11个。然后,本文采用基于评分搜索的方法进行贝叶斯网络结构学习以及采用贝叶斯估计法进行贝叶斯网络参数学习。使用基于评分搜索的方法需要考虑两个方面,一方面是评分函数选择,另一方面是搜索算法的选择。目前,常用的评分函数有K2评分、BDeu评分、BIC评分,常用的搜索算法有:K2算法、爬山算法。可是,将哪个评分函数与哪个搜索算法结合使用可以得到最合适的网络结构还未可知,所以本文尝试多种组合方式,期望找到适用于不同商品类别下的消费者退货概率的贝叶斯网络结构。考虑到爬山算法原理简单且可与任一评分函数一起使用,故将爬山算法作为固定的搜索算法,分别与K2评分、BDeu评分和BIC评分组合成三种贝叶斯网络结构学习方法,分别称为K2评分-爬山搜索法、BDeu评分-爬山搜索法、BIC评分-爬山搜索法,借此建立贝叶斯网络结构。贝叶斯网络结构学习完成后,使用贝叶斯估计法进行参数学习,充分利用样本信息学习得到每个网络节点的条件概率分布。
综上,本文基于衣帽鞋饰品类、数码电子类和美容护肤类这三组样本数据和经过变量选择保留的变量,选择使用K2评分-爬山搜索法、BDeu评分-爬山搜索法、BIC评分-爬山搜索法这三种贝叶斯网络结构学习方法分别建立消费者退货概率的贝叶斯网络结构。在同一种商品类别下,通过上述三种贝叶斯网络结构学习方法可构建三种不同的网络拓扑结构,继而利用建立的网络结构进行参数学习,预测消费者退货概率,最后比较“退货”和“未退货”两个类的F1值以及平均准确率,选择效果最好的模型作为该类别下最终的贝叶斯网络预测模型,那么该模型的网络结构则为该类别下最优的网络结构。
在同一商品类别下,通过对比采用K2评分-爬山搜索法、BIC评分-爬山搜索法、BDeu评分-爬山搜索法这三种结构学习方法建立的贝叶斯网络预测模型的效果,能够得到最优的模型,最终结果见表2。
表2 三种商品类别下的最优贝叶斯网络模型预测结果
结果显示,不同商品类别下的贝叶斯网络预测模型的平均预测准确率均在74%以上。从F1值的角度来看,各类别的F1值均在72%以上,说明本文所建立的各类别下的贝叶斯网络预测模型效果均较好。
除了贝叶斯网络以外,机器学习还有随机森林、XGBoost、支持向量机等非线性算法。本文采用随机森林、XGBoost、支持向量机三种算法建立模型,对消费者退货概率进行预测,然后与最优的贝叶斯网络模型预测结果进行比较,分析这四种方法的预测精度,以此验证贝叶斯网络方法的有效性,结果如表3所示。
表3 各模型预测结果对比
结果表明,在三种商品类别下,贝叶斯网络模型预测效果较优于其他三种方法建立的模型,这表明本文所构建的贝叶斯网络模型具有良好的预测精度和泛化能力,并且该模型能从概率的角度较好地描述退货情况与其对应影响因素之间的非线性关系,因此将该模型应用于消费者退货概率预测是可行的。
研究发现,消费者购买不同类别的商品,其退货的主要影响因素有所不同,且每个变量在不同的商品类别下,它们的重要程度也不同。如果按照消费者购买的商品类别划分样本可构建更加优良的贝叶斯网络模型。此外,研究结果还证明了贝叶斯网络模型可以作为预测消费者退货概率的有效工具,按照以上思路能够实现退货运费险的差别化定价和动态定价。基于以上结论,为促进退货运费险市场良好发展提出如下建议:其一,细分消费者群体有助于制定差别化的退货运费险定价方案,使方案更具针对性;其二,保险公司在针对不同消费群体制定退货运费险定价时,应该关注到消费者退货概率与影响因素之间相关性以及影响因素与影响因素之间的相关性,并且在定价过程中应该有所侧重,避免使用相同变量导致模型无法有效预测消费者退货概率;其三,利用贝叶斯网络模型得到消费者后验退货概率后,需“有的放矢”地采取定价措施,避免设置过高的价格“劝退”消费者。