赵家胤
(南京信息职业技术学院数字商务学院,江苏 南京 210013)
近些年来,电子商务市场发展迅速,消费者选择网络购物的比例也日趋增长。随之而来的是消费者对网络购物体验的要求日益提高。因此,传统的较为模糊的指标体系己经不能很好地评价现今互联网电子商务顾客满意度[1]。最近几年,国内外学者专家在电子商务满意度方面的研究逐渐变多,但仍未形成统一完善的标准,很多评价方式依旧存在弊端与局限性。
顾客满意度一般包括商品满意、服务满意、理念满意等方面。仓星星[2]归纳了五种因素来研究电商品牌形象对顾客满意度的影响。陈振华[3]基于ACSI 模型来研究商品、平台、配送质量对顾客消费感知的影响,以此来评价生鲜电商顾客满意度。刘潇等[4]提出了结构方程模型,研究了在B2C 中与配送相关的指标对电子商务满意度的影响。本文在己有研究成果的基础上,结合B2C 电子商务运营模式特点及顾客满意度的影响因素,并对己有指标体系的指标进行优化,运用模糊综合评价法构造一套电子商务顾客满意度测度指标体系[5],对顾客满意度做出科学定量的综合评价,并对所选择的电商平台和物流公司的业绩情况分别进行动态综合评价[6]。
近年来,随着机器学习理论以及深度学习成为学术界的研究热点,其应用场景也日益广泛,其中便包含了电子商务满意度评价[7]。Lakkaraju 等[8]提出了一系列概率模型,这些模型基于有关情感表达的内容,以监督的方式建模,在多点尺度上对情感主题进行排序。Turdja 等[9]利用机器学习方法通过分析客户情绪来判断客户满意度。Mikolov 等[10]将Word2Vec 应用于满意度评价模型,该方法表示能够有效学习语义信息。在分布式表示基础上,Socher 等[11]提出了采用递归神经网络捕获文本信息,从而识别文本中所隐含的意见倾向。本文基于机器学习方法,从商品评论信息的角度,展开对电子商务满意度的评价研究。
顾客满意度用来衡量顾客实际接受服务与期望服务的相关关系。SCSB 模型(Sweden Customer Satisfaction Barometer)是最早建立的全国性顾客满意指数模式,其中包含了5 种变量,分别是:客户感知、客户满意、客户忠诚、客户期望以及客户投诉[12]。而在1999 年,依照中国国情,清华大学建立了中国国情的满意度评价模型CCSI。
目前电子商务顾客满意度的研究方式主要采用问卷调查的方式。但这些方式不仅会花费大量的时间,而且样本的覆盖面有一定局限性,效果往往也一般。
对于顾客满意度评价指标体系,以让消费者满意为核心,确定一级指标为消费者对电商平台(或者电商)、商品、物流公司的满意度,根据电商平台、商品、物流公司的类型特点,分别给出对其进行评价的二级指标。
建立模型进行筛选,排除不具有代表性的数据,对各项二级指标进行平均求值,计算得出一级指标的值,进而确定评价体系及其指标,如图1 所示。
图1 模糊综合评价流程
这里选取的电商为华为,物流公司为申通。在评价华为时,从销售量、营业额、市场占有率三个层面来分析,在评价申通时,从货运量、营业额、市场占有率三个层面来分析。从数据统计来看,两者有其相似性,在对它们进行评价时,要充分考虑不同时期它们各项指标的“质差”与“量差”。
考虑到评价指标的“质差”与“量差”的关系,在确定综合评价指标时,既要能体现不同类型指标之间的差异,也要能体现同类型指标的数量差异。从实际问题出发分析确定不同的权函数。对于不同的指标可以取相同的权函数,也可以取不同的权函数。
自1965 年模糊理论被Zadeh L A[13]提出以来,其中的模糊综合评价问题至今已经形成了一套相对完整的体系。模糊综合评价方法的基本思想是,以模糊数学、模糊线性变换原理和最大隶属度原则为基础,考虑所需评价事物的各个评价指标因素,对其做出合理的优劣、等级评价。它利用隶属函数作为桥梁,将不确定性非量化因素在形式上转化为确定性量化结果,即将模糊性加以量化,从而可以利用传统的数学方法对其进行分析及处理,本质上是应用模糊关系合成,从多个因素对评价对象隶属等级状况进行综合评价的一种方法。
(1)缺失数据的处理。对于数据中存在的缺失现象,本文采用均值替换法(Mean Imputation)对缺失数据进行替换。均值替换法就是将该项目剔除异常数据后,取剩余数据的平均值来替换异常或缺失数据的方法,如下式所示:
(2)相关数据的筛选。根据利益相关性模型筛选指标,筛选剔除与满意度无关的指标,如被调查者的性别、华为公司的成立时间等。
在筛选过后,我们对问卷上的问题进行概括,总结得出10 个二级指标。其中售后服务、知名度、客服态度为华为官网旗舰店满意度评价指标体系中的二级指标,手机外观、手机性能、手机价格为华为手机满意度评价指标体系中的二级指标,物流速度、安全性、服务态度、物流价格为申通物流满意度评价指标体系中的二级指标。具体分类如表1~表3 所示。
表1 对华为商城满意度评价指标体系的建立
表2 对华为手机满意度评价指标体系的建立
表3 对申通物流满意度评价指标体系的建立
由收集数据可分别得出顾客对华为的售后服务、知名度、客服态度,手机外观、手机性能、手机价格,申通的物流速度、安全性、服务态度、物流价格的满意度评价。非常满意为5 分,满意为4 分,基本满意为3 分,不满意为2 分,很不满意为1 分,各项指标5 年总评价采用年平均满意度(u)计算。
可知顾客对华为官网旗舰店满意度为3.664分,对华为手机满意度为3.582 分,顾客对申通物流满意度为3.600 分。可以看到,顾客对华为官网旗舰店、华为手机、申通物流满意度均为满意。
对5 年来3 个环节总体进行评价,采用模糊综合评价模型,具体步骤如下:
(1)选取因素集U={ 顾客对华为官网旗舰店年平均满意度u1,顾客对手机年平均满意度u2,顾客对申通物流年平均满意度u3}
(2)选取评语集V={ 非常满意v1=5,满意v2=4,基本满意v3=3,不太满意v4=2,很不满意v5=1}
(3)确定各因素权重:A(0.3,0.4,0.3)
(4)确定综合判断量:加权平均满意度R=A·U=3.61
(5)构造模糊隶属函数:为连续量化,取偏大型柯西分布和对数函数作为隶属函数:
式中,α、β、a、b为待定常数。当“很满意”时,隶属度为1,即f(5)=1;当“较满意”时,隶属度为0.8,即f(3)=0.8;当“很不满意”时,隶属度为0.01,即f(1)=0.01;据此计算得α=1.108 6,β=0.894 2,a=0.391 5,b=0.369 9,则
由此可计算隶属度f(R)=f(3.61)=0.869 3,根据计算结果可知整体上很满意。
图2 隶属函数
模糊综合评价模型的因素权重需要采用主观赋权的方式,这会导致模型最终的结果强烈依赖于因素权重的好坏,具有很强的主观成分。针对这一问题,本文提出采用随机森林[14]这种客观的传统机器学习算法来建立满意度评价模型。
随机森林(Random Forest)算法是一种通用的分类和回归方法。它通过集成学习的思想将多棵决策树集成,集成了所有的分类投票结果,将获得投票次数最多的类别指定为最终的分类结果,其在变量数量远远大于观察结果数量的情况下显示出了出色的性能。随机森林算法具有以下优点:
(1)模型引入了随机性,不容易过拟合,具有较强的鲁棒性;
(2)训练速度快,可以并行化计算;
(3)可以处理离散型、布尔型、连续型数据,无需做规范化以及特征选择,通过计算特征重要性可以判断出不同特征的重要程度。
基于以上优点,随机森林模型可以很容易适应各种特殊的学习任务,并且适用于本文的评价模型。随机森林算法的流程如图3 所示。
图3 随机森林分类算法流程
本文应用随机森林算法对华为商城手机购物满意度的评价数据进行分类预测。数据集包括关于电商平台对手机(性能和价格)、服务(销售和售后)以及物流等相关信息共2 000 条。消费者对购买手机时的各因素满意程度进行打分,满分为5 分,同时,消费者也会对整体的手机购物满意度进行打分,分为两个类别:“满意”与“不满意”,这将作为数据集的标签。
本文对所有评论语料进行分词,由于分词后的词组数量较大,全部计算会导致矩阵运算维度过高,因而需要依据词组的信息增量选取区分度高的词组作为候选特征,本文选取的特征维数为40,每个特征统计当前评论文本中当前特征词集合词组的出现总数。除此之外,本文将上文的二级指标手机性能、手机价格、手机外观、售后服务、快递速度、物流安全等因素的得分也作为候选特征,因而模型的输入特征维度为n=50。
实验中数据划分为训练数据占比80%,其余部分作为测试数据。模型在预测的过程中利用训练集生成对应的随机森林,利用特征向量来预测满意度情况。
随机森林选取CART 树作为弱分类器决策树,总共建立19 棵CART 树,最大特征数量m分别设置为5、10、20 进行对比。
为了验证随机森林算法的性能,本文选择了常用的机器学习文本分类模型作为基线模型,包括逻辑回归(Logistics Regression,LR)模型以及支持向量机(Support Vector Machine,SVM)模型,与本文所使用的随机森林模型进行对比。实验结果如表4所示。
表4 华为商城手机购物满意度分类结果
由实验结果可以看到,本文所提出电子商务满意度评价模型,整体上的表现比两个基线模型的性能要稍微好些,也证明了本问题所提出的评价模型的有效性和可行性。
对比m的不同取值可以看出,当m=10 的时候,模型的性能最佳。通过计算随机森林模型的特征重要性可以看出,对最终的满意度得分影响较大的特征包含了手机性能、手机外观以及手机价格的得分,这说明顾客对华为手机的满意度对整体的满意度影响较大,这也与上文模糊综合评价模型的因素集权重一致。另一方面,模型的特征重要性验证了随机森林具有在不需要做特征选择的情况下可以判断出不同特征的重要程度的优点。
本文首先运用模糊综合评价建立服务满意度综合评价模型,通过建立评价指标体系以及确定因素集权重,构造隶属函数可以计算出顾客满意度。然而,由于这种评价模型属于主观评分,类似于体育比赛中对运动员的打分,所以这种主观上的打分很可能受个人因素的影响,因而本文通过采用正态分布检验验证了调查数据中评分的合理性。而针对上述问题,本文应用机器学习算法随机森林建立客观的满意度评价模型,对华为商城手机购物满意度的评价数据进行分类预测。实验表明,本文所提出的满意度评价模型是有效的,并且相比于其他基线机器学习模型,具有更加良好的性能,同时能够有效识别出对最终满意度得分影响较大的特征,验证了模糊综合评价模型中因素集权重的合理性。
本文的工作还可以更深入研究精细的应用场景,比如可以针对具体商品根据评论信息,分析消费者对商品属性的满意程度,以便更精准地评价影响电子商务满意度的各个因素。