麦继芳, 崔 霞
(广州大学 经济统计学院, 广东 广州 510006)
面向大数据的淘宝卖家信用度的影响因素分析
麦继芳, 崔 霞
(广州大学 经济统计学院, 广东 广州 510006)
消费者在电商平台上购买商品时,并不能获得关于消费品的所有信息,只能通过卖家信用、商品图片和购买评价等指标来判定所选的网店以及商品是否可靠.其中,卖家信用对于消费者的参考尤其重要.对卖家信用度建模能够在一定程度上保护交易双方的合法利益,提高交易的成功率.文章基于部分线性可加模型,结合社会资本数据(如新浪微博),对淘宝卖家信用度进行建模分析:①对数据进行相关分析、异常值剔除、多重共线性消除等预处理;②利用集群Lasso变量选择方法,识别出对卖家信誉有显著影响的因素;③对识别出来的因素与卖家信用做简单线性拟合,得出的结果与实际情况相违背,故又使用广义可加模型实现对卖家信誉的预测分析.该信用度模型能够很好地识别刷单卖家,帮助买家防范卖家的欺诈行为.
部分线性可加模型; 大数据; 半参数模型; Lasso;R语言
电子商务的迅速发展给人们的生活带来了极大的方便.通过网络和现代物流,人们足不出户就可以方便购买来自全国各地的各种商品.淘宝网作为B2C电子商务的龙头老大,凭借其产品的丰富和信誉评价机制的安全优势,获得了越来越多在线消费者的信任.然而,由于卖家的逐利性,刷单和刷信誉的行为越来越多.对卖家信用度建模能够在一定程度上保护交易双方的合法利益,提高交易成功率.现行使用的信用度评价系统一般采用简单累加得出卖家的信用度值,过度依赖于好评率,缺少对影响交易其他因素的考虑,如退款率、宝贝数等.另外,目前使用的信用评价系统主要依赖淘宝平台内部数据,却未涉及大数据中的社会资本数据.因此,建立有效、实用的网络购物网站信用评价模型,具有重要的理论意义和现实意义.
电子商务信用的研究还是一个相对较新的领域,文献[1-2]是国内学者对淘宝网商家信用度评价模型的研究.在国外,中小企业的信用评价是对其品德、声望、资格、资金实力、担保以及经营条件等进行分析,来测度违约可能性并且对违约风险进行分类.这种信用评价技术目前主要是依赖于一些统计模型,如线性概率模型、分对数模型和线性判别式分析.国外目前常用的信用评价方法有:5C法等要素法[3]、财务比率综合分析法、信用度量分析模型[4].
本文基于部分线性可加模型[5],结合社会资本数据(如新浪微博),对淘宝卖家信用度进行建模分析.在该模型中设计变量有28个,包括好评率、差评率、退换货速度、是否为微博达人等.本文探索了影响卖家信用的主要因素及其影响方式,即在模型主要部分中是以线性函数的方式还是非参数函数的方式呈现.当变量个数很多时,可能会包括一些冗余的变量.变量选择方法能够去掉冗余变量,精简模型,从而提高模型预测的准确性和模型的解释性.
1996年,TIBSHIRANI[6]提出了一种新型的变量选择方法,即Least absolute shrinkage and selection operator(Lasso).Lasso方法是一种基于惩罚范式的变量选择方法,与现有变量选择方法比较, Lasso 不仅能够准确地选择出重要变量, 同时还具备变量选择的稳定性.Lasso方法能够同时进行变量选择和参数估计,可适度压缩参数.文献[7]探讨了Lasso 方法用于高维度、强相关、小样本的生存资料分析.近年来,有些学者在Lasso算法的改进上做了研究.2004年,EFRON等[8]提出了Least angle regression(Lar),该算法使得Lasso的计算更加简单,应用更加广泛.ZOU等[9]在2005年提出了Elastic Net,该方法能够更好地处理变量数目p远远大于样本容量n的情形,而且有较好的自变量分组效应.FAN等[10]于2001年提出了SCAD方法,该方法克服了Lasso有偏估计的缺点,改善了其参数估计的一致性和变量选择一致性. 2011年,何晓群等[11]提出了Adaptive Lasso 方法,该方法的自适应性通过对不同系数采用不同程度的压缩来实现.
在对本文中的淘宝数据进行分析时,①剔除异常值、进行相关性分析、多重共线性消除等预处理.②对数据使用多元线性回归模型做拟合,由于变量个数过多,笔者使用了Lasso做变量选择.遗憾的是,从拟合结果看线性模型拟合这组数据时有一些问题,如卖家信用与关注人数呈负相关,这与现实经验不相符.③使用部分线性可加模型分析这组数据,并且使用集群Lasso方法对影响卖家信用度的因素进行选择.从拟合结果看,该模型是充分的.
部分线性可加模型是一类应用广泛的半参数模型[5].其形式:
(1)
其中,Yi为被解释变量,模型中有p+1个解释变量{X0i,X1i,…,Xpi},其中X0i=1;q个解释变量{Z1i,…,Zqi}.βk是线性部分的未知参数,fk(.)是未知的光滑函数,εi为均值为零的随机误差.为了保证模型中未知参数的可识别性,假设E{fk(Zki)}=0.为了方便估计fk(·),不妨设{Z1i,…,Zqi}的支撑是[0,1].
其中,{tkj,j=1,…,pk}是第k个函数展开时所用的节点.
(2)
上述近似模型(2)的集群Lasso估计可以定义为如下极小化问题的解:
(3)
Lasso方法通过选取不同的惩罚参数的值得到不同变量系数的组合,将其反应到图形中,即得到解路径,从而看出变量进入活动变量的先后顺序,并以此为依据对变量的重要性做出判断. 模型(3)本质上是一个最优化问题.在Lasso被提出的前几年,因为缺少对其高效求解的算法,所以一直没有广泛流行.直到Lars算法,使得Lasso的求解方便而快捷,从此Lasso相关的方法被广泛的研究.文献[8]指出,在一定条件下,Lar算法的解路径与Lasso的解路径一致,因而可以通过Lar算法来求解Lasso的解.求解算法大致上有2类,即坐标下降方法(coordinate descent method)和近似梯度方法(proximal gradient method).对于模型(3)的求解直接利用组坐标下降法即可,但是需要2层迭代的结构才行,其中外层迭代为针对λ2惩罚部分的组坐标下降算法,内层迭代为针对λ1惩罚部分的坐标下降算法.而另一种方法,近似梯度算法包括梯度方法、投影梯度法、ISTA算法和著名的稀疏优化问题求解软件包SLEP(Sparse Learning with Efficient Projections)中的算法基本上都采用了近似梯度方法及其变形来求解.模型(3)中参数λ1,λ2的确定方法主要有交叉验证、广义交叉验证和BIC准则等.本文中采取交叉验证方法.
本研究于2015年4月份在淘宝网页上随机收集了299个淘宝商家和对应每个商家的新浪微博信息.样本收集区域覆盖了14 个省.设淘宝网卖家信用度为因变量Y,协变量包括: 主营占比(X1)、买家信用(X2)、最近半年好评数(X3)、最近半年中评数(X4)、最近半年差评数(X5)、半年前好评数(X6)、半年前中评数(X7)、半年前差评数(X8)、宝贝与描述相符(X9)、卖家服务态度(X10)、卖家发货速度(X11)、平均退款速度(X12)、近30 d退款率(X13)、近30 d纠纷率(X14)、近30 d处罚数(X15)、月销量(X16)、宝贝数(X17)、开店时长(X18)、保证金额度(X19)、淘字号(X20)、认证信息(个人或企业)(X21)、微博会员(X22)、微博达人(X23)、关注人数(X24)、粉丝数(X25)、微博数(X26)、活跃天数(X27)和当前等级(X28)等共计28个.其中,X20~X23是定性变量(本文中设为0,1变量),其他变量为定量变量.
首先删除信用度过高,表现非常离群的卖家,剩下289个样本.由于定量变量的单位不尽相同,需对这些变量对应的数据进行标准化处理.
图1是卖家信用(因变量)的密度函数的图像,深色线是基于核密度函数估计得到的,灰色图是基于直方图得到的.从图1可见,卖家信用的分布是有严重左偏的表现,因而笔者在分析数据时,对因变量做了对数变换,即Y=log(卖家信用).
图1 卖家信用分布情况
使用线性回归模型对卖家信用与最近半年好评数、卖家信用与半年以前好评数分别进行拟合,结果见图2,表1和表2.图2可见,淘宝网计算信用度的规则几乎完全依赖于卖家信用与最近半年好评数(X3)、半年以前好评数(X6).表1和表2可见,2个模型的决定系数R2分别为0.728和0.987时,调整后的R2分别为0.727和0.987,且F-统计量都很大,分别为751.900、22 070.000,2模型的P值都小于0.05,可见,模型显著.故只用好评数(最近半年好评数或者半年以前好评数)就可以很好模拟卖家信用.因而,卖家可以通过作弊行为获得更多的好评数.如果加入好评数变量来建立关于卖家信用的模型,所得结果就不能显示其他因素对卖家信用的影响.因而在分析数据时,先删除X3和X6,再构建模型.
图2 最近半年好评数和半年以前好评数分别与卖家信用的散点图
Fig.2 Plots of sellers’s credit and the number of good evaluations
表1 最近半年好评数和半年前好评数分别与卖家信用做线性回归的结果
Table 1 The linear regression result of the sellers’s credit and the number of good evaluations
模型系数估计值标准误t值P值1截距54340241802.2480.025*最近半年好评数4.5990.16827.420<2e-16**2截距824452211.5790.115半年以前好评数1.1680.008148.553<2e-16**
显著准则: 0‘***’ 0.001 ‘**’0.01 ‘*’ 0.05‘.’ 0.1‘ ’1
表2 模型的拟合优度检验表
若变量之间存在较高的相关性,所得拟合结果的可信度会大大降低.因而,应找出变量与变量之间相关性较高的变量,将它们划分为一组,再从各组中找出一个代表性变量(各组中对卖家信用影响最大的因素).我们计算了所有变量的相关系数矩阵,发现“卖家服务态度”、“卖家发货速度”、“宝贝与描述相符”之间的两两相关系数超过了0.9,故剔除了变量“卖家服务态度”;另外,微博数据中的“活跃天数”和“当前等级”的相关系数高达0.97,因而删除了“当前等级”.数据经过上面的预处理,最后剩下24个的变量.其中包括4个定性变量和20个定量变量.
首先使用线性模型对这组数据进行分析,并且使用R软件中的程序包Matrix,Grpreg和Ncvreg进行变量选择和拟合.最后输出的结果就会得到Lasso方法的解路径[6],见图3.
图3 解路径图
且各变量的系数估计见表3.
表3 24个变量对应的系数
图3和表3可见,最近半年差评数、近30 d纠纷率、近30 d处罚数、月销量、粉丝数、微博会员和微博数等7个变量的系数都为零,故只剩下17个变量,分别为主营占比、买家信用、最近半年中评数、半年前中评数、半年前差评数、宝贝与描述相符、卖家发货速度、平均退款速度、近30 d退款率、宝贝数、开店时长、保证金额度、淘字号、认证信息、微博达人、关注人数和活跃天数.
利用统计软件R语言将这些变量与Y进行简单的线性拟合,所得回归分析结果分析见表4.
表4反映了置信水平在0.05以下的显著变量有8个,分别为:主营占比、买家信用、最近半年中评数、平均退款速度、开店时长、淘字号、微博达人和活跃天数;此时的残差标准差为1.885,R2为0.749,调整的R2为0.734,F值较大,P值很小.然而以上结果反映了卖家信用与微博达人和关注人数呈负相关,这与现实经验不相符.
为了改善线性模型的拟合结果,笔者采用如下部分线性可加模型:
卖家信用=β0+β1*淘字号+β2*认证信息+β3*微博会员+β4*微博达人+f1(主营占比)+f2(买家信用)+f3(最近半年中评数)+f4(最近半年差评数)+f5(半年以前中评数)+f6(半年以前差评数)+f7(宝贝与描述相符)+f8(卖家发货速度)+f9(平均退款速度)+f10(近30 d退款率)+f11(近30 d纠纷率)+f12(近30 d处罚数)+f13(月销量)+f14(宝贝数)+f15(开店时长)+f16(保证金额度)+f17(关注人数)+f18(粉丝数)+f19(微博数)+f20(活跃天数)+ε(其中E(ε|X)=0).
笔者使用统计软件R软件中的“mgcv”包实现部分线性可加模型拟合,所得回归分析结果见表5.
表4 回归分析结果
自由度为271的残差标准误=1.885;多元R2=0.749;调整R2=0.734;自由度是17和271的F值=47.65;P值<2.2e-16.
显著准则: 0‘**’ 0.001 ‘**’0.01 ‘*’ 0.05‘.’ 0.1‘ ’1.
表5可见,置信水平在水平0.05下时,显著的变量总共10个,其中线性部分有4个,分别是淘字号、 近30 d退款率、月销量和活跃天数;非参数部分有6个,分别为主营占比、最近半年中评数、卖家发货速度、平均退款速度、宝贝数和开店时长.上面结果显示调整R2=0.877,调整R2=0.895,说明模型有良好的解释能力.另外,部分线性可加模型得到的结果与简单线性模型相比更符合现实情况.比如说,对商家信用度有影响的因素——开店时长.开店的时间长短能反映出商家的信誉好坏,反过来,只有商家信誉好,得到顾客的信赖,店家才能长期地经营下去.因此,建议购买者在网上购买商品时,可以通过参考开店时间这个指标来判断哪家商品质量更加可靠,这样更容易在网上淘到满意的商品.当然,除了开店时长,还可以参考月销量、宝贝数、店家新浪微博、活跃天数和店家是否有淘字号等指标来判断哪个商家最可靠,而不像以往那样仅仅参考好评数而被商家欺骗.
表5 部分线性可加模型回归分析结果
Table 5 The partically linear additive model regression analysis
参数系数估计值标准误t值P值截距8.8780.15656.897<2e-16**淘字号0.8080.2373.4110.001**认证信息-0.1230.227-0.5420.588微博会员-0.1780.217-0.8180.414微博达人-0.4500.286-1.5710.117买家信用0.0870.0900.9670.334最近半年差评数0.0600.4930.1220.903半年前中评数0.4970.3131.5900.113半年前差评数0.1790.3600.4970.619宝贝与描述相符-0.0930.186-0.5000.618近30d退款率-0.1940.084-2.3040.022*近30d纠纷率0.0580.0840.6900.491近30d处罚数-0.1340.081-1.6560.099月销量-0.5350.268-1.9910.048*保证金额度-0.1200.097-1.2370.217关注人数-0.1190.088-1.3590.175微博数0.0170.1000.1660.868活跃天数0.6990.1335.2523.26e-07**显著的光滑项估计值自由度参考自由度F值P值主营占比5.34482.0640.00479**最近半年中评数7.172811.4326.87e-16**卖家发货速度4.44686.6095.68e-11**平均退款速度3.53288.5147.03e-15**宝贝数1.20180.5830.02542*开店时长3.677810.236<2e-16**
调整R2=0.877;离差解释能力=89.5%;广义交叉验证值=1.926;尺度参数=1.637;n=289.
显著准则: 0‘**’ 0.001 ‘**’0.01 ‘*’ 0.05‘.’ 0.1‘ ’1.
模型可以精简为
卖家信用=8.878 41+0.807 87*淘字号-0.194 05*近30 d退款率-0.534 52*月销量+0.699 13*活跃天数+f1(主营占比)+f2(最近半年中评数)+f3(卖家发货速度)+f4(平均退款速度) +f5(宝贝数)+f6(开店时长) +ε.
以下为非参数部分相应函数的拟合及其置信带的图(图4).
图4可见,非参数部分中“主营占比” 呈现上下波动的形式; “最近半年中评数”先呈现上下波动,后呈现上升的趋势;“卖家发货速度”是先上升后下降,再上升,最后呈现下降的趋势;“宝贝数”对卖家信用的影响是上升的趋势;而“平均退款速度”和“开店时长”是先上升后下降的趋势.
图4 非参数部分相应函数的拟合及其置信带
图5是拟合后的残差结果.
图5 拟合值
部分线性可加模型残差图的点的分布比较均匀,没有明显的趋势,与线性模型相比,拟合效果有明显的提高.
基于淘宝网信息和淘宝商家的新浪微博信息,本文使用部分线性可加模型,深入探讨了对淘宝卖家信用度的影响因素,发现对淘宝信用度有显著影响的因素有10个.其中,与卖家信用呈线性关系的变量是淘字号、 近30 d退款率、月销量和活跃天数;呈非线性的变量是主营占比、最近半年中评数、卖家发货速度、平均退款速度、宝贝数和开店时长.由此,可以知道影响淘宝买家信用的因素:主营占比、最近半年中评数、卖家发货速度、平均退款速度、宝贝数、开店时长、淘字号、 近30 d退款率、月销量和活跃天数.因此,建议顾客在网上购物时可以通过参考商家的这些指标,去判断哪个商家更加可靠.例如,如果顾客要买的商品在该家淘宝店的主营占比较大,该商家开店时间较长,且有淘字号的标志、宝贝数较多和保证金额较高等特征,那么可以认为该商家信用度较好,可以考虑在该商店购买该商品.
此外,活跃天数这个变量对卖家信用有正的影响,近30 d退款率有负的影响.由此可见,如果该淘宝商家的新浪微博的上线活跃次数较多,说明卖家服务更加周到,也更加靠谱.如果该店铺退款率较少,可以推测商品质量较好,得到顾客的认可,因此,该卖家的信用度也会相对较高.
本文所研究的方法和思路虽然比较科学,但也有需要改进的空间.例如,需要扩大对淘宝商家信用度有影响的因素范围和综合考虑买家的评论内容等.另外,因为买家评论虽然对卖家信用有一定的影响,但难保没有作假的可能,所以也应对这个因素做一些处理.
为更深入地挖掘淘宝卖家信用的影响因素,只是收集一次数据是不够的.在未来的研究中,计划按月份跟踪收集相关淘宝卖家的数据,使用纵向数据模型分析该组数据.随着数据的丰富,所得研究结果会更可靠.
[1] 吴培红.淘宝网卖家信誉影响因素研究[D].天津: 河北工业大学,2011.
WU P H. The research of taobao sellers’ reputation affecting factors[D]. Tianjin: Hebei University of Technology, 2011.
[2] 刘博.淘宝网商的信用评价模型研究[D].北京:对外经济贸易大学,2009.
LIU B. The research of taobao credit evaluation model[D]. Beijing: Foreign Economic and Trade University,2009.
[3] 孔松泉.基于银行微观信贷风险管理的理论与方法研究[D].南京:东南大学,2002.
KONG S Q. Study on the theory and method of the micro credit risk management of banks[D]. Nanjing: Southeast University, 2002.
[4] 陈珺.基于灰色多层次评价方法的中小企业信用评级研究[D].南昌:南昌大学,2010.
CHEN J. On the multi-level gray evaluation method of the small and medium-sized enterprise credit rating research[D]. Nanchang: Nanchang University, 2010.
[5] CUI X, WEN S Q, PENG H, et al. Component selection in the additive regression model[J]. Scandin J Stat, 2013, 40(3): 491-510.
[6] TIBSHIRAN R. Regression shrinkage and selection via the lasso[J]. J Royal Stat Soc Ser B,1996,58(1): 267-288.
[7] 闫丽娜,覃婷,王彤. LASSO 方法在 Cox 回归模型中的应用[J]. 中国卫生统计,2012, 29(1):58-64.
YAN L N, QIN T, WANG T. The application of Lasso method in the Cox regression model[J]. China Health Stat, 2012,29(1).
[8] EFRON B, HASTIE T, JOHNSTONE I, et al. Least angle regression[J].J Math Stat, 2004, 32(2):407-499.
[9] ZOU H, TREVOR H. Regularization and variable selection via the elastic net[J].J Royal Stat Soc, 2005,67(2):301-320.
[10]FAN J, LI R. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. J Am Statist Ass, 2001, 96(456): 1348-1360.
[11]何晓群,刘文卿.应用回归分析[M].3版. 北京:中国人民大学出版社,2011.
HE X Q, LIU W Q. The application of regression analysis[M]. 3rd ed. Beijing: Chinese University Press, 2011.
[12]MAMMEN E, VAN D G S. Penalized quasi-likelihood estimation in partial linear models[J]. Ann Statist, 1997,25(3): 1014-1035.
【责任编辑: 陈 钢】
Taobao sellers credit evaluation based on mass data
MAIJi-fang,CUIXia
(School of Economic & Statistics, Guangzhou University, Guangzhou 510006, China)
In this paper, we model the credit of Taobao seller based on the partially linear additive model and social communication data (such as Sina weibo). To control the impact of “good evaluation”, we do not use it in our model. First, we delete the noisy data and the related variables which result in multicollinearity. A natural choice is to use linear model to fit the data, however, we find that linear model is not adequate. Then we apply the partially linear additive model to analyze the data, and it indicates that this model performs better than traditional linear model.
partially linear additive model; mass data; semiparametric model; Lasso; R language
2016-05-03;
2016-05-16
麦继芳(1991-),女,硕士研究生.E-mail:1542178467@qq.com
1671- 4229(2016)05-0035-07
O 212
A