许启发+王陶+蒋翠侠
摘要:针对电子商务环境中卖家信用得分计算方式的不足,提出了相应的改进策略:引入主营业务占比、开店时长和卖家的买家身份信用三个因素,建立卖家信用评分的多因素校正模型。更进一步,提出店铺的消费累积损失这一概念,并使用神经网络分位数回归模型和相应的评价指标,来验证改进卖家信用得分在解释店铺消费累积损失中的有效性。最后,对淘宝网信用评分实践进行研究,实证结果表明:卖家信用评分的多因素校正模型,不仅能够成功地解释店铺消费累积损失,而且能够更好地预测其未来取值变动规律,具有有效性。
关键词:C2C;卖家信用得分;多因素校正模型;神经网络分位数回归;有效性检验
DOI:10.13956/j.ss.1001-8409.2017.01.23
中图分类号:F7246;F224文献标识码:A 文章编号:1001-8409(2017)01-0105-04
Abstract: To overcome the deficiency of sellers credit scoring method in ecommerce, this paper sets up the corresponding improving strategy. And then, it introduces three factors including main business proportion, opening time of shop and sellers buyer credit to establish a sellers credit scoring multifactorial correction model. Further, it presents the concept of the cumulative consuming loss and use quantile regression neural networks (QRNN) model and corresponding evaluating index to verify the validity of the proposed sellers credit scoring method in explaining the cumulative consuming loss of shop. Finally, it conducts empirical study of sellers credit scoring on Taobao. Empirical results show that the sellers credit scoring multifactorial correction model is valid in practice since it can both successfully explain and accurately predict the cumulative loss of consumers.
Key words:C2C; sellers credit scoring; multifactorial correction model; quantile regression neural networks; validity test
引言
21世纪以来,中国电子商务发展迅猛。根据《第36次中国互联网络发展状况统计报告》,截至2015年6月,中国网民规模达668亿,互联网普及率达488%。随着中国网民规模的不断扩大,网络市场也随之得到更大的发展,而C2C电子商务中卖家信用评价所存在的弊病也成为了亟待解决的问题。
Zhang等[1]在研究中系统分析了C2C中卖家信用欺诈的现象,并阐述了中国C2C市场中信用欺诈的发展历史和信用欺诈的方式,总结了中国电商市场信用欺诈的特点及产生原因,同时也阐述了目前卖家信用计算方式的简单累积效应,并以交易额权重、时间衰减系数、三个信用因子得到了新的动态信用计算模型。彭惠等[2]也指出了目前的累积信用评分的信用机制所存在的弊病,包括卖家信用分数主要基于累积效应、只增不减、买家评价积极性不高等问题,现行的信用评价体系已不能客观反映卖家诚信,并且这种累积评分机制具有鼓励卖家进行信用炒作的性质。
由于目前的信用模型计算方式所存在的弊端,许多研究都致力于提出新的信用机制或者计算模型用以改善。Zhang等[3]提出了一个基于用户评论的信用评价模型,通过挖掘C2C用戶评论内容的信息,结合自然语言处理技术、观点挖掘技术和主题模型技术进行信用打分,越高的分数对应越高的信用度。国内文献中对于新的信用评价模型的研究也有很多,这些研究都对现行的评分机制进行了相应的改进,并获得了相应的效果。于兆吉等[4]使用拉开档次机制的模糊综合评价法,放大了各个被评价主体间信用级别的差异;陈传红等[5]针对目前实践中使用的信誉值计算模型的弊端,提出了相应改进策略;李旭芳[6]、甘早斌等[7]分别提出了新的信用评价模型,并得到了新的功能与发现。
综上,可以看出已有研究工作主要存在以下不足:第一,多数研究主张摒弃目前网上店铺的信用评分机制,鲜有文献提及如何改进已有信用评分方法;第二,多数研究提出信用评分模型或算法,并没有获得有效性检验。为此,本文以淘宝网为研究对象,主要开展了以下三个方面新的研究工作:第一,通过对已有卖家信用评分机制缺陷进行分析,在信用评分方法中引入了三个因素(主营业务占比、开店时长、卖家的买家身份信用),建立卖家信用评分的多因素校正模型,用以改进信用评分方法;第二,提出衡量店铺给消费者带来损失的指标——店铺消费累积损失,通过神经网络分位数回归(QRNN)模型,来验证改进卖家信用得分在解释店铺消费累积损失中的有效性;第三,以淘宝网为例,将改进信用评分方法与原有信用评分机制进行比较,结果表明改进卖家信用得分不仅能够有效地解释店铺消费者累积损失,而且能够更好地预测其未来取值变动规律。
1信用评分理论基础
信用评价是两个主体相互信任的基础,主要通过建立科学、合理的指标体系,运用恰当的综合评价方法,对可信任程度进行量化评分。根据信用评价对象不同,可将其大体划分为:个人信用评价和企业信用评价。
在个人信用评价方面,常见于金融研究领域,大多通过个人信息作为信用评价的基础完成个人信用评定,如:易传和等[8]以个人基本情况(包括年龄等)、个人工作情况、个人经济情况、与金融机构关系、历史信用记录等指标作为信用评价基础。
在企业信用评价方面,又可以细分为实体企业、B2C电商企业和C2C电商卖家的信用评价。实体企业的信用评价主要依靠企业的财务报表数据来评估企业履行约定的能力和意愿,其指标体系包括定性指标和定量指标,如:谭中明[9]在中小企业的信用评价中,使用基础素质这个定性指标与财务状况等定量指标作为信用评价的基础。B2C企业的信用评价考虑了电子商务背景,如:王俊峰等[10]在对B2C企业进行信用评价时使用运营、偿债、发展和网络运营能力等指标。然而,C2C电商卖家的信用评价与上面讨论的几种信用评价有很大区别:第一,C2C电商卖家个人信息的不透明性;第二,C2C电商卖家财务信息的不充分性。因此,C2C电商卖家的信用评价既不能像个人信用评价时使用个人信息作为评价基准,也不能像实体企业或B2C电商企业一样通过大量的财务数据进行信用评分。
综上,C2C电商卖家的信用评价过程与其他对象存在很大差异,可以考虑通过其网上交易信息进行信用评价。
2电商卖家信用评分缺陷与改进
21目前信用评分机制的缺陷
淘宝网目前使用的信用评分机制具有代表性,主要采用信用分数累积方法,具体评分方式为:店铺完成一笔交易之后,获买家好评加1分、差评扣1分、中评不计分。
这种简单的信用分数累加方法有以下几个缺点:(1)开店时间早的卖家一般会比开店晚的卖家拥有更高的信用得分,但是并不能说明前者的信用水平就一定高于后者;(2)信用分数累加方法的无限增长性使得店铺信用得分的比较失去了意义;(3)Zhang等[1]指出,这种信用评分的累积效应,使得后期进入的店铺难以与早期店铺竞争,促使一些急于求成的店铺为了竞争而做出信用欺诈行为。
虽然这种信用分数累加方法存在弊病,但是越高的信用得分常常对应着更高的交易频次,这样的店铺一般会对消费者有更大的保障。因此,信用分数累加方法也能在一定程度上体现卖家的信用状况,可以对其中的不足进行改进,得到新的信用评分方法。
22对原始信用得分机制的改进
针对信用分数累加方法的缺点,考虑在其中加入以下因素:
(1)主营业务占比
主营业务占比是指淘宝店铺中主要经营的产品交易量占总交易量的比重,能体现一个店铺的主要经营方向。
在信用分数累加方法背景下,店铺可以通过出售一些与主营业务不相关的物美价廉的产品,这类产品价格低、交易量大,且容易取得好评,从而使得店铺快速获得信用分数。但是卖家通过这种方式增加信用得分,会使得主营业务占比变低,所以通过加入主营业务占比因素,可以有效阻止卖家通过此方式进行信用分数的非常规获取,使得信用分数更加真实地反映店铺信用水平。
(2)店铺开店时长
店铺开店时长是指店铺从开始营业至今的总时长。一般地,店铺开店时长越长,往往在行业中占据更多的市场和利润,并且在经营管理、客户服务等方面拥有更多的经验。
信用分数累加方法对于那些进入行业较晚的店铺十分不利,制约了其获得信用分数。网络消费的从众性使得那些早期进入且拥有更高卖家信用得分的店铺获得更多关注,自然使其拥有更多的交易机会,获得更高的信用得分。这一因果链条,使得店铺开店时长成为影响卖家信用得分的重要因素。为此,本文引入店铺开店时长因素(以月为单位作为开店时长的周期)来部分抵扣信用得分随开店时长增加而过分增长这一现象,改进信用分数累加方法的不足。
(3)卖家的买家身份信用
卖家的买家身份信用是指电商卖家在C2C平台上作为买家进行交易后得到的信用累积。为了防止在购物过程中产生对自己店铺不利的事件,电商卖家一般不会使用店铺的账户进行网上消费,这使得正常电商卖家的买家身份信用分数保持在很低的水平。
现实中,存在卖家通过沟通达成协议进而互相购买彼此店铺商品,但不发生实际交易的无金额虚假交易,实现卖家的买家身份信用分数的增长。所以,一个店铺的买家身份信用得分可以从侧面反映一个店铺信用分数的虚假程度。为此,考虑在原始信用分数计算中加入卖家的买家身份信用因素,用以校正卖家信用分数中的虚假泡沫成分。
3模型与方法
针对已有卖家信用评分的不足,这里给出改进卖家信用评分方法,并建立其有效性检验方案。
31电商卖家信用评分多因素校正模型
32店铺消费累积损失
为了检验改进信用评分方法的有效性,可以考虑信用评分与店铺消费者效用之间的关系,若存在强的关联关系,则表明建立的信用评分方法有效。然而,消费者效用难以直接度量,从正向去定义会忽视某些店铺刻意刷好评现象。为此,本文从消费的不良结果方向提出店铺消费累积损失这一概念,即店铺消费的所有消费者在交易中所产生的损失累积和。
消费者在淘宝网进行消费的结果包括:第一,消费者对商品满意并给出好评;第二,消费者对商品不满意但仍接受了商品,给出中评或差评;第三,消费者对商品不满意,不接受商品,选择退货且卖家同意退货;第四,消费者对商品不满意选择退貨,但卖家不同意退货从而产生纠纷。从这四种结果来看,只有第一种结果没有对消费者造成损失,而后三种都或多或少地对消费者造成损失。
进一步,由于非好评率、退货率及纠纷率都是以总交易笔数作为基数计算所得,而由于虚假交易与职业好评师的存在,使得非好评率、退货率及纠纷率并不真实。因此,本文选择非好评次数、退货次数、纠纷次数作为定义店铺的消费累计损失的指标,避免信用欺诈所导致的噪声。定义店铺消费累计损失R为:
R=a×A+b×B+c×C(7)
式(7)中,A、B、C分别为非好评次数、退货次数、纠纷次数;a、b、c分别为其权重。根据实际经验,给出差评、选择退货、产生纠纷对消费者造成影响的程度是逐渐递增的,权重满足:a
33有效性检验模型与指标
4实证研究
41数据与描述
根据中国互联网信息中心2015年6月发布的《2014年中国网络购物市场研究报告》,销量排名前三的产品品类为:服装鞋帽;电脑、通讯数码产品及配件;日用百货。为使研究更具有代表性,本文选取淘宝网主营业务为这三类产品的店铺作为研究对象。本文使用八爪鱼数据采集器直接从淘宝网抓取2015年10月29日共2671个店铺的交易信息,使用淘宝网评定的卖家的买家身份信用等级数据代表卖家的买家身份信用水平。
表1报告了各变量的描述统计结果,可以看出:第一,主营业务占比、开店时长、买家身份信用等级的极差与标准差都较大,说明店铺在这几个因素方面的差异很大,这三个因素可能对卖家信用评分产生较大影响。第二,改进后所得卖家信用得分更为集中,其极差与标准差远低于改进前的卖家信用得分,表现更加稳健。此外,改进前卖家信用得分累积水平很高,最高分为20270397,与之相比,多因素校正模型明显降低了信用得分水平,最大值仅为194911。
42建模与分析
按照4∶1的比例,将整个样本划分为两个部分:样本内(样本量为2137),样本内数据用于模型拟合;样本外(样本量为534),样本外数据用于模型预测。在使用神经网络分位数回归(QRNN)模型时,将惩罚参数固定为800,再根据BIC准则选出其隐含层节点数如表3所示。
型相比,QRNN模型在样本内表现与样本外表现两个方面都优于前者,表现为R1(τ)的均值更大、QAAE(τ)的均值更小,意味着QRNN模型更适用于检验信用评分方法的有效性。第二,就QRNN模型的结果而言,改进后信用评分方法所得的R1(τ)均值都大于改进前方法,而前者的QAAE(τ)均值都小于后者,意味着改进信用评分方法是有效的,能够更好地解释和预测店铺消费累积损失的变化。此外,改进后方法所得R1(τ)指标的标准差都要明显小于改进前方法,而两者的QAAE(τ)标准差则几乎相当,这一结果表明:改进信用评分方法不仅有效,而且表现更加稳健。
5结论与启示
针对目前卖家信用评分存在的弊端,本文提出了多因素校正模型,并对所提模型的有效性进行了检验。一方面,引入了三个影响因素:主营业务占比、开店时长、卖家的买家身份信用水平,对已有的信用评分方法进行改进,建立卖家信用评分的多因素校正模型;另一方面,通过定义店铺消费累积损失、建立QRNN模型、选取评价指标等,提出了改进信用评分方法的有效性检验方案。
以淘宝网信用评分实践为研究对象,通过实证研究得到:第一,加入了三个改进因素之后的卖家信用分数更符合其本身所代表的含义——反映店铺给消费者带来的损失。第二,多因素校正模型计算所得信用分数可以为其他信用模型提供一个基数,而不用完全摒弃原有的信用机制,这种方法更具有实际价值,为淘宝网为首的电商网站提供了信用机制改进的思路。第三,本文提出的方法同样适用于其他信用机制或信用分数计算算法改进的检验。
参考文献:
[1]Zhang Y, Bian J, Zhu W. Trust Fraud: A Crucial Challenge for Chinas E-commerce Market[J]. Electronic Commerce Research & Applications, 2013, 12(5): 299-308.
[2]彭惠, 王永瑞. C2C电子商务市场整体卖家信用分布研究[J]. 情报杂志, 2012, 31(5): 122-127.
[3]Zhang X, Cui L, Wang Y. CommTrust: Computing Multi-dimensional Trust by Mining E-commerce Feedback Comments[J]. Knowledge & Data Engineering IEEE Transactions on, 2014, 26(7): 1631-1643.
[4]于兆吉, 胡祥培, 毛强. 电子商务环境下信用评级的一种新方法[J]. 控制与决策, 2009, 24(11): 1668-1672.
[5]陈传红, 赵学锋, 张金隆. 在线信誉系统的应用现状及问题应对[J]. 情报杂志, 2012, 31(8): 171-176.
[6]李旭芳. 基于AHP的电商多维信誉的模型设计[J]. 统计与决策, 2014(11): 179-182.
[7]甘早斌, 曾灿, 马尧, 等. 基于信任网络的C2C电子商务信任算法[J]. 软件学报, 2015(8): 1946-1959.
[8]易传和, 彭江. 基于FAHP的个人信用评分模型[J]. 统计与决策, 2009 (15): 67-70.
[9]谭中明. 中小企业信用评价体系研究[J]. 学术论坛, 2009, 32(5): 123-127.
[10]王俊峰, 吴海洋. 基于改进的TOPSIS法的B2C企业信用评价[J]. 软科学, 2014, 28(6): 21-24.
[11]Taylor J W. A Quantile Regression Neural Network Approach to Estimating the Conditional Density of Multiperiod Returns[J]. Journal of Forecasting, 2000, 19(4): 299-311.
[12]何耀耀, 许启发, 杨善林, 等. 基于RBF神经网络分位数回归的电力负荷概率密度预测方法[J]. 中国电机工程学报, 2013, 33(1): 93-98.
[13]许启发, 张金秀, 蒋翠侠. 基于非线性分位数回归模型的多期VaR风险测度[J]. 中国管理科学, 2015, 23(3): 56-65.
[14]Koenker R. Goodness of Fit and Related Inference Processes for Quantile Regression[J]. Journal of the American Statistical Association, 1999, 94(448): 1296-1309.
[15]Xu Q, Niu X, Jiang C, et al. The Phillips Curve in the US: A Nonlinear Quantile Regression Approach[J]. Economic Modelling, 2015, 49: 186-197.
(責任编辑:秦颖)