卢美丽,高宇佳,叶作亮
(1.山西财经大学工商管理学院,太原 030006;2.西南财经大学国际商学院,成都 611130)
非契约客户关系情景下,客户是否流失无法直接观察得到,但在对顾客购买行为进行一定假设后,根据顾客购买相关变量,如最近购买时间(Recently,R)、购买频次(Frequency,F)等,可以对其未来活跃状态进行预测。Schmittlein等首次考虑顾客流失,视顾客购买事件为泊松分布、顾客生存时间为指数分布,提出经典的Pareto/NBD模型[1],为分析顾客价值和消费行为奠定了很好的基础。Fader等进一步假定顾客在某一次购买后立即死亡,建立了GB/NBD模型[2],在基本相同的预测准确度内,其公式推导和数据处理过程都更为简单,在实践中得到广泛应用[3]。之后的研究不断细化购买过程的具体假设,如考虑购买率和流失率可能的相关性,建立HB模型[4];考虑顾客仅在某时间段内流失,与交易次数独立,建立PDO模型[5];考虑顾客活跃与不活跃可以转化,建立EMS模型[6]。但这些研究的共同特点是在顾客活跃时,将顾客购买率视为服从泊松分布。长期以来,将个体行为视为泊松分布是理论研究中惯用的假设,适合于描述单位时间内随机事件发生的次数。服从泊松分布的事件,其时间间隔服从指数分布。
但是1999年Barabasi发表在Science上的文章,打破了研究者对于“人类日常行为模式随机性”的认识[7],他认为“爆发,无处不在”,也即“我们的工作和娱乐及其他种种活动都具有间歇性,会在短期内突然爆发,然后又几乎陷入沉寂”。之后很多领域的实证研究表明,幂律及其它形式的长尾分布是普遍存在的[8-11],樊超[12]对人类行为动力学研究进行了综述,总结了人类行为中普遍存在的主要特征,他认为级联特征、周期特征、波动特征、兴趣特征以及自相似特征等相互关联、相互制约,最终形成人类行为的阵发性和重尾表现。在线购买作为人类行为的一种具体形式,具有人类行为的一些共性特征。叶作亮等[13]分析了大量C2C市场实证数据,指出在线购买行为中存在着强化效应,即人们再次购买的概率随着购买次数的增加而增大,并得出C2C在线顾客购买服从幂律分布的结论。这一强化效应的概念与指数分布的无记忆性是矛盾的,所以对在线购买时间特征的描述已经不适宜使用指数分布,需要进一步探讨,寻找适合在线购买时间间隔特征的分布形式和刻画方法。
Zhang等[14-15]分析了在线数据中出现的阵发性现象,将之称为“Clumpy”,同时提出衡量阵发性程度指标的四个性质,引入时间间隔的对称凸函数作为测量指标,与其他文献中类似的测量指标相比[16],性质更优,且统计检验的方法更具科学性,适用于判断事件的阵发性。其总体思路是:建立阵发性的衡量指标,将购买事件随机发生作为原假设,备择假设是购买事件表现为阵发性,通过蒙特卡洛模拟得到置信水平α时原假设成立的置信区间,建立检验表,在计算阵发性之后,与检验表所对应的临界值进行对比,如果小于临界值,则接受原假设,认为该数据序列表现为随机性,如果大于临界值,则拒绝原假设,支持备择假设,认为该数据序列表现出阵发性。
本文对事件时间间隔的研究进行综述,指出已有文献在不同顾客首次购买时间影响测量结果稳定性方面的不足,进一步探索在线购买阵发性测量的改进方法,并基于阵发性的识别,分析阵发性对顾客活跃预测的影响,为在线顾客购买行为的研究提供新的思路。
已有文献对于时间间隔阵发性的刻画有两种方法,一种是以统计的方法进行描述,另一种是直接的数值性测量方法。
理论和实证表明,指数分布、幂律分布、广延指数分布等可以用来刻画事件的时间间隔[17-18],但分布拟合本身需要较丰富的数据,对于群体行为的研究其结论较为稳定,对个体的研究常常出现困难,如有些群体中的个体行为可能比较一致,有些群体中个体的行为表现出较大的差异性,或者个体时间间隔的数据量较少,这些状况都导致对个体行为的刻画无法以分布形式统一描述。
数值性测量方面,Goh和Barabási最早对阵发性进行了定义[19],给出阵发性的计算公式B=(στ-mτ)/(στ+mτ)。这里στ、mτ分别表示事件时间间隔序列τ的标准差和均值,B值在-1和1之间。但个体时间间隔所表现出的差异性应该是个相对概念,需要结合事件的个数和观察期长度,根据置信度确定一个较稳定的临界判断区间,而不应该以一个绝对的数值判断本质上反映较大差异的“阵发性”特征。Zhang等提出的阵发性数值性测量方法以较好的统计特性[14],得到了学界的认可。
图1 阵发性计算示例Fig.1 Clumpy calculation example
具体来说,若以ti、xi分别表示事件i发生的时刻和时间间隔(距离上次事件发生所间隔的时间),n表示事件的发生次数,N表示总试验次数或潜在可能发生的事件次数(一般认为单位时间最多发生1次事件,故N为时间长度)。如图1所示,(t0,T]为观察期,计算Hp的步骤如下。
1)计算时间间隔
3)计算Hp
图2 首次购买时间不同对阵发性的影响Fig.2 The effect to clumpy on different the first purchase time
以上阵发性的测量得到了学者Kumar等的高度认可[20],但具体分析仍存在明显缺陷:当首次购买时间不同时,同样间隔发生的行为却可能有不同阵发性的判断结果。如图2为两名顾客在观察期(t0,T)的购买情况,顾客a和b购买的时间间隔相同,购买次数都是4次,a的首次购买时间较早,b的首次购买处于中间阶段,总体来看在观察期中b比a的购买时间间隔更加均匀,计算所得的Hp相对较小,可能表现出非阵发性的测量结果,这一情况尤其在购买次数较少时,影响更大。所以当顾客首次购买时间表现出较大差异性时,这一测量方式在不同的观察期将会出现不一样的判断结果,对阵发性特征的描述不够稳定。
叶作亮等[13]、Tian等[21]、吴晓飞[22]和卢美丽[23]等对中国典型电子商务平台淘宝、京东等进行实证发现,我国电子商务处于高速发展时期,每一商铺或平台中存在大量购买次数较低的顾客,进一步关注顾客购买时间,可见新顾客在逐渐进入,顾客首次购买时间差异性很大。所以探索适合我国目前电子商务特征的在线顾客阵发性测量方法,把握阵发性对顾客活跃的影响将为深入研究顾客行为提供理论基础。
在文献[14]的测量方法中,以整个观察期(0,T)为阵发性的测量期,除了受每次购买时刻本身形成时间间隔的影响外,图2可见不同首次购买时间影响测量结果的稳定性,此外最后购买时间也对阵发性判定有一定影响,但在RFM模型中,最后购买时刻和观察截止时间T的关系往往以最近购买时间R刻画。所以阵发性特征可以主要考虑购买时刻发生本身的情况,尽量减少不同观察期的影响,我们将测量期缩短为接近初次购买和最后购买的时刻,如以(t1-1,t4+1)为阵发性测量期,见图3。
改进测量方法后的相关变量如图4所示,具体计算步骤如下。
图3 首次购买时间不同时改进的阵发稳定性示例Fig.3 Examples of improved clump stability at different first purchase time
图4 改进的阵发性测量方法计算示例Fig.4 Example of improved clumpy measurement method
1)计算时间间隔,(t1-1,tn+1)为测量期
3)计算Hp
得到Hp的计算结果后,通过Matlab编程进行蒙特卡罗模拟,产生10 000个在时间长度为N时发生n个事件的样本,计算所有产生的随机样本其时间间隔的阵发性,取α为置信水平,并将α分位确定为临界值。具体数值与相应的临界值比较,大于临界值时则认为其表现为阵发性。
实证数据来自国内两个知名B2C网站——一号店和京东商城的快速消费品购买记录,形成五组数据,分别记为BC01~BC03及BC04、BC05,时间跨度为12个月。BC01~BC03数据涉及顾客数在3 200名~4 100名之间,商品品种数为3万多种;BC04和BC05数据分别涉及顾客数为6万和20万名多,商品品种数为600多种。以上数据均将同一顾客一天内发生的购买行为视为一次。
1号店数据的获取方式是从几种具体商品入手,找到购买商品的顾客,通过顾客地址爬虫抓取其所有的购买记录,下载形成包含20万名顾客购买记录的数据库,相应信息有用户代码、用户名、购买商品编号、商品名称、商品价格、购买时间等。由于数据量较大,部分记录不完整,如缺少用户ID、缺少购买时间等,在对数据清洗时将之删除。之后随机从数据库中抽取1万名顾客形成3个组,并研究每组中2015年1月1日进入1号店的顾客至2015年12月31日整个年度的购买情况,即BC01~BC03。京东商城的两组数据BC04和BC05来自文献[22]。
进一步去掉以上数据组中购买1次和购买2次的所有记录,形成购买次数在3次及以上新的数据组,计算每名顾客的购买时间间隔,五组数据样本情况如表1所示。
表1 各样本数据组数据情况描述
用Matlab编程计算每一样本数据组所有顾客的阵发性Hp值和相应的临界值,Hp大于临界值,即表现出阵发性,记阵发性为1,否则为非阵发性,记阵发性为0。用Zhang的算法及改进方法(置信度为5%)分别对实证数据进行阵发性检验。两种方法的计算和判断举例如表2。
表2 计算阵发性举例(顾客来自BC01)
以表2中第一名顾客的改进方法举例说明计算过程:顾客编码为“1683785”,发生5次购买,其购买时间为2015-07-30、2015-08-01、2015-08-02、2015-08-31、2015-09-02,故相应观察期为(t0,T)=(2015-07-29,2015-09-03),记t0=0,t1=1,t2=3,t3=4,t4=33,t5=35,N=36,时间间隔x1=1,x2=2,x3=1,x4=29,x5=2,x6=1,n=5,将xi除以36作归一化处理,计算Hp如下:
Hp=1+(0.027 8×log0.027 8+0.055 6×log0.055 6+0.027 8×log0.027 8+0.805 6×log0.805 6+0.055 6×log0.055 6=0.027 8×log0.027 8)/log6=0.556 9,该值大于5次购买、时间长度为36天的相应临界值z(5,36)=0.3380,所以此顾客被认为在5%的双侧置信水平时表现为购买行为阵发性。
同时表2的计算可见,两种方法的计算结果有很大差异,这一方面是因为Hp计算的方法不同,另一方面用于判断的临界值也不同。
传统观点认为顾客最近购买时间R和购买频次F,是影响顾客活跃表现的两个主要因素,顾客在越近期的时间段内购买,R值越大,顾客保持活跃状态继续购买的可能性就越大(对R的刻画采取NBD模型中的方法,即:将观察期0-T的时间刻度化,顾客最近一次购买日期所对应的时间刻度位置记为R的取值,故R越小表示其越接近观察始点,R越大表示越接近T值,距离观察结束点较近);同样,顾客购买频次越多,顾客再次购买的概率也越大,顾客活跃的可能性就大。这两个因素的影响应该是容易被人们接受和认可的,为此本文提出假设1和假设2。
假设1:最近购买时间R越大,顾客活跃的概率越大。
假设2:购买频次F越大,顾客活跃的概率越大。
那么阵发性会对顾客活跃度有影响吗?当顾客表现为阵发性时,明显增加了对于验证期是否活跃的判断难度,比如顾客最后一次购买时间很近,但因其进入静默期,可能在验证期没有购买行为;或者顾客最后一次购买时间较久,通常认为他已经流失,在验证期不会产生购买行为,但因为他是阵发性顾客,可能之前他正在处于长久的静默中,在验证期期间却表现出频繁购买的现象。于是,本文提出假设3。
假设3:阵发性对最近购买时间R有调节作用,无阵发性的顾客,最近购买时间R和顾客活跃的概率更相关。
为验证以上假设,建立Logit回归模型进行具体分析,探讨顾客最近购买时间R、购买频次F以及顾客阵发性Clumpy对顾客活跃概率的影响。
模型的因变量为顾客是否活跃,是虚拟变量,以Alive=1表示顾客活跃,Alive=0表示顾客不活跃(顾客流失),p(Alive)表示顾客活跃的概率。自变量为顾客最近购买时间R、购买频次F以及顾客阵发性Clumpy,R和F是连续变量,Clumpy为虚拟变量,Clumpy=1表示顾客购买行为呈现阵发性,Clumpy=0表示顾客购买行为比较均衡。以上3个假设中变量间关系如图5所示。
图5 变量间关系示意模型Fig.5 The model of the relationship between variables
定义:
建立Logit回归模型
Logitp(Alive)=b0+b1R+b2F
(1)
可知
为验证阵发性对于最近购买时间R是否有调节作用,建立Logit回归模型:
Logitp(Alive)=β0+β1R+β2Clumpy+β3R×Clumpy
(2)
Logit模型的参数可以通过基于自然对数极大函数的极大似然估计法求得。整理数据并录入SPSS21.0软件,可得样本数据的描述性统计分析、相关性分析及Logit回归分析结果。
3.2.1 描述性统计分析
以BC01数据组为例,数据样本总量1 178个,在验证期中仍然活跃的顾客数量为858名,占样本总量的72.8%;验证期中没有购买行为,表现为不活跃的顾客数量为320名,占样本总量的27.2%。在观察期中表现出阵发性的顾客有491名,占样本总量的41.7%,购买行为基本规律的顾客有687名,占样本总量的58.3%。最近购买时间的数值分布在第16天到273天之间,平均最近购买时间为第235.8天,购买频次在3到87次之间,平均购买频次为8.9次。(见表3)。
表3 变量的描述性统计分析
3.2.2 相关性分析
变量的Pearson相关系数如表4所示,从中可见顾客是否活跃与最近购买时间、购买频次表现为显著正相关,与阵发性表现为显著负相关,由于Alive=1表示顾客活跃,Clumpy=1表示顾客阵发性购买,所以从相关系数的符号可知,与不活跃的顾客相比,活跃顾客购买时间相对比较近期、购买频次较高且购买时间间隔更为均衡。
表4 变量之间的相关性统计分析结果
注:***代表在1%水平上显著相关,**代表在5%水平上显著相关。
3.2.3 回归分析
对所建立的二元Logit回归模型,采用Enter法进行分析,结果如表5所示。
表5 Logit回归分析结果
在Logit回归模型分析中,最理想的情况是所建立回归模型的卡方值达到显著性水平而Hosmer-Lemeshow检验未达到显著性水平[24]。
本模型系数的Omnibus检验结果表明,所建立的两个变量的回归模型整体适配度检验卡方值为176.913,p=0.000,达到显著水平,说明两个变量中至少有一个自变量可以对顾客活跃情况进行有效解释,进一步采用向前逐步回归的方法,可知进入模型中的自变量均显著。同时,采用Hosmer和Lemeshow检验法对回归模型整体适配度的检验结果为:Hosmer-Lemeshow检验卡方值等于12.701,p=0.123,未达显著水平,说明模型整体回归的适配度较好,即整体上看自变量可以有效预测顾客活跃度。
从关联强度系数来看,Cox-Snell关联强度值为0.139,Nagelkerke关联强度指标值为0.202,表明自变量和因变量间存在一定程度的关联。
检验Logit回归模型个别参数显著性的主要指标有Wald检验值和Score检验值,计算结果表明,最近购买时间R、购买频次F两个因素的Wald检验值分别为57.429和37.092,Score检验值分别为127.292和65.324,数值较大且p值均远远小于1%,具有统计意义,说明这两个自变量从个别角度看对顾客活跃的影响也是十分显著的。分析具体系数,最近购买时间R的系数估计值为正数,说明其值越大时,顾客活跃的概率会增大,且从EXP(B)=1.103,可知距离观察结束时刻每接近1天(即最近购买时间增加1天),在验证期顾客活跃比顾客不活跃的概率会增加10.3%;购买频次F的系数估计值也为正数,说明购买频次越大时,顾客活跃的概率增大,且从EXP(B)=1.122,可知购买频次每增加1次,在验证期顾客活跃比顾客不活跃的概率就会增加12.2%。
在对其余数据组的Logit回归模型检验中,所有模型系数的Omnibus检验结果均显著,但Hosmer-Lemeshow检验时,BC02、BC03数据组的卡方值在5%水平时不显著,BC04、BC05数据组的卡方值显著;关联强度系数相差不大,Cox-Snell关联强度值在0.12到0.28之间,Nagelkerke关联强度指标值在0.19到0.37之间;在个别参数显著性的Wald检验值,R和F的系数均通过显著性检验,具体结果见表6。
表6 其余四组数据Logit回归分析结果
注:括号内为相应p值
3.2.4 阵发性对最近购买时间R的调节作用
为减少变量间可能的多重共线性,将R、F进行标准化处理,运用SPSS软件对R和Clumpy的交互作用按式(2)进行回归,回归结果见表7。其中交叉项的Wald值为5.933(p=0.015),回归系数为负值,说明具有阵发性特点的顾客,其活跃的概率从统计角度上看明显比均衡性顾客活跃的概率降低,即假设3成立。
表7 Logit回归分析结果(Clumpy的调节作用)
同样,对其余组阵发性Clumpy的调节作用进行检验,交叉项均有显著的统计意义,各组Wald值及系数见表8。
表8 其余四组数据Logit回归分析R和Clumpy交叉项显著性检验结果
也有学者认为,当调节变量为分类变量时,应当使用按调节变量分组的方法分别将因变量对自变量做回归[25],若回归系数差异显著,则调节效应显著。进一步进行分组验证,结果见表9。
表9 BC01有无阵发特性的分组Logit回归对比分析结果
观察表9中Omnibus检验结果,所建立的两个变量的回归模型整体适配度检验的卡方值分别为119.250和58.672,p=0.000,均达到显著水平,无阵发性的卡方值是阵发性组的2倍,且从Hosmer-Lemeshow检验来看,其卡方值分别等于4.241和14.182,相应的p值为0.835和0.077,无阵发性组不显著,有阵发性组表现为在10%的显著性水平时显著,说明无阵发性组的模型整体回归适配度优于有阵发性组。
在关联强度上,Cox-Snell关联强度值分别为0.159和0.113,Nagelkerke关联强度指标值为0.238和0.158,同样说明无阵发性组回归的关联强度优于有阵发性组。
对比个别参数的显著性,两个模型R的Wald检验值分别为44.066和15.394,将近3倍的差距说明无阵发性组的模型参数R的显著性优于有阵发性组,故可进一步说明假设3是成立的。
随着互联网技术的推广和应用,电子商务快速发展,消费者在线购买过程中大量的行为数据很容易地被自动记录下来,沉淀为海量的信息数据库。在对电子商务的实证研究中同样发现,已有的文献不再能充分解释在线顾客购买行为的规律,更难以实现对重复购买的准确预测[21]。和人类行为中普遍存在的“爆发”性一致,在线顾客的购买行为也表现出一段时间内频繁购买,经历长久静默之后再次爆发的现象[14],即“阵发性”。本研究基于已有文献对阵发性测量的研究,探索了相应的改进方法。并使用Logit回归模型对变量间关系的假设予以实证,主要的研究结论:
1)根据改进的阵发性测量方法,可以判断在线顾客购买是否具有阵发性的特征。
2)最近购买时间R越大,顾客活跃的概率越大;购买频次F越大,顾客活跃的概率越大;阵发性对最近购买时间R有调节作用,无阵发性的顾客,最近购买时间R和顾客活跃的概率更相关。
本文的理论贡献:一是基于对已有时间间隔描述和测量方法的成果梳理,提出改进的在线购买时间间隔阵发性测量方法,为进一步分析顾客在线购买行为,提供了概念测量的理论基础和方法;二是厘清在线顾客购买行为中顾客购买频次、最近购买时间、顾客阵发性和顾客是否活跃等的关系,揭示在线购买阵发性特征对顾客在线购买的影响机制,丰富和拓展了在线购买行为理论,为顾客是否活跃的判断提供了变量测量和具体预测的理论依据。
本文的结论将对电子商务实践有如下启示:传统顾客价值识别技术RFM模型未考虑顾客阵发性特征对顾客是否活跃的影响,在对顾客分类时,认为顾客购买次数越多、顾客最近购买时间越近,顾客再购买的可能性越大,顾客的价值也越高。但结合本文的结论我们知道同样购买次数和同样最近购买时间的两名顾客不能直接认为其下次购买概率的大小相同,而应和他们是否表现出阵发性的特征相结合。进一步将之应用于电子商务实践中,可提高预测准确率,指导电商企业精准识别顾客行为、实施不同顾客策略。
虽然本文的研究和结论有一定的理论和实践意义,但在研究中尚有诸多不足:首先,未能取得文献[14]对阵发性测量的数据,无法和本研究所获得的数据进行具体特点的比较。本文提出的改进方法,由于测量方法本身以及置信度的选取等影响顾客阵发性的判断,尤其对购物次数较少的顾客判定存在较大的差异,进而影响对整个数据组的判断和预测效果,其稳定性值得在统计理论及更大量的实证中继续探索。其次中国近年的电子商务发展中,较大规模的促销(如双十一)必然影响顾客的阵发性,我们在实证中无法排除,也在一定程度上影响对理论的解释力度。下一步的研究中针对更广泛的电子商务平台和不同的商品种类继续深入对比。