王 芯,吕晓玲
(中国人民大学a.应用统计研究中心;b.统计学院,北京 100872)
传统的离散选择模型是指在很多个备选方案中选择其中的一种[1],而离散-连续选择模型是传统的扩展,不仅仅考虑选择几个备选方案,还要考虑每个选择的取值。离散-连续选择模型可以应用在商品消费,时间分配等问题中。“离散”指从选择集里面选择哪些元素(商品、活动等),“连续”是指选择的元素取值是多少。Kim等2002年提出的KAR模型以及Bhat 2005年提出的MDCEV模型在消费者行为和时间分配的研究中有着广泛的应用[2,3]。这两个模型在形式上比较接近,都是基于Wales和Woodland 1983年提出的Kuhn-Tucker模型[4],只是对误差项的假设有所不同。KAR和MDCEV模型的形式容易理解,模型满足经济学中对效用和边际效用的定义,并且参数有比较直接的意义,但是这两个模型都是以绝对时间或者数量为研究对象,如果应用在比例数据中效果会比较差。而传统的研究比例数据的Amemyia-Tobin模型[5]在参数估计过程中需要用到高维的积分,估计起来比较困难。本文基于KAR和MDCEV模型的建立模式,提出适合比例数据的效用函数,建立新的适合比例数据的模型。模型形式比较简单,具有经济学上的意义,并且估计起来比较简单。
KAR模型是在消费者行为研究背景下提出的,假设有M个商品,则购买商品的总效用是:
其中xj对商品的购买数量,并且满足预算限制p′x=E,p 是商品的价格,E 是总预算。 ψj,αj,γj是参数。γj使得模型可以存在角解,也就是通过无差异曲线和预算线得到的最优解中某些商品的取值可以为0。ψj>0称为基准效用参数,该值越大,表明消费者越倾向于购买这个商品。0<αj<1称作饱和度参数,当αj比较小的时候,该商品的边际效用就会减小的比较快,那么消费者就会倾向于较少的购买该商品。相反,如果αj接近于1,那么边际效用就会减小的比较慢,消费这就会倾向于较多的购买该商品。
在KAR模型中,为了保证边际效用为正,在边际效用中引入了对数正态分布作为误差项,如下所示:
为了考虑消费者的异质性,可在基准效用参数中引入协变量x,即假定ψj(x)=exp(β′x)。
MDCEV是在时间分配的背景下提出来的,这时条件限制中的权重都是相等的,即p1=…=pM。该模型的效用函数与KAR模型类似,只是假定误差项的分布是标准极值分布,则似然函数为:
其中xj表示的是第 j个活动的属性。
在消费者行为研究中,比例数据Pk(k=1,…K)是每个商品消费金额占总金额的比例;在时间分配问题中,是指每个活动的时间占总时间的比例,这时可以简单的考虑总效用是各个比例的函数。简单的使用KAR模型或者MDCEV模型去分析这个问题是存在问题的,所以在这里提出了新的比例模型。本文在时间分配的背景下去讨论模型的相关问题,模型很容易可以拓展到商品消费的情况。新的效用函数如下:
第k活动的边际效用是ψk(1-pk)αk,ψk表示的基准边际效用。当 pk等于0时,边际效用是ψk,是边际效用最大的时候。对于两个活动i和 j,如果活动i所对应的参数ψi大于活动 j所对应的参数ψj,那么活动i的角点解会比活动 j的少。参数αk的作用是随着第k个活动的增加减少边际效用,使得边际效用满足边际递减的规律。如果活动i所对应的参数αi大于活动 j所对应的参数αj,那么活动i的平均时间比例会小于活动 j的平均时间比例。
在式(7)的基础上可以在效用模型上加上随机误差项,则总效用函数为:
其中 hj=V1-Vj,vj=εj-ε1,j=2,…,,M,φ(·)是多元正态分布的密度函数,Ω是协方差矩阵。J是雅克比行列式。
对于误差项分布的假设,可以首先尝试两种误差项分布的假设,然后选择似然函数值比较大的做为参数估计的结果。
在实际数据分析中,该模型有一个局限,就是只能分析至少选择了两个活动的数据。
在参数中加入社会人口学变量,将参数再参数化,进而分析不同变量对时间分配的影响。基准边际效用参数和饱和参数的再参数化如下所示:
其中 x 是个体的社会人口学变量,β0k,βk,η0k,ηk是对活动k的参数。在实际的估计中,会有参数可识别的问题(Train,2009),所以需要在参数估计时做出假定。本文在不考虑异质性时假设ψ1=1,在考虑异质性时假设β01=β′k=0。
实际数据是在北京和香港地区进行的关于笔记本购买情况的调查数据。通过电话调查的方式对北京和香港的居民进行调查,调查的对象是曾经购买过笔记本的人群。主要了解被调查者在购买笔记本的过程中,信息搜索的时间分配情况,调查的信息搜索渠道包括:网络、实体店、广告和亲友。考虑的协变量包括性别、年龄、教育程度、每天平均上网时间、是否为第一次购买笔记本这些变量、居住地。由于模型的局限,此处只考虑至少选择了两个途径的那部分受访者,有效样本量为233,用MAD[6]方法剔除异常值,样本量为214,其中北京为109个,香港为105个。四个途径的基本描述分析如表1所示。
表1 北京和香港地区消费者购买笔记本信息搜索各渠道时间分配数据的描述分析
从表1可以看出实体店、网络和亲友被选择的次数较多。绝对时间和比例时间呈现出不同的特点,网络的绝对时间是最大的,而实体店的时间比例是最大的。亲友的绝对时间离散程度比较大,但是时间比例的离散程度不是很大。
本文对比例数据和绝对时间数据同时进行了分析。分别尝试了误差项为标准正态分布和标准极值分布的形式,此处仅给出拟合效果较好的标准极值分布的结果。分别将基准边际效用参数和饱和参数加入协变量,使用向后选择变量的方法,剔除不显著的变量,具体参数估计结果如表2所示。
从表2可以看出,比例数据的参数估计结果和绝对时间很相似,这是因为两个模型中对基准边际效用都是反应每个途径被选择的次数大小的。在协变量相同的条件下,实体店(ψ2)被选择的次数会比网络的多,而广告(ψ3)被选择的次数比较小。年龄比较大的人会更加倾向于不选择网络。教育程度比较高的人会相对比较少的选择亲友。平均上网时间比较长的人会较少的选择实体店和亲友(ψ4),较多的选择网络。第一次购买的人会比不是第一次购买的人更倾向于选择亲友获取信息。而居住地在香港的人会比居住地在北京人较少的使用实体店这个渠道进行信息搜索。从饱和参数的估计结果来看,网络(α1)和实体店(α2)的平均时间比例比广告(α3)和亲友(α4)大。
表2 假定基准效用参数具有异质性的模型估计结果
在饱和参数中加入协变量,基准边际效用参数中不加入协变量,结果如表3所示。可以看出年龄和是否为第一次购买会对比例数据的饱和参数有影响。在选择途径数大于1个的人群中,年龄在36岁及以上的人使用网络的时间比例会比36岁以下的人少,而使用实体店的时间比例则比其他年龄段的人群大。对于广告来说,年龄越大的人,使用的时间比例会越大。而咨询亲友的时间比例在各个年龄段没有显著的差别。除此之外,第一次购买的人会分配相对来说更多的时间比例咨询亲友。而对绝对数据的饱和参数有显著影响的变量包括年龄和居住地,这和比例模型中的结果有所不同。年龄在36岁以上的人花费在网络上的绝对时间比36岁以下的人要少,而年龄越大的人会倾向于花费较多的时间在广告上面,这与比例模型中的估计结果是一致的。但是在比例模型中36岁以上的人在获取信息的过程中,实体店的时间比例会比其他年龄段的人大,而在绝对时间里面没有体现这一特点。除此之外,是否第一次购买对时间比例的分配有影响,但是对绝对时间的分配没有影响,也就是说无论是否为第一次购买,如果咨询亲友的意见,他们花费的绝对时间是类似的,但是第一次购买的人咨询亲友的时间占全部时间的比例会更大一些。还有居住地对时间比例没有影响,但是对绝对时间有所影响,香港居民会倾向于花费较少的时间通过实体店进行信息搜索。
表3 假定饱和度参数具有异质性的模型估计结果
本文提出了适合比例数据的离散-连续选择模型。模型的构建过程参考了KAR模型和MDCEV模型的效用函数形式,新的效用函数是仍然是非线性、可加的形式,可以保证边际效用为正。在所有活动的比例和为1的限制条件下,利用K-T条件得到似然函数,进而进行参数估计。本文同时使用比例模型以及MDCEV模型分析了北京和香港两的消费者购买笔记本时在各渠道信息搜索的时间分配数据,从两个不同的角度看出人群的不同特点。
该比例模型有一个局限就是只能应用于至少选择了两个活动或者商品的数据中。在今后的研究中,会基于现有的比例模型的思想,构建可以包含只进行一个活动这种数据的效用函数形式。或者考虑混合模型,用新的效用函数表示未包含进去的这部分数据,进而可以分析全部人的行为特点。
[1]Train K E.Discrete Choice Methods with Simulation(2ndEdition).[M].New York:Cambridge University Press,2009.
[2]Kim J,Allenby G M,Rossi P E.Modeling Consumer Demand for Variety[J].Marketing Science,2002,21(3).
[3]Bhat C R.A Multiple Discrete-continuous Extreme Value Model:Formulation and Application to Discretionary Time-use Decisions[J].Transportation Research Part B,2005,39(8).
[4]Wales T J,Woodland A D.Estimation of Consumer Demand Systems with Binding Non-negativity Constraints[J].Journal of Econometrics,1983,21(3).
[5]Yen S T,Lin B H,Smallwood D M.Quasi-and Simulated-Likelihood Approaches to Censored Demand Systems:Food Consumption by Food Stamp Recipients in the United States[J].American Journal of Agricultural Economics,2003,85(2).
[6]Hampel F R.The Breakdown Points of the Mean Combined with Some Rejection Rules[J].Technometrics,1985,27(2).