袁 铭
(天津财经大学 统计系,天津,300222)
一直以来,居民消费价格指数的预测是经济学界、统计学界研究的热点问题。而近年来大数据技术为该问题的研究提供了新视角。一方面,大数据技术能够提供对经济活动更微观和近乎实时的测度能力,而传统的官方统计数据是宏观的(全国或各省)、低频的(年度、季度、月度),并且存在一定程度的滞后。另一方面,大数据技术能够提供许多新类型数据源。例如百度搜索引擎提供了针对关键词的搜索量数据,而淘宝等购物网站不仅提供了搜索量、成交量数据,还提供了商品成交价格区间和消费者地域信息。有鉴于此,本文尝试使用淘宝指数—淘宝网的关键词搜索量构造中国CPI的及时预测(nowcast)模型。与传统意义上的预测模型不同,nowcast技术利用高频数据(搜索量数据是日度的)领先于低频数据实现对低频数据的当期值而不是未来值的预测。例如,在每月最后一天可以计算出当月搜索量均值,进而可以通过模型计算出当月价格指数的估计值。由于官方统计数据要在下月10日给出,因此该估计值实际上是对当月价格指数的预测。笔者选择的数据集也非常具有研究价值。第一,截止到2013年12月,中国网络购物交易规模达到1.85万亿,虽然只占同期社会消费品零售总额的7.8%。但网络购物用户规模达到3.02亿,占总人口的近1/4,因此可以说网络购物是居民消费的重要方式。第二,典型的消费者购买过程可以分为两个阶段:研究和选择阶段以及决策购买阶段。随着互联网的普及以及各种类型购物网站出现,即使消费者没有选择网络购物的方式,也会利用搜索引擎、电商网站查找与计划购买商品相关的品牌、价格、用户评论等信息。而这又会反映到关键词搜索量上,因此搜索量能够相当准确地反映消费者的需求,而需求又会最终影响价格。第三,根据中国互联网搜索行为研究报告中的数字,网民绝大多数情况下直接在购物网站内进行搜索(75.8%),而在这些购物网站中淘宝网以接近90%的使用率占绝对统治地位,可以说淘宝网搜索量数据几乎可以完全代表中国网民的购物搜索行为。
虽然,淘宝搜索量数据可以为CPI预测提供丰富信息,但要发挥出作用需要解决以下几方面问题。首先,搜索量数据存在更明显更复杂的季节和节日效应,因此将这些数据转化成为变量需要进行调整。其次,存在关键词选取问题。居民消费包括食品、衣着、家庭设备等多个领域,这就要求选取的关键词能覆盖这些领域,从而能较全面地代表消费者的行为。最后,由于宏观经济变量的序列长度较短,如果将关键词搜索量及其滞后项作为变量加入模型后,很容易出现解释变量数远超样本容量的情况,这就需要采用数据降维技术。针对上述三方面问题,笔者尝试给出解决方法。本文将选出与居民消费联系最密切的关键词,将这些关键词的淘宝搜索量数据经过季节调整转换为变量后构造CPI的及时预测模型,并在参数估计中通过收缩估计量对变量进行选择,提高模型的预测精度。
目前,直接使用网购搜索量进行消费价格指数预测的研究较少,但基于通用搜索引擎(谷歌、百度)搜索量数据的宏观经济变量预测研究较多。国外方面,Choi和Varian发现“工作”、“社会服务”、“失业”等关键词搜索量与首次申请失业救济人数具有相似的趋势和周期性模式,将关键词搜索量加入预测模型后可以将预测平均误差降低15.74%[1]。Askitas和Zimmerman在德国进行了相似的研究,也得出了相近的结论[2]。在Choi和Varian的后续研究中,他们将研究对象拓展到汽车、旅游和住房市场,结果显示搜索量的加入可以提高短期预测精度5%至20%(取决于商品属性)[3]。如果在某种商品消费过程中,计划与选择阶段明显早于决策与购买阶段,则预测精度提高幅度较大。还有一些学者将基于搜索量的预测模型与基于调查数据的预测模型进行比较。Vosen和Schmidt将搜索量数据用于私人消费预测,结果显示,与基于消费者信心指数的模型相比,基于搜索量的模型具有更优的样本内外预测精度,而对关键词类别经过适当筛选后可以进一步提高预测精度[4]。McLaren和Shanbnogue检验了搜索量在预测英国劳动力和住房市场走势时的重要性,并将基于搜索量的预测模型与基于市场调查的信心指数预测模型进行比较[5]。他们指出加入搜索量可以显著提高模型的预测精度,并且特别适用于分析突发事件的影响;而调查数据是通过预先设定的问卷采集的,远不如搜索数据灵活。上述研究初步证明了将搜索量数据用于一些经济变量预测的可行性。但这些模型大多是将搜索量作为辅助变量加入到传统的预测模型。同时,他们选取的预测对象也较微观和具体,在选择搜索量关键词时可以更有针对性,在一定程度上也避免了数据降维问题,因此取得了较理想的预测效果。而本文使用的网购搜索量数据涉及范围更广,数据特征也更复杂,在对CPI进行预测时是否也能取得理想的效果很值得研究。国内目前尚未见将搜索量用于宏观经济预测的研究。赵龙凯、宋双杰等将股票简称的百度搜索量作为投资者关注度用于研究股票IPO市场异象和股票收益率[6-7]。值得注意的是,这两篇文献对搜索量的解释能力却得出了相反的结论。宋双杰的研究肯定了IPO前以股票简称或者股票代码为关键词的搜索量对市场热销程度、首日超额收益和长期表现具有很好的解释和预测能力,而赵龙凯的研究则指出虽然高关注度股票的平均收益率显著大于低关注股票,但在控制一些因素后,基于搜索量的关注度并不是显著的风险因子。因此,本文研究中也应通过检验避免网络搜索量与CPI之间出现虚假关系。
本文在选取关键词时充分结合了国家统计局给出的居民消费支出分类以及淘宝网根据用户实际搜索行为给出的分类。在国家统计局给出的《居民消费支出分类2013》中,将居民消费划分为食品、烟酒及用品、衣着、家庭设备及维修服务、医疗保健和个人用品、交通和通讯、娱乐教育文化用品及服务以及居住八大类,因此本文选取关键词也围绕这八类进行。淘宝网则根据销售量将商品划分为20个热销类型,包括男/女装、手机、零食、住宅家具等,将两种分类比较后可以建立起二者的对应关系,例如热销类型“数码配件”、“手机”、“汽车用品”可以对应消费中的交通和通讯类型,而“男/女装”、“男/女鞋”、“内衣”、“童装”可以对应衣着类消费。与此同时,淘宝搜索量数据还提供了每种类型最近一周内关键词搜索量排行榜,对其进行长期跟踪后可以获得网购用户的搜索习惯,具体做法是:将一年内每周排行榜前3名的关键词记录下来,然后再统计这些关键词在排行榜内出现次数,选取出现次数最多的5个关键词作为该类型的代表性关键词(共有100个)。这样做一方面考虑同一大类商品中不同商品的季节属性,例如“凉鞋”、“靴子”这两个关键词在春夏和秋冬两季的搜索量分别显著高于其他关键词,但从一年的角度看,这两个关键词未必是最具有代表性的,而“女装”这种概括性的关键词受季节影响较少,在排行榜中出现的次数可能更多,从而更具有代表性。另一方面,基于排行榜选取关键词可以避免突发搜索的影响,例如随着《舌尖上的中国》热播,在每集结束后会出现节目中涉及食品的搜索高峰,但在全部样本区间内,其搜索量可能是很低的。
本文采用的淘宝搜索量数据区间为2011年7月1日至2014年5月31,共计35个月,1 066个观测点。图1分别给出了关键词“裙子”、“手机”和“厨具”的搜索量数据序列图。
图1 “裙子”、“手机”、“厨具”的搜索量原始数据图
首先,搜索量数据具有非常显著的异质性,由于商品属性不同,不同类型商品的关键词搜索量相差数倍甚至数十倍。一般地,非耐用消费品搜索量高于耐用消费品搜索量;而进入电商领域较早、市场比较成熟的商品搜索量高于其他商品搜索量。其次,以裙子为代表的季节性衣着类商品,其搜索量也具有明显的季节性特征,在4月初至8月底的数值显著高于其余月份,并且在5月底达到最大值。再次,搜索量数据也存在比较明显的水平漂移(level shift)特征,反映出消费行为变迁或者宏观经济波动。例如“手机”从2012年开始,其年均搜索量呈现逐年递增的趋势。一方面表明随着消费者对电商的信任程度增加,消费者购买逐渐从传统门店转向从电商处直接购买,另一方面也表明消费者更换手机的速度逐渐加快。与之相反的是“厨具”的搜索量在2012年达到较高水平后逐渐下降,这与国内宏观经济指标的走势也是相吻合的。最后,搜索量数据也存在由假日效应产生的异常值,这其中既包括春节等中国传统节日,也包括“双11”、“双12”等商家促销活动产生的购物节。搜索量通常在春节前10~20天内显著降低,这是因为淘宝店铺一般在春节期间闭店;而在“双11”、“双12”这两天搜索量激增,可以达到年均搜索量的数倍。
由于消费价格指数是月度数据,因此也需要将日度的搜索量做相应转换。本文将给定月份内日度搜索量求平均值作为该月的搜索量。在得到月度搜索量数据后,需要对季节效应和节日效应进行调整。整体上可以将商品划分为存在季节效应和无明显季节效应两种,但无论哪种类型商品都有着明显的节日效应。对于季节效应,可以使用现有的较为成熟的Census X-12或TRAMO/SEATS方法进行调整。而对于节日效应,本文主要考虑“双11”、“双12”这两个购物节和春节这个传统节日。虽然,两个购物节时的搜索量显著高于平时,但其位置固定,没有明显的节前、节后效应,并且月度平均后异常程度比原始月度数据有大幅度降低。因此可以在X-12或TRAMO/SEATS中直接将其作为异常值进行处理。
春节的处理较为复杂,它是中国最重要的节日,而且是典型的移动假日。春节的影响主要表现为在春节前10天左右搜索量开始下降,并在除夕达到最低值。这是因为商家在春节前5~10天停止发货,在春节期间闭店。春节过后,搜索量逐渐恢复,经过8~10天恢复至正常水平。综上,本文参考石刚的做法,将春节模型设定为“两区段负效应线性模型”,春节效应只落在一月和二月,节前、节中和节后时长分别为10天、7天和8天[8]。在此基础上,可以分别计算出春节模型所对应的虚拟变量Dij(i表示年份,j表示月份)。选定调整模型后还需要确定引入方式,共有两种:一种是在调整前引入春节模型(以原序列为被解释变量),另一种是在调整后引入春节模型(以原序列的不规则成分为解释变量)。本文采用前一种方式,并在Eviews软件X-12的regARIMA预调整模块中通过编程实现,得到的结果如图2所示。
图2 “裙子”、“手机”、“厨具”的月平均搜索量以及调整后的月平均搜索量图
图2 “裙子”、“手机”、“厨具”的月平均搜索量以及调整后的月平均搜索量图
在对搜索量数据进行转换和调整后,要建立基于搜索量变量的预测模型。首先逐一对搜索量与消费价格指数(全国、城镇)是否存在协整关系进行检验,并进一步通过格兰杰因果性检验确定变量之间逻辑关系的正确性。本文采用EG两步法进行协整检验,将协整回归设定为CPIt=β0+β1t+β2SVt,其中CPIt表示对数消费价格指数,SVt表示关键词搜索量,t表示时间趋势项。对协整回归的残差进行ADF单位根检验时以及进行格兰杰因果性检验时,根据Schwarz信息准则确定滞后阶数,得到的结果如表1所示,由于篇幅所限,本文只给出了在10%显著性下通过协整检验,并且拟合优度最高的10个搜索量变量的检验结果。
表1中的结果显示,绝大多数情况下,关键词搜索量变量与全国或城镇CPI都具有单向因果关系,这意味着使用搜索量预测CPI是恰当的,而表中这些变量也可以作为建立预测模型的候选变量。协整回归中,除“手机”外,其他关键词搜索量与价格指数均呈现负相关关系。由于搜索量可以在相当程度上反映消费者需求量,因此这种负相关关系在经济意义上是合理的。而手机这种耐用高技术商品具有特殊性,新设计、新功能层出不穷,性能每年也都会有很大程度的提高。笔者认为人们特别是以中青年为主的网民群体搜索手机的主要动机是“追新”,也就是希望了解新手机的性能,因此手机搜索量的变动更多地反映出消费者收入的变动。实际数据也印证了笔者的猜想,例如2012年以GDP为代表的许多宏观经济指标都出现一定程度的回落,而图2显示的手机搜索量在2012年也处于三年内最低水平。较高的收入水平推高物价水平这正是手机搜索量与价格指数之间正相关关系的理论依据。
表1 搜索量变量与CPI协整检验与格兰杰因果性检验结果表
本小节选择上述10个搜索量变量建立基于分布滞后模型的及时预测(nowcast)模型。笔者将nowcast模型设定为:
公式(1)中CPIt、t的定义与前文相同,SVj,t-i表示第j个搜索量变量的第i阶滞后项。鉴于样本容量所限,本文将p设定为2,此时模型中解释变量数为32个,而可用的观测点数只有34个,如果直接估计模型,估计量的标准误很大。同时,解释变量与它们的滞后项之间高度相关,也即存在严重的多重共线性问题,使得问题更加严重。因此,为了实现对该模型的有效估计就需要使用数据降维或者变量选择技术。典型的数据降维方法是建立因子模型,也即利用主成分分析方法提取原始解释变量的公因子建立模型。但公因子的经济含义不明确,因子个数的确定没有明确的准则。典型的变量选择技术有逐步回归、岭回归、lasso回归、Elastic-Net回归等方法,其中逐步回归是一种离散的变量子集选择方法,它根据模型的统计检验结果加入或删除变量,进而确定最优的变量子集,但这样做很容易引起死循环。后三者都是基于惩罚最小二乘估计的收缩估计方法。由于岭回归只能将回归系数无限收缩却无法趋于零,它不能起到变量选择的作用,因此岭回归是不适用的。故本文使用基于惩罚最小二乘估计的Elastic-Net方法[9](lasso可以视为Elastic-Net估计的特例),其估计量定义如下:
本文将α的参数空间设定为0.05至1内按等差数列取的20个数值,λ的参数空间设定为[10-6,10-2]内按等比数列取的100个数值。λ的上限设定为0.01是因为当λ=0.01时恰好可以将全部回归系数收缩至0。在估计模型的预测误差时采用K重交叉验证方法,并令K=10。首先对每个参数组合构造Elastic-Net估计量,确定最小的K重交叉验证均方误差估计值(MSE)和相应的λ值;重复上述过程100次,计算最小MSE的均值,得到的结果如表2所示。
表2 基于模型MSE的调整参数α的选择
可以看出,对于预测全国CPI,当α=0.45或0.65时模型的 MSE都是最小的,但当α=0.45时MSE估计量的标准误略高于α=0.65时,因此将调整参数α确定为0.65;类似的,对于预测城镇CPI将α确定为0.7。图3给出了根据MSE确定λ的过程,误差线给出了MSE正负1个标准差对应的区间,图4给出了各回归系数随λ收缩至0的过程。
图3 模型的MSE随λ的变化规律(预测全国CPI,α=0.65)图
图4 不同惩罚因子下Elastic-Net的估计结果图(预测全国CPI,α=0.65)
表3给出了全国和城镇CPI预测模型的估计结果,作为比较,表3中也给出了向前逐步回归的估计结果,括号内为估计量的标准误。比较二者结果可以得出以下三点结论。第一,Elastic-Net方法和逐步回归选出的变量有很多是相同的,表明模型具有内在的逻辑一致性。例如,在当期项中二者都保留了SV2、SV3和SV7,一阶滞后项中保留了SV8,二阶滞后项中保留了SV4和SV9。这些变量具有的共同点是它们都属于淘宝网交易量非常大的商品类型,包括家庭设备类、娱乐用品类等,并且数据的变异程度也高于其他变量。但在这些相同变量中间,Elastic-Net估计量的回归系数绝对值都小于逐步回归的系数绝对值,这是由二者估计原理的差异造成的。第二,在分别预测全国或城镇CPI的模型中,Elastic-Net方法选出的变量几乎相同,模型的经济意义更明显,更便于解释,而逐步回归选出的变量在两个模型中存在较大差异。第三,模型中不同的搜索量变量也具有不同的滞后结构,这同样是由搜索量相应的商品类型决定的。例如“零食”(SV3)对CPI的影响持续期较短,而“床上用品”(SV4)、“厨具”(SV7)、“路由器”(SV8)、“运动”(SV9)这些家庭设备、娱乐用品对CPI影响的持续期较长。
表3 全国与城镇CPI预测模型估计结果表
在模型预测效果方面(见图5),无论是全国还是城镇CPI预测模型,基于Elastic-Net估计结果的模型MSE都低于基于逐步回归的MSE。同时,城镇CPI预测模型的MSE也低于全国CPI预测模型,这一点也是符合实际情况的。因为网购群体主要集中在城镇人口,因此将搜索量用于预测城镇CPI效果更优。
图5 基于Elastic-Net估计的模型预测值与实际值比较
本文基于网购搜索量建立全国和城镇CPI的及时预测模型,在建模过程中主要完成以下三方面工作。第一,结合国家统计局的居民消费支出分类和淘宝分类以及搜索量排行选取具有代表性的关键词。第二,对搜索量数据进行季节调整,并对“双11”、“双12”这两个购物节和春节进行处理,其中将两个固定的购物节直接作为异常值,将春节模型设定为“两区段负效应线性模型”。第三,选择通过协整检验和格兰杰因果性检验的变量建立CPI预测模型,利用Elastic-Net方法对解释变量进行筛选,并将预测效果与基于逐步回归的估计进行比较分析。本文得出的结论有以下三点。第一,绝大多数情况下,搜索量与价格指数都呈现出负相关关系,这表明搜索量可以在一定程度上代表消费者需求。而手机属于耐用高技术商品,搜索量更多地反映消费者收入水平的变动,因此搜索量与价格指数是正相关的。第二,经过Elastic-Net和逐步回归筛选出的变量有许多是相同的,这些变量大多属于淘宝网交易量非常大的商品类型,并且不同商品类型的搜索量在模型中也具有不同的动态结构。第三,城镇CPI预测模型的MSE低于全国CPI预测模型,而基于Elastic-Net的模型预测效果也优于逐步回归。
[1] Choi H,Varian H.Predicting Initial Claims for Unemployment Insurance using Google Trends[R/OL].Technical report,Google,2009,http://research.google.com/archive/papers/initialclaimsUS.pdf.
[2] Askitas N,Zimmermann K F.Google Econometrics and Unemployment Forecasting[J].Applied Economics Quarterly,2009,55(2).
[3] Choi H,Varian H.Predicting the Present with Google Trends[R/OL].Google,2011,http://google.com/googleblogs/pdfs/google_predicting_the_present.pdf.
[4] Vosen S,Schmidt T.Forecasting Private Consumption:Survey-Based Indicators vs.Google Trends[J].Journal of Forecasting,2011,30(6).
[5] McLaren N,Shanbhogue R.Using Internet Search Data as Economic Indicators[R].Bank of England Quarterly Bulletin(Q2),2011.
[6] 赵龙凯,陆子昱,王致远.众里寻“股”千百度——股票收益率与百度搜索量关系的实证探究[J].金融研究,2013(4).
[7] 宋双杰,曹晖,杨坤.投资者关注与IPO异象——来自网络搜索量的经验证据[J].经济研究,2011(S1).
[8] 石刚.春节模型的设计与应用[J].统计研究,2013(1).
[9] Zou H,Hastie T.Regularization and Variable Selection via the Elastic Net[J].Journal of Royal Statistic Society B,2005,67(2).