陈立双,王叶思丝
(1.闽南师范大学 商学院,福建 漳州 363000;2中国建筑材料科学研究总院有限公司,北京 100024)
居民消费价格指数(CPI)是监测国民经济运行和政府制定政策的重要指标,同时也与人民群众的生活密切相关,在线上消费呈现快速增长的现实背景下,积极主动、合理有效地利用大数据完善居民消费价格指数的编制,对提高政府宏观经济监测和改善人民生活具有极其重要的理论与现实意义。
近些年来,学术界和一些网络零售商开始借助线上购物大数据尝试编制网络价格指数。例如2007年美国麻省理工学院BPP项目利用网上购物数据计算“每日网上价格指数”;阿里研究院编制了aSPI系列,清华大学与阿里巴巴合作编制了清数-iCPI指数等;这些尝试引发了学术界对线上CPI编制理论与方法的热议。如Radzikowski B和s/mietanka A认为,借助大数据编制CPI仅仅是国家统计局价格指数编制方法与线上消费数据的联姻[1];Cavallo和ss′Rigobon利用网抓数据编制价格指数时指出,科学选择可供抽样的零售商和商品种类非常关键[2];Howard指出,线上大数据资源的获取将有利于低层级的加权汇总和创新CPI编制方法[3]。马建堂,游士兵等阐述了全国网购商品价格指数编制的重要性和可行性[4,5];张崇等研究了基于网络搜索数据计算的价格指数与官方CPI指数间的相关性及时间滞后关系[6];吴琼介绍了ISPI(目前称为aSPI指数)与官方CPI在数据调查范围及权重来源等方面的差异,并指出应坚持代表规格品的采集[7];孙毅等就网络搜索数据对预期通胀进行了测度与应用效果分析[8]。
综上所述,国内外相关理论与实践的大胆尝试与创新举措取得了较为丰富的成果,为线上消费大数据在CPI指数中的应用提供了重要指导。但目前线上CPI指数的编制大多是以传统CPI编制方法为基础,由于网络大数据与传统调查数据之间存在较大差异,这种编制方法的适用性、规范性仍处于探讨中,实践中哪些需要做出调整和创新仍有待摸索。为了进一步厘清这些悬而未决的问题,本文首先对中国CPI编制方法在线上价格指数中的适应性进行详尽分析,在此基础上对相关调整方向和方法进行探讨,以期推动居民线上消费数据在价格指数中的实践应用。
2006年开始,国家统计局对城镇居民(尤其是低收入居民)生活费用价格指数的基础研究,探讨出了一种能够反映生活必需品价格变动对城镇居民生活影响的价格指数,称为城镇居民生活费用价格指数。实际上,这一指数的基本理论是指数的经济学理论,而该理论以无差异曲线和收入预算线为基本工具,在效应水平相对固定的情况下,比较两期的最小支出成本来编制。该指数理论的核心假定是消费者的边际效用递减和以最节省成本的方式选择消费组合。但根据目前学术界的研究,线上消费并非呈现边际效应递减规律,例如,何明升(2002)就指出,网络消费最基本的特点之一便是边际效用递增[9],盛晓白(2003)则认为,网络经济中的边际效用递增规律取代了传统经济中的边际效用递减规律[10],谢志刚(2005)针对有关信息的研究指出,信息产品的消费可能会产生局部的边际效用递增效应[11],而线上消费中就有不少信息产品。这一现象可能对指数的经济学理论的基本假设造成较大冲击;另一方面,每一种商品消费都有可能涉及到支出时间,类似于互联网这样的商品其总支出主要由时间成本而非货币成本决定[12]。由于部分网络消费商品更依赖于货币预算约束,而另一部分商品则更依赖于时间预算约束。基于此,传统以货币支出为预算约束的假设可能不再适合。因此,利用网络消费大数据编制相应的价格指数,其指数基本理论依据可能需要做出某种形式的调整与改进,才能够更好地指导线上消费品价格指数的实践编制工作。
对于中国CPI中商品价格数据的采集工作,首先是各省(区、市)调查总队在当地抽选调查市县,而后调查市县自主选定价格调查点。其中,相应调查市县和调查点的确定方法主要使用了随机等距的抽样方法。但随着互联网和云计算技术的快速发展,人类社会实践活动的范围和方式出现了重大改变,居民开始在虚拟的网络空间选购商品和进行消费,线上消费突破了传统意义上的时空界限,不同地区居民所选购的同一商品不再存在价格上的差异,也不存在商品种类选择的区域性限制,地理区域这一概念的重要程度在线上消费价格数据的采集中开始逐渐弱化,传统意义上的区域性抽样框失去了原本应有的意义。此外,随着生成数据的不断增加,无意义的冗余、垃圾数据也会越来越多,传统CPI编制中人工采集数据的方式可能很难得到需要的价格数据。对此,有些专家学者开始采用网络抓取技术采集网页资源中的价格信息,但这种网络抓取方式也存在着一些问题。如:抓取的海量数据没有明确的目标抽样框;各个网络零售商对相同技术规格的产品编码可能不一样、标准不统一等。因此,线上消费品交易价格数据的采集工作,需要突破时空边界,根据线上消费品市场的特征和现实情况,重新寻找更具针对性和有效性的数据调查和采集方法。
CPI指数编制中商品篮子的确认和有效更新,是事关其数据质量的基础性问题。线上线下消费品结构存在较大差异,线上服装类占比最大,而线下食品烟酒类占比最大;线上消费品种类繁多、更新节奏更快,而线下CPI商品分类相对稳定、规格品相对固定;线上商品结构调整快,各类商品所占权重不稳定,而传统CPI编制中消费品结构变化不大,权重更新慢。从淘宝官网不难发现,线上各种消费产品琳琅满目,种类繁多,商品品类分布结构与线下存在明显差异;更为不同的是,电商产品的生命周期短,加之科技快速发展和企业间日益激烈的竞争,促使产品的更新换代越来越快,例如,在各网络零售商激烈的价格竞争情况下,销售火热的产品几乎每天都会发生变化;另外由于节假日、电商促销活动期间集中购物行为导致消费量剧增。对于推陈出新速度之快、交易数量频繁波动的线上交易品,传统代表性项目的确定方法也将会变得失效,商品权重的更新频率也将更显滞后。因此,基于传统CPI理论编制线上价格指数需要对商品分类体系、规格品的确定及其更新频率、权重等做出一定调整。
1.4.1 季节性产品处理方法的适用性
中国统计部门主要借助同比法处理季节性产品,并据此编制了同比、环比和定比等系列价格指数序列。事实上,由于中国现有CPI指数基于月频编制,其季节性问题无疑是一个不可回避的难题,不过在没有更好解决办法的情况下,同比指数法仍不失为一种可取之策。
事实上,关于季节性产品的处理问题,国际劳工组织出版的《消费者价格指数手册:理论与实践》(2004)(以下简称《CPI手册》)对其做了极为系统的阐述和介绍;同时《CPI手册》也将其列为六大令人关注的棘手问题之一[13]。究其原因,主要是这些成果绝大部分都以理论研究为主,关于相关方法之实践应用方面的研究较为少见,理论与实践应用研究严重脱节。中国CPI关于季节性产品的处理也是如此。但随着居民消费数据资源获取能力的大幅提升,人们对季节性产品真实情况的了解正在快速推进,相关实践方面的研究也在逐渐深入,并取得了一些进展。例如,Finkel等实践研究指出,许多商品季节的周期性并不稳定,各方法的应用结果与《CPI手册》存在明显出入[14];Copeland实践研究表明,异质性价格指数法、最大重叠法和Mudgett-Stone法的结果都明显小于其官方公布的结果等[15]。
随着居民线上消费大数据的爆发式涌现和实时采集,季节性产品的真容正在显现,各种季节性产品处理方法的适用性及其有效性正在经历前所未有的挑战和考验,同时也为中国当前同比指数法的实践应用效果及可能存在的误差展开系统研究提供了重要契机。
1.4.2 商品质量调整方法的适用性
对于传统CPI中商品质量调整方法在大数据中的适用性问题,首先需要肯定的是,线上消费品存在极其广泛的质量变动和产品更新,因此商品质量调整工作是非常必要的。其次,由于线上和线下商品质量变化具有同质性,现有商品质量调整理论与方法也是适用于大数据的。对于商品质量调整的理论与方法,《CPI手册》、《价格指数中的享乐指数和质量调整手册》[16]等都对其进行了极为系统地归纳与概括,但这些丰硕理论与方法的实践应用效果同样遭遇了数据资源瓶颈的约束。目前中国国家统计局已经开始选择少数具有代表性的商品,结合商品质量调整的显性或隐性方法展开了商品质量调整工作,但由于传统调查数据资源的限制,这一工作推进起来难度较大,进展缓慢。居民线上消费大数据的出现,将为这些理论与方法的应用研究提供有力的支持。
1.5.1 中国CPI低层级汇总指数公式构造的适用性
由于数据资源的限制,除了美国等少数国家以外,绝大部分国家传统CPI之基本价格指数的编制往往采用未加权方法,从而成为影响CPI数据质量不可忽略的因素之一。下页表1基于数据差异视角下,对中国CPI低层汇总方法在线上价格指数编制中的适用性进行了分析。尽管最为常用的基本价格指数公式Jevons指数较Dutot和Carli具有更为优良的指数检验性质,同时这一处理方法也遵循了国际规范,但Imai等研究了抽样方法和低层级未加权公式的选择对偏误的影响后,发现加权公式的应用和代表性规格品的有效选择无疑是提高价格指数准确性的重要手段[17],传统未加权公式的应用是价格指数偏误的一个重要原因。实际上,从1999年12月开始,美国劳工统计局就在CPI低层级的汇总中采用拉氏价格指数,以力求化解CPI低层级汇总的权偏误和替代偏误。
表1 中国CPI低层级汇总指数公式构造在线上价格指数中的适用性分析
1.5.2 中国CPI更高层级汇总之指数公式构造的适用性对于更高层次的汇总,不同国家政府统计部门采用了不同系列的指数公式,如表2所示。
表2 部分主要国家CPI之高层次汇总指数公式的构造情况
这些公式的选择和应用显然是符合国际规范的,而且也是传统数据状态下的次优选择。对此Redding和Weinstein认为,现有的各类价格汇总指数往往假定消费者对全部商品的偏好参数在时间上是相对固定的,这明显排除了来自于消费者喜好变化而引发的需求冲击。而对这一客观现象的忽略会造成类似于商品替代偏误的消费估算偏误[18]。根据指数的经济学理论来看,拉氏、帕氏和Fisher指数所反映的商品间替代弹性均为零,Törnqvist指数所反映的弹性为单位弹性,而Jevons指数则暗含无穷大的替代弹性。在数据资源极为丰富的大数据环境下,仍使用固定弹性的某一类公式,将会造成商品间替代偏误,从而对线上价格指数的准确性造成不利影响。
目前世界各国编制的消费者价格指数主要基于月频,究其原因主要有以下两方面:(1)传统价格指数的主要作用在于通胀水平的监测,而通胀水平则反映了由于货币的超额供给所引发的市场整体价格水平的长期变动趋势。基于此,价格跨期对比的时长则不宜过短;(2)传统调查方式下投入成本的限制。高频率价格指数需要高频率的原始数据资料,而这又需要高昂的数据调查与处理成本。基于此,传统意义上的数据采集往往是相对低频率的,中国目前编制的价格指数主要是月度、季度和年度的。
但对于线上交易商品而言,(1)线上商品价格与交易数量变动更为频繁,需要更高频率的指数才能够更为真实地反应其价格变化情况。Cavallo研究显示,线上商品价格的变化呈单峰分布形(Unimodal),几乎所有商品的价格都出现了日内小规模的变化,各替代商品价格的变化也存在日内同步效应;(2)大数据的潜在价值突出体现在其较强的时效性,能够及时、有效地捕捉到宏观经济运行的真实趋势和重要拐点;(3)对于高频率的线上交易大数据,编制相对低频率的价格指数,容易引发指数汇总频率上的偏差,严重时甚至会导致通胀趋势与方向的反向判断。例如,Diewert等(2016)研究表明,如果月度单位价值指数是合适的目标指数,则代表性的周频率的价格指数就存在上偏[19]。另外,Haan和Grient(2011)[20]针对洗涤剂分别编制了周频、月频和季频三类Fisher链式指数,从图形来看,前两类指数均显示为下降趋势,而第三类指数则显示为轻微的上升趋势;而且前两类指数表现出明显的分化走势,可见编制频率对价格指数质量的重要影响。因此,对于线上高频交易数据,编制更高频率的价格指数,不仅能够更为微观、准确、灵敏地反映商品交易价格与数量动态变化特征,还能够有效地消除CPI在时间方向上的汇总偏差。基于此,大数据资源下有必要借助其数据优势提高价格指数编制频率,优化CPI指数的系统性功能。
根据上述分析,尽管中国CPI编制方法在很多方面并不完全适用于线上大数据价格指数的编制,但如果经过适当的调整与改进,仍然可以有效应用于后者,并且可以构造出一套更具针对性的线上消费大数据之价格指数编制的技术和方法体系。
居民消费价格指数作为宏观经济领域极其重要的价格指数之一,从古至今都体现了极为明显的经济属性和特征,指数经济学理论的出现更是将其经济本性演绎到了极点。因此,指数的经济学理论被认为是居民消费价格指数构建的重要理论基石,也是目前美国消费价格指数构建的基本理论。针对线上消费的重要特征,尤其是消费边际效应并非明显递减和时间约束,亟需对传统指数的经济学理论加以完善和重构,例如,重新设计新的效用函数,将时间因素和货币因素同时引入效用函数,使其能够更有效地解释互联网时代居民的消费特征。
关于大数据的抽样问题,《大数据时代》指出,大数据是指不用随机抽样调查,而采用全部数据的方法[21]。事实上,这仅仅是一种极其理想化的状态,例如居民线上消费实践案例中,由于线上交易平台和消费渠道成千上万,各单位间尚未形成一个统一的整体和数据的全面共享系统,各地区和省市所分布的线上消费平台和电商企业数量千差万别,要完整、全面地采集居民线上消费大数据,就目前来看,显然需要投入很多的人力、物力和财力,工程浩大。因此,针对居民线上消费大数据,可结合工商部门登记的电商企业,将其按照经营模式、从业企业、经营战略等标志进行分类的基础上,采用典型调查和重点调查相结合的方式,选择更具代表性的电商企业进行数据的采集。
首先,在尽可能参考中国现有CPI商品分类的基础上,结合线上消费品的结构与类型,以消费者的网络消费目的和网络商品的特征为重要依据,进行更具针对性的分类,以进一步完善和扩展居民消费品分类。其次,虽然线上消费记录全面、系统,但也存在大量冗余信息,可能的设备故障也会导致数据混有太多噪声。因此,与传统数据相比,在确定规格品之前,需要利用大数据集成、清洗、转换等技术对居民线上消费数据进行编码、去冗降噪等处理,这一数据处理过程非常关键,对后续规格品的选择与确定具有极其重要的意义。在居民线上消费大数据价格指数的编制过程中,数据清洗是必不可少的关键环节,其清洗工作的科学性和规范性直接关系到指数编制质量。经过清洗后的更为规范和标准的数据,由于线上消费品种类繁杂,同一类商品,例如巧克力的型号和品种就有上百种,传统的规格品确认方法显然难以应对。对此,也需要充分利用大数据分析和处理技术,包括:聚类分析、特性选择、关联规则、相关分析等方法,选择出更具代表性、更稳定且能够实时更新的规格品。针对线上规格品权重的不稳定性,可考虑借助移动平均法实时更新商品权重,以确保商品篮子的代表性、时效性和相对稳定性。
2.4.1 季节性产品处理方法实践应用的系统性分析
大数据为我们提供了居民线上消费的系统性信息,借助居民线上消费大数据,可以深入推进商品季节性产品处理的实践分析。首先,季节性产品的详细分类与差异的比较;其次,季节性产品分布规律及其占各类消费品的比重情况;再次,现有季节性产品处理方法的实践应用效果及其比较;最后,纳入与剔除季节性产品对价格指数编制影响的效应分析,尤其是剔除季节性产品对价格指数长期变动趋势的影响分析,需要做进一步的深入研究等,这些研究可以破解现有季节性产品处理的难题。
2.4.2 商品质量调整方法实践应用的系统性分析
Shiratsuka的研究就曾指出,质量变化或新产品的偏误被认为是工业化国家CPI上偏的最主要来源[22]。实际上,美国历来就十分重视CPI之商品质量调整工作;同时与传统调查数据不同的是,线上商品质量变化速度有加快之势,居民线上消费大数据的出现,为我们获得商品质量信息、及时跟踪商品质量变化情况提供了重要机遇,这将极大地改变传统CPI下商品质量调整工作的困境。综合来看,大数据背景下商品质量调整工作的优化性研究主要包括以下几个方面:第一,商品质量的稳定性及其变动周期与规律;第二,各种商品质量调整方法的应用效果、适用条件及其可能应用的产品类型;第三,商品质量偏差的数量分析;第四,选择具有代表性的产品编制Hedonic价格指数并逐渐推广;第五,探讨商品质量调整的统计标准与规范性分析等。这些问题的深入推进和系统厘清,将极大地提高中国CPI的编制技术和水平。
首先,大数据获取的信息全面、完整是对传统数据资源极其重要的补充。线上价格指数的构造中,全部价格指数都将采用加权方式汇总,这一转变必将极大地提高线上价格指数的质量;其次,大数据背景下价格指数的编制可以消除不同类型商品间的替代偏差,进而构造更具针对性、实用性的价格指数。目前,在各类价格指数中,更能够满足该条件的指数公式主要为:
其中第一个指数由Lloyd(1975)和Moulton(1996)各自独立提出,其优点在于能够结合不同类型商品间的替代弹性σ选择更具针对性的指数公式,以避免指数构造所带来的偏误,尤其是商品间的替代偏误。正如《CPI手册》所指出的,实际上,我们可以相当可靠地判定PLM并无替代偏差,而且所需数据并不多于Lowe或Laspeyres指数。因此,在大数据背景下,可以尝试利用该指数来计算线上消费者价格指数。
由于高频价格指数更具灵敏性和时效性,利用线上大数据编制更高频率价格指数,例如周频、日频甚至是实时指数,具有重要的实践价值。但实际上,编制线上消费价格指数时采用实时频率可能不太合适。因为从现有技术水平和价格指数的统计角度来看,数据清洗、整合、商品质量调整等工作都需要一定时间,而且很多工作目前还需要人工的介入与干预。因此,编制周频或日频线上居民消费者价格指数更具可操作性,而且这类高频率价格指数对于宏观经济监测同样具有明显优势。但这并不意味着大数据资源下完全忽略月频、年频等价格指数,因为这些指数在预测通胀趋势上具有特殊作用,仍有必要利用大数据编制不同月频、年频的价格指数,但实践中需要处理好不同频率价格指数间的相互转化和有效协调问题。
大数据资源下价格指数的编制,依然离不开既有价格指数的基本理论框架和实践经验。本文对中国现有CPI编制方法与实践经验在线上价格指数中的适用性进行分析,并进一步讨论了现有CPI编制方法应用到线上价格指数中需要作出的调整与优化方法。这些问题的探讨都是为了解决利用大数据编制价格指数的关键问题,对线上价格指数的编制具有重要意义。当然,相对于一个完整的、有效应用于实践的可操作框架而言,本文所作的研究还不够详细和深入。本文的主要目的仅在于提供一些问题的解决思路和方向,更多深入的细节问题有待后续进一步研究。
参考文献:
[1]Radzikowski B,Mietanka A.Online CASE CPI[J].Center for Social and Economic Research(CASE),2016.
[2]Cavallo A,Rigobon R.The Billion Prices Project:Using Online Prices for Measurement and Research[J].The Journal of Economic Perspec⁃tives,2016,30(2).
[3]Howard A,Dunford K,Jones J,et al.Using Transactions Data to En⁃hance the Australian CPI[C].fourteenth Ottawa Group Meeting,2015.
[4]马建堂.大数据在政府统计中的探索与应用[M].北京:中国统计出版社,2013.
[5]游士兵,张佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论,2013,2(9).
[6]张崇等.网络搜索数据与CPI的相关性研究[J].管理科学学报,2012,(7).
[7]吴琼.大数据视野中的价格指数统计[J].数据,2013,(10).
[8]孙毅,吕本富,陈航等.大数据视角的通胀预期测度与应用研究[J].管理世界,2014,(4).
[9]何明升.网络消费:理论模型与行为分析[M].哈尔滨:黑龙江人民出版社,2001.
[10]盛晓白.网络经济与边际效用递增[J].商业时代,2003,(245).
[11]谢志刚.信息产品需求特性与垄断性市场结构[J].中国工业经济,2005,(5).
[12]Goolsbee A,Klenow P.Valuing Consumer Products by the Time Spent Using Them:An Application to the Internet[R].National Bu⁃reau of Economic Research,2006.
[13]ILO,IMF,OECD,UNECE,Eurostat,and the World Bank.Consumer Price Index Manual:Theory and Practice[M].Geneva:International Labour Office,2004.
[14]Finkel Y,Rakhmilevich A,Roshal V.Different Approaches to the Treatment of Seasonal Products:Tests on the Israeli CPI[C].10th Ot⁃tawa Group Meeting,Ottawa,2007.
[15]Copeland A,Miller A.Seasonality and Prepackaged Software Price Indexes[J].US Department of Commerce,Bureau of Economic Anal⁃ysis,Office of the Chief Statistician,2008.
[16]Triplett J.Handbook on Hedonic Indexes and Quality Adjustments in Price Indexes:Special Application to Information Technology Products[R].Publications de l’OCDE,2006.
[17]Imai S,Diewert E,Shimizu C.Consumer Price Index Biases[EB/OL].http://www.stat.go.jp/english/info/meetings/og2015/pdf/t1s1p3_pap.pdf.
[18]Redding S J,Weinstein D E.A United Approach to Aggregate Price and Welfare Measurement[EB/OL].https://xue.glgoo.org/scholar?cluster=3394058579854622741&hl=zh-CN&as_sdt=0,5.
[19]Diewert W E,Fox K J,Haan J D.A Newly Identified Source of Po⁃tential Cpi Bias:Weekly Versus Monthly Unit Value Price Indexes[J].Economics Letters,2016,(141).
[20]Haan J D,Grient H A V D.Eliminating Chain Drift in Price Indexes Based on Scanner Data[J].Journal of Econometrics,2011,161(1).
[21][英]维克托·迈尔·舍尔伯格.大数据时代[M].杭州:浙江人民出版社,2013.
[22]Shiratsuka S.Measurement Errors in Japanese Consumer Price Index[R].Federal Reserve Bank of Chicago,1999.