中国统计数据质量研究综述

2016-05-30 04:44王晶
今日财富 2016年3期
关键词:理论研究实证研究

王晶

摘 要:随着中国经济发展方式的转变,统计工作所面临的内外部环境发生了巨大转变,国际国内学者对中国统计数据质量一直质疑不断,其中统计数据不协调成为社会各界关注的热点问题。本文在回顾国内外宏观经济统计数据质量诊断的先进理论成果的基础上,指出现阶段统计工作中数据不协调问题显著,认为在今后的统计工作中从数据协调性角度对数据质量进行诊断是十分有意义的。

关键词:统计数据质量;数据协调性;理论研究;实证研究

一、 引言

统计数据是指在统计工作过程中搜集到的能够反映社会经济现象的数字信息以及相关联的其他信息的总称,是社会经济的信息载体,统计数据质量的好坏决定着数据分析結果是否真实、可靠。改革开放三十多年以来,我国经济飞速发展,GDP规模不断发展壮大,GDP总量增长了20多倍,年平均增长速度直逼10%,中国创造了一个又一个人类经济史上的新记录。然而,一直以来,我国统计数据饱受统计学界的质疑。在质疑和反驳的过程中,学界和政府统计部门纷纷加大了对统计数据质量评估方法的探索力度。

二、 文献综述

(一)理论研究文献综述

国内外学者主要从统计数据质量涵义、统计数据失真机理、统计数据质量控制三方面出发,进行了大量的理论研究。其中,统计数据质量涵义主要研究数据质量的评估标准;统计数据失真机理主要研究导致统计数据出现质量问题的原因;统计数据质量控制主要是对统计误差的产生与控制进行研究,涉及误差的构成研究、测量误差的统计分布与检验、缺失数据的处理方法等。

(二)国外理论研究文献综述

关于统计数据质量涵义的研究:20世纪初期围绕统计数据质量,国外学者提出数据准确性是衡量数据质量的重要标准,但随着研究的不断推进,统计学者将统计数据质量从准确性单一标准推广到一个内涵丰富的综合概念。

关于统计数据失真机理的研究:20世纪三四十年代,美国国情局在人口普查时对非抽样误差进行了研究,在报告中指出了统计资料存在误差的原因,并运用“单独复核的方法”计算统计误差。Chong、Uinam、Chung(1985)提出了由于概率分布引起的数据失真问题,这种失真问题不同于传统的失真问题,它不能通过重复调查得到改善。

关于统计数据质量控制的研究:Ortiz、Sarabia(2006)指出一个合理的数据质量评估程序应该具备准确性、灵敏性、稳健性等特性,这就要求在异常值诊断时需要考虑回归方法是否稳健。如果数据存在异常值时选择非稳健的统计估计方法,将会严重影响参数的估计结果、模型对异常值的灵敏度以及异常值的检测能力。文中提出最小中位数回归方法在化学研究中的异常点识别是非常有用的。

(三)国内理论研究文献综述

关于统计数据失真机理的研究:许宪春(2002)认为现行的GDP核算体系存在诸多问题,如产业部门与支出项目的划分不够精确,各专业分季度统计调查制度不健全、不完善,国内生产总值缺少分季度生产和使用核算,价格指数数据不完全,其中服务业缺口尤为突出,不能完全反映未被观测经济,统计管理制度不够完善,统计部门不够独立,人为主观因素是影响统计数据质量的重要原因。

关于统计数据质量控制的研究:傅德印(2000)认为单一的准确性已不能保证用户对数据质量的要求,他从技术层面出发,提出构建了统计数据质量控制技术体系,并对该体系的主要内容进行了详细介绍。陈培培、金庸进(2012)总结与分析了以往我国经济普查数据质量评估工作,指出汇总数据及基层个体数据抽样的检验规则不科学、严谨,并给出相应改进意见。

通过研究理论文献综述,发现国外关于数据质量理论研究开始较早,发展较为成熟,但是各国统计管理体制不同,国外的一些研究成果在我国并不一定适用,我国应根据基本国情及统计实践经验,构建适合自己的统计数据质量评估体系。通过认真学习统计数据质量理论相关文献,为本文数据质量涵义的界定及稳健MM回归的实现打下了基础。

三、 实证研究文献综述

国内外众多学者除了在统计数据质量理论方面进行了大量研究外,也在实证研究方面做出了不断努力,具体包括生产、消费及其他三个视角下的研究。其中,生产视角主要是对经济增长单个指标数据准确性问题以及劳动、人力资源、能源等投入指标与经济产出指标之间协调性问题的研究。

(一)国外实证研究文献综述

基于生产视角的研究:Rawski(2001)指出自1998年以来中国官方公布的GDP数据有高估嫌疑,并且偏误远远大于统计技术困难带来的误差,近年来7%-8%的官方GDP增长率不能反映真实的经济成果,文中给出了反映中国经济增长情况的真实评估结果。认为1998年GDP增长率最高为2.2%,被高估了约5.5个百分点,1999年GDP增长率也远低于7%(官方数据)。对中国宏观经济统计数据质量进行研究,发现无论采用年度数据、季度数据还是月度数据,这些宏观经济数据都能真实反映中国经济运行情况,并且各指标数据与GDP数据增长趋势基本一致,符合基本经济规律。

基于消费视角的国外研究比较少,Rawski(2001)基于能源、消费等视角论证了中国经济增长数据的可疑性。其中在消费视角上,指出中国消费数据之间、消费数据与收入数据之间不一致。

基于其他视角的研究:Scharping(2001)分析了人口数据, 指出计划生育政策和人口流动性的增强导致中国人口统计数据存在严重问题。Sun Fei(2012)采用SWAT模型模拟了2000-2004年间江西省柘林镇径流量月度数据,并且对2002年数据进行了季节性分析,研究发现径流量与降水之间存在稳定的内部关系,在没有其他更好方法的情况下,可以用SWAT模型估计的径流量值评估降水量的数据质量。

(二)国内实证研究文献综述

基于生产视角的研究:张新和蒋殿春(2002)首先利用1996-2001年间零售总额、进口等月度名义数据对GDP增长率进行估计,发现估算值与官方公布的名义GDP数据相差不大,且与官方公布的实际GDP增长在方向上也是一致的,但认为1998年月度数据值得怀疑。阙里、钟笑寒(2005)选取10个宏观经济核心指标,利用1984-2001年间我国28个地区面板数据构建固定效应变截距模型对GDP数据准确性进行评估。

基于消费视角下的研究:许永洪、曾五一(2009)运用Hamilton-Costa方法,对1997-2006年居民消费价格指数偏差进行估算。研究发现,1999年官方居民消费价格指数与城镇居民生活成本指数之间存在5.83%的累积偏差,其余年份两指数之间存在内在一致性。

基于其他視角的研究:成邦文、董丽娅、杨峻( 2000)选取覆盖研究与开发机构经费、资产、成果等六个方面的86个统计指标,采用对数正态分布诊断法对这些指标数据的准确性进行了评估。认为地区及全国主要调查指标数据都比较可信。李子奈、周建(2005)运用联合估计诊断方法对我国财政收入占GDP的比重、城市居民消费价格指数、财政收入增速、就业人员增速等36个主要宏观经济统计数据中存在的异常点进行识别与诊断。研究结果显示,大约每十个宏观经济统计数据观测值中存在一个异常点,异常点通常聚集成堆出现,孤立的异常点不是我国宏观经济时间序列的主要特征。

综上所述,我们可以得出,在模型估计方法上,大多学者仍采用普通最小二乘法对模型参数进行估计,然而OLS回归易受到数据集中少数异常值的影响,从而模型估计结果不准确,根据拟合模型得到的残差不能检测出所有异常点。近年来统计学者开始重视稳健估计方法,并建立基于稳健估计方法的数据质量模型,该方法能够可有效地解决OLS方法中经常出现的多个异常点掩盖的弊端。除此之外,统计学界对统计数据质量评估主要停留在单项数据准确性的研究上,对两个或两个以上统计数据之间的协调性研究比较少;对数据质量研究视角也较为狭窄,对消费视角下数据协调性研究较少。

四、 展望

目前实际统计工作中,各专业统计数据之间不协调、不同统计调查项目之间数据不协调等问题十分严重,从而导致统计数据质量不高。并且各宏观经济指标之间关系密切,通常情况下,各指标之间具有一定的匹配关系,即从协调性角度来看,各指标数据之间应该是相互协调的,这种协调关系可以通过计量模型进行反映。故为了解各变量之间的协调关系,可以首先寻找各宏观经济指标之间的一般关系计量模型形式,基于这一模型形式运用相关数据质量诊断方法对各指标之间的协调性进行评估,如果某年数据点偏离模型,则认为该年各指标之间是不协调的,这一年的数据质量较差。由于协调性的评估是基于计量模型的,则称这一计量模型为协调关系模型。从系统角度将统计数据质量内涵与协调性结合起来,并建立数据协调关系模型,提出统计数据质量诊断方法,为宏观经济统计数据质量的评估提供了一定的方法论基础。

参考文献:

[1]余芳东.外国统计数据质量的涵义、管理以及对我国的启示[J].统计研究,2002,(2):26-29.

[2]许宪春.中国国内生产总值核算[J].经济学(季刊),2002,2(1):23-36.

[3]朱文杰,张继良.统计管理体制改革及其模式初探[J].中国统计,2005,(8):6-8.

[4]岳希明.我国现行劳动统计的问题[J].经济研究,2005,(3):46-56.

猜你喜欢
理论研究实证研究
双钢琴演奏心理调控的理论及其实践研究
从中国特色到中国学派
浅析我国竞技健美操研究现状与趋势
中学生数学学习方式创新研究
生态翻译学研究简述
中国在新农村建设中金融支持的实证研究
简述翻译研究中实证研究法的应用
玉雕专业学生专业认同的实证研究
温州小微企业融资环境及能力分析
认知语言视角下英语词汇多义习得的实证研究