统计数据质量评价方法与误差分布研究

2011-03-16 08:00:47孟祥兰郁婷婷刑金余

统计与决策 2011年19期

孟祥兰，李玮，耿菲，郁婷婷，刑金余

（中南财经政法大学统计与数学学院，武汉， 430073）

0 引言

统计数据质量的重要性在于它影响着人们对社会经济现象的认识和判断，以及以此为依据的决策正确性与科学性，而且还直接威胁着国家统计机构的形象和声誉。随着经济全球化进程的加快，社会各界对统计信息的需求越来越广泛，特别是信息网络技术的推广应用，一方面对统计数据质量提出更高的要求，赋予其更新的内涵；另一方面也为改进和提高统计信息的质量提供了更好的便利条件和手段。故而探究统计数据质量问题，诊断宏观经济统计数据质量的新方法，努力提高统计数据的质量，从而保证统计信息的准确、全面和有效有着重要的意义。

1 统计数据质量评价的国外研究成果综述

国外有关统计数据质量的研究始于20世纪初。20世纪初至40年代，统计数据质量主要围绕统计数据的准确性、样本的代表性这两条思路展开。1915年，英国统计学家鲍莱(A.L.Bowley)在进行关于就业和贫困问题的调查研究时，首次提出了非抽样误差这一概念。著名统计学家奈曼(C.J.Neyman)于1934年进行了关于分层抽样最优分配及回归、比率估计等方面的大量研究，对各种抽样设计的抽样误差进行了有效估计，产生了今天具有里程碑意义的“可测设计”。上世纪50年代初至70年代，政府统计数据质量的研究主要围绕基于统计调查误差计量模型的建立以及相关的研究展开，突出研究成果为Hansen和Hurwitz(1946)[1]提出的无回答问题这一概念；其后Hansen，Hurwitz和Bershad(1961)[2]首次提出了完整的调查误差模型；20世纪60年代，许多学者开始研究均方误差的主要组成部分，并试图减少这些成分，如Warner(1965)[3]提出了对敏感性问题调查的随机化方法。20世纪70年代之后，统计数据质量的研究日趋成熟，开始研究如何建立有效的保证、控制和评估体系这一层面。1980年联合国统计局出版的《统计组织手册》[4]中，对官方统计资料提出了八项要求，其实质已经超出传统的统计数据质量对准确性、及时性的要求，明确了政府统计数据质量的综合涵义。Dalenius(1983)[5]提出统计数据质量的“测量向量”，包括统计数据的准确性、经济性、保密性、相关性、时效性和详细程度等。Brackstone(1999，2000)[6]提出统计数据质量的六个维度——相关性、准确性、及时性、可取得性、可解释性和一致性，并进一步描述了统计机构对每一个维度的进行管理的具体方法。Fröschl和Grossman(2000)[7]提出了全面的统计数据质量管理的统计、执行框架，将统计数据的各个维度与统计数据生产过程一一配对。此外，20世纪90年代中期国际货币基金组织(IMF)分别建立了数据公布特殊标准(SDDS)和数据公布通用系统(GDDS)以及数据质量评估框架(DQAF)等国际标准，对统计数据的产生、公布以及数据质量定性评估提供了标准的指导方法。

2 统计数据质量评价的国内研究成果综述

2.1 统计数据质量的逻辑性评估方法

逻辑性评估方法根据所基于的评估依据可分为基于规则、相关性、非结构化模型的三种逻辑性评估方法。基于规则是指将专业审核后的统计数据资料集中，从总体上检验数据相互间是否平衡和是否符合逻辑。叶长法、岑国荣(1997)[8]归纳了4种基本的逻辑平衡审核评估的方法：差额平衡法、同项相等的方法、相关平衡方法、运用生产和使用的平衡关系进行评估的方法。基于相关性是指根据相关性较高的指标间关系，利用已知的正确指标评估其他指标，若指标间关系出现较大的波动，则初步判定被评估指标存在一定的质量问题。基于非结构化模型是指利用所建立的相关模型对数据进行评估，例如杨海山、许启发（2001）[9]选取某市1978～1995年的生产总值(GDP)和社会消费品零售总额这两个相关性很强的统计指标作为评估对象，利用向量自回归模型（VAR）对对该市1996～1998年的GDP进行评估。

2.2 从异常值的角度对数据质量进行评估

异常值评估分为基于统计分布和基于系统分析两种方法。前者假定给定的统计数据服从一个随机分布，并用不一致性检验来识别异常点。成邦文等（2000、2003）[10][11]在研究中发现：一维数据与多维数据的社会经济规模指标近似服从对数正态分布，故而提出统计数据质量检查和异常点识别的对数正态分布置信区间检验法。李竹渝（2001）[12]假定误差分布无定型，使用非参数回归估计方法得到误差密度函数的核密度估计，并指出其服从渐进正态分布。后者则从系统分析的观点出发，分别用确定性模型和ARMA模型描述序列中确定性因素及随机因素的变动规律，建立确定性与随机性的组合模型。继而采用误差控制法、估计区间判断法和异常数据检验法对统计指标数据质量进行评估。刘洪、黄燕(2009)在文中采用学生化残差、Cook统计量、W-K统计量作为异常值的检测统计量对我国相关数据进行了实证分析。

2.3 从误差的角度对数据质量进行评估

统计数据质量问题意味着所提供的统计数据与客观的社会经济现象实际的数量特征之间存在差距，本质上是即为误差问题。一般将统计调查的误差分为抽样误差和非抽样误差。抽样误差是在样本推断总体过程中不可避免的误差，它本身并不是错误的结果。目前对抽样误差的研究已经非常成熟，只要能设计出样本估计量，便可得出相应的估计量误差公式。杨清(2000)提出充分认识系统性误差的结构和特点来判断原始资料中是否存在系统性误差，即判断原始资料是否存在质量问题，若存在系统性误差，则设法修正或剔除这部分有问题的原始资料，以不存在系统性误差（即不存在质量问题）的原始资料估计总体，进而保证统计数据的质量。

屈耀辉、曾五一(2004)[13]借助Cochran(1977)提出的计量误差数学模型，分析了计量误差的来源及其对总误差的影响，并以甄别调查员效应为例，运用效应比较甄别法和贝叶斯估计3σ图甄别法对调查数据中可能存在的计量误差进行实证演示。

王华、金勇进(2009)参照了社会调查领域的计量误差效应评估技术，构造针对宏观统计数据的误差效应模型，通过识别估计模型中的重要参数，实现传统的统计偏差评估并揭示因操作因素、制度因素、基层单元属性特征等对统计数据准确性造成的影响。

2.4 其他方法

王珊珊、蔡永生(2008)[14]利用Bayes统计决策方法对统计数据的误差进行检验，引入试验费用与参数性能损失相结合的损失函数以鉴定统计数据精度，得到先验分布公式，Bayes决策不等式及Bayes风险的计算在理论上给出了一种测定数据精度的可靠方法。

周潮(2008)[15]使用季节时间序列模型(Seasonal ARIMA Model，SARIMA)，根据统计指标历史数据的变化特点建模，在模型通过各种检验、具有良好统计预测功能的基础上，比较模型拟合出的预测值与实际值，找出离群数据，从而对该统计指标的数据质量进行有效评估。

3 我国统计数据质量评价的实证分析

在我国社会主义市场经济建设中，统计数据质量的好坏显得尤为重要。我国统计人员在指标体系、统计标准、调查方法、技术手段及数据报送与处理方式等方面辛勤实践、大胆探索，宏观统计数据基本可靠，能够比较客观地反映了经济运行的趋势和变化，并没有发生趋势性误差。然而，鉴于浮夸现象以及统计调查工作中的不完善仍然存在，各种原因交织在一起使得统计数据质量参差不齐，不同程度地存在一些问题。

3.1 统计数据失真

统计数据质量失真主要有虚假数据、拼凑的数据及指标数值背离指标等几种情况。数据虚假是最常见的统计数据质量问题，也是危害最为严重的数据质量问题。这类统计数据完全是杜撰的、虚构的，毫无事实根据。有意虚报、瞒报、据报统计数据资料，统计制度不完善，指标制定不严密等各种因素造成了统计数据虚假的问题。

3.2 统计数据不完整

统计数据的不完整是指收集数据的相关单位在收集数据的过程中出现遗漏，所列项目的资料没有搜集齐全，不符合统计资料完整性的要求。

3.3 统计数据的时效性差

统计数据的时效性差是指统计信息滞后，统计数据局限于单纯的事后统计，统计调查和统计分析乏力。最常见的现象是部分政府统计部门网站上的统计数据更新较慢。另一方面，现行统计调查体系的统计报表繁琐笨重，很难满足“准确、及时、全面、方便”的要求。主要采取以手工为主的采集、存储、加工、处理、传递统计资料的方式及方法制约了统计信息的开发及利用。与此同时，普遍存在的迟报现象，致使一些极为重要的统计数据一般要等到次年4月或5月份才能得到最后确定，从而失去了指导地方经济发展的意义。

3.4 统计数据的适用性不强

目前，政府统计机构还未将统计数据看作公共产品，开发及生产过程中没有配合用户的要求。本质上讲，统计数据的适用性不强就是统计数据的过剩和数据的不足同时并存的一种矛盾现象。

3.5 统计数据的非同一性

统计数据的非同一性是指同一个指标在不同时期的统计范围、口径、内容、方法、单位及价格等方面有差别而造成的数据不可比性。统计数据的非同一性主要体现在数据的口径不统一。

3.6 统计手段和统计方法落后

造成统计数据质量不理想的另一原因就是统计手段和统计方法落后。目前来说，很多公司企业统计工作仍处于手工状态。在处理数据方面，采用计算机仅仅是减少工作量去做一些汇总以及指标计算。从本质上来讲，并没有真正引用先进的计算机技术和网络技术，所做的统计分析也局限于事后分析，也就是对统计数据进行单纯的讲解说明，没有很好的利用计算机及网络技术实行信息共享等方式进行事前分析和预测。也就是说“统计预测”这一职能并没有发挥真正的作用。

3.7 逻辑分析不合理

从宏观上对统计数据进行逻辑分析或者建立计量经济模型并进行检验也存在问题。孟连、王小鲁通过对价格指数与经济增长速度的相互关系进行分析，发现1996～1998年在各种价格指数显著低于1979～1981年和1989～1990年两次经济紧缩时期的情况下，GDP指数分别高于前两个时期4至5个和2个百分点左右，很大地偏离了正常可能的范围。由此可以估计到1996～1998年GDP指数会有较大虚增成分。并且通过工业增加值与能源、运输、产品产量的关系分析，得出了结论：1991～1998年我国工业增加值年均增长率的统计误差约为4.5个百分点。再如，由于统计制度方法缺陷，2005年我国居民消费支出中未把自住房虚拟房租部分计入，导致居民住房消费占居民日常消费支出的比重偏低，大约低估了6个百分点，从而导致CPI约被低估0.5个百分点，消费率约被低估近2个百分点。

4 我国统计数据的误差来源分析

我国的统计数据质量问题一直存在，广为社会各界关注，同时始终作为热点受到统计界的理论研究探讨。本文考虑到统计数据质量问题本质上反映为统计数据与社会经济现象实际数量特征之间存在的差距问题，即可从误差的角度以一种新的思路来探讨我国统计数据质量问题。

4.1 我国统计数据误差来源与分解

在统计工作过程中，统计调查中的误差主要有两个方面的来源。一方面，实际工作程序中的虚报、瞒报行为使得统计数据失真，来源于制度因素的误差需要通过制度的不断演进在较长时间才能有效降低，这是在制度与组织的宏观层面来改善统计数据采集环境，从而有效提高统计数据质量。另一方面，基础数据或原始资料存在质量问题，最终导致统计数据失真。作为微观层面从误差的观点看，统计调查中的误差本质上可以分为系统性误差（即非随机误差）和随机误差。抽样调查中的误差理论便是将调查中的全部误差分解为随机误差和系统性误差两部分。由于有概率论与数理统计的基础和抽样技术的发展，对随机误差的处理技术已经非常成熟，只要能设计出样本估计量就能给出相应的估计量的误差公式。而实际统计工作中常常同时存在随机误差与系统误差，因而统计数据质量问题最终归结到系统误差的认识与技术处理层面上。系统性误差是指在调查或抽样技术运用过程中，受主观因素影响而形成的误差，从而导致调查结果的失真和估计结果的不准确，产生统计数据质量问题。

4.2 系统性误差的成因及来源分析

在对系统性误差进行研究时发现，系统性误差贯穿在调查的全过程中，并且受主观因素影响，能够产生系统性误差的原因很多，可能产生于调查的任意环节，从而使得研究以及控制难以把握。鉴于系统性误差可能产生于统计调查工作的任何一个阶段，此处分阶段阐述构成系统性误差的各个具体因素以及相应的误差来源。

4.2.1 设计阶段

在统计调查工作的设计阶段形成的系统性误差统称为设计误差，即由于抽样调查方案设计不完善、不科学等错误而导致的误差。抽样方案的设计是为了保证统计调查工作能够选择具有良好代表性的样本，采用合理科学的估计方法进行调查获取数据。在抽样方案的设计中，涉及统计总体定义、抽样框编制、目标量和估计量设计，样本量确定以及抽样方法选择等问题，抽样方案的设计直接影响了调查工作能否遵循随机性原则，因而必然可能导致系统性误差的产生。

4.2.2 实施阶段

统计工作的调查实施阶段，在样本资料搜集过程中产生的系统性误差称之为调查误差。这部分误差通常与调查者、回答者、资料搜集方式以及问卷测具等因素有关，因而调查误差往往是整个调查过程中最难避免、最为复杂的部分。调查误差通常来源于调查过程中出现的无回答或有意、无意的回答偏误以及测具不良等因素。实施阶段导致误差的因素众多，因而只能尽力改进，控制调查误差的产生。

4.2.3 计量阶段

在对目标量进行估计时，如果不存在其他系统性误差，目标量的估计量期望与真值存在偏误。这种偏误的产生来源于有偏估计量的使用或者是客观条件变化，使无偏设计出现有偏的情况，从而形成这部分系统性误差。对于有偏倚的估计量，在实际统计估量中可以选择接受拥有较小方差的估计量，或者重新设计无偏的估计量或偏差较小的估计量，从而降低可能产生的系统性误差。

4.2.4 整合阶段

统计调查的整合阶段是指在对样本单位进行计量之后，对原始资料进行编码、分类、汇总，通过编辑、整理等改变资料的形式过程。在此过程中形成的误差可称之为编辑误差。这类系统性误差是各种混合因素的结果，主要来源于不同的编码者或编辑人员对样本资料进行汇总、计算、编码、传输、储存等数据处理过程，并且还涵盖了出于政治或经济利益考虑，将统计数据结果的篡改、虚夸、隐瞒等造成统计数据失真的现象。

每个阶段都具有其特殊的工作程序与特点，相应也会产生对应的系统性误差，并且上一环节工作的失误引起系统性误差后对于下一阶段的统计调查工作有着至关重要的影响，甚至可能产生连锁误差，导致调查工作无法继续开展，或是所获得的调查结果中统计数据存在较大偏误。统计质量较低达不到应用水平时，调查工作进程中将蒙受前期投入的损失，倘若调查过程中的误差未能及时发现便投入使用，可能还会造成不可预计的后果。

因而，结合我国统计数据质量存在的问题从统计调查工作的各个阶段深入分析数据误差来源有着重要的意义，只有先从源头了解数据误差产生的原因，才能在此基础上进一步来测定、实证检验我国数据质量问题，进而从检验的结果分析探讨适合我国具体统计现状的改进方案和误差控制方法。

[1]Hansen,M.H.，W.N.Hurwitz.The Problem of Nonresponse in Sample Surveys[J].Journal of the American Stiatistical Association,1946,(41).

[2]Hansen,M.H.,W.N.Hurwitz，Bershad,M.Measurement Errors in Censuses and Surveys[J].Bulletin of the ISI,1961,(38).

[3]Warner,S.L.Randomized Response A Survey Technique for Eliminating Evasive Answer Bias[J].Journal of the American Statistical Association,1965,(60).

[4]United Nations.Handbook of Statistical Organization[Z].Newyork，1980.

[5]Dalenius.Errors and Other Limitataions of Survey，Statistical Methods and the Improvement of Data Quality[M].London:Academic Press Inc，1983.

[6]Brackstone,G.Managing Data Quality at Statistics Agency[J].Survey Methodology,2000,(25).

[7]Fröschl,K.A.，Grossmann W.The Role of Metadata in Using Administrative Sources[J].Research in Official Statistics,2000,(3).

[8]叶长法,岑国荣.统计数据质量评估方法探讨[J].浙江统计，1997,(4).

[9]杨海山,许启发.统计数据质量的逻辑评估方法研究[J].上海统计，2001,(7).

[10]成邦文,王娅莉,石林芬,师汉民.科技规模指标的对数正态分布规律[J].科学学与科学技术管理,2000,(9).

[11]成邦文,师汉民,王齐庄.多维统计数据质量检验与异常点识别的模型与方法[J].数学的实践与认识,2003,(4).

[12]李竹渝.非参数统计方法对收入分布的解释[J].预测,2001,(4).

[13]屈耀辉,曾五一.农产量抽样调查中计量误差来源分析及其事后甄别[J].财经理论与实践,2004,(3).

[14]王珊珊,蔡永生.基于Bayes统计决策的误差测定方法[J].统计与决策,2008,(4).

[15]周潮.基于SARIMA模型涉农贷款专项统计数据质量评估[J].甘肃金融,2008,(7).