张会清 晋中信息学院
毋庸置疑,大数据时代下,数据充分发挥其价值的必备条件是要有高质量数据。2021年1月19日统计局局长宁吉喆在题为“推进统计现代改革”中指出:“统计数据作为国家经济发展的晴雨表已经取得了显著的成绩,但它发挥的作用还不够充分,还有待开发,数据质量需要进一步提升”。统计数据质量的内涵也不再仅仅是准确,大数据背景下,适合的才是最好的,用户需求也是衡量数据质量的一个方面。近年来,科技发展迅猛,新型技术的发展突飞猛进,物联网、人工智能、云计算的发展让人应接不暇,海量的数据纷繁复杂,如何保证数据的质量,已成为上到国家,下到每一位统计相关者关注的问题,也是我们亟待解决的问题。在此背景下,数据质量评估无疑是保证高质量数据的前提条件。在数据评估研究方面,祝君仪(2015)6在《大数据时代背景下统计数据质量的评估方法及适用性分析》一文中分析了目前常用的包括逻辑规则检验、核算数据重估、计量模型分析、统计分布验证、调查偏差评估、多维评估延伸六种评估数据质量的方法,但仅仅是定性分析。成邦文等(2001)2已经证明如果统计指标反映的是经济社会规模(如产量、销售收入等),则统计量均趋于对数正态分布,并提出了统计数据质量评估的对数正态分布检验法。本文基于社会规模服从对数正态分布,利用Bootstrap抽样法对统计数据质量进行评估。
对于统计数据质量还没有形成统一公认的定义,随着大数据时代的到来,统计数据质量的内涵从准确性这一个维度扩展到多个维度。衡量数据质量最明显的标准就是数据的准确性,即数据信息准确描述其所代表的真实机构或现象的程度。除了准确性这一特征外,数据的时效性、精确性、完整性、一致性都是数据质量的重要表现。当然在众多的维度中,准确性是摆在数据质量的第一位的,只有数据准确,数据分析结果才有效,管理者据此做出的决策才正确。本文的研究是基于数据准确性进行研究。
Bootstrap是1979年Efron在他的论文
步骤1:假定 为初始样本,利用Matlab中Bootstrap函数从此样本中有放回抽取m个样本,本文规定m=1000。
步骤2:根据1中抽样结果,计算各自样本统计量,具体利用Matlab中mean函数计算均值统计量,即可得到1000个样本均值;
步骤3:基于2中计算结果,调用log函数计算统计量的对数值;
步骤4:利用QQ图及单一样本Kolmogorov-Smirnov 检验3中结果是否服从正态分布,如果是,说明统计量服从对数正态分布,统计数据质量符合要求,否则,统计数据误差大,需要修正。
本文以山西省2000-2019年地区生产总值为研究对象,对其进行数据质量评估。表1是山西省2000-2019年地区生产总值。
表1 山西省2000-2019年地区生产总值
利用Bootstrp方法对2000-2019年山西省地区生产总值进行可放回的重复抽样1000次,进而得到1000个Bootstrap样本,然后根据每一个样本计算对应的均值,从而得到1000个样本均值,接着计算样本均值对数,然后通过spss绘制其对应的直方图,如图1所示。
图1 统计量对数正态直方图及密度曲线
从图1可以直观的看出,统计量的对数服从正态分布,从图中只是很形象的观察出统计量对数的分布,要想进一步证实其为正态分布,还需要进行统计检验。本文使用Q-Q图检验和K-S检验两种方法对统计量对数进行正态性检验。
(1)Q-Q图又名分位数图,通过比较实际观测数据分位数与正态分布分位数是否一致来检验数据的正态性。具体是通过做散点图,观测两列数据的分位数是否分布在参考直线上,如果是,说明被检验数据服从正态分布,否则非正态。通过SPSS中Q-Q图功能对样本统计量对数进行检验,结果如图2所示,从Q-Q Plot 中,各点几乎全部落在参考直线上,说明被检验数据服从正态分布。
图2 样本均值对数值正态Q-Q图
(2)K-S检验。在利用Bootstrp方法得到1000个样本均值对数后,为了检验样本均值对数的分布,提出原假设和备择假设,原假设为样本均值对数服从正态分布,备择假设为样本均值对数不服从正态分布。
通过SPSS中的非参数检验K-S方法进行检验,输出结果如表2,从表里可以看出,K-S检验中,Kolmogorov-Smirnov Z值为0.022,P值(双侧)=0.2,在给定显著性水平α=0.05条件下,显然 P>α,所以接受原假设,说明样本均值对数服从正态分布。
表2 单一样本Kolmogorov-Smirnov 检验结果
本文研究新时代统计数据质量评价方法,利用对数正态分布来评估数据质量,鉴于研究数据分布需要足够的样本容量,然而现实数据无法满足此要求,故采用Bootstrap重抽样方法解决两者间矛盾。通过以山西省2000-2019年地区生产总值为研究对象,验证采用Bootstrap方法构造的统计量是否服从对数正态分布判断真实数据的数据质量,通过检验,结果表明山西省2000-2019年地区生产总值统计数据质量可靠。