基于熵权模糊综合评价方法的居民收支数据质量评估

2017-02-04 14:14刘婷庞新生
商业研究 2016年12期
关键词:数据质量

刘婷 庞新生

摘要:本文借鉴国际组织和我国学者对统计数据质量定义,结合我国居民收支数据特点确定居民收支数据质量概念体系、构建居民收支数据质量评估指标体系,通过开展用户满意度调查,采用熵权模糊综合评价的方法对用户视角下的居民收支数据质量进行定量分析。结果显示,无论是就各个质量维度、还是各个质量方面、或是质量总体而言,居民收支数据质量的用户感知水平都为“一般”;在各个质量维度中,适用性、完整性、客观性是居民收支数据质量改进应予以关注的重点。

关键词:居民收支;数据质量;用户满意度调查;熵权模糊综合评价

中图分类号:F222;C812 文献标识码:A

作者简介:刘婷(1990-),女,河北张家口人,北京林业大学经济管理学院研究生,研究方向:抽样技术与数据分析;庞新生(1970-),男,山西榆次人,北京林业大学经济管理学院副教授,研究方向:抽样技术与数据分析。

一、引言

居民收支数据是国家政策决策、企业生产决策和居民生活决策的重要依据,其数据质量至关重要。目前,居民收支数据质量管控也已成为我国相关统计部门工作的重点。然而,目前关于居民收支数据质量评估的研究和实践仍存在些许不足:一是,关于居民收支数据质量评估的研究有限,且局限于准确性分析和定性分析,研究内容和研究方法有待拓展;二是,在居民收支数据质量评估的实践中,主要采用统计部门内部自我评估的方式,公众参与不足,社会公信力差。因此,居民收支数据质量也难以获得广泛一致的认可。

随着统计数据质量概念逐渐从一维扩展到多维,各国际组织和各国统计机构尤为重视统计数据满足用户需求的程度,开始以用户视角评估统计数据质量。这也已成为世界范围内政府统计数据质量评估的发展趋势。目前,很多国家的统计机构已经在数据质量管理框架下开展了用户满意度调查,来获取用户感知的统计数据质量信息,为有效管控统计数据质量提供重要参考。其中最具代表性的是欧洲统计系统(European Statistical System,ESS)的用户满意度调查。近年来,我国学者也开始采用用户满意度调查的方法,研究用户视角下的统计数据质量评估。根据研究对象,可以分为两类:一是分析政府统计数据的整体质量;二是分析具体政府统计指标的数据质量。本文拟运用用户满意度调查的方法,从多维度对居民收支数据质量进行评估。本文的研究目标有:一是在界定居民收支数据质量维度的基础上,构建适合居民收支数据质量评估的指标体系;二是通过开展用户满意度调查,对居民收支数据质量进行用户视角下的定量分析。以期了解用户感知的居民收支数据总体质量及各维度质量的水平,为居民收支数据质量的改进和完善提供参考信息。

二、评估指标体系设计

(一)居民收支数据质量的维度确定

对于“质量”而言,国际标准化组织在其制定的国际标准“质量管理体系——基础和术语”(ISO9000:2015)[1]中强调,质量不仅包括其预期的功能和性能、而且包括顾客感知的价值和效益。与此相应,对于“统计数据质量”而言,有关国际组织和各国统计机构也非常重视统计数据满足用户需求的程度,将统计数据质量内涵逐渐扩展,由仅包含准确性特征的单一维度发展为包含准确性、可比性、适用性、时效性、可获得性等特征的多维度,构建了较为全面的统计数据质量概念体系。本文对三大国际组织以及我国部分学者设计的统计数据质量概念体系进行梳理,如表1所示。

表1中的10个统计数据质量维度可以归为四个方面:第一方面为环境质量,指统计数据生产过程中的制度和方法保障,包括制度规范性、方法健全性、客观性三个质量维度;第二方面为产品质量,指统计数据产品自身的特征,包括准确性、可比性、适用性三个质量维度;第三方面为服务质量,指统计数据发布过程中服务用户的情况,包括时效性、完整性、可获得性三个质量维度;第四方面为经济质量,指统计数据生产和服务全过程的成本效益特征,包括成本效益性一个质量维度。在四个质量方面中,从国际组织和我国学者的公认度出发,产品质量、服务质量认可度较高,而环境质量、经济质量认可度相对较低;从用户感知的难易出发,产品质量、服务质量最易感知,环境质量其次,经济质量最难感知。基于此,本文将环境质量、产品质量、服务质量三个质量方面纳入居民收支数据质量概念体系。在具体的质量维度界定时,将居民收支数据自身的特点纳入其中。

综上所述,本文将居民收支数据质量确定为9个质量维度:制度规范性、方法健全性、客观性、准确性、可比性、适用性、时效性、完整性、可获得性。其中,制度规范性反映法律、道德、制度的规范效力,方法健全性反映统计调查方法的科学合理程度,客观性反映统计数据生产过程的公开、透明、专业程度,准确性反映统计数据与真实情况的接近水平,可比性反映统计数据在时间、空间、项目间的一致性,适用性反映统计数据满足用户需要的程度,时效性反映统计数据发布的实时性与准时性,完整性反映统计数据发布信息的充分程度,可获得性反映用户取得统计数据的难易。

(二)居民收支数据质量评估指标体系

参照IMF数据质量评估框架、OECD统计活动质量框架与导则、ESS统计质量保证框架,将9个质量维度进一步细化为具体指标,最终形成1个质量总体、3个质量方面、9个质量维度、27个质量指标,从而构成用户视角的四级居民收支数据质量评估指标体系,如表2所示。

文中一级到四级指标即质量总体、质量方面、质量维度和质量指标,分别用W、Xi(i=1,2,3)、Yj(j=1,2,…,9)和Zk(k=1,2,…,27)表示。其中,四级指标即质量指标,构成居民收支数据质量用户满意度调查的具体问项。

三、研究方法

本文采取熵权模糊综合评价的方法定量分析用户视角下的居民收支数据质量。熵权模糊综合评价方法是一种组合评价方法,它将主观的模糊综合评价与客观的熵权法相结合。其中模糊综合评价方法将定性问题定量化,确保用户视角下居民收支数据质量定量分析的可能性;熵权法是一种客观赋权法,根据指标数据所包含的信息量大小确定权重,避免了赋权时的主观性,使得分析更为客观、真实。由此看来,与常用的基于层次分析的模糊综合评价相比,熵权模糊综合评价更为客观,具有一定优势。

(一)模糊综合评价

模糊综合评价是一种基于模糊数学的评价方法,以隶属度理论为基础,将定性评价转化为定量评价。在本文中,用户感知的居民收支数据质量具有主观性、不确定性,其影响因素也具有模糊性,因此本文在构建评估指标体系的基础上,对居民收支数据质量进行模糊综合评价。

由于本文用户视角下的居民收支数据质量评估指标体系具有四个层次,模糊综合评价需依次由第四层次到第三层次,再由第三层次到第二层次,最终由第二层次到第一层次。这里以第四层次的模糊综合变换为例予以阐述,第三层次和第二层次的模糊综合变换与此相似。

因素论域和评语论域是模糊综合评价中的两类基本要素。其中,因素论域由描述被评价对象的p种因素构成,表示为U=u1,u2,…,up,本文指居民收支数据质量评估指标体系的27个质量指标;评语论域由描述每一因素所处状况或表现水平的q种评判组成,表示为V=v1,v2,…,vq,本文指“非常不满意”、“比较不满意”、“一般”、“比较满意”、“非常满意”5种评语。

模糊综合评价的过程包括:(1)确定因素论域U上的模糊权重向量W=(w1,w2,…,wp);(2)确定从因素论域U到评语论域V的模糊关系矩阵R=(rij)p×q;(3)通过模糊变换W°R确定被评价对象在评语论域V上的表现S=(s1,s2,…,sq)。

作为一个模糊概念,被评价对象“用户感知的居民收支数据特定质量指标的质量水平”是因素论域U的一个模糊子集,其表现以模糊向量W=(w1,w2,…,wp)来表示,其中wi(i=1,2,…,p)表示质量指标ui(i=1,2,…,p)相对于所属上级质量维度的重要程度(权重系数)。模糊向量W中的数值通过问卷调查、采用下节所述的熵权法计算取得。模糊关系R=(rij)p×q刻画了U与V的笛卡尔乘积U×V上的模糊子集“单一质量指标用户感知质量”,其中rij(i=1,2,…,p;j=1,2,…,q)表示用户将质量指标ui(i=1,2,…,p)的质量感知水平评定为vj(j=1,2,…,q)的可能性。模糊关系R中的数值通过问卷调查、采用模糊统计法计算取得。对于模糊变换模型S=W°R=(s1,s2,…,sq),其中sj=∨pi=1*(wi∧*rij)(j=1,2,…,q)表示被评价对象“用户感知的居民收支数据特定质量维度的质量水平”可以被评定为vj(j=1,2,…,q)的程度。令最大隶属度为sj*=maxs1,s2,…,sq,则以相应的评语等级vj*作为对被评价对象表现水平的最终评定结果。模糊算子对(∧*,∨*)采用“普通实数乘法(·)与加法(+)”算子对,以保证评价的全面性。

(二)熵权法

熵权法来源于信息论,是一种根据各评价指标数据所包含信息量的大小确定权重的方法。

在熵权法中,衡量各评价指标数据信息量大小的工具为信息熵。当某个评价指标信息熵较小时,表明该指标数据的变异程度较大,所包含的信息量较大,在评价中所起的作用也较大,应赋予较大的权重;而当某个评价指标信息熵较大时,则与之相反。

设有m个指标, n个样本,其所形成的原始数据矩阵为X′=(x′ij)m×n,则熵权的计算步骤如下:(1)对X′中m个指标的数据归一化处理,得到矩阵X=(xij)m×n,计算第i项指标下第j个样本指标值权重:pij=xij/∑nj=1xij(i=1,2,…,m;j=1,2,…,n);(2)计算第i项指标的熵值:ei=-k∑nj=1pijlnpij(i=1,2,…,m),其中, k=1/lnn,并假定当pij=0时,pijlnpij=0;(3)计算第i项指标的差异性因数:gi=1-ei(i=1,2,…,m);(4)确定第i项指标的熵权值:βi=gi/∑mi=1gi(i=1,2,…,m)。

四、实证分析

(一)调查问卷的设计与发放

以居民收支数据质量评估指标体系的四级指标,构成测评量表的问项,作为调查问卷的主体部分;此外,加入背景问题、总体评价、改进建议等,作为调查问卷的辅助部分。由此构成《居民收支数据质量用户满意度调查问卷》,用于问卷调查。

本文采用方便抽样的方式,向社会各界发放问卷共计320份,回收300份,剔除受访者回答“在过去的12个月中未搜集和使用居民收支数据”的问卷36份,得到有效问卷264份,有效回收率为82.5%。在有效样本中,高校及研究机构、政府机关、企业及社会团体的受访者比重分别为43.94%、28.79%、27.27%;博士研究生、硕士研究生、本科生、专科生的受访者比重分别为16.67%、50.38%、31.44%、1.52%;认为居民收支数据在学习和工作中可有可无、不太重要、比较重要、非常重要的受访者比重分别为2.27%、22.73%、56.44%、18.56%;在过去12个月中使用居民收支数据次数为1-5次、6-10次、11次及以上的受访者比重分别为46.59%、38.64%、14.77%。总体看来,可以认为调查样本具有较高代表性。

(二)测评量表的信度效度检验

作为调查问卷的核心,居民收支数据用户满意度测评量表应该具有足够的信度和效度,才能保证研究的可靠性和正确性。

信度(Reliability)是指测评量表的一致性和稳定性。常用的信度检验指标是Cronbachs α系数,它通过计算测评项目的平均相关系数来衡量测评量表的一致性。Cronbachs α系数介于0和1之间,数值越高,信度越好。一般认为,当Cronbachs α系数大于0.7时,信度是可以接受的。

效度(Validity)是指测评量表能够测量期望主题的程度,通常有内容效度和结构效度。

内容效度也称逻辑效度,指测评量表内容的适合性和相符性,主要考察测评量表内容能否有效反映调查主题,实现调查目的。对内容效度的评定常采用逻辑分析的方法,由专家或研究者做出评判。本文借鉴国际组织和国内学者的相关研究,构建居民收支数据质量评估指标体系,以此为基础形成本文的测评量表,测评项目能够充分反映研究主题,可以认为其具有内容效度。

结构效度也称建构效度,反映调查结果与所要测量主题概念的同构程度。常用的结构效度检验指标有KMO值和Bartlett球形检验p值。一般情况下,当测量变量的KMO值接近或超过0.7且Bartlett球形检验p值小于0.01时,可认为问卷的结构效度良好。

应用SPSS20.0对测评量表进行信度效度检验,结果如表3所示。

由表3可知,无论是从各个质量维度、还是从总体而言,Cronbachs α系数均大于0.7,表明测评量表的信度良好;KMO值均大于0.7且Bartlett球形检验p值小于0.01,表明测评量表的效度良好。综合以上信度效度分析结果,调查问卷的设计是合理的,调查问卷的结果是可信的,可用于进一步定量分析。

(三)熵权模糊综合评价

调查问卷采用10级李克特量表来获取用户对居民收支数据质量指标的感知,分数越高、感知质量越好。在分析中,与评语论域相对应,受访者评分为1分和2分为“非常不满意”、评分为3分和4分为“比较不满意”、评分为5分和6分为“一般”、评分为7分和8分为“比较满意”、9分和10分为“非常满意”。根据调查问卷结果,采用模糊统计的方法,将受访者对五种评语的选择比重作为各评语对模糊子集“单一质量指标用户感知质量”的隶属度,从而得到对隶属矩阵R的近似估计,如表4所示。

根据熵权系数法分别计算四级、三级、二级指标的权重系数,如表5所示。

以表4和表5为基础,分别依次进行第四层次、第三层次、第二层次模糊综合变换,结果如表6所示。

由表6可以看出,按照最大隶属度的原则,不论是就各个质量维度、还是就各个质量方面、或是质量总体而言,居民收支数据质量用户感知都为“一般”的水平。

为了使居民收支数据质量评估结果更加直观,将“非常不满意”、“比较不满意”、“一般”、“比较满意”、“非常满意”分别赋值2、4、6、8、10,结合各层次模糊变换结果S=(s1,s2,s3,s4,s5),将模糊综合评价结果转换为10分制的综合得分E=2×s1+4×s2+6×s3+8×s4+10×s5,结果见表6最后一列。

首先,从质量维度的层次进行分析,各个质量维度的综合得分均为5.5分到6.5分之间,从高到低依次为可比性(6.2672)、方法健全性(6.2466)、可获得性(6.1874)、制度规范性(6.1430)、时效性(6.1157)、准确性(6.0810)、客观性(5.9439)、完整性(5.8500)、适用性(5.7463)。从整体看,用户感知的居民收支数据质量一般;从各个质量维度的比较看,适用性、完整性、客观性是影响居民收支数据质量用户感知的关键因素,是居民收支数据质量改进中应予以重点关注的维度。其次,从质量方面的层次进行分析,各个质量方面的综合得分较为均衡,从高到低依次为环境质量(6.1165)、服务质量(6.0202)、产品质量(5.9736)。由此可见,产品质量是三个质量方面中表现较差的,需要加强改进。再次,从质量总体的层面进行分析,质量总体的综合得分为6.0358,处于一般水平,仍有改善空间。

五、结论与展望

本文借鉴三大国际组织和我国学者对统计数据质量的定义,结合居民收支数据的特点,确立居民收支数据质量的概念体系,并借鉴三大国际组织的统计数据质量评估框架,构建居民收支数据数据质量评估的四级指标体系。通过用户满意度调查,获取居民收支数据质量的用户感知数据,运用熵权模糊综合评价的方法进行分析,得出以下结论:

第一,不论是就各个质量维度、还是各个质量方面、或是质量总体而言,居民收支数据质量的用户感知均为“一般”水平。用户对居民收支数据质量的感知,呈现出单峰对称分布的特征,“一般”评价的比例较高,而“不满意”和“满意”评价的比例较低。由此看来,用户对居民收支数据质量的认可度较为一般,居民收支数据质量仍存在较大提升空间。

第二,适用性、完整性、客观性是影响居民收支数据质量用户感知的关键。其中,居民收支数据适用性质量维度的用户感知水平最低,说明相关统计部门需要加强与用户的交互,在居民收支数据生产的过程中应提升服务用户的意识,加强统计部门与用户交互渠道的建设。而完整性质量维度的用户感知水平也处于较低水平,因此在居民收支数据发布环节,要细化关于其概念、统计范围、调查方法以及处理修正的说明,以便用户科学合理使用数据。客观性质量维度从属于环境质量这一质量方面,其用户感知水平也较低,表明机构独立性、统计透明度、方法客观性也相对欠缺,为此在居民收支数据的生产过程中,统计部门要做到独立与客观、公开与透明,从而进一步提高居民收支数据的公信力。

由于研究条件的限制,本文的研究仍然存在一定的局限性:如调查样本量有限导致研究结论的代表性不足、数据质量测评指标体系的构建不够完善、对居民收支数据质量整体进行研究而无法将收入数据质量和支出数据质量进行横向对比等,这些都是今后研究可以拓展的方向。

参考文献:

[1] ISO(International Organization for Standardization).Quality Management Systems-Fundamentals and Vocabulary[EB/OL].[2015-09-15].https://www.iso.org/obp/ui/#iso:std:45481:en.

[2] IMF(International Monetary Fund).Data Quality Assessment Framework-Generic Framework[EB/OL].[2012-05].http://dsbb.imf.org/images/pdfs/dqrs_Genframework.pdf.

[3] OECD(Organization for Economic Co-operation and Development).Quality Framework and Guidelines for OECD Statistical Activities[EB/OL].[2012-01-17].http://www.oecd.org/officialdocuments/publicdisplaydocumentpdf/?cote=std/qfs(2011)1&doclanguage=en.

[4] ESS(European Statistical System).Quality Assurance Framework of the European Statistical System[EB/OL].[2012-06-01].http://ec.europa.eu/eurostat/documents/64157/4392716/qaf_2012-en.pdf/8bcff303-68da-43d9-aa7d-325a5bf7fb42.

[5] 赵乐东.也谈统计产品的质量问题[J].统计研究,2000(6):57-59.

[6] 余芳东.外国统计数据质量的涵义、管理以及对我国的启示[J].统计研究,2002(2):26-29.

[7] 邱东,宋旭光.中国统计能力研究[M].北京:中国统计出版社,2008.

[8] 王华,金勇进.统计数据质量与用户满意度:测评量表设计与实证研究[J].统计研究,2010(7):9-19.

Abstract:In regard to the definition of statistical data quality by international organizations and Chinese scholars and the characteristics of residents′ income and expense data, the paper determines residents′ income and expense data concept system and establishes residents′ income and expense data quality assessment index system. Then user satisfaction survey is conducted, and entropy weight fuzzy comprehensive evaluation method is applied for quantitative analysis of the quality of residents′ income and expense data under user perspective. The result shows that the level of user perception quality of residents′ income and expense data is only on average, whether for quality dimension, quality aspect, or the overall quality; in addition, applicability, integrity and objectivity should be the key points in the data quality improvement.

Key words:residents′ income and expense;data quality;user satisfaction survey;entropy weight fuzzy comprehensive evaluation

(责任编辑:严元)

猜你喜欢
数据质量
电子商务平台数据质量控制系统及仿真模型分析
基于大数据背景下提高供电局数据质量对策分析
强化统计执法提高数据质量
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
企业统计工作之我见
统计信用与统计数据质量研究