程开明、陈龙、翁欣月等
(浙江工商大学,浙江杭州 310018)
完善统计数据质量的保障机制研究——基于统计业务流程视角
程开明、陈龙、翁欣月等
(浙江工商大学,浙江杭州310018)
在梳理国际通用统计业务流程模型(GSVPM)的基础上,结合大数据对统计业务流程及质量管理的影响,提出中国统计业务流程的设计框架及基于业务流程的企业一套表质量管理,给出统计业务流程视角的数据质量保障措施。
统计业务流程;数据质量;控制;企业一套表;保障措施
随着大数据时代的到来,统计应用的日益广泛,社会各界对数据质量的关注度不断提高。数据质量的好坏直接决定着社会经济发展的监测与评价效果,影响决策的科学性与准确性,以及统计部门的形象和公众对统计的信任度。联合国统计委员会于2013年12月发布通用统计业务流程模型(GSBPM,V5.0),描述和定义了生产官方统计数据的9大业务流程,为统计过程质量评估和完善提供一个完整框架。中国政府统计机构正以“四大工程”为抓手,大力推进统计改革与创新,通过企业一套表工作业务流程来提高统计工作的标准化、规范化,提升数据质量。鉴于此,在借鉴联合国及其他国家统计业务流程模型成功经验的基础上,结合我国企业一套表的统计业务操作实际,从统计业务流程的视角提出统计数据质量评估及保障机制显得必要而迫切。
联合国统计委员会2013年12月发布通用统计业务流程模型(GSBPM V5.0),描述和定义生产官方统计数据的几大业务流程,为过程质量评估和完善提供了一个参考框架。
(一)GSBPM模型的结构
GSBPM模型(V5.0)总体上由三层组成:第零层:统计业务流程;第一层:统计业务流程的8个阶段;第二层:每个阶段中的子流程。还包括应用于所有8个阶段的跨越式流程:一类是具有统计学内容的流程,一类是更通用的流程,被应用于任何形式的组织。
(二)GSBPM模型的阶段与子流程
第一阶段:确定需求。包括所有与用户接触以明确其具体统计需求,提出总体解决思路,以及准备实现这些需求的业务文件活动。该阶段可细分为6个子流程。
第二阶段:设计。描绘开发和设计活动,包括定义或改进业务文件中确定的统计产出或服务所涉及的元素,对所有相关的元数据进行说明。该阶段可分为6个子流程。
第三阶段:开发。主要任务是在“真实”环境中开发和测试生产解决方案,通常发生在第一次执行过程中,而不是每一次执行中,且通常由方法或技术的变更引起。该阶段可分为7个子流程。
第四阶段:采集。应用不同的采集模型(包括从统计数据、行政记录、其他非统计的登记记录和数据库提取数据),收集所需的信息,并加载到相应的处理环境以供进一步处理。该阶段可分为4个子流程。
第五阶段:处理。描述数据清理和分析准备的工作,包括数据检查、数据清理和数据转换,使得数据能作为统计产出被分析和发布。该阶段可分为8个子流程。
第六阶段:分析。产生统计产出结果,详细校对检查以做好准备将其向外发布,并准备相关的评论及技术说明等,确保统计输出“符合目的”。该阶段可分为5个子流程。
第七阶段:发布。管理统计产出面向用户的发布过程,包括通过一系列渠道向用户发布统计产出的活动,使用户能够访问和使用统计组织发行的统计产品。该阶段可分为5个子流程。
第八阶段:评估。包括评估一个特定统计业务流程的成功执行,关注一系列定性和定量的投入,并对潜在的改进进行识别和优先排序。该阶段可分为3个子流程。
(三)GSBPM模型的跨越式流程
跨越式流程贯穿于GSBPM模型的多个阶段,主要包括质量管理、元数据管理、数据管理、数据处理管理、知识管理、统计架构管理、统计项目管理、供应者管理、用户管理等。更通用的跨越式流程还包括:人力资源管理,资金管理,项目管理,法律架构管理,组织架构管理,战略规划等。
(四)GSBPM模型的适用性
GSBPM模型适用于国家和国际层面的官方统计数据生产所涉及的活动,独立于数据来源,可对建立在抽样调查、普查、行政记录和其他非统计或混合性数据来源基础之上的业务流程进行描述和质量评估。GSBPM模型建立的最初目的是为统计机构提供一个标准专业术语的协议基础,以便于机构内部开展统计元数据系统和流程的探讨。然而,随着发展,模型逐渐被拓展并适用于其他目的,特别是与官方统计现代化相关的方面。
美国、比利时、挪威、新西兰、荷兰、加拿大、丹麦和韩国等国家相继提出或修正本国统计业务流程架构的设想和目标,对于构建中国统计业务流程和完善数据质量保障机制具有启示意义。
(一)大数据对统计生产流程的冲击
大数据条件下,政府统计推行的“联网直报”系统、手持PDA采集系统、电子记账系统、地理信息系统和遥感测量技术在统计调查中的应用,将促进政府全面统计和抽样调查制度的改进,必将改造统计业务流程以适应大数据需求(许小乐,2013)。
1.制度设计多样化。大数据背景下的制度设计需要明确数据从哪里来,弄清楚已经存在的相关数据是通过什么方式产生的,从哪些领域产生的,会对研究目的产生哪些影响,进而确定采用什么样的数据来反映统计目标,从各种数据来源中甄别出反映出设计对象的属性指标。
2.数据采集智能化。在大数据时代,数据来源于信息技术记录下的原始数据,数据采集往往依赖于测量方法,而不需要调查对象长期、认真的配合。大量数据的传输中,也难以篡改数据,数据质量大大提高,而互联网、物联网、云计算等技术也有利于提高数据采集的智能化水平。
3.数据分析专业化。大数据背景下的数据分析,面临存储于各处的大量非结构化或半结构化数据,需要将这些无法识别和运算的信息转化为结构化数据,洞察出语义、态度、情感、社会关系、效果等传统统计难以解决的问题。针对结构化的海量数据,需要挖掘数据之间的内在关系,寻找更多有价值的信息。
4.统计发布透明化。大数据的背景下,数据的获取分析将全社会共享,而非统计部门一家独享。统计数据的产品属性会更加突出,面临的市场竞争压力会更大。由于数据的大量存储和共享,统计数据发布的公开透明程度将会更高,没有公开详细、公允计算方法的数据将会被其他数据替代。
(二)大数据下统计业务流程的变革
在大数据业务生态下,统计业务流程各环节的方式和支撑方法都将发生较大的扩展,数据管理与专业数据计算分析能力将成为大数据业务实现过程中重要的推动因素。
1.基本业务环节的变化。大数据下的统计业务流程与传统模式相比,总体上有两个明显变化:(1)数据融合代替数据收集,并成为数据来源的主要模式。大数据模式下,统计机构自身能力和资源有限,将更多通过非采集方式获得分析所需的数据。(2)数据管理能力成为一个新的要求。大数据场景下,数据规模大、类型多样,且较分散,对其进行统一的管理能力是后续业务环节顺利进行的基础。
2.具体业务流程的变化。为便于对照分析,将传统模式与大数据模式下的业务流程统一规范为五个环节(马亮,2015)。(1)数据融合/采集。传统模式下,数据采集的方式主要通过报表、问卷、座谈会等,多是小规模采样,且对目标有直接影响,得到的数据是某个时间(点)的静态的截面数据,维度受采集方式所限也不可能太多。而大数据条件下,数据融合代替采集成为获取数据的主要方式,此时数据同步和ETL成为主要方式,行为日志记录、网络抓取等成为主要手段,采集的数据在时间和空间上多是动态和持续性的,可记录维度也较多。
(2)数据管理。传统模式下,数据通常为标准的结构化数据,且规模小,此时单机的普通文档足以胜任所有存储和检索要求。在大数据环境下,数据量起点在TB级以上,格式也更加多样,数据的管理难度几何级数增加,需要多机、分布式文件系统/海量数据库和专业架构人员,确保大数据的安全管理和快速检索。
(3)数据计算。传统模式下,数据计算主要是各种统计学的计算,计算量不大,工具以Excel到SPSS、SAS为主流,处理多由统计业务人员完成。在大数据模式下,数据规模、维度和分析方法的变化对计算要求大大提高,计算工作更多样化、复杂度更高和更具专业性,需要使用自然语言处理、机器学习处理、图计算等理论和方法。
(4)数据分析。传统模式下研究人员主要根据传统方法,对前期生成的指标性数据,考察全局性的分布/差异,历史变化等。大数据模式下,除了传统方法的分析外,更多使用大数据方法。同时,由于分析主要基于各种专业计算的结果,研究人员必须与专业IT技术专家紧密配合,才可能完成有价值的分析。
(5)结论与呈现。传统模式下,研究结论关注统计指标的变化,原因分析和对策建议是重要内容,结果多通过专项报告形式,采用基本的图表加以呈现。大数据模式下,既有传统的统计性结论,也有更多大数据方法论,结果更多地通过在线系统来展示,新的可视化技术在大数据分析和结果展示上越来越受到重视。
(一)中国统计业务流程模型的总体框架
在现有统计业务流程的基础上,借鉴通用统计业务流程模型及其他国家的经验,定义中国统计业务流程基础框架,目标要反映统计工作的全过程,规范各阶段的业务内容。中国统计业务流程总体框架大致包括两个层面:
1.基本统计业务流程。基本统计业务流程包括确定需求、设计、开发及任务部署、采集、审核上报、数据分析及汇总、数据发布、存档、评估等9个阶段。
2.跨越式统计业务流程。跨越式统计业务流程包括质量管理、元数据管理、统计项目管理、统计标准和分类管理、调查单位管理、数据管理、资金管理和人员管理8个方面。
以上是中国统计业务流程的总体框架构想,具体实施时需要结合实际情况,进一步细化流程,给出具体规定操作规则和要求(图1)。
图1 中国统计业务流程模型框架
3.统计业务流程管理系统的架构。坚持以信息化手段为依托,大力推进“统计业务流程管理系统”建设,对统计设计、项目审批和质量评估等环节实行全过程一体化管理,实现真正意义上的统计流程再造,推进统计的改革创新、规范统一和公开透明(刘志,2013)。
统计业务流程管理系统是充分利用现代信息技术,以元数据管理框架为基础,建立的统计调查项目设计、审批和管理、调查的具体实施、数据的评估以及数据发布的一体化工作平台,能够从统计设计、项目管理、数据采集、数据处理、数据评估和数据发布六个阶段对整个调查进行全过程质量控制。
(三)企业一套表的统计业务流程设计及质量管理
开展企业一套表调查,应按照一体化的理念,将涉及企业的若干调查项目进行整合,统一设计,统一采集数据,因此建立规范的业务流程成为企业一套表改革的核心。
1.企业一套表的统计业务流程设计。设计企业一套表的统计业务流程将基于统计业务全流程和全系统的设计理念,将统计业务流程设计和权限管理相结合、统计业务流程设计与规范管理相结合,参考通用统计业务流程模型及各国的经验,结合统计工作现状,总结试点的经验,渐序推进。
根据统计调查的内容和要求,结合统计业务模型,企业一套表业务流程的总体架构可分为三层,第一层包括6个工作环节,即统计设计、调查单位确定和管理、任务部署、数据采集、数据审核验收和数据加工汇总;第二层包括详细的工作节点,即在每一个环节中包括若干工作节点;第三层是对每个工作节点的具体描述。
企业一套表业务流程与通用统计业务流程模型的基本思路相同,均按照统计工作的开展步骤进行设计,流程中都包括设计、采集和加工处理等具体环节(阶段),但两者在定位、总体架构、涵盖范围和阶段划分上又有所不同(王萍,2013)。
2.基于业务流程的企业一套表质量管理。企业一套表数据全流程质量管理是指从统计调查设计到汇总生成综合数据、从统计调查任务布置到事后数据质量检查的整个流程各个环节的工作质量、数据质量的管理及控制,内容涵盖企业一套表业务流程中的统计设计、调查单位确定和管理、任务部署、数据采集、数据审核验收和数据加工汇总等环节(刘伟芳,2014)。
(1)统计设计环节的质量管理。在设计阶段,事先要对调查的必要性、可行性、数据指标的可获得性和不受干扰性、反映社会经济情况的准确性等方面进行充分认证,科学规划和统一设计统计制度方法。制度设计要保证统计标准统一,指标概念清晰、口径明确、体系规范,调查方法科学,切实降低因制度设计缺陷导致的系统性误差。同时,力求调查内容与现行企业财务制度及行政记录相衔接,减轻基层统计人员计算和填报难度。
(2)调查单位确定环节的质量管理。严格执行基本单位名录库统一管理制度,通过协调相关专业统计、充分利用行政记录资料、定期清查和实地核查等措施,确保各类调查单位的真实性并及时更新维护。名录库管理部门要根据企业一套表制度要求,核实和确认完整统一的调查单位,及时、准确地提供给各专业统计使用。软件系统要实现与基本单位名录库的对接,满足企业一套表统计和基本单位名录库更新维护的业务需求。
(3)任务布置环节的质量管理。按照统计调查制度的规定,通过统一的软件系统将调查任务逐级布置到各级统计机构和调查对象;使用经名录库管理部门确认的统一的调查单位,确保在软件系统上按制度规定的调查频率准确地向调查对象分配统计报表任务。设计管理部门负责统筹和协调,数据管理部门负责软件系统培训和技术支持,各专业部门负责实施相关专业的业务培训,各相关部门按照职责分工通力合作,确保培训效果。
(4)数据采集环节的质量管理。要求统计调查对象建立健全企业原始记录、统计凭证及统计台账的管理和使用制度,建立健全统计资料的审核、签署、交接、归档等管理制度,统计资料的审核、签署人员应对其审核、签署的统计资料的真实性、准确性和完整性负责。统计机构要合理规划不同报表的上报时间和频率,通过软件系统及时监控数据上报情况,并对已上报数据的审核和验收情况进行反馈,对未按规定时间上报数据的调查对象进行催报。
(5)审核验收环节的质量管理。运用软件审核功能及其他辅助审核手段及时对企业报表进行全面审核,确保基层数据准确无误。各级统计机构不得修改调查对象填报的原始数据,防止人为对基层统计数据的干扰,杜绝篡改、虚报、瞒报基础统计数据的行为,确保收集到的是来自调查对象的真实数据。数据在不同部门、不同软件间进行交换和转换后,必须再次审核,以防止数据网络传输和内部整合过程中发生差错,确保数据流转稳定可靠。
(6)数据加工环节的质量管理。各级统计机构业务人员按照相应的汇总权限,对本专业调查数据进行汇总,确保数据处理准确无误。数据汇总完成后,要根据已设定的汇总表评估规则对汇总数据进行审核。基层数据自上而下逐级确认,期间下级统计机构可以随时汇总,但经上级统计机构确认后方能使用汇总数据。
统计数据质量是长期困扰我国政府统计的一个难题,构建统计业务流程框架,开展企业一套表业务流程设计,能够为统计生产过程、统计产品的质量改进提供基本保证,有利于提高统计生产能力、统计数据质量和政府统计公信力。为使基于统计业务流程的数据质量控制体系切实发挥作用,应采取以下保障措施。
(一)推进统计制度改革,理顺统计业务流程
按照统计业务流程分别设立制度设计部门、数据采集部门、数据管理部门、数据发布部门、数据质量评估中心等职能机构,真正构建起以专业和闭循环流程为主的大循环。扎实推进统计业务数据化,加快行政数据的共享,实现多部门数据的交叉验证,“联网直报”采取IP定位控制、修改痕迹保留等方式进行监测。建立新型“一套表”统计报表制度,将需要向调查对象采集的全部统计内容集中统一布置,消除重复布置、重复统计,实现按调查对象实际情况“量身定做”统计调查内容。
(二)推动统计管理模式创新,提高统计生产效率
在业务流程管理的每一个环节制定相关标准,强化各流程质量控制,逐步实现统计生产流程和统计服务的质量管理标准化,实现统计管理由“规范化”向“标准化”跨越。按照统计生产流程,逐步形成“统计设计――数据采集――数据分析――数据发布”的一条龙纵向管理流程;明确横向的各流程权限管理,使不同层级、部门的工作人员各司其职,避免跨越环节的无序操作和重复遗漏,提高统计生产效率。
(三)结合大数据应用,重塑政府统计业务流程
面对大数据的冲击,政府统计应积极应对,打造政府统计数据来源的“第二轨”,以统计业务流程模型为基础,统一统计标准,规范统计指标,改革调查方法,完善采集方式,改进数据处理,丰富分析手段,完善数据发布,并结合大数据的实际应用,实现政府统计业务流程的革新与再造,提高数据质量。
(四)依托“四大工程”建设,建立高效的统计信息系统
以企业一套表为核心的“四大工程”建设是对统计数据生产方式的重大变革,未来应继续以推进“四大工程”建设为抓手,建立统一的元数据库系统,建立统一的业务处理平台,建立分布式网络数据仓库,建立真正的大数据平台,容纳所有采集到的数据信息,将历史和现有原始数据文件整理归集到系统中,切实搭建起高效的统计信息系统。
[1]程开明:三种国际统计质量管理框架的比较及启示,统计研究,2011年第4期,74-79页;
[2]程开明、陈龙:大数据时代的统计挑战及应对,中国统计,2013年第8期,11-13页;
[3]刘伟芳:国内外统计业务流程设计对国家企业一套表的启示,调研世界,2014年第5期,44-48页;
[4]刘志:对我国统计业务流程再造的思考,中国统计,2013年第4期,4-6页;
[5]马亮:传统研究在大数据下业务流程的变化与调整,http://www.c114.net(2015/1/8 13:40);
[6]王萍:建立中国统计业务流程的构想,统计研究,2013年第3期,18-24页;
[7]王萍:统计业务流程的国际规范,中国统计,2012年第10期,34-36页;
[8]许小乐:大数据与政府统计改革,调研世界,2013年第5期,42-45页;
[9]杨美沂:数据大集中环境下的统计生产流程再造,统计与信息论坛,2010年第7期,10-13页;
[10]Pipino L.,Y.Lee,and R.Y.Wang.Data Quality Assessment[J].Communications of the ACM,2002,10(5): 211-217.
(责任编辑:牛域宁)