大数据环境下的统计元数据建设

2020-04-27 04:03刘冰洁赵彦云
统计与信息论坛 2020年3期
关键词:统计数据标准

李 倩,刘冰洁,赵彦云

(中国人民大学 统计学院,北京 100872)

一、引 言

元数据(Metadata)又称中介数据、中继数据,其本质定义为描述数据的数据。其作为描述信息资源的特征和属性的数据,具有支持指示存储位置、历史数据、资源查询、文件记录等功能[1]。元数据的研究最初集中于数字图书管理和网络搜索引擎,目的是解决网络信息飞速发展下的数据量剧增问题[2]。统计元数据则是将元数据应用于统计数据生产和管理等业务流程,用来定义、描述和解释数据生产过程中产生的各类实体统计数据本身及其生产过程。其中,统计指标、统计分组、调查方法、调查对象等都是元数据[3]。以调查方法为例,调查方法包括全面调查、重点调查、抽样调查、全面与抽样结合、抽样与重点结合等多种类型,在数据生产阶段对数据调查方法描述,有利于数据分类存储,并方便以后数据查询和分析。因此,统计元数据是科学有效管理统计数据的重要基础。对于各个统计部门而言,建立系统化元数据体系、高效合理利用元数据,可以简单、有效、信息化地管理数据。同时,执行规范统一的统计元数据标准,可以将不同专业、不同单位之间的元数据交换,以便于数据交叉融合以及进一步分析,发挥数据资源价值。尤其在统计数据量骤增、数据类型多样的情况下,元数据建设尤为重要。

国外对元数据的研究比较早,联合国欧洲经济委员会、欧洲统计局、世界银行、经合组织等多个组织对统计元数据进行了研究,提出了共同的元数据框架(CMF)、共同生产框架(CSPA)、数据文件倡议(DDI)、通用统计业务流程模型(GSBPM)、统计数据和元数据交换(SDMX)等多个框架协议和标准,规范了统计业务生产流程,提供了数据处理和交换的标准。2000年,中国国家统计局开始与加拿大统计局开展中加信息管理合作项目,开始研究元数据。2011年,为了配合企业一套表改革,《统计数据与元数据交换(SDMX) 第1部分:框架》和《统计数据与元数据交换(SDMX) 第2部分:信息模型》由全国电子业务标准化技术委员会(SAC/TC 83)提出,经国家标准化管理委员会批准,列入国家标准制定修订项目计划。该标准于2017年7月31日由中华人民共和国国家质量监督检验检疫总局、中国国家标准化管理委员会发布,2018年2月1日实施[4]。

近些年,国内学者也开始关注统计元数据问题研究。部分学者集中于国外元数据框架协议和标准的介绍,王萍详细阐述了GSBPM的模型结构[5];张艳和邓琳莹介绍了SDMX标准的产生和发展历程,解析标准的模型架构和主要内容[6]。陈燕和李贞以荷兰为例,解读荷兰实施SDMX标准“起步晚,见效快”的发展历程,为SDMX标准的国内应用提供建议[7]。此外,部分学者探索中国统计元数据的构成及建设。胡帆围绕“中国统计元数据应该是什么样子”“对统计业务工作起到什么作用”“对统计数据资源建设起到什么作用”这三个问题展开论述[8]。在国内企业一套表制度实行以后,上海统计局和厦门统计局基于国家企业一套表元数据库和元数据标准,结合实际统计工作,开发设计服务于地方统计需求的元数据库系统,提高统计信息化水平[9-10]。苏州市统计局则以统计元数据为核心,探索大数据时代统计数据生产和应用方式的变革,以加快统计效率提升和统计服务优化[3]。

虽然国内元数据建设和研究已取得初步进展,但是整体上统计学者对统计元数据的关注度较低。在大数据环境下,云计算、移动互联网等技术的广泛应用,对传统统计产生巨大冲击,统计数据的采集、加工、分析和应用模式都面临深刻变革。元数据作为科学管理数据的重要基础,更加需要加快建设步伐。本文以通用统计业务流程模型(GSBPM)、通用统计信息模型(GSIM)、统计数据和元数据交换(SDMX)为例,归纳国外统计元数据和元数据标准建设情况,借鉴其先进经验;根据国内企业一套表的实施情况,分析元数据和元数据标准的建立和审核流程、存在问题、解决办法等;最后,结合大数据环境对统计元数据发展提出的新要求,探索统计元数据和元数据标准建设的未来发展方向。

二、国外元数据建设情况

国外元数据建设起步相对较早,已制定多个协议和标准。每个协议和标准都介绍了统计业务流程中的元数据建设,但是侧重点不同。本文主要介绍GSBPM、GSIM和SDMX。

(一)通用统计业务流程模型(GSBPM)

联合国欧洲经济委员会、欧洲统计局和经合组织于2009年正式公布了《通用统计业务流程模型(GSBPM)》,为统计机构开发统计元数据系统和业务流程提供一个标准术语的基础,有助于消除数据孤岛和实现统计业务流程现代化。

GSBPM(版本5.0)包含3个层次:第0级,统计业务流程;第1级,统计业务流程的8个阶段;第2级,每个阶段的子流程[11]。元数据在每个阶段都会生成和处理,因此需要强大的元数据管理系统,确保在整个GSBPM中元数据与数据保持连接,提高统计业务流程运作效率。元数据管理系统的重点工作是统计元数据的创建、使用、归档和质量管理,关键问题是及时发现元数据,并将其存储传输到所涉及的数据中。GSBPM提出有利于设计和实施统计元数据系统的元数据管理的16项核心原则,概括来讲可以分为以下4个方面。

1.元数据处理。元数据的处理贯穿于整个统计业务流程模型,而且尽可能地使元数据处于活动状态,即利用元数据驱动其他进程和操作,通过这种处理方式保证元数据的准确性和及时性。在元数据更新过程中,保留其历史记录(旧版本),同时尽可能地重新利用旧版本的元数据,有利于综合统计和效率提升。

2.元数据管理机构。注册元数据时,确保与每个元数据元素相关的注册流程都有单一的权威来源和详细的文档记录,以便明确标识所有权、审批状态、运营日期等。元数据的录入和更新尽量在同一个地方,最大限度地减少误差。此外,与标准存在偏差的地方要经过严格审批、记录,并对外可见。

3.与统计周期的关系。从源处获取元数据,最好将元数据作为其他进程的副产品,元数据相关工作成为组织业务流程的组成部分,同时确保呈现给最终用户的元数据和驱动业务流程的元数据相匹配。在元数据交换和使用时,基础设施应该基于松散耦合的组件,同时可以选择XML等标准交换语言。

4.元数据用户。首先,确保用户可以清楚地识别所有的元数据流程;其次,在用户存在信息需求时,元数据需要保证随时可用;最后,元数据形式多样,不同的数据用途对应不同的元数据视图。元数据根据制作使用的过程和目标以不同的格式显示,对不同用户提供不同级别的细节数据。

(二)通用统计信息模型(GSIM)

通用统计信息模型(GSIM)是统计信息的参考框架,是世界各地统计机构协作的结果。与GSBPM一样,GSIM旨在提升国家和国际两级官方统计水平,是消除数据孤岛和实现统计现代化的重要基础。GSIM可以在整个统计生产过程中对数据和元数据的定义、管理和使用进行通用描述,提供一套标准化、一致的实施规范。在GSIM中,参考元数据作为特殊类型的信息资源,用于描述统计特征。这些元数据有广义与狭义之分,广义元数据与整个统计流程有关,狭义元数据与单个数据有关。参考元数据集由参考元数据资源组成,其结构在参考元数据结构中定义。参考元数据结构指定了包括参考元数据的参考元数据主题和可以针对给定参考元数据主题报告或创作的参考元数据属性的结构化列表[12]。参考元数据集结构图如图1所示。

图1 参考元数据集

(三)统计数据和元数据交换(SDMX)

《统计数据和元数据交换标准》(SDMX标准)由国际结算银行、欧洲中央银行、欧洲统计局、国际货币基金组织、经合组织、联合国和世界银行7个国际组织于2001年提出,主要目的是提升国际组织和成员国之间统计数据和元数据的交换或共享的便利性及效率。它规定了统计人员在采集、处理和交换统计数据时所使用的统计概念和方法,规范了对外公布统计数据的机构范围、区域、时间属性和文件格式等内容。它共包括7个部分:框架、信息模型UML概念设计、SDMX-ML模式和文档、SDMX-EDI语法和文档、注册规范及规范逻辑功能和逻辑接口、技术说明、Web服务指南[13]。

在SDMX中,元数据包括结构元数据和参考元数据。结构元数据与数据相关联,用于描述和标识统计数据和元数据;参考元数据独立于统计数据,用于描述和限定统计数据的概念、获取方法和质量等方面的信息。统计元数据交换有双方交换、网关交换和数据共享交换3种模式。其中,双方交换是在交换机制、交换格式、交换时间表等商定的基础上进行交换。网关交换是若干个数据和元数据采集组织或者个人采用已知的单一格式交换采集的信息。数据共享交换是一种标准化、可以自由使用的数据格式和过程模式。在获取访问许可权的前提下,交换组织或者个人可以使用任何一方的数据和元数据。SDMX交换过程中积极采取过程自动化,例如,数据和元数据实现批量交换,各交换方之间可以传输整个或者部分数据库。

欧盟统计局作为SDMX标准的组织之一,积极推动欧盟成员国进行元数据交换和共享,而且制定了标准规范的交换步骤,包括准备阶段、考察阶段、执行阶段和制作阶段4个阶段。在准备阶段过程中,交换双方分析元数据集。元数据实施国解释本国可能存在的元数据集合,专家负责阐述现有元数据交换标准。随后在考察阶段,对比元数据集和欧盟标准,审核元数据实施国元数据结构,确保与SDMX标准结构一致。执行阶段指激活元数据流,根据前面已经设定的元数据交换模式,生成元数据结构定义。最后,制作元数据文件。欧盟统计会定期整理审核欧盟参与国按照要求制作的元数据文件,并实现对外共享。

综上所述,虽然每个标准的侧重点不同,但都是通过用通用语言描述元数据和其数据标准的定义、管理和应用等,为元数据和数据的交换共享提供标准规范,以便于摆脱数据孤岛、提高统计现代化水平。尤其对整个统计流程中统计元数据快速高效地处理、服务用户、实现数据和元数据交换共享等内容都值得中国元数据建设借鉴。

三、中国元数据建设情况

相比于国外元数据建设,中国元数据建设起步较晚。在推行企业一套表制度时,元数据作为数据管理方法,逐步成为统计信息化、规范化、标准化管理的研究方向。国家统计局借鉴国外元数据建设经验,参照国际SDMX标准,积极加强元数据建设,但是,受到传统统计制度的影响,现有元数据建设水平较低。在元数据建立、运用和维护过程以及执行元数据SDMX标准过程中存在多方面问题,需要针对实际问题逐步解决。

(一)基于企业一套表的元数据建设

自从2011年实行企业一套表改革以来,国家统计局建立和更新了元数据库,制定了元数据标准。其中,企业一套表元数据包括统计制度、统计报表、统计指标、统计分组、统计目录、调查方法、业务流程、数据质量等多个方面。元数据标准包括统计制度、统计报表、统计指标、统计分组、统计目录、统计方法等多种类别,每一类均有基本属性、管理属性、实施属性、采集处理属性、数据属性5种属性。以元数据标准为例,表1列举了企业一套表元数据标准概况。

表1 企业一套表主要元数据标准一览表

注:表中数据根据对国家统计局调研得到的数据和资料整理得到。

不同于国外元数据建立和管理流程,中国元数据建设工作由统计局设计管理部门牵头负责,专业部门配合,在年度定报制度修订完成后进行。基本流程为设计建立—运用—维护。元数据库建立过程中,首先,由设计管理部门设计元数据库,专业部门在此基础上补充完善、填写相关属性;其次,专业部门在运用阶段提出增加报表、指标、分组目录的需求,设计管理部门负责元数据内容的规范管理和审核,通过与现有元数据库对比,检查增加指标是否存在重复,统计口径、指标解释、计算方法是否统一,分组目录是否规范。如果通过审批,则根据元数据标准赋予编码,补充至元数据库中。日常维护过程中,专业部门以现有元数据库内容为基础,根据审批通过的制度修订内容进行元数据库维护,对新增或修改的报表、指标、分组、目录等元数据的相关属性进行整理;设计管理部门根据修订的元数据标准,以及专业部门提供的修订信息对元数据库进行更新维护。同理,元数据标准由设计管理部门设计建立,设计管理部门和专业部门对元数据标准进行修订完善,补充必要的、便于管理的属性,对实际管理意义不大的属性进行精简,对不合理的编码规则等进行调整。

(二)存在问题

基于企业一套表制度,元数据和元数据标准建设已取得初步成效,但是在元数据和元数据标准覆盖面、建立审核流程、数据交换共享等多个方面仍存在不足,需要借鉴国外元数据建设经验进一步改善。

1.元数据不够完善,元数据标准实施力度低。现有国家统计局的元数据库覆盖面不全,元数据标准不够完善。原则上,按照现行国家统计调查制度,基层单位自下而上逐级提供统计资料和上级统计单位汇总统计数据过程中产生的所有描述统计信息的结构化数据都属于元数据范围。若仅年度修订更新元数据库可能会遗漏一次性的专项调查,不利于元数据库的统一管理。尤其与国外将元数据处理贯穿于整个统计生产流程形成鲜明对比。此外,作为描述统计数据时所有规则集合的元数据标准,参照国外标准制定了《统计数据与元数据交换(SDMX)》,但是实施力度不够,元数据标准规范水平较低。

2.元数据和元数据标准建立和审核流程存在弊端。相比于国外较为规范和严谨的元数据和元数据标准建立审核流程,中国现有流程仍存在一些弊端。第一,时效性差,不能及时更新元数据库和元数据标准。元数据和元数据标准在报表制度执行以后整理和变更,造成一定程度的滞后。参照国际经验,可以将元数据作为统计生产流程的副产品,伴随统计数据的产生而建立。第二,设计管理部门和专业部门存在重复劳动现象,效率较低。在元数据库和元数据标准运用和维护过程中,专业部门和设计管理部门均会对报表制度进行审查并更新和维护元数据,造成了一定程度上的人力和时间的浪费。第三,尚未建立标准的元数据统计制度。国家统计局对现有元数据和元数据标准进行汇总和梳理,但是系统性不强,尚未建立规范化的统计元数据和元数据标准的统计制度。

3.用户体验效果较差。统计元数据的主要目的之一是为用户提供良好的数据体验,便于数据理解与应用。相比于国外,中国元数据用户体验效果较差。一方面,与现有统计元数据设计过程有关。元数据设计过程中,以服务于企业一套表为主,忽略元数据用户需求。另一方面,统计元数据公开性较差。用户无法及时查看和检索到相关元数据,更加不能根据元数据的更新信息判断统计数据的适用性和变化。即使有些元数据可以检索到,但是用户较为关注的统计元数据属性描述不全面,不利于用户对统计数据的筛选和利用。

4.数据交换共享水平低。中国统计数据资源丰富,但是数据和元数据存在孤岛现象,数据红利未充分释放。现有统计元数据处理主要以部门或者企业单位为一个统计单元,元数据标准在各个部门或者企业单位内部使用执行力度不一致,相互之间元数据没有交叉分类。在企业一套表制度下,国家统计局的联网直报系统分为同方软件和万峰软件,天津、北京、上海、江苏、广东、安徽和辽宁7个省份使用同方软件,其他24个省份使用万峰软件。相关部门努力实现数据交换和共享,但是在整合两个平台数据时,底层元数据和数据的交叉受限,只能是简单的数据堆砌,数据共享效果不佳。

此外,国内数据与国际数据的交换共享水平低。中国建立SDMX等元数据标准的时间较晚,参与国际交换的案例较少,依据中国元数据建设现有水平,实现数据传送、交换使用过程相对困难。虽然SDMX-ML等模式是通用的,在实际数据交换过程中,国家统计局必须为每个数据流设计一个比SDMX-ML更专业化的相应子集的专业网络服务。同时,考虑到国际SDMX随着时间不断完善和维护,尤其是代码表、数据元和元数据等内容随着业务的变动而更新。中国应该积极参加SDMX组织的各项活动,增加与发起组织和已实施SDMX标准国家的交流合作,探索数据交换共享的解决方案。

(三)解决办法

1.扩展元数据覆盖范围,严格执行元数据标准。为了避免遗漏一次性专项调查等涉及的元数据,进一步完善基层单位提供的统计资料中的元数据。同时,严格执行元数据标准。按照逻辑层次关系、指标度量方法等梳理出一套元数据编码系统理论,规范和完善元数据编码规则。例如,可以将指标代码拆分为一级类别、二级类别、三级指标和顺序号,不同报表制度中的同一指标有多个名称的情况,有效识别并设定唯一码,以便于统计分类、统计指标等元数据的管理。

2.规范元数据和元数据建立和审核流程,提高统计工作效率。现有元数据管理系统中,元数据和元数据标准的建立和更新都在年度统计报表执行之后,具有一定的时间滞后性。在接下来的统计工作中,可以建立元数据云平台,对元数据的建立、审核、更新实行一体化建设,统一编辑、加工、处理、发布,实现信息化管理系统。例如,企业可以定期上传统计指标、统计分类等元数据到云平台,实时更新元数据库。然后,依据统计报表需求,从元数据云平台中挑选元数据制定相关报表。由此,将元数据管理实现事后管理转化为事前管理。

3.增强元数据适用性,提高用户体验水平。现有元数据用户体验较差,增强元数据适用性是关键。首先,元数据覆盖不全,而且部分元数据不易理解。在元数据建立中,需要加强统计业务人员和互联网技术人员的联系。统计业务人员侧重元数据和元数据标准概念、指标等内容,为技术人员指导方向;技术人员侧重元数据库建立、管理系统开发等内容,并反过来促进业务的完善,提高统计元数据设计合理性。统计局统筹安排、明确责任、分工协作、上下联动,同时细化元数据建设的职责分工和业务流程,明确各方责任,充分调动各方资源,集各方之力共同推进元数据工作和统计现代化建设。其次,根据不同用户需求提供不同的元数据。可以针对不同用户提供符合对方需求、便于对方理解的元数据,满足用户个性化、多样化的统计需求,以便于更好地利用数据、发挥数据价值。

四、大数据环境下统计元数据发展要求

近年来,云计算、移动互联网等发展迅猛,大数据对传统统计制度和元数据体系带来巨大冲击,未来可能颠覆传统的统计数据采集、加工、分析和应用模式。元数据不仅需要解决现有存在问题,更需要为统计变革打下坚实基础,不断适应大数据环境下新的发展要求。

(一)统计元数据科学性

目前统计数据的内容和生产方式发生了较大变化。一是数据规模化。数据量巨大,而且成指数增长,每时每刻都在产生大量数据。二是内容多样化。统计数据概念发生了扩展,既包括传统的结构化数据,又包括日志、图片、录像、地理位置等半结构或非结构化数据,而且半结构和非结构化统计数据的地位逐步提升。三是数据来源多元化。统计数据不再局限于通过抽样调查和统计报表获取,还可以通过智能化传感、穿戴设备等信息技术采集,而且云存储等技术更加方便数据存储。这些规模巨大、结构复杂、内容多样、来源广泛的统计数据对统计元数据和元数据标准提出更高的要求。

面对复杂多样的统计数据,科学的统计元数据设计尤为重要。统计元数据是否构成统计科学体系的基础组成部分,是否涵盖互联网智能化分析应用的所有可能目标,都是统计元数据设计的重要问题[14]。首先需要从统计体系功能上定位元数据标准和统计元数据标准。然后结合统计实际工作,系统梳理统计元数据框架体系,深入研究统计元数据和统计元数据标准的科学性、应用创新性和统一规范化管理。

(二)统计现代化重要基础

随着云计算、移动互联和大数据技术的广泛运用,在满足统计分析和统计应用所有需求上的最简约统计体系、统计基础和核心技术内容成为关键。与此同时,利用计算机和互联网技术实现现代化统计,这些是统计元数据的最现实思想。统计元数据可以利用计算机和互联网技术实现统计数据的科学化管理和统计分析的智能化。一方面,元数据是统计现代化的重要基础,利用互联网技术系统梳理统计元数据框架体系,对接统计内容体系,探索解决问题的思路。另一方面,元数据标准是数据规范化的保障,利用元数据标准规范元数据,促进统计现代化建设进程,提高统计现代化建设效率。统计工作者需要积极运用计算机互联网技术条件,遵循科学、安全、高效率的原则,从顶层设计角度完善统计信息化体系,解决统计问题。在元数据建设和元数据标准管理过程中,加强一体化建设,坚持统筹分布实施的原则,为统计现代化的科学和长远发展奠定扎实基础。

(三)全社会统计需求体系

统计数据具有较强的社会价值,其主要目的是服务于公众。目前公众对统计数据的数量和质量都提出了更高要求:即数据分类细化,数据口径一致、连续可比,数据体系一体化,而且统计局内部人员、政府部门、科研人员、企业等不同的用户对元数据需求的程度不一样。数据扁平化要求最充分地满足全社会的统计需求。互联网大数据资源丰富,但是现有数据无法有效连接组合在一起,随着时间的累积反而易形成数据垃圾。因此,为了避免数据垃圾的产生,需要元数据有效连接各方面数据,将数据在时间、空间维度上形成系统性,实现元数据和统计数据的联通和共享,挖掘数据深层次价值,从而更好地实现数据服务目标[15]。具体来讲,利用元数据实现数据的互联互通,以政府统计的最小统计单位和最基本分类为中心基础,有效联通调查数据、行政记录数据、互联网数据等,全面解析社会生态数据。有利于满足全社会需求体系,为不同需求的用户提供不同数据,便于挖掘和创造更大的数据价值。

五、未来发展方向

现有元数据发展模式具有一定的局限性,因此我们提出几点元数据未来可能的发展方向。

(一)加强元数据顶层设计,实现智能化分析目标

元数据设计的根本目的在于充分体现统计的科学性,将现有统计体系内容完备化、智能化。元数据设计要从顶层设计定位,通过梳理现有统计体系框架,科学合理地设计元数据和元数据云平台,做到框架清晰、逻辑严谨。其中,元数据编码需要开创和发展一套适合互联网大数据和其他类型数据的元数据编码方法。编码应具有简约性和层次性,同时其设定应该考虑一定的开放性和可拓展性。在保证编码系统规则不变的前提下,根据统计数据的动态更新调整元数据编码。在元数据云平台管理系统中,严格执行元数据标准,同时在编码的基础上,实现模块设计与应用,各模块元数据各司其职[16],极大程度地保证元数据作为统计系统的底层基础,在统计系统中充分发挥有序储存、智能检索等作用。这样,既可以有针对性地满足某一项数据管理和分析需求,又可以智能化组合实现全局数据管理和分析要求,从而更好地服务于元数据管理者和分析者。

(二)消除数据孤岛,实现数据交换和共享

各个部门或单位之间的数据孤岛,其根本在于元数据覆盖不全,而且不规范、标准各异,从而无法实现交换。因此,建设符合国家元数据标准的元数据是关键。各个部门或单位建设元数据时,需要覆盖整个统计流程过程中的元数据,同时规范元数据、执行国家统一元数据标准,而且在互联网技术日益成熟的背景之下,以标准统一的元数据为基础,构建元数据和数据一体化的管理云平台。在平台中,元数据作为最底层支持,不同类型、不同部门或单位之间元数据、数据的交换和共享都可以实现,从而摒除传统统计数据简单堆砌的模式,有效消除数据孤岛,达到数据互联、互通、互动,实现真正意义上数据交换和共享。

(三)实现数据组合运用,发挥数据更大价值

在大数据环境下,数据只有通过分析发挥社会价值,才可以实现数据资源转变为生产要素。当前的大数据发展比较突出个性化和社交网络化,大数据价值取决于个性化单位和最小化的社交网络数据结点的有效连接。元数据作为最底层支持,借助元数据标准的统一规范,可以最大化数据之间的自由组合形态,从而实现统计分类、统计测量维度交叉以及从微观到宏观一体化、系统化地变化与组合统计数据资源,这样统计数据才能真正作为数据资源而存在,从而发挥数据无限价值。

猜你喜欢
统计数据标准
2022 年3 月实施的工程建设标准
创新视角下统计数据的提取与使用
创新视角下统计数据的合理决策问题
政治标准是发展党员的首要标准
改善人口与计划生育统计数据质量的策略探讨
忠诚的标准
美还是丑?
国际统计数据
2017年居民消费统计数据资料
你可能还在被不靠谱的对比度标准忽悠