统计数据和元数据交换(SDMX)标准解析及应用研究

2014-05-07 04:55邓琳莹
数字通信世界 2014年4期
关键词:数据结构统计数据定义

张 艳,邓琳莹

(中国金融电子化公司,北京,100054)

1 引言

统计数据和元数据交换(SDMX)标准是SDMX国际组织于2001年发起并提出的。SDMX组织由国际清算银行(BIS)、欧盟统计局(Eurostat)、经济合作与发展组织(OECD)、欧洲中央银行(ECB)、国际货币基金组织(IMF)、联合国(UN)和世界银行(WB)七个国际组织联合发起并建立,核心基础是其制定发布的《统计数据和元数据交换标准》,用于数据收集与分发,目的是提升国际组织和成员国之间统计数据和元数据的交换或共享的便利性及效率。

2001年9月,SDMX工作组在华盛顿成立,2003年发布SDMX标准V1.0,2005年国际标准化组织(ISO)将SDMX技术标准V1.0采标为ISO/TS 17369:2005。SDMX主办方2005年发布了SDMX技术标准V2.0以及元数据常用词汇表,词汇表规范了元数据词汇。2009年SDMX标准得到第39届联合国统计委员会大会认可和支持,SDMX标准被称为“全球统计社区中的优选标准”。2011年,SDMX国际组织发布了SDMX技术标准V2.1征求意见稿。2011年5月,第三次SDMX全球大会在华盛顿召开,为推动标准研究与应用推广,SDMX国际组织成立了统计工作组(SWG)和技术工作组(TWG)。SDMX标准明确了统计人员在采集、处理和交换统计数据时所使用的统计概念和方法,规范了统计数据及元数据交换和共享的标准化格式。它一方面解决了一般性的统计问题,另一方面通过网络服务达到了一种标准化的数据交互。

2 SDMX标准的技术构架

SDMX信息模型(SDMX-IM)是一个概念化的元模型,开发了语法的具体实现。该模型由一组功能包构成,这种构造形式有助于理解、重新使用和维护模型(见图1)。另外,为了帮助理解,每个包都可以被认为是在三个概念层之一中:

(1)SDMX基础层(SDMX Base layer)由结构定义层(Structural Definitions layer)和报告和分发层(Reporting and Dissemination layer)使用的基本块组成。

(2)结构定义层由所需的支持数据和元数据报告和分发的结构化工具的定义组成。

(3)报告和分发层由用于报告和分发的数据和元数据容器的定义组成。

实际上,层没有隐式或显式的结构功能,因为任意包能使用其他包里的任何部分。

图1 SDMX信息模型包结构

SDM X标准通过数据结构定义(DSD)来描述数据和元数据,其中,数据结构定义决定了维度(dimensions)、属性(attributes)、代码表(codelists)等描述数据结构的概念。比较类似的概念有元数据结构定义(MSD),该定义描述与元数据相关的观测值(observation)、系列(series)、组别(group)、数据集等级(dataset levels)等。SDMX的数据交换方面有XML和EDI两种,XML是更加通用的数据交换方式。

SDMX通过信息模型提供了对统计数据、结构化元数据和数据交换过程的模型化处理方式,同时定义了参考元数据。为成为能够支持多个数据交换模型的技术标准,SDMX信息模型包含了大量正式的对象,包括行为(actor)、过程(process)和资源(resource)。

SDMX信息模型结构图(见图2)主要包括:数据结构定义、元数据结构定义、数据集、元数据集、数据供应方、提供协议等多主要元素,其概念如下:

(1)代码表(Code list):枚举维度、属性和SDMX其他结构部分的表示形式中使用的一系列值。

(2)数据结构定义(DSD):数据结构定义(DSD)描述了数据集的结构,定义的一系列的概念。

(3)元数据结构定义(MSD):元数据结构定义描述了元数据集(包含参考元数据)的组织方式。

图2 SDMX信息模型的主要元素

(4)数据集(data set):是固定的时间段中,相似或共用相同结构的数据的集合。

(5)元数据集(metadata set):是关于统计交换的SDMX视图方面的信息集合。

上述元素中,代码表可用于其他结构元数据的补充。数据结构定义(DSD)给每一个概念添加了附件属性。元数据结构定义(MSD)确定了哪些元数据能够进入数据交换、各概念之间的相互联系、概念表述方式(用文本方式还是代码方式),关联方(代理机构、数据流、数据提供方、数据流子集等)对象类型等内容。数据集由时间序列、或者由许多与时间序列相关的数据构成。元数据集可描述数据或结构定义的维护方、数据发布的计划安排、一段时间内单一类型数据流、数据质量等内容。

3 SDMX标准主要内容

SDMX标准规定了统计人员在采集、处理和交换统计数据时所使用的统计概念和方法,规范了对外披露统计信息时统计数据的机构范围、地理区域、存流量性质、时间属性、频度以及对外披露信息文件格式等内容。SDMX标准包括如下七部分:

(1)第一部分:框架。本部分规定了统计数据和元数据交换的框架结构、流程和业务范围、SDMX信息模型、SDMX-EDI、SDMX-ML、一致性、对于SDMX标准的依赖性等内容。

(2)第二部分:信息模型UML概念设计。本部分规定了SDMX信息模型,包括SDMX基础包、具体项目方案、关键字族、立方体、元数据结构定义、元数据集、层级编码方案、结构集和映射、数据约束和供应等。

(3)第三部分:SDMX-ML模式和文档。本部分主要是针对金融统计数据和元数据的交换和共享,分别描述了标准的背景、设计内容、非特定结构定义的通用模式、特定数据结构定义模式与元数据结构定义模式的XML规范性内容,并提供了XML方案和XML文件范例,帮助解答有关统计数据和元数据交换内模式和文档的相关问题。

(4)第四部分:SDMX-EDI语法和文档。本部分主要介绍了SDMX-EDI的使用方法、所有的UN/EDIFACT GESMES报文以及使用该报文满足用户特殊需求的方法,通过中心机构管理SDMX-EDI数据交换的过程。同时说明使用SDMX-EDI进行数据和元数据交换时主要是建立在统计结构定义、统计概念以及统计概念赋值的代码列表基础之上,使读者及用户在了解标准的同时理解统计数据和元数据交换内语法和文档的使用方法。

(5)第五部分:注册表、规范逻辑功能和逻辑接口。本部分基于SDMX信息模型定义了SDMX注册机构应提供的基本服务:数据和元数据的注册、数据和元数据的查询、注册机构相关信息的更新和订阅,并且定义了SDMX注册表的逻辑接口,以便于用户选择任何规定方式进行SDMX一致性注册。

(6)第六部分:技术说明事项。本部分描述了数据结构定义和数据集,并通过图表及用户界面等形式解释了SDMX信息模型及实现,特别是SDMX-ML和SDMX-EDI格式之间互用性实现等技术内容。

(7)第七部分:Web服务指南。本部分规定了Web服务和SDMX-ML、SDMX Web服务的交换模式、WS-I符合性和大型数据和元数据集及其查询。

4 SDMX标准应用情况及展望

SDMX起初是规范SDMX组织成员国数据交换的标准,随着技术的不断完善,各国应用SDMX的案例逐渐增多。除SDMX的七大发起组织成功实施SDMX标准以外,其他一些国际组织(如国际粮农组织、世界卫生组织)以及部分国家的统计局和中央银行也开始在统计系统中运用SDMX标准,技术应用涵盖了劳动统计、教育统计、卫生统计、国民账户、国际收支平衡表、农业生产统计、外部债务统计、金融统计、环境和多领域统计等多个统计领域。例如,在卫生领域,世界卫生组织构建了SDMX卫生域(Health Domain)的定义,在集合数据系统中对指标定义和数据的交换做了规定,为SDMX标准在社区的应用提供了指导。除国际组织外,SDMX标准在一些国家也经过验证并取得良好的应用实施效果,如图3所示,地图上标蓝的国家已于2009年完成SDMX的实施,标红的国家也于2009年后开始实现SDMX计划,充分证明其在国际上具有广泛的实施应用基础和一定的优越性。

图3 SDMX标准全球实施情况

SDMX标准在国内的推广和应用任重道远。从2010年起,中国人民银行成为SDMX国际组织统计工作组成员,跟踪SDMX技术动态,为SDMX标准的技术完善作出了相应贡献。下一步,标准的实施应用应是工作的重点方向,对此应结合我国数据交换的基本情况,整合各方优势,借助SDMX国际组织、国内相关政府主管部门和相关技术组织的力量,加大对金融机构内部系统的标准化,优化金融机构的数据披露模式,采取“整合资源,有序推进”的方式,逐步推进SDMX标准在我国的应用。从国际组织及有关国家实施SDMX的情况来看,我国实施SDMX应注意以下几点:

(1)加大对标准的跟踪及研究力度。SDMX作为目前国际间统计数据和元数据的交换标准,从开始制定到现在已历时10年之久,虽已相对成熟,但随着技术的进步和发展,仍处在不断完善和维护过程中,特别是代码表、数据元和元数据等内容随着业务的变化而处在不断的动态维护中,为此,必须积极跟踪SDMX标准的发展动态,同时要加大对SDMX标准、IT工具、数据仓库、技术架构、内容导则等内容的研究力度。

(2)加大标准国际间交流合作。吸取国际组织和发达国家实施SDMX标准的经验,可以更好地指导我国SDMX实施路线图的构建,为此应积极参加SDMX组织的各项活动,增进与发起组织和已实施SDMX标准国家的交流合作,分享各组织和国家的实施经验,探索在我国实施SDMX标准的解决方案,从而规范我国金融统计标准体系的内部处理和对外发布,提高信息共享的效率。

(3)加强统计业务与IT技术的协调。统计业务和IT技术的协调一致是实施SDMX标准的前提和基础,统计业务需求为技术实现提供指导方向,而技术反过来促进业务的完善,二者同等重要,不可偏废。为此,应加强统计业务与IT技术的协调,统计业务人员侧重于SDMX信息模型的建立和SDMX的应用,而IT技术人员则重点在于统计数据和元数据的建模、数据管理系统的开发、数据交换格式的实施和处理,只有二者协调一致,才能提高SDMX实施的效率和质量。

猜你喜欢
数据结构统计数据定义
创新视角下统计数据的提取与使用
国际统计数据
2017年居民消费统计数据资料
“翻转课堂”教学模式的探讨——以《数据结构》课程教学为例
高职高专数据结构教学改革探讨
成功的定义
统计数据
TRIZ理论在“数据结构”多媒体教学中的应用
《数据结构》教学方法创新探讨
修辞学的重大定义