美国FEA框架和数据中台技术在大气环境数据资源共享中的应用

2020-11-26 01:17孙彩萍王维
环境工程技术学报 2020年6期
关键词:资源共享统一框架

孙彩萍,王维

中国环境科学研究院环境信息研究所

科学数据是国家重要的战略资源,其开放共享意义重大。20世纪90年代,美国率先提出数据开放共享概念,并建立了9个国家级数据中心。2000年,中国气象局在国内率先实现部门内部数据共享;2001年我国试点建立了8个数据中心;2008年开始要求国家项目产生的科学数据进行汇交[1]。近年来,我国持续推动农、林、气象等领域的科学数据开放共享,但因整体缺乏顶层设计和驱动机制,统筹管理相对薄弱,科技领域更易形成“数据孤岛”和“数据烟囱”,导致科学数据在开发利用、开放共享和安全保护等方面存在明显不足[2]。

2017年以来,我国大数据总体规模增速在20%以上,有60%以上的企业开展了包括数据资产管理、智慧决策等大数据技术研究与应用,各行业对数据分析的重视程度进一步提高。在数字化转型的大背景下,大数据的多维属性为行业发展提供了全新视角,相应地大数据发展也从技术优先向数据优先转移。大数据时代的科学研究,定量化特点突出,创新越来越依赖于大量、系统、高可信度的数据。此外,海量数据还引发了科学研究方法论的变革。2018年《科学数据管理办法》发布,将对科学数据的共享和利用纳入法制轨道,以“开放为常态、不开放为例外”为原则,拔掉“数据烟囱”,补齐科学数据管理短板,促进协同创新。

在生态环境领域,2017年原环境保护部(现生态环境部)发布《大气重污染成因与治理攻关项目管理办法》[3],率先以数据资源共享作为重大专项科研创新的助力,创新科学研究范式。2017年4月,国务院常务会议确定由原环境保护部牵头,科学技术部、中国科学院、农业部、工业和信息化部、气象局、卫生部、高校等多部门和单位协作,针对京津冀及周边地区秋冬季大气重污染成因、重点行业和污染物排放管控技术等难题开展集中攻关。原环境保护部按照“1+X”模式成立了国家大气污染防治攻关联合中心,组建了由国内200多家单位、近2 000人组成的科技攻关团队。面对信息化建设现状和大气攻关项目数据资源共享建设需求,亟需探索共享方法体系,以期指导大气环境数据资源共享技术研究。

1 研究方法

1.1 问题

国内生态环境信息化领域已颁布50多项标准、规范和管理制度,覆盖环境信息术语、分类、编码、数据采集、加工、交换、数据库建设、网络建设及管理等全流程,以统一、规范信息化建设。2014年依托《电子政务信息共享互联互通平台技术指南》,原环境保护部编制并发布了HJ 718—2014《环境信息共享互联互通平台总体框架技术规范》[4],该规范对环境信息共享平台的基础架构、数据集成模式、应用集成方法、流程协同、管理监控及安全支撑方式等进行了概念统一,明确了其定义和主要工作内容,但其更侧重软件工程,对环境业务驱动的支撑不足,这也是诸多国内信息化标准存在的普遍问题。

与数据资源中心建设不同,大气环境数据资源共享建设具有业务属性强、共享目标明确的特点,因此在其建设过程中需要着力解决三大关键问题:即发现优质的科研数据;划定科研数据共享边界;评估科研数据共享效果。但国内对行业数据共享的系统性研究不足,更鲜见相应的实证研究。

1.2 FEA框架

FEA(Federal Enterprise Archtecture)框架是美国电子政务共享框架,提供通用、标准化的参考模型及组件工具,指导企业、政府、公众间的信息发现、共享、交换等IT交付服务的投资、生产、监管和评估,为企业和政府机构的战略发展规划、决策提供信息化支撑[5],2013年发布了第2版。相比于HJ 718—2014和国内电子政务共享指南,以及主流框架参考模型[6-7],FEA框架突出目标绩效管理,具有共享、削减重复投资的双重指导意义。

FEA框架由2个部分组成:1)实施指导部分,即协作计划方法论(collaborative planning methodology,CPM);2)综合参考模型(consolidated reference model,CRM)。在CPM实施中,主要包括组织和计划、实施和评估2个阶段:在第一阶段,确定信息建设的优先级需求,以及具有同类需求的其他组织,并制定共享解决方案;在第二阶段,开展计划实施、监管与调整等相关活动。CRM模型由6个部分组成,分别为绩效参考模型(PRM)、业务参考模型(BRM)、数据参考模型(DRM)、应用参考模型(ARM)、基础设施参考模型(IRM)和安全参考模型(SRM)。各部分提出分类体系、重点领域,并提供最佳实践。与其他在用框架相比,FEA框架是信息共享方法论,具有以下特点:1)建立了统一、庞大的公共数据目录,通过该目录达到发现数据、寻找数据共享、合作协作的目的;2)给出了信息共享边界,涉及到数字化的所有内容,不只是数字化的结果——信息,还包括过程数据、设备数据、服务数据等,达到了系统组件、接口级别的共享;3)共享的目标,其一是服务于部门和政府间业务决策及目标管理,其二是发现重复建设项目,通过项目压减合并节约政府投资。FEA框架建有庞大的分类体系,以及以业务为核心的数据资产清单,对实践具有极强的指导意义。

1.3 数据中台

数据应用的核心关键是要解决效率和决策问题,参照传统方法开发的信息系统因缺乏数据标准化体系建设,致使数据管理不规范,数据结构不一致,使用率低,不能发挥出数据战略资源的价值。2015年,阿里在总结Super Cell快速扩张经验时,提出数据中台(middle platform)方案,用于解决其内部电商系统迅捷开发布署的应用难题,后因其为多部门、多业务协同应用提供了稳定的技术框架,加快了业务需求响应速度,缩短了业务创新周期,迅速在电力、银行和城市管理的数字化转型、大数据应用中取得突破[8-11]。

数据中台是从业务全局规划出发,通过对传统信息系统前台和后台的彻底解耦,实现企业级数据的共享和复用,类似于DAAS(data as a service)层。它是通过对海量数据统一采集、计算、存储,制定数据管理规范,形成标准化数据,构建数据资产库,通过共享和复用,提供一致、高可用的大数据服务,响应业务敏捷发展需求,促进业务创新。广义的数据中台,还包括长期积累下来与业务有较强关联性的一些技术组件,如业务标签、算法模型、数据产品等[12]。综上,数据中台在顶层规划上要求面向业务全局,实施上要求执行统一数据、统一建模、统一质量、统一服务的建设标准,在强调统一规划的数据治理能力上,具有满足数据共享、复用、响应业务需求三大特点。笔者拟将FEA框架方法编制数据清单用于大气数据资源共享的建设中,同时在方案设计上参照数据中台建设思想,以期达到科研数据共享和复用的目标。

2 结果与讨论

2.1 建立数据共享资源清单

FEA框架方法论的数据资产清单编制路径如图1所示。由图1可见,FEA框架的6个参考模型均有分类体系和目录,在编制数据资产清单时,需要将已有数据资源与各参考模型的分类体系、资源目录进行映射,建立清单目录并注册,完成数据资产共享;另一方面,利用FEA框架的公共数据目录,可以发现数据,开展跨部门、跨系统的数据共享、合作与协作。在编制数据资产清单时,要注意:1)以实现部门或单位规划或战略目标为导向;2)需要从部门的职能和业务需求出发;3)基于当前的可得数据资源和IT基础设施及技术建设现状,编制数据资产清单。

图1 FEA框架中的数据资产清单编制路径Fig.1 Compilation path of data asset list based on FEA Framework

大气环境数据资源共享的目标是对项目产出的多源数据在线集成、统一管理和全面共享。对业务需求分析可知,大气攻关项目5个研究部门——大气重污染来源与成因、排放现状评估和强化管控、综合科学决策支撑、大气污染对人群健康影响以及城市研究部,在研究架构设计上为专题—课题—子课题三级科研体系,包含28个研究方向,对大气重污染三大因素——污染排放、气象条件和区域传输,从污染来源、排放强度、时间分布、行业分布方面开展精细化、定量化研究。与之配套支撑的科研数据资源体系建设和管理极其复杂。因此,采用FEA框架方法论,对数据资源实行域—主题—专题—资源目录管理模式,建立双向的数据共识、发现机制:1)数据生产方知晓科研数据需求,按需提供数据;2)数据使用方能及时找到所需数据入口,申请共享。

在FEA框架方法论中,数据域分为政府域、企业域、指南和自然资源4类。具体到本研究,覆盖政府域的环境科学数据占比最大。根据《科学数据管理办法》定义,科学数据包括通过基础研究、应用研究、试验开发等产生的数据,以及观测监测、考察调查、检验检测等方式取得的数据。科学数据是有智力投入的,其产生是创造性劳动的成果,因此,科学数据拥有版权,而版权属于知识产权的范畴。对科学数据的共享要在知识产权的框架下进行,准确刻画共享边界,制定数据授权框架,以符合遵循分级管理、安全可控、充分利用的数据共享原则。在国家对科学数据管理政策的基础上,原环境保护部发布了《大气重污染成因与治理攻关项目数据管理办法》[13]。为完成大气环境科学数据资源共享,依据该办法,本研究确定了大气环境数据资源共享版权保障体系,该体系包括数据生产方、数据使用方、相关利益方和管理者,以保护共享数据的版权。

为了有效开展并评估数据资源共享,参照FEA方法论,建立动态数据资产清单制度。根据当前的IT及基础设施管理现状,数据资产清单主要是面向科学数据。资产清单的编制依据数据资源目录进行。大气环境数据资源目录包括大气监测观测、污染源排放、气象观测及探空、污染源解析、健康及体检、社会经济、空间数据、基础数据、质控数据、标准规范、模型方法等大类。数据资产清单包括数据资源和共享2个部分,自顶向下分3层:第1层,根据信息系统对数据的分类方法,划为结构化数据和非结构化数据清单;第2层,向资源目录映射,建立主题数据清单;第3层,业务专题数据集清单,动态记录各级资源总量、增量。共享清单通过动态统计数据资源使用情况获得,操作类型包括数据查询、数据导出、接口调用。统计口径包括以上操作的累计次数、数据量(注意结构化数据和非结构化数据单位不同)、数据大小。对数据资源共享进行使用动态排名、使用习惯分析。数据汇交项也是数据资产清单的一部分,该部分包括采集接口及活跃度、FTP上传文件统计等。

FEA框架参考模型为信息化建设提供了通用的、统一的设计模式,具有高度的概括性。在使用该框架时,重点要明确共享绩效考核目标,统领全过程;从建立业务服务模型出发,以提升业务能力为抓手,发现共性数据资源,依托基础设施建设现状,开发标准化的应用组件,实现信息共享。在建模过程中,一是要注意将业务需求与各模型分类进行准确映射,通过映射找到实施的重要节点;二是要认识该框架仍为逻辑模型,指导实践时应根据具体业务或服务进行调整。

2.2 数据标准化

国内信息交换框架偏重系统流程配置、节点管理,数据层面标准化停留在数据库粒度上。FEA框架指出,数据标准化的建设包括数据描述、数据上下文(目录)、数据共享3个部分。在信息共享和交换中,数据元素是最小的信息单位,对数据描述的统一是数据标准化的重要内容。FEA框架面向结构化数据,推荐了UML(统一建模语言)、IDEF1X(ICAM DEFinition method)建模工具;为应对非结构化数据挑战,第二版的FEA框架已被修订面向更宏大的元数据主题,并推荐ISOIEC 11179、Dublin Core(都柏林:元数据系统)两大元数据系统。数据上下文又称目录,是以表、层或树结构组织的术语形式来表达,是为增加对数据理解而提供的附加信息,常用于数据资源分类。通过数据目录,可以让用户发现和查询所需信息,而不需要知道信息在哪里甚至信息是否存在。众多研究表明,数据共享必须通过数据描述和分类的标准化才能实现,FEA框架推荐国家信息交换模型(national information exchange model,NIEM)、信息共享环境构建模块(information sharing environment building blocks)等共享交换框架。数据中台也对数据标准化提出了明确要求,在系统开发与建设过程中执行统一数据、统一建模、统一质量、统一服务的建设标准,最终实现四统一[14]。

依据《大气重污染成因与治理攻关项目数据管理技术规定》[15],参照FEA框架中的相关方法和生态环境信息化建设标准,在大气环境数据资源共享设计中,将标准化框架设计下沉到数据元素,分别对数据元素、数据表、元数据进行建模,以满足重大项目产出的多源异构数据存储和实时交换的要求,实现大气环境数据资源共享。在数据元素模型设计中,主要是数据元素概念和值域2个部分,基于共享交换时二者描述需保持统一和相近。数据模型与业务的关系如图2所示,建立数据模型主要目的是提供业务核心功能可执行跨部门的标准化互操作(如数据交换、建立资源目录等),并且经济上可行。数据模型只强调概念模型和逻辑模型,不涉及到物理模型的具体实现。概念模型聚焦大气环境业务下各级业务流程关联数据的规范,而逻辑模型是在概念模型基础上,包括支持流程和系统更多详细信息。好的数据模型设计应体现端到端设计的原则,较全面反映出同一业务下不同主题域概念模型的特点[16]。元数据建模重点是面向非结构化数据的发现和应用,因此,在建模上要考虑将结构化数据主要特征(如数据质量、数据特征等)的描述映射到非结构化的元数据中,保持二者除存储外的无差别应用。

图2 数据模型Fig.2 Data model

2.3 业务响应能力建设

在进行大气环境数据资源共享建设时,如何用好数据,如何发挥数据资源对科研和决策的支撑作用,是本研究需要考虑的重点问题。在国内信息化建设孤岛、共享困境和业务赋能不足的当下,数据中台为数据业务化应用,实现通用计算、数据复能、自助式服务等业务响应提供了可行的解决方案。因此,遵照数据中台思想,从大气重污染成因的科研核心需求出发,以促进PM2.5精细化管理等垂直业务为抓手,打通数据采集、存储、计算、治理、服务的工作全流程,逐步扩展到全域数据的接入、加工和管理,减少冗余,增加数据资产复用,以快速响应业务需求。

数据中台在建设上也要执行统一数据、统一建模、统一质量、统一服务的建设标准[14]。据《2020中国首席数据官报告》报道,在数据管理遇到的五大主要技术障碍中,多样、海量和复杂的企业级数据质量管理已成为首要技术难题,主要体现在:无有效的数据质量管理方法;无法发现数据所在位置;无法对数据进行分类;数据安全和合规管理;企业级数据统一策略和标准规则的建立。数据中台的标准化不同之处在于:1)强调通过数据治理建立包括数据质量体系在内的标准化体系;2)通过重构业务指标体系建立统一的管理标准,实现统一服务。在组成上,数据中台主要由数据采集、数据存储、数据计算、数据服务、数据应用等组成。在实践中,主要以建立统一数据目录和规范,建立跨部门行业的数据共享交换标准,搭建数据汇集、使用和访问统一口径,实现安全可控。

综合数据中台思想核心和建设目标,在大气环境数据资源共享和建设上,重点面向大气环境数据的统一治理,建立基于系统质控和业务质控联合的数据质控体系,在数据标准化的基础上,执行全流程的数据治理,提供规范化、归一化的数据服务(图3);构建统一的业务指标体系,在数据应用中,主要从KPI(key performance indicator,关键绩效指标)、主题分析、场景分析、驾驶舱等功能的规范化设计来体现。需要说明的是,一般数据中台常采用MPP(massively parallel processing)架构特点的数据库,考虑到大气攻关项目数据的类型、总量、实时计算能力需求、建设和运维成本,采用更易维护的Oracle架构建立数据仓库,进行数据中台建设。

图3 数据治理体系Fig.3 Data governance system

采用数据中台进行物理设计,探索大气环境全域信息组织和同步服务,通过数字化、规范化和场景化应用,整合全域大气环境数据资源,建立大气环境综合数据采集与共享平台,以实现下列目标:1)对项目所有汇交数据资源进行统一管理,实现一站式数据共享;2)面向PM2.5精细化决策,建立大气数据时空关联分析计算能力,提供空气质量达标、多要素联动、污染时空分布等实时业务服务能力,响应数据敏捷化、自动化和场景化的应用。未来将面向业务中台和污染精细化管控需求,继续深化大气平台的能力建设,为打赢大气污染攻坚战提供全面支撑。

3 结论

(1)针对信息共享建设目标,以FEA框架为方法论,对共享数据发现—共享边界刻画—共享绩效评估进行研究,提出了以大气环境精细化管理作为业务方向,围绕精细化、定量化的数据需求,以共享考核为目标,在系统的分类基础上,建立大气环境数据共享资源清单。

(2)基于科学数据的版权保护,探索数据共享权限边界,建立包括数据生产方、使用方、相关利益方和管理者等在内的数据共享共识机制,实现科研数据权限分级管理和使用。

(3)在数据共享的标准化建设中,将标准化框架设计下沉到数据元素,分别对数据元素、数据表、元数据进行建模,以满足重大项目产出的多源异构数据存储和实时交换的要求。

(4)依据数据中台思想,全面建立数据治理体系、管理标准体系,依据PM2.5精细化管理和空气质量考核,建立大气综合数据时空关联分析计算能力,提供空气质量达标、多要素联动、污染时空分析等实时业务服务能力。

猜你喜欢
资源共享统一框架
交通运输数据资源共享交换体系探究与实现
有机框架材料的后合成交换
框架
坚持严管和厚爱相统一的着力点
福建省交通运输信息资源共享平台
碑和帖的统一,心和形的统一,人和艺的统一
人力资源共享服务模式研究
针对大数据背景下工程造价信息的资源共享
统一数量再比较
关于原点对称的不规则Gabor框架的构造