王世海
摘要:分析了辽宁省环境数据现状,通过环境数据中心建设,将环境业务数据库进行集中存放,并对环境数据进行清理,有效整合,定义了统一的环境信息数据标准。集成了数据中心、数据交换平台、数据共享平台、数据管理平台和数据分析平台,为环境业务系统提供数据服务。
关键词:环境数据中心;数据标准;数据服务
中图分类号:X3
文献标识码:A 文章编号:16749944(2014)06021403
1 引言
随着环境问题的日益突出,社会公众对环境质量诉求不断提高,环境保护部门对于环境监管的手段在不断创新,环境业务系统的建设,为环境监管提供了有力支持。但是自成体系的业务系统,互不关联的数据库,造成了“数据孤岛”现象非常突出,缺乏统一的数据标准使得数据整合极其困难。
辽宁省环境数据中心是基于现有的软硬件和网络环境构建对环境数据资源进行集中、清理、分析、共享和挖掘的数据管理中心,可有效解决环境“数据孤岛”问题,提高环境数据的综合价值,为辽宁省环境监管和决策,提供有效的数据支撑。
2 环境数据中心设计
数据中心体系结构包括6层次和3个体系,6个层次为:基础设施层、数据源层、数据层、业务支撑层、逻辑层和访问层;3个体系为:信息资源标准体系、安全管理体系和运维管理体系(图1)。数据中心系统各部分具体描述如下。
图1 数据中心总体架构设计
2.1 基础设施层
基础设施层包括环境信息数据中心平台系统的网络环境、网络中平台所涉及到的软硬件环境,以及依赖于这些软硬件环境的监测系统。
2.2 数据源层
数据源层包括本项目所有蕴含的业务数据,数据源层中各个部分数据存储在各个部门的各个系统中,通过数据交换平台,将各个系统的数据传输到数据中心。具体包括:污染源数据、环境质量数据、核与辐射数据、应急管理数据、生态环境数据、机动车尾气检测数据、环统数据、污普数据、总量减排数据、环境空间数据和非结构化数据。
2.3 数据层
数据层由加工存储区、数据交换区和数据操作区组成。
(1)数据存储区:主要包括元数据库、主数据库、分类及代码数据库、空间数据库、整合库、主题库和分析库。
(2)数据操作区:主要通过ETL技术,将数据源层的数据进行抽取、转换、审核和加载。
(3)数据交换区:通过数据交换总线,将各部门、各业务系统的数据,加载到数据层加工存储区进行存储。
2.4 业务支撑层
业务支撑层由3部分组成:公共服务层、业务服务层和数据管理层。
(1)公共服务层:通过企业服务总线向外提供的日志服务、空间服务、数据共享服务、事务服务、报表服务、查询服务和其它服务。
(2)业务服务层:主要包括主题分析、综合分析、灵活查询、趋势预警、辅助决策、环境监测管理、指标查询、告警管理、报表报告管理、日志管理、权限管理和系统管理服务,对于新业务的扩展和新功能的提供,都可以通过业务服务层的封装而提供。这一部分的内容,既提供给平台业务层调用,也支持其它系统通过规定的方式访问。
(3)数据管理层:实现了对数据管理功能的封装,通过调用数据管理层中的功能对外提供数据操作能力。这些功能包括:数据模型管理、主数据管理、元数据管理、资源分类及代码管理、数据质量管理、备份管理。
2.5 逻辑层
逻辑层以业务的视角归集了系统中的业务功能,把业务上相互联系紧密,有直接关系的功能组合在一起,形成有业务意义的业务模块,提供给用户或其他系统,通过Web或服务接口使用这些功能。逻辑层在实现自身功能的时候,需要调用业务支撑层中的各种服务和操作。以SOA的架构,将业务支撑层中所提供的内容组合成对用户或其他系统有意义的功能。用户和外部系统可以通过Web界面或Web Service的方式访问业务逻辑层的功能。而在经过逻辑层SOA整合后,逻辑层对其以下的业务支持层和更低层功能(如:系统和网络监控)的访问,均以Web Service方式为基础,在Web Service确实无法满足要求的时候(如:传输效率和处理性能的要求),才可以考虑以其他透明、公开的协议和方式访问更基础的功能。
2.6 访问层
提供给辽宁省环境保护厅用户的用户访问界面,包括:应用门户、移动终端和智能手机。可通过统一身份认证,将各个应用系统进行集成,不需反复登录即可访问全部分配的系统功能。
2.7 信息资源标准体系
信息资源标准体系主要包括环境信息分类和编码、环境信息传输与交换、数据质量控制等技术规范以及数据资源共享、应用服务、运行维护、数据更新等管理办法的制定与执行。
2.8 运维管理体系
环境信息数据中心项目建设完成后的对系统的运行维护保障策略、人力资源与管理制度等。
2.9 安全管理体系
环境信息数据中心项目中建设的信息安全系统主要包括保证系统的安全策略、安全设备产品、人力资源与安全管理制度等。
3 环境数据中心建设
3.1 环境信息数据中心
按照业务逻辑和系统功能进行层次划分为数据源层、数据采集层、数据整合层、数据主题层、数据分析层(图2)。
3.1.1 数据源层
数据源层主要指现有和将要建设的各个业务系统的数据源信息,主要包括污染源自动监控数据源、环境统计数据源、排污申报收费数据源、建设项目管理数据源、总量减排数据源、污染源普查数据源、水环境质量数据源、空气质量数据源、噪声环境质量数据源、辐射环境质量数据源、水专项数据源和非结构化数据。
3.1.2 数据采集层endprint
数据采集层主要包括结构化数据采集和非结构化数据采集模块,及临时数据交换区。
3.1.3 整合层
整合层由生产数据存储区、空间数据存储区和元数据存储区组成。
3.1.4 主题层
主题层按照主题进行数据划分,主要包括数字环保主题域和水专项主题域。其中数字环保主题域划分为环境质量子主题域、污染源子主题域和总量控制子主题域,水专项主题域划分为环境应急子主题域、M2M子主题域和水环境子主题域。
3.1.5 分析层
分析层包含环境质量分析、污染源分析、多维耦合分析和水专项专题分析4大主题和公共维度。
3.2 数据库分析
建立综合分析管理模块,从业务角度划分,构建了针对污染源建立的分析模型、针对环境质量建立的分析模型、针对污染源与环境质量关系建立的分析模型、针对水专项建立的分析模型。
通过建立分析模型,按照数据仓库和挖掘技术进行建模,按照层次进行数据整合、沉淀和汇总。将数据从源业务系统数据库同步到采集层数据交换区中,此时的数据结构与源业务系统数据结构一致,首次存储全业务数据,之后,每个周期只存储周期数据。
ETL系统通过数据清洗与质量审核管理设定的清洗、转换规则和审核流程,将数据交换区中的增量数据ETL到整合层生产数据存储区进行存储,生产数据存储区中的数据按照业务主体进行划分。数据进入整合层后,数据已经完成清洗和转换,可通过数据共享服务,为外界提供数据服务。
数据进入整合层后,完成了数据清洗和转换,通过ETL系统将数据进行加工,按照分析主题,将数据存储到主题层中,其中主题层中主题数据区用于存放按分析主题进行划分和加工的分析数据,代码数据区用于存放关联的代码,此部分内容将在分析层中转化为分析维度进行存储和使用。
数据进入主题层后,此刻的数据已经是按照分析主题进行存储,为分析层数据加工和钻取做准备,根据系统建设要求,按照时间和空间进行粒度划分。根据各个部门对分析的需求,按照各个部门的要求划分不同的集市,这些集市存储在分析层中,为不同的部门提供不同的分析和钻取数据,在此层中,参照数据仓库设计理论,按照维度建模理论,进行维度建模,通过不同维度进行钻取。
3.3 数据挖掘
通过构建复杂的分析模型,通过抽取、加工、转化、清洗、展现等数据挖掘工具对环境数据进行挖掘。在该系统中数据挖掘与数据仓库技术进行有效的结合,简化了数据挖掘的步骤,并且获取到最全面的数据信息。数据挖掘工具提供数据分析、数据操纵和报表展现的能力,它具有可扩展性、互操作性、易管理性和可用性,增强数据中心的信息智能管理,为辅助决策提供数据支持。
4 辽宁省环境数据中心现状与展望
4.1 现状
目前辽宁省环境数据中心,采用了虚拟化、数据仓库、ETL、BI等先进的技术,实现了多部门多样化数据集中和共享,整合环保厅20多个业务部门的30多项业务,涵盖了辽宁省14个地市79个AQI空气监测站、108个水质手工监测断面、24个水质自动监测站、76个机动车检测场和7个核辐射监测站近100项监测指标和监测信息;收纳了8万家左右污染源普查企业,6339家工业污染源,包含国控污染源495家;收纳了全省103个自然保护区信息、21个生态市县及205个生态乡镇建设信息,实现了数据实时更新和发布。
辽宁省环境数据中心共建设1500余张数据表,24个分业务模型,近300个ETL作业,每小时数据流入量超20万,外部业务系统访问10个,数据视图和WEBSERVICE数据共享接口共400多个。初步形成了囊括省级环保部门全业务的智能化数据中心,建设了污染源、环境质量和环境管理三大业务主题。
4.2 展望
本文主要针对辽宁省环境数据中心建设进行分析,目前环境数据中心已经实现对数据进行集成,但缺乏有效的整合,需要数据中心进一步建设,主要建设内容如下。
(1)对环境数据中心基本信息进行整合。数据中心现有的环境基本信息数据因为数据源的不同存在很大差别,不满足数据统一要求。在对业务提供数据支持时,存在很多问题,需要创建标准库,对基础数据进行有效整合,通过统一的数据接口,为业务系统提供数据服务。
(2)针对大数据进行数据扩展。随着环保信息化的发展,越来越多的环境数据需要采集,其中包含了大量的非结构化数据,包括文档、音频、视频信息,并且要求省环境数据中心同环保部以及地市环境数据进行共享与交换,对于数据实时性提出更高要求,需要环境数据中心在现有的数据仓库基础上针对大数据提供扩展。
(3)对数据深入挖掘,提供辅助决策。数据挖掘是数据中心的核心功能,也是数据中心体现数据价值的关键,在业务需求的推动下,环境数据中心要对环境数据深入挖掘,为辽宁省环境信息化、数字化、智能化和立体化管理提供有效支持,为污染减排、污染防治和生态治理提供有效的数据支撑。
参考文献:
[1] 李 顺,徐富春,王利强,等.国家环境数据共享与服务体系研究[J].中国环境管理,2011(2).
[2] 王杰芳.给予环境信息基础数据库的综合业务系统平台[J].环境科学与技术,2006(12).
[3] 钱 虹.关于建立环境数据中心的思考[J].江苏环境科技,2003(2).
[4] 刘小茜.月计算数据中心结构及调度机制研究[D].合肥:中国科学技术大学,2011.
Discussion of Establishing Environmental Data Center in Liaoning Province
Wang Shihai
(Liaoning Environmental Monitoring and Control Center, Shenyang 110161, China
)
Abstract: This article analyzes the present environment information of Liaoning Province, and discusses the establishment of environmental data center. Accordingly, the environment database can be stored centrally, and the environmental data can be cleaned up and integrated effectively, so uniform standards for environmental data can be defined. The center integrates with data storage and platforms for exchange, sharing, management and analysis, in order to provide data service for environmental application systems.
Key words: environment data center; data standard; data serviceendprint