污染源监督性监测数据元的构建研究

2014-04-25 03:48毛炳启汪先锋
中国环境监测 2014年3期
关键词:值域监测数据污染源

毛炳启,汪先锋

山东省环境信息与监控中心,山东济南250101

20世纪80年代以来,中国的环保部门已经积累了大量污染源数据,然而多数污染源数据分散于各部门,大多以文档、原始数据的方式存在,没有统一的数据元标准,也缺乏应有的处理和加工,难以进行共享和应用。另一方面,环境管理业务涉及环境统计、排污申报、排污收费、监督性监测、在线监测等多个方面,导致有些不同的业务部门所管理的对象存在不同程度的重叠,但对应的信息资源系统却相互独立,造成系统内数出多门,一数多源或一源多数,相互矛盾的事情时有发生。同时,随着全社会对环境问题的日益关注,社会各部门和公众对环境数据共享与服务的需求也越来越迫切,要求也越来越高。污染源监督性监测作为污染源数据资源的重要组成部分,不可避免地需与环境统计、排污申报、排污收费、在线监测等环境业务数据进行数据交换和数据共享。因此,必须建立一套污染源监督性监测数据元技术标准,一方面用于指导污染源监督性监测业务系统的建立,另一方面确保系统之间的环境数据能够顺畅地交换与共享,以保证数据资源的充分利用,避免信息孤岛的出现。

1 研究现状

元数据被称为关于数据的数据,是对数据资源的规范化描述,不仅能起到描述数据的作用,而且起到管理数据的作用。鉴于此,使用元数据技术来统一管理分散的数据资源,并通过网络实现数据的共享和服务这一模式得到了普遍的重视[1]。

中国在环境信息数据的研究与收集方面开展得比国际稍晚,水平也存在一定的差距。但近年来也取得了比较大的进步,环境保护部于2007年先后出台了《环境信息分类与代码》(HJ/T 417—2007)和《环境数据库设计与运行管理规范》(HJ/T 419—2007),这些标准对污染源监督性监测数据元的构建研究提供了理论指导和研究框架。2009年以后,环境信息化建设和数据标准研究力度加大,在环境保护部出台的《国家环境信息化2009—2015年规划》中,国家环境信息标准规范体系建设被作为基础保障体系建设的重点项目之一。2007年环境保护部根据国务院提出的建立和完善污染减排“三大体系”,提出了开展国控重点污染源自动监控项目建设、污染源监督性监测项目建设、环境监察执法项目建设和环境信息与统计能力项目建设“四个能力”建设项目[2]。2009年国家环境信息与统计能力建设项目全面启动,该项目包括制定27项与减排工作有关信息化标准与技术规范,其中,《污染源监督性监测数据元技术规定》是27项标准之一,是国家层面上的环境保护行业内的数据规范。为此,该课题组承担并开展了《污染源监督性监测数据元技术规定》的前期研究和编制工作。课题组针对污染源监督性监测业务需求的调研,查阅了大量的国际、国内相关方面的最新研究成果和相关资料,对数据统一管理和环境管理对数据的应用进行了分析,在此基础上,依据国家相关数据元的标准规范,对污染源监督性监测数据元构建进行了研究,确定了技术规定编制的原则、方法和技术路线,提出了污染源监督性监测数据元的目录,规范了其表达格式和维护与管理要求,为《污染源监督性监测数据元技术规定》编制奠定了基础。该技术规定适用于污染源监督性监测数据库和减排综合数据库的建库、维护和更新。《污染源监督性监测数据元技术规定》遵从国家环境保护工作要求的先进技术研究,符合国家标准规范体系建立的需求,能够为中国的环境保护发展提供助力。

2 污染源监督性监测数据元构建过程

污染源监督性监测数据元是指污染源监督性监测业务中涉及的所有数据单元,污染源监督性监测数据元的概念和结构遵循一般数据元的概念和结构,是通用数据元的一个子集,但具有自身的特点。与其他数据元技术规定的区别主要在于它的业务特性和数据用途,因此其在数据集、标识符、数据格式、值域等数据元的表达方式上有所不同。

污染源监督性监测数据元就是采用相关的元数据来描述数据元的属性。这些元数据帮助用户理解和使用污染源监督性监测数据元。污染源监督性监测数据元是一个通过业务调研、数据元提取、数据元分类、数据元的表达,最终形成污染监督性监测数据元的过程。

2.1 业务调研

全面调研污染源监督性监测业务情况,广泛搜集与污染源监督性监测业务相关的资料,包括已有的相关数据标准、业务信息系统设计文档、业务数据库设计文档(数据模型、数据字典)等,对业务数据进行分析,建立数据实体-关系模型,明确该业务数据所包含的数据实体及其属性。同时,对调研资料进行系统分析,结合污染源监督性监测业务需求和环保能力建设项目管理要求,确定业务数据范围。

通过对污染源监督性监测数据元进行详细调研后,按照污染源监督性监测的业务领域,得出了不同子业务信息划分数据集,详见表1。

表1 污染源监督性监测数据集列表

2.2 数据元提取

分析污染源监督性监测业务数据,梳理已有的数据标准或业务信息系统设计文档、业务数据库设计文档、数据模型,提取数据字段,并进行筛选、排重,分别整理形成数据元列表。

2.2.1 筛选

对数据字段进行筛选,排除部分为数据库设计和系统建设而增加的数据字段,保留属于业务数据范畴的数据字段。

2.2.2 排重

对重复的数据字段进行分析和判断,名称、语义完全一致的可作为一个数据元;名称一致但语义不一致的则应分别定义为不同的数据元。

对于污染源监督性监测业务数据,其较为复杂,可首先进行分类,再进一步划分数据类别,并按照此分类对数据元进行分类;对于各类数据元再进一步分析,可提炼出各类业务数据共同使用的数据元,即公共数据元[3]。

2.3 数据元分类

数据元的分类至少可以通过2种途径实现,较为理想但非常麻烦的方法是,首先形成一个包括所有可能数据元的完备分类,然后将数据元放入事先定义好的分类中[4]。然而,最为实用的方法是,先形成一个基本的而相对较为简单的分类,数据元根据分类放入事先定义好的分类中,对于新加的数据元,允许其在使用严格规则的情况下逐渐完善。

根据以上业务领域分析,实现污染源监督性监测数据元分类,详见图1。

图1 污染源监督性监测数据元分类图

根据以上对数据元的分类,污染源监督性监 测各类数据元的描述举例如表2所示。

表2 污染源监督性监测数据元内容列表(部分)

2.4 数据元的表达

数据元是通过一系列的属性进行描述和定义的,这些属性反映了数据元的基本特征。污染源监督性监测数据元采用下列属性进行描述。

2.4.1 中文名称

数据元中文名称是赋予数据元的单个或多个中文字词的唯一指称。数据元的中文名称应是唯一的,应尽量采用环保业务已有名称或环保行业习惯用语,方便数据元的使用。

数据元命名一般使用一个词语,要求用词精准,能够准确传达要表示的含义。

2.4.2 短名

数据元的短名采用数据元中文名称的首字母缩拼,当遇到无法避免的重复短名时,应采用数据元中文名称的首汉字全拼加剩余汉字首字母组合的附加规则,以此类推,直至短名无重复。若遇到数据元中文名称中带有阿拉伯数字的,其短名命名中直接采用该阿拉伯数字,短名长度不得超过30个字符。

2.4.3 数据元定义

数据元定义为表达一个数据元的本质特征并使其区别于所有其他数据元的陈述。

数据元的定义应具有唯一性,定义中所表述的一个或多个特性必须使被定义的概念与其他概念相区别。数据元的定义要阐述其概念是什么,而不是阐述其概念不是什么。必须使用短语来形成包含概念的基本特性的准确定义。不能简单地陈述一个或几个同义词,也不能以不同的顺序简单地重复这些名称。如果一个描述性短语不够,则应使用完整的、语法正确的句子。所有简称在第一次出现时,必须予以说明。

2.4.4 数据格式

从业务的角度规定的数据元值的格式要求,包括所允许的最大和/或最小字符长度、数据元值的表示格式等。数据元数据格式具体表示见表3。

表3 数据元数据格式

例1:a10表示定长为10的字母字符;

例2:n5表示定长为5的数字字符;

例3:n..20,2表示最长20个数字字符,小数点后2位。

2.4.5 值域

数据元的值域是指数据元属性的表示形式,数据元通常有一个允许值的集合,这个允许值的集合被称之为值域。

数据元的值域定义存在以下3种情况:

1)描述数据格式

数据元值域取值可以用描述数据格式的形式表示,如:定长为10的字母字符。

2)引用国标

当有国标可以引用时则引用国标,如:《数据元和交换格式信息交换日期和时间表示法》(GB/T 7408—94)中对于时间表示法的规定。

3)代码表

数据元的值域是一个由所有允许值组成的列表,即代码表。用代码表表示数据元的值域须遵照以下原则:已有国家、行业标准且完全满足需求的,直接采标;已有国家、行业标准且不能完全满足需求的,采标并进行修订;没有国家、行业标准的,需要按照国家分类编码的相关规范,制定相应的代码标准。

2.4.6 计量单位

属于数值型的数据元值的计量单位。例如:“监测点温度”数据元的计量单位就是“摄氏度”。

2.4.7 备注

数据元的附加注释,描述在上述属性未能描述的其他内容。

2.5 污染源监督性监测数据元

污染源监督性监测数据元是根据污染源监督性监测业务数据情况制定的环境业务数据元,通过业务调研、资料分析,提取数据元,根据已分类的数据元,将数据元归入适当的分类中,并采用数据元的表达格式进行描述,形成污染源监督性监测数据元。

例如,对于数据元“废水类型代码”,可划分到废水产生数据元分类中,其数据元表示如下:

中文名称:废水类型代码

短名:fslxdm

定义:表示废水类型的一组数字

数据格式:n..5

值域:见《废水类别代码(试行)》(HJ 520—2009)中的代码

计量单位:无备注:无

3 结论

构建污染源监督性监测数据元,可以有效支持各级环境保护部门对污染源的监督性监测工作,也是建立污染源监督性监测数据库的重要基础和依据,并可用于指导数据库的建设、更新和维护,以发挥信息化建设的综合效益。通过污染源监督性监测数据元的构建,建立监测数据共享和应用的长效机制,实现对污染源监督性监测信息统一、集中、规范的管理以及方便、快捷的交换共享,从而为各级环保部门加强污染源监管和政府决策提供强有力的技术支持。

[1]周波,钱鹏.我国科学数据元数据研究综述[J].图书馆学研究,2013(2):7-10.

[2]汪先锋,张丽丽.《污染源监督性监测数据元技术规定》编制研究[C]∥中国环境科学学会学术年会论文集(2011):第4卷.北京:中国环境科学出版社,2011:3 136-3 139.

[3]GB/T 19488.2—2008 公共数据元目录[S].

[4]GB/T 19488.1—2004 设计和管理规范[S].

[5]GB/T 18391.1—2002 数据元的规范与标准化[S].

猜你喜欢
值域监测数据污染源
函数的值域与最值
气相色谱法测定固定污染源有组织废气中的苯系物
函数的值域与最值
持续推进固定污染源排污许可管理全覆盖
GSM-R接口监测数据精确地理化方法及应用
值域求解——一个“少”字了得
破解函数值域的十招
十二五”期间佳木斯市污染源排放状况分析
青海省人民政府关于做好第二次全国污染源普查的通知 青政〔2017〕23号
GPS异常监测数据的关联负选择分步识别算法