倪 永,安国安,周 磊,梁 念
1.中国环境监测总站,国家环境保护环境监测质量控制重点实验室,北京 100012 2.中国科学院地理科学与资源研究所,北京 100101 3.河南省环境监测中心,河南 郑州 450004
环境监测点位是开展环境监测活动的基本单元,是发挥环境监测为环境管理服务作用的基础[1]。环境监测点位编码是监测点位的唯一标识,对于环境监测点位信息的维护、环境监测数据的传输与管理、环境质量综合评价有重要作用。环境监测工作具有涵盖环境要素多、覆盖国土面积广、时间跨度久、数据量大等特点[2]。随着环境保护事业不断发展,环境管理的精细化、专业化对数据的管理、交换、共享需求越来越高。编码是进行信息分类、校核、汇总及检索的键。利用键来识别每一条记录,克服被编码对象参差不齐的特点,优秀的编码能够显著提高数据检索和处理速度[3]。不同时期,环境监测任务会随着环境管理目标的改变而调整、变化。大数据时代已经来临,数据挖掘、人工智能、云计算等技术发展如火如荼,人们对环境问题的关注度越来越高,亟需对生态环境数据展开深入地挖掘分析与应用。科学合理的编码能够有效地满足不同环境管理专题工作的需要,因此建立健全监测点位的编码信息是一项非常重要的基础性工作。笔者分析了环境监测点位编码管理中存在的问题,在此基础上构建了一种简单“组合校验码”模型,同时基于该模型设计了一套编码管理系统,该系统能充分覆盖各层级环境监测机构、各种环境要素类型,具有适应市场化监测服务、满足不同点位管控类别等特点,作为环境监测数据管理的基础,能有效解决环境监测数据集成程度低、共享困难等问题。
多年来,在中国环境监测领域,环境监测点位编码管理意识不强、对完善环境监测信息标准化工作重视程度不足[4]以及投入不够等问题一直存在。总结起来,主要涉及3个方面。
1) 缺乏全国统一的编码体系。编码尚未标准化、制度化,编码规则不规范,编码含义千差万别。具体表现为各地区、各机构、各环境要素之间编码重复。一套系统一种编码,编码规则制定较随意,缺乏系统性、持续性。即使同一单位内部也可能存在多套编码的情况,不同时期编码规则的继承性较差,“单种业务可信息化,多种业务综合须手工化”现象屡见不鲜。这些问题导致跨地区、跨部门、跨环境要素间数据难以整合,严重阻碍了环境监测数据与其他环境管理数据、气象数据、社会经济数据等资源的多元化分析,导致“数据闲置”。
2) 编码携带信息量较少。最常见的编码形式是只记录行政区划、流水号或时间,编码信息匮乏导致必须辅以其他信息才能准确描述监测点位。以土壤或水质野外采集作业为例,样品标签面积小且格式固定,除了编码信息、样品类型、采样时间外,难以有更多空间记录其他信息,这给野外数据采集作业带来不少麻烦。
3) 编码管理较为简单、粗放。重视程度不够导致监测数据编码信息完整度不高,有些监测点位没有编码或编码丢失,甚至不同历史时期数据无法关联,影响历史数据的快速统计分析。
导致上述问题的主要原因有3个:①缺乏全国统一的编码管理规范和业务模式;②缺少统一的、专业的信息化系统支撑,编码管理的规则、流程、制度等需要固化到软件系统中才能被严格执行;③各地区信息化建设水平存在差异,各级环境监测机构的信息化管理模式又各不相同,数据管理、系统架构、业务应用、运维模式上的差异也制约着全国范围内编码的管理,继而影响到监测数据的联网整合。
笔者通过设计一种简单灵活的编码模型和编码管理系统来充分展现编码在环境监测中的基础作用。
环境监测按环境要素区分主要包括空气质量监测、水环境质量监测、噪声监测、土壤监测、生态监测、海水质量监测等;从监测数据采集方式上又可分为常规监测、自动站监测、应急监测、执法监测等;从数据属性上又分为国控、省控、市控等。其中按环境要素区分又可进一步划分为多个子类型监测对象(如水环境质量监测又分为河流监测、湖库监测、地表水饮用水源地监测、地下水监测等)。相应的,环境监测点位根据监测对象、监测任务、权属的不同也有不同划分办法。监测点位管理离不开编码管理,编码管理是规范和管理环境监测点位的有效手段。监测点位的编码设计应该充分考虑监测对象的复杂性和监测任务的多样性。点位的管理要注重编码和点位属性信息的耦合:①两者配合使用才能完整描述点位对象信息;②编码必须是关键性强、信息简明短小的属性,信息量大、动态变化的属性要放在属性表进行维护。 点位的编码管理要充分适应点位生命周期管理的需要。
1) 科学性。编码的制定要遵循现有的国家标准或行业标准。现有标准中没有明确约定的,要根据编码的用途、业务需求以及相关经验来科学地制定编码规则。
2) 唯一性。一个点位只能有一个编码,根据一个编码能唯一确定一个点位。点位撤销后相应的编码也废止,不得重新赋予其他监测点位。
3) 稳定性。固定的编码信息可以方便确定唯一的点位,一经确定,应保持不变,避免引发管理上的混乱。
4) 简明性。编码不宜过长,要方便阅读和机器识别,允许通过阅读编码识别出较多信息,编码应是最关键信息的载体。必须要注意,编码不可能覆盖所有信息,编码以外的信息需要用其他属性字段来记录。
5) 规范性。编码的类型、结构以及编写格式应统一。
6) 可扩展性。编码要留有适当的后备容量,以适应不断扩充的需要。编码规则是可变的,但新规则要对旧规则兼容。新规则实施后应不影响旧规则制定的原编码的正常使用。
根据编码的设计原则,笔者设计出一种17位纯数字组合码结构的编码模型,即“组合校验码”(图1),该编码方式严格遵循已颁布的环境噪声点位编码规则,同时又兼顾到其他环境要素监测点位的需求。“组合校验码”一旦生成终身不变,用于唯一确定一个监测点位,就像身份证号与人终身相随一样,当点位被撤销后,该点位对应的编码将不再使用。
图1 “组合校验码”编码模型Fig.1 Combination-check code model
“组合校验码”编码模型针对监测点位的环境要素类型、控制类别、所在行政区划等3个主要特性进行编码。点位编码在查询检索中不会被作为分类分组依据,而是作为主键唯一区分监测点位实体对象。环境要素类型用于区分点位用途和功能定位。控制类别是为了有效区分点位的管理者,不同控制类别会产生诸如点位监测数据的审核方式、是否纳入考核体系等的不同,如国控地表水水质考核断面数据用于对省级行政区域内水环境保护工作的考核评价。行政区划信息参与编码是因为能有效适应当前监测点位按行政区划管理的实际情况。环境要素类型又进一步区分为主类型和子类型2个部分。主类型代表空气、水、海洋、生态、噪声等主要环境要素;子类型是根据监测对象对环境要素的细化,是对主类型的细分,也可以指代监测项目(如城市空气质量小时报、空气质量日报、背景站、区域站、地表水、饮用水、近岸海域海水质量、城市功能区噪声、城市道路噪声等)。考虑到对环境噪声监测点位编码规则的支持[6],主类型和子类型所在码段没有连接在一起,而是主类型码段放在最前面,子类型码段在行政区划码段之后。控制类别码段用于记录国控、省控、市控等管控属性。行政区划码段执行现有行政区划代码标准[7],从省到县共6位数字。顺序码码段用于区分具体监测点位实体对象,顺序码的赋码方式选择增量是1的自动递增赋码法,顺序码长度为4,能充分满足行政区划内对监测点位数量的要求。自定义区码段是允许不同层级的点位编码管理单位根据自身业务将重点信息优先写入编码,体现了编码设计的灵活性。对于监测点位所在行政区划变更的情况,在监测点位生命周期内依旧使用原编码信息,但是在点位属性表里其所在行政区划的内容会发生变更。校验码采用最常用的《信息技术 安全技术 校验字符系统》(GB/T 17710—2008)中ISO/IEC 7064 MOD 11-2标准[8],用于防止对点位编码录入时出现典型的字符串复制和键入错误。
以城市空气质量小时报的自动站监测奥体中心点位为例,按照“组合校验码”编码模型的规定,假定环境要素主类型1表示空气,子类型01表示城市空气质量小时报业务,奥体中心监测点属于国控点位,控制类别是1,顺序码赋值为0001,奥体中心所在朝阳区的行政代码是110105,自定义内容为空(00),那么它的点位编码的前16位是1111010501000100。根据ISO/IEC 7064 MOD 11-2标准,校验码为X,最终点位编码为1111010501000100X。
“组合校验码”模型综合考虑了各类环境监测点位、监测样品等编码工作的需要,优点在于整体上更加适合各类环境监测数据的采集、管理、综合分析与评价,不足之处是对于某些特定类型的环境对象可能不是最好的(如样品标识中通常会加入时间信息,地表水水质监测采样中会选择加入流域信息等)。
总体来说“组合校验码”模型编码具有4个特点:① 普适性强,对所有类别环境要素具有较为系统性、全面性、普适性编码能力,是全国环境监测数据的“编码之网”;②简单易学,非常利于计算机识别、校验和人工解读;③关键信息突出,充分借鉴了传统的自然行政区+顺序码+要素类型的编码方法,继承了传统的地域化编码思想,考虑了地方自定义需求,随着监测点位越来越多,点位布局也逐渐复杂,尤其是全国范围内,有成千上万个点位,对于国家层级、省级以及环境监测市场化之后跨区域服务的社会监测机构工作人员来说很难对每个点位情况了如指掌,此时借助该编码模型能够快速识别关键信息,提高工作效率,加快信息的共享与互换;④支持建立符合 “自上而下”管理特性的强约束关系,上至中国环境监测总站,下至地方县级环境监测站,都能够在统一的点位“码空间”中拥有自己的编码子空间,该编码子空间由上级授予,允许对本级管理的点位进行规范化、密集化编码,从而支持各级监测站在纵向、横向2个维度内实现自由、无缝的数据交换。
监测点位编码的申请、校验、更新和颁发工作必须依靠一套完善的编码管理制度和信息系统来实现。编码管理要与监测点位的生命周期相适应。图2展示了编码依托编码管理系统在监测点位生命周期内的定位与交互过程。
图2 环境监测点位生命周期中的编码管理Fig.2 Code management in the lifetime of environmental monitoring site
新的环境监测点位在设立时需要被赋予一个新的编码,实现在计算机中唯一代表该实体对象。点位的生命周期包含5个过程:“设立申请”“信息审核”“申请编码”“点位使用”和“点位撤销”。其中,只有“申请编码”“点位使用”“点位撤销”3个阶段才与编码管理系统进行通信,分别完成编码申请、管理方式变更、停用等交互过程。新点位在“申请编码”阶段按照其控制类别向相应层级监测站申请颁发编码。“点位使用”过程中可能因点位管理需要会变更点位属性信息“行政区划”或“控制类别”,此时点位信息的变更会触发编码管理系统对编码的管理方式进行强制变更,变更过程中点位的编码不变。假设由于行政区划调整,某点位从A市转到B市,原来具备该点位编码管理权的A市环境监测站负责变更点位行政区划信息,该类信息变更触发编码管理系统将该点位编码进入移交业务流程,转交给B市环境监测站来审核,由B市环境监测站接受其进入该市点位编码目录中(关于编码目录的描述可参见3.3节),此时编码的管理权由A市环境监测站移交给B市环境监测站。后续的数据交换系统完成将此点位的历史监测数据由A市也移交或复制到B市。“点位撤销”后其相应点位编码永久存储在编码目录中,状态会被标记为停用,不会被删除,也不会被再度启用。
编码管理系统必须严格执行“组合校验码”模型的编码规则。编码规则允许不同层级环境监测站进行自定义设置,主要表现在自定义区码段,自定义区码段为2位数字字符,需要制定者进行合理规划。编码规则可区分为总规则、国家级规则、省级规则、地市级规则等。总规则即组合校验码模型的基本规则;国家级规则根据国家环境监测点位编码管理需要进行设置,其他各级环境监测站按相应区域管理情况自行设置,上一级编码规则为下一级编码规则的设定提供参考依据,而非强制下一级必须与上级规则相适应。需要指出的是,各级规则必须严格继承编码总规则的要求。
编码的环境要素类型、控制类别的种类由中国环境监测总站按照现有国家标准和工作经验统一制定。
一个监测站管理的所有点位编码和编码元信息聚在一起形成一套编码目录。编码元信息包括但不限于“行政区划”“控制类别”,用于保证点位编码的准确使用。 “国家控制或考核”编码目录负责记录“国家控制或考核”的点位编码信息,相应的,拥有设点权利的不同层级监测站均有各自的点位编码目录。
不同层级甚至相同层级的环境监测站之间因委托运维、监测数据上传、共享等需求通常要交换编码目录。因环境监测管理需要,尤其是在当前地方环境监测事权上收、全国互联互通的管理形势下,中国环境监测总站不仅要掌握国控点位编码,还要了解非国控点位编码信息。省级环境监测站要获取该省的国控点位编码分目录,掌握省控点位编码目录,向市级环境监测站下发省控点位分市目录,查阅其他省级环境监测站点位编码目录。其他层级情况类似。编码目录的交换原则是上级监测站向下级监测站分发上级监测站的编码分目录,本级监测站可对下级监测站的访问授权继承后并授给上级监测站,同级监测站可以相互授权订阅对方编码目录。考虑到不同层级编码目录维护的复杂情况,约定订阅的编码目录只是目标编码目录某个时期的快照,当需要最新的编码目录时,需要重新发出订阅请求。
系统目标是实现基于“组合校验码”模型来支持当前编码管理的需要,保证编码使用过程中没有重复赋码、随意编码的情况。考虑到编码管理系统建设时的统一性、规范性以及成本节约上的要求,环境监测点位编码管理系统能充分满足当前国家-省级-地市级-县级四级管理需要。物理部署上选择一套软件多处部署安装的方式(图 3),部署在不同层次环境监测站的软件间没有功能和结构上的差异,只是定位有别。部署后各层级应用间采用Web Service方式进行编码交换和通信,下级监测站向上级监测站进行注册后,其编码管理系统才能正式启用。
图3 编码管理系统部署方式Fig.3 The deployment pattern of the code management system
办理编码的基本业务流如图4所示。
图4 编码管理系统业务流Fig.4 Workflow of the code management system
系统主要受理3类请求:申请新编码、申请变更编码元信息、申请检测编码有效性。对于某个层级的所有申请消息统一进入受理申请队列,由该层级编码管理系统按照某种高效的消息处理机制对队列中的申请进行处理。处理结果被送入新的消息队列,最后由系统按照某种消息处理机制分发出去。在编码管理系统之外可能还需要其他功能模块(考虑系统减负从编码管理系统中剥离非必要功能)对分发出去的编码或编码的有效性验证信息按某种另外约定的格式、交换途径发给待申请的点位。如果某个申请在原具有管理权的某级环境监测站编码管理系统内无法解决,此时该申请允许经由上级监测站编码管理系统转发或直发到具有编码管理权的预期级别监测站编码管理系统来处理,如点位所在行政区划信息变更(或控制类别变更)导致编码管理权转移,有新的编码管理权的级别监测站同意接收后,该点位编码进入相应编码管理系统的编码目录中进行维护。
编码规则管理体系如图5所示,完全适应“组合校验码”编码规则的要求,各层级编码规则严格继承编码总规则,上一级编码规则为下一级编码规则提供参考依据。各层级编码维护人员依据编码规则更新、维护相应层级的编码目录库。对于拥有监测点位所有权的社会化环境监测服务机构,其编码管理权归其服务的环境监测站所有,但点位编码的控制类别字段会有相应体现。不具备监测点所有权、只提供点位运维服务的社会化环境监测服务机构的监测点位编码与监测站自行运维的点位编码没有区别。点位编码管理系统保证了编码信息的丰富、实时、可靠,配合点位管理系统可实现对环境监测点位的科学、高效管理。
图5 编码管理系统编码规则管理体系Fig.5 the coding rule architecture of the code management system
编码目录管理架构和编码交换体系如图6所示。编码目录库是逻辑库,不是物理数据库。一个物理数据库既可以存储点位编码、点位信息,也可以存储监测原始数据、评价数据等,一个物理数据库中允许多个逻辑库同时存在。各级点位编码由相应级别的监测站来管理,并由该站的编码目录库来存储,没有编码管理权的监测站(包括上级站、同级站和下级站)只能通过订阅该编码所在目录实现单纯检索(允许快照保存)功能。
在编码管理正式启动之前,各层级编码管理系统要预先设置好应用的角色并完成编码目录的初始化配置。中国环境监测总站负责管理及分发环境要素类型、控制类别等基本元数据信息、维护和下发国家级编码目录、接收省级监测站编码目录,其余各级监测站负责维护各自层级的编码目录、接受上级站下发的分目录和接收下级站编码目录(图7)。国控点位编码由中国环境监测总站存储和维护,省控点位编码由省级监测站存储和维护,各级点位编码目录由相应级别的监测站来存储和维护。社会化监测机构维护的点位编码目录由其面向服务的监测站来存储和维护,比如某社会环境监测服务机构与省级监测站签定服务合同,其必须向该省级监测站提供监测数据,则该服务机构运营的监测点位的编码存在于省级监测站编码目录库中,编码信息由省级监测站负责维护,该服务机构本身没有编码管理权。
图6 点位编码管理架构和编码交换体系Fig.6 Site code management and transfer architecture
图7 编码管理系统信息流交互方式Fig.7 Information flow of the code management system
以全国环境监测点位编码管理系统为例讲述对应层级目录库中的内容,该层级系统对应编码目录国家库,该库包含自行管理的“国家控制或考核”点位编码总目录以及订阅的各省级编码目录。省级编码目录包含相应自行管理的“省级控制或考核”编码目录以及省级行政区订阅的地市级编码目录。地市级编码目录包含相应自行管理的“市级控制或考核”编码目录以及市级行政区订阅的县级编码目录。各层级的监测站对相应层级的编码目录拥有绝对所有权,只有被授权的订阅才有效。订阅授权可以被继承,得到授权的监测站可以继续授权给其他监测站。编码的交换体系设计遵循前面提到的编码目录的交换原则。
3S、增强现实技术、虚拟现实技术的发展使得GIS系统被广泛应用到环境监测领域。点位能被动态加载到二维、三维、增强现实地图中,伴随着全新的人机交互方式实现更加直观的定位查询、管理。编码本身代表着点位,编码与点位不应该割裂开来,编码管理与点位管理应该密切配合。编码管理系统也不是孤立的存在,编码管理系统必须配合点位管理系统才能发挥环境监测基础作用。编码管理系统在环境监测信息化中的定位如图 8所示,负责为其他应用提供基础编码服务。
图8 点位编码管理在环境监测信息化建设中的定位Fig.8 Location of site code management in the information construction of environmental monitoring
环保工作具有很强的综合性和复杂性特征,每一个时期都会有不同的重点任务,环境监测任务也因此区分为长期的、应急的、阶段性、专题性等不同类型。“组合校验码”编码模型通过提供一种普适性强、简单易学、关键信息突出、强约束性、灵活的编码方式来适应环境管理工作的需要。它不严格依赖现有国家-省级-地市级-县级四级监测网络的环境监测工作模式。编码管理系统可以根据需要灵活地调整层级数量,点位管控属性也能够自如地发生变更,在环境监测机构省以下垂直管理改革前、改革中、改革后均都能够良好的运行,使监测数据统计分析工作几乎不受各省市改革进程不同步的影响。总之,通过使用规范化的编码模型、编码规则及与支撑其应用的编码管理系统能显著提高环境监测点位管理效率,丰富监测数据的查询、分析方式,有效解决当前面临的环境监测数据集成程度低、共享困难等问题。