生态环境数据资产治理研究

2022-11-27 06:30谢颖斯
资源节约与环保 2022年10期
关键词:资产评估资源

谢颖斯

(广东省环境科学研究院 广东广州 510000)

引言

随着生态环境保护工作的日益重视,生态环境管理部门积累了丰富的数据资源。[1][2]但由于数据来源不一、标准不一等问题,造成数据资源以离散、毫无关联的方式沉淀在各部门业务系统之中,数据价值大打折扣,“僵尸系统”“失效数据”等现象大量存在,甚至有些数据资源仍以纸质方式存档,造成数据资源的极大损失。[3][4]同时,对照国家和省关于“互联网+监管”的改革要求,事权下放、监管后置对生态环境“管”提出的更高要求,[5]特别是当前生态环境监管方法手段还不够丰富,没有充分利用数据共享、数据挖掘技术进行生态环境业务异常分析和预警,此外,数据资源价值尚未充分利用,未能为业务管理综合决策提供智慧数据支撑,因此,亟需对生态环境数据资产进行有效治理,充分发挥数据资源价值,健全大数据驱动下的生态环境监管新机制。

生态环境数据资产治理工作应以数据应用为导向,贯穿于生态环境业务数据流转的所有环节,因生态环境数据资产治理范围涉及多业务领域,需要业务主管部门、数据使用部门以及治理团队人员通力协作,强化对生态环境数据的关联性理解,共同明确数据资产治理的有效范围及标准。数据资产范围跨部门跨业务跨层级,涉及省市多个单位多级部门,需要多方面权衡生态环境数据资产标准制定的维度,分析业务管理、系统运行层面的数据需求,在充分理解生态环境业务需求的基础上,借助专门的数据治理相关专业工具,结合滤波去噪法等多种技术手段进行生态环境数据预处理,实现数据资产有效整理。

完成治理后的生态环境数据资产将直接用于支撑生态环境上层业务应用体系的建设,必须确保治理前后数据的一致性和准确性,通过建立完善的生态环境数据评估规则体系来保障数据质量,通过建立数据质量监测机制,持续评估各环节生态环境数据资产质量状况并及时形成数据质量反馈报告,为各部门各地市生态环境部门数据质量提供保障。

1 技术架构

生态环境数据治理工作首先须厘清生态环境数据资源体系,对生态环境数据资产进行数据梳理和整理,根据生态环境基础数据资源相关业务属性,对数据来源、数据属性、数据注册申请、数据标签、数据使用等数据脉络进行综合管理。面对多源异构割裂的生态环境结构化数据,结合业务理解,着重开展数据去噪、数据清洗、数据标准化等预处理,质量规则管理与分析评估,数据异常检测等流程,形成统一的生态环境数据资产质量管理体系和规范,提供包含规范性、唯一性、完整性、一致性、精确性等多种业务系统间数据质量评估指标,实现对生态环境数据质量的全面检测,同时自定义生态环境数据业务规则进行多维度数据质量检查。建立生态环境数据质量评估流程实现数据质量管控机制,实现对数据质量问题进行归因分析,并通过多个维度统计的方式生成数据质量评估报告,更大程度提高生态环境数据质量,梳理形成高质量、高可用的生态环境数据资产,支撑生态环境大数据创新应用体系建设。具体数据资产治理服务流程如图1 所示。

图1 数据资产治理服务流程图

2 数据资产治理服务流程

2.1 数据资产目录管理

围绕生态环境数据资源体系,按照不同业务域分类的方式进行信息资源的梳理。深入梳理现有相关业务管理系统,整理生态环境信息资源,基于生态环境信息资源分类体系,将需要处理的生态环境相关数据进行汇总整理与分类编目,形成生态环境数据资产目录。定期根据数据源更新情况实时同步生态环境数据资产目录,确保数据治理及管理工作的规范统一。数据资产目录管理具体包括目录编制、目录审核、目录注册和目录发布4 个过程。

图2 信息资源目录编制流程示意图

根据生态环境数据资源分类、元数据业务属性描述和业务系统代码规则,采用人工编目、在线编目和自动编码等多种方式开展数据目录编制工作。对生成的数据信息资源列表和信息项表单,采用统一电子表格的方式采录进入信息资源清单库,同时,对于已经标准化的部分信息资源,可通过数据库抽取、转换等方式,直接由计算机进行自动编目进入信息资源清单库。对于生成的生态环境信息资源清单,借助信息资源目录管理系统,由业务经办人员进行编目的审核及校验工作,并根据具体的业务逻辑,设定详细的数据审核规则,对数据唯一性、完整性、关联性、表述性等特征属性进行校验,确保信息资源的准确和有效。对生成的生态环境信息资源目录,依据统一共享开放的需求,在生态环境管理部门内部数据共享交换平台和省一体化大数据中心进行数据资源目录挂接,为相关部门应用提供数据资源目录参考。完成生态环境信息资源登记挂接后,按照信息发布流程和相关要求,对目录进行定期更新管理,其中,包括信息资源新增挂接、信息变更、信息注销、信息审计等内容。

2.2 数据资产整理服务

2.2.1 数据标准化

生态环境数据标准化是针对各业务系统数据标准不一致等情况,将生态环境业务数据按标准进行转化,使之落入一个小的特定数据范围区间。例如针对省市不同环境影响评价审批系统的审批数据,去除数据的单位属性,将其转化为无量纲的纯数据或者统一单位及格式的数据,便于不同业务系统数据指标能够进行比较和加权,为后续的数据分析应用奠定基础。再如生态环境监测类数据的标准化,主要包括数据同趋化处理和无量纲化处理,既保证业务逻辑运算的边界,又突显出监测数据的本质含义。

基于不同的业务场景及不同的数据字段,数据标准化处理需采用不同的处理算法及处理方式。例如针对监测设备自动采集获得的监测指标数据,基于数据分析建模的需要,可以使用标准化算法对元数据进行自动化预处理。

此外,部分数据字段的标准化处理仍需以手工方式为主进行,比如针对1-3-5 公里污染源数据的企业污染源坐标信息字段,对于坐标以不同单位表示,可以以自动换算的方式进行统一转化,而不同坐标系表示的数据格式统一,则需要人工介入处理。

2.2.2 数据去噪处理

大气和水质等监测设备采集数据,极易出现有噪声的、不完整的和不一致的低质量数据,比如短时环境影响或者人为因素导致。为能满足高质量生态环境数据分析建模需求,需要对原始数据进行去噪处理,以方便需要补充缺失值,另一方面通过基本的常规使用数据统计技术和数据可视化方法来区别离群点,从而纠正不一致数据。

汇聚后的生态环境相关数据存在大量冗余性不一致数据,即相同的信息没进行一致性的同步更新。如图3 所示。

图3 数据不一致现象

在收集的信息表中同一个企业单位对应的ENT_CODE 存在两个,但是在单位信息表中CODE 只有一个,信息不一致,如图3 就是属于上下文依赖冲突,上下文依赖的冲突是指不同数据源的数据由于不同业务应用系统间自建的数据设计规则和表达因素造成的,这种数据上的冲突需要用数据转换规则或者由数据管理运营人员核对核实该错误数据后报送业务应用管理人员后对数据进行修正。

2.2.3 业务数据偏移校正处理

在实际的业务开展中,经常会遇到数据采集源头信号强度抖动的太厉害等问题,特别是监测类数据,架设及部署在外部自然环境的监测设备,极易受到环境以及人为因素的影响,造成采集数据抖动偏差,使数据偏离正常合理范围,致使错误数据现象出现,影响数据的分析应用。此时,需要结合实际业务情况,运用一些滑动平均算法对这类偏移数据进行偏移校正处理。基于滑动平均法、SG 滤波法、指数平均法等算法来构造合适的平滑方式,通过抖动偏移校正处理提高业务数据的可用性。

2.2.4 数据转换清洗

数据转换清洗的目的是对生态环境数据资产进行清洗整理,具体包括数据清洗、转换与加载三大部分,目的是在数据治理过程中,对发现的问题数据,结合业务逻辑进行甄别与筛选,再通过清洗与转换,并重新加载到生态环境汇聚库,从而保证用于后续业务专题建库和分析时数据的完整性、准确性和一致性,从而从根本上提高生态环境数据质量,提高数据准确率。

2.3 数据资产质量管控

2.3.1 数据质量监控

数据质量管理监控是基于监控工具,通过配置、执行数据质量检查规则,持续监控各个业务系统的数据质量情况,生成各业务系统数据质量报告,随时掌握数据质量异常信息。对照数据质量检测及管理工作,数据质量监控包括数据质量检测规则管理、数据质量检测任务执行、数据质量评价监控管理、数据质量分析结果管理。

数据质量检测规则管理,定义数据质量审核的业务逻辑,是数据质量审核和监控管理的基础,对数据质量规则进行定义和管理,包括检查范围、检查时间、检查规则、评分规则、评估报表等。

数据质量检测任务执行,包括任务执行配置和任务执行监控,通过实时执行的结果辅助用户调整规则的定义,及时发现任务未响应或任务执行失败等异常情况并进行异常原因排查,以修正任务配置,确保修改配置后的任务可重新正常执行。

数据质量评价监控管理,评价采用完整性评价、规范性评价、逻辑性评价、及时性评价、重复性评价、外键关联性等多种评估维度,基于业务自定义各项规则权重,实现数据质量综合评价。

数据质量分析结果管理,自动生成每个质量检测方案的明细结果表,并根据分析需要对明细结果表字段及数据质量分析报告样式进行自定义。检查结果可以通过邮件等方式告警,反馈至相应主管部门督促系统改进或者业务操作规范要求,形成数据管理的闭环。

2.3.2 生态环境数据质量分析评估

数据质量的好坏直接关系到后期生态环境专题应用及数据分析、挖掘、应用的效果和结论。因此,数据质量管理模块充当生态环境业务应用“数据医生”的角色,诊断并发现生态环境相关业务系统中的数据质量问题和状况,并将数据质量评估结果以多种可视化形式生成相应的数据质量报告,简易明了地呈现给系统数据管理人员。

针对生态环境数据资产质量检查形成的评估分析应通过多维度角度进行质量管控,例如可从系统质量对比以及业务应用系统在特定时间范围内的质量趋势对比等角度进行管控。数据资产质量对比分析主要按照既定的业务数据质量技术标准规则及生态环境业务规则对指定业务系统的信息表及信息字段进行质量评估,通过评估业务系统数据资产的综合质量指数,多系统对比分析发现数据资产质量优劣差别及平均水平;数据资产质量趋势分析则是按照既定的生态环境数据质量技术规范及对应的业务规则,对业务系统的信息表级信息字段进行质量评估,通过在一段时间范围内的持续监测,对每个监测点的数据综合质量指数进行趋势分析,发现数据资产的质量演变趋势。整体思路如图4 所示。

图4 数据质量分析评估整体思路图

首先从各类生态环境业务系统中接入业务数据同步到汇聚中间库中,实现对汇聚中间库中生态环境业务数据资源目录和元数据管理。

再通过数据抽样算法从汇聚中间库中抽取部分业务数据样本至样本库中,对样本数据进行具体的数据质量检测和评估。

根据数据质量分析结果对有问题的业务数据导入到异常库中;同时对没有问题的业务数据进行实体刻画和关联分析,形成不同类别的分类存储库。

2.3.3 异常检测和问题反馈

通过数据质量评估,数据质量管理方将存在的问题反馈给数据源头的业务应用系统管理人员。源数据系统管理方根据反馈的质量问题,进一步改进业务系统及生产数据。业务经办人员也可根据数据质量反馈情况,进一步改进业务流程的推进业务运行以及数据质量。

通过上述反馈,新的数据再次进入内控管理系统,数据管理运营方进一步监控业务数据质量变化情况,定期再进行业务数据质量反馈,如此形成一个质量良性的生态环境数据管理闭环循环,从数据质量的角度不断提升生态环境领域政务服务质量和效率。

结语

本文围绕生态环境数据资产治理,初步提出了一种数据治理方法,在厘清生态环境数据资源体系的基础上,对生态环境数据资产进行数据梳理和整理,开展数据标准化、数据去噪、数据清洗等预处理、质量规则管理与评估分析、数据异常检测等服务,形成统一的数据资产质量管理体系和规范,并提供数据质量评估检测,梳理形成高质量、高可用的生态环境数据资产。经治理后的数据资产可有效促进省市生态环境数据规范管理,提高生态环境数据质量水平,为生态环境大数据创新应用体系建设提供强有力的数据支撑,助力生态环境智能化应用体系构建。

猜你喜欢
资产评估资源
基础教育资源展示
第四代评估理论对我国学科评估的启示
一样的资源,不一样的收获
资源回收
轻资产型企业需自我提升
央企剥离水电资产背后
资源再生 欢迎订阅
评估依据
关于资产减值会计问题的探讨
立法后评估:且行且尽善