中国地质灾害数据质量评价指标体系构建

2021-08-26 07:34尹春荣曲雪妍张艳玲杨旭东
中国地质灾害与防治学报 2021年4期
关键词:指标体系权重数据库

尹春荣,李 媛,曲雪妍,张艳玲,佟 彬,杨旭东,房 浩

(中国地质环境监测院,北京 100081)

0 引言

2019年,全国地质灾害数据库首次实现了与大陆地区除上海外的30 个省(区、市)互联互通和数据共享,集成了调查评价、监测预警、工程治理、搬迁避让等全方位地质灾害防治数据,并实现在线更新,对于开展地质灾害科学研究,支撑全国地质灾害防治意义重大。数据质量是数据研究的前提,是一切数据分析、挖掘、决策支持的基础[1],本文拟建立地质灾害数据质量评价体系,通过对地质灾害互联互通共享数据进行评估,提出数据优化方向。

1 全国地质灾害数据库特点

如前所述,全国地质灾害数据来源于省级地质灾害数据库,具备三个明显特点。一是动态性,为服务地质灾害科学研究和防灾管理,保证数据真实有效,各省(区、市)通过每年汛期前、汛期中、汛期后地质灾害排查对数据进行增加、修改、补充,以保证其时效性和准确性;二是平台多样性,各省级数据库采用的系统平台不尽相同,库结构各有差异;三是数据多样性,地质灾害数据类型包括结构化的属性表、空间图层及非结构化的文档、多媒体、DEM、InSAR 等多种类型。以上三点客观上使得全国地质灾害数据集成和更新较为复杂。

在确保安全的前提下,为了实现各省级地质灾害数据库与全国库实时在线交换共享,针对各省异地、异主、异构分布式数据库,设计了省级和国家级地质灾害数据更新前置库,采用触发器技术实现库间数据动态增量更新,利用ETL 等中间件技术实现多源异构数据快速抽取、清洗、变换和集成;为保障数据连续、稳定、安全传输,建立了基于专用传输网络的地质灾害数据传输模式(图1)。图中1、2 数据库的类型和结构可以不同,3、4 数据库类型和结构与国家级数据库一致,1、3 以及2、4 的数据库内容一致,“数据同步服务”负责按一定的时间间隔(分钟、小时、天)执行省级-国家级数据可靠传输;“数据中间件”执行数据抽取、清洗、加工、加载;“交换服务”执行多源数据库表与文件交换。

图1 地质灾害数据互联互通共享交换平台Fig.1 Interconnection and sharing platform of geological hazard data

2 数据质量评价

数据质量评价相关研究由来已久,国内外已经积累了不少成果,主要可分为三类:第一类为综述型,如张宁等[1]从数据质量评价模型、评价方法、评价主体、评价对象4 个角度对当前数据质量评价研究现状进行了总结,并对研究中存在的问题进行了概述;刘冰等[2]以国内外大数据质量研究文献为对象,从基本内涵、质量管理、质量评价、应用实践等角度对相关研究进行梳理与综述,分析国内外相关研究进展。第二类为应用研究型,针对某一特定类型数据开展评价,如潘旭、肖雅元、南琦琦分别构建了智能配电网和电动汽车快速充电网数据质量评价体系,提出相应数据质量评价方法[3−5];BOES 等在医学领域开展了数据质量评价研究[6−9];第三类研究试图探索一种综合多数模型与质量评价维度的通用型数据质量评价模型[10−11],RIESENER 等[11]介绍了一个根据数据相关属性和系统相关属性确定信息质量的框架。目前未见针对地质灾害数据质量开展的评估研究。

2.1 数据质量概念维度

数据质量因项目质量目标不同而存在差异,并非所有质量特征均会明显地出现在每个评价项目之中[12],只有符合相关用途和满足用户要求的数据才是质量良好数据,即数据质量为“适合使用”,并取决于数据用户[13]。大数据的多源、多种类型、多种结构等特点决定其质量的动态性和情境化;与此同时,数据质量与数据生命周期的阶段或过程高度耦合[14]。因此,数据质量不是一个绝对概念,而是贯穿于包括数据收集、处理、存储直至进入数据系统的整个数据周期;不是一个静态概念,其价值会因存储过程中的衰减而动态变化[15−16]。基于以上分析,地质灾害数据从服务目标出发,以完整性、动态性、生命周期角度开展质量评价。

2.2 数据质量评价方法

目前关于数据质量评价方法的研究主要包括定性评价、定量评价、定性定量相结合的评价。其中定性评价主要用于满足数据用户需求,采用数据质量调查的方式构建评价指标体系;定量评价是一种客观评价方法,常用于结构化数据评价;在数据质量的多维度评价上,定性定量相结合评价是对前两种单一评价方法的有益补充和完善[1],其主要做法是在定性评价的基础上引入数学手段,定性问题通过人工设定的标准进行评分并做出量化处理,评分的过程都是针对事先建立的指标体系,具有部分数理统计的特征,如德尔菲法、模糊综合评估法、层次分析法等[17]。地质灾害数据类型多样,即有结构化数据,也包括非结构化数据,本次选用定性定量相结合的德尔菲法进行数据质量评价。

3 地质灾害数据质量评价指标体系

3.1 地质灾害数据质量评价指标

数据质量评价指标已有若干学者进行了深入研究[18−26],涉及电力、医学、金融等领域。参考这些研究结果,结合地质灾害数据特征和评价目的,本次选用完整性等5 个一级指标、数据类型完整性等10 个二级指标、属性数据表完整性等28 个三级指标开展评价,建立我国地质灾害数据评价指标体系(表1)。

表1 的一级指标,代表本次对地质灾害数据开展质量评价的5 个维度,包括完整性、时效性、准确性、一致性和规范性;二级指标是对一级指标的进一步细化分类;三级指标是在二级指标分类的基础上,对应到地质灾害数据的具体内容;指标说明是对数据质量考核标准的细化和解释。

表1 地质灾害数据质量评价指标Table 1 Evaluation index of geological hazard data quality

3.2 评价指标权重的确定

按照德尔菲法评价方法,需要选定地质灾害专业数位专家进行数据评价指标权重打分。图2 是德尔菲法评价方法流程图。

图2 指标权重确定方法Fig.2 The process of index weight determination

本次共邀请20 位专家参与打分,最后返回有效打分表18 份。打分表说明中明确要求5 个一级指标权重总计为1,其细分的二级指标权重之和应当与对应的一级指标权重相同,三级指标权重之和与其所属二级指标权重一致。所有专家打分计算后的指标权重平均值、中位数分别合计并不为1,因此表2 是一级指标统计后归一的结果。二级、三级指标权重也同样计算统计得出。

表2 一级指标权重计算结果Table 2 List of the frist index weight

统计得出的三级指标权重结果再次请专家投票,最后12 位专家赞同采用平均权重值,6 位专家赞同采用中位数权重值,根据最大值法确定本次评价采用平均值权重。表3 为德尔菲法确定的一、二、三级指标权重表。

表3 指标权重一览表Table 3 List of index weight

4 地质灾害数据评价实例

4.1 地质灾害数据质量评价

根据前文确定的指标体系及评价方法,选择地质灾害发育程度较高、数据库与信息系统建设较为完善的我国中部某省为例,按百分制开展其与全国互联互通共享数据的质量评价(表4)。

表4 某省地质灾害数据质量得分表Table 4 Geological hazard data quality score of a province

4.2 地质灾害数据质量评价结果分析

从完整性分析,被评价省地质灾害属性表、调查报告、地质灾害相关空间图层、多媒体,以及测绘、勘查、遥感各类型数据均具备,类型完整性得满分;但滑坡等属性表中字段内容有缺失,按照字段缺失数量扣掉属性表数据完整性相应分数。从时效性分析,其省级前置库数据可实时同步至全国库,时效性得满分。从准确性分析,省级库中地质灾害数量与其推送至全国库中数量相同,但其坐标稍有出界,少量群测群防员信息更新未及时入库,扣掉相应准确性分数。从一致性分析,其地质灾害规模、灾情、险情等级划分严格按国家相关标准,其等级与相应数量关系逻辑一致性好,该项得满分。从规范性分析,其稳定性描述和威胁对象选项完全符合规定,规范性得满分。

通过分析可以看出,该省地质灾害数据库建设总体情况较好,数据管理类型全面、数据项规范、时效性强,综合评价可达良好水平。但该数据库属性表内容还需大力补充,地质灾害点坐标信息亟需校正,群测群防员信息需及时入库更新,以提高其对地质灾害科学研究和防治的支撑作用。

5 结论与讨论

数据质量评价是地质灾害数据库建设中不可或缺的组成部分,对于提高数据使用价值意义重大。本次数据质量评价是全国地质灾害数据库建设中的探索性研究,首次建立了我国地质灾害数据质量评价指标体系,并以某省数据为例完成了评价。然而其指标体系建设和评价还需进一步研究:

(1)数据质量不是一个绝对概念,而是贯穿于收集、处理、存储、应用整个数据生命周期,因此指标体系全面性应当与之相匹配,本次质量评价一定程度上考虑了地质灾害的全生命周期质量评价,但在全面性和具体化等方面还需研究和深化;

(2)数据质量不是一个静态概念,其价值会因存储过程中的衰减而动态变化,如何设置适当反应数据价值的动态指标是今后数据质量评价研究的一个重点和难点;

(3)数据质量评价维度与指标选择以目标为导向,因此质量评价指标应当是一个立体、开放、动态、多层次体系,伴随地质灾害数据库进一步完善和服务功能扩展,其质量评价指标体系和方法也需要不断深化和优化。

猜你喜欢
指标体系权重数据库
权重常思“浮名轻”
为党督政勤履职 代民行权重担当
层次分析法在生态系统健康评价指标体系中的应用
供给侧改革指标体系初探
数据库
数据库
数据库
数据库
基于局部权重k-近质心近邻算法
组织知识传播与共享评价指标体系及其RS权重配置