曾国雄,何林华,唐宗仁,霍宏旭
(北京慧图科技(集团)股份有限公司,100071,北京)
随着卫星遥感技术、地面感知技术、大数据技术、数字孪生技术、虚拟仿真技术等发展,数据成为智慧水利建设不可或缺的一部分。数据底板是数字孪生流域中的“算据”部分,是数据联接与传递的“中枢”,也是支撑数字孪生流域模型平台、知识平台和业务应用平台的数据基底。数据底板应在水利一张图基础上升级扩展,完善数据类型、数据范围、数据质量以及优化数据融合、分析计算等功能。
当下数据底板构建面临新机遇和新挑战,快速高效融合多来源(空、天、地)、多尺度(多级流域)、多维度(时、空)的水利数据,有效管理数据、全面挖掘数据,是提升数据服务价值的基础。由于孪生数据的表示、分类、预处理、存储、使用、测试等缺乏标准指导,导致数据分类不统一、数据格式不兼容,通用性差、互操作困难、数据融合困难。因此需要研究建立一套统一的数据底板构建标准,强化数据在应用过程中的有效性和可靠性,支撑水利业务“四预”功能实现。
数据底板的搭建目标是在现有数据共享体系基础上收集流域范围的水利基础数据、业务管理数据、动态监测数据、地理空间数据以及跨行业共享数据,以数据模型为核心进行数据关联与融合,形成基础数据统一、监测数据汇集、二三维一体化、跨层级跨业务的数据底板,实现全要素的数字化映射,并与模型平台、知识平台集成实现业务数据标准化,形成具备持续性更新能力的数据支撑体系。数据底板构建总体架构如图1。
①数据源:数据底板所需融合汇聚的各种数据源,包括通过不同采集手段获取的数据。
②数据汇集:主要实现水利业务应用所需的多源数据统一汇聚。一般需归集的关系数据主要是水利要素基础和关联数据、量测水数据、雨水情数据、预报降雨量及日蒸发量数据、闸门/泵站流量等数据,通过数据治理工具、人工录入等方式统一进行归集和整合,接入数据湖中实现跨部门、多源数据的汇聚;非关系型数据主要包括基础地形、倾斜摄影、水下地形、BIM模型、量测站设备拍摄的图片、视频以及其他水利工程资料等。
③数据治理与存储:对各类数据按照相关要求和规范建立项目数据标准,实现数据整合、整编汇总和存储。通过建立项目数据标准,以元数据为驱动,构建完整的数据管理体系,对问题数据进行更新,提升数据质量。
④数据服务:将各类数据资源按照《国家数据共享交换平台数据交换系统技术规范》等标准规范,进行接口化、服务化的封装,并通过服务集成平台发布等方式,为防汛抗旱、灌区管理、水资源管理、城乡供水等水利业务应用提供数字资源目录、数字查询和分析、数据可视化以及数据共享等服务。
图1 数据底板构建总体架构
针对不同数据来源采用不同的数据汇聚方式,通过大数据技术实现各类数据统一汇聚、存储,并基于制定的数据标准按照标准化治理方法进行清洗转化、融合处理,提升数据质量,为水利业务应用提供服务。统一数据底板构建路径如图2。
图2 统一数据底板构建路径
数据底板构建首先要弄清楚水利数据来源,也就是数据的采集对象,并针对采集对象分析数据获取手段。
综合现有研究成果,梳理大数据采集对象包含自然环境类、社会活动类、工程设施类、业务管理类4个维度。其中自然环境类对象采集内容主要包括河流、湖泊、地下水以及相关的水环境、水生态、地貌等信息;社会活动类对象信息主要采集网络上与水管理相关内容,比如舆情、人类活动轨迹等;工程设施类对象采集内容主要包括工程安全、工程安防监控以及工程相关的雨水情、环境等信息;业务管理类对象采集内容包括防汛抗旱、水资源管理、河湖管理、水土保持监管、农村水利管理等业务管理工作相关的涉水事件、行为与现象,还包括闸门、泵站等机电设备运行工况以及水利工程运行预报、调度、控制等信息。
为获取上述4类对象信息内容,采集手段分为地面监测、卫星遥感、航空遥感、互联网采集及模型模拟(再分析)5类,构成了天空地一体化立体监测体系,编织了水利信息感知“天罗地网”。
汇集的原始数据一般应按照一定的标准入湖,需建立归集库,初步确定原始数据入湖标准。归集库的数据表与数据源的库表结构及数据内容保持一致,除了对有差异的字段类型进行转换外,不对原始数据进行其他加工处理。归集库表结构应基于数据来源表结构设计,额外增加时间戳字段,便于增量归集数据。归集库建模时需根据不同数据来源创建不同的归集表,表名按照“数据库标识+数据来源单位缩写+具体数据信息”形式创建,以方便区分数据来源,归集表中字段名称及数据类型需和数据来源保持一致,便于后续数据出现问题时回溯查源。不同数据类型可选择的汇集方式与入湖方法见图3。
数据存储通常采用关系型数据库、分布式数据库、分布式文件系统分别对结构化、半结构化、非结构化数据进行统一存储和管理。
(1)关系型数据库
关系型数据库管理系统是当前智慧水利建设中结构化数据的主要存储方式,如实时雨水情数据库、基础水文数据库、水质数据库等,都是结构化数据。传统关系型数据库具有分布式存储所不具备的安全优势;由关系型数据库扩展形成的并行数据库逐步取代关系型数据库的某些功能,能大幅度提升业务系统性能。
(2)分布式数据库
分布式数据库可对结构松散无模式的半结构化水利数据、非事务特性的海量结构化数据或海量非结构化数据进行存储。目前在涉水领域大部分采用HBase作为系统开发的存储数据库。HBase是Hadoop生态圈的重要组成部分,内部管理文件全部存储在HDFS(Hadoop Distributed File System)中。
图3 数据汇集方式与方法
(3)分布式文件系统
分布式文件系统主要包括GFS(Google File System)、HDFS、Colossus、GPFS(General Parallel File System)、Ceph、Farsite、Clover等,可对非结构化水利数据进行存储。其中HDFS作为面向数据追加和读取优化的开源分布式文件系统,具有可移植、高容错和可大规模水平扩展特性。采用HDFS文件和MapReduce并行计算框架可以实现空间数据密集计算、并行计算、快速检索与快速传输,解决海量多源遥感数据处理效率低和共享程度低等问题。
4.数据治理(治)
数据治理是对汇集后的多源数据进行统一管理同,以提升数据规范性、一致性、可用性,避免数据冗余和冲突。
(1)数据权责关系梳理
数据资产权责关系是数据治理的基础,也是多源数据融合的重要依据,针对所有汇集过来的数据进行明确数据责任划分,确保在数据治理过程中出现多源数据冲突时采用准确的数据来源,从而保证数据的权威性。当数据治理完成形成标准的数据资产后,应指定相应责任部门牵头制定数据资产管理的政策、标准、规则、流程等,确保数据资产管理规范化。
(2)数据标准建设
①基础属性数据库标准:应严格遵守《水利对象分类与编码总则》(SL/T 213—2020)、《水利对象基础数据库表结构与标识符》(SL/T 809—2021)等水利行业、信息化建设相关的技术标准和规范进行规范化和标准化设计。
②监测数据库标准:应优先按照国标、行标设计,没有国标、行标的数据按照项目标准规定建设,应主要参考《水利对象分类与编码总则》、《实时雨水情表结构与标识符》(SL 323—2011)、《水质数据库表结构与标识符规定》(SL 325—2016)等标准规范。
③业务管理数据库标准:结合实际业务需求并遵循数据库设计三大范式自建标准规范。库表结构中涉及监测数据、基础属性数据、预报数据等字段信息的应尽量贴合相关数据标准设计。
④地理空间数据库标准:严格遵守《水利地理空间信息元数据标准》(SL 420—2007)、《水利空间要素图式与表达规范》(SL 730—2015)、《空间三维模型数据服务结构团体标准》(T/CAGIS 2—2020)等相关技术标准和规范进行规范化和标准化设计。
⑤元数据库标准:依据《水利信息核心元数据标准》(SL 473—2010)设计,以保证元数据库权威性、准确性,如元数据基本信息应包括中文名称、英文名称、缩写名、定义、数据类型、约束/条件、最大出现次数、域等8个信息。
(3)数据清洗转化
数据清洗转化是实现数据标准化的主要处理环节。对汇集来的数据按照建设数据标准制定数据清洗规则,通过手工清洗、ETL任务清洗等方式对分散的基础数据、空间数据、业务数据等进行过滤、去重、格转、校验操作,同时进行数据追溯和数据质量控制,保证数据的一致性、权威性、完整性、合法性、唯一性。
①数据清洗任务。数据清洗转化包括过滤、去重、格转、校验以及多元归一。
过滤:在归集的历史数据中,部分数据存在不符合数据含义、数据类型甚至存在乱码的情况,这部分数据可直接过滤掉。
去重:部分数据的属性值均相同,这些数据被认为是重复记录,通过合并/消除的方式合并为一条记录。
格转:包含空值处理、无效值处理、数据字典码转换以及单位转换。空值处理,即部分数据存在空字符串、null、NULL等空值情况,将该部分数据统一转化为NULL。无效值处理,即部分数据存在无效情况,如日期类型的字段为NULL或空字符串等,将该部分数据统一转化为固定日期。数据字典码转换,即部分数据存在大量的字典码值信息,如代码与描述同时存在,系统统一处理全部转化为标准统一的码值。单位转换,即部分数据的单位与标准库中规定的单元不一致,需将单位转换为标准库的单位,保证后续数据应用的准确性。
校验:需校验数据编码或字典码是否符合标准库的设计规范,不符合需按照设计规范正确修改。
多源归一:主要是指一数一源策略,包括来源优先、权责指定、时间优先等。当同一数据有不同来源时,需根据策略做数据融合,保证数据的准确性。来源优先,即数据调研阶段,把汇集的多源数据进行列举,并根据权责关系进行排序,按照先后顺序选取。权责指定,即将相关元数据按照部门或者系统进行指定,指定的数据源存在数据就去融合,否则不处理。时间优先,即对同等权重的多源数据采用后进为准的原则,同类数据以最后入库的数据为最新的正确数据。
②数据清洗技术。数据清洗技术主要包括异构数据处理技术、异常数据检测技术、缺失数据处理技术、重复数据检测技术等。其中,异构数据转化技术通过建立表字段映射规则、拆分规则和值合并规则或计算机转换函数对异构数据进行处理。异常值清洗技术是指对于某个或某几个字段,绝大部分记录在该字段的值遵循某个模式,不遵循该模式的记录被认为是异常值。缺失值清洗技术是针对实际存在但未被存入所属字段的值进行数据清洗处理。如果缺失值的记录占极小部分,或缺失的属性与关键属性关联度不大时,可以简单丢弃含缺失值的记录;当缺失值的记录非常庞大,弃之不用会严重影响分析结果,则需要人为补上,从而进行后续分析。
(4)数据融合处理
数据融合是利用计算机技术对时序获得的若干感知数据,在一定准则下加以分析、综合,以完成所需决策和评估任务而进行的数据处理过程。数据融合的实质是针对多维数据进行关联或综合分析,应选取适当的融合模式和处理算法。可供选择的数据融合方式有结构化数据接入、非结构化数据接入、API数据接入、流式数据接入、流式数据导入等。
(5)数据血缘分析
数据血缘指数据产生的链路关系,即数据产生、加工融合、流转流通到最终消亡,之间自然会形成的一种关系。建立在数据融合之上,自动计算形成全局的数据血缘图谱,可形象、直观展示数据链路关系,方便数据开发者探索数据问题本质,及时定位问题,辅助数据治理。
血缘图谱提供分层展示数据的能力,以带箭头的连线体现数据关联关系,箭头指向下游数据。血缘图谱可覆盖数据表的源头,记录数据表的所属数据源、源头与目标表映射关系以及数据量。同时提供搜索功能,可快速定位某数据表的上下游血缘关系,并可查看该数据表详情。
5.数据服务(用)
数据底板提供多样化的数据服务能力,包括目录服务、查询分析服务、可视化服务以及共享服务等。
数据资源目录:是对已完成治理的信息资源进行排序、编码、描述,便于检索、定位与获取信息资源。资源目录编目后存储到数据表中,并对数据表设置安全访问权限,保证目录数据的可信性。
数据查询分析服务:大数据之间存在丰富的关联关系,发掘大数据价值的一个重要基础是能够分析出数据集里隐藏的相互关系网。可以通过利用《水利公文词表》和《水利信息化常用术语》构建水利领域本体,并综合知网语义,形式化描述水利数据间的关联关系,定义语义推理规则,构建基于模糊语义的推理机对水利大数据的语义关系发现进行技术探索,实现数据查询分析。
数据可视化服务:当水利大数据以直观的、沉浸感的可视化图像或图形形式展示在用户面前时,用户利用视觉思维能力能够一眼洞悉水利数据背后隐藏的信息并转化为水利知识及管理智慧。考虑到水利领域工程建设需求、业务管理需求和流域水循环特点,信息可视化技术已引入水利领域开展研究,取得了具有行业特点的成果,为实现可视化服务奠定了基础。
数据共享服务:研究面向动态业务需求的数据共享服务技术,利用服务封装与组合技术将数据访问功能发布成为数据服务,构建起水利数据资源服务体系,通过API接口共享以及前置机共享为用户提供服务聚合、发布订阅和门户访问等多模式的数据共享服务。
统一数据底板构建标准是一项系统工程,除了要考虑上述5个关键环节,还需要考虑数据匹配度、数据安全以及虚拟仿真技术选型等内容。这些因素相辅相成,共同构成数字孪生流域建设中数据底板构建的标准体系。■