王东
(辽宁省河库管理服务中心(辽宁省水文局),辽宁沈阳110003)
智慧水利是智慧社会的重要组成部分,是推进新时代水利现代化的重要举措,也是水利信息化的发展方向[1]。辽宁水利信息化经过长时间的建设,已经取得一定成绩,对水利信息化建设也提出了更高的标准和要求[2]。省内的水利工程更是具有点多、面广、量大等特点,作为重要战略性信息数据资源的水利数据目前尚不完整、不全面,加上分散管理、条块分割的传统水信息管理与应用模式,制约了水治理体系和治理能力现在化推进[3]。因此,数据资源池的建设增强了信息获取和利用能力,提高水利业务精准化管理水平。通过水利行业内外部数据的汇集、整合和治理,可以推动数据贯通和业务协同创新,为水资源调配、供水保障、防汛排涝、水土流失、水污染等的预测研判和管理调控提供数据支撑,支撑水利业务的精准调度及科学决策[4],提升水利行业规范化、精细化管理水平。
辽宁已有数据资源主要分为水利基础数据、水利业务数据、水利政务数据、地理信息数据、文件图像视频等五类数据,分别存储在百余个数据库文件中,存储较为分散,数据价值没有得到应有的发挥。现有数据资源中,能够实时更新的数据占55%左右,其余均为定期或不定期更新。数据产生方式主要包括人工录入、系统自动生成、遥测采集、人工自动混合模式或其他单位接入等5种方式,能够保证业务开展所需的数据及时更新。数据库软件主要采用SQL-server和Oracle两类,受技术、安装环境、应用范围等限制,数据库、中间件存在重复使用的情况。
1)数据规范程度不高
水利数据资源来源广泛、种类繁多、覆盖面广、数据量大,数据资源的规范性不高,数据体系不完善,数据格式、存储方式和解析规则缺少统一规范,导致数据标准化、精准度程度低,数据质量缺乏保障。监测数据体系不健全,缺乏定量化、精细化分析方法,造成监测数据代表性不足、粒度较粗,时效性差等问题。洪水业务中,社会经济数据空间力度较粗;旱情业务中,地面墒情监测代表性不足,卫星遥感监测准确性特别是量化精度不高;水资源开发利用业务中,监测计量率不够,节水监测数据质量不高。
2)基础设施分散,资源支撑不足
应用系统建设过程中建设了一些基础应用支撑服务,为数据汇集提供了部分支撑。由于建设相对分散,没有充分发挥整体效率,计算资源和存储设备只服务于各自的系统,无法对资源进行整体管理,造成资源浪费;数据的收集和使用始终取决于不同的业务系统。数据不仅分布在不同的业务部门之间,而且在形式上存在异构、交叉冗余和业务之间的语义冲突。由于缺乏数据共享机制,未进行数据共享或共享程度差,阻碍了水利数据的进一步整合和分析,不利于各个业务的发展[3]。
通过数据整合,将多源异构数据入库管理,建立数据的联动更新机制,保证同数同源,权威认证,能够动态、灵活、按需地支撑自然资源业务运行,实现数据在政府部门间的共享应用。对水利业务管理对象进行抽象和空间化表达,完成数据库的概念设计、逻辑设计及可扩展的物理存储设计,支撑数据的“随需所取”。
1)数据库方面
数据库采用“分布存储、集中管理”的方式进行设计,根据数据现状,数据整合建库方法可分为两类:对还未建库的数据采用标准化建库方法“新建”,纳入到数据资源池中进行综合管理;对已建库管理的数据,根据实际情况,采用数据库迁移“统管”或者动态视图“引流”的方式,实现数据的统一管理。其中,“统管”是指把分散管理的已建库数据,集中收集整合,并在统一的管理平台下进行管理。“引流”是指对已建库建立一个复制的对象与原始库并行(同时)运行,通过数据管理子系统的调度,逐步取代。对于完成预处理、整合和质检合格的数据,依据建库标准规范和设计好的数据模型,将成果数据分别导入、加载到分布式的相应数据库中,并建立数据字典、数据库索引和元数据,最后注册到统一数据资源目录[5]。
2)数据治理方面
通过统一的数据模型,明确数据之间的关联关系,可动态记录数据的变化,优先开展数据库的顶层梳理和设计。依据相关法律法规、业务规范、数据标准及业务调研成果,梳理水利管理相关流程,将业务流程划分为基本业务单元,依据业务单元数据特征抽取水利管理实体对象,分析业务单元之间的潜在冲突分析结果,进行冲突业务单元的模块化合并,抽取对象之间的关系,构建符合水利管理特征的数据关系模型。
3)逻辑结构方面
在概念设计的基础上,结合实际业务情况,设计一体化数据库的逻辑结构,将对象、对象关系进行实例转化,构建实体关系图,为数据库的物理存储设计打下基础。在数据库的逻辑设计和概念设计的基础上,数据库的物理设计主要是规范数据库的存储形式和存储内容。
将水利原始数据及互联网数据进行汇集,进入汇集库[6]。汇集库是数据资源池建设的源泉和基础,以离线文件、接口、直连数据库等形式管理从水利各业务、其他部门和企业、互联网等汇交和采集的原始数据,完成全量备份,保障了数据资源的完整性和可用性。数据资源池总体架构示意图如图1所示。
图1 数据资源池总体架构示意图
对各来源的业务数据基于“一数一源”的原则,按照数据标准规范进行清洗、比对与整合,形成资源库数据内容,在数据入库后进行时空化管理,具体包括基础库、主题库、产品库[7]。
1)建设数据库,按照数据资源目录,分类建设池化汇聚的各类数据,实现高性能存储。从而实现数据空间、属性、关系和元数据的一体化管理,统一对象编码,统一数据字典,为各类业务应用提供规范、权威和高效的数据支撑。水利对象基础信息的治理,其中最重要的一方面就是水利对象的整合,不同来源的水利对象不同,但存在交叉的对象,即同一对象在不同数据库均有存储,但其编码体系不一致,造成同一对象在不同的数据库有不同的对象代码。因此,对象基础信息治理的首要前提是通过对象名称、对象所在地、关键指标数据等信息进行对象代码映射关系整理[8],明确进入基础库的对象名录,并按赋予水利对象统一的对象代码。
2)实现水利数据空间、关系、属性元数据的集成管理,为各种业务应用提供权威、规范、高效的数据支撑,利用数据库开发技术、ETL数据技术、质量控制技术等数据治理技术,针对数据归一化处理、一致化处理、图斑处理、实体编码与关联、质量检查与入库等需求,对分散的水利对象信息,以及水利对象空间和业务关系等数据整合,形成面向对象建模、统一语义、分布式存储与管理的水利数据资源。水利基础库主要是用来存储水利基础信息,包括水利对象数据、水利监测数据、水利业务数据、水利政务数据、外部共享数据及社会数据等,是将离散的数据变成有机整体的关键。将涉及水利业务和政务应用全局的对象基础信息,以及水利对象空间和业务等数据,统一纳入水利数据资源池进行管理,并提供相应的数据服务[6]。
3)建设数据资源规范,通过对数据资源体系的梳理,参考相关技术标准制订数据资源整合相关规范。
4)开发数据资源智能综合管理平台,通过数据资源综合管理平台的建设,对数据抽取、推送、调用和数据治理进行集中管理、分工协作,提升数据管理质量,利用数据可视化技术进行综合展示,为业务应用提供信息支持[7]。
数据资源池的建设,提高了基础设施利用效率及涉水数据和水利信息系统的集约整合共享程度,减少软硬件的重复建设[8],实现业务应用协同创新,提升水利管理和服务水平,推进水治理体系和治理能力现代化,产生巨大经济效益,实现了水利行业内部及社会相关部门间的信息交换,打通数据壁垒,有效消除信息孤岛,使彼此互联互通,实现涉水数据“聚、通、用”。实现水利行业整体工作的协同优化,降低了单项应用成本,使各项工作无需从头做起,整体性降低了数据获取费用[9]。有效提升国家水安全保障能力、治水治理能力和水利公共服务能力。
综上所述,数据资源池的作用在于拓宽水利信息开放和共享的渠道,提升水利公共服务能力。梳理汇集水利各类数据,为后续公共支撑服务提供支撑,释放水利数据社会价值,向有关行业、企业和公众提供更加丰富、及时、精准的公共信息储备,使其更为及时、精准地获取水事行为指引和监管意见要求,有效降低了广大水利服务对象接受管理服务时所付出的大量交通和时间成本。