谢艾玲 ,胡卫权 ,秦 平 ,谈正鑫
(1.科大讯飞股份有限公司,安徽 合肥 230088;2.安徽省水利厅,安徽 合肥 230022)
数据已经成为国家基础性战略资源和新型生产要素[1],大数据已在互联网、电信、金融、交通、医疗和能源等领域开展了一些应用和广泛研究,但在水利领域的研究和应用成果还较少。自 2017 年以来,水利部先后发布了一系列水利大数据相关政策,国家提出的关于新型基础设施的部署,以及学术界智慧流域[2-4]、智能水网[5-8]、水联网[9]等概念的兴起,标志着我国水利大数据发展进入高峰期。安徽省 2018 年开始筹建省级信息共享平台,建设内容包含安徽省水利大数据中心建设[10]。
总结多年建设成效,安徽省水利大数据建设有以下一些基础:截至 2016 年年底,已建成水利普查成果、防洪工程等 49 个水利数据库,雨量站、水位站等 5 000 多个水利信息自动采集站点;全省水利工程数据已具备一定规模;全省水利空间对象涵盖水利对象、业务和行业能力等多个方面;数据资源方面,已经入库的结构化数据量约为 3.58 亿条,容量约为 394 GB,非结构化数据(含空间数据)容量约为 11.2 TB。安徽省数据资源建设初见成效,有效支撑了各项业务工作,但仍存在现有数据资源分散、标准不一致、共享困难、开发利用效率不高等问题,严重制约了全省水利业务的发展。
随着技术发展和理念转变,基础设施由分散建设向集约化建设转变,业务系统由单一应用向协同应用转变。水利行业也应顺应新形势,建设水利大数据中心,将核心业务应用系统和关键硬件设施统一集中在数据中心,将目前分散的信息数据进行系统整合和有序共享,实现水利信息化标准统一,平台共用,数据共享,业务协同,有效地提高信息资源的利用率。为此建设安徽省水利大数据中心,可对现有数据进行统一规范整理,形成全省水利大数据中心服务支撑体系,提高资源数据共享和业务协同水平。
安徽省水利大数据中心建设内容如下:整合防汛抗旱、水资源管理、水文监测、水土保持、水利建设市场信用、协同办公等已建业务应用系统数据资源;建设数据资源管理系统,实现全省水利数据内、外部的自由交换和有序共享;构建应用服务支撑体系,为核心业务应用系统提供开发和运行环境;试点开展防洪形势分析、旱情评估大数据应用,探索大数据可视化应用;进一步加强基础运行环境建设,在安徽省水利信息中心现有基础设施的基础上,改造完善大数据中心机房,建立水利云计算平台;编制一系列技术规范和管理制度,完善标准规范体系建设。
按照前期准备工作,水利数据收集和整编,资料审查与汇编,水利数据入库、复审、评审等流程,以物理和逻辑集中相结合的方式,对数据资源进行整合。对照权责和公共服务等清单目录,梳理近些年产生的信息资源,整合防汛抗旱等已建业务应用系统数据资源。将近些年来源于公文、会议纪要、工程建设及管理档案、规划设计报告、规章制度,以及工作方案、总结、报告等纸质文件的信息,扫描形成非结构化数据并做结构化数据的提取。
以面向对象的数据模型为基础,采用物理集中为主,逻辑集中为辅的方式进行整合。按照水利对象的分类原则,对水利和涉水对象进行梳理分析,结合共享需求,进行基础信息和业务信息数据资源的整合,规范采编元数据,实现对象统一编码。将原本面向业务视图建模的离散、多元、异构、分布的 10 个大类 44 个小类的各类水利数据资源进行整合管理和利用,初步建立涉及 38 类水利基础信息、44 类水利业务的综合数据库,并编制信息资源目录。同时,采用原有业务系统和数据更新管理相结合的方式,为各类数据源的长效更新和维护提供支撑。按照先急后缓、分步实施的思路,以水利工程为主线,安徽省水利厅内处室集中接入存储,厅直单位打通共享通道的原则(物理和逻辑集中相结合),围绕水利工程建设与运维、水资源管理、防洪抗旱等业务方向,接入水利厅基本建设处、水利管理处、财务处等业务处室的数据资源,与安徽省基建局、机电排灌总站、水文局等厅直单位数据资源进行整合。
数据资源管理系统由以下 2 个子系统组成:
1)数据交换汇集子系统。数据交换汇集子系统由数据迁移与转换、交换两部分组成,实现与厅直单位、市县水利部门、省政务共享平台之间的数据交换。
a.数据迁移与转换模块。主要利用安徽省防汛抗旱指挥系统二期(以下简称省防指二期)工程的 ETL 工具进行二次开发和配置,在数据迁移转换时,完成基础配置、映射策略定制及数据迁移转换等工作,具体包括数据源、数据连接、中间视图、映射关系、数据处理等配置模块,以及数据迁移、转换和综合管理等模块。本次迁移任务中,基础数据以河流、湖泊、水利工程、水文监测站点、农业取用水户、工业取水户、水质断面、排污口、取水口、农村饮水工程、视频站点为基线,业务数据迁移内容以防汛抗旱、水利规划、水资源管理数据的迁移为基线。基础类数据经过与数据中心基础数据比对,对数据进行清洗合并,完成在安徽省水利信息化共享平台的数据入库,数据清洗包括编码、名称的标准化处理及基础数据校核等内容。
b.数据交换模块。以省防指二期工程建设的数据汇集平台成果为基础进行整合和扩展,主要指各类工具软件及利用工具软件做的二次开发,形成统一的数据交换配置管理界面,满足广域网、互联网环境下单位与单位之间的数据交换,提供数据交换节点软件一键式安装,交换节点软件使用无需原厂授权。工具软件主要包括数据库复制工具、ETL 工具、数据交换消息中间件和 ESB(企业服务总线)等。本次安徽省水利大数据中心建设对于厅直单位落地的监测数据采用数据交换子系统进行交换共享,监测数据以雨水情、取用水、水质、墒情、水质采样、工程安全、流量、工情等的监测为基线。
2)数据管理子系统。按照事权划分,分工对水利基础数据和数据资源目录进行管理更新、监测、评价,按照授权使用原则进行共享。数据管理子系统由以下子系统组成:
a.对象管理子系统。通过搭建一个高扩展性和延续性的统一对象管理平台,建立符合水利业务发展的数据规范管理系统。从数据层面解决数据不一致、不共享、不完整的问题,统一水利体系内数据的标准编码,建立主数据同步分发机制,实现主数据一处维护,多处使用,有效降低数据管理成本。
b.数据更新管理子系统。针对归并数据源物理集中的数据资源,提供更新、维护渠道,实现数据的统一更新管理功能,包括数据填报、数据批量提交、空间关联、版本管理 4 个模块。
c.元数据管理子系统。元数据管理子系统主要包含元数据获取、发布、访问、变更等的管理,以及版本管理和元数据全文检索等。
d.数据资源目录管理子系统。数据资源目录管理子系统是通过编目、注册、发布和维护水利数据资源目录内容,实现具备清单式的水利信息资源管理、发现与定位的系统,主要有元数据管理、目录管理、目录服务、目录节点和系统管理等功能,支撑目录中心和节点的运行。
e.数据运行监测与评价子系统。能够提供固定模板的综合统计分析报表,支持在每一类报表中定义、扩展分析条件。建立运行情况评价基准,依据基准进行评价,进行横向、纵向对比分析。
在整合安徽省水利厅已建防汛抗旱指挥系统和水资源监控能力建设项目等应用支撑平台基础上,基于 ESB,集成基础工具软件,为应用系统开发、运行和整合提供基础支撑框架。建设内容主要包括基础支撑软件的集成及升级,统一用户管理、身份认证的升级,统一短信服务扩展,数据字典、统一服务、应用系统注册与集成、日志与审计、统一通讯录的管理,用户行为管理与统计分析,水利对象关系簇谱等功能开发,为核心业务应用系统提供开发和运行环境。
应用支撑平台架构如下:
1)基础支撑软件购置和集成升级。本次建设主要购置 ESB、分布式数据库、ETL 工具、应用服务中间件。
集成升级主要包含:a.集成内容。实现对 ESB、数据库引擎、消息中间件、ETL、报表、工作流引擎、全文检索引擎等工具的整合集成,实现各类工具的集中维护。b.管理功能。支持在线注册和配置各类服务,并支持 ESB 通过图形化界面对服务调用数量、调用系统、失败数量等进行统计汇总。
2)应用支撑软件开发。主要包括以下 2 个方面的管理:a.数据字典管理。把应用系统中所涉及的代码及语义,按照标准进行分类管理和维护,为业务应用系统提供 1 组通用的 API 调用接口。各应用系统使用统一的字典,确保数据含义的一致性和唯一性,便于数据挖掘和深层次应用,主要通过定制开发方式提供服务。b.统一服务管理。对平台提供各类服务的统一管理,包括服务管理、权限管理、监控、注册等功能。
3)已建应用系统改造。完成已建应用系统的集成,在门户框架的基础上,集成已建、常用的业务系统,使其内容能够在门户上进行统一展现,集成的系统包括防汛抗旱综合业务、淮河防洪调度、山洪灾害预警、水资源管理等总计 44 个业务系统。
4)水利对象关系簇谱构建。在大数据中心基础上,依托属性、空间的信息检索对象间关联关系,通过网状形式进行展示。对重要水利对象进行全局检索,为对象间错综复杂的关系提供清晰的可视化展示。
基于 GBase 数据库和 Hadoop 开源框架建设,完成大数据分析框架的搭建,完成淮河流域防洪形势分析、安徽省旱情发展趋势分析、大数据可视化3 个应用场景的探索试验。大数据分析基础框架主要建设应用服务层、数据服务层、数据存储层、硬件设备 4 个层次,框架图如图1 所示。
图1 大数据分析基础框架图
框架完成 6 个节点的配置,包含 HDFS,MapReduce,Yarn,Zookeeper,HBase,Hive,Hue,Spark,Storm,Solr,Kafka,Sqoop,Flume,Thrift,Manager 等 15 个组件。与开源 Hadoop 访问接口完全兼容,实现运维、运行、运用 3 个层面的各种管理功能;支持自动部署,提供向导式和一键式部署功能;提供基于 Web 的控制台操作页面,包括软件及其中某类服务的启停,以及节点角色配置、高可用设置、负载均衡等功能;支持资源管理、参数调优、在线及状态监控等平台功能。
大数据分析试点应用包括以下 2 种:
1)防洪形式分析。主要基于现有分布式数据库的全部结构化数据,结合现有预演模型的参数设定,通过多个模型串联和并联的递进方式进行计算,对水库、水闸等水位情况进行分析和预测。
2)旱情发展趋势分析。主要基于现有分布式数据库的全部结构化数据,对单个模型进行学习计算,对安徽全省土壤含水量情况进行分析和预测。
大数据可视化主要通过图表、文字等多种表达方式,完成水利工程及其建设管理、水资源、水文、水土保持、水旱灾害防御、水利规划、农村水利、水政监察等信息的可视化,以及河湖管理信息化 10 个大数据前端大屏展示,并根据业务需求随时进行调整。
在安徽省水利信息中心现有基础设施基础上,改造完善中心机房,建立水利云计算平台,初步将省水利厅已建 72 个业务应用系统迁入云计算平台。
在安徽省水利厅现有服务器、存储硬件环境的基础上,整合利用省水文局机房的设备,形成具有较高容灾能力的水利厅云计算基础平台,为省水利厅及直属单位提供集约扩展、按需调配的计算存储环境。水利云计算平台包含云资源管理、虚拟和物理资源等层面,架构图如图2 所示。
图2 水利云计算平台架构图
1)云资源管理。云资源管理由水利云计算平台管理软件实现,主要由云主机操作系统、虚拟化网络、虚拟化存储、配置运行管理、虚拟数据中心池等功能组件组成。充分考虑省水利厅现状,在现有架构基础上,配置云管理平台,扩充云主机操作系统,新增网络、存储虚拟化功能组件,后续扩展逐渐向渐成主流的超融合架构过度。
2)虚拟和物理资源。由水利云计算平台管理软件将物理资源虚拟成虚拟资源,虚拟资源由服务器、存储、网络虚拟化等资源池构成。考虑未来 3 a 发展,服务器资源池应支持虚拟主机约 150 台。现有基础上,按照信息安全等级保护需要,新建专网办公区集群,新增物理服务器 2 台,即可满足需要。现有存储资源可用存储容量约为 48 TB,均为 FC SAN 存储,质保期过后可续保,并可适量扩容。
编制完善以下 5 个技术规范和 3 个管理办法:
1)数据质量控制规范。主要从数据采集、传输、存储、加工、汇总、共享等环节,对数据的精度、准确性、时效性制定统一的规范。
2)数据资源共享管理办法。面向应用、分级管理,对数据共享的来源、内容、方式、对象范围、更新频度、权责等方面制定管理办法,建立水利数据资源共享机制,发挥现有资源的作用和效能。
3)数据传输与交换规范。主要包括各类水利信息交换格式、方式、网络基础、频度、模型等方面的规范,可参照《水利信息交换格式》《传输控制协议》《文件传输协议》等主要国家和行业标准,根据安徽省实际情况进行扩充编制。
4)应用软件开发规范。基于省级共享平台运行环境,从应用系统接口设计、开发、发布、调用等方面规范业务应用系统建设,确保应用支撑平台业务应用系统的支撑作用。
5)运行维护管理办法。主要包括管理机制与制度、系统网络及设备运行管理、数据保存及备份、数据中心维护、软件升级维护等办法。
6)信息系统集成规范。为解决系统间的互连和互操作问题,以及各类设备和子系统间的接口、协议、系统平台、应用软件等,与子系统、建筑环境、施工配合、组织管理和人员配备相关的一切面向集成的问题,制定信息系统集成规范。
7)数据更新管理办法。为明确各级单位的责任分工,加强数据更新工作的流程化、科学化、规范化管理,制定数据更新管理规程,主要用于规范省级共享平台数据更新的组织机构、责任单位,以及更新内容、流程、方法和质量要求。
8)水利信息分类和编码规范。为确保安徽省水利信息分类的一致性、水利对象编码的唯一性,在遵照 SL 701—2014《水利信息分类》、SL 323—2011《实时雨水情数据库表结构与标识符实施规范》、SL 213—2012《水利工程代码编制规范》等标准的基础上,根据安徽省实际情况进行扩充编制。
安徽省水利大数据中心是安徽省“四个一”(一中心、一张图、一门户、一体系)建设的重要一环,也是全省水利信息化建设最基础最核心的环节。在建设过程中,横向拉通国土、气象、环境保护等相关部门资源,纵向整合省水利厅各业务处室及直属单位业务数据,确保数据有力支撑全省水利业务应用。安徽省水利大数据中心的建设,打通了水利数据通道,统一了水利对象编码、数据字典,实现了水利数据空间、属性、关系和元数据的一体化管理,解决了一数一源难题。同时还完成了数据资源编目,整编了 39 类水利对象,建立了 1 套水利数据规范,打造了水利关系族谱,厘清了水利对象之间的关系。最后,建立数据共享机制,盘活了数据资产,减少了项目重复建设,提高了资源利用率和数据应用价值。通过安徽省水利大数据中心建设,可有效落实国家和安徽省大数据发展战略和指导方针,推进水利信息化由数字化向智慧化转变,提供可供参考的经验。今后希望从以下方面做出改进:
1)完善数据共享机制。进一步消除行业壁垒,建立完善的共享权限机制,实行按需和有条件共享,简化数据共享流程,在保证数据安全的情况下,让数字资源可用,好用,减少应用系统重复建设。
2)加强大数据分析应用。基于现有数据资源基础,增加大数据及水利专业模型的应用,提高大数据分析能力,全面提升业务系统智能化应用水平。