基于数据核心技术的水资源信息平台融合设计

2018-10-12 11:37李永欣王兴浩何云霄罗学科
中国农村水利水电 2018年9期
关键词:水利协同数据库

李 文,李永欣,王兴浩,何云霄,罗学科

(1.北方工业大学机械系,北京 100144;2.北京印刷学院,北京 102600)

水利信息化是水利现代化的重要基础和标志,是引领和带动水利现代化的重要内容[1]。为了全面深化水环境治理管控,必须全面深化水利信息化的实现[2-5]。近年来,随着国家多项水利信息化重点工程的落实和实施,全国水利信息化进程进一步加快,大数据、云计算、机器学习等信息技术与水利业务逐步实现深度融合,在基础设施、业务系统、基础支撑和网络安全等保障体系方面取得显著提升。但是,由于项目投资来源不同、各部门建设管理各异、运行维护分散等原因,导致存在基础设施重复建设、业务模块割据、存在信息孤岛、建设目标单一等问题,在造成资源浪费的同时,严重影响了水利信息化系统整体效益的发挥[6-9],因此,建设统一的信息化监控管理系统,实现信息共享、业务协同,对推动水利信息化建设具有重要意义。

1 总体设计方案

水资源信息化监控管理平台融合设计采用“数据核心技术”思想,即一切以海量数据为核心,利用先进的计算机技术和机器学习算法,将这些数据转化为水利系统的功能和具体业务流程。数据核心技术通过对目前已有的水利数据资源体系的梳理融合,构建统一的水利数据标准和数据资源核心目录,实现对水利数据资源的统一存储管理和科学分析,促进水利数据资源的融合与共享服务,形成水利信息化数据融合核心数据库及专业分析展示。基于该思想,资源融合设计方案主要内容为“4个平台3级共享”。4个平台包括:数据融合平台,应用支撑平台,信息协同平台和综合业务平台;3级共享包括:底层支撑数据共享,系统信息共享和业务信息共享。

实现“4个平台3级共享”的总体融合策略为:通过服务组件的剥离与组装,完成水利业务应用体系的共性剥离,结合基础商业软件,形成为上层业务应用提供共性服务的统一支撑平台。通过已有的资源系统,融合形成统一“模块化”的业务软件框架,提供基础性的业务软件平台。系统对水利各业务系统信息资源进行有效融合,统一管理,统一应用,融合水资源数据库,最大限度实现水利内部业务平台融合,实现共享协同[5,10-12],实现对应用服务的有效支撑,提高信息资源综合应用能力和业务协同能力,减少“孤岛”现象,实现跨业务系统的协同办公,完成为公众提供水利服务,为水利部门提供日常巡检、预测预警和指挥调度支持,为政府相关部门提供辅助决策支持。

2 信息平台数据融合共享设计

水利行业的数据融合主要是指整合水利系统相关的多个数据源和知识描述,并在一定准则下进行分析综合,从而形成决策和评估的过程。数据融合是信息平台融合与数据共享的关键,常用的数据融合方案主要包括多数据库整合、数据仓库整合、中间件整合和Web Services整合等[12-14]。数据仓库是一种面向主题的融合方案,Web Services属于一种自包含的、模块化的应用程序,这2种方案与水利系统的数据融合不匹配。基于此本文信息平台数据融合主要通过不同平台的多数据库整合方案实现,主要包括水利数据融合,底层支撑数据共享,系统信息共享,业务信息共享等多个内容。多数据库的整合根据数据库的具体情况灵活选取ETL技术或数据交换中间件。通过元数据技术、分类编码技术和资源目录映射等实现水利科学数据共享机制。

2.1 水利数据融合

水利行业中的数据不同于传统的互联网或金融行业的数据,水利数据不仅数据庞大、结构异质,而且数据存储分散、业务交叉与管理事权复杂[15]。不同水利信息化子系统中所管理的水利信息资源在数据内容、语义环境和存储结构上都有极大差异,既包括水资源、水土保持、农村水利、气象和政务信息等数据库,又有遥感影像、矢量空间等半结构或非结构化数据。在数据融合平台上,需要将这些异构数据映射在相同的语义环境下,达到统一查询和互联互通的目标。

针对上述问题,平台设计了基于ETL工具的数据融合模块和异构结构化数据交换中间件2种方式。数据融合模块的实现过程为:将水利数据从各原始的水资源信息化子系统中读取出来,并按照预先制定的规则将抽取的数据进行转换,使得原本异构的数据格式统一起来,同时完成数据清洗工作,最终将转换完的数据按照计划增量或全部装载到水资源信息化管理核心数据库中。由于水利数据庞大,为了提高ETL效率,水利数据在进入ETL系统后生成的EXF文件将转换成Flat Text文件格式,并根据不同的水利子系统数据资源量的大小选择Push或者Pull方式进行数据传输。异构结构化数据交换中间件的思想是由数据发送方将待发送的完成预处理的数据按照传输协议,经由数据交换系统送达到数据接收方,数据接收方按照传输协议对接收到的数据进行解析,并完成后续的数据操作处理。通过以上2种方式实现对异构结构化数据的融合,并将融合后的数据配置映射到统一的核心数据库中,至此数据资源主体上形成监测数据、基础数据、空间数据、业务数据、元数据5大数据体系的数据服务总线。数据交换流程见图1,水资源核心数据库结构见图2。

图1 数据交换流程Fig.1 Data exchange flow chart

图2 水资源核心数据库结构Fig.2 Core database structure of water resources

2.2 底层支撑数据共享

根据“统一规划、统一标准、统一设计、数据共享”的原则,对整合后的水利数据进行统一分类编码与资源目录匹配映射,形成分类编码数据库和资源目录数据库。为了解决水利学科元数据标准交叉重叠、难以共享等问题,建立水资源元数据库。元数据库的建设首先尊重并继承现有的国家标准,以实现与现有国家主要元数据标准库最大限度的交换与映射。同时采用集中式的存储方式,所有子数据库都对应同一个元数据库,不同水利数据的元数据在元数据库中体现为不同的表,元数据的不同要素体现为记录。最终形成以元数据库为主、分类编码数据库和资源目录数据库为辅的数据共享架构。

水利数据共享框架以水资源核心数据库和元数据库为基础,以元数据的体征提取、深加工、转换、发布为支撑,通过数据共享服务器为用户提供水利数据共享服务。当用户通过综合业务平台发出具体业务请求后,数据共享服务器首先对业务内容进行分类编码匹配与资源目录映射查询,确定该业务所需的数据资源。其次,审核该用户的权限及安全性,通过审核后与元数据库中的核心元数据进行匹配,确定所需数据资源在水资源核心数据库的实际位置并发出数据共享请求。最后业务数据通过数据共享服务器返回给业务平台,完成数据共享(见图3)。

图3 数据共享流程Fig.3 The process of data sharing

2.3 系统信息共享

水资源信息化监控管理平台是为了更好地实现水利信息资源的公开与共享服务,其面向的用户群体是全社会的,既包括普通民众也包括专业水利行业人员[16],因此对水利信息资源精准定位和关联分析至关重要。针对上述问题,设计了基于智能资源发现引擎的资源精准定位功能和基于业务协同模块的关联分析功能。为保证系统的业务识别准确性,业务协同模块进行业务分割与资源匹配后检索所需业务数据。智能资源发现引擎从工作原理上分为2个基本类别:全文搜索引擎和分类目录;全文搜索引擎通过“爬虫插件”结合启发式搜索算法,实现在大量的水利信息中抽取最准确、最具有价值的信息。分类目录利用数据融合平台和底层数据共享服务形成的水利信息资源统一核心目录,结合卷积神经网络算法进行检索优化,实现对水利信息资源目录的精准定位。至此,完成了系统信息共享的全过程。

2.4 业务信息共享

根据水利部、流域管理机构和省级及其以下水利行政主管部门的职责,其管理范畴归纳为社会服务、行业服务和机关服务3个方面[17],对应于综合业务平台的6大功能模块。但由于不同行政主管部门的权限不同,各业务系统的共享权限也有所差异。同层级或跨层级水利工作共享过程的发起者是水利事务的处理者,水利业务的处理者或下级事务的处理者通常是共享过程的协同者。为了更好地实现这个业务共享过程,提出了自上而下和自下而上2种协同共享模式。自上而下模式是基于统一权限管理目录和授权管理支撑模块,由更高层级的行政主管部门根据实际需求赋予下级部门一定的系统与功能权限;自下而上模式是基于数据融合平台的分布式数据库系统,由下级行政部门主动选择在整个平台中共享该子系统的资源目录与功能模块。

3 系统平台设计

3.1 数据融合平台设计

数据融合平台(见图4)建设以分布式数据库存储为基础,将地理位置分散、管理控制程度集中的多个水利信息化系统,通过计算机网络,融合元数据技术、数据仓库、数据字典等技术,共同组成统一的数据融合平台。数据融合平台从功能上划分为分布式数据库系统和分布式数据库管理系统2部分,分布式数据库是各水利信息化系统中各场地或节点上数据库的逻辑集合,分布式管理系统是分布式数据系统中的一组中间件,负责管理分布式环境下的数据存取、安全性、一致性和完整性等。

图4 数据融合平台网络拓扑图Fig.4 Network topology of data fusion platform

3.2 应用支撑平台设计

应用支撑平台是整个平台的保障环境,为水利信息化监控管理平台提供信息安全保障,为平台的数据安全流通提供数据接口和追踪服务,为平台的安全管理提供可行性方案。应用支撑平台主要设计内容见图5。

图5 应用支撑平台框架Fig.5 Application support platform framework

应用支撑平台中对身份鉴别和安全传输的支撑,运用PMI/PKI安全中间件,结合安全认证系统和密匙管理系统来实现。安全存储支撑模块,结合认证口令和信息认证码(MAC)技术,采用分布式存储与子系统自定义共享的保护方案。授权管理支撑采用统一的管理用户属性表,结合授权策略框架MAF(Middleware Authorization Framework,简称MAF)完成与分布式对象中间件的映射。安全审计支撑针对平台自身的安全功能进行审计,为整个应用系统的全覆盖审计和统计分析提供支撑,安全审计支撑通过Hadoop体系与Weblogic中间件的优化结合实现。

3.3 信息协同平台设计

水利行业中的业务系统繁多,但彼此可以将公用的信息以系统访问的方式提供给其他系统共享。信息协同平台,既负责完成各子平台间的流程控制、资源调配、策略选择等基础功能,又负责共享业务操作流程的协同模式控制和基于流程协同的水利业务的协同过程控制。设计内容主要包括工作流引擎、智能资源发现引擎和业务协同模块。其中工作流引擎负责水利业务协同与工作流程控制,智能资源发现引擎负责检索数据资源及其共享调配服务,业务协同模块完成最终的策略选择与业务动作实现,基于流程协同的梳理业务协同关系见图6。

图6 基于流程协同的梳理业务协同关系Fig.6 Carding business collaboration diagram of the process based on collaboration

3.4 综合业务平台设计

综合业务平台(见图7)是水利信息化平台的门户平台,对外提供统一的服务功能模块。设计模块包括:防汛抗旱指挥、水资源管理、水土保持监测与管理、农村水利管理、公共信息服务和行政资源管理,各功能模块对应于相应水利业务又分为若干子功能。所有业务功能的实现流程由上到下依次为:综合业务平台发出具体业务请求,信息协同平台根据请求制定协同方案,并调用相应的数据访问接口,数据融合平台通过分布式文件管理系统抽取所需数据返回给信息协同平台,协同平台对数据进行清洗、集成与转换并通过机器学习算法进行挖掘分析,最终将业务结果返回给综合业务平台进行可视化展示。

图7 综合业务平台Fig.7 Integrated business platform

4 应用实例

将上述水资源信息化监控管理平台应用于晋祠泉流域(见图8)。晋祠泉流域位于山西省太原市西山,其范围主要包括太原市的古交市、晋源区、万柏林区和清徐县,并涉及尖草坪区、娄烦县、交城、静乐等9县,晋祠泉流域总面积2 030 km2,其中裸露可溶岩面积391 km2。自2017年5月系统平台上线以来,已经平稳运行18个月,完成了流域内129个水位监测站、125个水质监测站、124个用水计量监测站、1个蒸发站和1个气象站的数据融合,并以此数据为支撑,辅助完成水利业务的决策分析,为政务系统和公共信息平台提供水利信息技术支持。

5 结 语

水利信息化管理平台融合是一项技术难度大、涉及面广、协同共享复杂的工作,本文对水资源信息化监控管理平台的融合方案进行了初步尝试与探索,完成的主要工作为:①设计了数据融合平台,应用支撑平台,信息协同平台,综合业务平台4个子系统;②通过集数据融合、数据共享为一体的综合性平台,实现水利信息的共享与水利业务的协同;③通过晋祠泉域水资源管理平台项目,对平台融合设计与业务协同机制进行了测试。

猜你喜欢
水利协同数据库
输入受限下多无人机三维协同路径跟踪控制
家校社协同育人 共赢美好未来
蜀道难:车与路的协同进化
为夺取双胜利提供坚实水利保障(Ⅱ)
为夺取双胜利提供坚实水利保障(Ⅰ)
水利工会
水利监督
“四化”协同才有出路
数据库
数据库