基于大数据驱动的山东水利信息高效管理系统建设研究

2017-06-09 08:58张联洲赵志刚朱效民
中国水利 2017年10期
关键词:海量结构化数据挖掘

樊 冰,张联洲,赵志刚,朱效民

(1.山东省水利科学研究院,250014,济南;2.山东省计算中心(国家超级计算济南中心),250014,济南)

基于大数据驱动的山东水利信息高效管理系统建设研究

樊 冰1,张联洲1,赵志刚2,朱效民2

(1.山东省水利科学研究院,250014,济南;2.山东省计算中心(国家超级计算济南中心),250014,济南)

开展水利大数据分区管理模型应用研究,构建水利大数据分区管理模型,开发水利大数据分区管理系统,实现水利大数据的分区管理与深度挖掘应用。在水利大数据环境下,研究了如何将分散在不同系统、不同部门的水利系统数据进行高效整合,做到数据互联。基于大数据互联及存储平台,对如何进行全员数据统一分析、展示,实现跨业务系统的协同应用,实现水利信息化集成数据与互联网数据的互通与结合,进行了关键技术分析。

大数据;海量存储;数据挖掘;智能检索;山东

近年,随着大数据技术的兴起,海量数据的集成与统一管理、存储、分析成为了可能。利用最新的大数据互联互通、存储技术等,可将分散在不同系统、不同部门的水利系统数据进行整合,做到数据互联,并基于此数据互联及存储平台,通过针对全员数据的统一分析及数据挖掘技术,建立面向全员数据的GIS展示、分析及可视化平台,实现跨业务系统的协同应用,实现水利信息化集成数据与互联网数据的互通与结合。

一、建设现状及问题

山东省信息化工作开展较早,并取得了较大成绩,但由于体制机制等方面的原因,在建设规模、应用成效等方面与以上海市水务局等为代表的东部先进省份(直辖市)的差距正逐步拉大。山东省水利信息化基础设施仍然薄弱,水利信息化在适应以水资源可持续利用支撑经济社会可持续发展的要求上还存在一定差距,水利信息化工作还面临着许多困难,突出表现在两个方面:

一是建设标准不规范。大部分地区都是根据各自的工作需要,边建设边实施,工程建设随意性大,难以形成统一、完整的系统。信息采集系统不配套,动态信息采集环节薄弱,信息采集在空间、时间和类型上还有很大差距,特别是信息的数字化和规范化程度过低。软件开发技术和标准不统一,系统开发水平参差不齐,系统兼容性及可扩展性差,导致资源整合和数据共享困难。

二是基础数据库的建设问题。完善的基础数据库是水利信息化建设的核心,但目前大部分数据库分散建设在各个地区和不同的业务部门,数据库建设过多且分散,已建成的应用系统及数据库分别在各自服务器运行,存在用户身份认证不统一、采用的数据库功能不全面等问题,数据库间缺乏信息共享机制与手段,许多数据库为解决特定的项目或业务需求而建,自成体系,规范性差,存储数据难以同化、难以调用、难以共享,导致数据库只能在有限范围、有限时段内被少数人员熟悉和使用,客观上形成了信息孤岛、数字鸿沟和资源壁垒,难以实现数据共享与统一管理。

因此,基于现有的水利信息系统进行数据的互联互通建设,形成大数据环境,并对大数据进行挖掘分析和GIS展示是非常有必要的且是非常迫切的。

二、主要研究内容

一是开展水利大数据分区管理模型应用研究,构建水利大数据分区管理模型,开发水利大数据分区管理系统,实现水利大数据的分区管理与深度挖掘应用。二是在水利大数据环境下,研究水利大数据在线GIS应用模式和构筑水利信息化“ONLINE GIS”基础架构和应用服务平台的关键技术,开发水利大数据在线GIS应用系统,实现GIS空间数据管理、空间数据分析和空间数据可视化。三是研究大数据环境下水利业务信息的一体化智能检索(垂直检索)关键技术,建立水利数据垂直搜索引擎基础理论模型,开发山东省水利数据搜索引擎,解决通用搜索引擎查询结果相关度低、返回信息过多、死链接较多、信息无序化等问题。四是研究构建一体化多维信息感知网基础架构。

三、水利大数据系统搭建

水利大数据系统将汇集、存储3类重要数据:①基础数据,包含历史水文数据、地理信息数据、工情数据;②专用数据,包含社会经济信息、旱情(墒情)数据、实时水雨情数据、历史洪水数据、历史台风数据、超文本数据、历史水量数据、图形、动态影像、水土保持数据、水资源数据、水环境数据、水利规划计划数据、水利经济数据、水利科技数据、水利档案数据、行政管理数据、水利人事数据、水利建设数据、水利党务数据、水利纪检监察数据、水利财务数据、农村水利管理数据、水利政策法规数据、海河局数据、淮河局数据、小清河数据等;③元数据。水利大数据系统还将融合各级政府、相关政府部门、部门内部不同业务系统的数据。

四、实现方法研究

本次研究内容围绕水利数据的汇集和存储展开,主要实现方法为多源异构水利数据的高效整合、海量水利数据的高效存储、海量数据的展示与分析挖掘。

1.多源异构水利数据的高效整合

水利数据的来源可分为3类,分别来自浅层互联网、深层互联网或其他遗留水利业务系统以及多种传感器。数据具有明显的多源异构特性,给数据采集、整合带来很大困难。本系统将有针对性地攻克基于网络爬虫的互联网信息智能爬取技术、基于API的遗留系统数据整合技术和传感数据高并发采集技术等3类数据采集技术,实现多源异构水利数据的高效整合。

2.海量水利数据的高效存储

水利数据类型多样,而当前大数据存储与处理技术没有 “包治百病”的方案,需要根据数据类型和访问模式选择合适的存储技术,如分布式文件系统适合存储海量大文件(如大图像或流媒体),对象存储适合存储海量小文件(如文档、小图片),分布式列数据库适合存储海量弱关系半结构化数据(如简单物联数据、日志),关系库集群则适合存储强关系结构化数据。为综合发挥不同大数据技术的优势,本系统将研发融合存储控制器,根据数据类型调用相应存储系统,实现海量水利数据的高效存储。

3.基于水利大数据统一平台的数据展示及分析挖掘

水利大数据平台系统整合了若干水利信息系统的数据,这些行业信息包含大量的半结构化、非结构化信息数据,信息数据的组成结构、类型格式、存在形态等都愈加复杂。如何对这些大数据处理和挖掘分析是重要的研究内容。主要包括:海量数据的查询和搜索、大数据统计分析、大数据挖掘。

五、关键技术研究

1.多源异构水利数据的高效整合

(1)基于网络爬虫的互联网信息智能爬取技术

网络爬虫是一种按照一定规则,自动抓取网络信息的程序或者脚本,该技术可自动采集浅层互联网数据。本系统重点从抓取范围和速度两方面来完善互联网信息智能爬取技术。

全面抓取:随着网络技术的发展,网页实现形式多种多样,不同的开发技术应用于网页研发中,给网页抓取带来了困难。为实现网页信息的全面抓取,本系统对异构网页抓取技术进行研究,可实现网页信息的全面抓取。

快速抓取:互联网的业务相关网站数量非常庞大,单点抓取技术效率低,无法满足大规模网页数据的快速抓取需要。本系统采用MapReduce编程模型,可进行分布式计算并行抓取,从而实现大规模网络数据的快速抓取。

建立索引:把抓来的信息建立类似书目的数据文件,便于实现高速检索。索引系统涉及的关键技术点有分词技术、预评分和后评分、增量索引与全索引、排序技术、热点词高速缓存、标准检索语句解析等。

(2)基于 API(应用程序编程接口)的遗留系统数据整合技术

遗留系统数据是指各水利部门历年建设的各类信息采集存储系统,由于开发公司不同,系统又多无原代码,如进行重新编译改造难度很大,再加上深层互联网及遗留系统数据受制于技术、接口及实施效率,整合难度很大。

本系统采用深层互联网及遗留系统数据访问API的自动生成技术,进而通过API整合遗留系统数据。基于软件体系结构重建技术,通过对系统界面和数据流的学习,将系统复杂的数据请求及展示转化为开放、简洁的API数据服务,不受限于源系统的开发语言、存在形态,对各种形态的系统均能生成数据服务,提供开放、不受限的数据服务。该技术颠覆传统数据整合方式,非侵入式地获取异构业务系统数据并提供API数据服务,无需对遗留系统的代码、数据、文档做全面分析,只要有人机界面即可完成,可显著降低整合难度,提高整合效率,可用于数据集成、数据交易、移动开发、大数据处理、数据集成与业务流转、商业智能与分析等方面。

(3)传感数据高并发采集技术

当前很多物联网应用都有性能瓶颈,即仅能适应传感器点数比较少的场景,传感器点数过万后就难以胜任,性能瓶颈严重制约着传统物联网在更大范围的推广应用。性能瓶颈的根源在于后台采集服务器的设计缺陷。

本系统将从两个方面进行攻关,一是综合采用epoll模型、线程池、数据库连接池技术,实现单台采集服务器可支撑过万并发;二是实验采集服务器集群技术,当并发压力超过单台服务器负载时,通过横向扩展(增加服务器)来分担压力。

2.海量水利数据的高效存储

本系统将研发融合存储技术:对于非结构化数据,采用HDFS(分布式文件系统)存储大文件(如大图像或流媒体),采用Swift存储海量小文件(如文档、小图片),采用HBase存储海量半结构化数据 (如简单物联数据、日志),采用MyCAT+MySQL关系库集群存储结构化数据;然后通过融合存储控制器,根据数据类型,调用相应存储系统(如图1所示),充分发挥不同存储技术的优势。

(1)结构化数据存储

结构化数据存储比较成熟,通常采用分布式关系型数据库集群,集群有多种,如负载均衡集群、故障转移集群、主从集群、多活集群等,借助分布式关系数据库集群,可以满足海量数据存储与处理需求,并可以获得更高的吞吐量、更好的资源利用率和更低的响应时间。

(2)半结构化数据存储

半结构化数据存储采用列存储数据库方案HBase。HBase是一个分布式的、面向列的开源数据库,列存储数据库将数据以键和列的形式存储于表中,并且在表中将键以字典的顺序排列。表在行的方向上分割为多个域,域是按大小分割的,每个表开始只有一个域,随着数据增多,域不断增大,当增大到一个阀值的时候,域就会等分为两个新的域,之后会有越来越多的域。域是分布式存储和负载均衡的最小单元,不同域分布到不同域服务器上。列存储数据库适合存储数据量大,与普通纯文本数据相比具有一定的结构性,但是结构变化大,难以建立严格的理论模型的半结构化数据。而且分布式列存储数据库还可以提供非常好的扩展性和可靠性。

(3)非结构化数据存储

非结构化数据存储可分为对象存储系统 Swift和分布式文件系统HDFS。对象存储系统将数据通路(数据读或写)和控制通路(元数据)分离,并且基于对象存储设备(OSD)构建存储系统,每个对象存储设备具有一定的智能,能够自动管理其上的数据分布。对象存储系统主要有3个组成部分:代理服务器、存储服务器和一致性服务器。认证服务通过认证节点完成。代理服务器是提供API的服务器进程,负责组件间的相互通信,对于每个客户端的请求及查询账号、容器或对象的位置进行相应地转发。存储服务器提供了磁盘设备上的存储服务。一致性服务器用于查找并解决由数据损坏和硬件故障引起的错误。

分布式文件系统HDFS是通过高效的分布式算法,将数据的存储及访问分布在大量服务器之中,在可靠的多备份存储的同时还能将访问分布在集群中的各个服务器之上。对于较大的文件,HDFS将文件的不同部分存放于不同服务器之上,在访问大型文件时,系统可以从服务器阵列中的多个服务器并行读入,增加了大文件读入的访问带宽。该系统对存储和读取大文件有独特优势,且适合一次写入、多次读取。

图1 数据融合存储技术

(4)数据缓存

为提升平台的性能、可用性和稳定性,可采用数据缓存系统。数据缓存系统主要包含文件缓存模块、延迟写入模块和数据库缓存模块等。文件缓存模块和数据库缓存模块可以对用户最新读取或频繁读取的数据进行缓存,当用户下次读取相同数据时可以直接从缓存中获得而无须再次访问文件存储系统,从而大幅度减少数据读取时间,提升系统性能和用户体验。延迟写入模块则是暂时缓存用户存储的数据在缓存区,当缓存的数据达到一定规模后再统一存储,这样可以减少对磁盘的频繁写入,而且可以提高磁盘的使用率。数据被缓存后即告知用户写入完成,因为将数据写入缓存的速度比写入磁盘的数度快很多,所以延迟写入可以大幅度降低数据的写入时间,提高系统性能。

3.水利大数据展示及分析挖掘

(1)大数据查询与检索

在海量行业系统中快速、准确查找用户所关心的数据是数据平台的重要功能,特别是针对非结构化数据的查询和检索,这也是跨媒体领域研究的重点。拟通过对异构数据统一表示、索引方法的研究,实现跨媒体数据的快速查询和搜索。

(2)大数据统计分析

大数据的统计分析是部门做总结、汇报和决策的基础,统计分析对于政务部门非常重要,一是要得到统计分析的结果,二是要实现分析结果的可视化。部门对统计报表、视化效果的需求迫切,众多部门的个性化需求多。拟结合部门业务需求,开源BI系统,研发高效的大数据统计分析系统。

(3)大数据挖掘

大数据挖掘是行业大数据分析平台的核心内容,针对不同部门的需求进行业务建模,对应到相应的数据挖掘模型,通过对大数据挖掘模型和算法的研究,实现针对结构化数据库、非结构化数据的分布式数据挖掘,为各部门提供快速、高效挖掘分析服务,为决策提供更新全面可靠的依据。本系统通过MapReduce的大数据挖掘算法、半监督学习方法、信息瓶颈理论聚类、基于互信息特征提取等方法,解决了大规模半监督学习的难题。对于图像、语音等检测和识别问题,本系统通过对MapReduce深度神经网络进行研究,制定了高效的并行深度学习方法,解决了行业大数据中遇到的大规模图像、语音、文本识别与分类问题。

[1]程学旗,等.大数据系统和分析技术综述[J].软件学报,2014(9).

[2]刘明亮,等.数据挖掘技术标准综述[J].计算机科学,2008(6).

责任编辑 安天杭

Studies on construction of highly-efficient water information management system based on big data drive

Fan Bing,Zhang Lianzhou,Zhao Zhigang,Zhu Xiaomin

Establishment of a management model with big data sub-system based on research and studies is vitalforrealization ofdivided managementand furtherapplication ofwaterinformation.The study has concentrated on how to realize information integration ofscattered data in differentsystemsand varied departments,within the environment of big data,so as to get interconnected data.Key technologies for overall analysis and demonstration of all data are evaluated,in order to apply business system in a coordinated way and achieve interconnection and combination between integrated water information and Internet data.

big data;mass memory;data mining;intelligent retrieval;Shandong

TP393+TV

:B

:1000-1123(2017)10-0055-04

2017-02-15

樊冰,工程师,研究方向为水利信息化。

猜你喜欢
海量结构化数据挖掘
一种傅里叶域海量数据高速谱聚类方法
改进支持向量机在特征数据挖掘中的智能应用
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
海量快递垃圾正在“围城”——“绿色快递”势在必行
软件工程领域中的异常数据挖掘算法