赵芳?华东? 田质胜 ?唐克银?张晨
摘 要:本文以水资源监测数据为基础,引入生态环境、农业、国土、气象、工商等相关数据,探究多元数据下的大数据平台构建方法。首先论述了大数据平台的研究现状及不足,然后阐述了多元大数据平台的建设目标与平台架构,最后探讨了平台构建的关键技术。
关键词:多元数据;水资源监测;算法模型;大数据平台
中图法分类号:TV213.4-39 文献标志码:A DOI:10.19679/j.cnki.cjjsjj.2020.0220
水是生命之源、生產之要、生态之基[1]。自中央一号文件将水利信息化作为水利建设的重要内容以来,我国基本上形成了以数据采集、数据存储、业务应用、技术规范与保障体系为一体的信息化综合体系,而水利数据的增量也达到了前所未有的高度,如何利用好水利大数据,提供更为全面可靠的水利智慧化服务是水利信息化建设亟需解决的问题。
1 大数据平台研究现状
大数据[2](Big Data)一词,最早来源于2008年“Nature”杂志公开发表的论文“Big Data:Science in the Petabyte Era”,文章发表后引起了全世界专家学者的广泛关注与讨论,也正式拉开了大数据时代的帷幕。随着通信科技的普及,大数据现已广泛应用在金融、教育、电信、娱乐等产业。
尽管大数据在水利行业上的应用尚处于起步阶段,但也积累了一定的研究成果。柴立[3]等人基于3D-VSP技术,以陕西省为例,构建了三维可视化仿真平台,解决了大数据中的共享性差、表现应用单一的问题。周浩[4]等人立足于辽宁省水利信息化的发展状况,阐述了大数据管理信息平台的建设任务和目标,提出了构建基于水资源监控数据管理信息平台的解决方案。姜小俊[5]等人结合大数据技术特点,以浙江省水资源监测大数据为研究对象,从“理数据、搭框架、推应用”三个层面阐述了大数据应用示范工程设想。陈华[6]等人解读了水文数据的特点,为水文数据的分类和存储提供了标准化设计,最终针对水文大数据的共享平台提出了全面构想。
已有研究大多仅关注水利大数据,很少引入其他行业数据,但笔者认为大数据平台的构建不能仅仅以水利数据为主,其他生态环境、农业、国土、气象、工商数据也必须引入。尤其是随着“国家水资源监控能力建设项目”的逐步实施,未来水资源大数据将更加全面准确。因此,十分有必要在水资源监测数据基础上关联其他政府部门的数据,利用大数据分析方法,对分布在各行业的数据进行清洗、甄别、融合、同化,为水资源管理与实施调控提供决策依据,为相关部门的工作和发展提供可参考的数据支撑,最终让水资源大数据实现最大价值,受之社会,并服务于社会。
2 多元大数据平台设计
2.1 平台建设目标
依托“国家水资源监控能力建设项目(一期、二期)”的监测数据成果,引入生态环境、农业、国土、气象、工商等行业数据,通过对省级用水数据和多元行业数据的集中智能化分析,实现以下目标。
(1)实现省级“水利一张图”的管理目标
实现省级平台用水情况一张图管理,全面感知和管理工业用水、农业用水、生活用水及其他用水量、行业水资源利用率类比、万元GDP用水情况类比、用水许可分布等情况。
(2)智能化水利辅助决策
形成各类用水对象和用水情况变化图,分析水资源利用率、行业用水情况排名、万元GDP用水量类比等情况,以期调整用水许可的下发和水价的定价,全面优化省级水资源分配情况,最大化水资源利用率,发挥水利部门对省市GDP情况的优化指导作用。
(3)打通业务数据壁垒、实现共享互联
基于OpenAPI开放平台连通企业数据、其他业务系统数据和其他政府相关部门业务系统数据,以API形式开放水利业务数据,形成水利行业数据开放服务标准,对农业等相关部门开放,实现数据的共享互联。
(4)形成水利行业大数据标准规范
在水利数据模型的建设和探索性分析、预测性分析的过程中形成标准水利行业数据模型和分析算法模型,建立省级水利行业大数据标准规范,规范全省水利行业信息化建设。
2.2 平台架构
水利大数据分析平台逻辑上分为四层,分别是数据采集层、数据模型层、数据分析层和数据展现层,四层逻辑架构图如下图1所示。
数据采集层作为水利智能分析平台的数据网关,采用OpenAPI的模式实现对现有水利数据库数据、生态环境数据、气象数据、工商数据、统计局数据及其他单位的数据的采集、清洗、丰富和业务一致化梳理。对于需要特殊保密性的数据,则需与数据提供单位深度合作,采用特定接口与专业系统进行采集。
数据模型层是在现有水利业务的基础上对工业用水、农业用水、生活用水的用户和区域进行数据建模,并依托数据建模标准对数据采集层的数据加工逻辑进行指导,结合数据采集平台完成水利业务数据模型库。鉴于Hadoop平台在处理非结构或半结构化数据、复杂ETL流程、多维数据计算模型具有极佳的性能,因此,数据模型层主要是利用Hadoop平台进行扩展和封装。
数据分析层依托主流大数据分析工具,算法类如:深度学习算法[7](Deep Learning)、数据挖掘算法[8](Data Mining Algorithms)等,技术类如:数据质控管理[9](Data Quality and Master Data Management)、深度语义引擎[10](Deep Semantic Engines)等,实现对大数据多维度、深层次的分析。
数据展现层是大数据分析平台的核心部分,只有可视化与准确化的展示才能最大化数据价值。本层采用成熟的数据可视化工具(3D-VSP),以组件的形式协同与集成不同数据业务,采用图件、表格、动画等多种形式进行数据解读与展现。
3 多元大数据平台关键技术
3.1 数据采集平台构建
数据采集平台是大数据分析平台的基础平台,该平台负责收集县、市、省各级部门的基础业务数据,并对有效、有用数据进行初步的清洗加工,与其他各相关部门的数据进行交换共享,汇集与水利信息有关联价值的数据,形成大数据采集平台。主要利用以下技术。
(1)纵向数据收集及清洗
通过网络采集法从下向上将县、市、省级各部门的真实有用的水利信息数据,一级一级地采集上来,形成全省的“水利一张图”,从居民楼、街道、片区到县、市、省名级,汇集取用水、水量调度、排污及水质监控等信息,精确汇总到大数据采集平台,并结合GIS信息,将各项数据精确地展示在全省地图上,形成全省“取用水信息一张图”“水资源利用率一张图”“水质监控一张图”“排污处理一张图”“水源调度一张图”等辅助决策信息。
(2)横向信息服务共享
平台以提供相应的水资源信息给各相关部门,与各相关部门之间采用开放API或服务等方式,实现数据的共享交换,最终利用算法将各种数据甄别、归类、梳理、汇集,并存储到大数据采集平台中。
(3)分布式存储和管理
大数据采集平台采用分布式云数据库的存储和管理,同时支持在线分析处理(OLAP)和在线事务处理(OLTP)能力,利用基于Hadoop架构的HDFS或HBase应用,或Redis和MongoDB等NoSQL数据库的采集,通过ElasticSearch大数据分布式弹性搜索工具来提高数据的查询效率。
3.2 数据模型库构建
平台模型库是统一存放和管理多种目的、多种用途的模型集合,其模型之间相互独立却又彼此联系,共同运行,以此解决复杂的水利分析问题。按作用分类,模型库中主要包含评价、模拟、优化、预测四种类型的模型,这四种模型作为基础单元,构建起整个模型库体系。
如图1所示,评价、模拟、优化、预测四种基础模型共同构成大数据分析平台的多个子模型模块,如水资源评价模块、水资源调配模块、水质水量预测模块等等,为大数据分析平台的业务应用提供专业的决策依据。
3.3 数据分析算法库构建
大数据时代的核心价值就是数据分析,水利大数据分析平台是凭借主流大数据分析工具的支撑,形成以多元数据为核心的智能水利业务,通过挖掘数据的内在联系与核心价值,实现对企业、工业、农业、居民生活等各项生态环境数据的预测。
水利大数据分析算法库内置常用的大数据分析模型和算法,包括:分类决策树算法、聚类分析决策算法、回归分析算法、最大期望算法、分类与回归算法、对迭代算法、最邻近分类算法、决策树模型算法等等,并支持自定义算法扩展,對算法和模型提供技术支撑。
3.4 数据业务平台构建
数据业务平台是依托数据采集平台、数据模型及分析算法库,最终形成水利大数据的业务平台,实现智慧水资源的合理利用,并产生对应的辅助决策价值。
例如,利用各行业取用水数据,通过大数据分析及建模分析,形成对比各行业历年的取水情况、真实用水情况以及同产能、同行业的用水情况对比,形成对全省各行各业用水情况的综合分析图。
通过水利大数据分析平台,结合气象、生态环境、工商等其他多元辅助数据,形成水利数据智能决策中心,充分挖掘数据价值,进行行业预测分析,如图2所示。
4 结语
大数据作为21世纪信息时代最突出的特点,不仅加强了行业间的联系,更改变了人们看待物理世界的方式。未来,随着大数据技术的不断发展,水利大数据平台的数据构成将会越来越多元化,数据间、行业间的联系也将会越来越紧密,水利也会更好地服务于人类社会。
参考文献:
[1]夏军.生命之源 生产之要 生态之基——学习2011年中央一号文件有感[J].资源环境与发展,2011(1):3-5.
[2]Naimi A I,Westreich D J. Big Data:A Revolution That Will Transform How We Live,Work,and Think[M]. 2013.
[3]柴立,解建仓,姜仁贵,等.区域水资源监控三维可视化仿真平台研究[J].西安理工大学学报,2016,32(3):271-277.
[4]周浩,田文英,张洵.辽宁省水资源监控管理信息平台功能与构建[J].水资源开发与管理,2016(4).
[5]姜小俊,虞开森,金宣辰.浙江水资源监测大数据应用示范工程设想[J].水利信息化,2017(4).
[6]陈华,徐坚,肖志远,等.水文大数据共享平台研究与设计[J]. 水资源研究,2018(1):10-18.
[7]Lecun Y,Bengio Y,Hinton G. Deep learning.[J]. Nature,2015,521(7553):436.
[8]Pappa G L,Freitas A. Automating the Design of Data Mining Algorithms[M]. 2010.
[9]Matebu A,Kitaw D . 6. Data Quality Management[M]// Master Data Management in Practice:Achieving True Customer MDM. John Wiley & Sons,Inc. 2012.
[10]Cretella G,Martino B D. A semantic engine for porting applications to the cloud and among clouds[M]. 2015.
Research on Diversified Big Data Platform Based on Water Resources Monitoring
Zhao Fang1,Hua Dong 2,3,Tian Zhisheng 1,Tang Keyin 1,Zhang Chen 1
(1. Shandong Provincial Institute of Water Resources Survey and Design,Jinan 250014 China;
2. Information Center of the Ministry of Water Resources of China,Beijing,100032,China;
3. National Water Resources Monitoring Capacity Building Project Office China,Beijing,100032,China)
Abstract:This paper introduces industry data such as environmental protection,agriculture,land,meteorology,industry and commerce,and explores the construction methods of big data platforms under multiple data. The article first discusses the research status and shortcomings of the big data platform,then expounds the construction goals and platform architecture of the multi-big data platform,and finally discusses the key technologies of the platform construction.
Key words:Multivariate data,Water resources monitoring,Algorithm model,Big data platform
收稿日期:2020-04-09
作者簡介:赵芳,女,山东省水利勘测设计院,E-mail:wenbo.fu@qq.com