彭 玲,王 丹,陶富岭
(1.新疆额尔齐斯河流域开发工程建设管理局,新疆 乌鲁木齐 830000;2.黄河勘测规划设计研究院有限公司,河南 郑州 450003)
我国水资源分布呈现出南多北少的时空分布规律,水资源短缺已成为缺水地区经济发展的掣肘点,习总书记提出了“节水优先,空间均衡,系统治理,两手发力”的新时代治水方针。通过调水工程可有效解决水资源空间分布不均匀的问题,助力经济社会的可持续发展。在调水过程中,通常面临输送距离远,工程范围广、规模大,涉及建筑物复杂等系列问题,此外复杂的自然环境和地质条件也增加了调水工程的难度。
调水工程除承担供水任务外,还兼具防洪、发电、灌溉、生态、航运等多重任务。因此在调水工程运行时,需进行水资源的优化调度,水闸泵站的精准控制,水质、水情的实时监测预警,此外还需保证调水工程的安全问题,实现高效、智能的工程管理。为补足水利行业在信息化方面的短板,迫切需要从传统的管理理念和方法向专业化、精准化、智能化的新时代水利工程管理要求转变。
大数据作为一种崭新的研究和工作方法,在洞察海量数据间的内置规律、内在关联、新价值方面具有显著优势,可进行精准决策、业务优化,在经济社会中具有极大的应用潜力。关于大数据在信息时代的应用,各研究机构给出了不同的观点,其中Gartner认为,大数据要具有更强的决策力、洞察力和流程优化能力,才能够适应未来信息资产的海量化、多样化以及高增长的特性,更新大数据的处理模式是必经之路;麦肯锡认为,目前尚且无法通过传统数据库软件对大数据进行处理分析[1- 2]。国内外在水利工程大数据理论研究和工程应用方面都进行了一些尝试,但从总体上看,目前的研究成果尚不能满足市场对大数据技术的应用需求。笔者针对调水工程大数据,从数据生成到应用,提出了总体架构并分析了七大应用场景,为调水工程大数据应用发展提供了理论方法基础。
遥感、物联网、射频等新一代信息技术的飞速发展,大幅度提升了调水工程的数据采集能力,随之而来的问题是,数据空间尺度和要素类型变得愈加复杂。来源范围广泛类型众多的数据,开始呈现出多源异构、分布广泛和动态增长的特点。
从数据类别看,既有来自物联网设备的水文、气象、水质、旱情、工程安全、引供水、水生态、闸泵工况等大量的实测信息,还有大量与工程相关的调水区、受水区、沿线区域各类辅助信息,如社会经济数据、自然地理数据、人文信息、地质灾害数据、交叉工程外部信息、生态环境数据、土地利用、水土保持、工程视频和互联网数据等。虽然上述数据类别不一,但其并不完全独立,相反地,各类数据之间存在复杂的业务和逻辑关系。如气候类型的转变会引起水资源量空间分布规律的改变,进而对调水工程、水生态环境、洪旱灾害、水资源分配等一系列数据产生间接影响。从数据结构看,大数据兼具结构化数据以及非结构化数据特征,然而目前的技术架构尚无法满足高效处理大数据的需求。
从价值密度看,新技术带来了巨大的信息量,但同时也导致信息的价值密度降低,因此需要通过模型算法快速地从海量数据中提取有用的信息。从时效性看,某些实时性数据,比如洪灾预警、工程安全、水质变化、设备故障征兆等,需要及时高效的信息处理和反馈,常规的数据分析方法难以在合理时间内获取和处理,为此需要借助大数据技术,以实现调水工程管理的科学决策。
在长期运行管理中,调水工程的业务数据已逐渐向多源化、多态化、以及多维度的方向演变,具体表现为以下五项显著特征。
(1)数据量规模庞大:随着时间的累积,调水工程各类数据量增长迅速,数据量级通常在数百TB甚至PB以上。
(2)数据多源异构:调水工程数据不仅包含运行管理数据,还涵盖了勘测规划设计等多种来源的海量数据,多源数据伴生的问题是复杂的数据结构。
(3)数据增速迅猛:信息化技术的提升提高了运行管理水平,监测密度大幅提升,各环节的数据指标也显著增多,相比传统技术手段数据增速呈几何增长态势。
(4)数据信息价值高昂:运行管理单位以及水行政主管部门,愈加依赖于工程运行数据来进行业务处置,在工程安全和经济运行、资源优化配置等方面数据信息的高昂价值愈加凸显。
(5)实时要求:通过对部分工程数据(如工程安全数据)的实时监测,可以快速高效的判别险情,并及时做出相应应急决策,因此需具备实时处理的特性。
数据架构描述数据全命周期管理的流程、参与流程的功能构件以及它们之间的相互关系。数据架构围绕调水工程业务应用数据和大数据两类,分数据汇聚、数据整理、数据存储、数据服务、数据应用逐级流转。调水工程大数据通过数据资源池的全域数据采集、标准规范数据架构、深度萃取数据价值、统一数据资产管理和统一主题式服务,形成对调水工程业务应用和管理决策过程的支持[3]。
在服务于调水工程大数据的存储与应用需求时,受制于数据处理分析等技术特性限制,传统架构稍显乏力。为满足丰富的业务需求,在智慧水利数据架构的基础上,结合调水工程的特点,构建调水工程大数据总体框架[4]。针对不同的数据类型,选用最优的技术手段进行分析处理,如采用关系型数据库对结构化数据进行组织和管理;利用空间数据引擎进行地理空间数据的高效管理;以关系型数据库管理目录加文件存储方式对半结构化或结构化数据进行组织管理。通过多种数据组织与管理方式结合,共同支撑工程大数据的存储和管理。此外,上述数据管理方式并非独立存在,可通过数据抽取及装载工具进行数据间的转换及补充[4- 5]。
基于大数据的调水工程数据应用架构具体可划分为五个层次,分别为数据汇集、整理、存储、服务、应用[6],其架构如图1所示。其中,调水工程大数据汇集和整理是其存储和应用的基础;调水工程大数据存储和共享研究通过数据资源化和调水工程大数据中心的构建,实现安全可靠的数据存储和互联互通;根据调水部门的业务需求,利用调水工程大数据实现调水业务管理和决策。
数据汇集是调水工程数据流程的起点,同时也是主体化汇聚核心能力的体现[7]。要构建调水工程大数据,首先需要对不同来源的异构数据进行采集和汇总。异构数据来源主要分为三类,上报采集数据、其他系统数据、其他部门交换数据。在数据汇集的过程中,对现有业务系统数据库,并不需要整库进行迁移,可按业务需求对需要汇集的数据项进行梳理,以联合建模的方式对部门数据共享,这样也可避免行业壁垒所带来的数据共享难题。
数据整理是对数据汇聚后的多源及多元数据进行统一整理,主要包括梳理数据间的逻辑关系,提升数据的规范性,避免数据冗余,提升数据一致性。具体包括坐标、编码等方面的统一,以及对海量数据进行抽取等。
针对规则化调度数据,主要是基于业务逻辑和处理规则,建立对象实体关系,将不同对象数据进行关联。针对复杂多变的大数据,通过抽取、清洗等,连接不同来源的数据,以对数据进行有效利用。
数据存储是通过结构化数据环境,承担时空一体化水利数据的存储和管理任务。为解决传统调水工程数据存储分散、信息孤岛、利用率不高等问题,建设调水工程数据中心,实现工程数据的统一管理及应用。在建设调水工程数据中心之前应制定统一的数据存储和共享标准,包括统一的数据编码体系。并通过统一的技术架构和集成方法,有效降低数据交换和共享的复杂度,提高数据使用效率。
图1 调水工程大数据总体框架
建立调水工程数据中心,可从5个方面进行:①对当前信息系统已存储的原始数据进行梳理,获悉各类数据以及数据结构之间的逻辑关联;②根据业务需求制定科学合理的工程数据资源目录,实现数据接口、元数据格式、数据编码的统一定义;③确定数据整合规则及策略,以此为基础建立严格的数据校验机制;④通过中间件技术实现数据资源的统一访问和调用降低整合成本,实现数据整合;⑤开发分布式数据存储云平台,实现基于云的数据统一存储和共享。
数据服务是从存储层抽象出来的标准化、可共享的服务[6]。目前信息化呈现出横向拓宽、纵向加深的发展趋势,大量的多种类低价值数据源源不断的涌入数据库,要实现对数据的高效利用,需满足前置条件即快速准确的从海量数据中获取有价值的信息。通过Map和Reduce可以有效的对数据进行归类、关联、分析、重组,满足数据分析处理的业务需求。调水工程大数据分析的着力点在于根据业务应用的需求,实现对数据的处理、挖掘和可视化操作,主要的技术手段为依托于云计算的数据挖掘、机器学习等。
依托大数据技术可以充分挖掘数据的应用和决策价值。通过耦合分析实时、历史数据,对调水工程数据进行实时监控、动态分析、预警预报、决策生成,实现跨区域、跨部门的信息资源一体化,使大数据具备知识服务功能,对不断变化的数据进行态势评估与可视化表现,从而提升调水工程管理决策水平。
依托Hadoop等大数据处理平台可实现调水工程大数据的具体应用。Hadoop具备强大的批量数据处理和分析能力,在调水工程数据架构中,可采用该系统存储非结构化和半结构化数据,结合MapReduce批量处理历史监测数据,为监测数据的分析挖掘和模型计算赋能。在调水业务应用中,一些关键数据指标如雨情、水情、工情等大量实时数据需要进行高效、实时的处理操作,在数据应用架构中加入Storm实时计算框架,可大幅提升实时数据信息的决策处理能力。
结合调水工程调度管理与运行维护实际需求,大数据在调水工程中主要有以下典型应用场景。
(1)水量优化配置。如何进行科学合理的水量分配是调水工程需要着重解决的核心问题。借助大数据技术预测受水区需水变化规律、水源区来水变化过程,对水量实时调度信息、用水户基本信息等多维数据进行综合分析,为优化水量分配原则、合理制定水源地水量调度方案及供水方案,提供智能化的决策依据,达到提高用水保证率的目的。
(2)工程安全管理。调水工程具有线路长、范围广的特性,保证工程的安全性是调水工程运行的先决条件。大数据可以通过对地形地质、气象水文、交叉建筑物信息、以及社会经济等数据进行融合分析,构建针对调水工程安全管理的多维大数据库,实现数据重组、整合和分析,进而实现工程安全监测、实时诊断、以及预警发布等功能。
(3)供水成本优化。供水成本核算涉及输水损失、工程运行维护、工程管理等参数和指标,数据的信息量较大。通过开发合理的供水成本模型优化算法,并结合大数据分析技术,针对水量分配方案等相关方案信息,实现供水成本费用测算和成本费用优化,为工程运行精细化管理提供技术支撑[7]。
(4)工程机电机组故障诊断和预警。将机组振摆、压力脉动、发电机局放、变压器油色谱等在线监测数据及监控系统数据进行综合分析处理,通过数学运算提取信号特征值,利用大数据技术分析设备运行规律,提取长周期趋势分析结果,评估机电机组设备的健康状态,为状态检修和维护提供科学依据[7]。
(5)水环境监测和水资源保护。在水环境监测方面,个人在移动社交平台上发布的突发水污染事件成为重要信息源。通过对此类数据进行数据提取、关联分析和挖掘利用,为水环境监测和预警提供依据。在水资源保护方面,将重点行业的用水数据纳入到调水工程大数据关键分析体系之中,逐步完善水资源监管体系,从根源上提高用水效率,提升行业效益。
(6)洪灾预警管理。传统洪涝灾害预测通常是通过在目标区域内设置雨量监测站,通过实时和预测降雨情况,利用水文模型进行洪水预测。这种方式存在洪水预见期短、预报精度不高的问题。采用大数据进行暴雨洪水相似性分析,结合历史洪涝灾害数据,则可有效弥补水文模型预测洪水的技术短板。
(7)旱灾预警管理。通过对卫星遥感、地形地貌条件、历时降雨、江河水位和历史灾情等海量数据进行整合,在此基础上建立旱灾预测模型,能够有效预测旱情,提前优化水库蓄水,降低旱灾发生的可能性,减少旱灾损失,使调水工程的水源供给得到保证。
传统水利数据分析方法为我国水利信息化发展做出了有力贡献,但随着信息技术的飞速发展,以及水利业务数据分析处理需求的不断增长,迫切需要新的数据分析处理方法。调水工程大数据研究方法技术优势明显,相较传统方法具有本质区别,主要表现为:
(1)分析处理数据体量迥异。传统的数据分析方法是基于少量的抽样数据因此不能确保分析结果的全面性以及可靠性,而大数据分析方法则是依托于多源异构的海量数据,相较于传统方法虽然增大了数据处理技术难度,但分析结果更加精准、智能。
(2)数据分析维度、角度差异性较大。传统水利数据分析方法仅针对于某一专业或某一部门,而大数据分析则立足于多维度、多角度,跨越了专业、部门甚至于领域的限制,从数据间复杂的逻辑规律寻根溯源,更加深入了分析数据背后所蕴含的内在机理。
大数据技术为调水工程管理决策提供了新思维和新手段。本文介绍了调水工程大数据特点、大数据技术架构、大数据应用方法以及应用场景,但在调水工程大数据集成、调水工程大数据分析挖掘算法、调水工程大数据数据安全等方面尚未完整论述。大数据在调水工程中的应用呈现良好的发展态势,需不断进行研究和应用,以逐步形成调水工程大数据的理论方法体系。