李咏梅
(新疆维吾尔自治区水文信息中心,新疆乌鲁木齐 830000)
数字孪生流域是以物理流域为单元、时空数据为底座、数学模型为核心、水利知识为驱动,对物理流域全要素和水利治理管理活动全过程的数字化映射、智能化模拟,实现与物理流域同步仿真运行、虚实交互、迭代优化。
本文简要介绍了数字孪生概念产生的背景和主要特征,并结合水利行业特点,借鉴北京航空航天大学陶飞教授“数字孪生五维模型”思想,定义了数字孪生流域模型。随后,讨论了数字孪生流域实现过程当中势必遇到的“大数据”问题,并希望借助先进的技术理念化解难题。文中基于数据湖构建数字孪生流域的建设方案将海量异构数据统一汇聚、治理整合、共享交换、存储管理于集中式数据湖“算据”中心,利用数据湖内置的多模态分析计算引擎如批式处理、流式计算、交互式分析、机器学习、人工智能与领域知识、历史场景模式、预报调度方案、业务规则、专家经验等有机融合,建立对物理流域全要素及水治理活动全过程的模拟仿真、预测预报、优化评估、智能决策等“算法”引擎综合布局,具有多源异构信息融合与管理、分析模型引擎快速组装与敏捷复用、应用服务灵活适配水旱灾害防御、水资源管理与调配、江河湖泊生态保护治理等业务应用场景,为实现“四预(预报、预警、预演、预案)”功能的智慧水利建设规划、设计参考与引用[1]。
2002年,在美国密歇根大学的产品生命周期管理中心成立时的一次演讲幻灯片中,Michael Grieves教授展示了产品生命周期管理的概念模型,它包括3个基本的要素:产品存在的现实空间、虚拟空间,从现实空间到虚拟空间的数据流和从虚拟空间到现实空间信息流的连接,此连接在产品的整个生命周期都存在。这个模型几经易名,2011年后被称为数字孪生模型,现实空间物理系统与包含了该物理系统所有信息的虚拟系统互为孪生,其中的虚拟系统称为数字孪生。
数字孪生概念的内涵、外延在实际应用中不断丰富和扩展。专家学者提出了许多数字孪生的定义,如2012年美国 NASA 基于飞行器仿真系统工程提出数字孪生的定义为:数字孪生是一个使用最佳物理模型、动态传感、历史数据等,多物理量、多维度和概率集成的飞行器(或系统)仿真。NASA 的数字孪生定义就是一个数字孪生概念的外延,同时,也深化数字孪生的内涵,将历史数据、多维度、模拟仿真引入数字孪生[2]。
数字孪生流域的定义也是数字孪生概念的外延,其物理实体是物理流域全要素和水利治理管理活动全过程,数字孪生为物理实体的数字化映射。
我国科技工作者早在20年前就提出了类似的概念,并在治水实践中应用。2002年,黄河水利委员会李国英撰写的《建设“三条黄河”》一文中明确提出:“新时期的黄河治理开发和管理应着力建设‘三条黄河’,即‘原型黄河’‘数字黄河’和‘模型黄河’。‘原型黄河’指现实中的黄河;‘数字黄河’是‘原型黄河’的虚拟对照体;‘模型黄河’是按一定比例缩小的‘原型黄河’。‘三条黄河’的建设相互关联、互为作用”。这一论述,应该是国内外最早公开提出的数字孪生流域概念,甚至是最早的数字孪生概念。
进入2l世纪以来,我国实施了以“数字黄河”“数字长江”为代表的一系列早期数字孪生流域建设工程。随着工程的实施,使我国在数字孪生流域探索、研究方面走在了世界前列,缓解了区域防洪抗旱和用水安全面临的严峻局面。虽然我们有很好的数字孪生流域概念,但在日新月异的信息技术发展背景下,早期的数字孪生流域存有一些薄弱环节。
(1)物理实体和数字孪生连接不紧密,许多基础数据无法及时更新。
(2)受“算据”“算力”限制,物理实体不能在虚拟空间完美再现,用户体验受到影响。
(3)从“小数据”抽象出模型适应性较差,难以在不同尺度、不同流域上建立起具有应用价值较高的支撑服务。
(4)无法满足影像、图片、遥感、音视频等非结构化数据存储与管理需求,更难以对其进行建模、分析、预测和验证。
(5)应用存在技术割裂、数据碎片化分布、治理协同困难。
新时期产生了不同时空尺度模型智能进化,精准刻画物理实体不同粒度的属性、行为和演化过程的需求;用户沉浸式体验的需求;实体间普遍互联、迅速响应的需求;多类型、高频监测数据存储管理需求等,这些都需要更多的算据、更好的算法和更强的算力。
物联网可为我们提供更多的算据;大数据技术为从数据通向知识,产生“柔性”模型开辟了新径;云服务可提供更强的算力。从数据处理的方式上来看,数字孪生流域就是建立云服务之上的大数据分析处理。
为使数字孪生便于实现,北京航空航天大学陶飞教授提出了由物理实体、虚拟实体、服务、孪生数据和各组成部分连接构成的数字孪生五维模型。同理,我们将数字孪生流域模型定义为由以下5个部分组成:
(1)物理流域实体。它是客观存在的自然地理、干支流水系及水利建设的工程体系、洪水影响范围、经济社会等实体的集合。
(2)虚拟流域实体。它是对物理流域的多源异构全要素和水利治理管理活动全过程进行数字化映射,这些映射要通过模型和仿真来实现,包括水利工程几何模型、水文机理模型、行为模型和规则模型,以支持洪水演进、水利工程运用模拟仿真等[3]。
(3)服务。其包括数字孪生流域内部组件之间及为终端用户提供的服务。
(4)孪生数据。它是生成数字孪生流域及虚实交互所依赖的数据。
(5)连接。实现数字孪生流域各组成部分的连接使信息空间与物理空间保持实时交互、一致性与同步性,从而提供更加实时精准的应用服务。
2010年,Pentaho公司的CTO Dixon率先提出数据湖的概念,其定义为“未经处理和包装的原生状态水库,不同源头的水体源源不断地流入数据湖,为企业带来各种分析、探索的可能性”。一般的数据湖产品都有大型数据存储库和处理引擎,它能够存储海量的结构化、半结构化和非结构化数据;可提供批处理、流式计算、交互式分析等数据处理方式和比较完善的数据管理与服务,为数据获取、存储、多模式处理提供全生命周期管理。
与以往存储技术相比,数据湖具有以下显著特征:
(1)数据高保真。不需要重新定义数据模型,在系统中会存储一份无损的原始数据,这样不仅简化了数据的处理过程,还保证数据真实可靠,对具有时效性要求的实时应用提供更好的支撑。
(2)数据可存储。能够提供足够用的、可扩展的统一数据存储能力,它本身内置多模态的存储引擎,综合考虑响应时间/并发/访问频次/成本等因素,以满足不同应用对于数据访问需求。
(3)数据可管理。既能存储原始数据,又能保存各类分析处理后的中间结果,随着湖中数据的不断积累、演化,作为统一的数据存放场所,提供对于数据的管理、治理和资产化能力。
(4)数据可追溯。具备对数据全生命周期的管理能力,提供对其间的任意一条数据的接入、存储、处理、应用过程的可追溯性,能够有效识别和管控各项数据产生、流动及其处理过程。
(5)数据可分析。囊括从批处理、流式计算、交互式分析到机器学习等各类计算引擎,具备计算引擎的可扩展/可插拔敏捷能力,持续对原始数据进行迭代分析,获得超越原有数据分析服务的价值。
3.2.1 总体架构
基于数据湖拥有“分布式对象存储+多模态计算引擎+全周期数据管理”等技术优势,以一种更为敏捷、快速的构建方法,搭建出标准统一、接口规范、敏捷复用、高效实用的数字孪生流域总体架构,如图1所示。
图1 数据孪生流域总体架构
3.2.2 建设流程
数据湖包含物理流域信息融合(“建湖”)、数据汇聚存储 (“入湖”)、整合分析(“治湖”)、共享服务(“用湖”)4个建设流程。形象的描述就是用“建湖”来形容信息感知与数字化映射,流“入湖”中的水表示未经处理的原始数据;湖中的水就代表存储的各种数据,在湖中可以进行数据的计算、分析、建模、加工等“治湖”处理,处理后的数据仍然可以留在湖中;而流出的水代表经过信息融合、整合治理、智能分析后,下泄所需要的数据,为领域提供“用湖”信息服务支撑。
(1)建湖-信息融合。将物理流域中的河流水系、江河湖泊、水利工程等涉水要素在信息空间进行重建及数字化映射;对物理流域对象的几何、行为、运动、状态等信息进行实时采集和传输;持续将不同数据来源、数据类型、数据形态、数据模式等信息进行有机融合。
(2)入湖-汇聚存储。确定要接入的数据源,采用离线批量导入或者在线实时接入等手段,将各类数据全量获取与增量接入,借助数据湖提供的内置组件如资产目录、访问控制、任务编排、元数据管理等,构建高效共享的数据湖集中存储体系。
(3)治湖-整合分析。将各类计算分析引擎与业务应用进行深度融合,逐步形成面向特定领域的多维时空专题模型、元数据模型等,优化数据资源整合,逐步规范、开放各类数据接口、服务调用接口等,为定制开发的预报模型、智能模型、可视化模型等模块化组件提供灵活集成与敏捷适配,提供全局的数据资源目录和完整元数据描述,便于快速查询数据及更好地支撑数据分析。
(4)用湖-共享服务。萃取和沉淀专家经验、业务规则、知识图谱等构建知识引擎,持续对原始数据、中间成果、增量实时数据等进行迭代、训练、预测、推演,从数据中提炼有价值的信息,为领域或跨行业应用提供信息融合、业务协同的一体化决策支持与共享服务。
综上所述数据孪生流域建设:对物理流域进行全要素数字化映射,将多源异构如基础数据、监测数据、业务数据、跨行业共享数据、地理空间数据等进行统一归集、存储管理、整合处理,融合形成数字化场景;在此基础上,集成耦合多维多时空尺度水利专业模型、智能模型、可视化模型,调用各类通用接口服务进行分析处理,以水利专业模型为主体,智能模型作为辅助互补进行计算和推理,为模拟仿真引擎提供所需的各项参数,完成对水利业务过程的智慧化模拟;将萃取沉淀的治水经验和水循环演变规律、反演的历史场景等知识图谱进行有效融合,经水利知识引擎处理形成业务全流程和服务全领域的应用服务体系,为防洪调度、水资源管理与调配、水生态保护等提供精确化决策支撑[4]。
基于数据湖构建的数字孪生流域如同兴修水利一般:筑湖挖掘—采集和映射数据,引水蓄能—接入和存储数据,建站发电—整合和分析数据,开闸放“水”—开发和利用数据,发挥数据湖技术基础设施的乘数效应,推进水利数据湖与“水利云”有效融合,形成天上的“云”负责收集、计算和分析各类水利相关数据,助力地下的“湖”实时制定数据存储策略,共同作用于水利信息资源共建,优化、适配和集成水利业务,以实现水利信息价值的持续挖掘,为构建数据一体化存储、平台逻辑统一、物理分散、统一部署的水利数字孪生流域夯实基础,最终建成数据统一管理、数据充分共享、支撑智慧水利应用的数字孪生流域。