吴 巍 ,王高旭 ,吴永祥 ,许 怡 ,张 轩
(1. 南京水利科学研究院,江苏 南京 210029;2. 水文水资源与水利工程科学国家重点实验室,江苏 南京 210098)
西南河流源区是亚洲水塔,是我国黄河、长江、澜沧江、怒江、雅鲁藏布江的发源地,也是我国水资源和水能资源的重要储备[1]。然而西南河流源区地处地球第三极,是典型的高原寒区,对气候变化和人类活动的响应较为敏感,因此研究西南河流源区径流演变规律[2-3]、生源物质迁移转化规律[4--5]、供水-发电-环境等多目标互馈关系[6-7]对保障我国水安全和能源安全具有重要意义,因此国家自然科学基金委员会设立了“西南河流源区径流变化和适应性利用重大研究计划”(以下简称“重大研究计划”),2016 年以来,“重大研究计划”共设置了 77 项研究项目,涉及工程材料、地球科学和管理科学 3 个学部,“重大研究计划”研究取得了大量研究成果,并且已经在科学研究、社会经济、生态环境等多个方面发挥了重要作用。
西南河流源区主要研究成果可分为以下 3 类数据:1)“重大研究计划”产出的报告、PPT、论文、专利等数据;2)“重大研究计划”监测基础数据,“重大研究计划”设置了多个监测类项目,在空天地一体化的监测体系下,获得了完整序列的水文水资源、水质数据;3)“重大研究计划”研究和产出成果,其中高质量数据集涉及径流[8]、雪深[9]、积雪[10]、水温[11]、湖泊[12]等方面,还有大量适用于高寒源区的水文、水资源、水力学模型。上述成果数据的共享将有效改善西南河流源区数据匮乏的情况,为科学研究、工程设计、政府决策提供基础数据支撑。
建设西南河流源区数据管理与共享平台(以下简称数据平台)的主要目的是集成研究成果,实现数据管理与共享,提升西南河流源区基础数据的服务价值,持续发挥“重大研究计划”延续性作用。数据平台的建设有别于其他信息化系统,其核心是数据,从数据角度而言:1)“重大研究计划”研究成果数据呈现多源异构特性,一般信息化系统的数据大多为结构化数据,而“重大研究计划”数据涉及水文、水资源、水环境、社会经济等多领域,从来源上说,有地面监测、遥感影像、人工统计、模型结果等数据;从格式上说,有结构化、多媒体、空间等数据。2)平台共享数据质量十分重要,数据合理性是后续研究能否采用该数据的重要依据,也是后续研究结论合理性的基础,数据的质量直接影响到数据平台延续性作用的发挥。聚焦上述关键技术难点,开展西南河流源区数据管理与共享平台设计思路研究。
聚焦平台的数据相关功能,避免赘述通用系统功能,从数据角度剖析系统功能需求:
1)多源异构数据集成。“重大研究计划”研究成果数据多源异构特性决定了数据格式差异较大,关系型数据库表难以应对多源异构数据直接存储,构建统一的组织存储方式实现多源异构数据在平台中的一体化集成是数据管理与共享的基础。
2)数据质量保障。数据质量是数据可用的基础,首先是数据描述信息,规范数据描述信息表达形式,提高数据描述信息的可读性。其次是数据实体,“重大研究计划”中的基础监测数据可能存在异常值、缺测值等情况,数据融合产品、模型结果也存在合理性问题,需要解决这些问题,提升平台的数据合理性和科学性。
3)数据全流程管理。“重大研究计划”产出了大量数据,加上后续研究产出的数据,数据量会随着平台运行时间而增加,数据在系统中也会产生很多业务流程信息,需要对其进行统一规范管理。为了全面掌握并处理数据的状态,需要实现“数据上传—数据评审—数据下载—数据评价”全流程管理。
4)数据共享。数据共享是面向终端用户的功能,核心功能是数据搜索,精准匹配用户所需数据是关键:a. 丰富搜索方式。提供文本、地图等多元搜索途径满足不同用户的使用习惯。b. 提高搜索的准确性。能够准确拆分搜索框输入的文本,提取与数据集相关的关键词,给出匹配性最高的搜索结果;c. 提升模糊查询能力。理解不完备输入信息下的用户数据需求,找出较为合理的数据集。
5)专题数据展示。专题数据集是为了聚焦某一研究领域、范围而成的,以西南河流源区源区为例,长江源区、黄河源区,冻土、雪盖、冰川都能形成特色的专题。专题数据集需要直观展示该区域某个要素的时空分布、演变等信息,可视化的呈现方式必不可少。三维 GIS 能够有效地描述和模拟三维现实世界提升地理信息表达效果,二维 GIS 具备成熟的空间数据模型和复杂的拓扑关系分析能力,专题数据的二三维一体化展示可以兼顾空间分析和显示效果[13]。
依据需求分析,以“数据存储—应用支撑—业务逻辑—应用视图”为平台框架设计思路,聚焦数据管理、可视化等主要功能,提出平台架构及具体功能,具体如图1 所示。
图1 系统架构总体设计思路
数据存储层主要涉及数据平台的数据库,为了实现多源异构数据集成,支撑数据平台业务流程可扩展性,提出了“元数据 + 数据实体”数据存储方式,以及数据与业务流程解耦设计思路。
1)“元数据 + 数据实体”存储方式。依据不同数据类型,将数据实体划分为二维表、多媒体、空间数据等类型,对应存储在各自数据库中。设计元数据库,通过外键形式关联数据实体数据库,避免解析多源异构数据与关系型数据库表建立映射的难点,解决多源异构数据一致性存储问题,便于数据组织管理。
2)数据与业务流程解耦。单独设计业务流程数据库,记录业务逻辑过程中数据所处的及历史的状态。元数据与业务流程数据结合,能够实现数据全流程管理与状态查询。
应用支撑层主要是数据平台运行的软件支撑环境,结合数据平台功能,从元数据管理、智能搜索引擎、WebGIS 地图服务、二三维一体化平台等支撑软件着手构建数据平应用支撑层。
1)元数据管理。数据实体的元数据的模型定义,支持元数据的基本信息、属性、依赖关系、组合关系的增加,删除、修改,查询操作,历史版本的查询与对比分析。
2)智能搜索引擎。具备智能分词功能,准确拆分并理解输入的中、英文本,并且提供包括短语、通配符、联接、分组及任何数据类型的匹配功能,提供负载平衡、模糊查询等功能。
3)WebGIS 地图服务。能够以 WMS,WFS 形式发布地图数据,可对空间数据的特征属性进行更新、删除、插入操作,支持 PostgreSQL,MySQL,Oracle 等数据库接入,以及 Shapefile,GeoJSON 等格式的空间图层发布,并且能够定义图层输出格式及图例。
4)二三维一体化平台。引入基于 WebGL 的支持二维、三维形式的地图展示引擎,可以显示三维模型、影像、地形高程、矢量等数据,提供常规的空间分析工具。
业务逻辑层是数据平台功能的载体,数据平台主要功能包括数据操作、搜索、下载、提交、评审及专题数据可视化等功能。
1)数据操作。基于元数据管理,建立元数据、数据实体,以及评论、修改记录、评审记录等附加信息的关联,实现元数据与数据实体的增加,删除、修改,查询级联操作。记录数据操作,实现痕迹管理,提高数据操作安全性。查询数据所处状态,从上传到下载整个全流程,包括“已上传”“评审中”“返修中”“通过评审”“已发布”等。
2)数据搜索。提供标签、筛选条件、文本搜索、地图搜索等不同搜索方式。其中最主要的文本搜索方式基于元数据管理与智能搜索引擎,通过智能解析输入的文本,匹配最符合需求的元数据,依据匹配度排序给出搜索结果。
3)数据下载。在数据搜索结构中找到所需数据,填写数据使用需求提交下载申请。数据管理者依据数据共享办法审批数据下载申请,审批通过后生成下载链接供申请者下载。
4)数据提交。数据提交是数据进入平台的第一步,通过填写规定的元数据信息,上传数据实体,提交到数据中心,由数据管理者进行后续质量控制流程。
5)数据评审。在数据发布后,数据管理者依据填写的元数据信息为该数据分配同行专家,由同行专家对数据进行评审,给出专家意见,包括“通过”“不通过”“修改后再审”“修改后通过”等。
6)专题数据可视化。通过 WebGIS 地图服务发布专题数据,形成可供二三维一体化平台调用的地图服务,通过地图展示引擎渲染并展示专题数据。针对具有时间属性的专题数据,例如不同时期的降雨、雪盖等要素的时空分布,以时间为轴进行轮播展示,动态呈现各要素的变化情况。
依据不同的使用场景和对象分为面向终端用户的数据共享视图和面向数据维护者的数据管理视图,由不同业务功能组合成相应的应用视图。
数据质量是数据可用的基础,也是数据平台长期运行的基础,因此数据平台区别于其他软件系统的最大不同是为了保障数据质量设计的功能,从元数据体系设计、数据评审 2 个方面论述数据平台质量控制思考。
元数据是描述数据的数据[14],是对数据实体进行结构化的描述,将使得数据实体更容易理解、管理、搜索。制定元数据体系可以提升数据可读性和规范性,提高数据质量。在调研国内外数据共享平台的基础上,提出适用于数据平台的元数据体系,具体情况如表1 所示。
表1 智慧水利相关体系架构汇总
数据逐渐成为重要的研究成果,近年来出现了一系列以数据为主的高影响期刊,如Scientific Data,Earth System Science Data等,参照期刊论文评审流程,采用同行评议方式对数据集提出专家意见,帮助数据集修改完善,是提升数据质量的发展方向。数据评审流程及操作用户如图2 所示。专家评审应注意元数据与数据实体的匹配程度,着重关注数据标题、摘要、格式、时空范围及分辨率等信息。其次应注意数据实体是否存在异常值,呈现结果是否符合基本科学原理,演变趋势是否符合领域内已有研究成果等。
图2 数据评审流程
本研究聚焦数据管理与数据共享方面,在充分分析数据平台的功能需求基础上,提出了西南河流源区数据管理与可视化平台系统架构,并且设计了
以数据质量控制为目标主要功能,为研发适用于西南河流源区数据管理与共享的平台奠定坚实基础。
本研究中的数据平台设计关注数据相关功能需求,但平台的交互设计、系统辅助功能也是平台不可或缺的重要组成部分,良好的系统功能会极大提升用户使用体验,后续研发过程需完善此方面的设计方案。其次是可视化方面,为了应对专题的更新迭代,需深入研究自动发布、可配置式的专题数据可视化技术方案。
随着后期研究的深化,数据平台的数据类型不断增加,对数据管理将提出更高的要求,需要进行更为深入的研究:1)元数据中的关键词,尤其是主题关键词,在保障准确描述数据主题的前提下规范化主题关键词是亟须研究问题;2)专家自动匹配,人工选择难以应对日益增长的数据提交申请,应用自然语言处理等手段为数据自动匹配评审专家也是未来完善方向。数据管理与共享需要数据平台和数据共享机制共同配合,需要进一步研究数据管理办法、数据引用机制等配套机制,规范化数据管理与共享流程,鼓励各类科研单位积极发布数据产品,提升数据平台内容丰富程度,实现良性长效运行。