雷鸣 武国良 赵玉娟 姜罕盛
摘 要:针对原有省级CIMISS系统无法有效支撑现代化气象数据服务的问题,利用分布式技术,构建了天津省级气象大数据服务中心,搭建了以HBase、GBase、分布式NAS为基础的统一数据存储环境,与省级CIMISS系统形成了无缝对接,满足了天津气象业务的现代化需求。在测试对比中发现,本系统的查询性能得到较大提升:自动站数据比CIMISS系统提升了5.2-22.3倍(倍数随着时间不断扩大),而格点数据则比原一体化平台提升了5倍多,充分验证了本方案的有效性。
关键词:数据共享;CIMISS;分布式数据库;关系数据库
Abstract:In view of the problem that the original provincial CIMISS system can not effectively support the modern meteorological data service. By using the distributed technology, Tianjin provincial meteorological big data service center is built, a unified data storage environment based on HBase, Gbase and distributed NAS is built, and a seamless connection with the provincial CIMISS system is formed, which meets the modern needs of Tianjin meteorological business. In the test and comparison, it is found that the query performance of this system is greatly improved: the automatic station data is 5.2-22.3 times higher than the cimiss system (the multiple increases with time), while the grid data is more than 5 times higher than the original integrated platform, which fully verifies the effectiveness of this scheme.
Key words:data sharing; CIMISS; distributed database; relational database management system(RDBMS)
隨着分布式技术的兴起,现代化数据服务的能力越来越高,但目前,气象系统的数据服务能力却相对落后。业务平台的集成力度和产品服务的质量仍然不够,产品和数据存在不一致,“信息孤岛”现象仍然存在[1]。
同时,原有由国家气象信息中心2009年建设的全国综合气象信息共享系统(CIMISS),于2013年推广部署于全国各省级气象数据中心,为各省气象部门提供了良好的业务支撑与数据服务[2-6],使上述问题得到一定程度的缓解。
但是CIMISS无法对本地化特色资料进行有效支撑,而随着气象数据量的不断增长和业务的不断拓展,省级CIMISS的数据处理和服务能力已经明显不足,无法满足现有的业务和数据服务的需求[7-10]。
基于以上原因,利用分布式技术,构架天津省级气象数据服务中心。同时,透过CIMISS系统中的全国气象数据统一服务接口(MUSIC:Meteorological Unified Service Interface Community)[11-12],将本地数据服务中心与省级CIMISS的数据源进行整合服务,提供全国统一数据访问服务和应用编程接口(API),构建无缝连接的数据服务中心。
1 系统数据架构设计
为了更有效的提供数据服务,将天津省级数据分为冷热两级数据进行处理,将实时性要求较高的自动站类数据透过分布式数据库提供服务,而将需求实时性相对较低的数据,透过HDFS和Hbase提供服务。整个提供架构图如图1所示:
其中,Hbase分为两套不同的数据库,热数据中的Hbase为了有效保证查询速度,仅存储3个月的数据,其余的数据则存储在另外一套Hbase中作为冷数据源,提供数据服务。
随着业务搜索维度的不断添加,使得跨表查询需求越来越多,系统的慢查不断报出,为此引入了Elasticsearch(简称ES,下同) 搜索引擎。
其中ES,是一个实时的分布式分析和搜索引擎,能够快速处理大规模数据。常用于进行全文搜索、结构化搜索和分析。ES主要用来存储有聚合和筛选的热数据,特别是存储近几年的格点数据索引和站点数据,方便高速搜索和聚合查询。
2 后台数据库流程设计
为了有效与CIMISS系统进行对接,做到使用用户对后台变动无感。同时,又有效保证天津省局数据服务的高速性。针对天津省局数据:通信系统数据/报文数据、核心业务数据和CIMISS数据,进行合理划分,整体规划如图2所示:
图2从左到右,依次是通信系统数据/报文数据、核心业务数据和CIMISS数据。
2.1 通信系统数据
当通信系统(MDOS)产生报文后,利用GBase8t良好的事务性数据操作功能,进行数据的入库操作。同时,利用8t与8a之间高速的数据同步性能,透过RTSync进行同步,从而实现安全性更高的数据库读写分离。最终透过分布式数据库GBase8a,藉由MUSIC接口提供服务。
其中,在要素表级别,8t与8a同用户同表,两者在列名称,列类型,列数量上几乎完全一样(具体类型由于8t,8a是不同数据库,因产品特性会导致列类型有细微差别),8t有联合主键(观测时间+台站编码),而8a在入库逻辑层面上,控制数据的唯一性(而非依靠8a的分布式数据库特性,该数据库不支持主键)
2.2 核心业务数据
天津省局业务涉及到大量的核心数据,可以分为结构化数据和半/非结构化数据两部分(如上图中部所示),前者主要是站点数据,基于都是存储在分布式关系型数据库Mysql中。而半/非结构化数据则主要是天气实时应用(实况、预报)数据。
为了优化数据,提升数据的服务能力和集约化程度。另一方面,为保证核心业务不受影响,直接将Mysql中的数据同步到GBase8a当中,形成集约化的数据汇集服务中心。这里同步的技术手段,采用成熟的阿里巴巴的Canal同步方案。Canal是通过模拟成为Mysql的slave的方式,监听Mysql的binlog日志来获取数据,实时性强,对于应用无任何侵入性,且性能更好,不会造成资源浪费。当binlog设置为row模式以后,不仅能获取到执行的每一个增删改的脚本,同时还能获取到修改前和修改后的数据,基于这个特性,Canal就能高性能的获取到Mysql数据的变更。针对数据库进行增删改的操作,同时也进行ES的增删改操作,便于后续数据的高速准确的查询。
针对半/非结构化数据的存储需要。因为这些数据对服务的响应速度要求非常高(毫秒级)。这里采用Hbase分布式数据库进行存储。同时,利用气象数据分块压缩技术,对数据进行无损压缩,减少传输数据量的大小,提升响应速度。数据分块压缩技术路线示意图如图3所示:
在Hbase存储中,数据常常是按照超级大表存储的。为了增加查询速度,针对HBase中的大表按区域进行切分,设每块名称为HRegion1,HRegion2,HRegion3……HRegionN。HBase是集群结构,会把这些块分散存储到多个服务器中,假设每个服务器名为HRegionServer。同时,为了方便的管理服务器,增加一个管理节点服务器HMaster,用来专门处理HRegionServer负载均衡处理和HRegion的分配等事务。当数据库中某个HRegion的大小达到阈值后,系统将会自动将其分割,新的HRegion也会由HMaster进行分配,放置到相应的HRegionServer中。
HRegion内部会按照列族进行切分,分为多个Store,每个Store保存一个列族,所以HRegion由一个或者多个Store组成。每个Strore又由一个MemStore和N个StoreFile組成。
其中,MemStore是内存存储单元,当内存中数据达到阈值后,写入StoreFile中,而StoreFile则以HFile格式进行保存。
而用来存储半/非结构化数据的HBase,其物理存储是基于Hadoop的分布式存储,整体的系统架构如图4所示:
3 数据服务设计
针对气象数据的服务,共设计实现了三种方式:接口服务、FTP文件和订单下载,并对省级气象大数据服务中心的数据提供数据说明、数据检索和数据下载等功能。为了满足本地业务的需求,特增加了24种天津特色资料服务接口。
3.1 数据服务架构设计
系统数据服务模块具备数据与产品目录导航功能,提供各类基础数据及产品的数据摘要描述、数据来源、数据处理方式、空间属性信息、时间属性信息、相关引用文献等相关信息的查询及数据检索和展示。数据与产品目录导航提供的资料涵盖气象行业标准《气象资料分类与编码》(QX/T102-2009)的12大类资料、4类行业社会数据和质量控制数据。整体数据服务架构设计如图5所示:
图5中最底层的资料中,还含有更详细的资料清单,如雷达基数据下面还包含:质控前标准格式单站多普勒雷达基数据、质控后标准格式单站多普勒雷达基数据和质控前原始格式单站多普勒雷达基数据3类数据。限于篇幅,不赘述。下图展示了自定义数据下载的展示界面如图6所示:
3.2 数据下载功能实现
用户可通过数据信息描述了解数据产品概况,通过检索和下载获取所需要的数据。模块可实现通过配置方式调整(新增、修改、删除)数据下载功能,实现对数据下载的自由配置,使数据下载种类可自由扩展或缩减。数据下载的核心代码如下所示:
3.3 系统服务性能测试
为了测试系统服务性能,特别针对气象两类关键数据:自动站和格点数据,进行测试。
其中,自动站数据存储在Gbase数据库中,并收集了建站以来,即1951年至今70年的自动站数据,库中数据记录总数为:155,281,334,700条。下表展示了与CIMISS系统中oracle库对比的查询结果。
可以清楚看到系统查询性能提高了5.2-22.3倍,且随着时间延长,倍数还在不断增大。
针对格点数据,采用过去6个月共计4万天津1KM网格历史数据,系统测试能够在0.3 s内到应用终端(如下图所示),与原有天津省局一体化平台中格点数据的应用相比,速度提升了5倍左右。
4 结 论
1)利用分布式技术,构建了天津省级气象大数据服务中心,搭建了以HBase、GBase、分布式NAS为基础的统一数据存储环境,并与省级CIMISS形成了无缝对接,满足了天津本地的特色数据服务和业务的需求。
2) 在测试对比中发现,系统的查询性能得到较大提升:自动站数据比CIMISS提升了5.2-22.3倍,且性能优势会随着时间跨度延长而不断增大,而格点数据则比原一体化平台提升了5倍左右。
3) 同时,利用数据订单技术,屏蔽了差异多变的后台数据环境,形成和谐一致的数据订单获取平台,极大便利了用户对数据的获取和管理。不但如此,利用分布式技术,形成多任务、多订单的同步数据汇聚功能,极大缩短数据的获取过程,响应速度快。同时,系统便于移植,可灵活适配应用到不同的数据服务环境当中。但也应当看到,整个方案并没有考虑如何优化CIMISS系统的查询性能,这方面有待在以后的工作中,进一步强化和完善。
参考文献
[1] 王甫棣,王帅,赵希鹏.气象部门管理信息化系统设计初探[J].信息技术, 2019(3): 156-160.
[2] 熊安元,赵芳,王颖,等.全国综合气象信息共享系统的设计与实现[J]. 应用气象学报, 2015, 26(4): 500-512.
[3] 赵芳,熊安元,张小缨,等.全国综合气象信息共享平台架构设计技术特征[J]. 应用气象学报, 2017, 28(6): 750-757.
[4] 马渝勇,徐晓莉,宋智,等.省级气象信息共享系统的设计与实现[J]. 应用气象学报, 2011, 22(4): 505-512.
[5] ZHANG Zhi-qiang,ZHANG Qiang,HU Xing, al. Design and implementation of national meteorological service platform[J]. 亞洲农业研究(英文版),2016,8(9):77-81.
[6] 史彩霞,黎颖智,张许斌. 基于CIMISS的广西气象服务信息综合业务系统的设计与实现[J]. 气象研究与应用, 2016, 37(4):82-85.
[7] 宋智,徐晓莉,张常亮,等.应用分布式存储技术优化省级CIMISS数据服务能力[J]. 热气象科技, 2019, 47(3): 433-438.
[8] 李新庆,陈海波,杨有林,等.宁夏综合气象信息共享与管理系统设计研究[J]. 计算机技术与发展, 2019, 29(5): 135-141.
[9] 陈晴,杨明,陈晔峰,等.基于CIMISS的省级气象业务系统的应用设计[J]. 计算机应用与软件, 2018, 4(35): 117-121.
[10]向筱铭,徐晓莉,杨雪,等.CIMISS数据存储管理系统结构优化及应用[J]. 气象科技, 2019, 2(47): 237-243.
[11]曾行吉,李涛,詹利群,等.基于MUSIC的特色数据与产品回写CIMISS方法研究[J]. 气象研究与应用, 2018, 39(1): 111-114.
[12]曾行吉,任晓炜,宋瑶,等.微服务在气象数据服务中的应用研究[J]. 气象研究与应用, 2019, 40(1): 80-83.