王沛东,侯 灵,孙周军,江铭诺,周嘉健
(1.广东省气象探测数据中心,广东 广州 510080;2.广东省气象公共服务中心,广东 广州 510080)
气象数据是一切气象业务、科研和服务的基础和源头,其中历史数据资料更是对一个地区特定历史时期天气、气候状况的观测记载,对于气候学、天气学等气象科学领域的研究与应用具有重要的现实意义和宝贵的使用价值。
广东省历史气象报表文件是各气象台站将实时观测的气象数据根据特定格式按月、按年生成的报表文件,这些文件记录了地面、辐射、大气成分、高空等观测值和统计值,经人工审核后进入广东省历史气象档案进行归档。主要包括地面气象小时观测月报数据文件(A文件、A0文件、A6文件)、广东区域站地面气象小时观测月报数据文件(DG文件)、地面气象分钟观测月报数据文件(J文件)、地面气象年报数据文件(Y文件)、辐射气象小时观测月报数据文件(R文件)、酸雨日值月报数据文件(S文件)、高空气象探测月报数据文件(G文件)。该数据作为人工审核后的历史数据,具有比一般历史数据更高的数据质量,对历史气象研究有着颇高价值。
而在本省当前业务中,对此类数据的应用较少,已经实现数据库存储的基本上也只有地面小时观测月报,对于其他种类、其他时间尺度的报表数据还没有充分利用起来。因此,本工作在充分搜集各类历史气象报表文件及其数据格式规范[1-4]的基础之上,对这些文件进行分类解析,将文件信息提取写入到本省数据库,建立了广东省审核气象历史资料专题库数据集,并通过本省的一体化数据访问平台服务于用户。
同时,由于该数据集是一种历史档案资料,具有很高的保密性,通过一体化数据访问平台对该数据集进行了访问权限的控制,只有被授权的用户才可使用。
广东省审核气象历史资料专题库数据集的建设和数据服务流程如图1所示。首先由全省各气象观测站点进行实时观测,将采集到的数据以数据文件或数据流的方式传输到省级通信系统进行分发,其中有一路数据会进入到MDOS系统(气象资料业务系统)进行质量控制,质控算法会将疑误数据标记出来,省级审核人员会加以人工审核判断,将结果返回至气象台站进行确认或订正,订正完毕后将重新发送更正数据至省级服务器作为实时观测数据供用户使用[5]。到每月或每年结束,各气象台站会根据上月或上年的观测数据进行记录或统计,按照全国通用的标准格式生成月报表、年报表文件,经人工审核检查后上传至省级气象审核部门,省级审核员会对文件格式和内容进行再次人工审核,确认无误后进行历史气象归档。本业务对这些报表文件进行统一收集并推送到解码服务器进行分类解码,将数据写入到MySQL数据库进行统一存储,通过实时历史一体化数据访问平台(IDEA接口平台)进行统一数据管理,并通过该平台与数据库的交互接口提供给全省各气象业务和科研用户使用。
图1 广东省审核气象历史资料专题库数据集的建设和数据服务流程示意图
基于各类历史气象报表的格式规范和文件内容[1-4],在MySQL数据库中设计并建立数据表,以资料时间+站号作为主键和唯一索引,将大数据量的小时和分钟级别的数据按照时间和站号进行分库分表,减轻数据访问压力,提高数据读写速率。
采用C/S架构,使用Java语言,基于开源的Apache Mina框架开发的基于文件传输协议的气象数据流式处理平台,定义了数据流从到达、触发解码、触发持久化、触发处理完成或失败的整个业务流程接口,能够将处理后的数据进行分类存储,还能支持以插件方式进行多种资料解码的扩展。
软件的技术功能:①FTP服务。软件启动后会自动搭建FTP服务,IP地址为软件部署服务器的地址,而端口号、账号、密码可通过配置文件设置。②多线程数据解析。对多路上传的文件进行多线程解析,提高解码速度。③多线程数据持久化。对多并发数据解析过程进行多线程持久化处理,提高结果的存储效率。
在该软件基础上进行二次开发,即根据各类历史气象报表文件的格式内容及设计好的数据表,编写插件式解码程序完成后部署在一台服务器上,一键运行即可,只需将数据文件以FTP的方式传输至该服务器,就能完成数据的快速解码和入库存储。主要的逻辑流程如图2所示。
图2 数据处理平台解码入库流程示意图
广东省气象局一体化数据访问平台(IDEA平台)是一个包括了海量气象行业的实时、历史数据的,涵盖了气象、旅游、交通、水利、水文、环保、海事、渔业等多部门的,融合了丰富的地球多圈层气象科研资料的数据访问平台。平台通过通用接口、图形接口、格点接口等数据接口将不同类型和格式的资料提供给全省气象部门的用户。其中通用数据接口实现与关系型数据库中的数据进行交互,从而将结构化数据便捷地提供给用户。
本业务在IDEA平台上对应的资料分类里配置了若干通用的数据接口,用户可通过时间、站号、行政区划(省、市、县)等信息对数据进行检索和下载。同时利用平台的账户权限管理机制,以白名单的方式对用户可访问的接口进行授权,保证数据的安全性,实现数据的合理化管理和服务。
广东省审核气象历史资料专题库数据集由主要几类历史气象报表文件(A、A0、A6、DG、J、Y、R、S、G文件)解析所得,目前资料一共有4大类、8小种,涵盖了从分钟尺度到年尺度的长时间历史序列的多个气象要素观测值或统计值,所有资料中用到的时间统一为世界时,其中高空观测时次为每日00:00和12:00,资料的类别、名称、来源、时间和频率、站点范围等说明信息如表1所示。其中需要说明的是,国家地面自动气象站历史小时数据的来源——地面气象小时观测月报经过多年演变,历经3种格式:2004年之前为A0和A62这种文件,其中A6文件的要素为A0文件的补充,两者共同组成了2004年以前的小时观测月报;2004年演变为A文件,之后一直沿用至今。
表1 广东省审核气象历史资料专题库数据集说明信息
高准确性。广东省审核气象历史资料专题库数据集的数据源是人工审核后的月报表、年报表文件,相当于是在MDOS系统质控的基础上再加入人工审核的“自动+人工”双重机制,这些报表会进入气象历史档案,因此具有更高的准确性。
高系统性和高完整性。本省原来的长时间序列的历史数据多集中于地面小时资料,其余类别相对较少,而本数据集包含了地面、辐射、酸雨、高空等多种类,分钟、小时、日、月、年等多时间尺度的数据信息,具有更加系统和更加完整的特点。
数据调用。一体化数据访问平台提供http和webservice方式供用户调用数据,只需将地址和参数按照一定格式拼接成URL和XML,即可在开发应用中使用,并且可指定数据的返回格式(html、txt、xml、json、suffer、csv、arff等)。
数据下载。一体化数据访问平台提供了数据下载工具,使用时只需选择对应的数据接口,设置相关参数(如时间、站号、行政区划等),选择数据格式(html、txt、xml、json、suffer、csv、arff等)和存放路径即可。
广东省审核气象历史资料专题库数据集因其高准确性、高系统性和高完整性的特点,可广泛应用于气候分析、历史天气过程分析、生态环境气象研究、历史格点实况数据检验、历史数据质控回算等气象业务和科研领域,尤其是在数据检验中可作为检验真值数据,有着很高的应用价值。
本文介绍了广东省审核气象历史资料专题库数据集的来源背景、业务流程、建设技术,并且对该数据集的使用进行了说明,主要总结如下:①广东省审核气象历史资料专题库数据集来源于7种由各气象台站将实时观测的气象数据根据特定格式按月、按年生成并经人工审核后的报表文件。②该数据集主要是经过台站观测、MDOS质控、疑误反馈、报表制作、人工审核、数据解析、存储管理、数据服务等8个业务过程而形成。③数据存储使用MySQL数据库;数据解码程序采用C/S架构,使用Java语言,在基于文件传输协议的气象数据流式处理平台的基础之上开发;数据管理服务依托广东省气象局一体化数据访问平台实现。④该数据集一共有4大类、8小种,涵盖了从分钟尺度到年尺度的长时间历史序列的多个气象要素观测值或统计值,可通过http、webservice或数据下载工具等多种方式获取,由于其高准确性、高系统性和高完整性,因此,可广泛应用于多个气象业务和科研领域。
最后,需要说明的是,本工作成果只是建设了一套广东省审核气象历史资料专题库数据集,但还并没有对该数据集进行深度、全面的评估和应用,有关工作将在今后进一步展开,以期为该数据集的价值和影响力提供更多的支撑。