卢俐 张晓玲 玉坤 赵文芳 王麟春
摘要 当前北京地区300多个自动气象站形成了一个时间和空间分辨率均极高的自动站观测网,数据质量成为了首要也是最重要的问题,在此对北京地区自动站观测资料进行质量控制研究,开发了可用于实时业务的质量控制系统,同步开发前台WEB网页实时显示质控结果和数据,供自动站安装维护人员、数据管理人员以及气象业务和科研人员查询和下载,满足多业务类型的需要。系统质控结果表明,除了国家站5 min数据外,其他种类的资料的正确率均在95%以上,国家站1 h数据质量最高;整体小时数据质量优于5 min观测数据,国家站与区域站之间的质量差异不明显;影响正确率的最主要因子是数据缺失,不管国家站还是区域站,总体的可疑率和错误率均不高。
关键词 北京地区;自动站气象站;质量控制;观测资料
中图分类号 S161 文献标识码 A 文章编号 0517-6611(2014)16-05153-03
当前,北京地区较均匀分布着300多个自动气象站(国家站、区域站),数据采集的频率包括1 min、5 min和1 h,形成了一个时间和空间分辨率均极高的自动站观测网,为天气预报数值模式提供了非常重要的同化资料。而这些观测数据也正是北京市气象局预报业务系统BJ-RUC(北京地区高分辨率快速循环同化预报系统)的同化资料之一[1]。要使观测资料得到最充分的利用,观测资料的质量就是首要也是最重要的问题。国家级站点有月报表审核制度,数据质量有保证,但实时性差,审核后数据一般要滞后1个月以上。区域站与国家级站比较,具有站点分布密集、地形差异大、测站环境恶劣、设备维护非实时、数据采集和传输自动化程度高、资料实时性强、中小尺度天气现象明显等特点,因此,观测资料的问题更严重和复杂[2-3]。
气象资料的质量控制在国外很早就已展开。最早开始气象观测的北欧地区国家,观测资料从台站到资料中心经历了4个级别的质量控制流程,质量控制方法分为单站和空间质量控制两大类,每类方法又有不同的检查方案,已经形成了一套较为完善的质量控制方法流程[4]。美国俄克拉荷马州的中尺度气象观测网,有一套完整的计算机自动质量控制系统,实时监测采集数据,并将质量检查报告发送给相关的数据管理者、仪器维护人员[5]。在国内,王伯民探讨了气象资料质量控制综合判别法,以解决对于单项检验为可疑的数据,如何进一步判别其错误与正确[6];刘小宁等对地面观测资料的质量控制方法做了总结,并对空间一致性检查方法做了研究[7-8]。国家气象信息中心研制地面自动站A、J、R、Y文件三级质量控制业务系统并已在业务中使用[9]。2008奥运前,王玉彬等对地面自动站资料的质量控制做过初步的研究[10-11]。陶士伟等对加密自动站资料的质量保障体系做过详细的分析,并在此基础上,根据数值天气预报模式(NWP)的要求,在质量控制中除了常规的方法,特别考虑将质量控制与NWP提供的背景场发生联系,有效避免了观测资料和背景场偏离太大,模式初值不协调问题[2-3]。已有的研究中,一般以国家级站的观测资料为研究对象,对近年来大量建设的区域站资料的质量控制研究不多,或仅针对某特定业务需求做质量控制。该研究对北京地区300多个自动气象站的观测资料进行质量控制研究,开发质量控制软件系统用于实时业务。
1 质控方案及应用流程
从质控方案及质控后数据应用整体流程图(图1)可以看出,自动站采集的原始1 min数据,首先格式检查,按站整合成1 min、5 min、1 h 3种资料(1级数据);然后对5 min数据(包括1 h)逐一进行界限值检查、内部一致性检查、时间一致性检查(时间变率检查和长时间数据无变化检查)、空间一致性检查,得到5个分步质控码;再对这5个质控码综合运算得到要素的最終质控码,生成带质控码的数据文件(5 min、1 h)(2级数据);在此基础上,一方面对缺失数据以及质控中被确定为错误的数据进行插补,得到插补后数据(3级数据),另一方面,对质控后数据做日、月、年的统计值运算(4级数据)。
1.1 质控码 参考已有的研究,质控码(QC)的规定如下:数据通过检查,QC=0;数据可疑,QC=1;数据错误,QC=2;无观测数据(缺测),QC=8;数据未进行质量控制,QC=9。此外,在该研究中,对缺失(错误)数据进行了插补的,规定QC码为3。
1.2 质量控制
1.2.1 格式检查。对数据逐行检查,当某观测要素字节数与规定不匹配、出现规定外的字符(乱码),则视为格式检查不通过,该观测要素值视为缺测(“/”表示)。
1.2.2 质控方法。根据对已获取的观测数据(2000~2011年)的统计分析,确定每一分步检查的参数(界限值)和方法。
1.2.2.1 界限值检查。
1.2.2.1.1 气温。统计北京20个国家级站建站至今,各月上下限值,分别向外扩展5 ℃,再四舍五入取整,作为气温的界限值,超过界限值的观测值,认为错误。
1.2.2.1.2 气压。点绘所有站点的最高气压值与海拔高度的散点图(图2a),散点呈直线分布,拟合海拔与最高气压的线性方程,R2为0.983 8。利用拟合方程计算每个站点的最高气压,得到与该站点实际观测值的差值的标准差。以50 m为一个高度区间,根据拟合方程计算出一个气压值,再外扩一个标准差并取整,作为该海拔高度范围内的气压观测上限值,超过该上限值的观测值视为错误。气压下限值的计算方法与之相同,各站最低气压值与海拔高度的散点图如图2b所示。
1.2.2.1.3 风速。对风速的界限值范围使用气候界限值,即最大风速0~65 m/s,极大风速0~75 m/s[12]。超过气候界限值的观测值判定为错误。
图2 各站的最高(a)和最低(b)气压值与海拔高度的散点图1.2.2.1.4 降水量。根据分钟降水量统计结果以及雨量器的观测强度指标,将分钟降水量超过4.0 mm的观测值认为可疑。根据统计的北京地区小时降水量最大值,参考已有的研究结果,规定小时降水量超过130 mm为可疑,超过150 mm为错误。
1.2.2.2 内部一致性检查。 内部一致性检查是指观测要素间的一致性,即根据一定的气象学原理,对观测资料中某些物理特性关联的气象要素或项目之间是否符合一定规律进行的检查。内部一致性检查是气象要素之间的逻辑检查,不涉及检查方法的差异,只有检查内容的差异。理论上,内部一致性检查的内容越详细,数据质量越高。考虑实时质控的要求以及质控效率,对主要的气象要素进行内部一致性检查:①小时最低本站气压≤定时本站气压≤小时最高本站气压;②小时最低气温≤定时气温≤小时最高气温;③小时最小相对湿度≤定时相对湿度;④10 min平均风速≤小时最大风速;⑤极大风速≥最大风速;⑥极大风速≥瞬时风速;⑦极值出现时间与采集时间段保持一致;⑧风向为“C”,风速≤0.2 m/s;⑨风向范围0~360°,湿度范围0~100%。其中出现①~⑥、⑧的情况时,2个观测值的质控码均为“1”;出现⑦、⑨的情况时,质控码均为“2”。
1.2.2.3 时间一致性检查。时间一致性检查指要素随时间的变化是否符合客观规律的检验[6],包括时间变率检查和长时间数据无变化检查。时间变率检查是对气温、气压和相对湿度做检查。根据文献中的阈值标准,统计相邻观测值之间差值区间的变化特点,分别确定5 min、1 h数据的相邻观测值的变率上限。长时间数据无变化检查是对气温、气压、相对湿度以及风向风速做检查。根据已有观测数据,统计各要素连续不变数N的变化规律,进而确定各要素连续N个不变的可疑、错误上限。其中相对湿度仅考虑观测值<90%的情况,风速分>0 m/s、=0 m/s 2种情况,风向仅考虑风速>0 m/s的情况。与时间变率检查类似,对5 min、1 h观测数据分别确定N值。
1.2.2.4 空间一致性检查。兼顾计算效率与准确性,采用Madsen-Allerupt法[13]做空间一致性检查,并利用平均值扣除法来消除地形的影响,即将邻近参考站同一时刻某要素观测值减去其所在时次的平均值后再由小到大排序。空间一致性检查对温度、气压、湿度、风速4种要素进行。对降水量的空间一致性检查是根据降水量等级标准,将被检查站与周围最近的10个台站的降水量做比较,以此确定疑误情况。
1.2.2.5 综合质控码运算。根据前面5个分步得到的质控码,按照规定的每步检查的权重比,进一步运算得到最终质控码。对于缺测(“8”)和未做质量控制(“9”),如果5个分步质控码均为“9”,则综合质控码为“9”;如果5个中有一个为“8”,则综合质控码为“8”。
1.3 插补算法 根据对主要业务单位的调研结果以及基于业务实际需求,对温度和气压缺失数据进行插补。插补方案是反距离加权法和最近邻域法的综合,详细可参考文献[14]。
1.4 实时质控业务流程 原始观测数据以分钟文件为单位采集,60个文件批量传输,为保证数据完整,设定在每小时的03分开始处理前1 h的数据。首先格式检查,写入1 min、5 min、1 h文件,格式有错误的行写入日志文件;对5 min、1 h数据进行质控,相关的疑误写入对应的日志文件,并生成质控后文件;最后,统计一次近3 d的各站质控情况(缺测率、正确率、可疑率、错误率、未做质控率)。数据插补和常规要素统计则以计划任务形式,每天定时执行。
质量控制程序用Vb语言编写,每步质控一个exe可执行文件,利用时间控制exe文件将整个质控过程、包括质控结果的统计串联起来,逐一执行,每小时启动一次。为便于质控码的计算以及前台WEB页面对质控结果和数据实时显示,除了将相关数据写入文件永久保存,并将最近30 d的观测数据、质控码以及常规要素的统计数据存入MS SQL数据库。
1.5 質控产品 质量控制的主产品即为格式检查后按站整合的文件、质控后带质控码的文件、对缺失和错误数据插补的文件、常规要素的统计文件4个等级的数据集。此外还有3类副产品:①质控统计文件。每站的正确率、可疑率、错误率、缺失率等;②质控log日志。在格式检查以及质控过程中的疑误值,将相关的信息写入对应日志文件;③质控结果文件。将所有站点中判别为疑误的观测值,单独存入文件,方便查阅。
2 前台WEB显示
作为质控结果的实时显示查阅界面,《北京地区自动站质量控制系统》网页采用B/S构架,以Microsoft SQL Server 2005+Web为系统框架,用PHP语言编写。网站包括8个内容模块,即首页,今日质控结果、今日数据缺失站点显示(图3);观测数据显示;质量控制结果显示;要素(质控)统计结果显示;内插前后对比曲线图显示;数据下载;帮助;管理员界面。
3 质控结果初步分析
质控系统从2012年7月开始试运行以来,获得了一些初步结果。统计观测数据总体质量情况(表1)发现,除了国家站5 min数据外,其他种类的资料的正确率均在95%以上,国家站1 h数据质量最高,国家站5 min数据的可疑率明显高于其他;整体小时数据质量优于5 min观测数据,国家站与区域站之间的质量差异不明显。影响正确率的最主要因子是数据缺失,其次才是可疑率和错误率。不管国家站还是区域站,总体的可疑率和错误率均不高,北京地区自动站观测数据质量较好。
4 结论
该研究开发的自动站质量控制软件对北京地区300多个自动站观测数据每小时进行一次实时整合,并经质量控制得到可靠、可信的观测资料和相关产品,获取了一套高时空分辨率的4个质量等级的数据集,即格式检查整合后的原始数据、质量控制后的数据、对缺失和错误观测值插补的数据、常规统计产品;同时还生成质量控制日志文件以及台站质控结果统计文件等。同步开发的WEB网页显示和查询界面,实现了质控结果、质控数据和相关统计数据的实时显示及下载,可实时对自动站安装维护人员提供站点的故障信息,对数据管理人员提供资料的缺失率等质量信息,对气象业务及科研人员提供资料的质量信息、插补数据和常规统计数据以及不同类型的数据集下载,满足了多业务类型的需要。
42卷16期 卢 俐等 北京地区自动气象站观测资料的实时质量控制及应用参考文献
[1] 范水勇,陈敏,仲跻芹,等.北京地区高分辨率快速循环同化预报系统性能检验和评估[J].暴雨灾害,2009,28(2):119-125.
[2] 陶士伟,仲跻芹,徐枝芳,等.地面自动站资料质量控制方案及应用[J].高原气象,2009,28(5):1202-1209.
[3] 陶士伟,徐枝芳.加密自动站资料质量保障体系分析[J].气象,2007,33(2):34-41.
[4] 熊安元.北欧气象观测资料的质量控制[J].气象科技,2003,31(5):314-320.
[5] SHAFER M A,FIEBRICH C A,ARENT D S,et al.Quality assurance procedures in the Oklahoma Mseonetwork[J].Journal of Atmospheric and Oceanic Technology,2000,17:474-494.
[6] 王伯民.基本气象资料质量控制综合判别法的研究[J].应用气象学报,2004,15(S1):50-59.
[7] 刘小宁,任芝花.地面气象资料质量控制方法研究概述[J].气象科技,2005,33(1):199-203.
[8] 刘小宁,鞠晓慧,范邵华.空间回归检验方法在气象资料质量检验中的应用[J].应用气象学报,2006,17(1):37-43.
[9] 任芝花,熊安元.地面自动站观测资料三级质量控制业务系统的研制[J].气象,2007,33(1):19-24.
[10] 王玉彬,周海光,余东昌,等.奥运短时临近预报实时数据处理[J].气象,2008,4(7):75-82.
[11] 窦以文,屈玉贵,陶士伟,等.北京自动气象站实时数据质量控制应用[J].气象,2008,34(8):77-81.
[12] 中国气象局.地面气象观测规范[M].北京:气象出版社,2003.
[13] LANZANTE J R.Resistant.Robust and nonparametric techniques for the analysis of climate data:Theory and examples,including applications to historical radiosonde station data[J].International Journal of Climatology,1996,16:1197-1226.
[14] 張晓玲,卢俐,康金侠,等.北京地区自动气象站实时数据(气温、气压)缺测的插补研究[J].气象,2014(已投).安徽农业科学,Journal of Anhui Agri. Sci.2014,42(16):5156-5158,5160责任编辑 黄小燕 责任校对 李岩