全国自动站QC信息管理系统的设计与实现

2015-08-14 09:41刘一鸣
安徽农业科学 2015年30期
关键词:信息管理系统入库观测

王 妍,孙 超,余 予,刘一鸣

(国家气象信息中心,北京 100081)

自2009年以来,我国逐步开展了对自动气象站基础观测要素资料的实时质量控制方法研究[1-3],并实现了业务转化。根据气预函(2012)42号文的要求,对全国地面自动站逐小时观测资料质控结果进行评估,发现自动站资料存在疑误率较高的问题,导致资料的可用率下降。以2012年第2季度(4~6月)为例,2 411个国家级自动站平均疑误率为0.09%,29 399个区域自动站平均疑误率为0.77%,相当于每小时都有2个国家站和226个区域站的数据因质量问题而不可用。

为了掌握质量控制结果的准确性,进一步完善质量控制算法,在质控系统业务化后开展了疑误数据的查询与反馈工作。将逐小时疑误数据下发到各省,各省将质量信息确认结果通过自动化生成、人工编辑等方式生成反馈文件并上传到国家气象信息中心。由于部分反馈文件由人工编辑生成,乱码、格式错乱等异常情况较多,无法对反馈数据进行有效的统计、管理和应用。排除格式异常的情况,2012年第2季度全国自动站疑误信息平均反馈率仅为34.20%。同时,由于反馈数据未能应用于实时观测资料质量信息的订正工作中,预报等实时业务用户无法有效利用该数据,如对一些可疑的大降水量无法确认其可信度,从而对预报效果有所影响。为了改善这一情况,国家气象信息中心开展了全国自动站QC信息查询反馈的自动化管理和应用工作,进一步规范了疑误数据查询、反馈文件格式,在国家级建立质量控制(QC)信息管理系统,联合江西、湖北、广西省(区)信息中心建立全国自动站QC信息国省双向反馈流程,并推广到全国31个省进行推广应用,实现了质量信息查询反馈的全自动化流程。笔者在此重点介绍QC信息管理系统的设计与实现。

1 国省双向反馈流程概述

全国自动站观测数据经过国家级实时数据质量控制系统进行质量控制后,产生的疑误数据作为原始数据录入到QC信息管理系统,并形成查询文件下发到省里。省级的观测数据进行质量控制[4-5]后,与接收到的国家级查询信息进行融合,通过省级质控软件的即时告警功能将疑误数据信息发布给省级数据处理人员和气象台站[6]。对疑误数据进行确认后,省级形成反馈文件上传至国家级QC信息管理系统,系统将反馈信息与原始的查询信息进行融合存储,且对实时自动站观测资料的质量控制结果进行订正(图1)。

国省双向反馈流程中涉及了质量控制、质量查询反馈、通信传输等多个业务环节,环节之间交互多,数据的一致性在国家级通过QC信息管理系统、在省级通过质量控制信息融合子系统得以保证。

2 系统设计与信息流程

2.1 系统结构设计 系统整体设计为数据接口、数据处理和数据存储三层结构(图2)。以国家级存储检索系统MDSS实时库为数据环境进行数据存储,设计质量管理表AWSR存储疑误数据的查询反馈信息。作为国省双向反馈流程中各业务环节的数据接口,对疑误数据、查询文件和反馈文件的文件格式进行约定。数据处理包括3个模块:①国家级QC疑误数据入库。国家级质控系统产生的疑误数据作为QC信息管理系统的数据源进行存储。存储记录数据包括台站号、观测要素、观测时间、要素观测值、质量控制结果在内的查询信息和数据状态、入库时间等进程信息。②国家级查询生成。将AWSR表中未下发的记录形成查询文件的操作。按省生成查询文件并将文件放在通信系统的分发目录下,通过通信系统将查询文件传输到省级。查询文件生成的过程中修改数据状态以免受到其他进程的干扰。③反馈数据入库。对反馈文件的内容逐条生成反馈数据实时入库,反馈数据中包含的查询信息用于定位AWSR表中已存在的对应查询记录,之后更新确认结果等3项反馈信息、反馈时间和数据状态。对于表中不存在的查询记录直接进行插入操作。

QC信息管理就是将多种来源的查询与反馈数据进行统一存储和综合应用。基于这种统一的存储,可实现对实时观测数据质量信息的订正更新,以及对反馈情况的实时统计与质控结果分析等应用。反馈数据中的确认结果对自动站观测数据的质量信息意义重大,在完成AWSR表的存储工作后,将反馈数据的确认结果直接应用于自动站小时数据表(AWSH),对对应观测数据的质量控制码进行订正。

在调度配置方面,根据自动站到报情况,国家级质控系统采取基于调度策略的多次质控处理模式[7],其质控结果会随着时间和到报率产生变化,因此QC信息管理系统需要将质控系统1 h内执行的全部结果进行处理后保留最终的疑误数据进行入库存储。疑误数据入库和查询生成2个子流程存在先后关系,且疑误数据入库是在当前小时结束后才能开始进行,因此将这2个功能模块进行绑定,通过定时作业调度,在当前小时质量控制完成的下一个时次05分启动。而反馈数据入库没有受限,作为系统常驻进程对反馈文件进行实时处理。

2.2 “异步”信息交互机制 全国自动站QC管理系统内部包括3个独立的子流程:国家级QC疑误数据入库(以下简称“入库”)、国家级查询生成(以下简称“查询”)、反馈数据入库(以下简称“反馈”)。以数据库表实体——AWSR表作为核心,采用“异步”信息交互机制,通过标记数据状态实现3个子流程的衔接与交互。入库、查询和反馈流程完成后对应的数据状态标识分别为“未下发”、“已下发”、“已反馈”,其中“已反馈”是数据最终状态。

在实际业务场景中,入库总是先于查询发生,反馈一般发生在查询之后,但也可能发生在入库前后。具体来说:

(1)入库-查询-反馈。这是一种最常见的业务流程,国家级质控后的疑误数据进行入库,然后形成查询数据文件通过通信系统下发到省里,此时数据状态为“已下发”。省级数据处理人员确认数据质量后进行反馈,数据状态变为“已反馈”,如果多次反馈以最后一次为准。

(2)入库-反馈。由于省级质控系统产生的疑误数据也会产生查询信息,QC信息管理系统同时接纳省级查询的反馈数据。当疑误数据入库后,尚未进行查询下发时,省级反馈信息已经入库,那么数据状态变为“已反馈”,查询子流程根据这种数据状态将不再执行。

(3)反馈-入库。由于国家级和省级质量控制结果并不完全一致,当省级查询的反馈数据入库时可能没有对应的国家级的查询数据入库,而此时数据状态是“已反馈”。为了区分查询信息来源,增加“查询发起人”的辅助标记。如果国家级疑误数据在省级查询的反馈数据之后进行入库,则不改变数据“已反馈”的状态、反馈结果和查询发起人信息,只更新国家级疑误数据的入库时间。

2.3 数据库设计 一条疑误数据包含了查询的基本信息,即区站号、观测要素、观测时间、观测结果取值和质量信息。对于反馈信息,包括对数据质量的确认、问题原因和备注信息。分别将查询和反馈看作实体,对于一条查询数据,允许对其多次反馈,但以最后一条反馈结果为准,即一条查询数据最多对应一条反馈数据。而一条反馈数据必须存在其对应的一条查询数据。因此查询实体集和反馈实体集之间存在一对一联系,根据关系数据模型设计的简单性原则,将两类实体集设计为一个统一的关系数据模型AWSR(表1)。其中为了保证入库、查询、反馈子流程的正确交互,且对入库数据进行有效管理,增加了流程信息字段,包括数据状态、查询发起人、查询入库时间和反馈时间。

表1 AWSR表存储结构设计

3 系统建设与实施

3.1 部署运行情况 QC信息管理系统2012年7月在全国部署并投入业务运行。系统中已经实现了反馈数据对实况数据质量的订正,实时地将观测数据的质量控制标识依据确认结果修改为正确(0)、错误(2)或无法确认(1)。根据全国自动站逐小时观测资料质控评估结果可知,2012年7~11月国家站的平均疑误率为0.002%,区域站的平均疑误率为0.070%。若不将质量反馈数据应用于实时数据质量的订正,该时间段内的国家站的平均疑误率为0.009%,区域站的平均疑误率为0.100%。从7~11月国家站和区域站质量信息订正前后的疑误率变化(图3)可以看出,各月订正后的自动站疑误率均明显低于订正之前,这意味着QC信息管理系统的订正应用使资料的可用性得到了提升。另一方面,通过查询反馈双向流程的建立,省或台站能够实时掌握数据的质量状况,及时解决各类异常(如设备故障)造成的数据问题,7~11月自动站资料疑误率较4~6月大幅下降,资料质量明显提升。

3.2 反馈率统计分析 全国自动站质量评估业务是自动站质量信息的主要应用之一,评估业务除了对自动站资料可用率、可疑率、错误率、缺测率进行统计外,还对质量反馈情况进行统计,具体项目包括反馈率、可疑数据反馈为正确和错误的数量、错误数据反馈为正确和错误的数量等,其中,反馈率为反馈数据量与查询数据量之比,疑误数据反馈数量通过要素质量标志(flag_q)和确认结果(flag_f)来统计。AWSR表全面记录了查询反馈数据内容和流程信息,为反馈率等数据指标的计算提供了统计基础,全部计数指标均可以方便地转化为SQL语句直接统计完成。鉴于这种统计方法的便捷性和可操作性,可对其进行自动化改造,实现实时统计和任意时段的统计功能。

2012年4~6月的反馈率是通过对旧的反馈文件内容解析计数得到的统计值,自2012年7月以后的反馈率均是通过统计AWSR表得到的统计值。旧的反馈文件由于各省制作方法不统一,部分人工制作的文件格式不规范,有乱码情况,不能得到完全地统计。自从7月份系统业务运行后,反馈文件的有效记录率(即反馈入库率)为100%,由4~11月全国自动站疑误平均反馈率的统计结果(图4)可以得知,7~11月的平均反馈率比4~6月的平均反馈率提升了29.08%,效果显著。

3.3 反馈信息应用效果 质量信息对质量控制效果的分析有重要的应用价值。首先,错误或可疑的数据经确认后为正确或错误才是有效的反馈,而无法确认的结果可被认为是无效的反馈。经统计,2012年7~9月汛期期间质量控制共判断出气温、小时降水量等6个基本要素的错误和可疑量为167 257,其中有效反馈量为110 424,有效反馈率为66%;各要素有效反馈率均达到了半数以上(表2),可利用有效反馈信息对质量控制效果进一步分析。

表2 2012年7~9月基本要素质量控制反馈情况

对2012年7~9月汛期期间各类气象基本要素进行的质量控制效果指标统计,包括错误数据的误判率(错误确认为正确的量占有效反馈量的比率)、判错数据的准确率(错误确认为错误的量占有效反馈量的比率)、可疑数据的正确率(可疑确认为正确的量占有效反馈量的比率)、可疑数据的错误率(可疑确认为错误的量占有效反馈量的比率),对于任何一类要素,以上4项指标之和为1。其中错误数据的有效反馈率为错误数据的误判率与判错数据的准确率之和;可疑数据的有效反馈率为可疑数据的正确率与可疑数据的错误率之和。根据统计结果(表3),气温和相对湿度2个要素的错误数据的误判率低,准确率高,说明这2个要素的质量控制算法对错误数据的判断效果非常好;而可疑数据的正确率与错误率的差别只有10%左右,没有正确率或错误率过高的问题,说明质控算法对可疑数据的判断效果也很好。对于小时降水量、2 min风向和2 min平均风速3个要素,错误数据的有效反馈率明显低于可疑数据的有效反馈率,而本站气压要素的情况正相反;对于前3个要素来讲,可疑数据的反馈情况更具有参考价值,分析可知,它们的正确率明显高于错误率20%以上。为了进一步明确可疑数据的正确率偏高的原因,可以利用反馈数据中的问题原因和备注信息进行辅助分析。以降水为例,在33 505条降水要素的查询数据中,23 746条数据得到了反馈,其中2 122条反馈数据带有备注信息。依据对备注信息的内容分析发现,有60%的备注内容反映了由于局地有强降水、短时雷雨、强对流天气等情况,实际降水量正确,带有此类备注信息的数据,全部为可疑数据反馈为正确的情况,如陕西华阴2012年7月4日09:00降水量55.9 mm,质控系统判可疑,确认结果正确,备注信息为“暴雨”;浙江小梅镇梅一村2012年9月13日04:00降水量79 mm,质控系统判可疑,确认结果正确,备注信息为“局地降水”。若能够结合天气雷达等多源资料对局地性降水进行有效的判断,则降水可疑率会有明显下降,从而提高局地大降水数据的可用性。因此,反馈数据的信息有助于发现典型天气或问题的个例,辅助质量控制效果不断提升。

表3 2012年7~9月基本要素质量控制效果指标 %

4 小结

全国自动站QC信息管理系统是国省双向反馈流程在国家级的核心系统,该系统以国家级实时库为存储环境,设计了统一的存储表结构,并基于表中数据状态信息实现了入库、查询、反馈3个子流程的“异步”信息交互,保证了数据的一致性。

反馈信息对实时数据质量的即时订正使观测资料的可用性得到明显提升。国省双向反馈流程建立后,疑误数据查询的反馈率增长十分明显。同时,通过对质量控制效果指标的统计和直观分析,结合反馈数据内容可辅助提升质量控制的效果。

由于数据接口设计的较为规范,且具备可扩展性,QC信息管理系统已无缝接入到实时历史一体化业务中,开展对地面资料全要素质量信息的管理。下一步工作将考虑对高空等多类气象资料的质量信息进行综合管理。

[1]任芝花,赵平,张强,等.适用于全国自动站小时降水资料的质量控制方法[J].气象,2010,36(7):123 -132.

[2]赵煜飞,任芝花,张强.适用于全国气象自动站正点相对湿度资料的质量控制方法[J].气象科学,2011,31(6):687 -693.

[3]鞠晓慧,任芝花,张强.自动站小时气压的质量控制方法研究[J].安徽农业科学,2010,38(27):15130 -15133.

[4]窦以文,屈玉贵,陶士伟,等.北京自动气象站实时数据质量控制应用[J].气象,2008,34(8):77 -81.

[5]王海军,杨志彪,杨代才,等.自动气象站实时资料自动质量控制方法及其应用[J].气象,2007,33(10):102 -109.

[6]李志鹏,张玮,黄少平,等.自动气象站数据实时质量控制业务软件设计与实现[J].气象,2012,38(3):371 -376.

[7]刘一鸣,周自江,远芳,等.ARQCS启动策略及其与资源消耗的关系[J].应用气象学报,2014,25(4):505 -512.

猜你喜欢
信息管理系统入库观测
观测到恒星死亡瞬间
三维可视化信息管理系统在选煤生产中的应用
信息管理系统在工程项目管理的应用
重磅!广东省“三旧”改造标图入库标准正式发布!
中国食品品牌库入库企业信息公示①
基于三维TGIS的高速公路综合信息管理系统
天测与测地VLBI 测地站周围地形观测遮掩的讨论
可观测宇宙
身临其境探究竟 主动思考完任务——《仓储与配送实务》入库作业之“入库订单处理”教学案例
高分辨率对地观测系统