台站级地面气象观测数据综合质控系统设计

2016-11-09 01:21周欢乐
计算机应用与软件 2016年9期
关键词:入库气象观测

李 涛 周欢乐

(南京信息工程大学电子与信息工程学院 江苏 南京 210044)



台站级地面气象观测数据综合质控系统设计

李涛周欢乐

(南京信息工程大学电子与信息工程学院江苏 南京 210044)

气象与地球中有关学科的研究需要准确可靠的地面气象观测资料作为支撑,这是提高气候预测水平的重要前提。针对这种情况,需要对地面气象观测数据进行综合质量控制系统的设计。系统包括后台数据结构的设计及前台基于多线程操作机制的质控系统的设计。系统在地面气象资料数据入库之前进行综合质量控制,控制方法除了传统的极值、时间、内部一致性检查之外,还运用Logistic回归模型,加入设备状态的研究。系统不仅提高了数据处理效率,也使气象观测数据具备了更好的代表性、准确性和比较性。

地面气象观测资料质量控制Logistic回归设备状态多线程

0 引 言

在制定天气预报以及气候预测时,地面气象数据是这个环节的重要基础资料,数据质量越高,天气预报和气候预测就越准确。二十世纪九十年代末以来,我国着手在实验中对个别台站创建自动站,伴随软件硬件各方面技术的不断成熟,自动气象站建设的速率也显著提升。到了2011年,我国的地面自动气象站[1]的数量已经达到了2 500多个。

在海量数据需要进行采集、传输以及保存的要求下,地面气象站的观测手段越来越趋于自动化,数据传输的速率也不断提升。此时,为了确保用户可以及时迅速的使用到尽可能可靠的观测数据信息,并且尽可能地让预报人员做出确切的业务决策,急需研制一套质控方法,用来标记可疑观测记录或者错误观测记录。从人类有器测量开始,地面气象资料观测数据就是最长久的气象资料,同时也是判断气候状况的关键参数。气象事业的发展将直接受到来自气象观测资料准确性的影响。而地面气象数据又最容易受到下垫面环境状态的改变、人为观测误差以及设备状态等因素的影响,所以地面气象资料的质量控制显得尤为重要。

在此背景下,本文设计了一种台站级地面观测数据综合质量控制系统。采用综合质量控制方法对气象资料进行处理,以visual studio作为开发平台,以C#作为开发语言,使用多线程操作机制提高系统处理气象资料的效率;进行数据库设计以达到存储海量气象数据的效果;进行综合质控方法的研究,保证气象资料的准确性、代表性,提高气候预测的可靠性。

1 质量控制方法研究

本文以数据质量控制和评估业务系统为基础平台,用计算机技术实现各类气象数据的质量控制、评估和数列均一性检验,以人机交互的方式实现气象资料的订正。

1.1传统质量控制方法应用

气象观测资料会反映出大气变量的具体物理特征和气候特征,传统的质量控制方法正是基于这些基本规律制定的,并且,传统的质量控制方法也在各国的质量控制中起到主导作用。实时检查是对地面气象观测资料中各要素进行质控的主要手段,其检查手段囊括人机交互辨别手段,检查方法包括数据预处理、气候学界限值检查、时间一致性检查、内部一致性检查等[2]。由于该系统适用于台站级气象数据的质量控制,不涉及多站,因此不考虑空间一致性检查。

1.2基于数据挖掘算法的质量控制方法研究

地面气象资料历史长远,由于气象站探测设备故障、人工误差等原因不可避免的会出现一些误差。虽然通过传统的质量控制方法可以实现数据准确性提高,但由于设备状态异常也会引起的观测数据异常[3]。在过往的质控系统中都需要通过人工检查设备传感器状态来判断观测记录不正常是否由设备状态引起,给观测数据的处理和后期使用带来了不便与滞后。因此,本系统中我们采用了因子分析法以及Logistic回归模型等数据挖掘相关算法,将实时设备状态文件加入讨论,对地面气象观测数据进行进一步质控。当观测值在某个时间点或时间段要素数据出现突变时,系统能够自动检测出突变是由设备状态异常造成,还是出现某种天气现象造成。为往后的气象数据应用、气候预测、灾害预警提供更有说服力的数据支持。

1.2.1因子分析法

因子分析的主要内容是将许多指标或因素与多种因素的相关性用个别几个因素来描述,也就是说,将相关性较强的几个因素放到一种类型里面,将这种类型的变量看作一个因素,用相对少的几个因素体现出原始资料的多数重要信息。

通过SPSS因子分析实验,以云高、云量为例,将云高、云量各要素分解与降维,综合原始变量,确定模型最终变量,结果如表1所示。新变量中或者是由多个原始变量组合而成,或者是直接保留某个原始变量。新变量都是互不相关的,这些新变量能够解释原始变量的主要信息,更重要的是它们彼此之间不存在相关性,可以作为进一步研究的主要依据。

表1 降维前后对比图

1.2.2Logistic回归模型

利用Logistic回归进行预测,将设备状态作为新的变量,逐一与观测要素变量进行回归。Logistic回归模型是一种分类模型,因变量Z是一个二分类变量,其取值Z=1和Z=0,分别表示加入设备状态后要素的预测值与实际观测值一致和不一致。影响Z取值的n个自变量分别为X1,X2,…,Xn,其中,X1,X2,…,Xn-1为降维后的观测要素变量,Xn为设备状态变量。在这n个自变量作用下,预测值与实际值一致的条件概率为P=P(Y=1|X1,X2,…,Xn),则Logistic回归模型可表示为:

Z=B0+B1X1+B2X2+…+BnXn

(1)

(2)

式中,P代表预测值与实际值一致的概率;Z代表权重向量;是回归系数,输出结果P趋近于0.5表示预测值与实际不一致,趋近于0.73表示一致[4]。以此观察设备状态与最终预测数据误差率的关系,进而确定设备状态的质量控制区间,以此给出设备状态的质量控制码。

1.3质量控制对数据可疑度分级及处理

系统将对数据进行各项检查处理,对于通过检查的数据则认为是经过质控的数据,视为可信数据,没有通过检查的数据被视为可疑数据,系统对可疑数据设定了四种可疑度。

(1) A级:有足够的证据证明其为错误数据,直接剔除。

(2) B级:强可疑数据,为危险等级数据,将其从业务数据库中剔除,作为参考检测数据列入参考数据库保存。

(3) C级:可疑数据,数据比较可疑,但是具有一定的可信度,对此类数据只进行本地保存,不上报。

(4) D级:弱可疑数据,数据有一点可疑,但可以作为可信数据进行处理,但要进行弱可疑备注。

(5) E级:正常数据。

1.4综合使用质控方法

为了让入库的气象资料数据更准确、更权威、更有代表性,所以推荐综合使用多种质控方法对气象资料进行排错、控制以提高精度。图1为综合使用质控方法流程图。

图1 综合质控方法流程图

2 系统设计与实现

系统设计的任务是基于软件体系结构的系统逻辑模型的分析设计,实现全面的质量控制系统的地面观测数据。系统物理模型必须符合逻辑模型,设计合理的系统架构,完成逻辑模型所规定的信息处理能力;集成多种实时数据质量控制功能提高数据准确率,将综合质量控制算法模型进行编码,生成类库.dll文件,方便气象业务系统使用;采用多线程操作机制对气象数据进行处理,提高系统的稳定性能;以PostgreSQL9.2作为后台数据库,达到提高数据存储及处理效率的目的,提高了系统对海量气象资料处理的吞吐率。

2.1系统架构

考虑到系统对网络数据负载、安全性、稳定性以及拓展要求较高,本系统选择使用C/S(Client/Sever)开发方式,但不再局限于三层架构的开发模式。系统总体架构分为四层体系结构:设备层、通信解析层、汇聚处理层和表现层,如图2所示。每一层根据各自的功能定义一些基础类,派生出来的不同对象可以组合覆盖类似的质控系统[5,6]。

图2 系统多层架构设计图

2.2质控算法类库

系统对研究得到的地面气象观测数据综合质量控制算法进行编码,将算法生成综合质量控制类库,以dll文件形式存在。类库对外部程序提供接口,通过引用类库,输入解析赋值后的要素变量,输出要素值的综合质控码。生成dll类库文件,使算法程序拥有良好的封装性,同时方便其他气象业务系统调用。如图3为类库概要图。

图3 类库概要图

2.3后台数据库

PostgreSQL是由美国伯克利大学设计的数据库系统,经过不断的设计发展,最终发展为一种对象-关系型数据库管理系统。这是一种开源的数据库系统,经过发展已经成为开源界功能最先进的开放源代码的数据库系统之一[7]。PostgreSQL可以实现多种版本并发运行,对目前我们所知的SQL构件的支持性较高,具备良好的开放语言绑定功能。

PostgreSQL作为一种开放的数据库管理工具,与其他的数据库系统相比,有着鲜明特征,包括:①面向对象特征,可以任意添加属性;②数据类型丰富,不仅包括数字字符,还可以包含点线面等类型;③全面支持SQL;④可以与Web集成,解决Web问题能力更高,支持ODBC和JDBC;⑤大数据库,可以支持海量数据存储达到100 GB。系统的良好支持特性可以为未来前台数据提取的项目开发提供良好的后台数据库支持[8]。

2.4多线程处理

数据资料是以Txt报表的方式存在,通过3G/4G网络传递到中心服务器,由于报文种类的多样性系统采用了多线程的操作方式[9,10]。如图4所示,报文A使用相对应的主线程、读写线程、解析线程、入库线程。

在使用多线程处理数据的过程中,一方面使用了线程同步机制,即处理数据的各线程依赖扫描主线程,需要扫描线程提供消息进行唤醒调用,而其他线程则是处于等待状态。另一方面,当有多个线程同时需要访问资源时,则需要使用一个互斥机制,即任何时刻只允许一个线程访问资源,如果剩余线程也需要访问此资源,就需要等待使用资源的线程释放该资源才能对该资源进行访问。

图4 数据处理多线程操作流程图

2.5系统总体设计

本系统输入项为TXT格式的《地面气象观测数据文件》,需将文件数据导入数据库,供查询、统计、分析使用。系统的每个模块之间需要进行信息的传输,信息的传输需要通过接口来实现。数据在传递之前需要按照特定数据结构要求进行封装,以参数的形式输入。经过函数的调用,将函数返回值输出。系统拥有的优势在于:①支持多终端操作;②支持多用户的并行操作;③系统响应时间较短;④有权限设置;⑤具有备份功能[11,12]。系统主体流程分为以下几个步骤:

1) 观测员对报告书进行填报,数据录入,观测员包括县级,市级,省级基站的观测人员;

2) 观测的数据会以类似于GPRS方式上传到中心服务器,中心服务器会对当前的气象数据进行预处理,再提交审核;

3) 数据审核模块进行审核,审核部门为省局和国家局,相关的审核结果为省级业务管理人员审核报告和国家级业务管理人员审核报告,根据报告反馈信息对报表进行修改;

4) 审核之后会产生告警模块和日志模块信息,告警模块将警告信息以短信的方式提交上传,日志模块则是将系统运行的具体信息做记录,并将权限进行更变,认定用户的权限;

5) 信息审核完毕之后会进入质量控制模块,质控模块会综合使用各种控制方法及手段对当前的地面气象资料进行处理,包括人工检查,算法检验等;

6) 经过质量控制的资料会产生多种级别的数据类型,需要判断数据的异常性,异常则进入异常处理环节给出提示或标记;

7) 最后则是入库模块,入库模块接收多种类别的数据,包括警告信息、日志信息、用户权限信息、未经过质量控制的信息、质控处理后的信息等等,入库程序将对这些信息进行具体的判断操作处理,最后做入库处理。图5为系统总体设计流程图。

图5 系统总体设计流程图

3 系统运行

本系统采用C#语言和最新的.NET技术编程[13],同时结合PostgreSQL开源数据库,系统运行环境为Windows 7,实际运行效果表明系统各项性能良好,能够满足当前用户基本需求。

3.1质控入库界面

用户输入获取气象资料文件所在目录,点击报文质控入库按钮后,进行批量文件的处理。系统响应用户请求获取文件名打开文件,逐行读取文件数据,调用对应文件类别的数据处理类对文件进行解析、质控、入库。文件的处理状态和处理结果在DataGridView中呈现出来。如图6为入库效果图。

图6 入库效果图

3.2质控查询界面

查询质控结果时,用户可在查询界面选择查询要素、查询时间后发出查询指令,系统响应用户请求从数据库中查询相应的要素值及其质控码,通过质控码确定数据可信度颜色,并在DataGridView中呈现出来,如图7为质控查询效果图。

图7 质控查询效果图

4 结 语

高质量的地面资料观测数据不仅有利于气象气候分析研究和天气预报,而且在气象防灾减灾决策以及气象信息共享中也有着重大的使用价值和指导意义。基于数据挖掘算法的地面气象观测综合质控系统在实施地面气象资料入库前,对地面气象资料进行准确性研究,并将研究成果放到质控入库系统设计中,这将大大地提高入库观测数据的准确性、权威性、参考性。系统的具体设计采用多线程操作方法,架构设计突破三层架构模式,系统的稳定性,可移植性得到增强。在接下来的研究中,将进一步运用数据挖掘的算法到观测数据的质量控制中来,提高观测资料的准确性。

[1] 韩海涛,李仲龙.地面实时气象数据质量控制方法研究进展[J].干旱气象,2012,30(2):261-265.

[2] 中国气象局.中华人民共和国气象行业标准地面观测记录质量控制QX/T 66-2007[S].北京:气象出版社,2007:1.

[3] 王倩君.地面气象观测数据文件质量控制研究[J].北京农业,2014,24(12):154-155.

[4] 许冲,徐锡伟.逻辑回归模型在玉树地震滑坡危险性评价中的应用与检验[J].工程地质学报,2012,20(3):326-333.

[5] 唐荣,戴永寿,孙洪涛,等.海洋水文气象观测数据采集监控系统设计与开发[D].中国石油大学,2010.

[6] 王会品,徐蔚然. 新一代天气雷达数据管理与质控系统[D]. 北京邮电大学,2012.

[7] 郭嘉凯,程梦瑶.开源的力量[J]. 软件和信息服务,2015(3):20-29.

[8] 张爱国,邬群勇,王钦敏,等.基于PostgreSQL数据库的GML数据存储[J].测绘科学,2008,33(1):195-200.

[9] 薛建军,周杰,杜景林.改进型实时气象资料处理系统设计与实现[J].计算机工程与设计,2012,33(4):1623-1628.

[10] 宋海友,张巧珍. 多线程技术在数据通信中的应用[J]. 电子技术与软件工程,2015,20(5):64.

[11] 王海军,杨志彪,杨代才,等.自动气象站实时资料自动质量控制方法及其应用[J].气象,2007,33(10):102-109.

[12] 陈少雄,卢尚龙,丁建勋,等.数据监理在基础信息系统数据入库中的应用[J].地理空间信息,2008,6(4):33-39.

[13] 王健,苗永康,周峰. 基于.NET的飞信远程控制系统[J].单片机与嵌入式系统应用,2014(11):32-34.

DESIGN OF COMPREHENSIVE QUALITY CONTROL SYSTEM FOR STATION-LEVEL SURFACE METEOROLOGICAL OBSERVATION DATA

Li TaoZhou Huanle

(College of Electronic and Information Engineering, Nanjing University of Information Science and Technology, Nanjing 210044, Jiangsu,China)

Accurate and reliable surface meteorological data is required to support the research of related disciplines in meteorology and earth, and this is an important prerequisite for improving the climate prediction level. In light of this situation, there is the need in designing a comprehensive quality control system for surface meteorological observation data. The system includes the design of backstage data structure as well as the design of foreground quality-check system based on multithreading operation mechanism. The system makes comprehensive quality control on surface meteorological data before to be stored. Apart from the traditional means such as extreme value, time, internal consistency check, the control method also employs Logistic regression model to add the equipment state into research. The system not only improves the efficiency of data processing, but also makes the data of surface meteorological observation with better representation, accuracy and comparison.

Data of surface meteorological observationQuality controlLogistic regressionEquipment StateMultithreading

2015-04-10。公益性行业(气象)科研专项项目(GYHY201306070)。李涛,副教授,主研领域:数据挖掘,计算机软件。周欢乐,硕士生。

TP311.1

A

10.3969/j.issn.1000-386x.2016.09.014

猜你喜欢
入库气象观测
气象树
重磅!广东省“三旧”改造标图入库标准正式发布!
《内蒙古气象》征稿简则
中国食品品牌库入库企业信息公示②
中国食品品牌库入库企业信息公示①
大国气象
美丽的气象奇观
2018年18个值得观测的营销趋势
天测与测地VLBI 测地站周围地形观测遮掩的讨论
可观测宇宙