海洋站数据质量控制技术探讨

2011-09-24 03:27史静涛周智海
海洋技术学报 2011年1期
关键词:布斯检验法数据量

史静涛,周智海

(国家海洋技术中心,天津300112)

海洋站数据质量控制技术探讨

史静涛,周智海

(国家海洋技术中心,天津300112)

介绍了几种常用的数据质量控制方法,并分析了这些方法的使用条件;初步分析了海洋站数据质量控制过程;针对海洋站数据特点,对某一海洋站某月逐时数据分别采用3δ检验法和格拉布斯检验法进行整体检验和分组检验,并采用曲线拟合手段表现质量控制结果。结果表明,对海洋站数据进行质量控制以后,数据质量得到了明显提高,同时也显示出对数据进行分组检验的必要性。

质量控制过程;3δ检验法;格拉布斯检验法;曲线拟合;分组检验

随着国家对海洋环境的重视,人们也认识到海洋站数据质量提高的重要性,数据质量需要数据质量控制才能提高。目前,数据质量控制主要是实时数据质量控制和延时数据质量控制两种。实时数据质量控制是延时数据质量控制的基础,实时数据质量控制做得好就能减轻延时数据质量控制的工作。两种数据质量控制所控制的数据有一定的差别,所以采取的数据质量控制方法也不同,然而这两种数据质量控制过程基本上是一致的。

本文首先探讨了常用的数据质量控制方法,其次针对海洋站以及其数据特点初步分析了其数据质量控制过程,最后通过案例来了解具体的海洋站数据质量控制过程。

1 几种数据质量控制方法简介

数据质量控制方法的研究是数据质量控制的重点,控制方法的好坏直接影响到数据质量。目前,数据质量控制经常用的方法有极值控制、莱茵达检验法、狄克逊检验法、格拉布斯检验法以及Cochran检验法等。

1.1 极值控制方法

极值控制方法是根据各种海洋环境要素的物理特性、统计经验给定各个要素的极大值和极小值。极值控制是普遍采用、简单有效的方法,能够有效地检验出极端异常的数据。然而极值控制方法不能很好地检验那些差异不是很大的异常数据,这就需要更加精准的控制方法来控制。

1.2 3δ检验法[1]

3δ检验法又称莱因达检验法。根据误差理论,一般情况下随机误差δ服从正态分布。δ为标准差,一般是未知的,通常用贝塞尔公式算得S代替δ,以x¯代替真值。

xi为观测值,i=1,2,…,N

对某个观测数据 xi,若其残差 vi满足 vi=|xi-x¯|>3S,i=1,2,…,N,则xi可疑,应该标记异常值。

1.3 狄克逊(Dixon)检验法[1-3]

狄克逊准则有一假定条件,那就是设定观测数据总体是正态分布的,取1个样本x1,x2,…,xn,将观测数据按大小顺序排列为x'1≤x'2≤x'3≤…≤x'n,检验高端值和低端值是否异常有如下4种方法:

以上的 r10,r'10,r11,r'11,r21,r'21,r22,r'22简记为 rij和 r'ij。狄克逊导出了它们的概率密度函数。选定显著性水平α,求得临界值 D(α,n)。

若 rij>r'ij,rij>D(α,n)则判断 x'n为异常值;若 rij<r'ij,r'ij>D(α,n)则判断x'1为异常值;否则判断没有异常值。

狄克逊认为对不同的测量次数或不同的数据量,应选用不同的统计。狄克逊方法本身说明该方法适合数据量比较少的情况,对于数据量比较大的数据一般采用其他方法;而且这种方法公式比较多,判别过程相对比较繁琐。

1.4 格拉布斯检验法[1-3](Grubbs)

格拉布斯准则是根据顺序统计量的某种分布规律提出的一种判别标准。

设定一个正态独立测量的样本x1,x2,…,xn,对其中的一个可疑数据xi(它与¯的残差绝对值最大),构造统计量为为样本的平均值,S按公式(2)计算。 格拉布斯导出了它的理论分布。选定显著性水平α,α通常取0.05或0.01,求得按下式意义的临界值G(α,n)。

1.5 Cochran 检验法[1-3]

设有 L 组数据,每组测定 n 次,标准差 S1,S2,…,SL都由公式(2)得到;

(a)将L个标准差按大小顺序排列,最大值记为Smax;

如果n=2,即每组只有两次测定时,各组内差值分别为R1,R2,…,RL,则要按如下公式计算 C:

(10)

(c)根据选定的显著水平α、组数L、测定次数n确定临界值 Cα;

(d)若 C>Cα,则判断 Smax为异常值,其对应的那组数据异常或者当中存在异常值。

Cochran检验法检验完成以后还需要对有异常数据的那组数据采用其他的质量控制方法,所以这种方法适用于数据量比较大的数据。

2 海洋站数据质量控制过程

根据海洋站观测平台的实际观测,数据质量控制过程可以分为数据采集与传送、数据转化、根据采集到的数据特点对数据质量控制方法的选择和处理,以及数据质量控制结果的显示及存储等。数据质量控制过程图如图1所示。

图1 数据质量控制过程图

2.1 数据采集与传送

数据采集与传送是数据质量控制的基础,数据采集主要是读取观测仪器的实时数据或延时数据。现在的数据采集一般是观测仪器自动记录观测数据,这样可以消除部分人为造成的读数误差。数据传送过程中可能会带来部分的传输误差,一般造成非码错误,这就要求接收数据的时候应该对数据进行非码检验,保证不必要数据的后期处理。

2.2 数据转化

传输的数据往往不一定是我们所认知的数据形式或者数据量纲,这就要求对其进行数据转换。转换以后的数据才能更加清晰地反应当前海洋环境的状况以及趋势。

2.3 选择适当的数据质量控制方法进行数据质量控制

选择数据质量控制方法是海洋站数据质量控制过程中的核心。为了选择合适的质量控制方法,首先必须对数据本身的特点进行分析,一般有数据正态性判断、数据误差正态性判断以及数据量的大小,甚至数据分组处理等等。目前常用的数据质量控制方法有极值检验、一致性判断、递增性判断、3δ方法检验、格拉布斯检验以及狄克逊检验等。

2.4数据质量控制结果显示以及存储

数据质量控制结果一般通过散点图、拟合图、点线图等来分析当前海洋环境的状况以及趋势。数据质量控制的目的不单是为了显示当前的海洋环境状况,还要数据质量控制结果的存储以达到通过数据积累了解海洋规律。

以上的4个阶段是对实时数据质量控制过程的简单概括,延时数据质量控制是在实时数据质量控制的基础上进行的更加深入的数据处理过程,不过基本的数据质量控制过程只有上述的3,4两个过程,因此这里不再详细探讨延时数据质量控制过程。

3 算例与分析

现以传送过来的某一海洋站符合观测规范格式的1个月的逐时表层海水温度和表层海水盐度数据文件为例。这类文件一般是每个月会产生1个文件报表,对该类文件的处理算是延时数据质量控制。

首先按照海滨观测规范将数据文件转化为实际认知的数据形式,并形成数据文件。

其次对数据进行质量控制。该文件数据量比较大,并且在忽略人为所造成的过失情况下认为数据是符合正态分布的。数据量不同,采用的方法往往也不同,同一数据在不同方法下判断结果有时也不同,这时候应采用比较精确的方法得出的结论。对整个月的数据可以采用莱茵达检验法进行质量控制。为了提高数据的质量和对异常数据的剔除,我们对数据再采用按日分组进行处理。质量控制前的散点图如图2,从图中能够看出有些数据是偏离整体趋势的。对整个月的数据采用莱茵达检验法后的散点图如图3,从图中可以看出还是有些数据是偏离整体趋势的,因此需要更精确的质量控制。按日分组采用Cochran检验法检验,然后对有异常数据的组用格拉布斯检验法检验后的散点图如图4,从图中可以看出其中的表层海水温度变化趋势已经很明显。

最后采用曲线拟合表现整个月的表层海水温度变化趋势,这里采用最小二乘方法拟合[4]以后的曲线如图5。

图2 质量控制前表层海水温度散点图

图3 整体处理后表层海水温度散点图

图4 按日分组处理后表层海水温度散点图

图5 表层海水温度拟合曲线图

对于表层海水盐度可以重复上述处理过程这里不再详细说明。

4 总结与展望

通过实例简单讨论了海洋站数据质量控制,其中还有很多的问题需要更加深入的探讨。今后可以开展的研究可以总结为以下几点:

(1)质量控制方法需要更加细致的探讨,需要针对海洋数据本身的特点分析出适合特定数据的质量控制方法。

(2)质量控制最终结果处理的探讨,不仅是简单的曲线拟合,还需要更加精确的表现数据趋势的手段。

(3)更加深入的质量控制研究,本文只简单分析了海洋站数据质量控制。有待于今后采用更加深入的数据处理方法,比如回归分析、判别分析等。

[1]刘振学,等.实验设计与数据处理[M].北京:化学工业出版社,2004:29-33.

[2]于振凡,等.数据的统计处理和解释(第二版)[M].北京:中国标准出版社,2006:165-180.

[3]国家质量技术监督局.GB 17378.2.海洋监测规范 第2部分:数据处理与分析质量控制[S].1998.

[4]苏金明,等.MATLAB使用指南(上册)[M].北京:电子工业出版社,2005:49-55.

Abstract:Several commonly used quality control methods are described.The conditions of these methods are described then.The data quality control process of marine stations is preliminarily analyzed.According to the characteristics of the ocean station data,an overall month data of a marine station by 3δ verify method are inspected and the data group is tested by group using Grubbs verify method.The quality control results are performed by means of curve fitting.It can be seen from the results that the data quality has been improved using the data quality control process which is introduced.

Key words:quality control process;3δ verify method;Grubbs verify method;curve fitting;packet inspection

Study on Technology of Ocean Station Data Quality Control

SHI Jing-tao,ZHOU Zhi-hai
(National Ocean Technology Center,Tianjin 300112,China)

P71

A

1003-2029(2011)01-0114-04

2010-05-28

国家“十一五”863计划——海洋立体实时监测信息服务技术系统资助项目(2006AA09A302)

猜你喜欢
布斯检验法数据量
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
孙悟空战蜘蛛侠
PCR 检验法和细菌培养法用于阴道细菌检验的效果
蒙药希和日额布斯-6对功能性消化不良患者胃动力的影响
关于协方差的U统计量检验法
阿基米德Copula函数的拟合检验
水准点稳定性F检验法与t检验法异同的研究