斯米尔洛夫检验法在非正态分布气温数据均一性检验中的应用

2016-11-17 02:40邓鑫洁
重庆建筑 2016年8期
关键词:米尔断点洛夫

邓鑫洁

(重庆建筑工程职业学院,重庆400039)

斯米尔洛夫检验法在非正态分布气温数据均一性检验中的应用

邓鑫洁

(重庆建筑工程职业学院,重庆400039)

均一性检验是数据处理工作的重要步骤,研究均一性检验方法具有非常重要的意义。均一性检验也是气候资料订正的第一步,其正确性会直接影响到后续工作的开展。经典的标准正态检验法(SNHT)只适用于正态分布的气候序列的均一性检验,而实际上存在大量非正态的气候序列需要考察其均一性。该文所采用的斯米尔洛夫方法,常用于序列的总体分布检验,文中将其运用到气温序列的均一性检验中,适用于任何分布的气温序列。针对重庆市年气温序列的均一性检验结果表明,斯米尔洛夫方法优于SNHT方法。

均一性;检验;气候资料;非正态分布;斯米尔洛夫法

0 引言

在大数据时代,可从海量数据中提取信息,为了确保信息的准确,进行适当的预处理是非常有必要的。气候资料是研究气象灾害及其变化规律的基础,为人类趋利避害提供了实用的信息。由于台站迁移、观测仪器更换、站址周围环境变化、自动观测仪器及传输系统的故障等等因素可能引起粗差或资料缺失等,使气象序列出现跳跃性变化,导致利用这样的序列得到的研究成果令人质疑。李又君等研究表明台站迁移后两地气温差异显著[1];王颖等发现自动观测与人工观测的各气象要素均存在一定的差异[2];熊安元研究发现观测仪器的变化对气温测值有较明显影响,其中日、月、年平均气温相差达0.2℃[3]。

在统计学上,均一性序列指序列样本取自同一总体,具有相同的概率分布函数,而非均一性序列指不同时段的序列取自不同的样本总体,即存在突变点[4]。均一的气候序列是气候变化研究的基础,被定义为只包含天气和气候变化的序列,Heino将导致长期气候变化的原因划分为两类:明显变化和真实变化[5],其中的明显变化就是导致气候资料非均一的因素,而序列中的非均一性既可能是渐变的趋势,也可能是突然不连续的(即断点)[6]。

国内外许多学者对气候序列的非均一性问题进行了大量研究,也提出了几种非均一性检验方法。目前应用最为广泛的是由A lexandersson发展的SNHT方法[7]。SNHT方法是一种极大似然检验方法,能检出多个断点,也能检验趋势的均一性,还能检验方差的变化。

但SNHT方法要求样本服从正态分布,实际上有些台站资料不能满足要求。一般对变量做标准正态化处理,而处理过程中偏差大的或无法正态化的序列,不宜采用SNHT方法进行检验。针对上述问题,本文引入基于经验分布函数的斯米尔诺夫方法运用到气温资料的非均一性检验中。斯米尔洛夫法是经典的总体分布函数的检验方法,用于两个总体分布函数的比较问题,在气象上也曾用于分析序列的分布情况,例如降水量的统计特征[8]等。

实际计算分析表明,斯米尔洛夫方法可以进行均一性检验,比SNHT方法有更广泛的适用性。

1 资料与方法

1.1资料来源

重庆地属四川盆地边缘,地形复杂,气象观测台站分布稀疏。建国以来,重庆市社会经济建设速度很快,部分气象台站曾多次迁址,导致重庆市气象局提供的气候资料存在较严重的非均一问题。均一性检验的过程中,我们发现,很多(约15个)台站的气温序列与正态分布有显著差异,SNHT方法难以发现断点。

为了考察斯米尔洛夫方法的实际效果,选用重庆市城口站、开县站和奉节站从1960年到2008年的逐日平均气温,参考台站选自重庆市除巫溪、云阳、金佛山外的其他34个气象台站。其中巫溪、云阳两地涉及到观测台站变迁问题,资料分别从1973、1974年开始,而金佛山观测资料结束于1994年。

1.2计算方法

设母体X有样本观测值x1,x2,…xn,其顺序统计量为x(1)≤x(2)≤…≤x(n),在区间(-∞,+∞)上构成函数

则称函数Fn(x)为经验分布函数,或样本分布函数。

根据大数定律,当样本容量n足够大时,经验分布函数Fn(x)依概率收敛于母体分布函数F(x),即有:

斯米尔洛夫检验借助于经验分布函数用于比较两个母体分布,设两个母体分布函数分别为F1(x)和F2(x),假设检验为:

设定第一个母体样本观测值为x1,x2,…xn1,第二个母体的样本观测值为y1,y2,…yn2,并假定两个样本是相互独立的,有根据两个样本观测值建立的经验分布函数分别是Fn1(x)和Fn2(x),Fn1(x)与Fn2(x)之间的差异反映的是F1(x)和F2(x)之间的差异。斯米尔洛夫提出的统计量为:

如果H0成立时,则表明两母体具有相同的分布函数F(x),即F1(x)=F2(x)=F(x)。从两个母体中分别得到的两个样本,可以看成从同一母体中独立的分别得到的两个样本,因而可以利用统计量Dn1n2及其极限分布进行检验,其检验的具体步骤是:(1)从两个母体中独立抽取容量分别为n1和n2的样本,分别建立经验分布函数是Fn1(x)和Fn2(x)。(2)计算统计量Dn1n2的值,作为H0的检验统计量。(3)给定显著性水平α,用对应的n值查出的临界值Dn(α)。(4)比较Dn1n2和Dn(α),若Dn1n2>Dn(α),则否定H0,即认为两母体的分布函数不同[8]。

1.3对年平均气温的均一性检验

我们需要得到的是去掉明显变化的气候真实情况,故需要查找出由于非气候变化导致的气候资料非均一,在检验中需剔除母体中各元素包含的气候真实变化,所以建立一个相对均一的参考序列是检验和订正待检序列的关键,参考序列构建的是否合理,是否均一直接影响到待检序列的检验结果。

本文中以原始序列为基础,运用多元线性回归原理得出参考序列。设T0为待检台站温度序列,T1为参考台站温度序列,利用下公式计算得参考序列T'0。

将待检序列与参考序列的差值序列作为检验序列{Xi}(i= 1,2,…n)。

如果检验序列{Xi}没有不连续点存在,则对于任意i(i=1,2,…n-1),以其前后序列为样本的{x1,…xi}和{xi+1,…xn}都能通过斯米尔洛夫检验,认为其来自同一母体,反之亦然。

本文所选实验数据长度短,在以年份为间断点,逐次将检验序列分为首尾两段{X1}和{X2},它们的样本容量分别为n1和n2,利用斯米尔诺夫检验法对两样本进行分布检验。将y=Dnln2-Dn(α)作为检验量,y为正时,序列可能存在间断点,其为正且最大处作为断点。同法查找断点前的序列和断点后的序列中隐藏的断点。

2 计算结果及分析

本文选择距待检台站最近的5个台站为参考台站,利用公式(6)计算出参考序列,城口站和开县站年平均气温待检序列与参考序列分布图如图1、图2所示,

图1 城口站年平均气温待检序列与参考序列分布图

图2 开县站年平均气温待检序列与参考序列分布图

将待检序列和参考序列作为两样本,选定显著性水平α= 0.05,分别计算得:城口站有:Dn1n2=0.1837<Dn(α)=0.2748;开县站有:Dn1n2=0.1837<Dn(α)=0.2748。通过斯米尔洛夫检验,认为两样本来自同一分布总体。如此处检验不通过,则需重新筛选参考台站。利用待检序列与参考序列作差构造检验序列进行检验,其分布如图3所示。图中可看出城口站在1978年前后、2002年前后有明显的变化,开县站在1978年前后也有明显变化,而奉节站在2002年存在明显的非均一。

选择显著性水平α=0.05。将未通过斯米尔诺夫检验的差异最大处作为断点,在同理分析断点前后两序列中是否存在断点。

在SNHT法中,可将原假设定为检验的变量服从正态分布,此处通过计算样本的偏度系数和峰度系数进行,在显著水平性α= 0.05下,若偏度系数和峰度系数满足:

图3 城口站与开县站检验序列分布图

则拒绝假设,认为变量不遵从正态分布,否则可认为变量与正态分布无明显差异。其中偏态系数和峰态系数与样本中心矩的关系为:

式中mk分别为样本的k阶中心矩,k阶中心矩表示为:(9)

表1 斯米尔洛夫检验法与SNHT检验法结果对比表

如不满足正态分布,采用适当的正态转换方法,若转换后仍无法满足,则无法检验。

表1中列举了两种方法对重庆市城口、开县、奉节三台站的检验结果。

比对气象台站沿革资料,该次试验中有记载的台站迁移有13个,斯米尔洛夫检验法共测出断点15个,其中8个可得到台站迁移验证;SNHT法共检验出断点5个,其中3个得到台站迁移验证。

在本文的计算中仅考虑了台站迁移的沿革资料,而统计方法、仪器变更和仪器高度等均未考虑。城口站历史沿革资料记载其于1960年到2008年之间站台位置有三次调整,其中在1978年8月31日后和2007年12月31后有两次迁站,两次迁站均有经纬度偏移,2007年12月31号的迁站由农村迁移到了城镇,这与历史记录相符。但沿革资料中还有一处1982年7月底的台站高程变化未查找出。根据气象台站沿革对气温资料序列非均一性影响程度[9]知台站迁移与统计方法对温度资料有明显影响,而仪器高度对气温资料均一性的影响较小;利用SNHT法对开县站查找出断点一个,无法得到验证。

在对开县站的非均一性断点检测中,斯米尔洛夫检验法检验出7个断点,验证4个;SNHT法检验得4个,得验证2个。其中1972年的断点与历史沿革不相符,但两法均能查出,本文分析与参考台站的选择有关。

对于奉节站,斯米尔洛夫检验法查出断点6个,得验证2个,SNHT法查出1个,得验证1个。

3 结论与展望

本文引入了斯米尔洛夫方法研究了重庆市气候资料的均一性问题,与经典的SNHT方法相比,主要得到以下认识。

(1)当待检序列与正态分布无显著差异时,斯米尔洛夫方法比SNHT方法的均一性检验敏感,能够检出更多的断点。

(2)当待检序列与正态分布有显著差异时,斯米尔洛夫方法能取得良好的均一性检验效果,此时SNHT方法不适用。

为了节约计算量,本文只给出了断点的年份,下一步计划研究断点的月份甚至日期;基于断点的日期,开展重庆市气候资料的均一性订正工作。

本文以气象数据的均一性检验为出发点,探讨了两种检验方法,这些方法同样适用于在滑坡、变形监测等工程领域。

[1]李又君,梁国坚,张宏政,等.气象站迁站前后气温同期观测资料对比[J].气象科技,2010,38(5):599-604.

[2]王颖,刘小宁,鞠晓慧.自动观测与人工观测差异的初步分析[J].应用气象学报,2007,18(6):849-855.

[3]熊安元,朱燕君,任芝花,等.观测仪器和百叶箱的变化对地面气温观测值的影响及其原因分析[J].气象学报,2006,63(3):377-384.

[4]温华洋.T分布参数变点的非参数统计推断及其在气候资料均一性检验上的运用[D].合肥:合肥工业大学,2007.

[5]Raino Heino.Metadata and Their Role inhomogeneity[C].:Proceedings of the First Seminar for Homogenization of Surface Climatologically Data,1996:5-8.

[6]李庆祥,刘小宁,张洪政,等.定点观测气候序列的均一性研究[J].气象科技,2003,31(1):2-12.

[7]Alexandersson H.A homogeneity test applied to precipitation data[J].International Journal of Climatology,1986,6:661-675.

[8]方媛,李培月.银川市降水量正态分布特征[J].水利科技与经济,2010,16(8):873.

[9]佘敦先,夏军,张永勇,等.近50年来淮河流域极端降水的时空变化及统计特征[J].地理学报,2011,66(9):1200-1210.

[10]刘大杰,陶本藻.实用测量数据处理方法[M].北京:测绘出版社,2000:137-141.

[11]吴增祥.气象台站历史沿革信息及其对观测资料序列均一性影响的初步分析[J].应用气象学报,2005,16(4):461-467.

责任编辑:孙苏,李红

施工经验

地下室回填土遇水浸泡怎么办

某在施工程,在地下室回填1.5m厚素土后,由于暴雨导致雨水通过地下室的窗户进入地下室,地下室严重进水。对于土层表面的水可通过泥浆泵抽取,但是回填土内的水处理成为一个难题。项目部经过多方沟通协调,制订了如下处理措施。

1.井管降水

首先由工人开挖集水坑降低回填土上层水位,由于底层水位较低。开挖集水坑较困难,项目部决定在开挖集水坑过程中安装降水用井管,土层中的水通过管壁进入到井管内,然后用水泵将井管内水及时抽出。每个管井的降水影响半径一般为10m左右,本工程地下室长度为76m,回填土内按10m的间距布置管井,大概需要6个管井,井管最后埋在回填土内。

2.加设砖柱和混凝土垫层

地下室回填土进水后需要较长时间的风干,但是由于本工程工期较紧,项目部决定在地下室隔墙基础下的回填土内每隔lm加设砖柱,砖柱上加设钢筋混凝土垫层,然后再砌筑地下室隔墙。

3.埋设塑料管

地下室地面混凝土垫层施工前为保证土体内水分的散发,每个储藏室留置了一个直径5cm的塑料管,待工程竣工前去除,并抹水泥砂浆找平。

本工程经过两年多的使用,墙体无裂纹,墙身无返潮,最终证明本方案合理有效。(摘自:《建筑工人》)

Application of Sm irnov Testin Homogeneity Test for TemperatureData of AbnormalDistribution

Homogeneity test isan importantstep for data processing,and it ismeaningful to study itsmethods.Thehomogeneity testis the firststep to revise the climate records,and itsaccuracyw illdirectly affect the follow-upwork.The classic SNHT(Standard NormalHomogeneity Test)can only beapplied in climate sequencesof normal distribution,but in reality lotsofabnormal climate sequencesneed to be tested.In thispaper,the Sm irnov Test,generally foroverallsequencedistribution test,isintroduced to test thehomogeneity of the temperature series,which can be applied in temperature sequences of any distribution.Thehomogeneity test results from temperature sequencesin Chongqing show that the Smirnov Test isbetter than SNHT.

homogeneity;test;climate sequences;abnormal distribution;Sm irnov Test

P413

A

1671-9107(2016)08-0054-04

10.3969/j.issn.1671-9107.2016.08.054

2016-07-06

邓鑫洁(1987-),女,湖北荆州人,研究生,讲师,工程师,主要研究方向为3S数据采集与处理。

猜你喜欢
米尔断点洛夫
世界著名小镇克鲁姆洛夫
中山市迪米尔机电设备有限公司
中山市迪米尔机电设备有限公司
中山市迪米尔机电设备有限公司
砂泥互层断点组合类型及其合理性分析
——以大庆长垣萨尔图油田为例
中山市迪米尔机电设备有限公司
用Eclipse调试Python
一类无限可能问题的解法
基于保护协调配合的最小断点集选取方法