遥感数据同化中亮温数据质量控制分析

2018-11-01 03:30:20杨向阳舒红吴凯聂磊
城市勘测 2018年5期
关键词:亮温高斯分布离群

杨向阳,舒红,吴凯,聂磊

(武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉 430079)

1 引 言

与常规观测仪器相比,遥感卫星能够全天候、全天时地获取全球范围的数据,已成为同化系统中观测资料的主体。遥感卫星资料在业务系统中的应用是数值预报质量提高的重要原因[1]。由于模型误差、观测资料中存在离群数据等原因,会使得观测数据与辐射传输模型模拟数据差别较大。同化这些与模拟数据不一致的观测数据可能导致分析值不平衡,丧失同化效果,甚至导致系统崩溃[2]。因此,在数据同化前应先对观测资料进行质量控制。

相对于红外和可见光,微波波长相对较长,具有更强的穿透性,受云和大气的影响较小。此外,微波亮温数据是由卫星接收的信号经过信号转换、辐射定标等操作后生成的一级产品,是卫星各级产品反演的基础。相比于遥感反演产品,亮温数据信息损失较少。亮温直接同化还能够避免多数线性反演模型(算法)误差,亮温直接同化比间接同化更具有价值。因此,亮温数据在遥感数据中具有重要地位,而亮温数据的质量控制也显得尤为重要。

目前,不同传感器使用的数据质量控制方案不同,即使是同一传感器质量控制方案也有差别。本文依据国内外的相关研究,分析了直接同化中亮温数据的误差来源及分类,并对不同亮温数据的质量控制方案进行了深入分析,然后以稳健性较强的双权重算法为例,进行了亮温数据质量控制的实例分析,最后,针对亮温数据质量控制的不足提出几点展望。

2 数据误差来源与分类

微波辐射资料同化的误差主要由两方面组成:一是辐射传输模型模拟亮温不精确产生的误差;二是观测资料误差[3]。辐射传输模型是对现实环境电磁交互作用过程的数学模拟,本身就具有误差,并且输入辐射传输模型的数据也具有误差;例如,辐射传输模型尚不能准确表达云和降水粒子的发射和散射过程,对它们的模拟误差较大[3]。对于观测数据,观测仪器自身故障会导致观测数据缺失或误差较大,相关部门会定期发布传感器的工作状态,可根据状态判断数据的可用性。另外,观测数据受传感器的灵敏度、定标以及云的影响也包含误差。在L波段(1~2GHz),观测数据还受到RFI(无线电干扰)的影响。未经授权的电视、调频广播电台在L波段的发射以及相邻波段过多的无用发射会造成L波段数据严重污染[4]。从分类角度讲观测资料的误差可分为:系统误差、随机误差、过失误差。系统误差主要为仪器标尺偏移或未考虑持久性因素影响所引起的误差,能够应用统计方法或经验确定并使用偏差订正进行改正;随机误差,源于观测条件的不可控性,是任何资料中都存在且不可避免的,通常认为其服从高斯分布;过失误差由于机器故障或人为原因的错误观测、读写和计算造成的误差,不具有气象意义,虽然数量很少,但对数值预报影响严重。

3 亮温数据质量控制方法

观测资料的质量控制是指在对观测数据进行客观分析或同化前对资料进行检查并剔除错误观测资料的过程[5]。观测资料的质量控制首先检查数据的合理性,剔除不符合常理的数据;其次,进行离群数据检测与剔除。离群数据剔除之后,通常不满足同化系统对观测数据误差高斯分布的要求,因此需要进行偏差校正;此外,变分同化系统中有针对观测数据误差非高斯分布的变分质量控制。

3.1 合理性检验

气象要素应在允许值范围和气候学界限值范围内。超过允许值范围和气候学界限值的气象要素被认为是不合理的,应进行剔除。亮温数据与地面温度和地物发射率有关,满足关系式Tb=εT,其中Tb表示亮温,ε表示发射率,值小于1,T为地面物理温度。由于地面最高温度从未超过77℃(350 K),因此将亮温界限值设置为 350 K是比较保守的[6]。亮温界限值也可根据研究区域的历史温度最大值设置。

3.2 离群数据检测与剔除

离群数据可以通过研究大量观测资料本身以及观测增量(观测资料与模式模拟数据间差别)的统计特征和统计分布结构来分辨[7]。因此,离群数据检测方法可分为两种:一是基于观测数据本身,二是基于观测增量。

(1)基于观测数据本身的离群值剔除

利用图像梯度信息进行离群数据检测。图像的梯度信息能够检测出数值突变的像元,即与周围像元值差别较大的像元。由于亮温数据具有空间自相关性,因此数值突变的像元可认为是离群数据。当梯度值大于给定阈值时剔除相应的数据。王云峰等人[10]提出了时空梯度信息同化方法,消除了观测资料的系统误差。马刚等人[11]利用梯度信息对AMSU-A亮温数据进行质量控制,并模拟台风路径,结果表明该质量控制方案改善了台风路径的模拟。

利用主成分分析法进行离群数据检测。多通道传感器不同通道观测的亮温具有较高的相关性,但是噪音的存在会降低这种相关性。因此,对各通道亮温数据进行主成分分析,去掉主成分数据后的低相关部分认为是被噪音污染的数据,即误差较大的数据。邹晓蕾等[12]运用主成分分析方法去除了FY-3B观测资料中的噪音。Zhao等人[13]提出了双主成分分析方法(DPCA)来识别RFI辐射信息,并使用WindSat数据成功识别出南极和格陵兰岛的RFI信号分布。冯呈呈等人[14]借鉴Zhao的方案,利用FY-3B数据有效识别了海洋上的RFI信号。

(2)基于观测增量的离群值剔除

模拟数据是指通过辐射传输模型生成的亮温数据。理论上,卫星观测数据与模型模拟数据具有较高的相关性,并且同化系统中观测数据与模拟数据之间不应相差太大,否则会导致分析值不平衡,丧失同化效果,甚至会导致系统崩溃。由于离群数据的存在会增大两者差距,因此可以对比观测数据与模拟数据进行质量控制。观测数据与模拟数据之差称为观测增量,通常以观测增量为研究对象进行离群数据的判别。

传统统计方法通过计算观测增量的平均值和标准差进行离群数据的判别,当观测增量超过平均值3个标准差时认为是离群数据。但是传统统计方法计算的平均值与标准差包含了离群数据信息,离群数据对平均值和标准差的计算产生较大偏移,降低了数据估计的准确度。因此,Lanzante[15]提出了双权重算法。双权重算法在计算新定义的双权均值和双权标准差时,赋予每个样本一个权重,使得样本距离分布中心越远权重越小,减弱了离群数据对整体数据统计计算的影响。Zou等人[16]使用双权重算法对GPS掩星数据进行质量控制,效果较好。王叶慧等人[17]利用双权重算法对FY-3数据进行质量控制,质量控制后观测增量的标准差有了较大改善,并且标准差随时间变化更稳定。

3.3 偏差订正

对错误的资料进行订正也是对一个成熟的质量控制方案的要求[5]。卫星资料的同化要求亮温观测数据与模拟数据偏差符合高斯分布。由于误差不只包含随机误差(见第2节),因此误差并非严格满足高斯分布。如果在无偏的模式中同化有偏的观测资料,则会在同化过程中引起偏差[18]。因此在进行同化前,要先对资料进行偏差修正,使得订正后的亮温观测数据与模拟数据偏差符合高斯分布。

Eyre[19]提出卫星资料偏差订正可分为两个步骤:扫描偏差订正和气团偏差订正。扫描偏差是指临边测量相对于星下点测量的系统偏差[20]。越远离星下点,扫描角越大,从而辐射信号穿过的大气光学厚度增加,因此需要进行扫描偏差订正。Eyre[19]根据扫描角信息来计算每个扫描位置相对于中心位置的全球或区域平均差,但是方案中没有考虑不同纬度对扫描偏差的影响。而Harris和Kelly[21]认为扫描偏差订正与纬度有关,并以每10°纬度为一个带将地球划分为18个纬度带,并对每个纬度带分别进行扫描偏差订正。之后的学者对卫星资料进行扫描偏差订正时,都基于Harris的方案。气团偏差是指由不精确的辐射传输模型计算透过率系数导致的前向模式中的偏差有随气团和表面特征变化的趋向[18]。气团偏差订正主要根据当时的天气条件进行订正,天气条件通常使用预报因子定量表示[20]。气团偏差订正假设气团偏差与预报因子是线性关系,使用一组偏差预报因子的线性组合来计算每个通道的气团偏差。线性回归系数利用大量样本(通常需两周数据)通过最小二乘法拟合求得。气团偏差订正的关键是预报因子的选择[5]。预报因子可分为两类,第一种基于“观测空间”,以观测数据或模拟数据作为预报因子;第二种基于“模式空间”,从背景场中提取的信息作为预报因子。相比于观测或模拟数据,背景场中提取的信息更能反映气团和地表性质,因此使用背景场中提取的信息作为预报因子更为合理[20]。常用的预报因子有 1 000 hpa~300 hpa的厚度、200 hpa~50 hpa的厚度、50 hpa~5 hpa的厚度、10 hpa~1 hpa的厚度、模式地表温度、水汽总量、近地面风速等[20]。不同的仪器、选择的辐射传输模型以及模型参数的设置等因素都会对偏差产生影响。因此,不同的仪器和通道,使用的预报因子组合有所不同。

3.4 变分质量控制

在传统变分同化系统中假设观测误差服从高斯分布,但是大量的统计结果表明,实际观测误差并非严格服从高斯分布[22]。观测误差的实际分布比高斯分布的尾部更长,这是由于离群数据导致的长尾(long-tail)分布。显然,假设的观测误差分布模型与其实际分布不符,这将导致参数估计的效率大大降低,甚至参数估计错误。20世纪80年代Lorenc[23]和Purser提出了采用非高斯分布误差方法进行观测资料的质量控制。之后Lorenc等人[24]提出了变分质量控制的理论。

变分质量控制是以变分同化系统为基础的质量控制方法。观测误差的非高斯分布称为污染高斯分布,可表示为高斯分布与其他干扰分布之和,即G=(1-ε)N+εF。其中,ε为过失误差概率,N表示高斯分布,F指干扰分布。统计显示过失误差概率ε在1%~10%。在确定观测误差的概率密度函数后,根据贝叶斯概率理论[23]推导出变分同化迭代过程。变分质量控制能够考虑观测误差非高斯分布的影响,在变分同化系统极小化迭代过程中能够根据观测偏差的大小赋予观测不同的权重。在国外,变分质量控制方法在欧洲天气预报中心(ECMWF)、美国国家环境预报中心(NCEP)、加拿大气象中心(CMC)等的数值预报系统中都有应用,并在业务预报中获得良好的效果[25,26]。在国内,和杰[27]讨论了“高斯分布+高斯分布”、“高斯分布+均匀分布”、“高斯分布+拉普拉斯分布”三种误差分布模型。马旭林等[28]假定误差分布服从“高斯分布+均匀分布”并对资料进行变分质量控制,结果表明变分质量控制对提高数值预报模式的预报水平具有正面效果。Duan等人[22]利用Huber函数对风场进行了变分质量控制,改善了台风路径预报结果。王根等人[29]利用不同M估计法对FY3B/IRAS资料进行变分质量控制,结果表明在M估计法中Huber函数表现较好,并指出Huber权重函数公式简单且具有经典和稳健变分反演的优点。

3.5 实例分析

图1 2016年1月1日亮温数据z分数分布情况

图2 质量控制前后标准差变化情况(a)和相关系数变化情况(b)

4 遥感观测质量控制优化讨论

4.1 辐射传输模型的参数率定

提高辐射传输模型模拟的精度是质量控制的关键。辐射传输模型中的参数一般是预设好的常量,但是预设的参数可能并不完全适用于所有地区。因此,需要根据各地气候特征进行模型参数率定以提高模型模拟精度。

4.2 RFI辐射源定位与关闭

L波段受RFI影响严重,亚欧区域更为明显。比如,SMOS数据在中国境内数据大量污染,质量控制后数据缺失严重。有效的解决方案是对RFI辐射源检测、定位并关闭以消除RFI的影响,欧洲航天局一直致力于这项工作[4]。目前检测和定位算法精度逐渐成熟:Oliva[6]等人已将RFI辐射源定位精确到 4 km以内。但是对于RFI辐射源的关闭工作重点在于各国相关部门的配合。Daganzo[4]等人指出在国际合作方面仍需努力,此外无线电发射也要自觉遵守国际电信联盟无线电通信组(ITU-R)通过的第750号决议。

4.3 多源数据融合

多源数据融合是将多个传感器获取的数据进行综合,消除多传感器数据之间存在的冗余和矛盾,降低数据的不确定性,获得对物体或环境一致性描述的过程。数据融合方法已在遥感数据中有所应用:许剑辉[30]等利用Triple-Collocation方法对三种雪深数据进行融合生成了精度更高的雪深数据。但是,还没有学者对亮温数据进行融合。目前的亮温数据产品时间分辨率较低,难以达到一天全球覆盖;并且扫描带之间有间隙,造成数据缺失。而不同传感器的亮温数据覆盖范围不同,数据缺失部分有所互补,数据重叠部分能够利用融合算法降低数据不确定性。因此,可以利用数据融合算法生成覆盖范围广、精度高的亮温数据,以便于后续的同化工作。

5 结 语

同化系统通过同化观测数据为数值预报系统提供高精度初值,而在数据同化前对观测数据进行质量控制可以提高同化系统的稳定性,有利于数据同化的进行,进而影响天气预报的初值和预报精度。因此,观测资料质量控制在数据同化中具有至关重要的作用。本文针对亮温数据,分析了数据同化中亮温数据的误差来源;对合理性检验、离群数据剔除、偏差订正和变分质量控制等亮温数据质量控制方法进行了全面分析;并以双权重算法为例,进行了亮温数据质量控制的实例分析;最后进行了遥感观测质量控制优化讨论,这些研究有助于开展具体数据同化辐射资料质量控制工作。

猜你喜欢
亮温高斯分布离群
霰谱分布特征对强对流云高频微波亮温影响的模拟研究
利用Box-Cox变换对移动通信中小区级业务流量分布的研究
基于南太平洋的AMSR2 L1R亮温数据质量评估
海洋通报(2020年2期)2020-09-04 09:22:34
2种非对称广义高斯分布模型的构造
一种基于改进混合高斯模型的前景检测
离群数据挖掘在发现房产销售潜在客户中的应用
2014年2月12日新疆于田MS7.3地震热红外亮温异常分析
中国地震(2015年1期)2015-11-08 11:11:32
离群的小鸡
应用相似度测量的图离群点检测方法
一种基于核空间局部离群因子的离群点挖掘方法