王岩, 汪利诚, 武晋雯
(1.沈阳建筑大学交通与测绘工程学院,沈阳 110168; 2.中国气象局大气环境研究所,沈阳 110166; 3.辽宁省农业气象灾害重点实验室,沈阳 110166)
日平均气温作为气象站测定的关键要素之一,是反映气候特征的重要指标,同时也是城市热岛效应、农业生态环境等众多研究领域的重要指标。温度异常会导致低温冷害、高温热害、森林火灾以及干旱等农业灾害频发[1-4]; 甚至会影响病虫害、流行病菌等的繁殖和传染[5-6],对粮食安全和人民健康造成严重危害。
日平均气温作为衡量大气温度的关键指标,一直广泛应用在农学、生态学等众多领域。学者们经常用日平均气温的累积值,定量地描述植物生长所需的热量[7-8]。目前大多都是以日为研究单位,构建作物生长模型,以日平均气温为衡量作物生长状况的变量,来研究土壤水分、植被覆盖等分布状况和变化趋势[9-11]; 以日平均气温的累积值作为判断作物不同生育期界限的积温指标[7]、作为衡量作物生长状况的重要指标。气象学中将每日2时、8时、14时、20时4个时刻气温的平均值作为每日平均气温[12]。目前,遍布在全球的气象站点能够不间断地提供较为准确的气温数据,这也为日平均气温的获取提供了可靠的数据支持,但是所有站点并不是均匀排列的,导致在空间上很难描述日平均气温的异质性。空间插值作为研究者们常用的日平均气温估算方法,能够实现数据由点向面尺度的转换。尽管空间插值的精度不断改进提高[13-14],但是利用有限的台站数据进行日平均气温反演精度仍然满足不了区域尺度研究需要。
随着卫星遥感领域的高速发展,遥感技术可以实时、动态、宏观监测大区域尺度地理状况的特点,已在霜冻、高温热害等农业灾害空间监测研究中得到充分体现[15-17]。近年来,随着基于遥感数据反演地表温度(land surface temperature,LST)算法的精度不断提高[18-20],通过研究日平均气温和LST之间的相关特性来估算日平均气温成为目前研究的新方向。本文通过文献综述,总结了近年来国内外日平均气温所存在的问题和具体的解决方案,最后论述了各种日平均气温遥感估算方法的优缺点,并对未来发展方向和内容进行了展望。
热红外数据虽然很难直接反演得到日平均气温,但可以利用本身波段观测值(亮度温度)或者以波段观测值为基础,利用相关反演算法获取的LST这2种方式间接估算日平均气温,如表1所示。
表1 日平均气温遥感估算方法一览表
随着对地气温热交换原理的不断探究[35],许多研究者通过开发不同的统计模型来提高日平均气温估算精度,其中最主要的就是多元线性回归模型,即
T=a0+a1x1+a2x2+a3x3+…+anxn+ε,
(1)
式中:T为平均气温;a0,a1,a2,a3,…,an分别为模型回归系数;x1,x2,x3,…,xn分别为影响日平均气温的变量因子,如LST、经纬度、高程、下垫面类型(植被指数)、太阳天顶角等[36-37];ε为扰动项。随着研究不断深入,发现儒略日、夜间LST等在日平均气温估算中的重要性相比纬度、太阳天顶角等辅助数据要略高一些。Janatian等[37]利用中分辨率成像光谱仪(MODIS)日间和夜间时间产品和儒略日、海拔和波段反射率等共11个影响因子建立统计模型,进行气温的估算,实验结果证明,夜间产品数据、海拔和儒略日是研究气温变化最有效的变量。为了处理单时相遥感数据与对应的日平均气温地面监测数据构建的反演模型估算结果无法大范围使用且估算误差较大等问题,研究者们提出了分季度、分时相建模,以满足不同情况下的日平均气温反演需求。Vancutsem等[36]将日间MODIS LST数据与日最高气温实测值进行相关性分析,结果表明,随着季节性的变化,太阳辐射和云量等不断变化,两者的差异也不断变化,表明了地区不同或季节发生改变都会使LST和气温之间的相关性发生显著变化; 祝善友等[38]将极轨气象卫星热红外数据和对应的气象台站监测数据进行耦合,创建分季度和分时相的2种气温估算模型,最后综合两者的优势,建立较为稳定和适用的模型。
为了进一步降低日平均气温遥感估算误差,研究者们进行了多次模型算法的改进。姚永慧等[21]先估算日间和夜间LST的平均值,再将平均值作为输入参数代入多元线性回归模型中,日平均气温估算的标准误差在2.22~3.05 ℃之间; Colombi等[22]基于LST数据求出卫星过境时刻的瞬时气温,然后依据瞬时气温与日平均气温之间的相关关系推出日平均气温,估算的均方根误差RMSE为1.89 ℃; Zhang等[23]通过实验也证明耦合日间和夜间的LST进行平均气温的估算结果更加准确(残差标准偏差小于3.22 ℃),但会导致可利用的像素大大降低,并提出利用夜间LST进行平均气温的估算适用性更好; Benali等[24]将夜间LST数据作为唯一变量输入日平均气温估算模型中,日平均气温估算误差RMSE为1.5 ℃,相比单独使用日间LST估算的结果(RMSE为2.4 ℃)更精确; Yang等[25]和Golkar等[26]同样证明了利用夜间LST数据进行日平均气温的估算结果更加准确。
近年来,随着研究范围的不断扩大,机器学习方法在气温估算的研究中广为关注,如神经网络、支持向量机和随机森林等。在利用遥感数据估算气温的方法中,机器学习方法已经被证明在具有复杂和异质景观地区,融合LST和其他变量进行气温遥感估算的实用性。
神经网络是一个不断学习的系统,根据逻辑规则进行信息的推理,通过调节系统内部节点与节点之间的关联关系,进行信息的高效处理。在气温遥感估算的研究中通常需要考虑众多影响因子,神经网络学习方法具备处理复杂问题的能力,近年在气温估算中被广为使用。Agathangelidis等[27]利用多时相MSG-SEVIRI遥感数据,采用多项式回归和人工神经网络的方法,将LST和气温观测值相结合估算希腊雅典的气温,RMSE为1.0~2.0 ℃。
支持向量机是机器学习的一种,具有很强的稀疏性和稳健性。近年来,被广泛用在气温遥感估算相关研究中。使用支持向量机来模拟卫星遥感数据与气象台站观测数据之间的关系,基于支持向量机的监督模式识别方法,进行气温反演。Li等[28]使用随机森林和支持向量机 2种机器学习方法,基于MODIS LST数据进行气温动态估算的算法精度比较,实验证明这2种机器学习算法都能够提供很好的结果。与支持向量机相比,随机森林在很少的参数设置和可变性下具有更大的优势; 相反,支持向量机具有更大的机动性来调整核函数,以更好地处理多种复杂的数据集。Moser等[29]将基于支持向量机监测陆地和海洋表面温度的方法推广到气温估算上,提出了基于支持向量机的卫星影像周期气温估算新方法。气温估算平均绝对误差MAE为2.37 ℃。
随机森林是由多个决策树共同构成的分类器,是目前最盛行的回归算法之一,已经在遥感信息处理中得到广泛的使用。近年来,随着对气温估算结果的精度要求越来越高,随机森林已经开始用于气温的遥感估算当中。随机森林方法最早是由Zhang等[30]和Ho等[31]用于气温估算,Ho等[31]使用2种机器学习方法支持向量机和随机森林以及普通最小二乘回归,根据陆地卫星数据绘制温哥华的城市气温变化图,RMSE为2.31 ℃; Zhang等[30]根据气温估算精度随着MODIS LST项和其他项之间的组合不同、数据质量差异不同而不断变化的规律,利用随机森林机器学习方法动态整合可用的LST项来估算青藏高原的日平均气温,有效地提高了青藏高原低云干扰下气温遥感估算的准确性,日平均气温遥感估算误差RMSE为2.0 ℃; Xu等[39]采用多元线性回归和随机森林2种统计方法,根据MODIS数据估算哥伦比亚省2003—2012年夏季日最高气温,结果显示这2种方法都适用于复杂地形山区的气温估算,RMSE分别为2.41 ℃和2.02 ℃; 邢立亭等[40]基于随机森林算法,利用MODIS LST数据估算兰州市日最高和最低气温,估算误差MAE分别为1.344 ℃和1.218 ℃。
日平均气温遥感估算通常有2种形式,一种是利用热红外数据反演的LST与日平均气温之间的相关性推算出来; 另一种则是利用Prince等[41]最早提出的三角形或梯形特征空间,将LST变化与归一化植被指数(normalized difference vegetation index,NDVI)联系起来估算日平均气温。由于LST对植被覆盖区土壤含水量的敏感程度远远低于裸土区,所以LST与NDVI在空间上呈三角形或梯形关系。如图1所示,其中横轴代表NDVI,纵轴代表LST,AB对应植被指数较低的裸土情况,CD则对应浓密植被冠层下的情况,AC和BD相交于O点,OA称为干边,OB称为湿边,两线之间的斜线代表土壤的不同植被状态。
图1 NDVI-Ts特征空间示意图[41]
1.3.1 瞬时气温的估算
Zhu等[42]采用温度植被指数分析法(temperature vegetation indes,TVX),将LST和植被指数之间的负相关系阈值降至0.1后,成功利用TVX方法基于MODIS陆地卫星估算了日最高和最低气温,估算误差MAE分别为3.03 ℃和2.37 ℃。Nemani等[43]研究认为LST随着NDVI的增大而降低,在全覆盖条件下,植被冠层的温度和空气温度几乎相等,因此基于NDVI和LST两者的空间特征关系估算近地表气温; 侯英雨等[34]通过分析NDVI和LST之间的相关关系,建立了梯形空间特征模型,对中、高植被区域的近地表气温进行了估算,稀疏植被区域和中高植被区域的近地表气温反演绝对误差分别为1.5~1.8 ℃和1.61 ℃,但随着NDVI的不断变化,地表水分的易变性增强,NDVI和LST之间的三角形或梯形关系不明确,这种情况下很难保证TVX关系的准确性; Sun等[44]提出了利用MODIS昼夜LST数据和增强植被指数(enhanced vegetation index,EVI),从昼夜LST差值和光谱植被指数特征空间改进TVX方法估算气温,结果表明该方法在EVI和昼夜LST差值较大的地区适用性相对来说较高,估算误差RMSE为2.38 ℃左右。另外,在研究特征空间的干边时,通常都是通过回归等经验方案直接从遥感散点图中得到,所以研究结果通常具有一定的主观性和不确定性。为了克服这些缺点,Sun等[44]开发了一种高级温度干燥指数,通过表面能量平衡原理确定理论干边,但是该方法需要输入大量参数,结果的误差来源较多,难以控制; Zhu等[42]针对这个问题提出了一种新的指数——修正温度植被干度指数,以减少参数化方案对干边的依赖,气温估算误差RMSE为2.28 K,与Zhu等[33]和Sun等[44]反演精度相当。
1.3.2 日平均气温的估算
通过建立LST和植被指数之间的三角形或梯形特征空间关系,达到LST向瞬时气温空间转换的目的,而瞬时气温又与日平均气温高度相关,所以学者们在瞬时气温向日平均气温的时间转换上也做了很多研究,Colombi等[22]基于日间和夜间LST数据求出卫星过境时刻瞬时气温,然后利用正弦曲线近似拟合气温日变化规律,最后通过模拟的气温日变化曲线,估算日平均气温,但是卫星的过境时刻和日最高最低气温出现的时刻常常是不重叠的,日变化曲线拟合误差较大; Zhu等[42]考虑了日长和最低最高气温出现时间的滞后性等,对简单的正弦拟合曲线做了调整,气温估算误差MAE为2.54 ℃。除了依赖于正弦曲线拟合,Sun等[44]提出了一种结合昼夜LST数据和EVI数据估算日平均气温的方法,该方法摆脱了TVX法的局限性,完全独立于辅助数据,分别对平原、山区和高山区3个不同区域进行日平均气温的估算,RMSE分别为1.84 ℃,2.34 ℃和2.45 ℃,具体算法如表2所示。
表2 特征空间外推估算气温方法一览表
LST数据产品的质量不仅跟反演的精度有关,而且跟云干扰的程度和范围有很大关系。Bisht等[45]使用MODIS云产品为MODIS卫星过境时刻内的云覆盖区域提供有关云顶温度、云分数、云发射率和云光学厚度等信息,结合地面测量数据进行统计回归,估算近地表气温,全覆盖范围近地表气温估算误差RMSE为2.76 ℃,整体上基本实现了只利用遥感数据就能获取较为精确的全覆盖近地表气温。
利用LST数据估算日平均气温时,仅使用晴空像元可以得到较高的估算精度,但会造成像元的大量缺失,对数据连续性造成很大影响,需要对云干扰像元进行空间插值,直接利用气象台站观测值进行插值误差较大,Zhu等[42]基于MODIS数据产品,对中国柴达木盆地东部和美国南部大平原2个气候条件完全不同地区的晴空和多元条件下的气温进行估算,结果表明,晴空条件下的估算误差RMSE分别为1.95 ℃和2.5 ℃; 多云条件下的估算误差RMSE分别为3.42 ℃和2.91 ℃。特别是多云条件下的估算精度已达到了与传统利用气象站数据进行空间插补方法相当的水平,有很大的应用前景。
云干扰导致数据的大量缺失,限制了很多温度相关的应用研究,特别是积温的计算方法,从而限制了以积温作为评价指标的作物农业灾害监测方法的研究。针对云干扰下的气温遥感估算,研究者们尝试利用微波遥感进行研究[46-48],但是微波遥感空间分辨率较低、时间连续性较差,这些都严重阻碍了微波遥感在气温估算研究中的进展。针对这些问题,学者们也提出了综合微波和热红外数据进行LST的估算[49],但是时空差异极大地限制了两者在LST估算中的应用,如何降低两者LST反演的差异是提高最后气温估算精度的关键。所以,如何提高云干扰下的日平均气温遥感估算精度仍然值得进一步的探究。
LST遥感估算的准确性直接影响到日平均气温估算的精度,多通道算法是目前应用最广泛的LST遥感估算方法之一,该算法对传感器限制条件少且不依赖于大气廓线数据,所以一直被广泛使用[50-52]。多通道算法是基于不同通道对水汽吸收具有不同的特性,利用相近或相邻热红外通道信息线性化处理辐射传输方程。但是,季节和区域的变化会对该方法的处理结果精度造成很大的影响。相比其他季节,夏季的校正精度较高一些; 与低纬度地区的亮度温度与水汽之间的函数关系相比,中、高纬度地区要稳定一点。因此,在实际的LST反演时,根据区域和季节的不同,建立不同的模型,以保证大气校正的准确性。
多通道算法在校正大气水汽吸收时,对于气溶胶的影响基本都是忽略不计的,但大气气溶胶对辐射传输过程会造成很大的影响: 太阳总辐射量减少、LST降低等。随着城市工业化发展进程不断加快,大气气溶胶含量不断升高,气溶胶对LST反演算法性能影响不容忽视。近年来,研究者们也不断尝试各种算法来降低LST反演时气溶胶的影响[53-55]。
太阳辐射、下垫面性质和大气环流是空气温度的3大驱动因子。研究区的气象条件和地表性质是决定近地表气温的主要因素,而大气环流下的水平平流是决定它们的外来因素。在太阳辐射和下垫面2个驱动因子影响下得到的空气温度仅具有局地代表性,想要获取区域尺度上真实的空气温度还必须加权计算大气环流下的水平平流驱动因子形成的外来空气温度。Zhang等[56]考虑局部驱动力和水平平流的影响,利用遥感数据和气象数据估算地面气温,发现估计值与气象站测量值有很强的相关性,实验3 d气温估算RMSE分别为0.42 K,0.35 K和0.20 K。如何充分认识和利用大气环流驱动力实现气温数据的高精度估算很值得做进一步的探究。
气温日变化情况随着地理位置和季节的不同会随之改变。目前大多数的研究都是基于简单的正弦曲线来进行气温日变化的研究。而日平均气温的估算和日最高、最低气温密不可分,由于每日最高、最低温度出现的时间和卫星数据采集时间不一致,因此利用LST数据模拟气温日变化曲线仍需进一步研究,日平均气温遥感反演的关键是如何精确地估算卫星过境时刻的LST数据和日最高、最低气温之间的关联关系。
目前广泛使用的多元线性回归方法、机器学习法和基于特征空间外推法等日平均气温遥感估算方法,在日平均气温空间异质性的描述上都表现出较强的适用性,但是其估算结果的真实性还有待考证。结合以往的研究发现,日平均气温遥感估算结果的真实性检验还停留在只利用地面站点观测值作为像元尺度真值对基于遥感数据的估算结果进行验证,但是绝对理想的地面站点是不存在的,真实性检验的参考值并不是像元尺度的绝对真值,验证结果受到多个不确定的影响: ①地面观测数据和不同分辨率遥感数据本身的误差; ②数据源之间在空间位置上匹配误差; ③不同数据源的空间尺度效应的影响; ④各种不同误差的传递影响。
基于遥感的估算结果真实性检验还受限于地面数据的真实性和可利用性,整体的研究还处于定性阶段,定量刻画还是十分的困难。利用气象站实测的日平均气温作为真值进行估算结果的真实性检验,并不能很好地反映气温空间上的异质性。由于地面站点测量仪器的不同,测量误差的不统一,数据观测时间的差异性等,缺乏一个完整、统一、连续、可信度高的参考数据集,日平均气温真值的获取难度极大,怎么进行地面优化采样,对不确定性进行分析,提高像元尺度“真值”的估算能力,在不确定性最小的原则下怎样找到最合适的数据和升尺度方法获取最接近空气温度真值的参考值是很值得进一步研究的。
综上所述,日平均气温遥感估算方法主要是依靠热红外数据间接反演得到,但热红外数据受气候影响较大,每种估算方法的精度都会受到一定的影响。多因子统计法的精度基本能够满足日常需求,操作简单,但模型对研究条件要求高,不同地区或时间跨度都可能会对估算的精度造成影响。近年来,机器学习方法在气温估算中广泛使用,该方法对数据具有很好的包容性,具备处理复杂和异质性数据的能力,适用于处理不同地区,甚至地理环境变化较大区域的气温估算,且估算精度高。但对于统计建模者来说,机器学习内部就是一个黑匣子,无法控制模型的内部操作,只能在不同的参数和随机分配之间进行不断的尝试。机器学习方法对现有数据的模拟效果很好,但是用于预测和估计时,其精度可能会突然下降,会导致建模时出现过度拟合。特征空间外推法所需要的参数少(仅需遥感变量),方法操作简单,但是该方法只适用于植被覆盖率高的地区,在植被覆盖率低的城市地区则并不适用。而且,LST和NDVI之间的线性关系受季节性、土壤湿度和土地覆盖等许多因素影响,但对于定量能量平衡建模困难,景观复杂、异质的城市,多元回归模型和机器学习方法就能很好估算气温,对于异常值和缺失值的处理也更加准确,基本不会出现过度拟合现象。