冯小兵,曾宇怀,吴泽鹏,杭 文,魏书精,汤龙坤,胡海波
(1. 上海对外经贸大学金融管理学院 上海 松江区 201620;2. 上海对外经贸大学人工智能与变革管理研究院 上海 松江区 201620;3. 广东省科学院广州地理研究所广东省遥感与地理信息应用重点实验室 广州 510070;4. 广东省林业科学研究院 广州 510520;5. 华侨大学数学科学学院 福建 泉州 362021;6. 华东理工大学商学院 上海 徐汇区 200237)
地球表层的森林火灾是全球生态系统的调节器,它带来地表碳的突然扩散并借助大气输送,达到新的碳元素网络平衡。同时它促进热带、亚热带的碳流向温带、寒带流动与汇聚。但是,大量的森林火灾燃烧释放的二氧化碳气体聚集在温、寒带大气中,会导致气温升高、极地海冰消融和海平面升高。所以,监测和消除森林火灾是当今各国、各地区森林生态、环境保护的重要任务。
从全球火灾统计数据看,森林火灾主要分布在热带、亚热带、温带森林地区。火灾发生原因与森林可燃物的含水率大小密切相关。森林可燃物含水率(fuel moisture content, FMC)与 叶 子 含 水 量 不同,定义为森林植被中所包含的水的重量与干物质重量的比值。该参数作为监测指标,在森林火灾风险管理和火灾压力测试中起到重要作用。许多国家已经建立了通过遥感、遥测观察野火的FMC 的预警系统,如美国农业部林务局、澳大利亚、加拿大、俄罗斯、中国、巴西等。在我国,遥感监测已经广泛地应用于国内日益增长的森林火灾预报与应急管理中。
纵观火灾学历史,早期的林火模型是在强大的物理、化学动力学理论基础上,由众多学者先后创立[1-4]。该模型根据能量守恒原理设定,以单位体积的可燃物在均匀的燃料床中蔓延推进的火势为前提条件。FMC 概念通过“预先点燃热量”间接地引入该模型,预先点燃热量是使得单位重量的燃料点燃时所需的临界热量,它是燃料水分(Wm)与烘炉烘干之后的干叶子重量(Wd)的函数。同样地,由于叶子水分的阻尼效应,FMC 的快速下降表示林火处于传播蔓延阶段,水分的存在使火灾反应速度低于其阈值。
文献[5-6]曾提出著名的病态(极端化)反演问题。文献[7]利用基于生态规则的多耦合物理模型(Prospect、GeoSAIL)并采用定量反演方法来解决问题。Prospect 是叶片级辐射传输模型,GeoSAIL是冠层几何光学模型,它们的参数选择受地域影响,变动范围大,一般适用于卫星遥感的中低分辨率、宏观尺度的森林FMC 监测。目前该物理模型尚不适合构建鲁棒性、实用性较强的县、区级以下的森林火灾监测系统。
对FMC 研究的实证文献主要关注气象因素的研究,如降雨量、湿度、气温[1]。这种研究思路只考虑影响FMC 的条件变量的一个维度。文献[2]研究了土壤条件以及地形坡度和方向,增加了变量的维度。不仅考虑了温度,也考虑了地形地面状况。最后,研究者们将森林植被和可燃物因素纳入知识框架。这些研究遵循了文献[8]确定的研究路径和方法,即把所有FMC 影响因素分为3 类:气象、植被、植被所处的土壤因素。
森林冠层可燃物含水率包含下列2 个研究方向。
1) 植物理化
植被可燃物研究的复杂性在于植被、可燃物的多样性,它们包含不同层次的水:叶子、树冠、树干和根系[2]。火灾的点燃和蔓延由环境条件决定,如天气和土壤条件、燃料层的厚度、燃料的直径和生物化学成分[9]。通常FMC 会根据树木的生存状态不同而分类计算,即分为死可燃物含水率(dead FMC, DFMC)或活可燃含水率(live FMC, LFMC)。虽然DFMC 在很大程度上是由生态环境决定的,但好在LFMC 具有较好植物稳定性,且LFMC 可通过吸收地表层土壤中的水分来适应干旱天气,以应对植被的蒸腾作用[10]。故本文研究的对象是LFMC的水分特性。
2) 遥感物理
通过FMC 进行火灾监测的最大困难是它需要实时、不间断地观察。一般在FMC 研究中,数据通常由研究人员通过不同的地面实验来收集。依靠遥感数据的研究已被广泛用于评估火灾损失[11-12]。然而,当需要建立一个早期预警系统及需要进行更好的灭火管理时,对火灾前阶段的研究至关重要。遥感传感器通常分为被动式和主动式传感器[13-15]两大类型。被动式传感器测量被测物体反射的来自与仪器不同来源的辐射或物体本身发射的辐射。本文采用被动遥感为主,主动式遥感为辅的模式。
从1987 年中国东北大兴安岭火灾开始,卫星遥感一直用于火灾管理研究。文献[16-18]研究了大安岭森林植被含水量,其中,可燃物不仅含有水,还含有影响火灾行为的灰物质。文献[7,19]用耦合辐射传输模型反演、统计回归等方法,分别研究了山西庆元县的林火灾后烈度和云南昆明市森林的FMC 值。然而,关于中国东南地区亚热带丘陵山地的FMC 反演的研究报道较少,这里分布着大量分散的亚热带常绿林、针阔混交林。这与东北地区的大兴安地区落叶林、针叶林景观的含水率都不同。考虑东西、南北之间的森林显著的生态含水率的异质性是本研究的重点。
从中国广东省从化区的野外林地采集数据(2021 年5—2021 年7 月),按照森林类型实际分布均匀采集116 个地面样点。同时,获取相对应时相的卫星遥感数据。该数据分别来自中国GaoFen-6 号卫星(2021 年6 月6 日)和欧盟Sentinel-2A 卫星(2021 年3 月19 日、7 月28 日)。鉴于研究地区所在的GaoFen-6 号6 月份期间云量较大,故同时采用Sentinel-2A 数据(6 月19 日云量较小)作为反演过程的主要遥感数据。
所有卫星下载数据都预先进行了辐射值定标及大气校正。坐标系统一配准到全球WGS-84 坐标系(UTM 投影),方便与GIS 数据与历史卫星数据来比较配准。
同时收集该研究地区的历史火灾数据、森林二类详查数据、社会网络上关于森林火灾的舆情数据。这3 类数据(地面监测、卫星遥感、社会统计)的指标维度较多,为了方便处理,先进行常规回归分析,以提取众多参数中影响可燃物含水率的关键因子。
为避免传统的基于回归的预测模型可能出现相关性较弱的问题,上述两种卫星的多光谱数据将进一步通过机器学习计算来改进。
本文研究选择广东省从化区作为反演实验点的原因,是它在估算FMC 和野外采集数据及与卫星遥感派生数据之间的关系密切,颇具代表性:1) 它位于广东省的几何中心,是紧邻广州市北部的一个生态旅游、农林生产地区;其所在的粤港澳大湾区是全球对地观测卫星重要的必经之地和主要数据流节点;2) 从化是广州市国土面积最大(1975 km2)且森林面积最大的区,也是近10 年来火灾案件发生频率相对较高的主要地区之一;3) 它密集分布着丰富的南亚热带森林植被类型,属于热带季雨林、中北亚热带常绿阔叶林之间的过渡性植被带,在全球生态圈中具有承上启下的连接作用。
图1 显示了西南部以桉树、荔枝树、针叶林和阔叶林为主,中部以马尾松、木荷、杉树、针阔混交林为主,东北部以马尾松、木荷、阔叶林、杉树为主;时间从2021 年5 月25 日—2021 年6 月20日,共采集了116 个样点(红色圆点)森林冠层的湿叶样品。
图1 从化区的野外采样点(红圆点)分布和森林植被分类现状分布图
从化区采样点的选取规则是:根据最新森林现状详查数据,选取主要森林可燃性大小不同的树种6~8 类,在GIS 上规划生成一条最短路径,连通每个预监测的样点斑块。同时使用监督分类法对研究地区的多源遥感数据进行多波段自动分类,完成关键可燃物分布的提取,以便工作人员在地面采样时,对研究目标的导航路径规划与森林可燃物定位。
此外,由于本研究是在夏季多雨季节采样,需要在非降雨时间进行多次采样及平均化操作,以避免云块、降雨对地面实测数据和遥感数据的干扰。
从化森林中生长有多种不同的树木,根据可燃性大小,野外采集桉树、马尾松、木荷、荔枝、杉木、草坡地、阔叶树种这7 个类型;并选取几类样本以反映从草地、灌丛到森林的树种种类变化。每个样地为20 m×20 m,采集样地内优势树种的冠层活叶及地下枯枝落叶(每个样本300~500 g)。同时记录样地的地理位置、气象参数、森林参数等10 种参数,用于统计训练和反演建模之用。采集时间集中在1 个月内,故本数据集属于“截面型”数据模型。
地面样点的FMC 来源于植被冠层中提取的叶片样本,并测定其鲜重和干重量(电烤箱烘干或自然爆晒干),叶子新鲜重量来自野外散装样品。
FMC 的定义如下:
式中,Fw是鲜叶重量;Dw是干叶重量。
FMC 是森林冠层可燃性的一个关键控制变量。本文FMC 的测量首先从实地采样的工作中测算得到,结果如图2 所示。
横断面数据显示了森林冠层的FMC 在样本时期的显著波动性和非线性。FMC 平均值为1.513 8,水分重量大于自身干叶重量,表明在森林生长旺季期间,森林冠层含水量普遍较高,如图2 所示。
图2 FMC 测量结果
箱型图是显示一组数据分散情况的统计图,不受异常值的影响,能够准确稳定地描绘出数据的离散分布情况,同时也利于数据清洗。图2b 中间粗线为数据的中位数,长方形上边线是上四分位数,下边线为下四分位数,最上面的黑线为上限,最下面的是下限,超出上下限的数据称为异常值。从图2b 可以看出第3、18、26、32 等数据均为异常值,集中在较大值的一侧,说明分布呈现右偏态,且右尾部较重。
本文使用NDVI 和NDII 两种遥感光学指数。NDVI 是归一化差异植被指数,由单个测量样地的不同波段反射值计算得出,具体如下:
最初研究使用的是基于Gaden-6 号最新的与地面同步接收的遥感图像。然而,深层(光学厚度)云层在卫星图像中相当多,因此改用过境的Sentinel-2A 卫星数据。表1 总结了NDVI 和NDII的统计描述。
表1 NDVI 和NDII 的统计学描述
常规回归方法的缺点是预先规定了变量之间的关系为线性,需要识别和解决一些常见的如多重共线性关系、内生性等问题。根据统计实验,从化区样点之间的变量的共线性较差,而机器学习方法可以克服这些问题,无需预先指定其函数公式。
考虑到所有因素之间的非线性,首先使用卫星RS 的含水率指标(NDVI、NDII 等)以及来自地面采样点的实测指标(如地面温度ST 和树冠宽度TD),本文使用4 种机器学习方法。
本文分析了3 种经典的机器学习算法:常规线性回归、梯度提升回归、Xgboost 的估算与反演,在此基础上提出综合投票法。
1) 常规线性回归方法
对于采样点的实验数据,常规线性回归适用于3 种类型因素的变量,即:① 气象变量,包括温度、湿度等直接气象变量和116 个采样点地块的纬度、经度等间接气象变量;② 土壤变量,如采样点地块的面积、地表温度;③ 植被变量,如树高、树冠直径、叶面积指数(LAI)、干叶重量、冠层叶子湿重量、树木的种类,包括两个主要的RS指标NDVI 和NDII。根据式(4)可知,反演FMC的关键变量是这两个RS 指标,其余都是控制变量:
式中,α 为截距;β、ω 为斜率系数;kv 为关键变量;cv 为控制变量。估计结果见表2。
表2 使用常规线性回归的估计结果
在解决了NDVI 和NDII 之间的多重共线性以及FMC 和RS 指标之间可能存在的内生性问题后,本文采用统计学中“工具变量分析”法,其中,RS 指标中的NDVI 较显著,表明FMC 有主要相关对象,系数为1.274 0。此外,植被变量中,只有1 个指标是显著的,即树冠直径,其他几乎所有的间接和野外直接测量的气象变量在本研究中都不明显。
2) 梯度提升回归算法
梯度提升回归算法是多种学习算法的集成,它结合了建立在多个基础估计值基础上的预测结果,从而提高单一估计值的可靠性。该算法的优点是:①自适应处理缺失数据(如亚热带雨季导致观测数据的缺失中断);②对于噪声数据不敏感(如云块、雾霾噪声对卫星数据的干扰);③能拟合复杂的非线性关系(FMC 与遥感NDVI、NDII、LAI 数据之间的非线性关联性);④预测精确度较高;⑤防止机器学习的过度拟合缺陷。
3) Xgboost 算法
Xgboost 算法能够减少模型过拟合程度;算法集成多种基础函数,具有较高的预测能力,成为本文FMC 数据精准预测的较佳选择;其同时兼有有线性模型和树模型算法的优点,比现有的梯度提升技术更快速。
4) 综合投票法
以上3 种算法各有优缺点,故采用综合投票法对3 种算法进行优化组合,以求发挥遥感大数据的科学性、鲁棒性和高效实用性。
全部样点数据集按照3:1 的比例划分为训练集和预测集样本。在进行预测时,分别使用剩余数据的三分之一和整个数据集,目的在于用两个不同的数据集来比较建模的精度。
综合投票回归算法是对上述3 种算法中的每种各自分配其权重来计算运行。本文研究使用的主要变量是在常规线性回归中被确认为显著的变量,再加上其他控制变量。此算法在很大程度上依赖于分配给3 个回归算法中每一个的权重,权重或分数规定如下:
式中,u为地面实测值与预测值差值的平方和;v为地面实测值与其平均值差的平方和;Score 为权重值,该值越大,预测性能就越好。3 种算法的计算得分分别为0.090 5、0.874 6、0.869 3。
用均方和误差来计算4 种方法的预测误差。计算如式(6)所示,结果如表3 所示。可以看出,综合投票回归法得出的MSE 在测试样本中的统计结果最低,因此该方法将用于未来的FMC 预测。
表3 不同算法下样本的MSE 比较
由此可见,测试样本的综合投票回归算法得出了最小的预测误差1 274.29;而全样本均方和误差远低于常规线性回归的误差值,且接近其他两种机器学习方法的误差值。除此之外,综合投票回归算法还有计算速度快、变量少而精的特点。因此,综合投票法成为使用NDVI 和树冠直径等变量预测FMC 的最可靠方法。
除了传统的线性回归模型计算FMC 外,本文还考虑了变量之间可能存在的非线性关系。应用了3 种经典的机器学习算法:常规线性回归、Xgboost 以及梯度提升回归法,在进行预测时,通过分配权重整合这3 种方法,提出综合投票回归算法。森林植被的遥感参数NDVI的预测冠层含水率的能力相对较高,预测值的收敛性和稳定性最好,均方根值(RMSE)误差为35,基于遥感反演的FMC 的相对预测精度达到73%左右。该指标优于国内外使用MODIS、Landsat-OLI 等中低分辨率数据的FMC 预测精度。
基于本文研究,广东省以往的高成本、低效率、人工作业的森林火灾风险管理实践可将被遥感监测取代。
致谢广东省林业科技创新项目(2020KJCX003)、上海市金融学会重大项目2021“COVID19 的影响”的资助。感谢薛晓飞、朱强强、孙茜、彭宇、贾鸿顺、王昱程、别小川、张君豪的研究协助。