长白山红松阔叶林的净碳交换变化及基于时间卷积神经网络的模拟

2022-05-11 11:53齐建东谭新新
林业科学 2022年2期
关键词:温带冠层通量

齐建东 谭新新

(1.北京林业大学信息学院 北京 100083; 2.国家林业和草原局林业智能信息处理工程技术研究中心 北京 100083)

陆地生态系统碳循环因其下垫面复杂性和人类活动的干扰而存在很大不确定性(李琪等, 2010)。森林生态系统是陆地生态系统中结构最复杂、生物种类最多、生产力最高的生态系统类型(农业大词典编辑委员会, 1998),其植被碳库占全球陆地生态系统植被碳库的80%,土壤碳库占全球土壤碳库的40%(李威等, 2021)。研究森林生态系统的净生态系统碳交换量(net ecosystem exchange,NEE)可为调节全球气候和维持全球碳平衡提供理论依据(Dixonetal., 1994),是当前生态领域的研究热点之一。

林地NEE变化较大(Zhangetal., 2018),因此选择合适的研究方法至关重要。目前,广泛应用的NEE模型主要分为生态领域内基于过程的静态模型和基于数据驱动的动态模型两大类(Friendetal., 2007; Raczkaetal., 2013)。Schindler等(2015)认为,基于数据驱动的动态模型比基于过程的静态模型更具优势。机器学习方法在NEE研究中的应用优于生态学领域方法(Moffatetal., 2007)。在过去的20多年里,机器学习被越来越多地用于NEE相关问题的研究。如极限学习机(extreme learning machine,ELM)用于5种不同类型的生态系统模拟NEE(Douetal., 2018),支持向量回归(support vector regression,SVR)用于森林NEE模拟试验(陈强等, 2009),使用基于人工神经网络(artificial neural network,ANN)的模型对森林生态系统的NEE数据进行插补(窦兆一等, 2009),使用遗传算法和神经网络结合的模型选择NEE预测因子(薛月菊等, 2011),基于贝叶斯算法、粒子群优化算法改进的神经网络和改进的自适应脊波网络用于NEE预测等(汪雪等, 2017; 杨帆等, 2017; 王楷等, 2014)。

目前,已有大量研究利用机器学习模型进行NEE预测,并取得了较好效果。将深度学习模型用于NEE预测的研究还处于起步阶段。通量数据是时间序列数据,因此NEE预测属于时间序列预测问题。深度学习领域中基于循环架构的长短期记忆网络(long short term memory,LSTM)已被证明在时间序列预测问题上表现出优秀的性能(Gamboa, 2017)。齐建东等(2020)将LSTM及其改进模型用于模拟草地生态系统的净碳交换,其效果比传统机器学习模型更好。Bai等(2018)提出了一种基于卷积架构的时间卷积网络模型(temporal convolution network,TCN),其在11个序列建模任务中均表现出比LSTM更好的效果。但目前TCN模型在国内外的NEE相关问题研究中的应用仍为空白。鉴于此,本研究首先使用随机森林算法对影响长白山温带红松(Pinuskoraiensis)阔叶林通量观测站NEE的各因子重要性程度进行计算,选择得分较高的5种气象因子作为模型输入,然后对该站点NEE及选中的气象因子进行月尺度分析和相关性分析;其次构建基于TCN的模型,进行森林生态系统NEE模拟;最后分别构建基于ELM、SVR、ANN和LSTM的4种模型,与基于TCN的模拟结果对比。本文旨在分析研究地区NEE的季节性差异及其气象因子响应,在月尺度下揭示气象因子对NEE的动态影响,为调节研究地区的碳收支提供理论指导。同时研究时间卷积神经网络在森林生态系统净碳交换模拟中的应用,探索NEE模拟的新方法。

1 研究区概况

长白山温带红松阔叶林通量观测站位于吉林省延边朝鲜族自治州安图县二道白河镇,地处长白山自然保护区内(128°05′45″E,42°24′09″N),海拔738 m,为中国温带针阔混交林生态类型。长白山温带红松阔叶林通量观测站属受季风影响的温带大陆性气候,具有显著的中纬度山地气候特征,春季干旱多风,夏季炎热多雨,冬季干燥寒冷,年均气温3.6 ℃,年均降水量713 mm,降水集中在6—8月,全年日照时数2 271~2 503 h。该区植被具有典型的垂直地带性,在通量塔下为阔叶红松林,是典型的地带性植被,主要建群树种有红松、椴树(Tiliaamurensis)、蒙古栎(Quercusmongolica)、水曲柳(Fraxinusmandshurica)和色木槭(Acermono)等,平均树高26 m,冠下植被高0.5~2 m。土壤为山地暗棕色森林土(王秋凤等, 2004)。

观测塔高62 m,安装了7层常规气象系统(安装高度依次为2.5、8、22、26、32、50和60 m)、7层CO2廓线系统、 CSAT3超声风速仪(Campbell,USA)和Li7500CO2/H2O(Li-cor,USA)红外气体分析仪。同时,该站还配备了土壤CO2、CH4和N2O排放量的箱式法观测系统。2002年开始观测,数据采样频率为10 Hz,通量测定的平均时间为30 min(石旭霞等, 2018)。

2 研究方法

2.1 数据来源

从中国通量观测联盟(ChinaFLUX)的共享数据库中获取长白山温带红松阔叶林通量观测站2007年1月1日至2010年12月31日的30 min通量数据,为1 461天的70 128条数据。数据集包含风速、土壤温度、光合有效辐射和日降水量等24个影响因子和NEE。用2007—2009年的数据共52 608条作为训练集,用2010年的数据共17 520条作为测试集。

2.2 数据处理

为了降低特征集的维度,减小模型学习难度,采用随机森林算法计算各影响因子的重要性得分。随机森林是一种基于决策树的组合模型(Breiman, 2001)。首先,对2007—2009年数据集中影响因子形成的样本矩阵利用Bootstrap重抽样抽取n个样本; 然后,对每个样本分别建立相应的决策树,基于基尼不纯度(gini impurity)最小的原则在节点m处将当前样本集根据因子Xj分割成2个子集节点,这2个子集节点的基尼不纯度减少量即为Xj在节点m的重要性评分(variable importance measure,VIM)(Menzeetal., 2009)。如果Xj在第i棵树中出现k次,则因子Xj在第i棵树的重要性评分等于k个节点的重要性评分总和。最后,以n棵回归树中Xj的VIM平均值作为该因子最终的重要性评分。回归过程如图1所示。

基尼不纯度与可获取的有用信息呈负相关。基尼不纯度越小,变量的离散程度越差,得到的信息量越大。节点m的基尼不纯度Gm计算公式为:

(1)

式中:c为样本类别数;pi为节点m中对应的样本属于类别i的概率。

变量Xj在节点m处的重要性评分Vjm为:

Vjm=Gm-Gl-Gr。

(2)

式中:Gl和Gr分别为由节点m分裂的两个子集节点l、r的基尼不纯度。

变量Xj在第i棵树中的重要性评分Vij为:

(3)

式中:k表示变量Xj在第i棵树中出现的次数。

变量Xj在随机森林中的重要性评分Vj为:

(4)

式中:n为随机森林中回归树的数量。

根据结果选取得分较高的5个气象因子作为模型的输入,分别为潜热通量、显热通量、冠层上方空气湿度、冠层上方水汽压和净辐射。

为了消除数据特征之间的量纲影响,对数据进行归一化处理,归一化方程如下:

y=(x-xmin)/(xmax-xmin)。

(5)

式中:x为原始数据;y为归一化后的数据;xmin和xmax分别为整个研究时间内x的最小值和最大值。

图1 随机森林回归架构

2.3 长短期记忆网络

长短期记忆网络(LSTM)是一种全互连的神经网络(Hochreiteretal., 1997),神经元间存在反馈连接,在学习新特征的同时能够记忆历史信息。每一个LSTM单元都由输入门、输出门、遗忘门和记忆单元组成,结构如图2所示。LSTM通过这些门控单元来控制历史信息对当前信息的影响,使得模型能够较长时间地保存并传递信息。

在t时刻,给定n维监测指标xt作为输入,LSTM神经网络的输入门it、遗忘门ft、输出门ot、记忆细胞状态ct、隐藏层状态ht分别为:

(6)

式中:xt=[x1x2x3…xn];ht-1为t-1时刻的隐藏状态;Wi、Wf、Wo、Wc分别为输入门it、遗忘门ft、输出门ot、记忆细胞状态ct的权重矩阵;bi、bf、bo、bc分别为输入门it、遗忘门ft、输出门ot、记忆细胞状态ct的偏移量;σ表示sigmoid函数; tanh表示tanh激活函数。

最后,可以通过以下线性变化计算t时刻的NEE(yt),其中Wh和bh为权重矩阵和偏移量:

yt=Whht+bh。

(7)

LSTM可以减轻循环神经网络(recurrent neural network,RNN)梯度消失/爆炸的问题,但并不能完全避免梯度消失/爆炸。同时,由于循环架构的特性,LSTM模型只能顺序处理,当时间跨度大、网络较深的时候,LSTM模型比较耗时。

图2 长短期记忆网络结构

2.4 时间卷积神经网络

时间卷积神经网络是由Bai等(2018)提出的传统卷积神经网络(convolutional neural networks,CNN)的变体,在序列建模问题上展现出良好性能。与CNN相比,TCN具有因果卷积和膨胀卷积两个特殊结构。因为要处理时间序列问题,因果卷积是一种严格的时间约束模型,使上一层t时刻的值只依赖于下一层t时刻及之前的值,保证t时刻之后的值不会被模型提前学习。膨胀卷积允许卷积时的输入存在间隔采样,采样率受参数d的控制,每d个点采样1个作为输入。一般来讲,d的值随层数呈指数增长。膨胀卷积使TCN在层数不变的情况下捕获更长时间的历史信息(Chenetal., 2020)。与CNN一样,TCN可以避免梯度消失/爆炸问题,同时可以并行处理。

图3是具有2个隐藏层、卷积核大小为2的TCN模型中的数据流。TCN模型的输入数据形状是[samples,channels,features],t时刻的输出yt为:

(8)

式中:fi表示第i个过滤器;k表示过滤器的个数;Xt-id表示t-id时刻的输入值,d表示采样率。

本研究以在NEE模拟中广泛使用的ANN(Alemohammadetal., 2017; 齐建东等, 2019)、ELM(Douetal., 2018; 温旭丁, 2014)和SVR(陈强等, 2009; Douetal., 2018)这3种机器学习模型作为基准对比模型。限于篇幅,ANN、ELM和SVR 这3种模型的详细工作机制不再赘述。

3 结果与分析

3.1 NEE的季节变化

长白山温带红松阔叶林生态系统2010年各月的NEE变化曲线如图4所示。1—4月表现为明显的碳排放,5月出现1年中的NEE最大值2.247 8 gCO2·m-2d-1,表现为碳排放。之后随着植被生长发育,碳排放减少,NEE开始下降,逐渐由碳源转为碳汇,在7月末达到1年中的碳吸收最大值,NEE为-6.026 0 gCO2·m-2d-1。8月NEE开始上升,在10月由碳汇转换为碳源,并达到碳排放的另一个高峰。11月后随着温度降低,碳排放也逐渐降低。总体来说,该森林生态系统全年表现为碳汇(张军辉等, 2006),碳吸收量达到74.777 3 gCO2·m-2a-1,但冬季表现为碳源,夏季表现为碳汇,夏季碳收支对全年NEE影响较大。

图3 时间卷积网络结构

图4 2010年NEE的月份变化曲线

3.2 气象因子的季节变化

2010年长白山站全年观测的潜热通量、显热通量、冠层上方空气湿度、冠层上方水汽压和净辐射的变化过程见图5。潜热通量在1—4月变化较小,5月随太阳辐射增加而快速升高(李轶涛等, 2013),6—8月达到峰值,即全年的最大值11.576 2 W·m2,9月下旬后随太阳辐射减少而快速降低,在11—12月较稳定。显热通量和冠层上方空气湿度两者间的季节变化趋势相反。显热通量变化范围为-3.232 5~8.403 5 W·m2,总体表现为夏季低、冬季高。冠层上方空气湿度变化范围为23.388 8%~97.712 5%,在降水集中的6—8月明显升高,总体表现为夏季高、冬季低。冠层上方水汽压和净辐射都呈现单峰型曲线变化趋势,均在夏季达到峰值。冠层上方水汽压最大值在9月初,为2.166 7 kPa。净辐射最大值出现在8月初,为267.124 6 W·m2。

3.3 NEE对气象因子的响应

将NEE与5种气象因子进行相关性分析(图6和表1),可知该森林生态系统NEE与潜热通量、冠层上方水汽压、净辐射和冠层上方空气湿度均极显著负相关,P值均小于0.000 1。与显热通量的P值大于0.05而未通过F检验,相关性不显著。

3.4 NEE模型预测结果

试验运行环境为: 操作系统为Ubuntu 18.04 Server,GPU为GTX 1080ti,处理器为Intel i7-6700,内存为32 GB。

图5 5种气象因子在2010年的变化曲线

为消除数据间的相关性,避免模型对部分数据过拟合,首先对训练集的数据进行随机打乱,然后以NEE预测值和真实值的均方误差MSE作为损失函数对模型进行训练。各模型参数设置如下: 在TCN模型中残差模块层数为6,隐藏层节点数为64,卷积核大小为2,学习率为0.001,batch size为512,为防止模型过拟合,设置dropout为0.3,共训练10个epochs; 在LSTM模型中,设置输入历史序列窗口的大小为T=10,隐藏层节点数为40,学习率为0.000 1,batch size为256,共训练120个epochs; 在ANN中,设置隐藏层大小为1,隐藏层节点数为80,激活函数为Relu函数; 在SVR中,设置惩罚因子为1.0,选择RBF核函数; 在ELM中,隐藏层节点数设置为100,激活函数使用Sigmoid。TCN、LSTM、ANN和ELM均使用Adam方法进行参数优化。

本研究选择均方根误差RMSE、平均绝对误差MAE和决定系数R2这3项指标评估模型准确性。

3.4.1 NEE预测结果准确性 5种模型进行NEE预测的真实值与预测值的拟合图如图7所示。3种传统机器学习模型(ANN、SVR和ELM)和2种深度学习模型(TCN和LSTM)均能在不同程度上较好地拟合NEE,预测值变化趋势与实际值变化趋势较为一致,但不同模型的预测效果存在一定差异。

除SVR外的4种模型在训练时利用了随机性,在参数不变的情况下每次的运行结果存在一定差异,因此以每种模型运行10次的评价指标平均值作为该模型最终的评价指标。5种模型预测结果的3种评价指标的值如表2所示,3种传统机器学习模型在测试集上的决定系数R2均小于0.76,RMSE均大于0.13 mgCO2·m-2s-1,其中表现最好的是ANN,R2为0.752 8,RMSE为0.132 7 mgCO2·m-2s-1。2种深度学习模型TCN和LSTM的R2分别比ANN高0.068 6和0.046 3,RMSE与ANN相比分别减少了0.022 2和0.015 4 mgCO2·m-2s-1。整体来说长白山温带红松阔叶林通量观测站点的NEE预测试验中深度学习模型的精度相比传统机器学习模型ANN、SVR和ELM显著提升。深度学习模型中TCN模型的RMSE为0.110 5 mgCO2·m-2s-1,MAE为0.051 1 mgCO2·m-2s-1,R2为0.821 4,与LSTM相比,模型精度有所提升。

3.4.2 NEE预测结果稳定性 由图8可知,参数不变的情况下传统机器学习模型ELM、ANN的NEE预测结果明显比2种深度学习模型波动更大。计算得到TCN模型10次NEE预测试验的RMSE的标准差为0.000 4 mgCO2·m-2s-1,相比ELM、ANN和LSTM分别下降0.001 4、0.001 3和0.000 2 mgCO2·m-2s-1。因此,基于TCN的模型在长白山温带红松阔叶林通量观测站点的NEE预测试验中表现得更加稳定。

图6 NEE对不同气象因子的响应

表1 不同气象因子与NEE的相关性分析结果

图7 各模型预测值与真实值拟合图

表2 不同模型评价指标

图8 各模型10次预测NEE的RMSE

综上所述,在长白山温带红松阔叶林通量观测站点的长期NEE预测上,基于时间卷积神经网络的模拟模型不仅在预测精度上表现良好,并且具有较强的预测稳定性,可以挖掘相对于传统机器学习模型更深尺度的特征信息。

4 讨论

不同森林生态系统由于地理位置、气候、生境及人类影响程度的差异而有不同的碳源/汇特征(李润东等, 2020)。本研究表明,长白山温带红松阔叶林生态系统整体表现为碳汇,全年NEE总量为-74.777 3 gCO2·m-2a-1。固碳能力低于美国东南部落叶阔叶林(-402 gCO2·m-2a-1)、日本北海道落叶阔叶林(-375 gCO2·m-2a-1)和北京松山天然落叶阔叶林(-111 gCO2·m-2a-1),这一结果与长白山温带红松阔叶林通量观测站所在地区的气象因子直接相关,下面进一步分析典型气象因子对NEE的影响。

4.1 辐射对NEE的影响

净辐射是影响NEE变化的重要因子,且两者呈负相关(P<0.01)(徐勇峰等, 2018),本研究也得出类似结论(表1)。光合辐射是生态系统光合作用的能源,光合有效辐射随净辐射增加而增加(纪小芳等, 2019)。长白山温带红松阔叶林通量观测站点全年日照时数为2 271~2 503 h,尤其夏季阳光充足,净辐射在夏季达到峰值,此时光合有效辐射也随之达到最大,光合作用最强,碳吸收达到全年最高,森林碳汇功能增强。7月净辐射出现短暂的下降趋势,生态系统碳吸收效果也随之有所减弱。在净辐射较低的冬季,光合有效辐射减少,光合作用基本停止,碳吸收值小于碳排放值,因此森林表现为碳源。

4.2 水分对NEE的影响

降水的时空变异会对森林固碳产生不同影响(宋春林等, 2015)。基于全球研究表明,当年均降水量低于1 000 mm时,成熟林生长与降水量呈显著正相关(Liuetal., 2014)。长白山温带红松阔叶林通量观测站点年均降水量713 mm,降水集中在6—8月,因此降水增加对生长有促进作用。冠层上方水汽压呈单峰型曲线变化,在降水充足的夏季达到峰值,冠层上方空气湿度也呈现夏季高的特点。此时植物快速生长,森林叶面积指数增大,在白天具有较强的光合作用,碳吸收值远大于碳排放值,使固碳能力增强,呈明显的碳汇。马小红等(2017)和龚元等(2019)的研究也得出了相似结论。

4.3 温度对NEE的影响

温度通过调节生态系统的碳吸收和碳排放两个过程而成为影响碳收支季节变化的主要因子,直接影响生态系统的光合作用和呼吸作用(薛建辉, 2006),而光合作用和呼吸作用对温度的响应程度差异决定着生态系统表现为碳汇或碳源(游桂莹等, 2018)。长白山温带红松阔叶林通量观测站点属温带大陆性气候,年均气温3.6 ℃,温度呈现夏季高冬季低的特点。5—9月NEE显著增加(图4),且表现为碳吸收。此时正值夏季,温度升高,植物处于生长季,光合作用的碳吸收远高于呼吸作用的碳排放。温度较低的1—4月和10—12月则相反,碳吸收略低于碳排放,生态系统表现为微弱的碳源。因此长白山温带红松阔叶林通量观测站点温度升高对NEE有促进作用,该结论与Saito等(2009)的结论相似。但在不同的条件下,温度升高对NEE也可能表现为抑制作用(Guetal., 2003)。

5 结论

受气象因子调控,长白山温带红松阔叶林生态系统2010年全年NEE表现为碳汇,但具有明显的季节变化,冬季为碳源,夏季为碳汇,夏季碳收支对该生态系统全年NEE贡献较大。生态系统的NEE与潜热通量、冠层上方水汽压、冠层上方空气湿度和净辐射极显著负相关(P<0.000 1),与显热通量相关性不显著(P=0.141 8)。

对于长白山温带红松阔叶林生态系统的长期NEE预测而言,深度学习模型的预测精度和稳定性均明显优于机器学习模型,基于时间卷积神经网络的模拟模型不仅预测精度良好,并且有较强的预测稳定性,可以挖掘相对于传统机器学习模型更深尺度的特征信息。

猜你喜欢
温带冠层通量
Facts of Yellowstone
六种冠层阻力模型在冬小麦蒸散估算中的应用
干旱处理条件下水稻冠层温度的变化规律探究
氮磷添加对温带和亚热带森林土壤碳氮矿化的影响
密度与行距配置对向日葵冠层结构及光合特性的影响
松弛涡旋累积法获取甲烷湍流通量的实验研究
冬小麦田N2O通量研究
基于无人机和地面图像的田间水稻冠层参数估测与评价
深圳率先开展碳通量监测
解读高中地理教学中的温带大陆性气候