基于最大熵和随机森林模型的3种珍贵硬阔叶树种潜在分布预测

2024-03-12 09:22宗迪迪董灵波刘兆刚
广西林业科学 2024年1期
关键词:黄檗水曲柳坡位

宗迪迪,董灵波,刘兆刚

(东北林业大学 林学院,黑龙江哈尔滨 150040)

物种分布受气候、土壤和地形等多种因素影响,某种因素的变化可能引起物种适生环境的变化,甚至整个物种的迁移。随全球气候持续变化,物种分布地不断变迁,生境逐渐破碎化,生物多样性下降,有些物种甚至面临灭绝[1]。探索物种与环境因素间的关系,并预测物种迁移和分布的变化,对于保护生物多样性和维持生态环境稳定有重要意义。

物种分布模型可通过某物种已知分布点与环境间的数据关系,在特定算法下计算出物种的生态位,并以概率的形式模拟和预测未来该物种的分布及其生境适宜度[2]。常用于模拟物种分布的模型主要有生物气候分析系统(Bioclimate Analysis and Prediction System,BIOCLIM)[3]、生态位因子分析模型(Ecological Niche Factor Analysis,ENFA)[4]、基于规则集的遗传算法模型(Genetic Algorithm Rule Set-Production,GARP)[5]、最大熵(Maximum Entropy,MaxEnt)模型[6-7]和随机森林(Random Forest,RF)模型等。在物种潜在分布及其适宜生境预测方面应用较广的为MaxEnt 模型和地理信息系统(Geographic Information System,GIS)联合应用[8]。目前,物种潜在分布模拟方法逐步从定性的经验总结向定量的数学模型靠近,使用最大熵模型和随机森林模型进行拟合研究。最大熵模型是一种机器学习模型,运行多种样本数据,在处理变量间复杂的相互作用方面优势明显,可信度较高[9],是物种保育、谱系地理和物种潜在分布模拟的首选模型[10]。该模型基于最大熵理论,通过已知的物种分布信息预测物种潜在适生区,即使在物种分布信息缺乏的情况下也能进行很好的预测[11]。随机森林是一种结合决策树和特征选择对样本进行训练并预测的机器学习算法,可在保留决策树优点的同时,提高分类精度[12-13],已被广泛应用于林业行业。随机森林模型依靠多个模型独立学习和预测,并对预测结果进行综合判断,具有多种优势,包括对大样本数据处理速度快;可高效处理高纬度样本数据并建立模型;采用随机抽样的方式,训练方差小;对部分数据异常或缺失不敏感,可在一定程度上避免过度拟合的情况等。

水曲柳(Fraxinusmandshurica)、胡桃楸(Juglansmadshurica)和黄檗(Phellodendronamurense)均为珍贵硬阔叶树种,具有材质优良、致密坚韧和纹理美观等优点,被广泛应用于建筑、军事和家具制造等行业[14]。由于过度砍伐、重采轻育和管理不当等,水曲柳、胡桃楸和黄檗后备资源不足,均被列为濒危树种。目前,3 种树种多为次生林,分布较零散,面积较小,以小树、劣木居多。对3 种树种进行适地适树种植和科学经营管理十分重要。近年来,对3 种树种的研究主要集中在生理特性[15-16]、种苗培养[17]及基因克隆和表达[18]等方面,综合分析并预测3 种树种潜在分布的研究较少。本研究以帽儿山实验林场水曲柳、胡桃楸和黄檗天然次生林为研究对象,通过查阅资料、实地调查等方式获取水曲柳、胡桃楸和黄檗分布数据及林场土壤和地形等数据,通过对比最大熵模型和随机森林模型对3 种树种潜在适生区的预测结果,分析影响树种分布的主导环境因子及适生区变化情况和动态分布,为3种珍贵硬阔叶树种的更新、补植和可持续经营提供参考。

1 材料与方法

1.1 研究区概况

研究区位于东北林业大学帽儿山实验林场(127°29′~127°44′E,45°14′~45°29′N),始建于1958年,总面积为26 496 hm2[19]。该区属温带大陆性气候,四季分明,夏季高温多雨,冬季寒冷干燥;地势由南向北依次升高,平均坡度为10°~15°,平均海拔为300 m。土壤条件优越,地带性土壤为暗棕壤;植物区系属长白山植物区系,以天然次生林为主,主要有以水曲柳、胡桃楸和黄檗等为主的硬阔叶混交林,以山杨-白桦(Populusdavidiana-Betulaplatyphylla)和柞树(Quercusmongolica)等为主的硬杂木林及红松(Pinuskoraiensis)、落叶松(Larixgmelinii)和樟子松(Pinussylvestrisvar.mongolica)等人工林[20-21]。

1.2 研究方法

1.2.1 数据来源

水曲柳、胡桃楸和黄檗天然次生林分布点数据来源于2016 年帽儿山实验林场二类调查小班数据库,共收集到3 818 条数据;对其他类型数据点进行筛选剔除,最终获得2 920 条数据,其中1 560 条为3种树种分布点数据。采用ArcGIS 软件,生成3 种树种分布图(图1);同时,获取各小班数据,包括A1 土层厚度、AB 土层厚度、土壤类型、坡度、坡位、坡向、郁闭度、每公顷株数、每公顷蓄积、立地类型和地被总盖度。具体的土壤类型、立地类型、坡位和坡向见表1~4[22]。海拔数据来源于地理空间数据云(http://www.gscloud.cn/),下载分辨率为90 m 的数字高程模型(Digital Elevation Model,DEM)。

表1 土壤类型Tab.1 Soil types

表2 立地类型Tab.2 Site types

表3 坡位Tab.3 Slope positions

表4 坡向Tab.4 Slope aspects

图1 3个树种分布点Fig.1 Distribution points of three tree species

1.2.2 模型性能评价指标

判定最大熵模型和随机森林模型精度的指标为受试者工作特征(Receiver Operating Characteristic,ROC)曲线下面积(AUC),其对于判断预测模型优劣有良好的应用效果。以真阳性率为纵坐标、假阳性率为横坐标,绘制ROC 曲线;ROC 曲线与横坐标形成的区域为AUC。模型精度值评价标准见表5。

表5 模型精度值评价标准[23]Tab.5 Evaluation criteria for model accuracy values

1.2.3 最大熵模型构建

从3 种树种分布样点中,提取75%分布点作为训练集,用于模型构建;剩余25%分布点作为测试集,用于模型检验。将3 种树种的分布数据和环境因子导入MaxEnt软件,重复运行10次,建立模型;采用刀切法(Jackknife Method)检验环境因子对模型的贡献率和重要性。模型结果输出为Cloglog形式。

1.2.4 随机森林模型构建

以3 种树种为目标树种,其中有目标树种分布的点标记为1,没有目标树种分布的点标记为0;采用R-Studio 软件构建随机森林模型。通过Bootstrap随机抽取n个样本数据,组成训练集,构建决策树;剩余部分作为测试集,用于验证模型精度;在每棵树的节点处,随机选择m个变量,采用基尼系数、信息增益等方法,不断寻找最佳分割属性,在不修剪的情况下构成1棵决策树;不断重复该过程,得到多个决策树;各决策树互不关联,形成随机森林;通过统计每个决策树的结果,投票选出最优预测结果。

2 结果与分析

2.1 模型比较分析

2.1.1 最大熵模型结果分析

采用刀切法分析各环境因子对预测结果产生的影响;红色代表全部变量;绿色代表除此变量,即依次排除每个因子,用剩余因子创建模型,得到除此变量的训练得分。坡位用除此变量构建熵模型时影响最大,表明其基于最大熵模型的贡献值较大;12 个因子中,对3 种树种分布影响最大的为坡位,即坡位为影响3种树种分布的最重要因素(图2)。

图2 最大熵模型环境变量贡献刀切法检验Fig.2 Jackknife method test for contributions of environmental variables in maximum entropy model

绘制环境因子与预测目标树种间的关系图,可直观反映环境因子对留存提升的影响,通过分析得出目标树种的适宜分布环境。为进一步了解主要环境因子与3 种树种适生性的关系,通过最大熵模型输出各环境因子依赖图(图3)。

图3 最大熵模型输出的环境因子依赖图Fig.3 Environmental factor dependencies output by maximum entropy model

存在概率大于0.50 时,对应的环境因子变化范围适宜3种树种分布。输出结果分为连续变量和分类变量;每公顷蓄积、郁闭度、地被总盖度、立地类型、坡位和坡向6 个因子对目标树种分布预测有影响;其中,每公顷蓄积、郁闭度和地被总盖度为连续变量,立地类型、坡位和坡向为分类变量。连续变量中,每公顷蓄积的适值范围为50~250 m3/hm2;郁闭度的适值范围为0.5~0.7 和0.8~1.0;地被总盖度的适值范围为0%~100%。分类变量中,阴斜坡中层暗棕壤型为最适合目标树种生长的立地类型;中坡为最适合目标树种生长的坡位;南和无坡向为最适合目标树种生长的坡向。

2.1.2 随机森林模型结果分析

通过随机森林模型输出3种树种分布对各环境因子的依赖图,曲线变化越大,变量越重要(图4)。土壤类型不是影响目标树种分布的重要变量;海拔的重要性最高,与目标树种分布以负相关为主,即海拔越低,目标树种生长的适宜性越高。每公顷蓄积最适值为50 m3/hm2,每公顷株数最适值为800株,郁闭度最适值为0.5,地被总盖度最适值为0%。阳陡坡薄层暗棕壤型为最适合目标树种生长的立地类型,山谷为最适合目标树种生长的坡位,西南为最适合目标树种生长的坡向。坡度最适值为21°,A1土层厚度最适值为18 cm,AB土层厚度最适值为25 cm。

图4 随机森林模型输出的环境因子依赖图Fig.4 Environmental factor dependencies output by random forest model

2.1.3 模型结果对比分析

(1)模型精度对比

最大熵模型对水曲柳、胡桃楸和黄檗3 种树种预测结果的训练数据为0.861,检测数据AUC 值为0.858,平均AUC 值为0.854(图5a),均超过0.800;最大熵模型的AUC 值处于0.800~0.900 之间。随机森林模型对3 种树种预测结果的平均AUC 值为0.920(图5b);随机森林模型的AUC 值处于0.900~1.000之间,预测精度较高。随机森林模型预测精度高于最大熵模型,具有较好的预测能力,对3种树种潜在适生区的预测结果更准确。

图5 不同模型ROC曲线(a:最大熵模型;b:随机森林模型)Fig.5 ROC curves in different models(a:maximum entropy model;b:random forest model)

(2)重要因子排序

最大熵模型输出结果显示,坡位、立地类型对3种树种分布的影响最大,其次为坡向、郁闭度和地被总盖度,其他因子均影响较小(图6)。

图6 环境因子对3种树种分布的影响Fig.6 Influences of environmental factors on distributions of three tree species

随机森林模型输出结果显示,海拔对3 种树种分布的影响最大,其次为每公顷蓄积和郁闭度,土壤类型影响最小。

坡位和海拔均属于地形因子,因此地形因子为限制水曲柳、胡桃楸和黄檗分布的重要因子。

2.2 3种树种潜在分布模拟

从最大熵模型得到3 种树种适生值的栅格数据,数值范围为0~1,数值越接近1,该地区越适宜3种树种生长。帽儿山实验林场全域范围内均存在水曲柳、胡桃楸和黄檗的高适生区,但分布较分散(图7a)。高适生区在中、西部分布较密集,范围较大;东部分布较少,范围较小。

随机森林分布预测图显示,帽儿山实验林场北部和西部为3种树种的高适生区(图7b)。随机森林模型预测的潜在适生区包括最大熵模型中显示的分布范围,有较高重合性,说明帽儿山实验林场西部和北部适宜3种树种生长。

3 讨论与结论

树种生长与周边环境密切相关,可通过分析树种与环境因子间的关系判断该树种的适宜分布区。目前,多采用最大熵模型和随机森林模型进行拟合研究。本研究中,影响3 种树种分布最重要的环境因子为地形因子。在树种分布及其影响因子的研究中,海拔、坡度和坡向等地形因子均为影响树种分布的关键因子[24-26];地形因子对树种分布不产生直接作用,通过对降水、太阳辐射空间分布和土壤养分等进行再分配,间接影响树种生长和分布[25-26]。

地形是形成山地结构和功能、促使各种生态现象和过程发生变化的根本因素[27],地形因子是划分立地类型和进行立地质量评价的主导因子。地形因子中,海拔、坡位、坡度和坡向等因子可通过对地表物质和能量进行再分配,共同决定地表植被的分布格局和树种选择[28]。本研究分别采用最大熵和随机森林两种模型评估环境因子对目标树种分布的影响。最大熵模型中,立地类型和坡位为影响目标树种分布重要的环境因子;坡位作为较小尺度上的因子,与土壤厚度、林分结构和物种分布特征密切相关[29]。随机森林模型中,海拔的重要性最高,影响最大;海拔作为最主要的地形因子,其变化使得气温和太阳辐射发生变化,影响生物个体生长发育和树种分布[30]。相关研究表明,除气候因子外,海拔是影响水曲柳、胡桃楸和黄檗分布最重要的环境因素[31],与本研究结果一致。海拔和坡位为影响帽儿山实验林场水曲柳、胡桃楸和黄檗分布的关键因子。

本研究区面积较小,气候变化不大,不能体现气候对目标树种分布的影响,所以本研究未考虑气候因子对水曲柳、胡桃楸和黄檗分布的影响,模型预测结果具有一定局限性,不太适用于大尺度区域研究。植物分布受气候因子影响[32],气候因子对3种树种分布的影响有待进一步研究。影响物种分布的因子还包括其他生物因子和非生物因子;结合除环境因子外的影响因子对物种分布进行预测,也需进一步探讨。

宋长江等[33]利用GIS 技术和随机森林模型,对帽儿山地区水曲柳、胡桃楸和黄檗的适宜分布区进行预测,结果显示,南部和西北部为主要适宜分布区域;本研究中,结合两种模型分析结果,帽儿山实验林场3种珍贵硬阔叶树种潜在适宜分布区为西部和北部,与宋长江等[33]研究的分布区域有部分重叠。

随机森林模型预测精度较高[34];最大熵模型是根据现有地理分布数据进行潜在分布预测,预测结果相对保守,但较可信[35]。一般来说,样本数量和样本在空间上的分布与模型预测结果的精确度和可靠性直接相关[36]。最大熵模型和随机森林模型在预测3 种树种潜在分布时,AUC 均值分别为0.854 和0.920,在模型拟合精度方面体现了模型的合理性。最大熵模型和随机森林模型目前应用较广泛,通过比较两种模型算法的精度,选择效果较优的算法,具有一定的理论意义和实践价值。

本研究选取12个环境因子,采用最大熵模型和随机森林模型分析环境因子对水曲柳、胡桃楸和黄檗分布的影响;对比分析两种模型中影响帽儿山实验林场3 种树种分布的主导因子,同时预测树种潜在分布区。通过对比分析两个模型的精度,研究区3 种树种分布预测的最适模型为随机森林模型,其预测结果为最优结果。最大熵模型输出的重要环境因子为立地类型和坡位,随机森林模型输出的重要环境因子为海拔;对3 种树种分布影响较大的均为地形因子,局域范围内地形因子更能反映树种的生长状况。在补植3 种树种时,应主要根据海拔和坡位选择补植位置。随机森林模型预测的生长范围包含最大熵模型的预测范围,主要集中在帽儿山实验林场西部和北部。3 种树种生长适宜程度较高的地区和树种预测分布的地区有较高适配度,分布点均落在适生区和较适生区范围内,低适生区几乎没有。

利益冲突:所有作者声明无利益冲突。

作者贡献声明:宗迪迪负责试验调查与设计、数据收集与分析、论文撰写和文献检索;董灵波负责论文知识性内容审阅;刘兆刚负责项目支持和论文知识性内容审阅。

猜你喜欢
黄檗水曲柳坡位
黄檗蜜源及其蜂蜜
宝龙店水曲柳无性系生长早期评价
放下肩上的“柴”
浅谈水曲柳营林的速产丰产技术要点
水曲柳和落叶松人工纯林与混交林的碳储量
林区水曲柳营林的速生丰产技术要点
坡向坡位及郁闭度对森林公园内林下南方红豆杉生长的影响
不同坡位对毛竹林小气候及地上生长的影响
种植地坡向和坡位对楸树引种早期生长的影响
不同近自然程度下黄檗生长过程的研究