基于随机森林算法高分土壤湿度产品的构建与评估

2023-12-18 08:58朱宏武
现代电子技术 2023年24期
关键词:土壤湿度站点偏差

朱宏武, 罗 丹, 朱 亮, 贺 炜

(1.湖南省气象信息中心, 湖南 长沙 410118; 2.气象防灾减灾湖南省重点实验室, 湖南 长沙 410118;3.湖南省气象服务中心, 湖南 长沙 410118)

0 引 言

干旱通常发生在农作物生长的重要时期,是影响农业生产最为严重的自然灾害[1]。湖南地处青藏高原下方,是南北冷暖空气主要交汇地,地形多样、气候复杂,旱灾风险高,抗旱形势严峻。2013 年中国南方13 省遭遇重大旱灾,湖南粮食减产超过16 亿斤,是受灾最为严重的省份之一。在全球气候变暖背景下,湖南天气气候极端事件增多增强,2022 年湖南干旱覆盖范围广、持续时间长,创造了1961 年以来最强高温干旱纪录,给农业生产带来了严重影响。干旱灾害防御在湖南一直受到高度重视。干旱过程与大气状态、土壤质地类型、土壤含水量及植被情况等多种因素相关。其演变过程极其复杂,时间空间变化随机性强,不同地区干旱特征和趋势变化差异很大。由于干旱监测站点少,设备昂贵,实现对较大范围干旱过程动态、精准监测难度非常大。为最大限度地减少旱灾造成的影响,开展干旱精细化监测研究对于有效抗旱减灾、保障农业生产具有重要意义。

土壤湿度表征土壤的干湿程度即土壤的实际含水量,是水资源循环与能量耗散模型中的重要变量。土壤湿度与大气环境中气温、蒸发量、降水量等变量状态变化紧密关联[2],对土壤湿度状态变化分析是有效开展干旱监测的重要手段[3-4]。土壤湿度测定可通过观测站定点观测[5]及卫星遥感数据获得[6],还可以通过陆面模式重构获取[7-8]。不同获取方式优缺点不同,定点观测的数据具有最好的精准度,但由于建站成本高,覆盖度有限,表达土壤湿度区域状态能力有限。卫星遥感数据产品具有良好的空间覆盖度,虽然探测土壤深度不超过10 cm,但它能够真实地表征较大空间范围土壤湿度状态对异常天气产生的干旱快速响应。

近年对土壤湿度观测的卫星SMMR、ASMR-E、SMOS、SWAP 等相继发射,为土壤湿度研究提供了良好的数据支撑。然而通过卫星获取的土壤湿度产品分辨率在10~40 km 之间,不能有效满足市县级干旱过程动态监测的精细化需求。通过陆面模式获取的土壤湿度具备较大空间覆盖度和较好的时空连续性,主流产品包括GLDAS、NLDAS、CLDAS 等,分辨率在7~27 km,对干旱精细化监测支撑仍然有限。

高空间分辨率土壤湿度产品不能直接获取,如何构建高分辨率土壤湿度产品吸引了众多专家学者兴趣。国内外文献通常基于粗糙分辨率土壤湿度产品,应用通用三角形、回归、机器学习等方法对其进行空间降尺度,从而构建高分辨率产品。结果表明,降尺度高分辨率产品能够满足大多数现实业务要求[9-12]。通过文献分析,随机森林算法在降尺度方面具备较多优势,预测精度高,学习过程快,运算速度快,稳定性好且不易产生过拟合,对噪声和异常值也有较好的容忍性。面向湖南地区干旱精细化监测业务需求,本文应用随机森林学习算法对粗糙分辨率土壤湿度产品进行降尺度,研制了高分土壤湿度产品,为干旱精细化监测提供了一种可行方案。

1 高分土壤湿度产品加工平台设计

根据气象业务实际情况,设计一个高分土壤湿度产品加工平台,平台以构建湖南地区时空连续高分辨率(1 km×1 km)土壤湿度日数据为目标,基于多源卫星遥感、实时地面观测、中国气象局模式等数据,应用随机森林机器学习算法对其历史数据集挖掘,建立土壤湿度因子与地温、降水、地表反照率、蒸散发、植被覆盖等多种影响因子的降尺度模型,研制高分土壤湿度产品。进一步将建模形成的高分辨率产品与地面自动站观测数据对比,评估产品在不同季节、不同空间区域、不同干旱程度情况下的偏差及准确率情况,基于评估结果迭代优化模型参数,增强产品的可靠性,提升本地化干旱监测的精准度。

平台主要功能模块如图1 所示,分为数据收集、数据预处理、随机森林降尺度建模和系统评估优化四部分。其中,数据收集、数据预处理模块主要负责平台各类资料的全面收集与质量控制;随机森林降尺度建模和系统评估优化负责平台产品模型的构建与深度加工。

图1 平台主要功能模块

2 平台数据收集与预处理

2.1 数据收集

产品构建需要的数据包括卫星遥感、模式产品及定点观测土壤湿度数据。卫星遥感数据包括遥感数据ESA CCI(V4.7)土壤湿度数据集和MODIS 多源数据集。ESA CCI 数据集来源于欧洲航天局,该数据集为主被动混合模式土壤湿度;MODIS 来源于美国宇航局,该数据集包括地温、反照率、植被指数等高分辨率(1 km×1 km)数据集。模式数据来源于中国气象局陆面数据同化系统CLDAS(V2.0),该数据集包括土壤湿度(7 km×7 km)、地温、降水产品等。上述卫星遥感数据、中国气象局模式产品数据均可通过互联网公开申请获取。实时土壤湿度观测数据来源于湖南省气象部门地面土壤水分观测站,站点具体分布图如图2 所示。

图2 湖南土壤水分观测站分布图

2.2 数据预处理

数据预处理是产品后期研发发挥效益的关键步骤。原始数据往往存在不完整、异常、时空间尺度不一致等情况,对数据预处理需尽可能保障其可靠性和完整性。

1) 实时地面观测数据预处理

按照资料行业标准和规范,通过要素极值分析、关联分析、时空一致性等方法对观测数据综合质控,排除观测数据存在的野值和错误数据,并对质控后一年有效观测值小于180 天的站点进行剔除。

2) 土壤湿度背景场预处理

土壤湿度背景场包括ESA CCI 遥感土壤湿度数据和中国CLDAS 模式产品土壤湿度数据。CLDAS 数据可靠性高度依赖陆面模式和驱动数据集的质量。CLDAS土壤湿度数据存在不确定性,采用统计方法对卫星遥感和模式产品土壤湿度数据进行融合,改善背景场数据可靠性。

3) 地温数据集预处理

时间连续空间完整地温数据是产品研发的关键要素。遥感获得的高分辨率地温数据集(1 km×1 km)受云层和卫星轨道间隙影响,造成数据不完整,需对来源不同的补充地温数据进行质控,统一时间尺度,基于相似要素点匹配、综合权重、相关系数关系,合理插补多云条件下MODIS 地温空缺区域数据,与晴空条件MODIS产品组合形成完整的数据集。

2.3 数据评估方法

应用统计学客观评价指标分析同一时段内观测值与站点的格点数据的误差和相关关系,评估产品在湖南地区的适用性。指标包括平均偏差(MD)和相关系数(COR),公式如下:

式中:N为观测站点数目;Gi为第i个观测站点实时观测值;Oi为产品双线性插值到第i个观测站点位置的格点数据。

3 产品构建与评估

3.1 基于机器学习产品模型的构建

1) 产品模型的构建

产品采用随机森林机器学习算法建立土壤湿度因子与地温、降水、反照率、蒸发、植被覆盖等影响因子的关联模型,公式如下:

式中:SSM0为训练阶段观测站点土壤湿度数据;fRF为关联站点观测数据与输入变量非线性函数;C为输入样本向量;A为反照率;N′为归一化植被指数;T为归一化地温;E为归一化蒸散发数据;P为降水量;S为土壤材质;C—SSM 为粗糙分辨率土壤湿度数据。

非线性关联特征较为复杂,相互作用关系为隐性知识。模型应用Python 中scikit-learn 机器学习包对预处理后的数据进行分析、挖掘、处理,得到相互作用的显性知识。应用随机森林算法从输入向量C中抽取随机样本,设置随机森林模型决策树特征数目、深度和拟合参数,建立多颗决策树,每颗决策树按比例随机抽取,通过对所有决策树回归来建立土壤湿度降尺度关联模型。

2) 模型稳定性与精准度迭代调优

随机森林算法模型在降尺度应用中具有不确定性,需要对不同影响因子进行重要性分析,调整优化随机森林决策特征向量参数与决策树深度、广度参数,并同时利用多重交叉验证方法提高随机森林算法模型的稳定性。随机森林预测结果基于多颗决策树投票结果得到,预测的结果准确性与数据科学抽样、特征向量选择、决策树生成数目、决策树深度及多决策树回归紧密关联。学习初始阶段默认以n(n为自变量个数)作为最大特征向量个数参考,通过网格搜索对模型重要参数循环调优,提高随机森林模型预测精准度。

3.2 平台产品后期订正优化

平台系统优化分为建模过程中优化和产品后期订正优化。建模过程中优化是应用多重交叉验证对随机森林决策树训练数据集和测试数据集轮流评估,针对模型影响因子贡献度分析,优化模型提高产品可靠性;产品后期订正优化是以地面土壤水分自动站定点观测数据为真值,将土壤湿度格点产品插值到站点,评估在不同季节、不同地区、不同干旱程度等情况下的偏差,基于相关系数、偏差等客观指标统计分析,找出大区域时空特征差异和变化趋势,有针对性地优化订正模型参数,提高产品在湖南地区的适应性。

3.3 平台流程自动处理与可视化展示

平台产品制作包括数据收集、数据建模、评估分析等步骤,采用自动化运维与管理技术定制数据采集任务、质量评估模板、可视化模板,实现产品制作的自动化管理。平台产品可视化需要统一的规范性,图标色标方案、地图范围、制图特征需要统一风格,平台产品可视化展示按图3 所示流程进行管理。

图3 平台产品可视化流程

可视化通用流程包括样式文件配置和工作流配置。产品因实际需求不同要对参数有相应的调整。平台通过离线模板编辑环境,对图标色标方案、地图范围、制图特征等进行可视化编辑。将确定后的参数提交给服务器同步更新,完成地图、图层样式文件的配置。平台通过工作流配置实现业务数据、图形预制环境参数实时自动加载、插值投影变换、图层叠加合成、本地化地图裁剪,定制适应湖南地区的干旱监测产品。

图4 为基于工作流模型生成的2022 年6 月22 日土壤湿度空间分布图。图形较好地模拟了湖南地区土壤湿度的日变化,较精细地展示了全省干旱空间分布情况,从北向南的层次结构和局部特征能较好地满足干旱动态业务监测的现实需求。

3.4 评估结果分析

以湖南地区2022 年质控后55 个地面土壤水分观测站点资料作为真值,将建模形成的高分土壤湿度产品插值到观测站点进行评估。产品值与观测值的相关性(站点数)关系图如图5 所示。

图5 产品值与观测值的相关性(站点数)

1) 相关性

根据图5 进行相关性统计分析得到:产品值与观测值相关系数达到0.9,从站点数目看,87.3%(合计48 站)相关系数高于0.85,仅7.3%(合计4 站)的站点相关系数低于0.8,表明产品值与观测值紧密相关,整体一致性高。

图6 所示为产品值与观测值相关系数的空间分布图。由图6 可知,各站相关系数空间分布比较均匀,湖南中部东部地区相关系数略高于西部地区。相关系数低于0.8 的4 站中有3 站在湖南北部区域,可能与该区域处于湖区到山区过渡带、地貌多样、土壤质地复杂等因素有关。

图6 产品值与观测值相关系数的空间分布

2) 偏差

产品值与观测值的偏差(站点数)分布图见图7。从站点数目看,偏差主要分布在-0.08~0.08 m3/m3以内,52.7%的站点偏差在-0.04~0.04 m3/m3,呈现负偏差的站点数目为58.2%,略多于呈现正偏差的站点。

图7 产品值与观测值的偏差(站点数)

图7 所示为进行相关性统计分析得到的产品值与观测值的偏差(站点数)关系图。由图7 可知,产品值与观测值平均偏差为-0.01 m3/m3。

图8 所示为0~10 cm 土壤湿度产品值与观测值偏差的空间分布。从图中可以看出,湖南北部地区产品负偏差对应站点偏多,南部地区正偏差偏多。负偏差高值在中部偏北区域,正偏差高值在湖南北部区域。

图8 产品值与观测值偏差的空间分布

图9 所示为产品值与观测值四季偏差情况。其中,秋季呈现正偏差,其他季节为负偏差;夏季、秋季偏差显著小于春季、冬季。表明产品在湖南地区旱情较为严重的夏季、秋季具有较高的准确性。

图9 产品值与观测值的偏差(季节)

4 结 论

本文以湖南地区干旱精细化监测业务需求为牵引,基于多源卫星遥感、实时地面观测、中国气象局模式等资料,应用随机森林学习算法,建立了土壤湿度因子与降水、地温、地表反照率、蒸发、植被覆盖等多种卫星遥感影响因子的降尺度模型,研制了高分辨率土壤湿度产品(1 km×1 km)。面向干旱精细监测高分土壤湿度产品的构建具有重要意义,主要包括以下两方面:

1) 湖南是农业大省,土壤湿度是农业干旱监测的重要指标,形成的产品能较好地模拟湖南地区土壤湿度日变化特征,也能精细动态地监测干旱空间分布和干旱过程的变化趋势,为开展干旱精密化监测提供了一种可行方案。

2) 智能化产品基于湖南气候特征、地形地貌、植被覆盖进行构建与优化。针对本地化专项建模,平均偏差为-0.01 m3/m3,相关系数为0.9,相对于其他产品有更好的本地适应性。湖南发生旱灾的季节绝大多数以夏旱、秋旱或夏秋连旱为主,在旱情较重的夏秋季产品具有更高的准确性,为湖南地区保障粮食生产安全、抗旱防灾减灾决策提供更为精细的基础支撑。同时产品也可作为观测资料补充应用于业务和科研,对于地广人稀且气象站点相对较少的地区气象服务潜力巨大。

注:本文通讯作者为罗丹。

猜你喜欢
土壤湿度站点偏差
如何走出文章立意偏差的误区
土壤湿度传感器在园林绿化灌溉上的应用初探
两矩形上的全偏差
基于51单片机控制花盆土壤湿度
基于Web站点的SQL注入分析与防范
2017~2018年冬季西北地区某站点流感流行特征分析
首届欧洲自行车共享站点协商会召开
怕被人认出
四川盆地土壤湿度时空分布及影响因子分析
中国不同气候区土壤湿度特征及其气候响应