于子望,郑天琪,程钰翔
1.吉林大学建设工程学院,长春 130026
2.地下水资源与环境教育部重点实验室(吉林大学), 长春 130021
3.地热资源开发技术与装备教育部工程研究中心(吉林大学), 长春 130021
随着全球能源需求不断增长,能源匮乏已经成为全球性问题。城市化进程、化石燃料燃烧和温室气体排放加剧了环境问题的恶化。近年来,浅层地热能作为一种可再生能源引起了越来越多的关注,它可以替代一些化石燃料,在减轻城市热岛效应和缓解环境污染方面发挥作用。此外,浅层地热能还可以作为备用能源,提供解决能源安全问题的方案。因此,探查和利用浅层地热能已经变得至关重要[1-4]。
浅层地热能的概念最早由瑞士研究者Heinric Zolley于1912年提出。这种热能通常源于地球内部的热力学过程,如断裂活动、火山喷发和地壳内部的热传导[5]。浅层地热能在全球范围内广泛分布,并广泛用于地热发电和地热供暖。在冰岛、匈牙利、中国、意大利和美国等国家,浅层地热能被直接或间接用于气候控制,居民住宅供暖及温室大棚等空间供暖[6]。这种浅层地热能的利用方式为人们提供了可持续的能源选择,有助于减少对传统化石燃料的依赖,实现能源多样化,推动可持续发展。
原则上,浅层地热能是普遍存在的地热资源,但其开发和利用受到技术和经济因素的制约。地热钻孔由于成本较高,需要进行前期调查研究以降低项目成本[7-8]。详细的地质考察、野外调查、数据收集和审查对确定地热底层温度至关重要。同时,这些任务需要专用设备、仪器和方法,并需投入大量时间和经济成本。另外,地热底层温度的分析和模拟也是一项复杂的工作。
机器学习方法可以自动从数据中提取有用信息并建立预测模型,有效解决前期调研成本问题。通过使用机器学习算法,可以利用现有的地热数据来训练模型并预测和估计地热底层温度。这种方法可以显著减少调查成本,提高效率,并为决策者提供可靠的方案。因此,机器学习技术在浅层地热能的勘探和开发中具有巨大潜力,可为相关研究和项目提供更实用、更经济的选择[6,9]。
近年来,浅层地热能是机器学习广泛跨学科应用的众多领域之一。如:Kalogirou等[10]使用人工神经网络(artificial neural network,ANN)预测塞浦路斯50 m和100 m深处的地下温度;Assouline等[11]使用随机森林(random forest, RF)算法预测瑞士极浅层地下温度分布、地热导率和热扩散系数; Bourhis等[12]利用极限梯度提升(extreme gradient boosting,XGB)算法预测瑞士的地下温度和地热导率; Mudunuru等[13]使用非负矩阵/张量分解提出了一种无监督机器学习方法,用于预测新墨西哥州可能存在的地热资源;Shahdi等[14]通过3种机器学习方法进行探索性分析,研究美国东北部的地下温度和地热梯度Ishitsuka等[15-16]利用日本地热田数据,采用神经网络方法和贝叶斯估计成功预测了地下温度。这些研究表明,在浅层地热能方面,机器学习技术具有广泛的应用。机器学习方法有助于预测和研究浅层地热能以及其他相关参数,为地热资源的使用和开发提供可靠的辅助和指导。
基于元启发式方法的混合机器学习模型在多个领域得到了成功应用,其是通过在大数据集的相关任务上通过元启发式算法进行预训练的方式更新原学习器的参数,以达到提升原模型精度的目的[17]。粒子群优化(particle swarm optimization, PSO)是一种兼具有效性和灵活性的元启发式优化算法。就其应用来说:PSO-SVR(PSO support vector regression)已成功用于预测碳酸盐砾岩的力学性质,其通过优化支持向量回归(SVR)模型的参数,提高了模型的准确性和泛化能力[18];PSO-XGBoost、PSO-LightGBM和PSO-CatBoost模型已经成功预测了地震导致的液化引起侧向蔓延的发生[19];PSO-BP(back propagation)模型被用于预测隧道施工期间的地面沉降,通过优化BP神经网络模型的权重和偏置,提高了预测的准确性和模型的稳定性;PSO-XGB模型被用于预测坚硬岩石条件下的隧道掘进速度,通过优化XGB模型的超参数,提高了预测的准确性和模型的有效性[20]。
这些应用实例表明,将PSO等元启发式算法与机器学习模型相结合,可以提高它们的性能,并产生良好的预测结果。元启发式优化方法为机器学习模型提供了更好的参数调整和优化策略,提高了其准确性、稳健性和泛化能力。
本研究以中国吉林省长春市为例,考虑地形、地下水等地质条件以及地热储层温度,利用机器学习方法预测地下温度。基于元启发式的机器学习混合模型能够明显在精度和拟合情况上优于单一机器学习模型,故本文除传统的机器学习算法,包括K近邻(K-nearest neighbors,KNN)、支持向量回归、随机森林和极限梯度提升外,还使用了基于粒子群优化的极限梯度提升混合模型(PSO-XGB)。
本文研究区域位于中国吉林省长春市,介于 125°06′E--125°30′E, 43°42′N--44°03′N之间。研究区地形以低山丘陵地貌为主,属于温带季风气候区。主要构造类型为活动断层。共采集了54个地热钻孔的数据样本。
地热系统的形成机制和成因模式非常复杂,与地形、气候和地质等多种因素密切相关。这些条件对地下结构温度等参数起着至关重要的作用,具有不可替代性。本文通过查阅文献,选择出一系列训练特征,包括经纬度坐标、区内地质结构、年降平均雨量、年平均气温、高程,及与断裂距离,地下温度是需要预测的目标变量。
首先,通过去除异常值和处理缺失值对数据进行预处理。然后采用克里金插值法将数据集扩大到149组以满足机器学习算法需要的大量数据。最后,使用皮尔逊相关系数检验训练样本之间的相关性,创建热力图(图1)。
图1 样本相关性热力图
图1分析结果表明,经度坐标与断裂距离之间存在较强的相关性(-0.95),而年平均气温与年平均降雨量之间存在中等程度的相关性(-0.18)。因此,本研究选择经度坐标、年平均降雨量、年平均气温和与断裂距离作为训练特征来建立数据集。为保证在不同方法下使用相同的样本顺序进行模型训练和测试,数据集被随机分成训练集(70%)和测试集(30%)。
本研究采用5种机器学习模型来预测地下温度,分别为:KNN、SVR、RF、XGB和PSO-XGB。
KNN是一种基于距离测量的算法。具体来说,先根据一定的度量标准,在训练集中找出c个最近的样本,然后利用这些最近样本的信息进行预测。在本研究中,K为超参数,使用的距离计算方法是欧氏方程[21]。
(1)
式中:Ei,j为距离;h为空间维度;xic与xjc为数据点坐标。
SVR是一种基于支持向量机的回归算法。它使用核函数将数据映射到一个高维空间,旨在找到一个最佳超平面,尽可能地将样本点分开。与分类问题不同,SVR 的目标是获得一个回归模型,使训练样本尽可能靠近超平面,以预测新的数据点[20,22]。分隔样本点的超平面的表达式为
f(x)=wφ(x)+b。
(2)
式中:w为权重;b为偏差;φ(x)为将变量x映射到更高维度空间的核函数。通过引入拉格朗日乘法器和 Karush-Kuhn-Tucker条件来优化回归函数,可以用下面的公式来描述:
(3)
RF是一种基于集合学习的算法,它使用多棵决策树进行预测,并对预测结果求平均值,从而得出最终预测结果。其使用一种称为引导的技术,从原始训练数据集中随机选择几个不同的训练子集。对于每个训练子集,节点被随机划分为预定数量的特征。每个训练子集都会生成一棵具有所选特征的决策树。在随机森林中,每棵决策树独立预测输入样本,最终预测结果由每棵决策树结果的平均值得出[23]。
XGB是一种高效且广泛使用的监督机器学习方法。它是一种基于树算法的集合算法,类似于GBDT(gradient boosting decision tree)[24-25]。XGB将梯度提升树与正则化技术相结合,因此性能和准确性都非常出色。它通过迭代建立多个弱学习器,并通过集合方法进行预测。在每次迭代中,XGB会根据上一轮的预测计算样本残差,并将这些残差作为新的目标来训练新的弱学习器。每一次迭代,新的弱学习器都旨在纠正前一个学习器的不准确性,从而逐步提高整体性能。对于回归问题,最终预测结果由所有弱学习器的结果汇总得出。决策树通常被用作弱学习器[26-28]。预测的数学表达式如下:
(4)
(5)
(6)
(7)
式中:u为迭代次数;q为粒子数;d为搜索方向;m为粒子总数;D为空间维度数;w为权重;c1和c2为学习因子;r1和r2为在[0,1]范围内均匀分布的随机数[30]。
在这个过程中,每个粒子都会与其他粒子一起工作,以提高其适应周围环境的能力,并在复杂的空间中寻找最佳的复杂解。PSO-XGB 是 XGB 训练阶段粒子群优化的超参数。平均平方误差被用作衡量性能的适应度函数。由于 XGB 的结构,所选参数也会随着每次迭代变得更适合预测模型,从而导致每次迭代的均方误差减小[28,31]。PSO-XGB 的基本流程见图2。
图2 PSO-XGB基本原理流程图
模型创建过程中的重要步骤包括模型验证和评估。在创建模型后,必须对模型的性能质量进行审查,并确定所选模型是否能为预期目的提供正确的结果。本研究中的预测模型使用训练集进行训练,生成的模型使用测试集进行验证。
本研究使用均方根误差(ERMS)、平均绝对误差(EMA)、决定系数(R2)和均方误差(EMS)作为评估指标来解释预测值与实际值之间的关系,以评估模型的可靠性。EMS表示测量值与真实值之间的平均平方差。ERMS是EMS的平方根,它调整了误差的大小,能更直观地衡量模型的预测误差。R2的值表示模型可以解释的目标变量变化的百分比。EMA表示预测值与真实值之间的平均绝对差值[32-34]。
(8)
(9)
(10)
(11)
在本研究中,本文采用了 KNN、SVR、RF、XGB 和 PSO-XGB 等5种机器学习模型,利用经纬度坐标、年平均降雨量、年平均气温和与断裂距离等特征来预测地下100 m深处的温度。
在参数设置方面,KNN 采用了欧氏距离算法,超参数K值设为 4。SVR 通过导入 SVM 模型来实现,其核函数RBF(radial basis function)多项式poly函数维度为3,惩罚系数C=1。RF使用 n_estimators=50 和 max_depth=7 作为超参数。XGB 的超参数设置为max_depth=6、n_estimators=200和 learning_rate=0.3。在 PSO-XGB 中,粒子数设为 20,最大迭代次数设为 200,使用的回归函数为 reg:linear。PSO 被用于优化 XGB 中的3个参数,即 learning_rate、n_estimators 和max_depth。
本研究考虑了这些机器学习模型及其各自的参数设置,以准确预测地下100 m深处的温度。通过训练数据集对模型进行训练,得到了具有不同预测能力的模型。这些模型在训练过程中表现良好,因为训练数据点的分布接近最佳拟合线(图3)。评估指标中EMS、ERMS和EMA越小,R2越大,模型的效果越好[34-36]。
a. KNN;b. SVR;c. RF;d. XGB;e. PSO-XGB。
通过模型在不同指标上的表现按顺序对模型进行评分。表1提供了这5个模型的性能评分和排名系统。通过图3和表1综合来看,RF模型表现最佳,其ERMS值为 0.059 4,EMA值为 0.038 2,R2值为 0.983 3,EMS值为 0.003 5(图3c)。其次是 PSO-XGB 模型,其ERMS值为0.065 5,EMA值为0.047 0,R2值为 0.973 4,EMS值为 0.004 3(图3e)。再次是 KNN 模型,其ERMS值为 0.099 9,EMA值为 0.060 5,R2值为 0.972 5,EMS值为 0.011 0(图3a)。然后是XGB 模型,ERMS值为 0.077 9,EMA值为 0.047 3,R2值为 0.955 6,EMS值为 0.006 1(图3d)。SVR 模型的表现最差,ERMS值为 0.108 2,EMA值为 0.071 7,R2值为 0.944 4,EMS值为 0.011 7(图3b)。所有这些机器学习模型的R2值都高于 0.940 0,表明训练效果良好。
表1 不同模型性能评分比较
模型训练完成后,使用测试数据集进行验证评估。通过图4观察测试数据集中预测值与实际值之间的相关性和误差,可以看出测试样本的分布在一定程度上接近完全拟合线。根据表1看出预测性能的排名,5个模型从高到低排列为: PSO-XGB、KNN、SVR、XGB 和 RF。通过比较 XGB 和 PSO-XGB 的性能,可以得出结论:PSO-XGB在预测浅层地下温度方面具有更大的优势,可获得更好的预测性能。
a. KNN;b. SVR;c. RF;d. XGB;e. PSO-XGB。
整理每个模型的性能信息,并制作相应的图表,以便进一步比较和研究这些模型的预测性能。图5用更易于理解的堆叠图显示了总体排名结果。图6叠加训练和测试结果,直观地表现了5个模型4个评估指标的综合评分。综合结果表明,每个模型在训练和测试过程中的表现各不相同。5个模型预测性能由高到低的排名为:PSO-XGB、RF、KNN、XGB、SVR。与其他模型相比,PSO-XGB 混合模型具有更好的学习和预测能力。
图5 模型评价指标折线图
图6 模型综合排名直观显示柱状图
1)综合分析结果表明,与其他传统机器学习模型相比,PSO-XGB 在预测浅层地下温度方面表现出更好的能力,并能有效地帮助 XGB 进行超参数调整。5个模型预测性能由高到低的排名为: PSO-XGB、RF、KNN、XGB、SVR。
2)基于元启发式算法对于预测类似问题性能明显高于单一机器学习模型。后续研究可对利用同一模型不同场地进行实验验证模型的泛化性,也可以选择多种不同元启发式算法如灰狼算法等对类似问题进行分析比较,找寻精度最高的地热潜力预测方法。值得注意的是,由于模型参数是根据主观选择的特征进行调整的,因此本研究提出的模型建议在类似条件下使用。此外,本文提出的模型可作为挖掘前估算地热井潜力的参考工具。