基于粒子群优化和随机森林的最优含水率与最大干密度的预测模型

2021-06-07 06:15:40
华南地质 2021年1期
关键词:含水率压实土体

王 健

(四川高速公路建设开发集团有限公司,成都610041)

土体压实是用人力或机械力迫使土颗粒互相压密挤紧,增大土体密实度的过程。通过土体压实,可将部分空气从土体中排出,增大土体的密实度、抗剪强度,减少土体的压缩性,提高其抗渗性并增加土工建筑物的均匀性[1-2]。因此,了解和预测不同类型土体的压实参数对于土工结构的建造和维护至关重要[3],本文重点研究土体压实中的最优含水率与最大干密度参数。

传统上,土体压实中的最佳含水量和最大干密度是通过实验室测试和分析方法来确定的[4-5]。但土体压实试验需通过多次人工测量,费时费力。为了更有效地确定土体压实参数,研究者提出了几种基于机器学习的模型。Ahangar-Asr等[6]提出了进化多项式回归的方法,预测了55个土体样品在标准压实条件下的压实参数。Ardakani和Kordnaeij[7]使用GMDH神经网络的方法建立了一个更复杂的模型来预测212个样品的压实参数。

在已有的研究中,科研人员所测试的土体类型较少,且在预测模型中考虑到的影响压实参数的特征变量不够全面。因此,本文采用基于粒子群优化的随机森林模型[8]对最优含水率wopt和最大干密度ρdmax进行了预测。首先,利用灰色关联度算法计算最优含水率wopt和最大干密度ρdmax与特征变量之间的相关性,进行特征选择,得到四组不同的随机森林预测模型。然后,利用粒子群优化算法确定随机森林模型的最优超参数,并得到模型的适应值。最后,对模型进行10折交叉验证训练,并在测试集上测试模型结果。结果表明,基于所有特征的预测模型优于基于正相关特征的预测模型,且最大干密度的预测效果略优于最优含水率的预测效果。

1 研究方法

1.1 随机森林

随机森林是一种由树结构分类器的集合组成的集成算法[9]。该算法可用于分类与回归问题,因此可以针对土体压实中的最优含水率与最大干密度进行回归预测。随机森林算法的特点是使用装袋算法和随机特征选择。在原始训练集N中,经过可重复的再抽取法(Bootstrap)可以得到新的训练集Nk。然后,基于每个新训练集Nk构建决策树作为一个子预测器。对于原始训练集N中的每个x,y,仅汇总不包含x,y的训练集Nk的子预测器的票数。因此,这些子预测器称为袋外(OOB)预测器,不包含Nk的数据集称为袋外(OOB)数据集,其约占原始训练数据集的三分之一。OOB数据集主要用于评估在新抽取训练集Nk上得到的子预测器性能。该算法中的超参数是树的个数和每个节点上的随机特征(表1)。此外,随着树的个数增加,随机森林算法并不存在过拟合现象。该算法具有较强的抗噪声能力,并能根据基尼系数的值评估输入变量的重要性。图1展示了构建随机森林的过程。

(1)从原始训练集中抽取n个自举训练集,并在每个自举训练集中随机选取特征。其中,每个自举训练集约占原始训练集的三分之二。

(2)根据每个自举训练集生成决策树,并用OOB数据集来评估决策树的性能。最终在训练集中选择最优特征。将所有决策树的集合称为一个随机森林。

(3)将所有决策树的平均结果作为新数据集的预测值,即回归平均值。

随机森林的最终输出如下:

其中,yi(x)为每个决策树对输入x的预测结果;n为决策树的个数。

表1 随机森林超参数Table 1 The parameters of random forest

1.2 粒子群优化

粒子群优化(PSO)是一种迭代改善候选方案(在此称为粒子)的优化算法[10]。 每个粒子都具有位置矢量、速度矢量和适应值,其中k是当前迭代次数,i表示第i个粒子。在搜索空间中,基于局部最优位置和速度,这些粒子向全局最优位置移动。另外,适应值越低,粒子位置越接近全局最优。当适应值达到最小值并保持恒定时,可以确定全局最优位置,即随机森林的最优超参数。因此,在本文中,对最优含水率与最大干密度的预测得到的结果中,适应值越低,结果越好。更新每个粒子的速度和位置如下:

其中,c1和c2为加速系数;ω为惯性权重,通常将其设置为1;r1和r2为[0,1]间的随机数;Pi为第i个粒子的当前最优位置;Pg为所有粒子中的全局最优位置。在本文中,c1和c2均取粒子群优化的经典值1.49。的上限和下限分别为1和-1。此外,粒子群优化需要设置ω,c1和c2三个参数。这些值主要影响算法的收敛速度,如果迭代次数较多,则也会略微影响最终的优化结果。因此,在保证能够找到最优解的范围内,设置最大迭代次数为100。

1.3 评价指标

本文使用均方根误差(RMSE),平均绝对误差(MAE)和平均绝对百分比误差(MAPE)这三个常用指标来评估随机森林算法的性能。RMSE和MAE可以直接反映预测误差,但它们需要与输入数据的规模相关。对于输出值较小的模型,较低的RMSE和MAE值不能保证模型的出色性能。同时,对于输出值较大的模型,较大的RMSE和MAE值也不能代表模型性能较差。RMSE具有与数据相同的标度,但其对异常值的敏感性高于MAE。而MAPE是与标度无关的指标,因此不受数据规模的影响。但是,当数据值接近零时,MAPE值是无穷大或不确定的。Hyndman和Koehler[11]给出了有关这些指标的全面比较。由于RMSE,MAE和MAPE的组合可以有效评估模型性能,因此本文采用这三个指标。

其中,r为测量的输出值;p为预测的输出值;n为数据集总数。这三个指标的值较低表示模型性能较好。

1.4 K折交叉验证

机器学习模型的建立分为三个阶段:模型训练,模型验证和模型测试。为了提高机器学习模型的鲁棒性并避免过拟合,K折叠交叉验证(交叉验证)方法已被广泛用于验证模型[12]。在该方法中,原始训练集被随机分为k个子数据集。其中,k-1个子数据集用于训练模型,而剩余的数据集用于对其进行验证。因此,每个样本都能被用于训练和测试模型。通常采用k为10的交叉验证。

在每次迭代中,随机选择9个子数据集对具有固定超参数的随机森林模型进行10次训练,剩余子数据集用于模型验证。通过10个验证集的平均预测误差(粒子群优化的适应函数)来评估该模型。

其中,MAEi为第i个验证集的预测误差。

此外,使用10折交叉验证还可以减少由数据集尺寸造成的对模型性能的影响。

1.5 灰色关联度

灰色关联度算法(GRG)已被广泛用于评估变量之间的不确定关联[13]。该方法考虑两个时间序列变量的几何相似性。 给定一个参考序列xr=xr(xr(1),xr(2),...,xr(n))和一个比较序列xi=xi(xi(1),xi(2),...,xi(n)),将第j个(j=1,2,…,n)准则下两个序列之间的灰色关联系数定义为

其中,δ为[0,1]间的分辨系数,一般取0.5。序列xr和xi之间的灰色关联度:

当灰色关联度值较大时,表明序列xr和xi之间存在较强的相关性。

2 预测模型

2.1 模型框架

本文采用的预测模型分为三个阶段:数据预处理,模型训练和模型测试(图2)。在数据预处理阶段中,确定并收集最优含水率wopt和最大干密度ρdmax的主要影响因素,建立输入和输出参数的数据库,并从中随机选择80%的数据作为训练数据集,其余作测试数据集。

2.2 数据源

为了建立高精度的土体压实参数预测模型,从文献中收集了178个土体压实试验数据[14-20]。数据中,列出了包括含砾量(CG),砂含量(CS),细粉含量(CF),液限(LL),塑限(PL),压实能量(E),最优含水率(wopt)和最大干密度(ρdmax)在内的土体特性。其中,砾石,沙土和细粒土的区别在于粒径尺寸范围分别为75 mm至4.75 mm,4.75 mm至0.075 mm和小于0.075 mm[21]。根据ASTM(2017)[21]的土体分类,数据中的土体主要包括低塑性黏土(CL),可塑性黏土(CH),粘质砂土(SC)。

2.3 数据集

图2 模型框架Fig.2 Frame of the model

根据Wang和Yin[22],本文选取的特征为含砾量(CG),砂含量(CS),细粉含量(CF),液限(LL),塑限(PL),压实能量(E),和土体类型(Type)。并用这些特征分别对最优含水率(wopt)和最大干密度(ρdmax)进行预测。因此,可以将上一节得到的数据源分为两个数据集分别预测最优含水率(wopt)和最大干密度(ρdmax)。此外,特征的选择对于模型的性能至关重要。因此,可以使用灰色关联度方法计算选定参数与最优含水率(wopt)和最大干密度(ρdmax)的相关性,并由此进行特征选择(图3)。

由图3可得,最优含水率仅与细粉含量(CF),液限(LL),塑限(PL)呈正相关,与其余特征均为负相关;而最大干密度仅与含砾量(CG),砂含量(CS),土体类别Type呈正相关,与其余特征为负相关。因此,本文选择与最优含水率(wopt)和最大干密度(ρdmax)正相关的特征进行模型训练,并将其结果与不进行特征选择的模型进行比较。最终,可以得到四组训练模型,其中两组基于与预测变量正相关的特征,另外两组基于所有特征,来分别对最优含水率(wopt)和最大干密度(ρdmax)进行预测。

3 模型结果

3.1 粒子群优化超参数

图3 灰色关联度计算结果Fig.3 The calculation results of grey relational analysis

采用粒子群优化算法调整随机森林模型中的两个超参数。本文计算了4个预测模型中迭代次数100以内的适应值。验证集的适应值有所差异,4个预测模型的最终收敛值也并不相同。基于三个正相关特征的最大干密度预测模型的最终适应值为0.1051;基于三个正相关特征的最优含水率预测模型的最终适应值为2.2542;基于所有特征的最大干密度预测模型的最终适应值为0.0628;基于所有特征的最优含水率预测模型的最终适应值为1.8150。对于最大干密度和最优含水率的预测,基于所有特征的预测模型适应值均更低。

这表明随着输入变量数量的增加,最优含水率和最大干密度的预测模型的性能越来越稳定。总体而言,基于三个正相关特征的预测模型的适应值更大,模型性能相对较差。

3.2 测试集的wopt与ρdmax预测

根据确定的超参数,可以建立4个随机森林模型。利用这4个模型对训练和测试集分别进行最优含水率(wopt)和最大干密度(ρdmax)的预测,结果如图4所示。图4(a)展示了基于所有特征的随机森林模型的预测结果。除几个点外,其训练集的预测结果与实际测量结果完全一致。此外,在测试集上的预测效果较为理想,其预测值集中在P=M线附近,即预测值与实际测量值较为接近。图4(b)展示了基于三个与最大干密度正相关特征的模型预测结果。与图4(a)相比,该模型在训练集上的预测结果有明显的误差,与P=M线相差较远。而在测试集上的预测效果同样较差,其预测值较为分散,预测值与实际测量值误差较大。图4(c)展示了基于所有特征的最优含水率的预测结果。在训练集上的预测结果密集地排布在P=M线两侧。此外,在测试集上的预测结果虽然不如在训练集上的预测结果精确,但也较为集中地排列在P=M线附近。图4(d)展示了基于三个与最优含水率正相关的特征的模型预测结果。与图4(c)相比,无论是在训练集上还是在测试集上,其预测结果均更分散,预测结果较差。

4种随机森林模型中计算得到的评价指标统计如表2所示。评价指标值与图4中所示的模型性能基本一致,指标值越低,预测的最优含水率(wopt)和最大干密度(ρdmax)分布越接近P=M线。由表2可知,除了最优含水率(wopt)训练集上的RMSE指标外,对于其他指标,基于所有特征的预测模型均低于基于正相关特征的预测模型,与图4得到的结果相一致。此外,对最大干密度的预测模型,其所有评价指标均低于最优含水率的预测模型。

4 结论

本文使用粒子群优化的随机森林模型对最优含水率(wopt)和最大干密度(ρdmax)进行了预测。得到结果如下:

(1)由灰色关联度算法可得,最优含水率仅与细粉含量(CF),液限(LL),塑限(PL)呈正相关,相关系数分别为0.56,0.39,和0.67,与其余特征均为负相关;而最大干密度仅与含砾量(CG),砂含量(CS),土体类别(Type)呈正相关,相关系数分别为0.34,0.48,0.06,与其余特征为负相关。

图4 最优含水率与最大干密度预测模型Fig.4 The prediction models of optimal water content and maximum dry density

表2 4种随机森林模型的评价指标值统计Table 2 The evaluation indexes of 4 random forest models

(2)基于粒子群参数优化的随机森林算法得到的最优含水率与最大干密度预测结果较为准确。其中,基于所有特征的预测模型适应值均高于仅基于正相关特征的预测模型,随着输入变量数量的增加,最优含水率和最大干密度的预测模型的性能越来越稳定。

(3)在测试集上,基于所有特征的预测模型的评价指标RMSE、MAE、MAPE均低于基于三个正相关特征的预测模型,因此模型预测效果更好。此外,最大干密度的预测模型评价指标值低于最优含水率的预测模型,表明最大干密度的预测效果更好。

猜你喜欢
含水率压实土体
昆明森林可燃物燃烧机理研究
顶管工程土体沉降计算的分析与探讨
河北水利(2022年4期)2022-05-17 05:42:44
抓落实要“放权赋能”——要压实责任,不要“层层加码”
当代陕西(2020年15期)2021-01-07 09:23:22
基于表面能的湿煤颗粒含水率表征方法
振动压实法在水稳配合比设计中的应用
一场直面问题、压实担子的大考
人大建设(2019年11期)2019-05-21 02:54:54
压实作用和胶结作用对鄂尔多斯长8储层的影响
弱膨胀土增湿变形量试验及路堤填筑分析
基于土体吸应力的强度折减法
原油含水率在线测量技术研究
电子制作(2016年1期)2016-11-07 08:42:56