骆正山,秦越,张新生,毕傲睿
(西安建筑科技大学 管理学院,西安 710055)
在役海底油气管线通常处于复杂恶劣的海洋环境中,管段经常会遭受严重腐蚀,从而造成管段结构破坏与经济损失[1]。对于陆上管道,可通过各种检测方法了解管道的腐蚀状况,但对海洋环境中管道的检测相对困难,利用机器学习算法预测管道腐蚀速率是一种较为理想的方法[2-3]。因此,研究海底管道的腐蚀机理和规律,建立准确、有效的预测模型具有十分重要的现实意义。
目前,国内学者对海底油气管道的腐蚀行为进行了大量研究。骆正山等[4]建立了海底油气管道腐蚀速率预测的Frechet 分布模型,该模型只预测了油气管道的腐蚀深度和管道寿命,未表明预测误差。同时,骆正山等[5]建立了基于误差补偿的GM-RBF 海底输油管道腐蚀速率的预测模型,该研究将GM 模型用于预测腐蚀速率,但模型预测误差较大。王庆锋[6]等基于GM(1,1)模型建立了无偏灰色GM(1,1)模型,构建的无偏灰色马尔可夫链组合模型可对管线腐蚀剩余寿命进行预测。但传统单维灰色模型分析法以时间序列为轴线,未能表明其他环境因素的相互联系及其对响应变量的具体影响。邓志安等[7]建立了GRA-FNN模型,对海洋管线腐蚀速率进行了预测,但灰色关联分析中的各指标均需人为确定,主观性强。李响等[8]构建了遗传算法SVM 模型,对海洋环境腐蚀速率进行了预测,解决了BP 神经网络等智能算法需要大量训练样本的问题,但SVM 参数选取较为复杂,收敛速度不够快。以上的研究均存在诸如影响因素考虑欠全面、算法迭代速度较慢和预测精度不够高等问题。
鉴于此,本文提出了一种将套索回归(LASSO)、鲸鱼优化算法(WOA)和最小二乘支持向量机(LSSVM)有机结合的海底管道腐蚀预测新方法。采用LASSO 回归,约简样本指标,提取主要变量,并使用WOA 对LSSVM 的核函数宽度和惩罚因子两个参数进行了优化,建立了LASSO-WOA-LSSVM 的海底管道腐蚀速率预测模型,以海洋挂片实验数据为例进行实证研究,通过指标和对比,对模型性能进行验证和分析。
影响海底管道腐蚀速率的因素众多,其主要影响因素为以下五项:海水温度[9]、溶解氧含量[10]、盐度[11]、pH 值[12]和氧化还原电位[13]。
在建立腐蚀回归模型时,若将某些对因变量影响较小的影响因子选入模型,会降低模型的预测精确度[14]。故在腐蚀失效预测前,应先对海洋管线的各腐蚀因素进行分析,筛选出关键因素。
LASSO(Least Absolute Shrinkage and Selection Operator)即最小绝对值压缩选择算法[15-17],是Tishirani 提出的一种非负干扰激励的变量选择方法。该方法通过构造惩罚函数来压缩变量系数,使压缩后某些绝对值较小的系数直接变为零,这些变量将被删除,从而同时达到降维与参数选择的目的。
假设给定数据集(X,Y),X是自变量向量,Xi(i=1,2, …,n),Y是因变量向量,Yi(i=1, 2, …,n),系数向量为β(β1,β2, …,βm)。令β=(β1,β2, …,βm)T,则LASSO 的估计量为:
式中,Xi是第i组自变量,Yi是对应于Xi的因变量的值,Xi经标准化后得到Xij,βj是回归系数,n为组数,t为非负调整参数。λ是正则化参数,λ越小,惩罚项的力度越小,模型保留变量越多;λ越大,惩罚项的力度越大,模型保留变量越少。
最小二乘支持向量机(LSSVM)[18-19]是一种基于传统 SVM 算法的改进算法,在对偶空间中,LSSVM 通过用等式代替不等式约束,并将线性最小二乘准则应用于损失函数优化,实现了凸二次规划问题向线性方程组问题的求解转变,提高了收敛速度[20]。LSSVM 的实现过程如下:
(1)给定训练集D={(xi,yi)|i=1, 2, …,n},xi∈Rn是第i个输入样本,yi∈{-1,+1}是输出变量组。
(2)在高维空间中构造回归函数:ω为可调权向量,φ(x)是非线性核映射函数,b为偏差参数。
(3)根据结构风险最小准则,最优ω和b可经下述函数最小化得到:
其中,C是平衡训练误差与模型适应度的正则化参数,ξi是随机误差。
(4)为解决LSSVM 的优化问题,构造如下拉格朗日函数:
此处的αi是Lagrange 乘子。根据KKT(Karush-Kuhn-Tucker)条件,分别求解L(ω,b,ξ,α)对ω、b、ξ、α的偏微分,可得:
(5)消除ω和ξi,并以矩阵形式表达:
(6)最后,在求解优化问题后,得到函数估计的线性模型:
鲸鱼优化算法(WOA)是澳大利亚学者Seyedali Mirjalili 于2016 年提出的一种新的元启发式算法[21-24]。在发现猎物后,座头鲸先潜入猎物的底部,然后沿着圆圈形路径形成独特的气泡,如图1 所示。与此同时,座头鲸从上游到达海面,通过气泡将猎物围在较小的范围内吞食。WOA 的工作分为以下三个部分:收缩包围、气泡网狩猎和搜索猎物。
图1 座头鲸螺旋气泡攻击捕猎行为示意Fig.1 Spiral bubble attack hunting behavior of humpback whales
在收缩包围阶段,座头鲸首先会对猎物进行环绕式包围,该过程可用以下方程描述:
式中,t为迭代的次数,X*(t)为当前鲸鱼的最优位置向量,X(t)为当前鲸鱼的位置向量,X(t+1)代表迭代后下一次的目标位置向量,A、C为系数向量,定义如式(12)、(13)。
式中,r是区间[0,1]内的随机向量,a值由2 线性减小至0。
其次是开发阶段,该过程实现了收缩包围机制和螺旋更新位置机制,其数学模型如下:(1)收缩包围机制,在该过程中,A是在[a,–a]之间的某随机数,其值随迭代过程由2 减小至0。(2)螺旋更新位置机制,在该机制中,座头鲸以螺旋状运动方式接近猎物,该过程的模拟方程如式(14)所示。
式中,D′=|X*(t)–X(t)|,代表鲸鱼与当前最优位置间的距离,常数b表征螺旋线的形状,l是一个在[–1,1]中的随机数。
座头鲸在进行捕猎时,按照50%的概率实施以上两种捕食策略,其过程如下式所示:
其中,p代表[0,1]之间的随机变量,a值会随着鲸鱼靠近猎物而减小。若|A|<1,鲸鱼将进攻猎物;若|A|>1,鲸鱼将会放弃猎物并重新进行搜寻。
最后是探索阶段。设定随机值|A|≥1,该阶段的数学模型如下:
其中,Xrand是所在种群中的随机代理位置向量。
在LSSVM 模型中,模型预测性能受惩罚因子C和核函数宽度σ两个参数的影响较大,故本文采用WOA 对参数进行优化,以提高模型的回归性能。具体过程描述如下。
首先对样本集进行归一化,并设定初始参数,即对运行过程中4 个参数的初值进行设置,分别是鲸鱼种群规模、最大迭代次数Tmax、鲸鱼种群位置的上限与下限。其次,对种群位置进行初始化,定义适应度函数,即将预测值与实际值的均方差作为适应度函数,并对个体适应度进行计算,选择出当前最优适应度个体,设置该个体的位置为当前最优。若t 图2 腐蚀预测流程Fig.2 Flow chart of corrosion prediction 为了验证WOA-LSSVM 模型的预测效果,本文选择以下三项指标对模型性能进行分析,即均方根误差(Root Mean Square Error, RMSE)、平均绝对百分误差(Mean Absolute Percentage Error, MAPE)和决定系数(Coefficient of Determination,R2)。计算公式如下: 其中,n是样本总量,iy为测试样本的预测值,yi为真实值。决定系数R2介于0 到1 之间,且越接近1,模型拟合度越高,性能越优良。 表1 提供了在不同海水环境参数下50 组海洋挂片腐蚀速率的数据[25],以电流密度(1 μA/cm2)为单位来表征腐蚀速率,钢材腐蚀情况见图3。 图3 钢材腐蚀形貌图Fig.3 Corrosion morphology of steel 表1 海洋挂片腐蚀数据Tab.1 Test data of marine corrosion 首先通过交叉验证法确定LASSO 回归模型的惩罚力度,由图4 可知,经交叉验证得到的正则化参数λ为0.297 15。图5 为在λ为不同取值下各变量惩罚函数值的变化情况及筛选结果。由图5 可知,当λ为0.297 15 时,有两个变量的惩罚函数值收敛为0,故将这两个变量剔除,筛选后,得到海洋管线腐蚀速率的影响变量为温度、溶解氧含量和pH 值。 图4 交叉验证过程Fig.4 Cross validation process 图5 LASSO 拟合的系数轨迹Fig.5 Coefficient trajectories fitted by LASSO 将经筛选后的数据分为两组,选取其中42 组作为WOA-LSSVM 的训练集,其余8 组为检测集,模型在训练中的迭代进化过程如图6 所示。经迭代寻优后的最优参数Cbest=619.2068,σ2best=14.8045,并将两参数代入到LSSVM 中进行预测。 图6 WOA-LSSVM 迭代过程Fig.6 Iteration process of WOA-LSSVM 图7 预测结果对比图Fig.7 Comparison of prediction results 为检验WOA-LSSVM 模型的预测精度,选用FOA-LSSVM 和LSSVM 两个模型与之进行对比,结果如图7 所示,相对误差对比结果见图8 和表2。由图7 可以看出,相较于LSSVM 和FOA-LSSVM 两个模型,WOA-LSSVM 的预测值与真实值的差距较小,拟合效果更佳。结合图8 和表2 的分析可知,除第7、8 两组数据外,WOA-LSSVM 的预测相对误差均小于其余两个模型。且就相对误差的平均值来看,LSSVM、FOA-LSSVM、WOA-LSSVM 的平均相对误差分别为8.01%、6.28%、2.23%,WOA-LSSVM 的平均相对误差值明显低于另外两者,亦可证明该模型的预测精度最高。 为进一步评价模型的预测性能,采用前文所述的三个统计学指标对模型进行评价,其分析结果见表3。从均方根误差(RMSE)这个指标来看,WOA-LSSVM分别比FOA-LSSVM 和LSSVM 减少了0.6107 和0.8939;从平均绝对百分误差(MAPE)这个指标来看,WOA-LSSVM 又分别比两者降低了 4.06%和5.79%。而 WOA-LSSVM 的决定系数R2达到了0.9708,远高于两个对照模型,说明模型的拟合度较高,预测效果更好。 图8 相对误差对比图Fig.8 Comparison of relative errors 表2 预测相对误差结果分析Tab.2 Analysis of relative error results 表3 模型预测性能指标对比Tab.3 Comparison of model performance indicators 由于海洋环境复杂多变,影响管道腐蚀速率的因素较多,且某些指标难以测量和定量化,故在实际研究中无法将海洋挂片数据的所有影响指标纳入分析。未来可根据综合指标的管线腐蚀数据进行分析预测,进一步提高海洋管线外腐蚀速率预测的精确性和科学性。 1)采用LASSO 回归算法,确定海底管道腐蚀速率的主要影响指标,降低了LSSVM 输入变量的维度。作为传统支持向量机的改良,使用最小二乘支持向量机避免了二次规划问题的求解,提高了收敛速度,节约了运算成本。 2)使用WOA 对LSSVM 的惩罚因子C和核函数宽度σ2两个参数进行优化,将预测的平均相对误差降低至2.23%,提高了迭代速度和预测精度,证明了模型具有较高的可靠性和良好的预测性能,也为深海油气集输系统平台等结构的安全风险预警与防范提供了较为可靠的数据和理论支持。2.3 模型验证指标
3 实例应用
3.1 数据准备
3.2 LASSO 变量选择
3.3 结果分析与模型对比
4 结论