摘 要:海洋平台压力容器在运行中承受较大的工作载荷,服役环境复杂,常出现裂纹、腐蚀等失效问题,常用超声波测厚无损检测技术对设备服役状况进行定期检测。本文采用机器学习算法构建设备壁厚预测模型,基于历史检测数据实现海上压力容器减薄情况的预测功能。经样本数据的特征工程处理,以容器壁厚作为模型预测目标,设计温度、工作压力、容器类型等基础数据作为输入,对模型进行训练及测试。结合模型预测性能的评估及调参处理,获取预测评价指标较优的XGBoost模型。该模型能够为设备状态的评估及风险策略提供指导作用,对海洋平台的安全生产具有重要意义。
关键词:压力容器;壁厚预测;XGBoost模型
中图分类号:TE 951 文献标志码:A
海上压力容器是海洋石油平台的重要设备,分为存储类、换热类、分离类和反应类。由于海洋环境的特殊性及运行条件的复杂性,海上平台压力容器的损伤及失效风险增加。为提高其稳定运行能力,需要定期进行超声波测厚等无损检测技术指导维修或更换,确保设备稳定运行[1]。随着计算机及通信技术进步,特种设备检验检测行业迎来转型升级的关键期。人工智能在机器学习、知识图谱、人机交互等技术上不断突破,具有广阔的研究及应用前景[2]。本文基于压力容器设备检测的历史数据,结合XGBoost、LightGBM、Random Forest等机器学习算法构建预测模型,实现容器壁厚或减薄率的精准预测,提升设备运维的智能化水平。研究结果对机器学习预测算法的应用及不同类型容器壁厚的准确评估具有指导意义。
1 数据处理及准备
1.1 数据来源及数据文件解析
本研究主要基于同一年份不同类型的压力容器设备年度检验数据,通过数据清洗及处理,引进数据统计和分析技术,并结合机器学习智能算法,完成容器设备壁厚的预测工作。其中,对Excel格式数据文件进行解析,获取用于训练的数据,运用Python的工具Pandas读入Excel格式文件,将处理后的数据保存为csv格式并进行数据引入。
1.2 数据预处理及数据特征工程
基于压力容器的基础数据信息进行预处理,避免因数据未处理而导致数据信息紊乱、缺失、数据的逻辑不符等影响数据分析的问题,主要包括数据清洗、数据归一化等。采用正则表达式并制定判定规则,对数据进行清洗及特征构建,保证数据信息的一致性,提高建模的收敛速率和精度。对需要使用的特征进行筛选,利用频率统计筛选包括信息量过少、数据缺失量较大特征及取值单一的特征,当样本空值特征占比大于30%时,去除该样本数据。
针对模型训练和测试开展的数据特征工程主要包括以下3个方面的内容。1)直接特征。“工作温度”,采用正则方式对温度的数值进行提取及标准处理。针对含管程与壳程的换热类设备进行组合及划分,提取温度的个数,针对“常温”等具有含义的内容,将其转换为数据;“工作压力”,与工作温度特征提取流程一致,对“量纲”进行处理,例如统一压力单位量级;“腐蚀余量”,分析其数据模式并取数字中最小值作为特征;“设计寿命”,运用3sigma原理进行过滤;“公称容积”、“内径”,直接提取各值;“制造日期”、“投产日期”,统一为年月格式,“投产月数”为“投产日期”减去“制造日期”,经Excel对日期进行特征处理及提取。2)类别型特征。筛选可进行onehot的特征,例如壳体材质、容器类型、油田群、系统名称,对取值进行规范化处理,即对描述同一内容而使用了不同表达的特征值进行处理,并对数量过少的类型用“其他”代替。3)检测数据处理。针对“厚度”进行数据处理,设置代码通过厚度计算的方式获得“减薄量”,即名义厚度减去实测厚度。
2 预测模型的建立
2.1 基于机器学习算法构建预测模型
结合机器学习算法模型的应用及要求,其运行机制主要基于检验数据的格式和数据结构,对预测模型进行设计、训练和测试等,以达到设备壁厚预测的目标。综合考虑数据类型、模型效果和运行效率,选择机器学习中的XGBoost、LightGBM、Random Forest集成模型[3-5]。其中,LightGBM主要基于决策树学习算法,其分支为测试的输出,叶节点为各个类别,按叶子(leaf-wise)生长的策略,即按照最大分裂增益为叶子节点进行分裂计算,每个样本通过变量进行树结构的映射;XGBoost采用极端层次增强方法,基于梯度增强决策树,以优化目标函数值为主的改进算法,每棵树(函数)逐次添加,树与树之间串行,可在同一级结点并联,分离结点的增益以多线程方式并行;Random Forest为集成学习算法,参数以强学习器最大迭代次数、随机发生器种子数、最大特征数等为主,经抽样集成多颗决策树优化模型,基于多个决策树模型的融合,提高其拟合能力。
在选择对应的集成模型架构后,针对同一数据集样本进行划分,随机选取上述结构化及处理后的数据中的80%作为训练集,20%作为测试集。以容器测厚作为模型预测目标,其他基础特征作为模型输入,模型提取特征后分别进行训练和测试,结合模型预测精度的评估结果进行优化,达到精度要求后保存最优模型,以此实现容器设备壁厚的机器学习回归预测模型的构建。
2.2 模型预测性能评估
本研究主要采用评估模型的预测性能方法,包括均方误差mse、平均绝对误差mae、平均相对误差mre、决策系数r2、皮尔逊相关系数pearson。对结果进行处理后,采用适用于分类任务的评价指标,包括准确率accuracy、精准率precision、召回率recall、精准率与召回率的调和均值f1、正例排在负例前的概率auc等评估模型整体的预测趋势,以全方位评估模型效果。经过对3种模型的训练及结果验证,计算各个模型的均方根误差损失,在运行效率满足的条件下,选择损失得分较小的模型进行应用。
对各设备测量部位不同测厚电位的减薄量进行汇总统计,以减薄量的均值作为预测特征值。通过分类指标对预测模型进行评估,不同预测模型的评价结果值见表1。经比对,综合分析XGBoost模型的均方误差、平均绝对误差评价指标值相对较小,r2较接近1,表明XGBoost模型的预测性能较优,选用XGBoost模型进行进一步调参优化。
2.3 XGBoost模型优化
为提高模型的准确性,对该机器学习模型进行调优,并降低过拟合,使模型预测性能最大化。对learning_rate(学习率)、max_depth(数的最大深度)、min_child_weights(最小叶子节点样本权重)、num_leaves(决策树叶子数量)等进行调整,提高准确率,其他参数为默认值。经模型调参后,XGBoost模型的mse最小值为0.7491,此时的模型预测性能达到最优,即对应的最优参数如下:max_depth=9,min_child_weight=1,n_estimators=200,colsample_bytree=0.7,learning_rate=0.07。
对优选的模型参数进行K折交叉验证,以进一步对模型参数进行调优,主要将数据集分割为K个子集,经K-1折作为训练数据,对模型进行训练后,对数据的剩余1折做验证,使各样本均有一次机会进行验证。如图1所示,表现了10折交叉验证结果,相关评价指标的查准率(Precision)为70%~80%,查全率(Recall)为50%~60%,F1-Score为70%~75%。整体来说,相关指标较高并且较稳定,验证XGBoost模型能够用于容器类设备减薄情况的预测。
2.4 结果与分析
2.4.1 容器厚度及预测差异的影响分析
不同类型容器的厚度差异较大,部分厚度较大的容器其误差相对较大,图2展示了不同厚度组别所对应统计的减薄量均值情况。由图2可知,厚度越大的分组所出现增厚的可能性越大(减薄量为负值表示增厚)。查看减薄量差异较大的样本数据部分,减薄量预测值或真实值过大均会造成误差偏大的情况。
同时,对厚度差异过大的样本中存在不合理的数值进行筛选,并删除平均测量厚度小于1的样本数据,处理后经10折交叉验证,并对比前后结果,如图3中XGBoost(去除异常)显示,mse明显降低。
此外,当容器厚度大于43时,减薄量数值变化明显,通过去除厚度过大的容器,保留99分位数(43)以内的厚度样本,并对数据集进行预测,结果显示mse指标略有提升。为了避免出现预测值过大的可能,删除真实减薄值过大的样本,以降低偏差,经筛选发现数据中仅有1条数据减薄量大于5并达10以上,将其删除后,预测结果mse有所提升(如图3所示)。
2.4.2 厚度分段建模及效果分析
由于随着容器厚度增加,减薄量方差变大,考虑厚度较大的容器样本可能会对较小厚度样本的预测产生负面影响,因此选用容器厚度为43以内的数据样本进行容器厚度分段建模,即通过选择50分位数(12),对厚度小于12和大于等于12的样本分别建模。分析得知,厚度小于12时,建模进行预测后的mse指标值约为0.336,当厚度大于12时,预测指标mse变大,约为0.685。由此表明,厚度大的样本对厚度小的样本的预测可能产生干扰。
2.4.3 特征优化
由于厚度分组后对模型的预测结果影响较大,因此在特征中增加“设计厚度”。将增加“设计厚度”特征后预测模型的评价指标值(mse2)与原结果(mse1)进行对比,见表2。
经对比以上结果可知,一方面,增加设计厚度特征后各组中的mse结果大多数呈下降的趋势,表明模型预测效果有所提升。另一方面,各项措施趋势基本与原有试验结果一致,验证预测效果提升并非随机。因此,增加“设计厚度”特征后,对比分析评价指标,其预测性能获得了相对全面的提升。
2.4.4 结果分析
经比对,使用该XGBoost模型对容器设备减薄的预测值与真实值进行误差分析(如图4所示),根据预测误差的分布情况得知,该XGBoost模型预测的误差符合正态分布,获得的模型可用于相关场景的预测并有较好的效果。
3 结语
本文基于海上压力容器超声测厚检测检验数据集,选取设备对象的基础数据及检测数据特征进行数据处理,使用XGBoost机器学习算法建立容器类设备壁厚预测模型,运用评价指标对模型预测性能进行分析评估,并对模型进行优化调参。结果表明,本文测得XGBoost算法比另外2种机器学习模型的预测性能更高,模型经调参优化后,准确率及查准率均有提升。通过分析容器本身的厚度以及预测减薄量的差异等情况对模型预测效果产生偏差的影响,分别对容器厚度进行分段模型预测,厚度小的模型的预测效果比厚度大的模型好,并且采用对厚度预测特征的数据处理及设计厚度特征的增加的方式,方差减小,预测效果全面提升。该模型用于容器类设备壁厚的预测误差符合正态分布,具有较好的应用效果。本文模型后续将尝试积累更多不同类型容器数据,并对介质进行分类及采集,扩展应用范围,对XGBoost模型进行进一步更新训练,并尝试引入神经网络算法对容器类设备壁厚进行预测及优化。
参考文献
[1]纪玉磊.探究海上压力容器腐蚀检测技术[J].中国石油和化工标准与质量,2023,43(1):57-59.
[2]李奇,牟善军,姜巍巍,等.海上石油平台定量风险评估[J].中国海洋平台,2007,22(6):38.
[3]周志华.机器学习[M].北京:清华大学出版社,2016.
[4]BREIMAN L.Randomforests[J].Machine learning,2001,45(1):5-32.
[5]CHEN T,HE T,BENESTY M,etal.Xgboost:extreme"gradient boosting[J].R package version 0.4-2,2015,1(4):1-4.