基于随机森林算法的环焊缝质量不合格性分析预测*

2023-09-26 00:42:52杨新超吴张中戴联双李海润孟祥海
石油管材与仪器 2023年5期
关键词:决策树合格焊缝

刘 亮,李 娟,贺 建,杨新超,吴张中,戴联双,李海润,孟祥海

(1. 国家管网集团工程技术创新有限公司 天津 300450; 2. 南京大学计算机科学与技术系 江苏 南京 210033;3. 国家管网集团科学技术研究总院分公司 河北 廊坊 065000; 4. 国家管网集团生产部 北京 100097)

0 引 言

由于建设时期技术水平限制和现场焊接施工质量控制等问题,环焊缝一直是管道最薄弱的环节,加之容易受土体移动等附加载荷的影响,环焊缝开裂事故时有发生。近年来,随着管道行业的大发展,大量新建管道建设投产。虽然新建管道普遍采用高强钢焊接工艺,管道的制管和施工质量相比20世纪70年代的老管道有了很大提升,但部分管道存在冬季施工中未按照工艺要求进行管体预热和保温以及强力组对等问题,导致环焊缝焊接缺陷问题的凸显,影响管道安全运行。目前X80高强钢的使用,也对环焊缝的研究提出了更高的要求。

目前部分学者对管道环焊缝开展了研究,帅健等对高钢级管道环焊缝主要特征及安全性评价开展了研究[1]。隋永莉对高钢级环焊缝的焊接工艺进行了探讨[2]。沙胜义等在高钢级管道环焊缝安全评价方面开展了相关研究,对环焊缝的低强匹配、断裂韧性、冲击功分散性等问题进行了探讨[3]。陈一诺等主要基于内检测数据对管体的缺陷情况进行了研究[4]。杨锋平等对油气管道环焊缝失效案例进行了收集和分析,并通过全尺寸试验研究了影响环焊缝性能的主要因素[5]。其他学者利用随机森林等其他机器学习方法开展了数据分析研究,吴孝情等利用随机森林算法开发了滑坡危险性评价模型[6]。国外对环焊缝缺陷分析预测方面的内容较少,国内学者主要对管体的缺陷进行了分析,未基于大数据对环焊缝缺陷进行预测分析,所采集的数据也不够全面。基于此,本文收集分析了4万余道环焊缝质量排查过程中的管道基础数据、建设期施工数据、检测数据、开挖基本信息、适用性评价数据和修复数据,构建了环焊缝缺陷不合格性预测分析模型,为有效指导环焊缝排查工作,提升环焊缝开挖准确度和有效性提供技术支持。

1 随机森林算法简介

随机森林算法于2001年由Breiman提出,是以决策树为基础的一种更高级的算法,像决策树一样,随机森林既可以用于回归也可以用于分类。随机森林从本质上属于机器学习中的集成学习,即通过建立模型组合来解决单一预测的问题。

随机森林采用 Bootstrap 抽样技术从全部数据集中抽取N个训练集,每个训练集的大小约为数据集的 2/3; 然后依据抽取的数据为每个训练集建立决策树,生成由n棵决策树组成的森林。决策树生长过程中,从全部M个特征中随机选取m个特征 (m≤M),在m个特征中根据 Gini 系数最小原则选出最优属性进行节点分支;最后由n棵决策树根据预测结果采用投票的方式决定预测样本的类别。

为了灵活控制所输入文件的内容和格式,便于优化算法所需的参数,以及后续其他方法的接入,本文采用python语言进行模型的开发。

2 环焊缝缺陷影响因素分析

为了保证管道的安全,相关管道企业开展了油气管道环焊缝缺陷排查与治理工作,也有相关专家学者对环焊缝缺陷的影响因素及治理措施开展了研究[7-9]。环焊缝缺陷的影响因素众多,包括焊接施工因素,以及管体材料因素、管道特征因素等[10-14],通过采集相关因素的数据,采用聚类、分类等数据预处理方法进行处理[15-18],然后可以通过机器学习方法对因素进行综合分析,选出影响环焊缝质量的主要影响因素。

2.1 数据采集

为保证研究结果的准确性,需要对与环焊缝相关的数据进行广泛的采集,避免以偏概全。采集的数据主要包括管材数据、焊接数据、内检测数据、无损检测数据、开挖数据、地理环境数据、气象数据等。前期通过数据对齐,对环焊缝的基础数据进行了收集,在后续的开挖检测过程中,通过多种方式对其他数据进行了采集和补充。

2.2 数据预处理

由于数据阈值定义的不规范性、人为填报的多样性,会导致数据不完整,含有大量的噪声数据,因此需要对缺失值、异常值、逻辑错误值、非标准化值进行处理。

对采集的环焊缝相关数据进行分析,大部分为分类数据,在输入模型之前,需要对数据进行规范化处理。环焊缝相关数据专业化程度高、复杂性也高,而且分析结果对精度、可靠性要求高,因此需要掌握焊接、无损检测、材料、内检测、数据分析等多种专业知识,才能较好地完成数据预处理工作,在后续的数据分析中才能得到符合或超越人们以往已有知识的认知,才能创造价值。

针对施工日期数据进行拆分处理,施工日期一般为年月日,为了便于分析气温等因素对环焊缝缺陷的影响,将施工日期抽取为年份和月份,如2010-12-08可以分为2010年和12月份两类数据。

针对地形、壁厚等缺失值,由于相邻区域的地形地貌是相似的,采用最近邻方法进行补充;由于同一段钢管或相邻钢管壁厚基本是一致的,因此采用最近邻方法进行补充,如1 016 mm直径的管道,壁厚一般为17.5 mm。

对采集的环焊缝相关数据进行分析,大部分为分类数据,在输入机器学习模型之前,需要对数据进行处理。为了保证数据可适用于回归,分类,聚类等多种模型,因此对数据进行one-hot编码,通过编码将离散特征映射到欧式空间,便于进行特征之间距离的计算或相似度的计算。表1以焊接方式为例,进行one-hot编码。

〔设计意图:本次作文训练课的重点在于指导学生如何把一件事(或活动)的经过写具体,所以提供一篇这次小实验经过写得简单的作文,让学生去交流如何把经过写具体,教师因势利导归纳方法,做到“不愤不启,不悱不发”,接下来结合本次作文展开具体训练。〕

表1 焊接方式编码

经过对环焊缝开挖样本数据分析,发现开挖结果为不合格的焊口为少数,也即正样本数量较少,正负比例相差较大,分类不平衡。为保证模型的准确性,提高对少数样本的分类性能,本文采用过采样的方式对数据进行处理。

2.3 模型构建

本文依据环焊缝影响因素与数据特征,通过卡方检验方法,计算主要数据特征与结果的相关性,见表2。

由表2可知,施工月份所占权重较高,这是由于现场施工情况复杂,在以前的施工条件下,不能稳定地保持焊接的温度、湿度等指标,因此容易产生焊接缺陷。射线底片复评等级同样有较高的权重,射线检测质量符合要求则可以较为准确地反映环焊缝的缺陷情况,一般Ⅲ、Ⅳ级的底片,环焊缝不合格的情况较多。管节长度的影响主要是一般存在短节的地方组装应力较大,焊接效果不太理想,而且后续由于应力的持续作用,会使缺陷扩展。为保障模型的准确性,因此选用以上主要影响因素进行分析。

为构建环焊缝合格性预测模型,将样本数据随机分为两组:70%用于训练模型和30%用于验证模型精度。在构建模型中,选取主要的随机森林参数有:决策树的数目、树的最大深度以及节点变量数。为优化模型参数,通过网格搜索法设置一定的阈值与步长,遍历所有组合情况根据模型精度寻找最佳参数。最后得到的最优参数为:决策树的数目300、树的最大深度10、节点变量数2。模型构建过程如图1所示。

图1 模型构建过程

2.4 模型验证与比较

为保证模型的实用性,需要对模型的泛化能力进行判断,针对分类模型通常采用ROC-AUC作为评价指标。ROC曲线全称为受试者工作特征曲线(receiver operating characteristic curve),是根据一系列不同的二分类方式(分界值或决定阈值),以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制的曲线。AUC(Area Under Curve)被定义为ROC曲线下的面积。

因为本文主要研究环焊缝是否合格,为二分类问题,因此测试集中对模型进行内部验证,得到随机森林、决策树的AUC,如图2所示。随机森林的AUC值为0.99,模型泛化能力较好。

为了对模型的性能进行验证,开展了不同机器学习模型预测性能比较,将最近邻模型、支持向量机、决策树、朴素贝叶斯、随机森林模型在测试集中进行内部验证,结果见表3。

表3 不同模型比较

2.5 模型预测

本文选择某管道特定环焊缝缺陷开展了预测,选取的参数见表4。

表4 某环焊缝预测特征

前文建立的预测模型为二分类模型,当预测结果大于50%时认为环焊缝质量为不合格,当预测结果小于50%时认为环焊缝质量为合格。基于所建立的模型,以某条管道的某个环焊缝为例,采集该环焊缝相关的数据,录入模型所需参数,通过模型计算,预测结果为68%,因此认为该环焊缝质量为不合格,经现场实际开挖验证,该环焊缝射线检测为Ⅳ级,结果为不合格,与模型的预测结果一致,该环焊缝为质量不合格焊口,需进行修复。由模型分析结果及统计数据可知,其中施工月份、焊口类型、管道壁厚、施工单位、缺陷时钟方位会对环焊缝的不合格有较为显著的影响,后续进一步完善管道应力及开挖数据,通过数据治理可以进一步提高预测准确率。将模型与环焊缝相关信息平台集成,可以实现对单道或者多道环焊缝缺陷不合格性的预测。

3 结束语

本文通过对实际长输油气管道环焊缝开挖数据进行处理、分析,运用随机森林模型对环焊缝缺陷影响因素进行了重要性分析,并开展了预测研究,在实际的开挖工作中进行了相关验证。主要得出以下结论。

1)由于人为原因或认知不全面,会导致数据采集结果的多样性,需要结合专业知识进行数据预处理。因为影响环焊缝缺陷的因素众多,且有部分关键影响因素不易收集,模型可能存在一定的误差,需要持续优化。

2)通过对环焊缝影响因素进行建模分析,可以得出随机森林算法预测准确率较高,具有良好的适用性。针对特定环焊缝缺陷的预测及开挖验证,可以进一步验证模型,并为后续模型优化提供参考。

总之,大量的环焊缝开挖数据是一笔宝贵的数据资产,通过业务知识、经验与数学方法的结合可以分析出用于指导实际工作的规律。在后续的工作中,需要科研与业务人员进一步分析环焊缝的机理模型,进一步完善影响因素,同时各管道企业应提高数据自动化采集的水平,避免关键数据缺失,为相关研究奠定基础,为智慧管网的建设提供支撑。

猜你喜欢
决策树合格焊缝
基于焊缝余高对超声波探伤的影响分析
TP347制氢转油线焊缝裂纹返修
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
电子制作(2018年16期)2018-09-26 03:27:06
我是合格的小会计
机器人在轮辋焊缝打磨工艺中的应用
谁不合格?
消费者报道(2016年4期)2016-11-23 19:48:47
基于决策树的出租车乘客出行目的识别
做合格党员
大江南北(2016年8期)2016-02-27 08:22:46
光谱分析在检验焊缝缺陷中的应用