机器学习在小微企业压力容器安全等级预测中的应用

2021-02-16 05:13赵明越张庆浩赵哲明廖晓玲吴琳琳
中国计量大学学报 2021年4期
关键词:染色机决策树状况

赵明越,张庆浩,赵哲明,廖晓玲,陈 涛,吴琳琳

(1.中国计量大学 质量与安全工程学院,浙江 杭州 310018;2.杭州市特种设备检测研究院,浙江 杭州 310003)

小微企业在我国经济发展中占有特殊的重要地位,印染、制鞋等行业在本地民营经济和工业发展的作用不容忽视。然而,由于小微企业资源有限,在技术、设备、人员上投入不高,安全配置相对不足[1],可能引发安全风险。

烘缸、染色机等压力容器是保障印染、造纸等行业小微企业安全运行的关键设备。目前我国依据《特种设备安全法》《固定式压力容器安全技术监察规程》等法律规范,由具备资质的检验机构和人员开展定期检验,并基于检验结果评定设备安全状况等级,1级2级每6年检验一次,3级每3至6年检验一次,4级需监控使用,5级应立即对缺陷进行处理。然而实际经验表明,当前1~3级设备可能由于介质、环境、管理等原因在下次检验(3~6年后)前就出现超标缺陷影响安全运行[2]。因此,有必要开展容器安全等级预测,引导企业重点加强高危设备使用管理,为检验机构和监管部门合理设置检验周期和检验侧重点提供参考。

容器制造、使用和检验中涉及的数据繁杂,从数据处理中提取有用的信息,是当前发展趋势。段海洋[3]结合K临近分类算法,构建了铸坯纵缺陷的检测和识别模型。彭建盛[4]基于机器学习对裂纹识别的研究现状进行了总结,详细介绍的多种机器学习方法,有支持向量机、K临近、神经网络、决策树和随机森林等常用的分类器。何金彪[5]综合了图像处理算法,能快速准确实现金属罐盖的缺陷检测,相比人工检测,大大提高了速度和准确率。杨磊磊[6]基于BP神经网络,预测压力容器不同层的温度,相比FLUENT建立的耦合模型,相对误差仅差0.34%并提高了预测效率。综上,此前研究多针对某种微观具体缺陷类型或参数,缺乏宏观上的安全评价。

因此,本文提出基于机器学习预测小微企业压力容器安全状况等级。在以杭州地区为例的容器安全状况分析基础上,通过岭回归分析找出影响安全状况等级特征值,结合KNN、决策树、梯度提升树三种算法构建安全状况等级预测模型,对比预测效果得出适用于小微企业压力容器的方法,有利于提高安全保障工作的针对性和实效性。

1 压力容器安全状况分析

聚类分析是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,采用聚类分析方法对小微企业典型的压力容器进行安全状况分析,主要对企业、设备基本状况、检验情况和失效情况等进行特征提取,对收集的数据分类,找出设备信息之间的相似性和差异性,实现基础数据的准确分类。

1.1 小微企业及压力容器分布情况

杭州地区的小微企业压力容器主要分布在印染、造纸、制鞋、建材等几个行业,其中印染企业148家,造纸企业182家,制鞋企业23家,建材企业36家,杭州各地区印染、造纸、制鞋、建材企业分布情况详见表1。

表1 杭州各地区印染、造纸、制鞋、建材企业分布情况表Table 1 Distribution of printing and dyeing, paper-making, shoe-making, and building materials enterprises in various regions in Hangzhou

经统计,杭州地区的烘筒5 221台,染色机4 243台,染缸880台,卷染机513台,染色筒397台,染布机274台,染纱机69台,印染机40台,染色槽20台,主要分布在印染行业,而杭州的印染行业主要集中在萧山区、钱塘新区和余杭区;烘缸7 850台,主要分布在造纸行业,主要位于富阳区;蒸压釜257台,主要分布在建材行业,位于富阳区、萧山区、余杭区和临安区;硫化罐388台,主要分布在制鞋、轮胎等橡胶品行业,位于富阳区、余杭区、钱塘新区和建德市。

1.2 压力容器安全状况分析

根据对杭州地区小微企业压力容器的种类、数量,对安全状况等级进行进一步的统计分析,见表2和图1。

表2 杭州地区小微企业压力容器安全状况等级汇总Table 2 Summary of the safety status of pressure vessels for small and micro enterprises in Hangzhou

根据表2及图1可以看出,总体看来,杭州地区压力容器安全状态是比较安全的,未来的3~6年内应按期检验,使用单位应当采取有效的监控措施。根据统计数据显示,安全状况等级被评为5级的设备中,染色机的数量远远多于其他各设备的数量,因此,本文以染色机为例做进一步分析。

图1 杭州地区小微企业压力容器安全状况等级占比Figure 1 Proportion of pressure vessel safety status of small and micro enterprises in Hangzhou area

2 典型设备染色机缺陷分析

2.1 染色机缺陷统计分析

进一步的分析和统计5级染色机的失效原因和发生部位,结果如表3。

表3 染色机安全状况等级评定为5级的原因和缺陷部位Table 3 Reasons and defects of the dyeing machine's safety status rating as grade 5

根据表3可以看出,染色机的安全状况等级评定为5级最主要是因为裂纹。统计发现,大部分染色机的使用时间超过10年,也有部分染色机使用3年后就出现裂纹。所以在染色机的使用超过3年时,使用单位应按时严格进行年度检查,使用时间超过10年的染色机,使用单位应当采取有效的监控措施,加强老旧设备的安全管理与巡检监测,并做好设备更新规划。检验机构在定期检验时也应对老旧设备和重点缺陷部位加强检验,合理安排和适当缩短检验周期。

S30408、S31608等奥氏体不锈钢由于其强度和抗腐蚀性方面的优势成为染色机常用材质,然而统计发现,部分S31608高温高压染色机使用3年之后即出现裂纹被评定为5级。分析原因是由于染液中的氯离子对316L不锈钢的应力腐蚀影响较大。建议设计制造单位未来在染色机的设计时可注意优化结构避免染液积聚,还可考虑增加防腐蚀内衬,比如铝、钛、非金属材料。促染剂厂商也可多开发无氯促染剂。

2.2 染色机失效模式分析

染色机主要存在有以下4类缺陷:裂纹(如图2)、自行补焊、安全附件失效(如图3)、制造超标缺陷。

图2 染色机应力腐蚀裂纹Figure 2 Dyeing machine stress corrosion cracking

图3 未定期校验且严重锈蚀的安全阀Figure 3 Safety valves that are not regularly calibrated and are severely corroded

染色机长时间运行,容易产生疲劳裂纹,多发生于运行10年左右的设备,多分布于内壁热影响区、焊缝处和筒封连接处。相当一部分裂纹的出现是由于染色机染液中的成分和应力作用产生的应力腐蚀裂纹。

自行补焊是由于企业在使用中已经发现了裂纹导致泄漏影响生产,但是安全意识不强且存在侥幸心理,没有委托制造单位或有资质的单位进行维修。

安全联锁装置失效主要是由于在长期的使用过程中,因为撞击等原因造成失效;联锁保护装置中定位销脱落或弯曲;联锁保护装置中报警装置损坏。

在用染色机被定级为1~3级后,检验周期长达3~6年。这些缺陷的产生不仅会在检验时导致染色机安全状况等级发生变化,还可能导致设备在到达检验期前就出现泄漏、停车,导致工厂停产,产生经济损失,更有甚者,部分使用单位不按期报检,潜在的准5级的设备极有可能出现事故,造成严重的后果。针对这些问题,本文提出一种基于机器学习压力容器安全状况等级的预测模型,找出影响安全状况等级的因素,提前预判和辨识高危设备。

3 安全状况等级预测方法

为量化不同因素对压力容器安全状况等级的影响,构建了可捕捉自变量影响程度的安全状况等级预测模型。从设备原始参数和定检动态结果两个角度,分析各个因素对安全等级影响程度,研究成果可以帮助小微企业和检验机构根据容器等级预测结果,重点关注容易出现失效的设备和部位。

3.1 岭回归分析

回归分析用于建立变量x与观测量y之间的映射关系,目的在于寻找最优假设函数来最好地拟合给定的x与y之间的关系[7]。

岭回归代价函数:

(1)

以上文中统计的压力容器为对象,选取设备原始参数(设计规范、设计压力、设计温度、容器内径、容器壁厚、长度/高度、容积、容器形状、支座材料、材料牌号)和动态定检结果(壳程筒体壁厚、最小壁厚、使用时间)共13特征值,对影响压力容器安全状况等级指标因素进行相关性分析和特征值筛选。

结果发现,岭回归分析得到的均方误差为0.140 3。根据均误方差显示的结果可以看出岭回归分析拟合效果符合要求,通过岭回归分析筛选出9个影响安全状况等级的特征值(如图4),分别为设计压力、设计温度、容器内径、容器壁厚、长度/高度、壳程筒体壁厚、最小壁厚、容积、使用时间。其中“使用时间”对安全状况等级的影响最大。

图4 影响染色机安全状况等级的特征值及占比Figure 4 The characteristic value and proportion that affect the safety status of the dyeing machine

根据图4所示,“使用时间”对安全状况等级的影响最大,根据对染色机裂纹分析发现疲劳裂纹与应力腐蚀裂纹相符合。

3.2 安全状况等级预测模型

基于岭回归分析得出的特征值,本文采用三种算法安全状况等级预测模型进行对比,分别为KNN、决策树、GBDT。为了保证实验环境的统一,均采用Python语言构建模型。对上文收集的数据进行预处理,经过剔除错误数据和重复数据,筛选得到了7 400条有效样本数据。随机选取80%的数据组成训练集,20%的数据组成测试组构建预测模型。

3.2.1 K近邻

K近邻算法(K-Nearest Neighbor,KNN)是一种常见的分类算法,也常用于数据的异常检测问题中[8]。KNN算法思想的核心是待分类样本的类别由距离该样本最近的K个邻居样本的类别决定,即根据少数服从多数的原则投票产生,K个邻居中拥有最多数量的分类设定为待测样本的分类[9]。

假设t为待分类样本,A为已标记类别样本集。KNN算法步骤:利用距离公式计算t同A中样本的距离;取t与A中所有样本距离最近的K个点,将K个点标记为B;确定B中每种分类样本的数量。假设有两点x=(x1,…,xn),y=(y1,…,yn),x与y之间的欧氏距离为式(2)。

(2)

选取特征值为设计压力、设计温度、容器内径、容器壁厚、长度/高度、壳程筒体壁厚、最小壁厚、容积、使用时间。目标值为安全状况等级。将数据处理,选用欧氏距离做为距离量度,利用网格搜索,根据预测效果自动选择最好的k值为3,训练集与测试集按照的比例进行数据抽样,进行多次预测。最后得出,KNN算法做安全状况等级预测模型的平均准确率为84.320%,但KNN算法有一个明显的缺点:无法求出估计参数。

3.2.2 决策树

决策树(decision tree)生成算法主要包括生成树以及修剪树两部分,初始算法运行时,将全部数据集中于所建立决策树的根节点中,通过递归方式分片数据;完成决策树生成后,需将异常数据以及噪音数据删除[10]。

采用决策树C4.5分类技术实现海量小微企业压力容器数据精准分类,决策树C4.5分类技术基于信息增益率选取分类属性,采用后剪枝方法处理数据提升数据分类精度。

如果目标属性拥有c个不同的值状态,那么集合S相对于c个状态分类的熵被定义为

(3)

式(3)中,pi为子集合中第i个属性值的样本数所占的比例。

假定按照能耗属性A划分S中的元组,且属性A将S划分成n个不同的类,则采用属性A来判断其中一个样本分类所需要的条件熵:

(4)

式(4)中,|Si|为集合S在属性A上值等于i的子集个数,|S|为集合S中样本的个数。

信息增益函数G为

G(S,A)=E(S)-EA(S)。

(5)

如果采用信息增益函数,则当信息增益选择属性时,偏向于选择取值大的属性。为了避免这个不足,通过引入信息增益率GR来选择属性:

(6)

(7)

式(7)中,SplitInformation(S,A)为分裂信息量。

将处理的数据进行多次训练,并用训练集进行剪枝,删除节点的分枝并用叶子节点进行替换,采用后剪枝方法处理过拟合问题。以训练好的模型对测试集进行预测,最后得出决策树算法做安全状况等级预测模型的平均准确率为92.184%。

3.2.3 梯度提升树

GBDT(gradient boosting decision tree)是一个基于决策树的集成学习框架,它首先通过不断在先前模型损失函数梯度下降的方向上构建新的模型,使得决策模型不断改进,然后将所有树的结论进行累加作为最终的预测输出[11]。

GBDT模型的算法核心是通过学习之前决策树的残差来拟合当前决策树,具体流程为:设置初始常数模型来最小化损失函数;迭代计算判断模型是否达到精度要求,若达到则停止计算;输出最终模型的估算结果。

在拉绍德封,(2012年被西铁城集团收购)La Joux-Perret继续改装畅销的ETA机心,比如2892和7750,以及Sellita SW300和SW500机心。这家公司自己并不开发入门级机心。

分类模型:

(8)

式(8)中,M为决策树的棵数,m为迭代次数,c为常数项,J为叶子结点的数目,I(x)为指示函数,Rmj为第m棵数第j个节点的叶子节点区域。

选取样本数据,特征值选取:设计压力、设计温度、容器内径、容积、容器壁厚、长度/高度、容器形状、支座形式、材料牌号、壳程筒体壁厚、最小壁厚、使用时间。利用网格搜索方法为GBDT模型初始化一个最优参数搭配,最大迭代次数取100次,树的最大深度为10,步长为1,其他参数使用默认值。将训练好的模型用于测试组上进行测试,得出的安全状况等级预测模型平均准确率为92.705%。

3.3 结果分析

分别采用三种模型对压力容器安全状况等级进行训练,训练集与测试集的比例为4∶1,得到准确率结果如表4。

表4 模型准确率Table 4 Model accuracy %

表4反映了三种模型准确率的高低分布,由表可知根据三种模型的准确率分布区间和平均准确率可以看出,决策树分析和GBDT预测准确率较高,而KNN相对较低。针对同一批相同数据进行多次分类时,决策树和GBDT表现出来较强的稳定性。

将安全状况等级1至3级作为高安全等级,将安全状况等级4~5级作为低安全等级,使用混淆矩阵对结果进行可视化,混淆矩阵的概念定义如下。

1) TP(真正):将压力容器安全状况等级低安全等级识别为低安全等级;

2) TN(真负):将压力容器安全状况等级高安全等级识别为高安全等级;

3) FP(假正):将压力容器安全状况等级高安全等级识别为低安全等级;

4) FN(假负):将压力容器安全状况等级低安全等级识别为高安全等级;

根据以上概念分别取三种模型的最佳混淆矩阵如表5。结合表5的混淆矩阵得出三种预测模型的精准率和召回率,如表6。

表5 混淆矩阵Table 5 Confusion matrix

表6 预测模型的精准率和召回率Table 6 Predictive model accuracy and recall rate %

分析结果表明,相较于普遍较好的准确率,由于数据本身4级和5级设备台数相对非常少,三种算法的精确率和召回率出现明显差异。而根据本文辨识高危设备的初衷和工程实际,低安全等级的设备被预测为高安全等级(FN)导致召回率低,会导致使用单位忽视高危设备,出现的缺陷不能被及时发现,存在安全风险,是不希望发生的情况;而高安全等级设备被预测为低安全等级设备(FP),降低了精确率,虽会增加管理成本,但有利于提高安全裕度,相对是可以接受的。因此虽精确率低但召回率高的决策树算法更适用于小微企业压力容器安全状况等级预测。

4 结 论

本文对杭州地区小微企业压力容器使用区域、安全状况等级、失效原因进行数据收集及预处理,进一步对安全状况等级为5级的失效模式、部位和数量占比情况进行统计,分析发现超标裂纹、自行补焊等是影响安全等级的典型缺陷。进而,利用岭回归分析选出影响安全状况等级的9种特征值,发现使用时间是影响最大的因素之一,与实际统计发现的超标裂纹最多相符合。随后分别建立了基于KNN、决策树、GBDT算法的容器安全状况等级预测模型。预测结果表明,决策树算法在较高的准确率基础上还具有较好的召回率和安全裕度,更适用于安全等级预测,有助于企业和检验机构辨识高危设备,加强日常安全管理,合理设置检维修周期和方案,保障小微企业的安全运行。

然而,本文研究仍存在一些问题,决策树算法应用于压力容器安全等级预测方面的精确率有限,一方面是由于低安全等级设备数量本身占比很低,另一方面可能与数据前期处理有关。今后可对前期数据进行深入研究,建立完善小微企业容器安全数据库,完善日常管理和检验结果数据,为未来更有针对性和实效性的预测提供数据基础。

猜你喜欢
染色机决策树状况
声敏感患者的焦虑抑郁状况调查
由于安装不合理而引起的换热器鼓包事故分析
全自动染色机在骨髓组织脱钙中的改造应用
2019年中国国际收支状况依然会保持稳健
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
第五节 2015年法学专业就业状况
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
立信染整两款染色机荣获2013香港工商业奖