K-TrAdaBoost迁移学习的压裂泵故障诊断方法研究

2021-11-12 02:10张俊玲段礼祥王志喜王文权
中国测试 2021年10期
关键词:测试数据故障诊断准确率

张俊玲,段礼祥,王志喜,王文权

(1. 中国石油大学(北京)机械与储运工程学院,北京 102249; 2. 中国石油大学(北京)安全与海洋工程学院,北京 102249;3. 川庆钻探工程有限公司井下作业公司,四川 成都 610000; 4. 川庆钻探工程有限公司安全环保质量监督检测研究院,四川 广汉 618300)

0 引 言

压裂泵是提高油气井采收率的主要设备之一,通过对油层进行压裂作业以达到增产的目的[1]。压裂车工作环境复杂、多变,振动信号激励源众多,导致故障诊断困难。传统压裂车故障诊断技术主要是通过耳听、手摸、测量缸体的振动值大小等方法[2],诊断准确率不高,一般只能采取事后维修的方式,无法实现故障预测。

随着人工智能的兴起,压裂车故障诊断方法也得到了一定程度的发展。张俊玲等[3]提出了一种基于局部均值分解样本熵与支持向量机相结合的压裂车故障诊断方法,实现了压裂车液力端的故障诊断。为解决压裂车动力系统振动信号故障难以辨识的问题,杜小磊等[4]采用提升多小波包(LMWP)、小波自编码器(WAE)和长短时记忆网络(LSTM)结合的压裂车故障诊断方法,提高了故障诊断的准确率。传统故障诊断方法假设训练数据与测试数据是独立同分布的,且训练模型需要大量的数据[5],而压裂泵的实际信号通常不能满足该条件。为解决这一问题,W.Dai等[6]提出了一种基于实例的迁移学习算法(TrAdaBoost),该方法主要针对训练数据和测试数据来自不同数据源的情况,利用大量的辅助训练数据,帮助少量的目标训练数据构建一个更可靠的诊断模型[7]。但TrAdaBoost应用过程中存在两个问题:模型训练时间较长、只适用于二分类问题。

针对上述问题,本文提出一种基于K-TrAdaBoost迁移学习的压裂泵故障诊断方法。通过引进KNN,得到辅助训练数据集的初始权重,并在模型内部引入多分类器,实现多种类型故障诊断。将KNN与TrAdaBoost相结合,可有效降低TrAdaBoost模型的训练时间,提高压裂泵故障诊断准确率。

1 K-TrAdaBoost算法

1.1 TrAdaBoost算法

1.2 KNN算法

为了解决故障诊断中数据非独立同分布和TrAdaBoost算法中因迭代次数多导致模型训练时间过长等问题,引进了邻近算法(KNN),并引入决策树多分类器作为内部分类算法[13],实现故障诊断多分类。

KNN通过测量特征值间距离进行分类,对于某样本,若大多数特征属于某一类别,则该样本也属于该类别。KNN算法的结果主要取决于某样本与其相邻样本个数K的选择[14]。数据距离采用欧氏距离计算,将距离的倒数作为辅助训练数据的初始权重。利用倒数作为权重方便快捷,但当样本距离过大时,会出现由近至远时衰减过快的现象[15],为了避免该现象的发生,采用高斯函数进行加权,优化惩罚因子,对初始权重进行平缓过渡处理。

KNN算法步骤如下:1)将已知的目标训练数据加上类别标签作为KNN的训练数据,将辅助训练数据作为KNN的测试数据;2)通过欧氏距离公式,计算周围范围内K个训练数据与测试数据间的距离;3)距离的倒数作为辅助训练数据的初始权值,为避免衰减过快,引入高斯函数,优化距离的惩罚因子,得到公式[15]:

D——待测样本到近邻点间的距离;

A——常数,可以避免距离较小时权重值过大,设为0.5。

1.3 K-TrAdaBoost算法

K-TrAdaBoost算法的原理:先将辅助训练数据作为测试数据,将目标训练数据作为训练数据,输入到KNN模型中,计算距离,引入高斯函数改进惩罚因子,得到辅助训练数据与目标训练数据间的相似性,并将其作为TrAdaBoost模型的初始权重;然后将得到的初始权重输入到TrAdaBoost模型中进行模型训练;最后将目标测试数据输入到训练好的故障诊断模型中得到故障诊断结果。

2 基于K-Tradaboost迁移学习的压裂泵故障诊断方法研究

基于K-Tradaboost的压裂泵故障诊断方法主要是利用KNN计算辅助训练数据与目标训练数据的相似性,得到调整后的初始权重,再输入到TrAdaBoost模型中进行模型训练,最后将测试数据输入到训练好的故障诊断模型中,得到所需的故障诊断结果。基于K-Tradaboost迁移学习的压裂泵故障诊断方法具体步骤如下:

1)将采集到的某个工况下的实际数据作为辅助样本,另一个工况下的实际数据作为目标样本。

2)设辅助样本数据作为KNN模型的测试数据,目标样本数据作为KNN模型的训练数据,得到调整后的初始权重。

4)计算训练数据的分类错误率 εt,并判断 εt是否大于 0.5,如果大于 0.5,设 εt=0.5,通过公式(3)调整参数 βt的大小,如果小于0.5,直接将 εt值代入公式(3)计算 βt的大小,得到 βt值后,通过公式(4)计算得到新的权重。

5)重复步骤3)、4),重复N次,通过迭代可以得到一个训练好的故障诊断模型hN,将该模型作为测试数值Z个分类器中的一个分类器。

6)将步骤5)重复Z次,就可以得到Z个分类器hN j,j=1,2,···,Z。

7)将测试数据集输入到Z个分类器中,可以得到Z个故障诊断结果。

3 实验验证

3.1 实验背景

本实验数据来自中国石油集团川庆钻探工程公司某作业区的2000型压裂车五缸柱塞泵,对其进行振动信号采集。2000型压裂车所使用的SQP2500泵是一种往复、容积式、单作用、卧式五缸柱塞泵,其结构如图1所示,实验数据测点布置图如图2所示。

图1 2000型柱塞泵

图2 测点分布图

实验采样频率为10 kHz,高于各测点应变基频的20倍以上,保证采样数据的真实性和完整性。采集数据共分为3种状态,正常情况(无压力、1600 r/min)、少弹簧故障(无压力、1600 r/min)及高压高速(50 MPa、1840 r/min)情况,分别对 2 号缸和3号缸进行数据采集,2号缸按3号方向采集的振动信号用于辅助数据,3号缸按7号方向采集的振动信号用于测试数据。

将训练数据和测试数据中的每一类数据的各2048点作为训练数据和测试数据。本实验设计如下:1)训练数据:2号缸测取的数据样本6144个(3种状态各2048 个),3 号缸测取的数据样本 1536 个(3 种状态各512个);2)测试数据:3号缸测取的数据未标记的样本1536个(3种状态各512个)。为了方便,将正常工作状态记为A1、少弹簧故障工作状态记为 A2、高速高压(50 MPa、1840 r/min)工作状态记为A3。

图3为2号缸3种状态下的时域和频域图。图中左侧为时域图、右侧为频域图,分析图3,时域中A2和A3状态相比于A1状态有些许变化,频域图中3种状态有微小差别,无法判断故障类型,故提出基于K-Tradaboost迁移学习的压裂泵故障诊断方法,判断故障类型,提高诊断准确率。

图3 2号缸3种状态下的时域、频域图

3.2 邻近点个数

将辅助训练数据与目标训练数据输入到KNN中,得到初始权重。在KNN模型中,K(邻近个数)参数对该模型影响较大[16],在诊断前,需对K取值大小进行讨论。

将2号缸的数据用于计算,将得到的权重求平均值,作为初始权重。通过讨论不同K值,得到了不同结果,将实验结果准确率和实验时间进行对比,得到图4。

图4 不同 K 值对应准确率和运行时间

从图中可以看出,随着K值的不断增大,准确率不断提高,运行时间也随之增长。当K=20时,准确率达到90%以上,准确率较高,运行时间约12 s,运行时间较短,因此选取K值为20。

3.3 实验验证

图5 不同 N 值下 TrAdaBoost与 K-TrAdaBoost准确率对比图

通过图5可以看到,K-TrAdaBoost在N=4时就已经达到了最大准确率,而TrAdaBoost在N=14时才能够达到最大准确率,且K-TrAdaBoost最大准确率高于TrAdaBoost的最大准确率。本实验对N=4时的K-TrAdaBoost与N=14时的TrAdaBoost故障诊断准确率和训练时间进行对比,得到表1。

表1 TrAdaBoost与K-TrAdaBoost对比表

从表中可以看出,在N=4的情况下,提出的算法训练时间更短、故障诊断准确率更高,证明了该算法的有效性。

4 结束语

针对压裂泵难以获取足够多带标签数据的问题,提出了基于K-TrAdaBoost迁移学习的压裂泵故障诊断方法,并进行了实验验证,得到以下结论:

1)传统故障诊断方法是建立在独立同分布的基础上,而TrAdaBoost迁移学习可以将大量不同、有关联的数据迁移到目标数据集中,再进行故障诊断。

2)KNN模型中,K值对其准确率的影响较高,实验证明随着K值的增大,KNN分类的准确率增大,但是模型的运行时间也随之增长,实验发现在K=20时,模型的准确率较高、训练时间较少。

3)TrAdaBoost训练总迭代次数N对模型的训练有一定影响,N值越大、训练时间越长,通过引入KNN,得到初始权重,减少迭代次数,降低模型的训练时间,并引入多分类器,使得模型适应多分类问题。

4)实验结果表明K-TrAdaBoost迁移学习能够有效地弥补TrAdaBoost的不足之处,提高了压裂泵故障诊断准确率,证明了所提方法的可行性与有效性。

猜你喜欢
测试数据故障诊断准确率
基于包络解调原理的低转速滚动轴承故障诊断
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
测试数据管理系统设计与实现
高速公路车牌识别标识站准确率验证法
数控机床电气系统的故障诊断与维修
基于自适应粒子群优化算法的测试数据扩增方法
空间co-location挖掘模式在学生体能测试数据中的应用
因果图定性分析法及其在故障诊断中的应用