赵岩龙,方正魁,邱子瑶,冯 智,祝宏平,米 翔
(1.中国石油大学(北京)克拉玛依校区石油学院,克拉玛依 834000;2.中国石油天然气股份有限公司新疆油田分公司,石西油田作业区,克拉玛依 834000;3.中国石油天然气股份有限公司新疆油田分公司,采油一厂,克拉玛依 834000)
抽油杆是有杆泵采油系统中的重要组成部分,起到连接抽油机与抽油泵、传递载荷的作用[1]。油井管杆失效问题普遍存在,并一直困扰着油田生产实践[2]。随着油井开发年限的延长,进入高含水期开采阶段的油井数量不断增加[3],油井下泵深度逐渐加大,抽油杆在长期交变载荷作用、井身结构、失稳弯曲、产出液的腐蚀破坏[4-5]等多种因素共同影响下容易发生故障,从而导致油井检泵周期缩短、修井作业频繁。准确预测抽油杆在井下腐蚀条件下的剩余使用寿命(remaining useful life,RUL),对保证油田正常生产具有重要意义。
抽油杆剩余寿命预测方法主要有:基于理论分析的杆柱寿命的预测方法,主要包括:基于断裂力学的疲劳裂纹扩展模型、疲劳累积损伤理论模型、磨损理论模型等[6];基于实验或监测数据的经验预测模型,该类方法将实验或监测数据作为样本,通过神经网络、回归理论和灰色理论等方法建立经验管杆寿命预测模型[7]。近年来,深度学习理论在人工智能领域中逐渐兴起,深度神经网络在处理复杂非线性问题上表现出很好的模拟及预测能力[8]。其中,长短时记忆网络(long short-term memory,LSTM)适用于解决序列化问题[9],已广泛应用于设备故障的预警、诊断[10]及评估[11]、剩余寿命[12]及工作参数[13]的预测。在油气勘探开发领域大数据时代背景下,LSTM神经网络较多地应用于测井曲线的解释及分析[14-15],在抽油杆剩余寿命预测方面还处于起步阶段。将LSTM神经网络与油田生产数据相结合,以期扩展抽油杆剩余寿命预测新思路、提高预测效率和精度。研究结果对延长油井免修期、节约油田作业成本具有一定意义。
LSTM即长短时记忆网络是循环神经网络(recurrent neural network,RNN)的一种改进模型,它在循环网络的基础上加入了3个可以筛选信息的门结构,能够有效解决RNN模型中梯度消失的问题[16]。LSTM的门限结构包括:输入门、遗忘门和输出门[17],分别起到处理输入的时序数据、识别重要信息并剔除低价值数据以及输出具有长短期记忆特征信息的作用。LSTM通过增加了一项元胞数组[18],利用遗忘门与输入门提取的信息,将其随着时间序列长期循环存储下去,这使得LSTM具有长期记忆的特征。图1为LSTM单元的基本结构[16]。
图1 LSTM单元结构[16]Fig.1 Unitstructure of LSTM[16]
(1)遗忘门:是输入数据经过LSTM内部结构的第一个门,通过Sigmoid激活函数遗忘掉部分信息[19],保留下有用的信息,其表达式为
ft=σ(wfht-1+ufxt+bf)
(1)
(2)输入门:决定输入数据需要更新的信息。分为两部分,第一部分通过Sigmoid激活函数更新信息,第二部分通过双曲正切函数作为激活函数更新信息[17],其表达式为
it=σ(wiht-1+uixt+bi)
(2)
(3)
(3)输出门:通过Sigmoid激活函数决定输入数据需要留下哪些有价值的信息,其计算公式为
ot=σ(woht-1+uoxt+bo)
(4)
(4)单元状态:为了实现LSTM模型的长期记忆引入的元胞数组[20],其计算公式为
(5)
式中:ft、it、ot分别为t时刻遗忘门、输入门、LSTM内部输入、输出门结构的输出;ct为单元状态的输出;ht-1为t-1时刻单元的输出,xt为t时刻单元的输入;wf、wi、wc、wo分别为遗忘门、输入门、内部长程记忆单元、输出门结构元t-1时刻h值的权重;uf、ui、uc、uo分别为遗忘门、输入门、内部长程记忆单元、输出门结构t时刻x的权重;bf、bi、bc、bo分别为遗忘门、输入门、内部长程记忆单元、输出门结构的阈值;σ为Sigmoid函数,tanh为双曲正切函数;⊗为Hadamard乘积。
数据标准化是为了去除输入数据因属性、数量级、单位不同导致的差异,一般将数据映射在[0,1]或者[-1,1]区间范围内。目前,普遍运用的数据标准化方法主要有:线性归一化、标准方差归一化以及非线性归一化方法等[8]。采用标准方差归一化,其计算公式为
x′=(x-μ)/σ
(6)
式(16)中:x′为归一化后的数据;x为原始数据;μ为样本均值;σ为样本标准差。
管杆剩余寿命的预测属于序列映射序列的回归预测问题,选用误差平方和函数作为损失函数(式7),将误差反向传播。
(7)
根据t时刻的误差项就可以得到任意时刻的误差项,其表达式为
(8)
在训练LSTM网络时,通常训练数据的规模较大,如果每次迭代都更新整个训练集的梯度,不但增加了训练时间[9],还使整体的梯度变的冗余,因此采用小批量梯度下降法(mini-batch gradient descent)训练网络,避免了在整个训练集上更新梯度。在小批量梯度下降法中,批量大小(batch size)对网络优化有一定的影响,需要设置合适的学习率,采用了自适应动量估计算法即Adam算法对其进行优化。
为了避免LSTM网络过拟合、提高网络泛化能力,保证在测试集上的训练效果,通常使用正则化方法对网络进行处理,主要有:L1、L2正则化、提前停止法、丢弃法等。选用丢弃法(dropout method),即在训练LSTM网络时,按照一定概率随机丢弃一部分神经元来避免过拟合,如图2所示[10]。
图2 标准网络与应用丢弃法后的网络[10]Fig.2 Standard network and network after application of dropout method[10]
基于LSTM的抽油杆剩余寿命预测流程如图3所示。
图3 预测流程图Fig.3 Flow chart of prediction
模型选取50个序列样本作为训练集,另外选取20个序列样本作为测试集。模型中设置一个LSTM层,两个全连接层。LSTM层丢弃率分别选取0.5、0.6、0.7;全连接层1丢弃率分别选取0.5、0.6、0.7、0.8。最大迭代次数分别选取150次、200次。通过网络测试发现,当丢弃率分别为0.6、0.5,最大迭代次数200次时,测试集均方根误差及平均绝对误差皆为最小值。当学习率为0.001、0.005时训练曲线收敛较差,因此学习率取值0.01,优化后的LSTM模型超参设置如表1所示。
表1 模型超参数设置Table 1 Hyperparameters setting of model
将训练好的LSTM网络对20口油井进行测试,得到了随机4口井的拟合结果(图4),观察发现,4号和17号井在工作周期末端的预测效果较好,16号和18号井的预测结果与实际数据之间有一定误差。
图4 随机4口油井测试曲线Fig.4 Random test curves of 4 wells
图5给出了20口油井抽油杆剩余寿命预测结果与实际数据的对比结果,观察发现预测结果与测试数据间具有一定相关性,进一步计算得到20口油井预测值的平均误差为36%,表明模型具有一定的泛化能力,但精度有待提高,部分油井的预测值与实际值差异较大,这主要是由于抽油杆剩余寿命属于随机数,一口井本次修井主要影响因素可能为抽油杆腐蚀断脱,下次作业可能由泵漏、油管漏、结垢、结蜡等其他因素造成,因此,细化影响抽油杆寿命因素的现场数据监测,增加油井数量的统计,扩充模型训练数据库,有助于进一步提升模型预测精确度。
图5 20口油井抽油杆剩余寿命预测结果对比Fig.5 Comparison of RUL prediction results of sucker rods in 20 oil wells
采用均方根误差(root mean square error,RMSE)作为标准衡量模型的精度,RMSE的计算公式为
(9)
进一步引入双向LSTM模型(BiLSTM)和深度LSTM模型(DeepLSTM),对20口油井抽油杆剩余寿命进行预测,BiLSTM和DeepLSTM模型基本参数如表2所示。表3为3种模型测试结果对比。
表2 模型基本参数Table 2 Fundamental parameters
表3 不同模型预测结果对比Table 3 Comparison of prediction results of different models
由对比结果可知,相比于BiLSTM模型和DeepLSTM模型,LSTM预测模型均方根误差最小,相关性最好,预测精度更高,能够应用于腐蚀工况下抽油杆柱剩余寿命的预测。
(1)统计了新疆油田某井区50口因抽油杆腐蚀导致停泵的油井生产数据,针对腐蚀工况下引起抽油杆失效的大量不确定影响因素,集成了一个与腐蚀环境密切相关的数据集,包含了15个特征量。
(2)通过参数优化、网络训练,构建了基于LSTM的抽油杆剩余寿命预测模型,对20口生产井数据的测试显示,LSTM模型预测结果的平均误差为36%。与双向LSTM模型和深度LSTM模型进行对比表明LSTM预测模型具有更好的预测能力。
(3)细化影响抽油杆寿命因素的现场数据监测,增加油井数量的统计,扩充模型训练数据库,有助于进一步提升模型预测精度。