陈永久 陈思 王智慧 梁冰
作者简介:陈永久(1990-),工程师,从事自动化仪表的研发工作,617517026@qq.com。
引用本文:陈永久,陈思,王智慧,等.储罐自动化仪表计量误差在线识别方法研究[J].化工自动化及仪表,2024,51
(3):422-426;437.
DOI:10.20030/j.cnki.1000?3932.202403008
摘 要 针对站场油气储罐计量仪表的检测误差,以现场366座储罐正常计量数据为基础,设置0.5%~2.5%的误差率,构建数据驱动方法数据集,综合考虑误报率和窗口大小(25~125),针对7类算法(WIN?G、WIN?M、WIN?L、RuLSIF、KL?CPD、VAE和LSTM?VAE)进行综合性能评价,用现场检测的误差数据和正常数据进行算法验证,结果表明:在窗口大小100的条件下,LSTM?VAE算法性能最佳,正确报警率高于0.95。
关键词 LSTM?VAE算法 仪表 储罐 日计量误差 极小误差 数据驱动 窗口大小 误报率
中图分类号 TH816 文献标志码 A 文章编号 1000?3932(2024)03?0422?06
造成油气站场储罐油品理论储量与实际储量误差的原因有很多,如储罐渗漏/泄漏、燃油成分变化及仪表测量误差等。其中,仪表测量误差所致的储罐油品计量误差的差异,在一定程度上会影响站场收益。2021~2022年,对397座储罐的流量进行核准,发现2.27%的储罐油品过量(即供油多),5.54%的储罐油品不足(即供油少)。因此,进行站场储罐仪表校正是非常重要的工作。由人工对现有站场仪表测量误差开展现场检测具有很大的局限性,一方面无法进行实时检测,另一方面人工很难准确判断仪表误差并进行校正[1,2],因此,研究远程控制的测量误差自动识别和校正方法是非常有必要的。
在仪表正常计量过程中总是存在一定的偏差,但是在一定的时间段内,总的相对误差趋于0,即仪表的累积误差为0;然而,在90~120天的计量中发现,计量仪表的相对误差总是为正,认为仪表计量数据出现了无法自调整的误差,因此对仪表进行人工调整,随后计量结果恢复正常。然而,根据现场实时检测结果发现仪表计量误差,进而采取人工调整是有限的,如果出现很小的计量错误,如在一定时间内仪表的累积误差为
-0.05%,这种情况下无法通过人工识别[3,4]。因此,笔者以仪表日计量误差为检测目标,针对日平均误差开展校准方法优选研究。
1 模型建立流程
1.1 数据集建立
虽然采用现场发生误差的仪表计量结果进行算法研究能够更加贴合实际,但是如果发生数据偏移的计量结果较少,样本量不足,会严重影响数据训练和模型的精度。因此,以2021~2022年未发生计量数据误差的366座储罐数据为研究对象,以0.5%~2.5%的误差率模拟以增加误差数据,由此在不同误差率数据集中共有732个数据,以实际检测得到的数据为训练数据,以模拟得到的误差数据作为验证的目标数据。流程如下:
a. 识别存在误差的第1个点,此时序列的前半部分为现场实测的正常数据,用于模型的正常训练,后半部分为模拟得到的误差数据,用于算法优选。
b. 确定误差率范围(±0.1%),并计算平均误差率作为主要变量。
c. 根据识别的误差点和平均误差率,对原数据集中存在误差的数据采用平均误差率计算后加入数据集中。
1.2 算法优选
以现场收集的真实数据为基础,预设误差率并采用平均误差率形成数据集,再对形成的数据集重新排列,数据前半部分用于模型训练,后半部分用于模型验证。
本研究主要是为了确定一种模型,对仪表计量误差做出尽可能接近真值的预测,尽可能减少错误报警。其中,单位数据长度是影响模型精度的关键指标之一。
现有研究中,针对平均误差率的研究仍然采用统计方法来检测误差点[5,6]。搜索方法是一种求解过程,需要权衡计算量和精度间的关系,常用方法包括窗口滑动法、二值分割法及自下而上分割法等。成本函数主要用于评估数据分区之间的同质性,需要根据变化点的类型和数据分布特征选择。
基于现场应用工况,针对性地优选常用算法進行分析,包括基于窗口的算法[7](高斯法WIN?
G[8]、马氏法WIN?M[9]、最小二乘法WIN?L[5])、RuLSIF[10,11]、KL?CPD[12]、VAE[13]和LSTM?VAE[14]。
1.2.1 基于窗口的算法
基于窗口的算法(WIN)使用一个窗口沿输入序列滑动,来计算相邻窗口之间的差异,WIN具有低复杂性和易实现的优点。
基于窗口的算法常采用3种不同的方法开展平均误差检测:
a. 高斯法(WIN?G)[8],是通过计算高斯随机数列均值与协方差之间的变化获得平均误差的。
b. 马氏法(WIN?M)[9],基于数据的相关性,计算点与分布之间的距离,即检测误差。
c. 最小二乘法(WIN?L)[5],应用广泛,相对简单,对异常值敏感。
1.2.2 相似比值法RuLSIF
相似比值法RuLSIF[10,11]通过检测连续间隔之间相似比的对数来检测误差点,本研究设置每10个时间步长(定义步长α=0.1)计算。
1.2.3 基于时间系列的核学习方法KL?CPD
基于时间系列的核学习方法KL?CPD[12]主要通过递归神经网络方法以时间序列开展学习,并以上一个窗口和下一个窗口段之间的最大平均差值作为误差点标定值。
1.2.4 自动编码器VAE
VAE是自动编码器的一种形式,它将所输入数据在空间内重新分布后以均值和标准差重新建模,使得数据具有更强的正则化,在不考虑时间依赖性的情况下,该模型具有较高的可靠性。
而LSTM能够反映时间依赖性,同时避免梯度消失问题。因此,选择LSTM?VAE方法时,只需考虑检测输入数据的均值就可以识别存在误差的相关数据。
1.3 模型建立
在实际检测得到的数据中,数据传输延迟、振动等原因会导致存在一定的数据噪声,因此在开展模型训练和优选前需对数据进行预处理:
a. 受限于儀表的敏感度,较小的储罐体积变化(如小于10 L)可能无法及时捕捉到,导致数据传输延迟。因此,本研究中相对误差大于0.5的数据首先被筛除;对于其他可能的异常值,采用1.5IQR(离群值检测)[15]进行筛除。
b. 对符合要求的数据进行归一化处理,并通过缩放限制数据在0~1范围内。
c. 采用中值滤波[3]对数据进行平滑处理。
在给定窗口大小的条件下,通过相邻两个窗口平均向量之间的欧几里得距离[16]计算散度D:
D=‖μ- μ‖(1)
其中,μ表示窗口的平均向量;w和w表示两个窗口。
考虑到实际计量过程中,每个仪表发生误差的事件只会出现一次,即只出现一个误差点;但是当设置较大的阈值时,正常检测数据较大相对误差的较大方差特征可能会导致较高的误报率。因此,选择通过全局比较、确定最大误差峰值的方法来确定真实误差点V:
V(t)=c(y)-c(y)-c(y)(2)
其中,c为成本函数;y()…()为两窗口的信号计算函数。
模型建立与优选是为了能够保证检测得到的结果与实际真值相同,但是由于数据量和模型本身的局限性,智能化的检测结果与实际真值之间总是存在一定的差值。因此,设定检测结果与实际真值的差值在50个时间步长的容差范围内,认为检测结果准确。同时,为了定量评估不同算法的有效性,提出几个参数:a为发生误差被检出报警,b为发生误差未报警,c为仪表计量正常未报警,d为仪表计量正常被检出报警,由此来计算正确报警率x和错误报警率y,即x=,y=,同时以报警率曲线下的面积(AUC)作为性能评价指标。基于上述步骤,设计的仪表计量误差检测模型如图1所示。
2 结果与讨论
2.1 模拟结果
图2为不同算法的正确-错误报警率曲线(1.5IQR阈值,窗口大小为100)和AUC结果,可以看出,在给定的不同误差率条件下,LSTM?VAE算法表现出最优的性能,而RuLSIF算法表现为最差的预测结果。当仪表计量数据误差率较高(如误差率为2.5%)时,与低误差率相比,所有模型的AUC值均较高,说明这些模型能够有效识别较大的误差;而LSTM?VAE算法的正确报警率大于0.95,表现出良好的检测和自动识别性能。
考虑错误报警率对预测结果的影响,当错误报警率较小时,所用相关算法的正确报警率都迅速增大,当错误报警率大于0.2时,趋势放缓,其中LSTM?VAE算法表现最好。另一方面,LSTM?VAE在存在噪声和局部趋势变化的情况下,当错误报警率为0.5%、错误报警率为0.2时,LSTM?VAE模型的正确报警率仅为0.35。
考虑窗口大小对预测结果的影响,在不同窗口条件下,当窗口较大(如100和125)时,所有算法都可以获得相对理想的性能,其中LSTM?VAE算法性能最好。当窗口尺寸较大时,KL?CPD算法和VAE算法也具有较好的性能。然而随着窗口尺寸变小,KL?CPD算法的性能显著下降,这是因为该模型是以平均误差率数据为训练数据。需要注意的是,在小窗口条件(如25)下,WIN?L算法具有更好的效果。
2.2 对比验证
现选取现场发生数据误差(-5.3%)和正常工况两种检测数据进行对比验证,结果如图3所示。从图3a的蓝色虚线可以看到一个明显的趋势变化,LSTM?VAE算法预测得到明显的峰值,约0.18,与现场检测结果相同;从图3b可以看出,LSTM?VAE算法预测曲线相对平缓,产生了多个峰值,但是大多数峰值较小,只存在一个相对较大的峰值,约0.052,表明局部变化趋势会对计量仪表在线误差检测产生一定的干扰。综上所述,LSTM?VAE算法能够实现现场自动化仪表检测误差的准确识别。
3 结束语
针对现场计量仪表误差造成数据误差的问题,提出基于数据驱动的动误差检测和识别方法,基于正常仪表检测数据,设定误差率建立了训练数据集,基于WIN?G、WIN?M、WIN?L、RuLSIF、KL?CPD、VAE和LSTM?VAE共7类算法,综合考虑错误报警率和窗口大小条件,确定LSTM?VAE算法具有最佳的性能,正确报警率大于0.95,同时与现场检测结果对比证明LSTM?VAE算法能够实现自动化仪表计量误差的准确识别。
参 考 文 献
[1] 李香凝.基于机器视觉的指针式仪表读数自动校准方法[J].流体测量与控制,2023(1):67-71.
[2] 何伟,冉高宗,李月英,等.流量计在线校准与核查的实践与可行性分析[J].石油工业技术监督,2022,38(9):27-30.
[3] GORAWSKI M,GORAWSKA A,PASTERAK K.The TUBE algorithm:Discovering trends in time series for the early detection of fuel leaks from underground storage tanks[J].Expert Systerms with Applications,2017,90:356-373.
[4] ALAY?N S,SIGUT M,ARNAY R,et al.Time windows:The key to improving the early detection of fuel leaks in petrol stations[J].Safety Science,2020,130:104874.
[5] FEARNHEAD P,RIGAILL G.Changepoint detection in the presence of outliers[J].Journal of the American Statistical Association,2019,114(525):169-183.
[6] HYUN S,LIN K Z,GSELL M,et al.Post?selection inference for changepoint detection algorithms with application to copy number variation data[J].Biometrics,2021,77(3):1037-1049.
[7] TRUONG C,OUDRE L,VAYATIS N.Selective review of offline change point detection methods[J].Signal Processing,2020,167:107299.
[8] LAVIELLE M.Detection of multiple changes in a sequence of dependent variables[J].Stochastic Processes and Their Applications,1999,83(1):79-102.
[9] DOKAS P,ERTOZ L,KUMAR V,et al.Data mining for network intrusion detection[C]//Proc.NSF Workshop on Next Generation Data Mining.Citeseer,2002:21-30.
[10] LIU S,YAMADA M,COLLIER N,et al.Change?point detection in time?series data by relative density?ratio estimation[J].Neural Networks,2013,43:72-83.
[11] YAMADA M,SUZUKI T,KANAMORI T,et al.Relative density?ratio estimation for robust distribution comparison[J].Neural Computation,2013,25(5):1324-1370.
[12] 王雷,杜亮,周芃.基于稀疏连接的层次化多核K?Means算法[J].计算机科学,2023,50(2):138-145.
[13] 霍纬纲,梁锐,李永华.基于随机Transformer的多维时间序列异常检测模型[J].通信学报,2023,44(2):94-103.
[14] PARK D,HOSHI Y,KEMP C C.A multimodal anomaly detector for robot?assisted feeding using an LSTM?based variational autoencoder[J].IEEE Robotics and Automation Letters,2018,3(3):1544-1551.
[15] ROUSSEEUW P J,CROUX C.Alternatives to the median absolute deviation[J].Journal of American Statistical Association,1993,88(424):1273-1283.
[16] DE RYCK I,DE VOS M,BERTRAND A.Change point detection in time series data using autoencoders with a time?invariant representation[J].IEEE Transactions of Signal Processing,2021,69:3513-3524.
(收稿日期:2023-07-24,修回日期:2023-08-24)
Research on On?line Measurement Error Identification
Method of Automatic Instrument for Storage Tanks
CHEN Yong?jiu, CHEN Si, WANG Zhi?hui, LIANG Bing
(China Petroleum Engineering & Construction Corp. North China Company)
Abstract Aiming at the detection error of the metering instrument for the oil and gas storage tank in the station, having the normal metering data of 366 tanks in the field based to set a 0.5% to 2.5% error rate and construct the data set of the data?driven method, including having both false alarm rate and window size(25 to 125) considered to comprehensively evaluate the performanceion of seven algorithms(WIN?G, WIN?M, WIN?L, RuLSIF, KL?CPD, VAE and LSTM?VAE) and make use both error data and normal data detected in?situ to verify the algorithm. The results show that, as for the window size of 100, the LSTM?VAE algorithm has the best performance and the accurate alarm rate is higher than 0.95.
Key words LSTM?VAE algorithm, instrument, tank, daily measurement error, minimum error, data?driven, window size, false alarm rate