郎宪明 李平 曹江涛 芦思宇 李俨 任泓
摘 要:针对管道运行状态数据的非平衡性会造成管道泄漏诊断准确率下降的问题,提出了一种基于非平衡数据的管道泄漏检测与定位方法.首先,将管道各工况非平衡数据采用基于K均值聚类的欠采样方法处理,使其达到数据平衡.然后,将Fischer-Burmeister函数引入到双支持向量机学习过程中,以避免目标函数求解时矩阵的求逆计算,并将平衡数据作为改进双支持向量机算法的输入,识别管道泄漏.采用相关分析法实现泄漏点定位.根据Flowmaster搭建的管道模型,运用该方法识别管道泄漏.仿真实验表明,与经典双支持向量机和拉格朗日双支持向量机相比,该方法能更快速识别管道泄漏孔径及定位.
关键词:非平衡数据;K均值聚类;双支持向量机;泄漏检测;泄漏点定位
中图分类号:TP277 文献标志码:A
Abstract:As the data imbalance of pipeline working conditions decreases the accuracy of the pipeline leakage diagnosis, a method of pipeline leak detection and location based on imbalance data was proposed. First, the imbalance data of different working conditions were processed by K-means clustering algorithm and under-sampling to achieve the balance data. Then, the Fischer-Burmeister function was introduced into the learning process of the twin support vector machine (TWSVM), in order to avoid the matrix inversion calculation, and the balance data were input into the improved TWSVM to distinguish the pipeline leakage. Leak location was obtained by the cross-correlation function method. Moreover, a flow model of pipeline was put forward based on the Flowmaster software, and the proposed method was used to identify pipeline leakage. The experimental results show that the proposed method is more effective than the classical TWSVM and the Lagrange TWSVM to identify the pipeline leakage aperture and location.
Key words:imbalance data; K-means; twin support vector machine; leak detection; leakage location
管道運输以安全可靠,经济实用的特点在油气运输中被广泛应用[1-2].由于输送介质具有易燃易爆的特性,一旦管道发生泄漏,可能引发人员伤亡和环境污染等重大事故,所以需要对管道运行状态进行在线监控,及时发现泄漏并做相应处理.
管道运行过程的监控数据具有明显的分布不均衡的特征,即正常运行状态的样本数量远远多于泄漏样本及其他工况样本的数量.采用经典支持向量机方法建立管道泄漏检测模型时,多数方法是以平衡数据作为学习样本.文献[3]通过获取管道同沟敷设光纤振动信号的特征向量,建立管道泄漏、人工挖掘和人走动3种情况的平衡数据样本,用于支持向量机(SVM)的学习和测试,从而判断管道沿线是否有异常事件发生;文献[4]通过建立管道机理模型,根据泄漏点的不同位置,以管道的入口流量值和出口压力值作为特征向量,建立平衡的学习和测试样本数据,采用基于SVM的方法识别管道泄漏和泄漏点定位,利用粒子群优化算法(PSO)对SVM的惩罚参数和核参数进行优化;文献[5]提出采用局域均值分解(LMD)方法对天然气管道泄漏信号进行分解,根据各乘积函数(PF)的峭度值选择主PF分量,对主PF分量进行包络谱分析并计算熵值,以不同泄漏孔径信号的归一化熵值作为特征向量,建立平衡数据样本,采用SVM来识别管道泄漏孔径;文献[6]将泄漏音波信号的时域特征信息作为特征向量,建立平衡的学习和测试样本数据,通过最小二乘支持向量机来识别管道泄漏孔径.以上的研究均未考虑实际管道运行工况中,管道监测数据的非平衡性特征.目前,解决非平衡分类问题方法可以分为两大类[7-8]:一类是改变训练集样本分布,降低非平衡程度;另一类是依据算法适应非平衡分类.
双支持向量机(TWSVM)是在支持向量机基础上提出的一种机器学习算法[9-11].TWSVM与SVM根本的区别是TWSVM解决两个规模相对更小的二次规划问题,而SVM解决一个规模较大的二次规划问题,所以TWSVM能将训练时间缩减到原来SVM的1/4.本文提出采用Fischer-Burmeister函数将双支持向量机的二次规划问题变成无约束的最小化问题,以提高计算速度.TWSVM在处理多分类问题时,和SVM处理方式一样,构造一系列二分类器,如“一对一”,“一对多”和“有向无环图”等[9].
针对管道监测数据非平衡性特征和泄漏检测对于准确性和实时性的要求,本文采用Flowmaster软件建立管道模型,根据管道首末两端采集的压力原始信号,建立不同工况下的非平衡数据样本,采用K均值聚类算法对非平衡数据进行欠采样处理,然后利用改进的双支持向量机算法对管道泄漏进行识别,并采用相关分析法进行泄漏点定位.
1 基于K均值聚类的欠采样方法
将非平衡数据进行预处理,将样本中每行取均值,然后对样本中的数据乘以一个系数,并加上相应均值.数据样本预处理如式(1)所示.
K均值聚类算法[12-14]是比较常用的样本聚类算法之一.它的基本思想是:首先从样本N个数据中随机选取K个数据作为初始聚类中心,然后计算其余每个数据点到这些聚类中心的距离,并将与中心距离最近的数据划分为该类.再重新计算聚类中所有对象的平均值作为新的聚类中心,不断重复以上步骤,直到聚类中心值不再变化.通常依据将N个样本最小化类内距离的准则来分到K个聚类中,其定义如式(2)所示:
为了使非平衡数据采用K均值聚类算法后达到数据平衡,首先求解各种工况数据的不平衡比率,以管道泄漏数据样本为基础,将正常工况及调阀工况按此方式进行欠采样,其定义如式(3)所示.此时,在不同工况下,样本数据能达到数据平衡.
3 实验与分析
所有实验均在Intel Pentium Processor (2.90 GHz)及6 GB RAM的PC机上使用MATLAB R2014a 和 Flowmaster V7软件实现.
3.1 建立非平衡数据样本
采用Flowmaster软件[18-19]对管道的泄漏孔径及阀门的动作进行仿真计算,图1为建立的管道泄漏模型.系统建模时,按照真实的管道环境,采用弹性管道,管道长为L=2 030 m,管道內径为d=50 mm,管道内壁粗糙度为ε=0.025 mm,管道首末两端恒压油箱的液位分别为200 m和0 m,负压波波速wv=1 000 m/s,介质为润滑油,外界温度为20 ℃.在距管道首端压力信号测量点10 m的位置上设置一个球阀,通过控制器对它输入控制信号来控制阀门的开度.在距离管道首端压力信号测量点1 420 m位置上通过一段细小管道连接大气来模拟小泄漏情况.管道模型仿真的时间为40 s,采样间隔为0.01 s.
控制阀门在2 s内快速打开,管道系统在20 s时出现泄漏,分别测得无泄漏、阀门打开和3种不同泄漏孔径时管道首末端压力信号.泄漏发生时,不同泄漏孔径的压力信号对比如图2和图3所示.
从图2和图3中可知,控制阀门打开时,管道首末端压力信号出现迅速跳变,并较快恢复稳定,大约在13 s时,压力恢复平稳.在20 s时,1 420 m处发生泄漏,泄漏孔径分别选取5 mm、3 mm和1 mm.泄漏发生时,压力波形的拐点随泄漏孔径的减小而变得越不明显.
Flowmaster建立的管道系统不包含外界噪声,为了模拟真实工况,在管道的首末端压力数据中添加零均值白噪声.根据管道模型采集的首末两端压力信号,经db4小波函数消噪后,重构的压力信号按文献[20]的时域特征和波形特征提取信号的特征.每个样本的信号采样点数为1 000,以此建立非平衡数据样本,其中正常工况600组样本;调阀工况200组样本;5 mm泄漏孔径20组样本;3 mm泄漏孔径20组样本;1 mm泄漏孔径20组样本.每一种工况样本选1组压力信号,其特征值如表1所示(1.信号平均值,2.方差,3.能量,4.平均幅值,5.均方根,6.方根幅值,7.有效值,8.峰值系数,9.形状参数,10.偏度参数,11.脉冲因子,12.峪度因子,13.峭度,14.峭度因子).
从表1中可知,虽然时域特征值和波形特征值不同程度地反映了压力信号变化特征,但是存在不相关特征值和冗余特征值,因此会增加数据计算量,影响泄漏检测的实时性,所以通过核主元分析去除特征向量中冗余的信息,进行数据降维.
核主元分析算法中,选择径向基核函数,核函数参数为sigma=5.当选择第1个主元、第2个主元、第3个主元、第4个主元时,其方差贡献率已达到85%,能提供原特征参数的绝大部分信息,故选择前4个主元作为综合特征值,其中每种工况中一组特征值样本的核主元分析结果如表2所示.
从表2中可知,正常工况、调阀工况及不同泄漏孔径的综合特征值较易区分.但是在计算时,同一工况的不同样本综合特征值是变化的,不利于将此特征值输入到双支持向量机进行泄漏检测,所以对非平衡数据样本中的综合特征值分别按式(1)进行预处理,其中ε=0.000 1.
3.2 采用K均值聚类的欠采样方法处理非平衡数据
600组正常工况特征数据和200组调阀工况特征数据分别按式(2)计算,令K=4.600组正常工况特征数据和200组调阀工况特征数据分布及欠采样后的数据分布分别如图4、图5所示.
从图4、图5中可知,为了使600组正常工况特征数据和200组调阀工况特征数据的选择更具有一般性,欠采样时,每种工况平均随机选择20组数据样本,使正常工况、调阀工况和管道泄漏的样本数量相等.
3.3 管道泄漏识别
将正常工况、调阀工况、不同泄漏孔径的特征数据样本,输入到改进的双支持向量机中,识别不同工况及泄漏孔径的大小.实验中,利用数据处理后的正常工况20组数据、调阀工况20组数据和采集的不同泄漏孔径信号各20组数据,每种工况随机抽取10组数据,输入到改进的双支持向量机中进行学习,其余数据进行测试,其中每种工况的5组样本数据如表3所示.
求解式(7)和式(8)时,分别采用MATLAB中quadprog函数,文献[15]中的方法和本文的改进方法,双支持向量机的参数都设置为c1=c2=0.1,其中最速下降法的参数μ=0.01,σ=0.01,误差要求epsilon=1×10-5,迭代次数为20次;文献[15]中式(55)的参数β=0.2,误差要求也为epsilon=1×10-5.本文采用“One-versus-Rest”算法实现多分类,双支持向量机学习后的管道泄漏识别效果如图6所示,其中类别1、类别2、类别3、类别4和类别5分别表示为正常工况、调阀工况、5 mm泄漏孔径、3 mm泄漏孔径和1 mm泄漏孔径.
從图6中可知,经过学习后的TWSVM可以准确实现工况识别和泄漏孔径识别,其测试准确率为100%.因为三种方法求解TWSVM的目标函数都相同,所以工况识别率应一样.但测试时,计算时间不同,三种方法的计算时间如表4所示.
从表4中可以看出,在识别率都为100%的基础上,改进的双支持向量机算法相比采用MATLAB中quadprog 函数算法和文献[15]的算法具有更快的求解速度.因为MATLAB中的quadprog函数需要计算有上、下界约束的不等式优化,从而增加了程序运行时间;而文献[15]中的算法,相比quadprog函数算法在目标函数求解时,将有上、下界约束的目标函数转化为一个无上界约束的目标函数,且算法每次迭代只需较小维数的矩阵求逆运算,从而计算量减小;而改进的双支持向量机算法是将有下界约束的目标函数转化为无约束的目标函数进行求解,相比文献[15]中的算法,每一次迭代不需要矩阵求逆计算,从而减小了计算量,提高了求解速度.
为了验证K均值聚类欠采样结合改进TWSVM方法识别不同泄漏孔径的有效性,通过采用文献[21]中反向k近邻欠采样结合SVM的方法用于识别不同泄漏孔径,其中反向k近邻算法中k=20,SVM算法中惩罚参数c=20,核参数g=0.01.两种方法的识别泄漏工况效果如图7所示.
从图7中可知,通过K均值聚类欠采样与反向k近邻欠采样的方法都能平衡训练集,且都能提取有效样本,并经过学习后的改进TWSVM和SVM都可以准确实现泄漏孔径识别,其测试准确率为100%.两种方法识别泄漏工况的计算时间如表5所示.
从表5中可以看出,在识别率都为100%的基础上,K均值聚类欠采样结合改进TWSVM算法相比反向k近邻欠采样结合SVM算法识别泄漏工况在程序运行时间上减少了0.814 385 s,说明采用K均值聚类欠采样结合改进TWSVM的方法能更快地识别泄漏孔径.
3.4 泄漏定位
管道在5 mm泄漏孔径条件下,对管道首末两端泄漏信号采用db4小波函数进行消噪,其重构信号波形如图8和图9所示.
从图8和图9可以看出原始压力波形信号的拐点不易区分,但经小波消噪后的重构信号拐点能明显区分,小波消噪能直接去除信号中高频噪声,能够精确反映拐点时刻,实现精确定位.
将重构后的压力信号进行互相关分析[22],在5 mm泄漏孔径条件下,管道首末两端负压波信号的相关分析如图10所示.
从图10中可以看出,泄漏发生时,首末端负压波信号的互相关函数有一个峰值,根据峰值的位置确定对应的时延估计.泄漏点定位按式(17)计算,不同泄漏孔径的定位计算结果如表6所示.
从表6的泄漏定位结果可以看出,虽然小波分析能分解压力原始信号,去除高频噪声干扰,并且能突显较大泄漏孔径下首末端压力信号的拐点,但随着泄漏孔径减小,压力波动幅值变得不明显,造成负压波信号的拐点不易区分,从而降低了泄漏点的定位精度.
4 结 论
针对管道泄漏检测过程中,管道运行状态数据非平衡的特点,提出了基于非平衡数据的管道泄漏检测及定位方法.实验结果表明,采用K均值聚类欠采样方法可以有效处理非平衡数据,并且改进的双支持向量机算法在保证管道泄漏正确识别率的基础上,降低了算法的运行时间.管道首末两端原始压力信号通过小波消噪并提取信号的拐点,经相关分析计算,可以获取时延估计,结合管道长度和负压波波速进行泄漏点定位.
由于在真实管道运行环境中,管道首末两端压力信号会受到周围环境及泵站等影响,此时压力信号中,信号的中频和低频都可能包含噪声,如何在实际管道运行环境下,对压力信号进行消噪并有效提取信号特征将是下一步研究的重点.
参考文献
[1] MURVAY P, SILEA I. A survey on gas leak detection and localization techniques[J]. Journal of Loss Prevention in the Process Industries, 2012, 25(6): 966-973.
[2] DATTA S, SARKAR S. A review on different pipeline fault detection methods[J]. Journal of Loss Prevention in the Process Industries, 2016, 41: 97-106.
[3] QU Z, FENG H, ZENG Z, et al. A SVM-based pipeline leakage detection and pre-warning system[J]. Measurement, 2010, 43(4): 513-519.
[4] NI L, JIANG J, PAN Y. Leak location of pipelines based on transient model and PSO-SVM[J]. Journal of Loss Prevention in the Process Industries, 2013, 26(6): 1085-1093.
[5] SUN J, XIAO Q, WEN J, et al. Natural gas pipeline small leakage feature extraction and recognition based on LMD envelope spectrum entropy and SVM[J]. Measurement, 2014, 55(9):434-443.
[6] JIN H, ZHANG L, LIANG W, et al. Integrated leakage detection and localization model for gas pipelines based on the acoustic wave method[J]. Journal of Loss Prevention in the Process Industries, 2014, 27: 74-88.
[7] MALDONADO S, WEBER R, FAMILI F. Feature selection for high-dimensional class-imbalanced data sets using Support Vector Machines[J]. Information Sciences, 2014, 286: 228-246.
[8] GUO H X, LI Y J, SHANG J, et al. Learning from class-imbalanced data: Review of methods and applications[J]. Expert Systems with Applications, 2017, 73: 220-239.
[9] NASIRI J A, MOGHADAM CHARKARI N, JALILI S. Least squares twin multi-class classification support vector machine[J]. Pattern Recognition, 2015, 48(3): 984-992.
[10]CHEN W J, SHAO Y H, LI C N, et al. MLTSVM: A novel twin support vector machine to multi-label learning[J]. Pattern Recognition, 2016, 52: 61-74.
[11]TOMAR D, AGARWAL S. Twin support vector machine: A review from 2007 to 2014[J]. Egyptian Informatics Journal, 2015, 16: 55-69.
[12]REBOLLO-MONEDERO D, SOLé M, NIN J, et al. A modification of the k-means method for quasi-unsupervised learning[J]. Knowledge-Based Systems, 2013, 37: 176-185.
[13]CAPó M, PéREZ A, LOZANO J A. An efficient approximation to the K-means clustering for massive data[J]. Knowledge-Based Systems, 2017, 117: 56-69.
[14]陳宏义, 李存斌, 施立刚.基于聚类分析的短期负荷智能预测方法研究[J].湖南大学学报(自然科学版)2014,41(5):94-98.
CHEN H Y, LI C B, SHI L G. A new forecasting approach for short-term load intelligence based on cluster method[J]. Journal of Hunan University(Natural Sciences), 2014, 41(5):94-98. (In Chinese)
[15]SHAO Y H, CHEN W J, ZHANG J J, et al. An efficient weighted Lagrangian twin support vector machine for imbalanced data classification[J]. Pattern Recognition, 2014, 47(9): 3158-3167.
[16]张襄松.几类优化问题的算法及应用研究[D].西安:西安电子科技大学数学与统计学院, 2011:75-84.
ZHANG X S. Study on the algorithms for some optimization problems and applications[D]. Xi'an:School of Mathematics and Statistics, Xidian University, 2011:75-84. (In Chinese)
[17]CHEN J, PAN S. A descent method for a reformulation of the second-order cone complementarity problem[J]. Journal of Computational and Applied Mathematics, 2008, 213(2): 547-558.
[18]JEONG U, KIM Y H, KIM J, et al. Experimental evaluation of permanent magnet probe flowmeter measuring high temperature liquid sodium flow in the ITSL[J]. Nuclear Engineering and Design, 2013, 265: 566-575.
[19]DUTTA N, ROUAUD C, MASERA M, et al. Powertrain cooling concept selection process for hybrid electric vehicles[J]. Innovations in Fuel Economy and Sustainable Road Transport, 2011: 61-72.
[20]焦敬品,李勇强,吴斌,等. 基于BP神经网络的管道泄漏声信号识别方法研究术[J]. 仪器仪表学报, 2016, 37(11): 2588-2596.
JIAO J P, LI Y Q, WU B, et al. Research on acoustic signal recognition method for pipeline leakage with BP neural network[J].Chinese Journal of Scientific Instrument, 2016, 37(11): 2588-2596. (In Chinese)
[21]沈晔,李敏丹,夏顺仁. 计算机辅助乳腺癌诊断中的非平衡学习技术[J]. 浙江大学学报(工学版), 2013, 47(1): 1-7.
SHEN Y, LI M D, XIA S R. Learning algorithm with non-balanced data for computer-aided diagnosis of breast cancer[J]. Journal of Zhejiang University(Engineering Science), 2013, 47(1): 1-7. (In Chinese)
[22]SUN L, CHANG N. Integrated-signal-based leak location method for liquid pipelines[J]. Journal of Loss Prevention in the Process Industries, 2014, 32: 311-318.