王学军,李 莎
(1.承德石油高等专科学校 人事处,河北 承德 067000;2.中国石油天然气 管道通信电力工程总公司,河北 廊坊 065000)
基于层次分析的聚类算法在油田生产数据中的应用
王学军1,李 莎2
(1.承德石油高等专科学校 人事处,河北 承德 067000;2.中国石油天然气 管道通信电力工程总公司,河北 廊坊 065000)
针对石油工程生产数据的处理问题,利用数据挖掘中层次分析聚类算法,探索处理工程数据的方法,分析数据之间的内在联系;同时针对油田生产中的悬点载荷问题进行具体分析,从实践的角度分析实验结果,实现通过数据分析体现生产过程的结论。
层次分析;聚类算法;油田生产;数据挖掘
目前石油生产过程中将产生很多的生产数据,这些数据之间存在千丝万缕的联系,这些联系将反应油田生产的各种状况,同时也对油田生产参数的配置有着很大的影响。比如,斜井抽油是油田生产的重要过程,在斜井抽油的各生产过程中存在相互制约的关系,这些关系都将通过油田生产数据反映出来。数据挖掘是一种分析数据的有效手段,通过油田生产数据的分析和挖掘过程,探索出适合其生产过程中的数据处理方法和思路,得到适合于特定生产条件的结论,这些结论将为提高生产效率、加强管理、改善生产决策提供数据基础和方法依据。通过数据挖掘对石油生产技术的探索和分析,对油田生产的生产状况有了很大改观,但是有些问题还是存在的,比如生产过程控制、对于新开发油井的生产决策等问题还将制约着斜井抽油生产的各个环节。
1.1 数据挖掘聚类算法
聚类分析是数据挖掘中一种重要技术,是对处理对象进行分类的重要算法,是对每组数据元素进行相似度的比较,对于相似度高的元素看成是一个类,将不同属性的元素将划分到其他类别中去的过程。
1.2 聚类算法的层次分析法
聚类算法的层次分析就是指将数据进行逐级分层,根据层确定对应的组,最终可得到各簇。可根据分层的方向确定聚类的性质,若从下底向上进行逐级分层,这就是凝聚的层次聚类,若自上向下逐级分层,就是分裂的层次聚类。本文重点使用的是“凝聚的层次聚类”。
1)凝聚的层次聚类
实现过程:通过自下向上的方法,开始时将各个数据对象都看做一个独立的簇,然后通过层次聚类,将数据对象进行适当合并,直到结束为止。
2)簇间距离的判定方法
簇的凝聚(或分裂)是要遵守一定的原则,一般情况下,是将数据(或对象)进行举例(或相似度)的比较,在满足条件下,则认为是一个簇,否则认为是不同簇的元素,其距离的判断方法如下:
以最小的距离作为聚类的判断标准,公式如下:
以最大的距离作为聚类的判断标准,公式如下:
以平均距离作为聚类的判断标准,公式如下:
以均值距离作为聚类的判断标准,公式如下:
3)凝聚的层次聚类方法
聚类方法:从最底层的叶子结点开始逐步聚类,直到形成一个根结点,下图表示有A,B,C,D,E等五个元素,图1表示对五个元素进行聚类分组的过程。
斜井抽油是油田生产的重要生产过程,斜井抽油中抽油机在不同的参数组合下对于悬点所承受的压力是不同的,不同生产设备、不同工作状况都将对悬点载荷产生很大的影响。
2.1 悬点静载荷所承受的载荷
驴头在上下运动时,带着抽油杆柱作往复运动,所以,抽油杆重所承受的载荷起到非常重要的作用。悬点静载荷所承受的载荷包括上冲程作用在悬点上的抽油杆柱载荷、下冲程作用在悬点上的抽油杆柱载荷。
2.2 悬点动载荷所承受的载荷
和静载荷分析思路一致,动载荷也要针对上、下两个冲程分别进行考虑,悬点的惯性载荷在“大小”和“方向”两个方面都将因为悬点加速度不同而发生明显的变化。若假设规定向上的坐标为正方向,当加速度的数值大于零时(向上);若加速度的数值小于零时(向下)。在向上的冲程中,前一半的过程加速度数值大于零(向上),由于其惯性力的方向是向下的,因此是增加了悬点载荷的数值;后一半冲程中加速度小于零(向下),由于其惯性力的方向是向下的,则减少了悬点载荷数值。在向下冲程的过程中,情况正好相反,分析过程如前。
2.3 层次分析算法在悬点载荷分析(示功图)中的应用研究
通过示功图可以了解油井在生产过程中的载荷情况,对于正常工作的油井来说,在相邻的时间段内,其示功图的变化不应该太大,就是说在相邻很短的时间内,其示功图应该是变化不大,图形应该是基本重合的,但是也有出现问题的时候,如受到气候影响、杆柱断裂、供液不足等特殊情况影响时,示功图可能发生很大变化,这就需要我们时刻监测载荷的变化情况。
在实际生产中,可以采用缩短监测时间,固定示功图出图时间,即我们可以多监测载荷发生的变化,但是不增加示功图的出图频率。我们可以在间隔的固定时间内再分成若干次进行监测,将这些监测结果得到示功图,将该示功图与真正得到的图样进行比较,如果在误差范围内,就说明这时间段内生产没出现状况,否则可根据图样的变化情况进行故障的排除。
以某油井为例,将固定的示功图出图时间再次细分为10次,进行监测得到数据,如表1所示。
表1 某油井监测数据
针对表1中的最大负荷参数通过聚类算法,将表1中的10个点分成两个簇C1和C2,其中:
C1={1,2,3,4,6,8,9,10},C2={5,7}
最小距离为:
最大距离为:
平均距离为:
均值距离为:
根据上面的计算可以看出,C2中的两个点到C1簇的平均值的距离都大于平均值7.725,因此,在计算最大负荷时,应该使用C1簇,此时这个时间段的最大负荷应该为64.125 KN,同时最小负荷为28.512 5,这两个数应该为这一段的最大、最小负荷。
实验结果:C2中的数据为奇异数据,但是对这样的数据也应该给予一定的重视,不可轻易弃之。这些数据可能是油田生产过程中排出故障的重要依据。
本文针对油田生产中的数据特点分析,很好地实现了将数据挖掘技术和油田生产之间的结合。通过对悬点载荷的分析,通过数据挖掘层次分析的聚类算法,解决了油田生产的实际。这既是对数据挖掘算法应用的拓展,同时也为油田生产的数据处理提供了思路,应用前景非常好,同时也有很可观的经济效益。
[1] 曹文霞.抽油机运动模型和示功图研究及实现[D].北京:北京交通大学,2006.
[2] 欧阳浩.移动数据的预估聚类分析算法研究[D].湘潭:湘潭大学,2006.
[3] 王学军.数据挖掘的预测技术在斜井抽油数据处理中的应用[J].承德石油高等专科学校学报,2012,14(2):1-3,12.
[4] 姜卫.数据挖掘技术在采油工程中的应用[J].内蒙古石油化工,2011(20):105-108.
[5] 檀朝东.斜井抽油系统优化设计技术研究和应用[J].石油机械,2006,34(3):9-12.
[6] 王学军.数据挖掘聚类算法在斜井抽油扶正器设计中的应用[J].承德石油高等专科学校学报,2013,15(2):20-23.
[7] 王学军.斜井抽油数据分析方法及应用研究[D].南京:南京工业大学,2013.
Application of AHP-based Clustering Algorithm in Processing Oilfield Production Data
WANG Xue-jun1, LI Sha2
(1.Department of Personnel Affairs, Chengde Petroleum College, Chengde 067000, Hebei, China; 2.China Petroleum Pipeline Communication Power Engineering Corporation, Langfang 065000, Hebei, China)
The AHP-based clustering algorithm in data mining is applied in this paper to explore the internal connection among the production data of petroleum engineering. Concrete analysis is adopted on the experimental results of polished rod load in oil production.
AHP; clustering algorithm; oil production; data mining
2013年河北省科技计划项目(基于数据挖掘技术的斜井抽油数据处理方法的研究及应用):13210353
2016-05-04
王学军(1971-),河北涿州人,承德石油高等专科学校人事处教授,从事计算机软件和算法的教学和研究,重点研究数据挖掘在油田生产中的应用。
TE3
B
1008-9446(2016)05-0022-03