朱治国 苗彦平 王军 凌帅 薛李强 杜航
(中国石油华北油田分公司第三采油厂)
大数据分析是指对海量多类型、快增长且内容真实的数据进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系或其他有用信息的过程[1-2]。目前,随着油田自动化程度的提高,数据的采集密度及频次较油田开发初期有了质的飞跃,数据量的增加,加之数据的结构复杂,存在结构化、非结构化及半结构化数据,这使工程技人员在处理数据时显得力不从心。
与传统的分析方法相比,数据挖掘技术可以实现从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含其中的、不为人知但又有潜在应用价值的信息和知识[3]。综合考虑各种因素对生产动态的影响,从而更准确地制定降低抽油机井吨液百米耗电的措施,有必要将大数据分析技术应用到能耗评价系统中,建立“以降低采油系统能耗”为目标的数据库,并配置以数据回归分析、聚类分析、人工神经网络等数据挖掘算法,建立挖掘模型。
通过建设以降低采油系统能耗为主题的专业数据,从与采油相关的数据库中获取数据,并配置以数据回归分析、聚类分析、人工神经网络分析等数据挖掘算法,建立挖掘模型,形成数据挖掘平台,对生产过程采集到的数据进行挖掘分析,并以图表、曲线等方式进行可视化展示(图1)。
图1 大数据专业数据库总体设计
由于生产数据来源多样,存在结构化、非结构化、半结构化数据,并且测试工作量的增大伴随着仪器、人员造成的错误数据,因此针对此次“以降低采油系统能耗”为目标的数据库建设,涉及到的数据分析分为五个步骤。第一步是数据收集:采用全体取样的方式抽取与分析相关的所有结构化、非结构化及半结构化数据。第二步是数据质量分析:评估数据的正确性和有效性,此次数据质量分析用到的主要有值分析方法、统计分析方法、频次与直方图分析方法等。第三步是数据预处理:主要进行数据清理工作,通过填写缺失的值、光滑噪声数据、识别或删除离散点,并以解决不一致性的方式来“清理”数据。第四步是数据挖掘:对已进行过预处理的数据,通过制图、制表、方程拟合、计算特征量等手段探索数据的结构和规律,此次挖掘用到的主要有数据回归分析、聚类分析、人工神经网络等。第五步是现场应用:针对数据挖掘出的规律进行现场试验应用,并进行效果跟踪。数据分析流程设计见图2。
图2 数据分析流程设计
抽油机井吨液百米耗电是指原油在开采过程中把1 t液体从井下提升100 m所消耗的电能。单井吨液百米耗电的计算公式[4]为
式中:X为单井吨液百米耗电,kWh/(102·t);W为单井日耗电量,kWh;Q为单井日产液量,t;H为有效扬程,m。
在油田生产过程中,抽油机井吨液百米举升耗电是评价油井能耗状况的重要指标之一,是井下、地面等参数综合的结果。据现场经验可知,一般产液量、下泵深度、沉没度、含水率、抽汲液体黏度、冲程冲速、抽油机平衡率等诸多因素都可以影响吨液百米耗电,难以评价的因素还有热洗化防次数、对应注水井注水情况、抽油机型号、电动机功率等。虽然目前对影响抽油机井吨液百米耗电的因素有了一定了解,但还需要应用大数据分析技术找出各种因素之间的相关性。
在大数据专业数据库设计的基础上,配套嵌入数据回归分析、聚类分析、人工神经网络等数据挖掘算法,建立挖掘模型,对大量数据进行分析与预测。
1.4.1 数据回归分析
回归方法是处理变量之间的相关关系的一种数学方法。根据回归方法中变量的个数和回归函数的类型(线性或非线性)可以将回归方法分为一元线性、一元非线性、多元线性、多元非线性。另外,还有两种特殊的回归方式,一种在回归的过程中可以调整变量数的回归方法,称为逐步回归;另一种是以指数结构函数作为回归模型的方法,称为Logistic回归[5]。
通过分析吨液百米耗电与各因素之间的关系,主要应用一元线性进行权重分析,确定影响吨液百米耗电的主要因素;应用一元非线性进行合理沉没度的优选,系统效率与吨液百米耗电的分析等。
1.4.2 聚类分析
将物理或抽象对象的集合分为由类似的对象组成的多个类或者簇的过程称为聚类,由聚类所生成的簇是一组数据对象的集合,这些对象与同一簇中的对象相似度较高,与其他簇的相似度较低[6]。
通过研究吨液百米耗电在所要分析区块的分布,能够对数量较多的油井进行分类,发现高耗能油井,进而方便对吨液百米耗电指标的再评价,以及依据现场实际生产情况制定相应的措施。
1.4.3 人工神经网络
神经网络是分类技术中的重要方法之一。人工神经网络是一种应用类似于大脑神经突触连接的结构进行信息处理的数学模型。在这种模型中,大量的节点(或称为“神经元”,或“单元”)之间相互联接构成网络,即“神经网络”,以达到处理信息的目的[7]。
神经网络具有很强的信息处理及并行计算的能力,每个神经元对下一个神经元都有抑制或者兴奋的作用。从数学角度分析,这种关系可以用非线性映射函数来表示。人工神经网络的方法在分析油井吨液百米耗电中可以实现对历史数据进行训练形成记忆,并优化已建立的数学模型,使网络具有很好的容错性,以实现对后期数据的预测。
此次大数据分析案例以华北油田采油三厂971口油井数据为基础,结合抽油机井基础数据、功图数据、自动检测实时数据及系统效率等近150万条数据进行数据清洗、分类等工作,建立了针对抽油机井吨液百米耗电的主题数据库,并通过配套嵌入的相关数据挖掘算法,发现隐藏其中的相关规律,制定以降低抽油机井吨液百米耗电为目标的措施。
抽油机井吨液百米耗电是衡量抽油机能耗水平的重要指标。2017年,华北油田采油三厂平均单井吨液百米耗电为0.99 kWh/(102·t),系统效率为30.21%,抽油机电费占全厂总成本的6.54%。在含水上升、液量增加,国际油价持续低位徘徊的大环境下,提高抽油机系统效率、降低能耗具有重要意义。
通过对采集到的数据进行正态分布图、曲线图、柱状图、散点图等方式进行直观展示。以某采油工区为例,统计分析近期测量的160余口油井吨液百米耗电数据,绘制正态分布图;应用3σ准则划分边界条件进行质量控制,发现6口井严重偏离平均值,现场重新测量之后,发现是测试仪器故障。经过初步分析,可以实现对错误数据的检测及浅显规律的发现。
通过分析电动机、抽油机等因素与吨液百米耗电的关系,发现抽油机平衡率与能耗分布无明显规律。认为:目前利用峰值电流评价平衡率的方法值得商榷,若采用功率法能更准确地反应抽油机平衡情况。分析抽油机井吨液百米耗电与系统效率的关系发现,两者之间存在拟合度良好的幂函数关系曲线。
2.3.1 系统效率分析
选取所属某区块所有油井的吨液百米耗电数据及系统效率数据,做出两者之间的散点图,拟合出的幂函数关系曲线为y=23.99x-0.96,表明二者存在明显的幂函数曲线关系。进而按吨液百米耗电的不同对数据进行分类,做出各自区间的线性关系,分析发现直线1与直线2的斜率之比为10.4倍,相交点系统效率为9.7%;直线2与直线3斜率之比为5.6倍,相交点的系统效率为28.9%。这表明:当系统效率值小于9.7%时,能耗水平降低空间巨大,是重点治理区域;系统效率值在9.7%与28.9%的油井是普通治理区间;系统效率值大于28.9%的区域为高效区域。某区块油井系统效率与吨液百米耗电关系见图3。
图3 某区块油井系统效率与吨液百米耗电关系
2.3.2 沉没度分析
选取所属某区块所有油井的数据,以抽油机井吨液百米耗电及系统效率为研究对象,进行合理沉没度的确定。应用聚类的方法以50 m为间隔进行划分,求出每个区间内的平均沉没度、平均系统效率、平均吨液百米耗电;应用回归分析拟合出2条二次函数曲线(图4)。随着沉没度的增加,平均吨液百米耗电先减少、后增加,沉没度在300~700 m时平均吨液百米耗电最低;而系统效率随着沉没度的增加先增加、后减小,沉没度在300~900 m时平均系统效率最高。采用数学求导确定极值的方法,确定出所属区域合理沉没度为375~617 m。
图4 某区块油井沉没度与吨液百米耗电、系统效率聚类分析
2.4 高级数据挖掘
选取某区块所属油井的14个与吨液百米耗电相关的因素,建立如下数学模型:
式中:xn(i=1,2,3…n)为吨液百米耗电的影响因素。
式中:γ为吨液百米耗电对任意变量xi的偏导数。
γ绝对值的大小反映了变量xi对吨液百米耗电的影响程度。值越大,变量xi对吨液百米耗电的影响越显著,同时γ的正负值反映了该变量xi对吨液百米耗电的影响方向。值为正表明吨液百米耗电随变量xi值增加而增加。反之吨液百米耗电降低。
用单因素量xi下的偏导数的绝对值与所有因素偏导数绝对值之和的比值,表示吨液百米耗电敏感性程度的权重系数ω,即
进而进行权重分析,寻找影响吨液百米耗电的主要因素,并为后期制定措施指明方向。由表1可知,影响抽油机井泵效的因素敏感性程度大小排序为:产液量>泵效>冲速>泵径>冲程>原油黏度>含水率>悬点最小载荷>抽油机平衡度>泵深>抽油机载荷利用率>电动机载荷利用率>沉没度>悬点最大载荷。后续在制定降低吨液百米耗电的措施时应按所分析的次序优先进行调整。
表1 某区块油井吨液百米耗电影响因素排序
结合大数据分析成果,编制详细的节能措施方案,针对不同井况、不同生产情况制定措施。
1)针对产液量低、泵效低的问题,采取压裂、酸化、地质补孔等措施,提高产液量;对地层挖潜潜力不大的油井进行间开或安装抽油机变速运行智能控制装置,降低吨液百米耗电,节电率达21.66%。
2)针对冲程、冲速、泵径、泵深匹配关系不好的问题,在数据库建设的基础上,对历史数据应用神经网络模型进行训练,并结合杆柱等强度理论,开发了井下完井杆柱组合方式软件,系统调节冲程、冲速及井下杆柱配比。分析应用以来,调整冲程139次、调整冲速162次,优化泵径及杆柱组合581井次,年节电92.65×104kWh。
3)针对抽油机不平衡的问题,通过调整平衡度、皮带松紧程度、驴头对中、中轴尾轴的润滑等方式以提高地面效率,目前调整平衡167井次,调整皮带93井次、中轴尾轴润滑4000余次,年节电113.53×104kWh。
1)通过对抽油机井吨液百米耗电大数据的分析,为油井能耗挖潜提供了一定的借鉴依据。
2)以降低抽油机井吨液百米耗电为目标的大数据分析应用,配套嵌入数据回归分析、聚类分析、人工神经网络等各种数据算法,为油田大数据分析工作的应用,以及油田由工业化向信息化融合提供了新的思路。
3)现场应用证明,依据大数据分析结构,具体结合各单井实际情况而制定的节能措施,其效果显著,具有持续推广的意义。