段泽英,蔡贤明,滕卫卫,游 莉,马钰河
(新疆油田公司采油二厂,新疆 克拉玛依 834008)
新疆油田公司经过10多年的数字油田建设,于2008年建成数字油田,油田中心数据库包括勘探、开发、储运、生产辅助、经营管理等业务领域的各类数据,涉及油田开发的数据包括单井、区块的日月报数据、分析化验数据、试井与生产测井数据、井下作业数据、井史数据以及地理信息数据等,种类丰富齐全,质量达到标准要求,为生产数据分析应用提供了数据资源基础。2010年,新疆油田启动智能化油田建设工作,包括油气生产物联网(A11)项目及单井问题诊断和优化系统研发工作,加大了油田自动化数据采集的力度及智能化分析应用。通过近几年的研究与实践发现,智能油田的全面感知、分析预测、优化决策等均与大数据分析有关,根据油田大数据分析发现油水井生产规律,可以更好地指导油田生产及优化决策。
大数据首先具有四个主要特点:数据量大(Volume)、产生速度快(Velocity)、数据类型多(Variety),数据的真实性(Veracity),合称4V或4Vs。大数据由巨型数据集组成,其数据量超出人们采用常规方法在可接受时间内收集、使用、管理和处理数据的能力,但最终体现为价值,实现数据→信息→知识→智慧的转变。在油田生产中大数据分析的概念可理解为:在油田生产、管理中产生的具有连续变化、能够反映油田客观规律的各类数据,以及对这些数据的分析处理。
大数据的处理主要包括7个步骤,分别是:数据采集和提取集成、数据清洗、数据分析从而发现有价值的规律、建立分析预测模型、结果展示可视化和知识表达、结果验证,以及对模型的效果评估优化,如图1所示。
图1 油田生产大数据处理流程
结合目前新疆油田生产数据建设情况,以及油田生产应用需求,构建新疆油田大数据分析平台及体系架构,如图2所示,主要包
括数据抽取、分布式存储、大数据分析及展示应用4层架构。
数据抽取层主要是实现分布在各数据库或系统中的数据整合,并转换成适合数据挖掘或建模的形式,构建样本数据集;存储层主要是实现汇总数据、模型数据、分析数据以及元数据等各类数据的存储,相当于数据仓库;分析层是基于大数据建模算法和工具,挖掘数据中隐藏的模式或关系,采用数据建模软件(如SPSS Modeler、Hadoop等)建立分类或预测模型(规则、公式或方程式),从而生成预测结果,确定评估方法并利用测试样本,结合专家经验不断提升模型精度,辅助油田生产决策;数据应用层将建立的数据模型封装成可运行软件,包括建模算法的实现、数据的可视化和界面设计等,最终展示给用户使用,实现人机交互。
图2 大数据分析平台体系架构
通过上述研究分析总结出大数据分析需要的两大技术:一是大数据抽取及预处理技术,二是大数据分析技术。
数据抽取就是将多种结构和类型的数据抽取转化为单一的或便于处理的结构类型。不同时间、不同地点、不同名称的相同数据所表达的内涵和算法要求一致,是标准化、规范化的自然语言集合,便于计算机理解,是数据提取的关键。
数据清洗主要用于确定有用记录和字段,检查数据是否存在缺失、数值异常等情况,解决办法可用剔除法或使用估计值、平均值填补,错误数据可利用逻辑关系手动替换。
数据构建是为了满足大数据建模需求而创建的新字段,以作为特征参数,如平均值。
数据变换是把原始数据转换成为适合数据挖掘的形式,如归一化处理(概念、时间、度量、语义)等。
大数据分析主要包括聚类分析、因子分析、相关分析、回归分析、A/B测试以及数据发掘等,上述方法在油田常用的有聚类分析、因子分析、回归分析和数据发掘。
聚类分析是把具有某种相似特征的物体或者事物归为一类,目的在于辨别在某些特性上相似(但是预先未知)的事物,并按这些特性将样本划分成若干类,使在同一类内的事物具有高度同质性,而不同类的事物则有高度异质性。
因子分析是用少数几个因子去描述多个指标或因素间的联系,即将相互比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原数据的大部分信息。
回归分析是在一组数据的基础上,研究一个变量与其他变量之间的相关关系,寻找被随机性掩盖的变量之间的依存关系。通过回归分析,可以把变量间复杂的、不确定的关系变得简单化、有规律化。
数据挖掘是大数据时代的关键技术,是指从非完整的、海量的、有噪音的、模糊且随机的数据中挖掘隐含在内且人们未提前得知的有用信息的过程。一般来说,数据挖掘的功能有两类:描述和预测。描述性挖掘用于展现集体数据的一般特性,而预测性挖掘用于推算处理数据,完成预测目的。数据挖掘功能同目标数据的类型有关,有些功能适用于不同类型的数据,有些功能则只适用于某种特定数据。数据挖掘功能能够让人得知未知信息,提升数据价值,从而应用到不同领域。
异常井作为影响产量的主要因素之一,目前被越来越多的油田生产管理人员重视,原来的异常井发现主要依靠人工发现,需要人工查阅大量的油田生产资料才能最终确定,这种方式存在异常井检索工作量大、发现周期长的弱点,影响异常井的及时诊断和措施制订。采用聚类分析和数据发掘方法对异常井进行自动识别,根据异常井的定义:油井当天产量较上月产量波动大于正常范围的井为异常井,排除作业井、调开井、常关井及停电井等因素影响,并采用ASP.NET技术实现算法的编译,系统架构B/S模式进行发布,目前已广泛应用于油田日常生产,实现了异常井的及时发现,提高了进一步诊断的及时性,提高了员工工作效率,如图3所示。
图3 异常井识别及统计界面
异常井诊断作为油田生产必须的一项日常工作一直困扰着油田生产业务人员,目前,大部分油田异常井诊断主要依靠人工完成,人工诊断工作量大且受人为经验的影响,诊断符合率低,可能会导致后续措施制订失误,影响单井生产。因此,采用灰度图像处理技术和人脸识别算法建立抽油井特征功图库,通过油井当前功图与特征功图的相似度对比,实现油井工况的自动诊断,由于一种工况可能有多种表现形式,导致功图解释存在多种情况,因此,可采用因子分析法,分析每种工况下所关联的因子变化情况,建立参数诊断规则库,通过相关因子的指标项对比分析,确诊异常原因,如图4所示,为制订合理的进一步措施提供充分可靠的依据,从而提高单井的生产时率。
随着油田开发进入后期阶段,地层能量逐年匮乏,目前越来越多供液不足的井涌现出来,我们将其定义为间抽井(间歇出油的井),目前,新疆油田主要由人工制订下个月的间抽井开关井计划,但计划是否合理还需进一步验证,因此,如何更好地控制间抽井开关时间,对于开源节流、节能减排起着至关重要的作用。可采用因子分析和回归分析方法,挖掘影响间抽井开关时间的因素,如动液面、沉没度、液面上升速度等,建立分析预测模型,对模型曲线进行归一化处理,从而供业务人员合理制定间抽井开关制度,达到节能减排、提质增效的目的。
图4 异常井智能诊断界面
目前油田上对油井清蜡措施的实施都按照人工制订的计划执行,平均每口井1个月清蜡1次,这导致有些井还未结蜡就提前清、有些井已结蜡还未清等不合理情况时有发生,不但浪费人力物力,而且影响油井生产。采用因子分析方法通过油井历次结蜡周期、油井工况、清蜡方式以及用量等参数建立油井结蜡预测模型,采用回归分析方法构建预测模型分析曲线,分析曲线上每个清蜡节点时间,推算出该井的合理清蜡周期,从而指导油井合理有序地清蜡,提高油田精细化管理水平。
通过大数据分析能发现油田生产作业规律,可以很好地解决油田生产业务问题;通过对油田管理数据的分析,能够发现并解决管理中存在的问题和瓶颈;也可以通过各种相关数据的可视化对比分析,发现过去无法关注的问题,这些是大数据分析的核心价值所在,大数据应用的最终目标是预测未来,在认识客观规律的基础上进行分析预测,从而指导油田生产。
[1]葛春燕.数据挖掘技术在保险公司客户评估中的应用研究[J].软件,2013(1):116-118.
[2]杨泽民.数据挖掘中关联规则算法的研究[J].软件,2013(11):71-72.
[3]钟瑛,张恒山.大数据的缘起、冲击及其应对[J].现代传播:中国传媒大学学报,2013(7).
[4]April Reeve.大数据管理——数据集成的技术、方法与最佳实践[M].余水清,潘黎萍,译.北京:机械工业出版社,2014.
[5]邬贺铨.大数据的机遇与挑战[J].求是,2013(4).
[6]陈如明.大数据时代的挑战、价值与应对策略[J].移动通信,2012(17).
[7]卓安.基于P2P可伸缩架构的大数据分析平台研究与实现[D].北京:清华大学,2012.