李 淑,王 鹏,郭怡晓,安 静,毛 娜
(1.新疆油田重油开发公司,新疆 克拉玛依 834000;2.新疆油田公司数据公司,新疆 克拉玛依 834000)
油田企业在生产过程会产生大量的数据信息,如何将大量的数据信息进行有效整合并运用在企业生产和决策当中,已经成为油田企业运用数据挖掘技术所要解决的重要难点问题。
数据挖掘是利用计算机算法来对大数据进行数据的筛选、转换、挖掘等操作后,将收集的信息数据转化为有效信息。但数据挖掘操作过程并不需要收集和处理数据,只需要对结构化、半结构化、非结构化的数据进行准备、挖掘、结果分析。在数据准备阶段,通过对数据源进行数据选择和筛选后,在数据挖掘阶段,对转换的数据进行结果分析和模式评估,最终获取有效的信息数据。
数据挖掘技术主要具备以下四大特征:第一,虽然数据挖掘技术能够提供数量庞大且真实的数据信息,但是数据源及数据内容具有不确定性;第二,通过筛选、转换、挖掘、结果分析后的数据运用在油田企业商业领域的价值具有相对性;第三,油田企业在生产过程中采用数据挖掘技术的目的是满足客户需要,并将客户的需要作为企业数据提取和挖掘的主要关注对象;第四,挖掘和处理后的数据信息不仅具备有效性,同时更容易被客户接受,并将挖掘和处理后的数据信息用于指导企业的生产和活动。
基于数据挖掘技术的专项数据库内的数据较为广泛,其运用需求也非常多样化,检索需求也更为复杂,以往的数据库结构缺乏较高的灵活性来满足此种较为繁复的使用需求。因此,油田企业需要切实从用户层面来解析与规划数据库的体系结构,依据数据库的使用需求来确认解析的主题和各项指标,数据正式在数据库存储之前,需要经过数据抽取、转化等有序的处理流程。之后,再挑选相对适宜的存储模型,开展有效的组织,将数据存储于数据库之中,从而在其中解析挖掘具有价值的信息,为企业决策提供数据信息支持。
通常而言,基于数据挖掘技术的数据库体系结构可规划出3 个相对独立的数据层级,包括信息收集层、数据管控层与应用服务层。文章所提出的油田生产决策支持系统是由数据源层、数据收集层、数据管控层、数据解析层与数据展示层5 个层级所组成的体系结构。
数据源层主要存放油田生产过程中的大批量数据与解析决策阶段所需的外部数据。数据收集层从数据源层中抽取解析决策所需要的有关信息,之后将精准化处理与解析之后的数据集合到油田生产专项数据库之中。借助数据管控层对数据库之中的数据与数据源进行有效的存储与管控,依据多样化的运用需求来创建有效的集中管控分组。结合相应主题的数据集,数据解析层开展线上解析处理与数据挖掘工作,以实现数据的多层级解析与挖掘。之后利用数据挖掘工具将从数据库中挖掘的信息传入专家系统的专项库中,有效借助知识推理,实现定性解析辅助决策;而模型库则可以实现众多模型的整体化决策。最后,数据展示层将最终的解析结果以图表的形式更为直观地展现在决策者的面前,以帮助其更为科学地开展决策。
油田企业在生产过程中,采用数据挖掘技术必须遵循可视化操作、运用流程、信息综合三大原则。
油田企业在生产过程中,使用数据挖掘技术是为企业各部门及企业生产提供便利、科学、高效的操作指导和帮助,为企业的生产提供更为准确的数据信息服务,这就要求其在数据挖掘技术的最终结果、挖掘模型及挖掘过程具备可视化操作原则,将各生产流程和数据信息转变为可视化的图像和动态数据,帮助油田企业更好地全面掌控各生产数据信息。
油田企业在生产过程中使用数据挖掘技术的基本要求,就是遵循运用流程原则。企业必须明确数据挖掘的目标并做好充分的准备,遵循运用流程原则,对数据信息进行挖掘,并将数据信息转化为有效信息。
油田企业在生产过程中运用数据挖掘技术所要收集的信息内容具有多元化、复杂化的特征,所以不同客户所需要的信息要求存在内容上的差距。因此,油田企业对不同客户的信息采用数据挖掘技术时,需要遵循信息综合原则来进行综合性的信息处理,并对不同客户的信息根据其特征进行分类并展开研究,对不同客户的信息利用专门化的表格进行数据登记和整理。同时,根据石油的空间维度来对石油的分布情况和集中趋势进行研究和掌握。从客户角度进行数据挖掘和分析,能够帮助单位内部各部门进行有效的规划生产,并为决策者提供有效的信息依据,确保油田企业生产环节各项数据的公开化、透明化,以满足客户根据实际需要了解企业信息,以及提升油田企业的服务质量和企业社会形象的需求。
数据挖掘技术在油田企业生产中的应用,主要体现在企业信息化建设和财务分析两个方面。
3.1.1 数据准备
将数据挖掘技术运用在信息化建设当中的首要工作,就是要明确信息化建设的目标和面临的问题,对油田企业生产所面临的异常现象和问题采用分类分析法和聚类分析法进行数据分析。当油田企业数据信息出现异常变化以及超注欠注等异常问题时,油田企业需要及时对出现问题的异常井和泄露井进行检查,并根据实际的生产情况,优化和整合生产作业方案,及时对出现异常情况的井进行处理,确保油田企业的正常生产,切实提高油田企业生产的安全性与经济性。
3.1.2 数据库与数据模型构建
收集、存储油田企业生产过程中所产生的一系列数据构建数据库后,需要建立与收集信息匹配的数据模型,为下一步的数据挖掘工作做好准备。企业创建相应的数据模型用于数据挖掘工作,通过采用神经网络、模糊聚类、统计分析、关联规则等方法对油田企业生产过程中所产生的各类数据进行集成处理,将油田企业生产数据收集整理的信息按照一定的划分层次分为校验数据和训练数据。前者主要用于对匹配的模型进行检验,后者主要用于确定模型的求解参数。通过对油田企业各生产环节所产生的数据进行收集检验,并配套建立相应的数据模型,观察数据的各类变化,这是油田企业数据挖掘技术模型检验阶段的最终目的。
3.1.3 分析数据
企业各生产环节的数据在采集过程中容易出现样本误差,而较大的样本误差则会直接影响企业网络搭建的准确度和全面性,从而对企业网络识别功能造成巨大的破坏。因此,油田企业信息化建设运用数据挖掘技术进行信息采集时,必须要收集和筛选与分析阶段配套且合适的训练样本,通过油田企业财务部门技术人员丰富的工作经验和扎实的专业技术能力,以及对客户的实际需求来进行对应数据的整理和挖掘。一旦客户的实际需求无法通过数据采集模式获取时,客户会重新筛选适合自身实际需求的数据信息,从而进行参数的确定以及配套数据模型的构建。
3.2.1 财务指标中的具体应用
油田企业财务分析工作阶段采用数据挖掘技术,主要是对传统的财务分析进行改进。首先将传统的财务事后分析方法转变为数据挖掘技术下的实时分析。过去,油田企业财务部门主要是依靠会计核算系统,在对各项数据进行收集与分析的基础上,进行各类数据指标的计算。而现阶段采用以数据挖掘技术为主要手段的财务分析能够实现物流、生产、财务各系统与部门之间的数据联系和实时的数据交流,极大满足了各部门和系统对于实时数据的需求。其次,以数据挖掘技术为主的财务分析能够实现对各生产阶段的数据层级和作业成本进行精准的传输和分配,极大地提高了数据输出与财务指标计算的精准度。
3.2.2 财务分析平台的具体工作流程
基于数据挖掘技术构建的企业财务分析平台,需要为油田企业的决策和实际生产提供有价值的信息,而不是简单地进行数据模型的构建和套用复杂的数据算法。因此,基于数据挖掘技术的油田企业财务分析平台,需要对油田企业生产的各类数据进行挖掘,主要内容包括明确问题、数据集成和准备、数据结果分析和知识同化。
(1)明确问题
采用数据挖掘技术,基于油田企业生产所产生的各类数据,明确所要分析的问题,同时对油田企业内外部信息和数据进行有效整合、提取和转换,导入财务分析数据库。
(2)数据集成和准备
只有实现财务数据信息在不同用户和系统间的传递和共享,才能体现财务数据的价值,但在数据传递和共享过程中极易出现数据的破坏和泄露。油田企业需要在数据传输和共享过程中,重点关注财务数据信息存在的问题和解决方法的实效性,并根据不同用户的需求和问题选择合适的数据。
(3)数据结果分析和知识同化
油田企业在对财务分析所挖掘的数据信息进行结果的评价和分析过程中,财务部门工作人员凭借多年的工作经验,运用配套的数据模型对数据进行检验,一旦挖掘数据结果存在异常,财务部门需要及时调整数据挖掘模型,开展后续阶段再挖掘工作。
油田企业在财务分析阶段通过问题的识别、数据的集成和准备、模型的建立、结果的评价后,需要对数据挖掘最终结果进行分析并将有效知识运用到企业财务系统当中,实现知识的同化,为油田企业的生产和财务工作的开展提供重要的决策依据。
油田企业将数据挖掘技术运用到信息化建设和财务分析当中,可以对企业生产所过程中产生的各类数据进行有效挖掘、分析,配套构建数据模型,并从大量的数据当中提取有效数据,用于提高油田企业的生产效率和决策的全面性、科学性。