大港油田勘探开发信息化数据质控体系建设的实践

2013-09-21 10:09:24陈哲徐庆范德军
中国科技信息 2013年15期
关键词:定义规则质量

陈哲 徐庆 范德军

中国石油大港油田分公司信息中心,天津 300280

1. 背景

1.1 大港数字油田建设现状

大港油田公司通过启动勘探开发主数据库建设,目前专业数据覆盖了钻井、测井、录井、分析化验、油气生产等专业数据。各个专业数据库和主库的建设都是由资源建设模式统一录入的,随着信息化建设的深入,目前迫切需要解决数据入库的常态化问题。通俗的说,就是按照井的生命周期、油藏的生命周期在各个事件点都由对应的数据产生的责任人录入对应的数据,并能够按照数据的质控规则实现监控和考评,以最终提高数据的准确率和时效性。同时由于建设过程模型设计还有很多不完善的方面,随着应用的深入,数据模型变更不可避免,如何做到清晰的模型描述,保证模型与物理模型统一,并为后期各种采集、查询等应用系统建设提供坚实的基础,都是当前面临的主要问题。

1.2 数据质量定义

一般来说,数据质量管理框架包括三部分,即:

(1)数据产生阶段的质量管理与控制;

(2)数据整编阶段的数据质量描述;

(3)数据共享阶段的数据质量评价与反馈。

数据质量评价主要有三个指标,也就是我们平常所说的“齐、全、准”,这里我们细化一下这几个字的含义:

(1)齐:这里的齐主要指管理对象的数据齐,比如:对于数据油藏和数字油田建设就是管理的井、油藏等的实体对象要求全部入库。

(2)全:是指对于一个实体对象的属性数据全,应该包含钻井数据、录井数据、测井数据等。

(3)准:准的含义有两个,准确和准时。准时是指在实体事件发生后的一个特定的时间内保证相应的属性数据入库,准确是指数据的准确率,也就是“在一定观测条件下,观测值及其函数的估值与其真值的偏离程度”。

数据质量是指数据满足特定用户期望的程度。数据质量必须包括下面六个基本要素:完整性 、唯一性 、一致性 、精确性 、合法性 、及时性。完整性主要包括实体不缺失、属性不缺失、记录不缺失和字段不缺失四个方面;唯一性主要指主键唯一和候选主键唯一;一致性指统一数据来源、统一存储和统一数据口径;精确性指指计量误差、度量单位等方面的精确程度;合法性主要包括格式、类型、域值和业务规则的有效性;及时性指数据刷新、修改和提取等操作的及时性和快速性;

同时,数据质量也可以从两个方面来理解:数据本身的质量和数据的过程质量。

数据本身质量

数据的真实性:数据必须真实准确的反映实际发生的业务。

数据的完备性:数据的完备性是说数据是充分的,任何有关操作的数据都没有被遗漏。

数据的自洽性:数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这种约束描述了数据的关联关系。数据必须能够满足这种数据之间的关联关系,而不能够相互矛盾。

数据的真实性、完备性、自洽性是数据本身应具有的属性,称为数据的绝对质量,是保证数据质量的基础。

数据过程质量:在利用和存贮数据的过程中所产生的数据质量,包括使用质量、存贮质量和传输质量,称之为过程质量。

数据的使用质量:数据的使用质量是指数据被正确的使用。再正确的数据,如果被错误的使用,就不可能得出正确的结论。

数据的存贮质量:数据的存贮质量是指数据被安全的存贮在适当的介质上。所谓安全是指采用了适当的方案和技术来抵制外来的因素,使数据免受破坏,备份是我们常使用的技术,包括异地备份和双机备份。

数据的传输质量:数据的传输质量是指数据在传输过程中的效率和正确性。在现代信息社会中,数据在异地之间的传输越来越多,保证传输过程中的高效率和正确性非常重要。

本方案所涉及的数据质量是指数据的本身质量。

在系统发展的不同阶段,系统对数据质量的关注点也有所不同。早期对数据质量的关注点主要是提高数据准确性,随着系统功能和定位的不断延伸,用户关注的重点逐步由数据准确性扩展至完整性、一致性、及时性等方面。

1.3 数据质量管理体系建设意义

目前大多数企业存在多地区,多产品,多业务,多系统的环境,在数据信息,报表统计,业务分析和业务单元定义上存在数据不一致,不完整,不统一以及不真实和不及时的情况,这样让业务人员,管理者,信息使用者存在误解,导致决策出现偏差,同时低下的数据质量往往造成开发出来的系统与用户的预期大相径庭,而在维护阶段,也出现维护成本不断上升,工作量加大,系统难以扩展。这样的情况急切等待数据质量管理的标准和指导方案。

2.数据质控体系架构

数据质量管理包括数据质量的分析和验证,因此有数据的分析流程和数据的管理流程,如图2.1。

首先是分析源数据系统,从业务和数据本身的角度剖析,包括对数据源中存储的逻辑定义,表结构,视图结构,约束,触发器,唯一性等等,得出相关的定义。由定义以及定义的关联产生相应的业务规则和数据逻辑规则。

数据的验证引擎利用这些产出的规则,对源数据和目标数据进行校验,并对应校验规则保存校验结果;修正引擎用业务和数据逻辑的修正规则对校验结果进行自动修正和提供手动修正接口,同时保留修改前后的记录;

图2.1 数据分析和管理流程图

在数据质量管理模型中,需要对数据检验结果和修正结果进行分析,利用校验结果发现数据源和数据流程中存在的问题,同时可以参考修正记录,对数据的质量提出适当的改进策略,并采取适当的行为。

一般来讲,数据质量管理的项目包括的主要任务有:

源系统剖析:源数据剖析的深度和业务层次,来定义数据语义的一致性,将企业相关数据元就行分析,看看各系统间数据的不同部门对数据的定义,这是确定数据含义是否一致。

元定义:原系统的数据剖析是对分析各个原系统的数据存储的结构,包括表数据,视图数据,Excel数据等以及计算公式,比较方式,查看数据方式,都数据剖析的范围,这需要一个比较可行的方式,对于数据库中的内容,需要有相应的导出完整数据字典的结构过程,能在Excel中修改,也能导入到制定的表中进行保存,同时还能定期检查表结构是否发生变化。

数据验证:这里的验证有几种,数据结构验证,还有数据一致性,完整性,唯一性和准确性的验证,每一种验证就需要建立固定的可变化的验证规则,而且验证规则,验证体,验证结构都需要记录日志和验证结果,同时还需要提供接口给UI,最好能做到让业务人员自己更新验证规则,自己查看验证过程和结果,为数据修补引擎提供接口。

数据修正:针对不同类型的数据验证规则验证的数据进行更新,有指定规则自动更新的,有人工干预修改的,主要是能有UI接口,提供修改功能和修改策略,以及记录修改日志和标记。便于和正常数据区分。

元数据管理:数据质量的元数据管理是贯穿整个解决方案体系,从数据剖析到最后的质量检测和管理部分,记录管理元数据,操作元数据,业务规则元数据,验证规则和修正规则等元数据,它是数据质量管理模型的灵魂。

检验分析:这里的分析报表,如可以利用6Sigma的原理,对数据质量情况进行分析,可以预先制定标准和参考依据,对数据质量进行等级划分。方便企业制定数据质量管理制度。也可以按照数据的检验结果,按照不同的数据源划分,检测数据误差来源点,逐步解决数据质量问题。

数据质量管理标准和等级定义:这部分是数据质量管理的汇总部分,借鉴系统剖析,元定义,数据验证和修正,以及元数据和检验分析等部分的汇总和指标而建立的,意在提出较完整的数据质量管理标注,并由此划分等级。

进一步可以把数据质量管理项目的任务进行细化分解:

1)、数据分析和定义:

a、源数据系统剖析范围和标准

b、数据语义的一致性的定义标准

c、数据元的完整性的定义标准

d、数据体的唯一性的定义标准

e、数据描述的准确性的定义标准

f、业务的关联性的定义标准

g、数据粒度的定义标准

h、数据生命周期的定义标准

2)、数据质量问题发现:

a、业务规则定义标准和方案

b、数据业务逻辑定义

c、数据量定义

d、数据验证引擎实现方案

3)、数据质量问题修正:

a、数据自动修改条件和标准

b、数据手动修改条件和标准

c、数据修补引擎实现方案

4)、数据质量元数据管理:

a、数据分析和定义部分元数据存储和管理

b、数据质量问题发现部分元数据存储和管理

c、数据质量问题修正部分元数据存储和管理

d、管理型元数据存储和管理

5)、数据质量检测分析:

a、数据质量评估范围

b、检测分析报告内容定义

3.数据质控体系

3.1 系统体系结构

系统整体设计体系就主要由元数据管理、质量规则管理、质量监控程序调度、质量监测结果展示、质量分析报告和质量报警系统等构成。

图3.1 系统体系结构图

3.2 系统设计思路

针对石油勘探开发的数据特点,石油的勘探开发数据都是面向实体进行衍生的,所有的数据都是伴随着实体的生命周期产生的。因此数据检查也是伴随着实体生命周期进行的,在不同的生命周期,必须产生相应的准确数据。

图3.2 系统程序流程简图

4.建设实践

为了保证大港油田目前与后期勘探开发中心主库建设的顺利进行,本项目承担着大港油田勘探开发数据主库建设的基础工程,从模型管理支持和数据质量保障两个方面保证辽河油田的勘探开发数据主库建设的顺利实施。

其一般的程序流程是数据采集、数据检查、质量报告、处理整改和最终总结考评。

4.1 模型管理建设实施

大港油田主库目前将包括几十个各种专业数据,这些系统的模型管理和维护是相当艰巨的工作。通过统一模型管理实现了数据模型统一维护,同时由于数据采集管理平台采用MDA(模型驱动架构)进行建设的,因此模型管理也是通用数据采集管理平台的基础。

模型管理平台主要实现下面的功能:

字典管理:统一管理系统中所有的分类数据;

量纲管理:满足用户对多种单位制的要求,实现单位的自由转换;

智能建表及元数据管理:能够在浏览器中建立基础数据表并进行元数据描述;

模型日志管理与维护:数据模型修改,同时生成模型修改日志,日志文件可作为多个系统模型同步依据;

数据模型维护:对后期模型修改完全在系统中进行,不需要手工修改数据表对象,并同时完成数据模型更新;

模型约束管理:包括主键、唯一性、外键、引用关系全系列约束管理;

4.2 数据采集流程梳理

以井为对象对钻井、录井、测井、分析化验、开发生产、测试、试油与酸化压裂、措施修井等专业数据进行采集流程梳理,实现数据流与业务流程的统一,找到所有数据在油田勘探开发管理过程的数据源点,并把所有井在生命周期的不同阶段数据管理单位和责任人。形成数据采集流程规范和所有专业数据表的数据质量规范。

4.3 数据责任人管理系统

按照数据生命周期,划分不同专业数据质量责任人,一般以油藏为单元进行数据责任人划分和确定。确定一个油藏下所属井的数据质量责任归属,同时也作为在数据质量出现问题时的人员提醒对象的逻辑确定。

4.4 数据质量规则描述系统开发

基于已有数据库描述的元数据信息,扩展数据质量规则描述系统,对CWM(公共数据仓库元模型)和JESS(Java专家系统脚本语言)两种模式在油田数据质量管理应用的适应性进行论证,选择合适的模式进行规则描述系统的开发。

元数据模型质量描述支持:

字符:支持空值检查、数据格式检查(正则表达式)、枚举类型无效引用检查。

日期:日期类型值域范畴,根据不同的日期类型(年度、月度、日、分时)等数据类型,检查数据的日期数据的规范。

整形:枚举类型无效引用检查,数据值域检查;

数字:数据值域检查;

外键引用及依赖关系:对于引用和外键是否被引用数据缺失。

JESS作为被基于CWM的模型方法数据质量控制的一种扩展,主要用于对数据时限内缺失数据的检查,如在完井一个时限内必须完成测井数据的入库。

4.5 数据质量检查引擎开发子系统开发

利用任务管理等引擎,扩展数据质量检查引擎的开发,能够实现可定制的数据质量检查系统,按照数据时效特征、按照日、周、月的周期进行数据质量检查。

4.6 脏数据查看和提醒管理系统

数据管理者可以自动查看由规则检查出来的脏数据或者可疑数据列表。系统能够根据数据管理归属关系,自动用即时通讯对数据管理人员的进行提醒。要求数据管理者在时间期限内进行整改。

4.7 数据整改系统开发

针对需要录入的数据和整改的数据,定制对应数据表的采集程序,用户只要在待处理工作的列表点击进入进行整改,由于工作量比较大,因此本次只完成两个专业的数据整改和采集的程序开发,在整改界面中以红色表示提示数据错误原因,及正确数据的规范。

4.8 数据质量综合考评系统

数据质量检测报告包括两个部分的内容:数据质量日志系统和数据质量考评系统,对于每项数据质量的问题,系统都提交数据质量日志,包括数据脏数据产生原因、类别等信息。以便在后期开发数据采集系统进行检测和注意。数据质量考评系统给领导对于各单位进行数据质量监控和检查的依据。建立一个数据质量的考评权重评分机制,对所有的采油单位和二级单位进行考评。

4.结语

数据质量管理系统的实施对企业可能产生显著经济效益,主要体现在:

1)模型管理与质量控制系统的建立规范了数据采集、提高了数据质量。对于以数据为基础的勘探开发信息系统,有着重要的现实意义。

2)提高了数据管理的效率、明确了采集流程中各岗位的职责。

3)使单井数据按照井的生命周期、油藏的生命周期在各个事件点都有对应的数据管理者录入对应的数据,并能够按照数据的质控规则实现监控和考评,以最终提高数据的准确率和时效性

4)使报表、曲线有更加准确的呈现,从而为领导做出正确快速的决策奠定了基础。

5)对油田未来的发展有着积极的影响,大港油田自二十世纪六十年代投入开发至今,已经进入开发的后期阶段,良好的数据质量成为利用新技术手段充分挖掘现有剩余资源潜力的基础。

6)目前大港油田正在建设的数字油田项目对大港油田开发生产有着重要意义,良好的数据质量在一定程度加强了数字油田在开发生产中所起到的作用。

[1]李庆阳,彭宏. 面向数据质量的ETL框架的设计与实现 [期刊论文].计算机工程与设计,2010(9)

[2]孙水华,林志强. 企业决策支持系统ETL建构技术研究 [期刊论文].福建工程学院学报,2011(1)

[3]王秋楠,周连喆. 基于数据仓库的一种通用ETL工具的设计与实现 [期刊论文].电脑知识与技术,2008(26)

[4]袁小一,苏智星. 浅谈特色数据库元数据的建立 [期刊论文].晋图学刊,2005(05)

[5]商光娟. 有效的数据质量管邢体系--21世纪管理的基石 [期刊论文].航空标准化与质量,2005(02)

[6]陆映桥. 油田信息化建设中的标准化 [期刊论文]. 中国标准化 , 2004(8)

[7]李世吉. 数据挖掘技术在油田监控系统中的应用 [期刊论文]. 电脑学习,2008(6)

[8]张耀堂. 油田信息化建设中的标准化 [期刊论文]. 中国标准化 - 2004(8)

[9]李文玉. 面向金融行业数据仓库的数据质量控管的研究与实现 [学位论文 ],2009

[10]胡建伟,赵志勇,薛运华 . 数据质量和数据清洗关键技术研究 [学位论文],2002

猜你喜欢
定义规则质量
撑竿跳规则的制定
“质量”知识巩固
数独的规则和演变
质量守恒定律考什么
做梦导致睡眠质量差吗
让规则不规则
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐败规则对我国的启示
成功的定义
山东青年(2016年1期)2016-02-28 14:25:25
质量投诉超六成
汽车观察(2016年3期)2016-02-28 13:16:26
修辞学的重大定义
当代修辞学(2014年3期)2014-01-21 02:30:44