陈芳莉+++陈新荣
【摘 要】 数据质量管理是数据管理的重要环节,本文描述了一种井数据质量成熟度闭环管理流程的框架,这个框架集成了多个商业软件(EnergyIQ,TGS,Perigon)在石油勘探开发数据管理方面的先进经验,定义了从原始数据自动采集、校验、业务工作环境应用,以及业务研究知识的回存等环节,可以有效提高数据质量成熟度。
【关键词】 数据质量 成熟度 闭环流程
1 背景
数据质量管理是数据管理的重要环节[1]。没有经过质量控制的数据通常是不完整的、质量未知、不容易被采纳利用;如果最终用户利用这些质量未知的数据,就可能影响研究成果结论的准确性,进而对企业造成不良影响。如何找到一种办法,能够对不同来源不同种类的数据进行加载、集成和质量校验,使其迅速变为可以利用的数据资源,是摆在企业面前的大问题。拿油井数据来说,如果有一系列便捷的软件工具,帮助管理员对数据质量和可靠性进行检验和提高,保证油井数据在整个生产周期都是可用状态,将大大提高生产管理和科研工作效率。经过近三十年的历程,数据质量管理研究取得了比较系统的成果[2],无论哪一种成果都离不开数据的标准和数据质量检验的规则。本文描述了一种井数据质量成熟度闭环管理流程的框架,这个框架集成了多个商业软件(EnergyIQ,TGS,Perigon)在石油勘探开发数据管理方面的先进经验,包含企业主数据标准化存储、数据可视化显示、数据发布、向业务系统提供结构化和非结构化数据等功能,是一种石油勘探开发数据质量管理的有效途径。
2 数据质量成熟度闭环管理流程的概念[3]
数据质量成熟度闭环管理流程定义了从原始数据自动采集、校验到应用于业务工作环境,以及业务研究知识的回存,一个完整的生命周期。环中的不同节点说明了不同时期数据的成熟度。如图1。
对不同规模的企业,闭环流程中数据处理环节不一样多。但都是要完成从原始数据到业务可用数据,进而变为知识的过程。图1所示的闭环流程主要包含四个阶段。
(1)原始数据加载(As-is):这种状态下,数据不做任何质量控制,直接进入数据库。
(2)信息技术进行质量检查(IT QC):这个阶段通过软件程序进行自动检验和纠正。
(3)地质科学家进行质量检查(Geoscience QC):这个阶段对数据进行处理,满足业务的具体需求。这需要手工干预来完成,如进行测井曲线的拼接或者分段,同时处理数据质量问题。
(4)地质科学家数据分析(Geiscience Analysis):这部分包括研究成果知识的捕获,对数据的修正和补充后回存到主数据库中。
2.1 原始数据加载(As-is)
这是数据管理闭环流程的第一个阶段,多种类型的数据在这个阶段被快速自动化加载到系统中,并被设置为优先访问的数据。
这个阶段的主要挑战是不同来源的数据同时加载到一个数据库中,通常遇到WELL ID不统一的问题,需要一个标准的命名规范,PPDM标准里的井ID结构的建议可以参考。这个阶段的主要校验手段是数据库结构和约束,确保数据类型和数据精度的正确。
2.2 信息技术进行质量检查(IT QC)
信息技术进行质量检查(IT QC)阶段主要是应用必要的数据转换和校验规则,确保数据可以利用。数据转换的例子是测井数据。测井曲线数据初始阶段可能以原始的DLIS格式存放,之后被转换为标准LAS文件进行观察和分析。在这个阶段,应用“预防性法则”,所有无意义的数据会被截获,留下的值都是合理有价值的。例如,会应用一组规则,确保所有井的深度值都在井的真正深度底界范围内。所有的转换和校验都是自动激活的,这个阶段的数据转换和校验优先于业务。
2.3 地质科学家进行质量检查(Geoscience QC)
在这个阶段的数据质量检查需要更高业务水平的用户参与,有可能会需要专门的技术人员来操作。例如分析分段测井曲线数据,进行拼接形成一个从顶界到底界的完整井筒剖面。这个阶段要应用更加严格的数据规则,有时还需要有经验的数据管理员痛下决心。这个阶段应用的“侦探法则”,需要通过与其它相关数据进行比对和分析,来判断数据的正确性。例如,地面海拔的值在误差允许的范围内,但却与数字高程的值相差甚远。
2.4 地质科学家数据分析(Geiscience Analysis)
在这个阶段,地质科学家利用多个工具对数据进行仔细分析,这个阶段的数据应该有值得信赖的成熟度,再不需要花费时间进行数据检查。发现异常值时,需要自问一下这是一个真的错误,还是代表一个物理的异常,通常需要更深的调查才能找到原因。
一旦地质科学家完成了数据分析,或者增加了注解说明,或者更新了数据,这些工作内容要作为知识按照一定工作流程写入到主数据库中。流程要尽可能简单,方便后来人对数据的理解和应用。只要企业在这个区域的勘探开发工作不停止,数据就会被不同的地质科学家用到,不同的理解和注释被标注到数据上,不断被写入主数据库。
3 数据质量成熟度
在数据管理闭环流程里,数据不断被检查和应用的过程中,数据的成熟度是不断提高的,数据会被转换为信息和知识,用户对数据的信任度提高,更多的时间用于技术分析。在数据管理闭环流程中,数据质量成熟度可以用来警示风险。一些企业忽略了IT QC阶段的重要性,从而导致一些重复工作和损失。
数据管理闭环流程的不断循环,能不断提高数据的准确性。例如自动采集的地面海拔的值可以是任何有效数字值,IT QC阶段的“预防性法则”能将此值控制在一个可以接受的范围内。Geoscience QC阶段的“侦探法则”可以通过与数字高程对比,进一步缩小错误值的概率。最后通过地质科学家分析阶段的应用,这个数据值会在其他相关信息如测井曲线、邻近井、区域地质数据中得到更进一步的验正。
另一个说明数据质量成熟度不断提高的例子是目标地层的颗粒密度。纯净石英的颗粒密度值为2.65gm/cc,因此一个干净成熟的石英砂石密度为2.65gm/cc。应用了“预防性法则”:加载颗粒密度数据到井数据库时,由于没有其他参考条件,IT QC过程会将颗粒密度值控制在1.9-4.4 gm/cc范围内。而应用“侦探法则”,如果确定是砂岩,数据值会被控制在2.65gm/cc上下10%的浮动范围。有时有效值范围也会扩大,让一些异常值暴露出来,因为这些看起来异常的颗粒密度值可能是正确的,而深度却可能错误地恰好落到白云岩的层位,其颗粒密度在3.1gm/cc。地质家在以上工作的基础上进行油藏分析,可能会把有效值范围扩大,以包含任何现场可行的异常值,从而暴露出一个参杂长石的砂岩地层。从一个岩性分析判断的过程,会衍生出一系列地层学结论的变化,从而影响到勘探开发决策。可见数据质量成熟度的重要性。
4 结语
企业对数据的依赖程度不断加大,数据质量的好坏直接关系到信息的准确程度[4],数据管理闭环流程是一个不断提高数据质量成熟度的工作理念,对勘探开发研究工作具有非常重要的意义。具体实现要根据企业实际情况。不管采用怎样的数据库架构和数据管理流程,要实现数据质量的不断提高,就必须要有完善的数据标准、灵活的数据展示和应用工具,以及数据格式转换和支持专业应用的软件接口。
参考文献:
[1]黄向阳,多学科视角下的统计数据质量管理.商业经济与管理,2011.9.
[2]宋敏等.国外数据质量管理研究综述.情报杂志,2007,2.
[3]Implementing the Data Management Continuum ,steve Cooper,Scott Schneider,Grant Monaghan 17TH PNEC论文集.
[4]朱旻等.数据质量管理与企业信息化建设.计算机时代,2005.6.endprint
【摘 要】 数据质量管理是数据管理的重要环节,本文描述了一种井数据质量成熟度闭环管理流程的框架,这个框架集成了多个商业软件(EnergyIQ,TGS,Perigon)在石油勘探开发数据管理方面的先进经验,定义了从原始数据自动采集、校验、业务工作环境应用,以及业务研究知识的回存等环节,可以有效提高数据质量成熟度。
【关键词】 数据质量 成熟度 闭环流程
1 背景
数据质量管理是数据管理的重要环节[1]。没有经过质量控制的数据通常是不完整的、质量未知、不容易被采纳利用;如果最终用户利用这些质量未知的数据,就可能影响研究成果结论的准确性,进而对企业造成不良影响。如何找到一种办法,能够对不同来源不同种类的数据进行加载、集成和质量校验,使其迅速变为可以利用的数据资源,是摆在企业面前的大问题。拿油井数据来说,如果有一系列便捷的软件工具,帮助管理员对数据质量和可靠性进行检验和提高,保证油井数据在整个生产周期都是可用状态,将大大提高生产管理和科研工作效率。经过近三十年的历程,数据质量管理研究取得了比较系统的成果[2],无论哪一种成果都离不开数据的标准和数据质量检验的规则。本文描述了一种井数据质量成熟度闭环管理流程的框架,这个框架集成了多个商业软件(EnergyIQ,TGS,Perigon)在石油勘探开发数据管理方面的先进经验,包含企业主数据标准化存储、数据可视化显示、数据发布、向业务系统提供结构化和非结构化数据等功能,是一种石油勘探开发数据质量管理的有效途径。
2 数据质量成熟度闭环管理流程的概念[3]
数据质量成熟度闭环管理流程定义了从原始数据自动采集、校验到应用于业务工作环境,以及业务研究知识的回存,一个完整的生命周期。环中的不同节点说明了不同时期数据的成熟度。如图1。
对不同规模的企业,闭环流程中数据处理环节不一样多。但都是要完成从原始数据到业务可用数据,进而变为知识的过程。图1所示的闭环流程主要包含四个阶段。
(1)原始数据加载(As-is):这种状态下,数据不做任何质量控制,直接进入数据库。
(2)信息技术进行质量检查(IT QC):这个阶段通过软件程序进行自动检验和纠正。
(3)地质科学家进行质量检查(Geoscience QC):这个阶段对数据进行处理,满足业务的具体需求。这需要手工干预来完成,如进行测井曲线的拼接或者分段,同时处理数据质量问题。
(4)地质科学家数据分析(Geiscience Analysis):这部分包括研究成果知识的捕获,对数据的修正和补充后回存到主数据库中。
2.1 原始数据加载(As-is)
这是数据管理闭环流程的第一个阶段,多种类型的数据在这个阶段被快速自动化加载到系统中,并被设置为优先访问的数据。
这个阶段的主要挑战是不同来源的数据同时加载到一个数据库中,通常遇到WELL ID不统一的问题,需要一个标准的命名规范,PPDM标准里的井ID结构的建议可以参考。这个阶段的主要校验手段是数据库结构和约束,确保数据类型和数据精度的正确。
2.2 信息技术进行质量检查(IT QC)
信息技术进行质量检查(IT QC)阶段主要是应用必要的数据转换和校验规则,确保数据可以利用。数据转换的例子是测井数据。测井曲线数据初始阶段可能以原始的DLIS格式存放,之后被转换为标准LAS文件进行观察和分析。在这个阶段,应用“预防性法则”,所有无意义的数据会被截获,留下的值都是合理有价值的。例如,会应用一组规则,确保所有井的深度值都在井的真正深度底界范围内。所有的转换和校验都是自动激活的,这个阶段的数据转换和校验优先于业务。
2.3 地质科学家进行质量检查(Geoscience QC)
在这个阶段的数据质量检查需要更高业务水平的用户参与,有可能会需要专门的技术人员来操作。例如分析分段测井曲线数据,进行拼接形成一个从顶界到底界的完整井筒剖面。这个阶段要应用更加严格的数据规则,有时还需要有经验的数据管理员痛下决心。这个阶段应用的“侦探法则”,需要通过与其它相关数据进行比对和分析,来判断数据的正确性。例如,地面海拔的值在误差允许的范围内,但却与数字高程的值相差甚远。
2.4 地质科学家数据分析(Geiscience Analysis)
在这个阶段,地质科学家利用多个工具对数据进行仔细分析,这个阶段的数据应该有值得信赖的成熟度,再不需要花费时间进行数据检查。发现异常值时,需要自问一下这是一个真的错误,还是代表一个物理的异常,通常需要更深的调查才能找到原因。
一旦地质科学家完成了数据分析,或者增加了注解说明,或者更新了数据,这些工作内容要作为知识按照一定工作流程写入到主数据库中。流程要尽可能简单,方便后来人对数据的理解和应用。只要企业在这个区域的勘探开发工作不停止,数据就会被不同的地质科学家用到,不同的理解和注释被标注到数据上,不断被写入主数据库。
3 数据质量成熟度
在数据管理闭环流程里,数据不断被检查和应用的过程中,数据的成熟度是不断提高的,数据会被转换为信息和知识,用户对数据的信任度提高,更多的时间用于技术分析。在数据管理闭环流程中,数据质量成熟度可以用来警示风险。一些企业忽略了IT QC阶段的重要性,从而导致一些重复工作和损失。
数据管理闭环流程的不断循环,能不断提高数据的准确性。例如自动采集的地面海拔的值可以是任何有效数字值,IT QC阶段的“预防性法则”能将此值控制在一个可以接受的范围内。Geoscience QC阶段的“侦探法则”可以通过与数字高程对比,进一步缩小错误值的概率。最后通过地质科学家分析阶段的应用,这个数据值会在其他相关信息如测井曲线、邻近井、区域地质数据中得到更进一步的验正。
另一个说明数据质量成熟度不断提高的例子是目标地层的颗粒密度。纯净石英的颗粒密度值为2.65gm/cc,因此一个干净成熟的石英砂石密度为2.65gm/cc。应用了“预防性法则”:加载颗粒密度数据到井数据库时,由于没有其他参考条件,IT QC过程会将颗粒密度值控制在1.9-4.4 gm/cc范围内。而应用“侦探法则”,如果确定是砂岩,数据值会被控制在2.65gm/cc上下10%的浮动范围。有时有效值范围也会扩大,让一些异常值暴露出来,因为这些看起来异常的颗粒密度值可能是正确的,而深度却可能错误地恰好落到白云岩的层位,其颗粒密度在3.1gm/cc。地质家在以上工作的基础上进行油藏分析,可能会把有效值范围扩大,以包含任何现场可行的异常值,从而暴露出一个参杂长石的砂岩地层。从一个岩性分析判断的过程,会衍生出一系列地层学结论的变化,从而影响到勘探开发决策。可见数据质量成熟度的重要性。
4 结语
企业对数据的依赖程度不断加大,数据质量的好坏直接关系到信息的准确程度[4],数据管理闭环流程是一个不断提高数据质量成熟度的工作理念,对勘探开发研究工作具有非常重要的意义。具体实现要根据企业实际情况。不管采用怎样的数据库架构和数据管理流程,要实现数据质量的不断提高,就必须要有完善的数据标准、灵活的数据展示和应用工具,以及数据格式转换和支持专业应用的软件接口。
参考文献:
[1]黄向阳,多学科视角下的统计数据质量管理.商业经济与管理,2011.9.
[2]宋敏等.国外数据质量管理研究综述.情报杂志,2007,2.
[3]Implementing the Data Management Continuum ,steve Cooper,Scott Schneider,Grant Monaghan 17TH PNEC论文集.
[4]朱旻等.数据质量管理与企业信息化建设.计算机时代,2005.6.endprint
【摘 要】 数据质量管理是数据管理的重要环节,本文描述了一种井数据质量成熟度闭环管理流程的框架,这个框架集成了多个商业软件(EnergyIQ,TGS,Perigon)在石油勘探开发数据管理方面的先进经验,定义了从原始数据自动采集、校验、业务工作环境应用,以及业务研究知识的回存等环节,可以有效提高数据质量成熟度。
【关键词】 数据质量 成熟度 闭环流程
1 背景
数据质量管理是数据管理的重要环节[1]。没有经过质量控制的数据通常是不完整的、质量未知、不容易被采纳利用;如果最终用户利用这些质量未知的数据,就可能影响研究成果结论的准确性,进而对企业造成不良影响。如何找到一种办法,能够对不同来源不同种类的数据进行加载、集成和质量校验,使其迅速变为可以利用的数据资源,是摆在企业面前的大问题。拿油井数据来说,如果有一系列便捷的软件工具,帮助管理员对数据质量和可靠性进行检验和提高,保证油井数据在整个生产周期都是可用状态,将大大提高生产管理和科研工作效率。经过近三十年的历程,数据质量管理研究取得了比较系统的成果[2],无论哪一种成果都离不开数据的标准和数据质量检验的规则。本文描述了一种井数据质量成熟度闭环管理流程的框架,这个框架集成了多个商业软件(EnergyIQ,TGS,Perigon)在石油勘探开发数据管理方面的先进经验,包含企业主数据标准化存储、数据可视化显示、数据发布、向业务系统提供结构化和非结构化数据等功能,是一种石油勘探开发数据质量管理的有效途径。
2 数据质量成熟度闭环管理流程的概念[3]
数据质量成熟度闭环管理流程定义了从原始数据自动采集、校验到应用于业务工作环境,以及业务研究知识的回存,一个完整的生命周期。环中的不同节点说明了不同时期数据的成熟度。如图1。
对不同规模的企业,闭环流程中数据处理环节不一样多。但都是要完成从原始数据到业务可用数据,进而变为知识的过程。图1所示的闭环流程主要包含四个阶段。
(1)原始数据加载(As-is):这种状态下,数据不做任何质量控制,直接进入数据库。
(2)信息技术进行质量检查(IT QC):这个阶段通过软件程序进行自动检验和纠正。
(3)地质科学家进行质量检查(Geoscience QC):这个阶段对数据进行处理,满足业务的具体需求。这需要手工干预来完成,如进行测井曲线的拼接或者分段,同时处理数据质量问题。
(4)地质科学家数据分析(Geiscience Analysis):这部分包括研究成果知识的捕获,对数据的修正和补充后回存到主数据库中。
2.1 原始数据加载(As-is)
这是数据管理闭环流程的第一个阶段,多种类型的数据在这个阶段被快速自动化加载到系统中,并被设置为优先访问的数据。
这个阶段的主要挑战是不同来源的数据同时加载到一个数据库中,通常遇到WELL ID不统一的问题,需要一个标准的命名规范,PPDM标准里的井ID结构的建议可以参考。这个阶段的主要校验手段是数据库结构和约束,确保数据类型和数据精度的正确。
2.2 信息技术进行质量检查(IT QC)
信息技术进行质量检查(IT QC)阶段主要是应用必要的数据转换和校验规则,确保数据可以利用。数据转换的例子是测井数据。测井曲线数据初始阶段可能以原始的DLIS格式存放,之后被转换为标准LAS文件进行观察和分析。在这个阶段,应用“预防性法则”,所有无意义的数据会被截获,留下的值都是合理有价值的。例如,会应用一组规则,确保所有井的深度值都在井的真正深度底界范围内。所有的转换和校验都是自动激活的,这个阶段的数据转换和校验优先于业务。
2.3 地质科学家进行质量检查(Geoscience QC)
在这个阶段的数据质量检查需要更高业务水平的用户参与,有可能会需要专门的技术人员来操作。例如分析分段测井曲线数据,进行拼接形成一个从顶界到底界的完整井筒剖面。这个阶段要应用更加严格的数据规则,有时还需要有经验的数据管理员痛下决心。这个阶段应用的“侦探法则”,需要通过与其它相关数据进行比对和分析,来判断数据的正确性。例如,地面海拔的值在误差允许的范围内,但却与数字高程的值相差甚远。
2.4 地质科学家数据分析(Geiscience Analysis)
在这个阶段,地质科学家利用多个工具对数据进行仔细分析,这个阶段的数据应该有值得信赖的成熟度,再不需要花费时间进行数据检查。发现异常值时,需要自问一下这是一个真的错误,还是代表一个物理的异常,通常需要更深的调查才能找到原因。
一旦地质科学家完成了数据分析,或者增加了注解说明,或者更新了数据,这些工作内容要作为知识按照一定工作流程写入到主数据库中。流程要尽可能简单,方便后来人对数据的理解和应用。只要企业在这个区域的勘探开发工作不停止,数据就会被不同的地质科学家用到,不同的理解和注释被标注到数据上,不断被写入主数据库。
3 数据质量成熟度
在数据管理闭环流程里,数据不断被检查和应用的过程中,数据的成熟度是不断提高的,数据会被转换为信息和知识,用户对数据的信任度提高,更多的时间用于技术分析。在数据管理闭环流程中,数据质量成熟度可以用来警示风险。一些企业忽略了IT QC阶段的重要性,从而导致一些重复工作和损失。
数据管理闭环流程的不断循环,能不断提高数据的准确性。例如自动采集的地面海拔的值可以是任何有效数字值,IT QC阶段的“预防性法则”能将此值控制在一个可以接受的范围内。Geoscience QC阶段的“侦探法则”可以通过与数字高程对比,进一步缩小错误值的概率。最后通过地质科学家分析阶段的应用,这个数据值会在其他相关信息如测井曲线、邻近井、区域地质数据中得到更进一步的验正。
另一个说明数据质量成熟度不断提高的例子是目标地层的颗粒密度。纯净石英的颗粒密度值为2.65gm/cc,因此一个干净成熟的石英砂石密度为2.65gm/cc。应用了“预防性法则”:加载颗粒密度数据到井数据库时,由于没有其他参考条件,IT QC过程会将颗粒密度值控制在1.9-4.4 gm/cc范围内。而应用“侦探法则”,如果确定是砂岩,数据值会被控制在2.65gm/cc上下10%的浮动范围。有时有效值范围也会扩大,让一些异常值暴露出来,因为这些看起来异常的颗粒密度值可能是正确的,而深度却可能错误地恰好落到白云岩的层位,其颗粒密度在3.1gm/cc。地质家在以上工作的基础上进行油藏分析,可能会把有效值范围扩大,以包含任何现场可行的异常值,从而暴露出一个参杂长石的砂岩地层。从一个岩性分析判断的过程,会衍生出一系列地层学结论的变化,从而影响到勘探开发决策。可见数据质量成熟度的重要性。
4 结语
企业对数据的依赖程度不断加大,数据质量的好坏直接关系到信息的准确程度[4],数据管理闭环流程是一个不断提高数据质量成熟度的工作理念,对勘探开发研究工作具有非常重要的意义。具体实现要根据企业实际情况。不管采用怎样的数据库架构和数据管理流程,要实现数据质量的不断提高,就必须要有完善的数据标准、灵活的数据展示和应用工具,以及数据格式转换和支持专业应用的软件接口。
参考文献:
[1]黄向阳,多学科视角下的统计数据质量管理.商业经济与管理,2011.9.
[2]宋敏等.国外数据质量管理研究综述.情报杂志,2007,2.
[3]Implementing the Data Management Continuum ,steve Cooper,Scott Schneider,Grant Monaghan 17TH PNEC论文集.
[4]朱旻等.数据质量管理与企业信息化建设.计算机时代,2005.6.endprint