基于机器学习的钻井工程设计文档识别及数据集成系统研究

2023-02-16 09:20詹胜杨先睿曹湘华
中国信息化 2023年1期
关键词:川庆钻井工程文档

文|詹胜 杨先睿 曹湘华

石油钻井行业建立数据集成系统是钻井信息化发展的必然趋势,而钻井工程设计文档是其重要组成部分。文档识别作为一种新兴的科学研究项目,有着广泛的应用前景,随着计算机技术的更新发展,其科学研究价值越发凸显。本文将对基于机器学习的钻井工程设计文档的识别及数据集成系统的搭建作详细探讨和总结。

由于计算机技术飞速发展和信息系统的普遍应用,越来越多的用户为了便于文档的读取与转发,以数字文档逐步代替传统文档。但由此产生的数据安全、数据融合问题也随之凸显。

为提高长庆钻井总公司钻井工程设计文档的数字化、自动化程度。提高钻井工程数据利用程度,保证数据的准确性,同时保障石油钻井数据信息安全,我司利用人工智能算法实现了钻井工程设计文档的自动识别,并建设了钻井队、项目部、总部机关及甲方钻井工程设计数据平台。

一、建设背景

目前长庆钻井总公司常规井的钻井工程设计是利用Witch软件和Dxj实用定向井程序以及建设方钻井地质设计完成的,由于Dxj实用定向井程序是2000年前编写的软件,效率低,速度慢,已经无法满足长庆钻井工程设计的需求;钻井工程设计的井基本数据、地层数据不能和川庆一体化平台系统融合,井队技术员需要重复录入,并且保证不了数据的一致性;钻井队获得钻井工程设计数据和钻井地质设计基本上通过中油即时通和其它工具传送的,信息安全得不到保障。

同时,为增强长庆钻井总公司工程类软件的自主创新能力与自主研发能力,响应集团公司数字化转型,智能化发展的号召,需要实施基于机器学习的钻井工程设计文档识别及数据集成系统研究。

二、研究思路

钻井工程设计文档急需解决的问题有:第一,对不同类型的钻井地质文件和钻井工程设计文档,建立数据模型,通过机器学习进行训练,识别文档;第二,把识别的钴井基本数据和钻井地质进行保存;第三,与川庆EISS系统数据集成。基于以上情况,提出以下建设思路:

构建钻井地质数据和钻井工程设计数据并行智能处理模型,依托长庆区域大量的钻井地质和工程设计数据,利用人工智能,机器深度学习技术,完成钻地质设计和工程设计的快速识别和自动入库,实现钻井队、项目部和建设方的钻井地质数据共享;利用长庆钻井总公司已有的软硬件平台完成钻井工程设计数据和川庆一体化的集成,最终在川庆公司实现钻井作业设计数据的智能集成,实现钻井队钻井设计数据自动录入新模式。

三、研究内容

基于机器学习的钻井工程设计文档识别及数据集成系统研究内容主要分为以下四个部分:

第一,钻井地质设计和工程设计文档的智能识别技术研究;第二,钻井工程设计井基本数据和钻井地层数据自动生成系统的研究;第三,钻井队、项目部和建设方的钻井设计数据的集成研究;第四,钻井工程设计数据和川庆一体化数据库的集成研究。

四、项目实施

该项目包括搭建智能模型;实现钻井工程设计和井地质设计文档的识别;实现井基本数据和井地层数据入库;完成该系统和川庆一体化系统的集成等四个主要功能部分。

搭建系统模型模块包括样本文档的收集、智能模型的训练以及决策树的生成等;钻井工程设计和井地质设计文档的识别模块包括文档的读入,任务的调试和结果的输出等;井基本数据和井地层数据入库模块包含钻井工程设计数据的自动入库以及对数据的校对和修改等;完成该系统和川庆一体化系统的集成模块包括编写对应的接口程序、井队井史钻井设计数据的导出以及一体化平台数据库内数据的导入等。

项目结构图如图1所示。

图1 项目结构图

(一)搭建智能模型

利用人工智能技术,通过学习大量样本搭建智能模型,将待识别的未知样本输入虚拟沙箱以捕获动作行为;将动作行为传递到任务调度子系统以对它们进行定位,并统计其中的动作行为特征值,以构造动作行为向量;将行为向量带入决策树从根节点开始搜索,最后得出叶子节点,而这个叶子就是所判断出的样本。基于决策树算法的识别流程如图2 所示。

图2 决策树算法流程图

(二)实现文档识别

基于机器学习识别子系统主要对已知钻井地质数据和钻井工程设计数据文档训练,提取行为特征并构建决策树规则,基于训练的决策树规则对未知钻井地质数据和钻井工程设计数据样本进行匹配和识别。

基于机器学习识别子系统主要针对已有钻井地质数据和钻井工程设计数据文档进行学习训练,从而总结出决策模型,再根据得到的决策模型对未知的钻井地质数据和钻井工程设计数据样本进行匹配和识别。

1.系统架构

本系统开发使用的是Microsoft Windows10版本的操作系统;使用Java语言进行编程,JDKl.8作为开发环境;采用IntelliJ IDEA作为java开发集成环境;后台数据库采用mysql数据库管理系统;使用Navicat数据库管理工具;Tomcat作为Web服务器;采用B/S模式下的MVC架构。

基于机器学习识别子系统以MVC模型进行研究,分别是表示层、业务逻辑层、以及数据库访问层。三层架构就是将整个业务应用划分为:表现层、业务逻辑层以及数据访问层。区分层次的目的是为了达到“高内聚、低耦合的”的要求。

基于机器学习的钻井地质数据和钻井工程设计数据文档识别工具系统架构如图3所示。

图3 系统架构图

2.处理流程

基于机器学习的钻井地质数据分析和钻井工程设计数据文档识别工具处理过程为:

(1)被检测的样本文件经由前端可视化子系统的上传接口上传到后台;

(2)任务调度子系统接收被检测的数据文档,采用magic方式识别出被检测文件格式;通过标识出来的文件格式确定数据打开执行方式,并打包为ISO形式;

(3)恢复虚拟机快照,将被检测样本通过CD挂载到虚拟机中并运行;

(4)虚拟沙箱动作捕捉子系统将捕捉的动态行为发送到机器学习识别子系统;

(5)机器学习识别子系统基于人工智能算法对用户行为进行整理分类然后送入决策树,在决策树中通过算法分析处理并写入数据库;

(6)最终结果统一呈现在前端可视化子系统中。

(三)实现井基本数据和井地层数据入库

实现井基本数据和井地层数据入库,建立井基本数据库和井地层数据库主要是把在文档中识别过的井基本数据和地层数据读入到本地数据库,并进行校正; 需要在后端建立数据库,对即将导入的数据信息进行分类建立对应的数据库表,完成井基本数据和井地层数据入库;

其次,在批量导入数据时,很容易发生信息丢失或数据不完成的情况,所以进行数据校对工作非常重要。为防止以上情况发生,本系统设计了双重保护功能,即在迁移前先分批运行数据库中各个表的条数并直接输出到文本中。待迁移完成后,再批量执行数据库中每个表的条数输出到文本中。然后使用Beyond Compare 对比工具。因为输出顺序一致,文本前后完全相同,因此安全性大大提高。

(四)完成该系统和川庆一体化系统的集成

管理员把修改好的钻井工程设计数据读入到一体化平台数据,本平台进行了系统优化,编写了接口程序,钻井队技术员不用再在井史数据库中录入钻井工程设计数据了,只需要利用接口直接调用一体化平台数据库中的设计数据,大大节省了时间成本和技术成本。

五、结语

该项目通过应用人工智能、机器学习等技术智能识别钻井工程数据,将数据提取后自动写入公司井史数据库,准确率可达98%以上,有效提升公司钻井井史导入的可靠性。系统的建立和数据集成有效辅助了钻井技术人员编写井史,降低了技术人员劳动强度,也提高了工作效率和井史准确率,形成了钻井工程设计文档识别及数据集成操作规范。

该项目的推广应用不仅用于长庆钻井总公司的井队井史编写,同时还可用于作业队的施工指导,降低作业成本。同时提高了各个作业队伍的钻井效率,降低了作业队整体井史编写成本,为公司的降本增效做出很大贡献。

猜你喜欢
川庆钻井工程文档
浅谈Matlab与Word文档的应用接口
川庆钻探刷新国内深井取芯纪录
川庆安检院:搭建成材云梯
有人一声不吭向你扔了个文档
钻井工程施工成本主要影响因素与控制分析
钻井工程中井漏预防及堵漏技术分析
中国石油川庆钻探工程有限公司页岩气增产10×108 m3
中国石油路上最深井KS 21 井钻井工程通过审查
新型智能录井系统在优化钻井工程中的应用
基于RI码计算的Word复制文档鉴别