王娟 蔡亮 窦敬 姜淇
摘要:当今对于石油行业这些将信息视为命脉的企业来说,如何对非结构化数据进行合理的存储和管理成为值得关注的问题之一。目前,国外油气田非结构化业务成果展示基本分散在不同的专业软件中,没有提供集中统一的Web端展示。而国内油气田非结构化业务成果展示也分散在不同的专业软件中。换句话说,国内油气田非结构化成果数据库平台亟待开发。因此,文章旨在研究和设计油气田非结构化成果数据库,同时围绕数字油田具体的应用需求,对系统中涉及的一些关键点进行了深入研究。
关键词:油田数字化;非结构化数据;数据库设计;软件平台设计
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2024)08-0085-03
开放科学(资源服务)标识码(OSID)
0 引言
长庆油田勘探开发过程中产生大量非结构化数据,包括四性关系卡片、测井蓝图、录井综合图、试油(气)地质设计、岩心照片、老井措施总结报告等三百余类,格式多样。这些数据的查看和展示需要支持跨平台、跨设备、兼容各种浏览器。同时支持图件的放大、缩小、旋转、拖拽等操作,以及图件的标注、数据叠加、搜索、权限控制等功能[1]。因此,需要开展数据智能标注技术研究,形成一套高性能、安全的多终端成果展示与数据交互关联技术,作为通用技术中台,与长庆梦想云平台进行集成,为各类非结构化数据应用提供支撑[2-3]。
然而,工程专业技术服务行业的发展空间与工程建设投资之间存在着紧密的联系,国民经济持续发展和固定资产投资快速增长是牵引工程勘察设计行业快速发展的源动力[4]。多年以来,我国全社会固定资产投资保持了持续增长的势头。未来我国固定资产投资规模仍将保持较高的增速。与之紧密相关的工程专业技术服务行业仍然具有较好的市场前景[5]。因此,为了更好地支持科研和生产,需要研究基于H5的油气田非结构化成果展示技术,研究基于H5的大型图片切片预览技术,研究基于H5的在线图文标注技术,还需要研究基于长庆油田云环境的分布式文档存储技术。
1 非结构化成果数据库
1.1 数据的概述
实际上,在现实中,数据的存储并非目的,而是为了合理利用。数据的应用从一个侧面来说就是为了能够被读懂,无论是人类可读还是机器可读。结构化数据和非结构化数据决定了不同的处理方式。结构化的数据可以用于查询、加减乘除等数学运算、相等、比较大小、与或非等逻辑运算,还包括计算、求和等统计运算。而非结构化数据则往往需要还原出来,供人们观看、听取,如文章、图片、声音、视频等。人们可以理解这些信息,然后指导机器进行拼装、删除、添加、剪辑等处理。
如果机器要分析这些数据,则需采用OCR等技术来识别图片中的文字,NLP等技术来识别文字的词性或含义。因此,非结构化数据的处理方式与处理数据库的技术完全不同。例如,一篇纯文本文章存入数据库后,结构化处理工具只能将其视为一个整体进行处理,这表明纯文本并不一定是结构化数据。举个例子,在学术领域中,让机器准确判断一个人名的姓和名的任务并不容易。不能简单地假设姓氏在名字的左边一个字,名字的右边两个字。这涉及需要对复姓的存在进行深入了解。例如,“欧阳”和“西门”是复姓,而“欧阳修”和“西门庆”是古时较为出名的姓名。人们之所以知道“欧阳修”是姓“欧阳”,是因为他是复姓。因此,我们需要先收集所有的复姓。对于原始的三字姓名,我们可以先判断前两个字是否为复姓,即它們是否在复姓表中。如果是,则可以确定前两个字是姓,最后一个字是名(即2+1) ;如果不在复姓表中,则可以确定第一个字是姓,后面两个字是名(即1+2) 。然而,不能每次都认为左边两个字“欧阳”一定是姓“欧阳”,因为“欧阳某”也有可能是单姓“欧”,名“阳某”。同理,“夏候某”可能姓“夏侯”,也可能姓“夏”。通过这个例子,可以体会到非结构化数据带来的拆分和处理的难题。
1.2 非结构化数据的概述
非结构化数据其格式非常多样,标准也是多样性的。而且在技术上,非结构化信息比结构化信息更难标准化和理解。因此,存储、检索、发布以及利用需要更加智能化的IT技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。简单地说,非结构化数据主要指那些无法用固定结构来逻辑表达实现的数据,比如用户散落在论坛、微博、微信或其他渠道发表的关于产品的各种评价或吐槽。然而,国内的企业级客户在进行大数据分析时,仍以分析结构化数据为主。
再具体到典型案例中,例如医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP) 、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。而且,从形态上,非结构化数据主要包含三大块:第一是文本文字;第二是图像、图片等;第三是视频流、电视流。和结构化数据相比,非结构化数据最本质的区别包括三个层面:非结构化数据的容量比结构化数据要大,产生的速度比结构化数据要快,数据来源具有多样性。
根据IDC的调查,目前企业结构化数据仅占到全部数据量的20%,其余80%都是以文件形式存在的非结构化和半结构化数据,这些非结构化数据每年增长率达60%。如何管理好这80%的数据,是企业构建协同办公的关键一环。非结构化数据的存储和流转主要采用邮件、FTP以及QQ等IM工具。然而,这些工具传递文件时速度不稳定,安全性得不到保障,并且无法很好地满足企业中一对多的高频数据传递场景。
由于非结构化数据中没有限定的结构形式,表示灵活,蕴含了丰富的信息。因此,在大数据分析挖掘中,掌握非结构化数据处理技术是至关重要的。处理非结构化数据包括:Web页面信息内容提取;结构化处理(包括文本的词汇切分、词性分析、歧义处理等);语义处理(包括实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等);文本建模(包括向量空间模型、主题模型等);隐私保护(包括社交网络的连接型数据处理、位置轨迹型数据处理等)。处理非结构化数据时,还需注意这几点:非结构化数据文件数量过多、过大;非结构化数据归集检索调取效率低;传统架构无法按需弹性配置存储空间。
2 数据库设计前期工作
2.1 设计的数据需求
经过对开发研究业务过程中对数据的需求,在总体上可分为两大类。其一是对基础数据的需求,包括油气田公司已经形成的专业基础数据,如物探、钻井、录井、测井、试油、分析化验、油气田生产,井下作业等数据。另一类为研究过程中产生的成果数据。在这里,重点论述开发综合研究对研究成果数据的需求。
在开发综合研究过程中,各类研究成果数据附有必要的属性(素引)信息,使盆地诸要素有机地组织在一起,实现盆地地质体的多维可视化表征和展示。首先是地质目标的空间信息,包括盆地、构造单元、工区、区块、层位、井等的空间位置信息,展示分析时用相关数据在三维空间上的投放和展示。其次是专业研究信息,包括地层、构造、沉积、储层、油气田藏等专业分类,展示分析时由这些信息支持按照研究专题进行数据提取和投放展示。再其次是研究业务信息,包括油气田开发研究中的开发方案编制、精细油藏描述研究等,支持研究成果数据按照研究业务进行投放和展示分析。此外,研究成果数据可以按照研究项目、业务组织结构等进行投放展示,从多方位展示开发研究成果,满足研究和决策管理的应用需求。开发综合研究需要各研究阶段的成果图件、成果附表、成果数据体、成果报告和多媒体。
2.2 设计的技术架构
油气田开发研究成果数据建设体现在与业务相结合的特点,以油田中心数据库和A1、A2数据库为数据源,通过系统提供的数据管理与服务平台推送专题研究需要的数据。业务人员在研究工作空间中开展专题研究工作,形成的研究成果归档到研究成果数据库。以地层划分、沉积研究和试油试采生产分析业务工作为例,开展开发研究成果数据建设架构设计。
2.3 设计的质量控制
在进行地质与油藏工程软件测试与管理业务时,本研究采取以下合理的质量控制方法。
1) 设定明确的测试目标和标准:在开始测试之前,确保所有测试人员了解测试目标和标准,以便能够正确评估软件的质量。
2) 制定详细的测试计划:制定详细的测试计划,包括测试范围、测试环境、测试方法和测试资源等信息,以确保测试的全面性和有效性。
3) 进行全面的功能测试:对软件的各项功能进行全面测试,包括输入输出测试、功能性测试、兼容性测试等,以确保软件功能的完整性和正确性。
4) 进行性能测试:对软件的性能进行测试,包括负载测试、压力测试和稳定性测试等,以确保软件在实际使用情况下的性能稳定性和可靠性。
5) 进行安全性测试:对软件的安全性进行测试,包括漏洞测试、权限测试和数据安全性测试等,以确保软件在使用过程中的安全性和可信度。
2.4 设计的风险评估
针对实施过程中可能发生的风险,本研究采取以下切实可行的风险评估、管理办法及应对措施:
风险评估:在项目开始之前,对可能发生的风险进行评估,包括技术风险、成本风险和进度风险等,以确定风险的影响程度和发生概率。
风险管理:制定详细的风险管理计划,包括风险识别、风险分析、风险控制和风险监控等,以确保项目能够及时应对和控制风险。
应对措施:根据风险的影响程度和发生概率,制定相应的应对措施,包括风险避免、风险转移、风险缓解和风险接受等,以减轻风险带来的影响。
风险跟踪与监控:定期跟踪和监控项目中存在的风险,及时更新风险管理计划,并采取相应的措施来控制和应对风险的发生。
总之通过合理的质量控制方法和科学的风险评估、管理办法及应对措施,可以提高地质与油藏工程软件测试与管理业务的质量和效率,降低项目风险带来的影响。
3 系统设计思路
3.1 设计思路
一体化的设计思路。要完成企业信息的一体化建立,首先需双方共同协商讨论,建立统一的企业信息化标准模型,对企业所有的业务规范、接口规范、管理规范、命名规范,以及各系统之间的对接关系建立统一的标准模型。为各个系统建立统一的数据存储中心,搭建统一的数据交换平台。采用分级处理,统一汇总的企业信息存储中心。
定制化与产品化结合的设计思路。针对长庆油田的实际情况分析,在所有的系统中,将采用定制化软件与成熟产品化软件相互结合的设计思路。按需定制功能,模块扩展灵活,基于H5的油气田开发成果综合展示技术研究项目这一课题与本研究以往接触的项目有很多相似之处。借鉴以往的开发经验并与本次项目建设相互融合,打造一套定制化的系统,以客户需求为导向,避免软件功能的闲置,最大限度地满足用户的需求以及行业的特殊性。
可扩展性的设计思路。可扩展设计的价值观不应是现在解决将来的问题,而是寻求未来发展之后现在的解决方案是否仍然有效,是否仍然可以被继承扩展而适应新的需求。即本研究考虑的不是将未来的解纳入到现在的体系中,而是考虑现在的解决方案在未来体系中的位置。
3.2 设计流程及方法
本研究严格按照软件工程方式方法,按计划分步骤实施本系统。根据调研需求和软件开发流程以及客户系统实施时间要求等各方面因素综合考虑后,项目开发实施分为以下几个步骤。
1) 详细需求调研:主要就系统的业务范畴和使用人员作详细的沟通讨论,最终在完全理解所有需求的情况下,开始进入下一环节。
2) 系统详细设计文档编写:详细设计文档是紧跟需求调研的重要步骤,也是形成软件开发文件的起始步骤,依据详细业务调研,把需求用文字详细描述并得到客户认同为目的。主要包括功能详细设计和数据库设计。
3) 软件代码编码:根据详细设计完成代码编写,将文字内容代码化的一个过程。
4) 软件测试:软件开发完成后进入测试阶段,尽量多方位测试软件中存在的bug,并给以修复和完善。
5) 系统实施及培训:甲方使用环境的安装和部署,并且培训系统使用人员。
6) 系统试运行、正式运行:安装实施完毕的系统通常都有试运行期和正式运行的阶段性划分。试运行期主要是使用人员适应软件办公的一个过渡过程。
7) 系统验收:试用期结束,符合系统目标并达到验收标准,进入系统验收阶段。
4 结论
随着成果数据大量产生并持续标准化的发展,对数据的快速查看有了更高的要求。因此,本研究实现了相关工作人员在油气田生产等业务过程中,能够简便快捷地随时调用和查看相关的成果数据,并为研究、生产和决策人员提供数据依据,以便促进科研、优化生产、提质增效,充分发挥数据价值。
本研究在本平台的设计基础上不断增加了新的功能,以满足用户的新需求。其中主要考虑部分是数据库表与表之间的联系以及字段的合理配置,以确保系统未来几年数据增长也能满足使用。这项研究对下一步开展勘探研究成果和油气田评价研究成果数据体系研究具有重要的参考价值,对实现研究成果一体化管理与再利用具有潜在意义。
参考文献:
[1] 杨建鹏.基于NoSQL的油田数据管理研究[J].信息系统工程,2019(1):56.
[2] 马立平,任宝生,赵明.油田产能建设项目后评价辅助系统设计与实现[J].计算机应用与软件,2011,28(6):161-163,204.
[3] 沈明.油田開发生产数据库在油藏管理中的应用实践[J].西部探矿工程,2010,22(12):29-30,33.
[4] 于红梅.油田Web数据库系统的体系设计[J].油气田地面工程,2013,32(2):27-28.
[5] 张岩.数字油田公共数据库的结构设计构思[J].中国管理信息化,2017,20(5):159-160.
【通联编辑:闻翔军】