胡顺全,朱玉凤,邵攀雷,肖 雨
(新疆油田数据公司,新疆 克拉玛依 834000)
我国已经进入数字经济时代,数据成为驱动经济社会发展的关键生产要素和新引擎。国家在第十四个五年规划和2035年远景目标中提出加快数字化发展,建设数字中国,充分发挥海量数据和丰富应用场景优势,促进数字技术与实体经济深度融合,赋能传统产业转型升级,催生新产业、新业态、新模式,壮大经济发展新引擎[1]。在“十四五”期间,新疆油田提出了构建“4类应用、1个数据治理体系、1个互联网技术(Internet Technology,IT)支撑体系”的信息化建设总体蓝图,进一步夯实数字化转型基础,推进企业转型升级。其中,作为IT支撑体系中承担数据存储及处理的存储资源池和数据库服务,需要存储新疆油田全领域数据,为上层业务应用提供全面、便捷的数据服务。目前,新疆油田数据存储存在分散及缺乏统一管理手段的问题。随着物联网、大数据、人工智能等新技术在油田的逐步应用,数据资源种类更加多样,数据总量急剧增长,而现有的油田数据存储及管理基础设施架构却不能满足上层业务应用在数据全面性、准确性和及时性方面的迫切需要。因此,建设一个适合新疆油田业务发展的全域数据存储管理体系成为当务之急[2]。
规划、设计新疆油田数据基础设施,能为油田全域数据汇聚、数据存储与管理、数据治理和数据服务开发提供统一的设施基础,为数据共享和数据分析提供支撑,进而提升数据管理和服务能力。
(1)规划数据基础设施,汇集新疆油田全域数据,是数字化转型的需要。新疆油田除了集中管理的结构化数据和非结构化数据以外,还有大量分散存储的数据资源(如地面建设数据、环评数据、视频和影像数据等),现有的油田数据存储及管理基础设施架构无法支持新疆油田数字化转型业务,无法实现数据驱动体验、数据驱动决策和数据驱动流程。因此,急需规划建设新疆油田数据基础设施,汇聚油田全域数据,进而满足数字化转型对数据的需求。
(2)提升数据共享能力,加快数据流动,快速组织数据,进而实现为上层业务应用提供便捷服务的目标。新疆油田数据资源类别已由结构化数据为主、非结构化数据为辅,转向非结构化数据为主、结构化数据为辅,数据量由万亿字节(Trillionbyte,TB)级扩展到千万亿字节(Petabyte,PB)级,且不同应用数据存放在不同地方,数据无法流动,无法最大化地释放数据价值。因此,急需制定数据存储、管理和使用标准,构造数据共享环境和数据流动机制,提升数据共享能力,实现数据跨领域、跨专业的互联互通应用,满足新疆油田数据治理和数据分析应用需求[3]。
(3)以“云大物移智”为代表的信息技术发展迅速,促使现有数据存储与管理体系架构改变。随着软硬件技术的快速迭代与发展,云计算、大数据、物联网、移动应用、人工智能及边缘计算技术已成为新一代信息技术的典型代表。“云大物移智”等技术的发展和完善,打破了传统思维,加快了信息技术与制造业的深度融合,推进了智能化建设。但是,新疆油田现有的数据存储与管理架构以传统关系型数据库和传统存储为主,难以满足非结构化数据的存储需求和支撑云计算、大数据、人工智能(Artificial Intelligence,AI)等技术应用,急需构建一套合理的数据存储与管理基础设施架构,以满足新疆油田大数据分析和便捷服务的需要。
分析新疆油田存储、数据库及备份的现有基础架构,结合智能化油田对信息化建设的要求和国内外存储、数据库、备份技术的现状及发展趋势,规划、设计适合新疆油田的数据基础设施,制定数据入库、存储和使用标准,设计数据基础设施资源管理系统[4]。
(1)数据流向。①数据唯一性:一份数据只能进入关系型数据库、非关系型数据库或数据体池中的其中一个地方存储;②数据表:优先进入关系型数据库,如果有特殊需要,可进入数据体池存储;③数据体:优先进入数据体池,再考虑进入关系型数据库;④实时数据:进入数据体池存储;⑤专业图件/照片/文档:进入非关系型数据库、具有文档数据库内核的数据库或数据体池中存储;⑥视频/音频:多为生产视频及安防视频,优先通过流媒体服务器进入数据体池中存储。
(2)数据库系统。①采用数据库集群或分布式数据库;②同类型数据库中,采集层、共享层及共享交换层数据库为同一厂家产品以保证数据的一致性;③现有Oracle数据库保留,不再采集数据,逐步通过数据治理将存量数据导入到共享库中;④硬件兼容:支持X86与ARM架构。
(3)存储系统。①支持块、文件和对象数据存储;②采用X86架构部署分布式存储软件,搭建分布式存储集群。
整个数据基础设计架构分为数据存储层和数据管理层,前者采用软件定义分布式存储系统,后者则是针对现有Oracle RAC集群进行拆分,对已有的其他数据库进行整合与替代,规范非结构化数据库,分层分模块设计数据库系统方案。此外,数据基础设计架构可根据采集处理流程分为采集层、共享层;根据数据类型分为关系数据库、空间数据库、时序数据库和非结构化数据库;根据业务类型分为生产数据与管理数据。
1.5.1 数据存储层
在通用的X86架构服务器上部署分布式存储软件的方式搭建分布式存储集群,将分散的存储介质聚合成统一的存储资源池,为应用数据库、云平台、海量非结构化数据、物联网、大数据及视频监控提供统一的块、文件、对象、大数据访问接口,同时提供企业级高级服务功能,用以保障存储系统的可靠性、扩展性及可维护性等性能,帮助客户构建统一的数据底座。在数据底座之上建立块、文件、对象和大数据存储等不同类型资源池,不同资源池采用不同安全策略,为不同类型的业务提供存储服务。同时实现数据流动和自动分层,以及数据备份、归档等。
1.5.2 数据采集层
规划关系型数据库、空间数据库、时序数据库和文档数据库4套数据库。考虑数据库性能及后期维护,采集层数据库按照数据类型进行分库,原则上每个大类数据进入一个数据库集群或分布式数据库,若后期数据规模增长,对原有集群或分布式数据库进行扩容。原Oracle RAC保留,但不再采集数据,逐步通过数据治理将存量数据导入到共享库中。
1.5.3 数据共享层
规划关系型数据库、空间数据库、时序数据库和文档数据库4套数据库。通过对采集层数据库分层来解决数据库性能瓶颈以及安全等问题;采集层数据库通过数据治理将清洗过的数据存入共享层数据库,方便后续数据服务、分析及共享。
1.5.4 数据交换层
规划关系型数据库、空间数据库、时序数据库和文档数据库4套数据库。数据服务对象通过逻辑数据湖目录查找到所需数据,经服务权限管理后将数据脱敏放入共享交换库,供数据服务对象使用;各类应用产生的数据结果暂存在共享交换库中,按规定期限清理或者从共享交换库存入共享库或数据湖中。
新疆油田数据基础设施落地建成后,将在数据共享、数据应用、IT管理和油田数字化转型等方面取得一定成效。
汇聚新疆油田全域数据,打造开放的数据生态环境,让数据存得了、流得动、用得好,将数据资源转变为数据资产,最大化地发掘数据价值。打破业务领域之间数据壁垒,实现各业务领域之间数据互联互通,为上层油气勘探、油藏评价、油气生产和经营管理等业务提供统一的数据入口和便捷的数据服务[5]。
为数据治理和数据中台提供统一的基础环境和数据资源,加快数据资产化和业务数据价值变现,让数据参与到业务中,激活数据价值,最终给新疆油田带来各种适配业务场景的数据解决方案。通过数据服务构建,实现数据资产化、服务化、复用化,为油田业务提供高效、便捷的数据服务能力。
实现数据基础设施的集中统一管理、监控和运维,消除过去数据存储架构不合理带来的数据库崩溃或应用中断的风险,实现数据存储架构真正7×24小时的稳定运行,为新疆油田数字化转型提供稳定、便捷的数据基础设施架构。
汇聚的全域数据将成为油田数字化转型的重要基础资源和生产要素,从而使得油田业务发展由业务驱动逐步转向数据驱动,为数字化转型过程中的人工智能、数据分析和智能应用等提供统一环境和数据资源,有助于数据与业务深度融合与集成,更高质量地助力新疆油田数字化转型,促进“油公司”模式的高质量发展[6]。
在数据基础设施架构设计过程中,数据分层设计、数据流向设计、存储及数据库产品匹配的优劣,将会影响整体数据设施架构的性能,影响数据流动及能否灵活、动态、快速地组织数据为上层业务应用提供便捷服务。因此,在架构设计的同时需加强产品功能及性能、产品与架构、业务场景匹配适应度的测试。