郭德瑞
[摘 要] 结合企业信息化建设实际,撤销子公司服务器机房,整合在用服务资源,应用云计算技术部署了统一的服务平台,建立了云化远程管理体系。通过两地双中心云化建设,对提高服务资源管理水平,降低生产经营成本效果十分明显。
[关键词] 两地双中心;整合;迁移;云计算
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2020. 07. 077
[中图分类号] TP311 [文献标识码] A [文章编号] 1673 - 0194(2020)07- 0186- 03
1 实施背景
信息化已经成为国际石油石化行业和石油企业调整优化结构、提高管理水平、提升核心竞争力的重要方式和途径。然而,随着油田信息化助力管理提升实现高质量发展以及生产经营环境的变化,原有的服务资源分散管理带来的问题日益突出。
本文通过开展信息服务资源整合,并应用云计算技术对服务资源实行远程统一管理,以确保服务器资源稳定运行,数据资源格式统一、数据源唯一,读取数据便捷,保证应用系统安全可靠运行。
2 系统设计
2.1 两地双中心框架设计
“两地双中心”是指同城加异地灾备中心的灾备模式,具高可用性和数据备份的能力。
异地灾备中心是指在异地的城市建立一个备份的灾备中心,用于主数据中心的数据备份,当主数据中心由于遭受自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。
在网络层,两中心采用万兆专网互连,保证双中心之间较大的带宽,响应实时的业务数据需求,为所有不同的业务提供支持和连接。
在数据存储层,部署存储阵列,通过流复制技术将数据实时同步到灾备中心,保证数据的完整性和可用性。确保生产中心和灾备中心的数据完全一致。异地站点的作用主要是在遭受自然灾难,主数据中心网络故障时可以确保在异地有一份完整的数据拷贝,用于后续业务的恢复。
2.2 灾难恢复能力等级需求
根据国家标准《信息系统灾难恢复规范》(GB/T 20988-2007) 的定义:灾难是指由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的時间的突发性事件。
灾难备份是指为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、专业技术支持能力和运行管理能力进行备份的过程;而灾难恢复是指为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。灾备系统的建设包含七要素:数据备份系统、备用数据处理系统、备用网络系统、备用基础设施、专业技术支持能力、运行维护管理能力、灾难恢复预案。
《信息系统灾难恢复规范》将灾难恢复能力划分为6级,灾难恢复能力等级越高,对信息系统的保护效果越好,但同时成本也会迅速上升。灾备等级主要从RTO(恢复时间目标) 和RPO(恢复点目标) 来考虑。RPO(恢复时间目标) 是指发生灾难前最后一次备份的时间点距离当前时间差(数据丢失时间);RTO(恢复时间目标) 是指发生灾难后恢复物理系统环境的时间。大部分的用户关注的是数据安全性,即RPO值(RPO越小,数据丢失越少),但是用户往往谈的更多的是RTO(RTO越小,恢复生产越快)。
RTO/RPO灾难恢复能力等级的关系见表1。
结合油田信息生产的实际需求和信息系统灾难恢复目标的最低要求,以及《信息系统灾难恢复规范》将灾难恢复能力划分为6级的要求,将两地双中心恢复能力定为5级。
2.3 两地双中心建设策略
依照中国石油行业IT战略规划和架构的要求,笔者认为“两地双中心”的建设应按照如下策略进行:
两地双中心建设要满足业务的需求。建设资金投入、功能、处理能力、管理方式等必须满足目前的业务需求,同时还要兼顾未来发展的要求。
两地双中心需要建立高可用性的架构。其中灾备中心启用后,就开始为生产中心提供服务。因此灾备中心也应该与生产中心一样,对关键业务应用采用高可用性架构,以防止由于单点故障而引起宕机。
两地双中心设备应该得到充分利用。系统建设不仅要考虑到紧急情况下的使用情况,还要考虑日常如何利用。例如,为了在平时提供灾备中心设备的利用率,可以利用灾备中心的设备进行应用的开发和测试。
两地双中心建设以用先进、成熟的方法论作为指导,分阶段进行。成熟的方法论为灾备中心建设的成功提供了保障。
灾备中心与生产中心使用结构相同的基础架构和管理流程。这样可以大大降低管理与运行维护的复杂度。灾备中心的处理能力可以与生产中心不同,但是要满足业务需要。建设的内容包括面向数据中心提供网络通讯设备、通讯线路、存储网络设备的全面容错和异地容灾;面向数据中心提供部分关键业务系统的容错和异地容。
3 两地双中心方案的实现
3.1 实施应用系统和数据资源迁移
一是统计可迁移应用系统与用户数据。对企业现有应用系统与相关数据进行统计,制作迁移计划表。计划8月底完成迁移工作,9-12月进行系统优化,解决迁移过程中发现的问题,同时要做好规划和分步实施。
二是组织开展数据和应用整合。分析数据库和应用系统的逻辑结构和对应关系,逐步把油藏、采油等专业数据迁移到异地数据中心主数据库系统中,梳理数据库之间视图关联信息、数据维护软件配置信息及数据分析应用软件数据调用情况,建立统一的用户访问试图,确保各项数据的唯一性,提高数据服务质量。
三是完成服务器物理整合。组织技术人员认真讨论、分析各单位服务器性能,确定服务器整合、报废原则,详单见表2。将32位机器中运行的应用系统通过P2V的形式转换到虚拟化集群当中,不改变数据库和应用系统部署的逻辑结构,保证原有应用的稳定运行,实现系统集中管理。对这些性能落后、无升级利用价值的硬件设备由原单位直接报废。
3.2 实施云计算远程运行管理
坚持统一性原则建设一体化平台,借助云计算技术通过集中式管理系统建立完善的数据体系和信息共享机制,其中集中式管理系统集中安装在云计算平台上,通过严密的权限管理和安全机制来实现平台对数据和信息管理系统的把控和安全保障,实现了云管理。
通过开发统一、开放、包容、安全、稳定的管理平台。满足了技术研究、生产管理、信息管理等各级人员的需求。实现了服务资源申请与分配业务的自动化、信息化管理。制定了服务器管理流程、应用系统管理流程、扩展业务管理流程和外网管理流程。通过在线设计、审批、实施、跟踪流程,为业务和人员搭建了高效、共享的工作平台,通过各项关键指标,掌握油田生产运行状况,为决策管理层提供了有力工具。
3.3 建立异地灾备系统,确保数据安全
3.3.1 数据备份
一是建立同步数据备份机制。应用流复制技术建立异地数据中心主数据库到本地数据中心的数据备份系统,当有数据写入数据库时,数据库间的同步机制会将数据复制一份到灾备中心,实现数据库实时备份。这种备份机制支持增量备份方式,可以节省数据备份的带宽占用,缩短数据备份时间;二是建立异步数据备份机制。应用系统任务计划与Oracle EXP/IMP机制,定期将数据复制备份,实现了数据日备份。通过这两种方式,提高了数据的安全性和服务的可靠性。
3.3.2 業务应用备份与恢复实现
应用环境备份的目的是确保灾备中心能够快速重建数据中心应用系统环境,并实现备份业务系统对生产系统有效替代。对应用环境备份的设计要点包括:
通过配置实现数据中心应用环境的一致性。灾备中心的应用环境在技术路线、设备部署方面应尽量保证与数据中心应用环境一致。这样有利于提高灾备应用环境与生产应用环境之间手工切换的效率,也有利于日常检验灾备应用环境的可用性。一般可通过灾备应用环境定期向生产应用环境读取配置文件、参数等方式,实现两者配置的同步。
灾备中心业务系统实现集群间自动切换模式。数据中心应用服务器一般通过HA等技术建立高可用性集群,保证本地应用服务的高可靠性,满足RTO一小时以内的灾备恢复需求。对于数据通过手工方式进行主备数据库切换,恢复信息运行。
采用虚拟化技术对备份环境进行整合。灾备中心应用环境备份资源毕竟有限,充分利用备份应用资源对数据中心应用环境保护十分重要。虚拟化技术可实现一台物理应用服务器对多台逻辑服务器的虚拟。这样在数据中心里,大量性能要求不苛刻、RTO要求在数小时以上的应用系统灾备环境就可以集中部署在少数的硬件服务器资源中,有利于灾备中心尽可能提高对数据中心应用系统的灾备范围。保障本单位生产的持续性和稳定性,提高安全性与可靠性。
3.4 完善运维体系,确保服务质量
实行服务器资源云迁移后,应用系统和数据全部集中在异地数据中心,服务器资源的申请与运维对企业生产经营管理的顺利开展具有决定性影响,因此开展了制度与岗位职责的重新修订。运维管理范围涵盖本地数据中心运维和异地数据中心资源运维管理两部分。依据上级公司数据中心相关管理规范,修订了《数据中心运维管理制度》进一步加强了机房门禁卡发放、机房出入、设备巡检、故障处理流程等管理内容。同时,修改了中心值班管理内容,增加了非工作时间值班人员机房状态检查记录与处理流程。将异地数据中心云资源联系人由一人增至两人,确保联系畅通,有效保证了本地机房与云资源安全稳定运行。
4 结 论
通过两地双中心云化建设,对提高服务资源管理水平,减低生产经营成本效果十分明显。一是安全性和服务可靠性进一步提升;二是成本压力有效降低;三是提高了数据服务质量;四是提高工作效率,节省了人力和工作时间;五是完善的运维业务管理为信息生产提供巨大支持作用。