陈国华,李晓林,严 峻,廖剑雄,仇红燕
(塔里木油田公司信息与通讯技术中心,库尔勒 841000)
虚拟化技术的推广应用对油田IT环境进行资源整合利用,与油田自主开发监控系统、运维系统有效结合,建成了具有油田特色的虚拟化平台架构。
塔里木油田服务器虚拟化平台自投建至今,历经两次扩建和平台的拓展融合。已建成以30台PC 服务器、3套存储及配套网络设备为基础,以虚拟化平台为核心,融合备份管理平台、容灾平台、运维监控平台的具有油田特色的虚拟化平台架构。目前,油田自建的应用系统95%以上是在虚拟化平台运行,实现了服务器虚拟化在油田的全面应用。
油田虚拟化应用历经了三个阶段:第一阶段初步应用,通过VMware软件对现有的服务器、应用进行优化整合,完成油田中心机房服务器虚拟化环境的搭建。第二阶段扩容建设,采用双站点并行思路,满足将应用按等级、用途、功能分类管理的需求。第三阶段架构优化、系统融合,新建站点一个,并对站点的功能用途进行优化调整,同时融合了SRM容灾备份系统、统一监控系统和NBU备份系统。
经过对国内外企业虚拟化案例的分析和研究,结合油田实际IT环境,设计了符合油田需求的虚拟化架构。服务器、存储、IP网络、SAN网络均使用冗余配置。管理层通过融合了NBU备份、vCops监控、SRM容灾等系统,建立具有塔里木油田特点的虚拟化管理平台(图1)。在应用层面,通过对业务应用系统的功能、资源、性能等需求分析,划分并分配到不同站点的资源池中,以保障资源最大有效合理利用。在物理层面,以30台PC服务器、3套存储以及相关配套的网络设备构建了3个不同功能的站点为业务系统提供资源保障,其中,A站点用于开发和测试环境,B、C站点用于生产环境,并在B、C站点间建立了站点级别SRM容灾机制。
图1 油田虚拟化架构设计
油田在虚拟化技术实践过程中做了以下工作:
在业务层面,运用“vMotion在线迁移”、“HA高可用”、“DRS资源动态均衡”等技术手段保障应用高可用,利用SRM 技术,实现站点级的容灾保护(图2)。
图2 SRM容灾系统
在数据层面,结合NBU和TSM备份系统特性对核心数据进行备份保护,并利用研究院专用机房资源构建了数据互备保护机制,实现了油田核心数据多副本存放,提高了数据资产的安全性(图3)。
图3 NBU TSM数据备份系统
为保障网络安全性、稳定性和高可用性,在网络设计规划部署时,建立了4套功能不同的网络用于管理、业务、容灾和心跳专用数据通道,部署分布式虚拟交换机,端口组启用“基于IP哈希路由”负载均衡,确保网络端口负载均衡和链路冗余需要。NBU备份采用Lan-Free模式,由传统的LAN网络备份方式转变为SAN网络数据传输,备份速度大幅提高且不会对LAN网络带宽造成争用。各业务网络物理隔离保障了网络的稳定性,解决了网络带宽争用的问题,增强了虚拟化环境网络的可用性和稳定性,对业务系统的正常运行提供了平稳、安全的网络基础环境,提升了各业务系统的用户体验。
为应对虚拟环境安全风险,除启用虚拟化平台系统自带的安全防控措施以及系统层面常规措施的基础上,在虚拟化环境安全防控上进行了下列措施加以保障:一是访问控制,通过部署堡垒机对虚拟机、主机系统、管理系统等的访问加以控制,授权访问才能使用。二是定制化部署,建立的十余套系统模板均完成了各项安全配置,堵塞了系统漏洞,提高了各业务系统的安全性和高可用性。三是安全准入,在虚拟机上线前,部署安全准入客户端,对系统、配置、安全基线等检测,符合要求后方可开通网络接入权限。四是补丁防护,定期推送操作系统、杀毒软件、防火墙补丁至客户端,有效消除了操作系统级别安全漏洞。
在虚拟化技术应用过程中结合油田引进大数据分析系统(Splunk)实现对关键业务系统日志信息的自动收集、整理和分析,发现隐藏的趋势和反常现象,显著减少故障检修、系统停机、事件调查时间,提升IT服务水平,提高风险管理能力。
为解决多管理平台对资源及运维人员配置的浪费,通过开发数据接口抽取vCops虚拟化监控系统、Vantage监控系统等运行及报警信息,集成到中心机房统一监控平台,实时同步展示在监控中心大屏上,并通过短信平台将告警信息实时发送到运维管理人员手机上,机房值班管理人员7*24小时不间断的监控,并对问题进行跟踪督办实现问题故障的闭环管理,保证了平台安全稳定运行。
(1)实现了虚拟化平台系统高可用性,为应用系统提供可高可靠服务器应用环境,消除单点故障隐患,减少宕机事件,达到了站点级容灾保护,保障了应用服务连续性。通过采用DRS、VCops、VMotion、DVSwitch和HA等虚拟化技术,实现了软硬件资源的集中监控、统一管理、自动均衡、自动迁移、快速恢复和动态扩展,减少了业务系统停机时间,提高了工作效率,节约了管理和维护成本。
(2)应用P2V技术在机房整合过程中完成了应用由物理环境向虚拟环境的迁移,延长了遗留应用的生命周期,同时服务器资源利用率也得到了大幅提高,硬件利用率由虚拟化整合前的不到10%提升到60%以上。
(3)由NBU备份系统、SRM容灾系统组成灵活的系统和数据保护体系,结合功能独立的网络设计,提供了简单实用的容灾恢复解决方案。
(4)内置安全基线配置、网络准入防控、强制安全客户端部署等基础安全,定制模板统一部署、业务专网物理隔离部署,结合授权访问操作、行为审计等措施保障系统安全,在2017年“5.12”勒索病毒全面爆发时,平台运行平稳,保障了油田信息系统和数据的安全。
(5)结合自主研发的统一监控平台、大数据分析系统优化系统架构,实现故障主动预警、报警信息自动推送并与中心值守联动达到7*24小时不间断监控、问题跟踪督办闭环管理。
虚拟化技术应用给油田带来了显著的经济效益。虚拟化平台使用30台物理服务器承载虚拟机400余台,较传统模式单台物理服务器平均部署2 个应用核算,至少节约服务器170台,按物理服务器15万元/台测算,仅服务器直接节约资金投入2550 万元。同时,物理服务器减少,机房能耗也得到了有效控制,以每台服务器平均650W计算年节约电费和空调制冷费用近120万元。另外,服务器数量的减少使机房稀缺的机柜空间资源得以释放和节约,延长了机房使用寿命。
塔里木油田在实施服务器虚拟化过程中,通过选用合理可靠的技术和系统架构,满足了当前油田信息化的发展需要,减少维护服务器时间与成本,降低了运维难度,提高了工作效率。在推广服务器虚拟化技术过程中,针对系统的高可用、业务的持续性,数据的安全等需求,通过优化网络架构、构建数据互备系统、融合统一运维监控平台等举措,对资源进行优化动态配置,实现资源效益的最大化。