赵有贵,任三朋,李 浩
(中国石油天然气股份有限公司长庆油田分公司数字化与信息中心,西安 710021)
在各行业信息系统进一步建设的进程中,与信息系统相关的网络基础设施、计算机机房设备以及主机、存储、中间件、数据库等软硬件日趋复杂,怎样高效率地维护上述软硬件,成为关乎整个信息系统运行顺畅性、安全性的关键问题。因此,立足云计算环境,分析信息系统的运行维护模式就具有非常突出的现实意义。
当前信息系统运维领导层仍然聚焦于系统建设,对于信息系统运行维护的重要功效认知缺失。基于此,云计算环境下的信息系统运行维护就需要将系统领导层的视线从建设转移到运行管理上,深化其对运行维护工作框架的认识,精准把控运行维护逐项工作内容,保证系统高效率运作。
当前信息系统运维管理流程存在短缺问题,严重冲击运行维护管理的有序性、有效性。基于此,云计算环境下的信息系统运行维护就需要立足现有运行管理制度,梳理流程,进行系统运行维护工作执行凭据的逐一明确,保障逐项运行维护工作有序开展。
在现有信息系统数量日趋增加的背景下,每一系统均联系着若干台服务器。基于此,云计算环境下的系统运行维护就需要统一搭建监管平台,集成网络、服务器、数据库、存储、中间件。主动预防互联网技术(Internet Technology,IT)故障,缩短运行维护响应时间。
信息系统云运维架构可以依托现有信息系统维护制度,从维护实操、维护方式等几个方面,将行政管理部门、运维责任部门、技术支撑组织纳入相同的空间体系中。
职能管理部门主要指信息中心,业务应用系统使用管理为各业务部门提供服务;维护部门需要根据云虚拟化特征,从云计算技术、硬件设备、虚拟集群几个方面,指派分属维护岗位,若干个岗位可以组成维护团队,为虚拟化层、虚拟化硬件以及平台虚拟机维护提供充足的人力资源支撑。
在基于云计算技术的信息系统组织框架搭建完毕后,根据虚拟集群运行维护需求,可以从虚拟集群、云计算平台承载业务系统维护间联系,进行岗位的恰当配置,并细化岗位职责。从系统虚拟集群运行维护管理功能入手,主要工作内容为虚拟服务管理、虚拟资源管理、安全服务、统计分析等[1]。据此,可以设定系统运行维护岗位为虚拟集群操作维护员、虚拟集群资源管理员、虚拟化集群安全管理员、虚拟集群汇总剖析员几个岗位,上述岗位由专职虚拟集群运行维护管理员指挥。在运行系统内部,根据传统维护情况以及新增维护需求,可以从业务平台维护、虚拟集群维护、虚拟集群硬件维护3 个方面进行岗位内容的规划。
某企业响应国家关于云计算的号召,积极领导技术人员研究云计算及相关技术,探索出了传统企业的云计算数据中心、云计算系统运行维护体系的最佳实践方案,并于2018 年末将新一代核心业务系统运用到云平台中。项目从2018 年开始实施,2020 年开发完毕,2021 年开始进行部分业务迁移并试运行部分前端业务。在系统实施过程中,合作企业还负责平台系统的运行维护,维护内容包括配置管理、服务启动/停止、日常检查、软件开发等诸多内容。维护对象是基于开源项目OpenStack 架构设计的平台,包括基础设施服务目录层(中间件云、基础设施云、应用环境提供)、通用服务层(输入/输出组件、时间服务、交互组件)、基础设施服务层(桌面云、生产云、开发云)、统一管理层(基础设施云管理、IT 服务管理)、基础设施资源层(存储资源、数据库资源、网络资源等)、核心骨干网络(广域网、光传输、差异化质量服务)以及前端层(客户中心、线上/线下平台)等几个部分。
为了实现一体化智能系统运行维护,可以综合考虑中心机房操作系统、应用系统、网络设备设施集中监控需求,集成网络监控系统、可视化运行维护系统,嵌入高效率运行维护服务制度[2]。同时以系统私有云计算为导向,围绕虚拟集成技术,立足现有机房条件,筛选个别硬件设备、应用系统,开展虚拟化IT管理改造,为系统规划部门、使用人员、运行维护人员提供更加优质的服务。
在硬件层面,基于高安全性、高性能方针,选择4 台浪潮英信NF580D2(SNF58D2P0002)个人计算机(Personal Computer,PC),配置四核、六核英特尔至强处理器,为多业务系统数据高效率计算提供依据。为满足多业务系统大容量、高速率存储需求,选择Sun 模式的存储结构,搭配浪潮AS1000G2 光纤存储主机以及8 个4 Gb 光纤主机通道、Raid、双冗余硬盘、4 Gb 光纤HBA 卡(4 块)、4 Gb FC 硬盘驱动器(6 个)、600 G光纤硬盘(6 个)。同时在存储I/O(输入/输出)设备选择时,应用具有8 个8 Gb SFP 端口的浪潮FS5900 光纤交换机,通过提升输入/输出速度突破大容量存储瓶颈。
在资源配置方面,依托服务器操作系统,搭载Workstation、VMware 等虚拟化软件。在虚拟化软件搭载完毕后,建立位于服务器上的虚拟机,通过服务器中自有操作系统完成虚拟机资源的调取、整理、分析、应用[3]。同时,为避免操作系统上虚拟机创建引发资源占用率过高,可以直接将虚拟化层安装在硬件服务器上,经虚拟化层创建若干个与服务器操作系统相对独立的虚拟机。
在一台服务器上进行若干虚拟机操作时,各操作系统以及相关的计算资源、存储资源分区运行,可以实现服务器资源的充足应用。部分情况下,也可以组建类似双机容错、负载均衡的分区集群,为服务器资源高可用提供支持[4]。而硬件与虚拟机、虚拟机与虚拟机之间则处于完全隔离状态,可以避免某一台虚拟机中病毒、宕机对其他虚拟机造成干扰。同时,实现磁盘、内存、中央处理器(Central Processing Unit,CPU)资源的动态分配,展现完整的操作过程,实现简单拷贝、高效迁徙。
3.3.1 降低能耗
在以往信息系统运行维护时,维护人员多以物理主机为对象,进行安装操作系统、系统补丁、硬件上架、配置网络与存储、安装配置必要软件等模块的逐一维护,损耗时间较长,能源利用率较低。而在云计算环境下,可以直接利用单台物理主机虚拟化后胜任若干主机的优势,将硬件利用效率提升到较高的水平,降低资本投入水平及设备运行能耗。
3.3.2 提高资源利用率
信息系统组成元件的动态变化对服务管理资源利用提出了更高的要求。在云计算环境下,基于平台建设与池化共享的资源利用模式代替了“烟囱式”单独建立、单独使用模式,集中针对资源发布—删除—申请的服务管理步骤也代替了以往单一事件管理。此时,利用一台主机可以运行多个虚拟机,每一个虚拟机则可以满足若干业务系统运行需求。根据各业务系统需求进行资源的差异化分配,可以从根本上提升硬件资源利用率[5]。与此同时,在云计算环境下开展资源池化操作,可以促使虚拟机弹性承载全部应用,满足云主机上服务正常运作、服务可用性多的业务场景需求,并通过迁移阶段超高速物理服务器动态切换,满足迁移过程对资源使用者透明可视的要求。
3.3.3 降低风险
传统信息系统存在IT 风险管理关键岗位设置、团队建设及考核、维护人员技术能力及变更、系统数据机密完整性等诸多方面的风险因素,而立足云计算环境进行矩阵型组织结构搭建,可以在信息技术中心指挥下发掘云平台支持组、云前端业务组、基础设施组、云平台网络组以及统一管理平台组的潜力。由各风险管理小组对照系统运行维护风险因素变化规律密切跟踪项目每一环节各种风险不确定因素,并第一时间向对口领导汇报。在领导的指挥下,各风险管理小组可以在对应的权限内进行风险处理,降低系统运行风险危害,保障信息系统安全运行。比如,对于人员频繁流动导致的信息系统运行维护质量不佳问题,可以增设主备角机制,配套运行团队激励机制,降低人员流动性导致的系统管理风险。与此同时,在云计算环境下,可以集成利用现代化动态资源调配技术、可量化的资源负载匹配机制、端到端的资源监视控制技术,实现7×24 h无人远程管理。在满足集群落地刚性要求的同时,依据大规模集群可管理性、可运维性特征,全局统筹规范集群的迁移、部署、扩容管理,以远程变更配置的形式实现集群之间的服务器迁移,最终形成持续、安全、稳定、高度可信连接的安全防范体系,将系统运行风险控制在较低水平。
云计算环境下的信息系统运行维护应以革新理念、完善流程、主动预防为目标,搭建一套完备的监控管理平台。集成软硬件以及制度、流程、组织信息,推动系统由粗放式管理向规范化、精细化管理过渡。同时,以主动预防代替被动服务,切实提升信息系统运行维护管理水平,为系统高效率、平稳运转提供保障。