李永超 周丽丽 张悦
大连市气象信息中心 辽宁 大连 116001
随着互联网等技术的不断进步和云计算产业的高速发展,各个行业的信息化建设和数据中心规模发展迅速,以云计算发展为突出代表。气象部门的私有云建设不仅参与了信息化技术应用,同时也推动了云计算行业的发展,近年来全国各级气象部门都在广泛开展云计算、虚拟化等尝试,最终完成传统信息技术到虚拟化应用的转变,并将虚拟化技术的优势逐渐体现出来[2]。随着大连气象系统信息化建设初具规模,已经建设了覆盖全市的高速业务专用网络和高可用、高性能的数据中心。近些年来,随着业务的不断发展,各种气象软件和气象资源不断增加,业务环境中桌面终端的维护成本日益增长。2015年大连市气象局服务器虚拟化平台建设初步建成,分别由一套华为刀箱服务器集群和6台利旧服务器集群搭建完成,由一套VCenter进行集中管理。后经多次升级扩容,增加了7台高性能服务器组建了第三套虚拟化集群,存储和内存等资源都得到了提升。作为虚拟化平台管理人员,在为全局业务用户提供便利的同时也带来一些管理方面的困惑和技术瓶颈,有待于进一步解决。
自2015年起,大连市气象局基于服务器虚拟化技术实现了私有云以来,目前已完成3套服务器虚拟化集群和管理平台,资源池主要包括物理服务器20台、CPU 736核、内存1920G、存储容量100T。运行的虚拟机130余台,承载了气象台、服务中心、信息中心等多个重要业务系统[1]。
当前私有云运维管理自动化程度不高,主要体现在两个方面:一是资源池规模越来越大、虚拟机系统资源故障隐患点不易排查(比如内存、CPU、存储空间不足,物理机宕机等),仅依靠管理员人工监控往往出现故障或隐患发现不及时、资源动态分配失衡等问题,导致集群HA性能下降、虚拟机业务系统运行不稳定。二是用户虚拟机管理采用纸质化的申请流程不但效率低,而且档案不易长久保存。开发智能化的运维监控管理平台实现对集群中虚拟机、物理机和存储等资源的自动化监控,提升用户虚拟机管理水平。
搭建的B/S架构虚拟化管理平台,其中主要开发模块包括以下5个方面的内容:基于VMware接口服务,开发信息处理程序并设置计划任务定时获取资源池宿主服务器、通信网络和存储的负载信息;获取虚拟机的运行状态信息,如告警、CPU、网络等50余项;开发资源池实时状态和风险告警显示模块;开发资源池容量和余量信息报表导出模块;开发虚拟机网上管理流程模块,实现虚拟机审批自动化。
图1 虚拟机审批流程
图2 虚拟化管理平台
平台搭建的技术难点和关键问题如下:利用接口程序获取虚拟化集群设备和虚拟机的状态信息并入库;根据重要程度分级显示状态故障和隐患;故障出现时及时告警通知管理员进行处理。平台技术方案包括以下6个部分:①梳理平台监控内容,整理监控列表,分别从通讯状态、宿主物理机、虚拟机、存储层面选择监控选项;②虚拟机审批流程设计。根据业务需要,用户角色设计应包括系统管理员、虚拟机管理员、虚拟机用户、部门领导、主管领导等。③采用PHP等技术开发B/S版虚拟化管理平台,主要包括虚拟化重要资源监控模块、虚拟机申请流程模块和报表生成模块。④创建后台sql server数据库并根据需要设计表结构,包括用户角色、集群、主机、CPU核数、CPU使用率、总内存、内存使用率、开机时间、统计时间等。⑤通过RVTools工具,开发后台处理程序并设置定时处理任务获取VMware VCenter的集群状态信息,写入平台数据库中。通过输入VCenter的连接方式,连接上RVTools后,可以找到虚拟机、主机、集群、交换机、端口组以健康状态等十几个视图。这些视图的每一行都包含了非常详细的信息。⑥平台读取后台数据并显示于前台界面相应位置,管理员设置相关告警阈值,显示各资源运行状态,超出阈值则发出告警通知值班员。虚拟机审批流程如图1所示,虚拟化管理平台设计如图2所示[3]。
根据功能需求和设计完成了平台的搭建、功能测试和稳定性测试,其中功能模块实现了对云数据中心资源的状态采集和资源状态统计,并在此基础上完成了异常告警模块和多样化数据展示;虚拟机资源审批模块完成了各流程的转发审批和资源配置要求不恰当等因素造成审批未通过的情况下重新申请的流转,最终实现无纸化审批、集中监控、动态优化、节能低耗等功能。虚拟机资源状态告警功能通过将超阈值信息在平台上红色显示以及推送到本地集中告警平台数据库中,并通过阿里云邮件系统和短信通知管理员和值班员,起到双重告警的作用。该平台与VCerter相比较,其优点在于异常告警提醒和状态信息多样化展示,这也是开发本平台的首要任务。平台四个功能模块:用户虚拟机申请、部门虚拟机操作系统分配信息、集群资源池统计信息、全局各部门虚拟机数量统计信息[4-6]。如图3(a)--3(d):
图3 (a) 用户虚拟机申请
图3 (b) 部门虚拟机操作系统分配信息
图3 (c) 集群资源池统计信息
图3 (d) 全局各部门虚拟机数量统计信息
虚拟化管理平台经过测试和试运行阶段,时长为20个工作日。在测试阶段完成了用户虚拟机审批流程中用户填表格选项烦琐的问题,开发修订后操作方式得到简化;在测试运行阶段主管领导提出对资源池状态统计表的修改意见,包括需要统计虚拟机资源使用状态等。开发者对相应问题进行整理、总结和重新调整代码,平台功能得到进一步完善和丰富[7]。
虚拟化运维管理平台在其管理员经验积累和深入技术研究的基础上完成了对本单位私有云集中运维管理。平台根据用户角色和权限分配实现了部门用户对虚拟机网上审批流程,包括用户、部门领导、主管领导及管理员之间的自动流转功能;私有云资源管理模块利用RVTools工具通过VMWare VCerter接口读取资源池状态信息,并实现入库和显示,其中显示部分根据业务需要进行分类统计和整理,并呈现多种显示方式,如柱状图等。由于推广应用时间较短、用户意见征集较少,平台存在一定不足之处,如管理平台包括申请、评估和终止环节各个周期的要求,促进硬件资源、系统软件合理配置等功能有待完善。