沈凤明++崔骋宇
摘 要:随着云计算迅速发展,适应移动办公潮流到来,考虑到数据私密以及响应及时,很多高校都开始搭建私有云环境,作为学校信息化的基础设施向师生提供信息服务。西北农林科技大学云计算平台经过多年的运维实践,现已稳定、可靠地承载业务部门的信息化服务功能。VM是实现信息服务功能的载体,该文阐述了云环境下VM实现功能过程中的常见问题,提出了一套可行的管理策略和方案。
关键词:私有云 VM管理 故障监控
中图分类号:TP32 文献标识码:A 文章编号:1672-3791(2016)12(b)-0045-02
云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机技术和网络技术相互发展、相互促进的产物,其主要目的是通过这些技术将多个成本相对较低的计算实体构建成为一个具有强大计算能力的系统,实现了分布式计算的重要目标:可扩展性和高可用性[1]。同计算资源庞大的公有云相比,私有资源和对数据的掌控是其存在、发展的基础。
云数据中心通过虚拟化技术将计算资源(CPU,内存,GPU,FPGA),存储资源和网络资源构建成虚拟资源池;使用虚拟资源管理技术实现资源自动部署、动态扩展、按需分配;用户可以采用预留分配,即需分配,现货分配等方式获取所需资源[2]。然而在实际运维中发现,资源分配、回收机制并不可行。该文在阐述这些问题的基础上,提出了虚拟机(下文用VM)的管理策略。
1 VM管理中常见的问题
私有云平台上运行的VM,可以分为三大类:第一类是云计算平台自用的,为实现云计算而生;第二类是云平台上运行的公共服务支撑系统,比如统一身份认证、门户、公共数据库等服务;第三类是数量繁多、差异大,不同部门使用的业务系统;第一、二类VM由云平台管理员维护,第三类VM主要由业务部门管理员维护,云平台管理员协助,是该文主要关注的类型。
1.1 第三类VM由业务部门维护的必要性
该类VM提供的应用,与具体业务部门相关,服务对象是办理具体业务的师生。服务时间、服务量、服务高峰时间、数据量等不同业务系统之间差异大,以该校实际情况为例:图书馆的VM通常需要很大的存储空间,长期存活;教务处的VM在选课期间并发量很高;这些具体情况只有业务部门比较清楚。其二,部门管理员是使用业务系统最多的人员,系统出现异常后,最可能由业务部门管理员最早发现;其三,云平台中管理的VM数量众多,让云平台管理员监控云平台中所有VM运行状态是不现实的;还有,有些业务部门的数据是私密的,比如财务数据、个人私密性数据等。考虑到信息私密性、数据所有权、权责界限划分问题,VM创建完成后,管理员权限转移至应用部门,云平台管理员不再具有超级管理权限。
1.2 VM的维护管理体系
业务管理员精通业务,建设信息系统不是其强项。由我校实际情况看,业务部门自己开发的业务系统在稳定性、安全性、服务性能上明显不足,与其他业务系统数据互通性较差,容易形成信息孤岛;所以,大多业务系统还是由专门的公司开发、维护。最终形成业务部门在前台面向师生提供服务,云平台管理者和开发公司在后台向业务部门提供支撑服务的管理体系;在这一体系中云平台管理员提供VM的计算资源、存储资源、网络资源、业务漏洞扫描以及VM开关机服务,承建公司提供系统搭建、维护正常运行的服务。
2 VM维护体系的缺点与不足
2.1 资源利用率不高,回收困难
前文提到业务部门对自身系统了解最深,但即使这样,业务部门对系统消耗资源量也是不清晰的,常以承建公司提供的数据为依据申请使用量,超额申请是常见的現象。云平台管理员又没有拒绝的理由和依据,解决方案就是人工处理资源额度申请,同业务部门及承建公司协商合适的额度。业务系统投入运行后,发现资源不足时补加;而云平台向业务VM提供的资源富余时,业务部门几乎不会主动提出减少资源额度。虽然云管理平台有一定动态的资源回收和再用机制,但这种浪费方式带来的低利用率是不可消除的。
2.2 非正常运行中的业务系统带来的资源低利用率
根据VM中的业务系统的运行状态,云平台中VM分为以下几种:(1)承载业务系统正常运行的VM;(2)业务系统建设中的VM;(3)由于业务老化被丢弃的VM;(4)由于运行故障、漏洞导致失效的VM;(5)业务建设中由各种原因暂停的VM;(6)测试用的VM;除(1)、(2)之外,其他几种VM,数量较多,占VM总量的15%左右,不但浪费大量的计算资源,且由于这些失效的VM不能被标识和关停,又会导致庞大的备份量、浪费额外的备份空间。
2.3 通过资源计费提高资源利用率的不现实性
公有云通过资源使用量收取相应的费用,以经济手段提高资源利用率,但在私有云环境中是行不通的。私有云平台管理部门同其他业务部门同属一个单位,如通过部门间费用结算,和不收取没什么区别;再者,云平台属于校园基础设施,为其他业务部门提供基础支撑是其应承担的功能,由于费用问题影响到其他业务部门的正常使用是不可想象的。
2.4 业务部门的控制感不强
业务部门认为硬件系统和网络系统都存放在信息部门,潜意识认为业务系统归属于信息部门管理;当云平台管理员将VM管理权转移至应用部门后,由于业务部门的信息技术相对薄弱、对数据安全的担忧不愿接手,导致VM管理权的空置,给整个系统安全带来潜在的危险。
3 VM管理策略及实现
VM在其生命周期内,部署和运维是管理的主要任务,在实际的工作生产中,我们是这样管理业务系统VM的:
3.1 VM部署流程管理
私有云中的VM数量较少,平均周部署量在2~3台左右。为了有序、有效管理VM部署,在实际管理中采用应用系统申请表的方式进行。流程如下:
(1)阅读校应用系统管理办法;(2)下载应用系统备案登记表,根据表项内容填写; 其中业务部门负责的内容有:VM数量,应用系统描述,操作系统类型,计算资源CPU、内存的申请额度,应用服务范围(对内、对外),业务部门管理人员姓名及联系方式,租用期限;(3)应用系统使用单位签署意见后,报信息办审批备案;(4)信息管理部门工作人员根据登记表分配计算资源和内网IP地址分别,创建VM管理员账号和密码,并将VM超级管理权限转交给业务部门;(5)业务部门联系承建公司完成系统建设;(6)信息部门对建设完成后的应用系统进行安全漏洞扫描,未通过安全漏洞扫描的系统反馈扫描结果给业务部门整改;通过安全漏洞扫描的应用系统,如有外网访问需要,配给正式外网IP。自此,应用系统正式上线运行。
通过登记表申请方式,可以有效控制VM资源的浪费情况。登记表中的联系方式,有助于落实VM业务管理员,在其变更时也能得到及时更新,不至于VM在运行时失去管控。
3.2 VM正常使用管理的异常情况管理
VM中应用系统正式投入后,故障出现的概率较小。主要的故障有:系统负载过重,磁盘空间不足,VM网络故障及关联VM间连通故障,这些故障需及时处理。还有一种需要及时处理的操作是OS更新。此时云平台管理员已失去对VM的管控能力,这就要求业务系统管理员对VM掌控有力。VM系统长时间不出故障,又容易给业务管理员带来思想上的麻痹。再者,要求云平台管理员24 h监控是合理的,要求业务管理员每天登陆VM监控是不现实的;在VM异常出现时,业务系统管理员第一时间发现问题,及时联系云平台管理员和承建公司处理是可行的。在不改变私有云架构的情况下,采用以下方法对虚拟机进行管理监控:
(1)VM网络通讯正常,此时监控VM的计算资源使用情况,关联VM间的通讯情况,并发量大小,将故障、警报信息发邮件提示给业务部门管理员;业务部门管理员根据实际情况,联系云平台管理员关闭、重启VM,或者联系承建公司处理异常故障。
(2)私有云平台管理员,通过一个私有云域外计算机监控业务VM的通讯状态。该机维护一张监控VM的IP地址及应用端口表,通过脚本监控表中所列项,一旦发现通讯异常,云平台管理员登录控制台处理异常故障。
(3)在VM使用并发高峰前,业务部门与云平台管理员沟通启动更多承载VM,并约定使用期限,高峰期过后,云平台管理员登录云平台关停额外的VM。
3.3 异常的监控通过脚本实现
這里以VM 操作系统为CentOS 为例介绍,在VMMonitorList文件中列出监控项,并设置监控进程名称,监控计算资源警报阈值,使用awk命令读取VMMonitorList文件,提取监控项目类别、名称、阈值。通讯监控脚本,该脚本运行在私有云域外的一台计算机上,监控所有业务VM的网络连通情况。该计算机维护VMNetwork_info文件,在其中列出所监控VM的IP地址,以及监控的服务端口号,将监控脚本加入到VM定时任务中,并启动启动crontab服务,设置监控时间间隔,即可实现在VM出现故障时及时发出邮件信息,再经由短信,微信等即时通讯工具,业务管理员、与平台管理员可及时获知VM的异常状态。
4 结语
该文作者在学校网络和技术中心管理云平台数年,在管理VM过程中,与业务部门,应用程序承建公司沟通、协作较多。为了有效提供云平台资源利用率,加强对VM及其应用系统在故障出现时的掌控,在不额外增加工作难度和强度的情况下,通过对VM有效管理和故障异常出现时及时发现,提出了自己的管理方案,提升了私有云的资源利用率和应用可用性。在此希望能对云平台的管理同行提供一些借鉴和参考的地方。
参考文献
[1] 陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348.
[2] 杜华.Linux编辑技术详解[M].人民邮电出版社,2007:11.