张元龙+廖晓群
摘要:隨着高校私有云平台的建设,实现IT资源的大整合、统一管理和按需分配,云平台的运维至关重要,大量的应用系统相继上线,传统的运维模式无法满足云平台的运维要求,如何解决云平台运维面临的挑战。根据高校私有云平台建设架构和云平台运维特点,构建一个智能化、规范化、标准化的云平台运维模式。
关键词:私有云;运维管理;安全
中图分类号:TP315 文献标识码:A 文章编号:1007-9416(2017)05-0252-01
随着私有云平台在高校的落地,各类信息化应用系统大量上线。各种问题接踵而至,一方面来自云平台的运维,另一方面来自云平台的管理。如何有效的对云平台进行运维管理,是目前面对的巨大挑战,也是信息化建设快速、稳步发展的保证。本文主要介绍了云平台的架构以及云平台运维的特点,构建云平台的运维管理模式,以保证云平台安全、稳定的运行。
1 云平台架构
目前,高校的私有云大都是IAAS云平台,即基础设施即服务。云平台是基础设施的集合,包括服务器、存储设备、网络设备以及其他设施,其最重要的特点是按需分配,以服务的方式交付计算、存储和网络的基础设施服务。
云平台技术已经相当成熟,一般云平台架构包括物理资源层、虚拟化层、云服务层、用户四部分。其中物理资源层包括服务器、存储、网络设备以及其他设备。虚拟化层包括计算虚拟化、网络虚拟化、存储虚拟化。云服务层包括云管系统和自助服务门户。
从云平台的架构可以看到,云平台囊括了除机房设施外的所有硬件设备,可见相当复杂。随着云平台的落地,建设初期阶段结束,云平台的大量工作重点转移到后期运维,可见运维管理的重要性。
2 云平台运维管理的特点
云平台包括基本的硬件设备,操作系统、中间件、应用软件软件资源,同时具备对云平台内的虚拟资源和物理资源的实时监控。由此可以看出云平台运维的特点主要体现在资源按需分配、资源集中管理和资源监控统计上。
2.1 资源按需分配
云平台服务器、存储、网络设备集中且规模大、密度高、扩展灵活快速以及高可靠性。云平台将软硬件资源以服务的方式提供给用户,用户按需使用。按需分配主要体现着云主机的弹性扩展以及灵活的资源分配上,最主要的是计算和存储。按需分配的优点在于用户不需要对IT资源的计算能力、存储能力、网络能力的大小以及后续系统升级带来的升级服务进行考虑,用户只仅需要按需申请就可以了,极大的加快应用系统的上线、升级。
2.2 资源集中管理
云平台的资源集中管理体现在所有的软硬件资源通过云平台,依托校园网为用户提供服务。资源包括网络资源IP的分配、计算资源、存储资源以及软件资源,将软硬件资源以虚拟机的形式提供给用户使用,由云管理平台协调完成。云管理平台管理物理资源、虚拟资源、软件资源以及其他高级服务功能。集中管理最重要的是确保各资源之间的协调,例如,如果一台物理服务器宕机之后,业务迁移后是否能保证其他资源能够承担这台宕机的服务器应用。集中管理中需要确保资源的预留,计算资源按照一个计算节点资源的虚拟资源进行预留,存储资源按照每个卷的百分之30进行预留,一旦资源超过了预留值,资源的扩展就需要考虑了。
2.3 资源监控统计
云平台的资源监控包括虚拟机的各项指标的实时监控、云平台监控以及服务状态监控,虚拟机的监控包括CPU、内存、存储以及网络使用率。资源监控主要有三方面:一是云平台中虚拟机的性能状况,二是物理资源(计算和存储)的使用状况,三是各个性能指标的异常情况。资源的统计包含CPU、内存、存储、网络等一段时间的平均值、最大值、最小值,软件的使用状况,以及其他相关统计。通过资源的监控统计,对云平台的后期扩容以及资源的规划,对云平台的潜在故障的提前发现以及提前修复,同时对故障进行报警都非常重要。
3 云平台运维管理模式
云平台是一套复杂的、规模庞大的IT资源提供中心,为保证平台稳定、安全、高效的运行,其运维管理应具备规范化、安全性、自动化的特点。目前的私有云运维方式的流程为:私有云的运维管理人员管理所有软硬件资源,应用运维人员通过互联网VPN拨号链接到校内网内,通过远程连接进行运维管理,业务管理人员在校内同样通过远程连接进行应用系统的管理。
3.1 规范性
有序的管理如此庞大的资源,必须要有一套操作规范,包括云平台管理人员操作规范和云平台用户操作规范。云平台的运维参与者有用户、应用维护人员、云平台运维管理人员,如何有效的实现对IT资源的运维管理,规范化是必要的。云平台上的资源大,应用程序多,云平台一旦故障,直接会导致全校的信息化应用系统的瘫痪,影响正常的教学、科研、管理工作。大多数的故障都是人为操作引起的,因此云平台的操作规范性是必须的,结合权限管理,能够有效的避免因操作人员的操作失误导致的业务中断。
3.2 安全性
安全对信息化来说是非常重要的,也是一个国家战略。作为信息化平台的运维来说,安全也是至关重要的。云平台的安全体现着云平台本身,操作系统,应用系统等几个方面。云平台本身的安全由厂家定期巡检,操作系统的安全依靠漏扫平台确保安全,应用系统安全依靠云杀毒软件部署在每个云主机来保证安全。其他的包括出口防火墙以及云平台的七层软防火墙的设置,对特定的端口进行开放,预防网络蠕虫、DDOS攻击等。
3.3 自动化
信息化建设的不断深入,云平台的资源规模的扩大,云平台运维管理的难度、复杂度、工作了日益增加,传统的人工运维管理不能满足当前发展要求。云平台的运维包括日常巡检、模板维护、故障处理等工作。日常巡检工作每天对平台进行健康巡检和资源的性能指标的异常巡检,为提高工作效率,可以对日常巡检工作编写成脚本文件定期执行任务,提取有效信息进行查看,提高了系统日常维护工作效率。如果是简单故障,将按照提前写入系统的处理流程脚本,进行处理,并将故障日志信息进行留存,以便后期进行查看,分析原因。云平台的运维自动化是实现运维智能化的基础。
4 结语
云平台已经成为技术主流,各种应用系统都迁移到云上,云平台安全、稳定、高效运行的保障是云平台运维管理体系的建立,是保证信息化建设、教学、科研工作正常进行的支撑。在后续的工作中,结合实际情况,构建一套完善的运维管理体系,实现云平台的运维管理智能化、规范化、标准化是必然要求。
参考文献
[1]薛新民.云平台机房特点及运维管理研究[J].信息技术与标准化,2015,(06)66-69.
[2]张艳辉.云平台运维管理探析[J].信息技术与标准化,2014,(11)64-67.
[3]张四海,张万光.高校IT运维服务面临的挑战与机遇[J].中山大学学报(自然科学版),2009,(S1):235-237.
[4]刘伟.基于Vmware虚拟化的云平台运维研究[J].数字技术与应用,2015,(12)124.
[5]潘晓霞,周亮彪.私有云IT运维管理平台研究[J].科技资讯,2015,(12):3.endprint