梁宏宇 江苏省广播电视监测台
虚拟化平台管理系统在广电监测中的应用
梁宏宇 江苏省广播电视监测台
本文结合江苏省广播电视监测台虚拟化平台管理系统选型测试工作,对虚拟化环境、管理系统功能需求及其测试样例进行了详细阐述。
虚拟化平台 管理系统 广播电视 监测
随着广播电视监测业务覆盖范围逐渐扩大,江苏省广播电视监测台(以下简称我台)陆续新建了多个监测系统,分别承担对有线、无线、卫星、互联网多方向的监测业务,然而各个系统独立提供监测服务,系统与系统之间并不能够连接。这样的弊端比较明显,硬件资源不能够充分利用,有的系统忙,有的系统闲,每个系统使用一套自己的网络,独立配置存储,同时维护人员的工作量不断攀升。为了解决原有系统的弊端,我台启动了虚拟化计算平台项目,利用虚拟化计算的方式集成整合现有的计算、网络和存储资源,建设统一的虚拟化平台,将各个分散的系统连接起来,统一分配计算资源,统一管理。通过虚拟化方式建设一个IAAS(基础设施即服务)平台,系统需要的硬件、网络和存储资源统一通过平台进行分配。在资源统一管理的基础上打破系统孤岛效应,实现监测资源的共享。
伴随着虚拟化平台的应用,相应的运行和管理模式也发生了变更。传统的服务器、交换机和硬盘存储变成了刀箱、刀片、核心交换机、集中存储这类大型模块化硬件资源,大量看不见的虚拟机作为计算和存储节点,完成着日常监测工作。对复杂的虚拟计算环境实现有效管理,需要借助于一个能够对复杂环境做出提炼和分层、能够化繁为简将系统运行状态以直观方式推送给管理人员的管理系统。因此,我台引入了一套虚拟化平台管理系统,实现对虚拟环境的实时运行管理,通过统一的可视化界面实现全面的运行维护。
结合台虚拟化平台的实际运行情况,我台制定了虚拟化管理系统(以下简称系统)的主要目标及其应实现的功能。主要概括为:(1)针对不同计算中心的融合管理能力要求;(2)针对虚拟计算环境的管理能力要求;(3)对虚拟化环境的易操作性和可维护性要求。根据测试目标,我们制作了一份测试目录,进行测试的管理平台需要满足以上运行目标,并能够根据用户的需求实现持续的定制化开发。1.不同计算中心的融合管理能力
计算中心是一组计算资源的集合,通过虚拟化软件的部署,将资源连接起来并对外提供计算能力,硬件资源和虚拟化软件可以是不同厂商的产品,但是他们都需要遵循相关虚拟化的接口和协议。在实际应用中,由于系统的建设时间不同,产生了新老设备共存、不同网络共存的状况。通过建立计算中心将各种分散的计算资源整合利用起来,对外以提供虚拟计算节点的方式实现虚拟化。
我台要求在硬件和软件层面都要实现兼容性,要符合业内标准,遵循总局、行业和台相关规范。所以,本次测试分别使用刀片和多种PC服务器作为两类计算资源。使用了对外提供FC和NAS协议的集中存储,刀片挂载FC存储,服务器则使用SAS硬盘。通过部署vmware虚拟化软件建立了两个计算集群。要求系统通过导入计算机群,能实现对两大集群的统一管理。例如,系统要能够实时浏览到集群的拓扑图,能有效识别系统的设备构成、网络连接、存储位置、资源运行和消耗情况、告警信息等。
2.针对虚拟计算能力的管理
虚拟计算能力支撑业务系统的运行,由数量众多的虚拟机及其相关的网络、存储、组织架构等功能组成。对于虚拟机来说,能够实现统一的虚机模板配置、虚机的创建、更新、启停、删除。要求能够支持虚拟机的高可用性,例如主备双机、虚拟机的快照、虚拟机的迁移、物理机的故障保护等功能。因为虚拟机需要附着在网络上实现通信,所以网络架构是对系统架构的完整描述,同时加入组织描述能力,将两者合并起来实现网络资源管理。系统需要能够链接不通环境的IP网络,实现网络和组织拓扑的全覆盖。实现虚拟交换机的配置、网络资源池的管理、ip的分配回收、计算集群的分配、Qos、流量分析等。能够将存储纳入管理,根据计算中心提供的存储资源,实现存储的分配回收,存储运行状态管理,报警管理等主要功能。组织架构管理方面,需要实现严谨的机构人员权限分配和管理、组织的分配和释放、组织与对应计算资源的分配、审计、计费等一系列功能。
3.简单易用的用户管理界面
系统要求以B/S的方式实现,即用户打开浏览器登陆系统后就可以完成各自所属角色分配的工作。将复杂的计算、网络和存储关系以直观的图形化的界面展现,并将界面操作转化为相应的后台操作,实现计算资源的添加、管理、删除。可以配置虚拟网络、集群、组织架构及其相应关系,能够实时展现事务、日志、告警等关键信息,能够实现用户自定义功能、脚本。能够提供浏览器端的console界面,用户可以即时登录虚拟机处理紧急情况,而无需复杂的工作站配置流程。通过一系列引导流程,让用户可以直观实现对物理资源、虚拟资源、应用模板、角色、性能、组织、计费等多种流程的管理,能够实现对环境的每日审计,并具备短信、邮件等告警能力。
1 .虚拟化环境的构成
为了测试系统对不同种类硬件的兼容性,我们以台现有云平台环境为基础,通过添加服务器集群,和原有刀箱集群组成了两个集群A和B。其中A为服务器集群,B为刀箱刀片组成的集群。集群可以由服务器、刀箱或者其他可以由hypervisor管理的计算机构成,比如惠普和思科的刀箱组合。物理机通过核心交换机连接至集中存储,虚拟机由物理机生成,负责业务的运行,而云管理平台则部署在虚拟机上。计算设备的构成见图1。
图1 虚拟化环境的测试计算设备构成
表1 测试的服务器集群资源
表2 测试的刀箱集群资源组合
表3 测试的交换和存储设备
如图1所示,系统存储通过FC和NAS两种方式对外提供服务,其中FC方式通过SAN交换机连接到刀箱的HBA卡,为虚拟机提供存储功能。NAS方式通过核心交换机的以太网模块为全体计算资源提供基于文件访问的存储功能。业务链路方面,服务器集群通过以太方式连接到核心交换机的以太网模块,刀箱则以光纤的方式链接到核心交换机的10Gb以太模块对外提供虚拟服务。刀箱集群的上行链路对应核心交换机配置的3个vlan段,核心交换机通过vlan配置实现业务的隔离,实现互不干扰。分别是物理资源vlan段、vmotion段和业务vlan段,vlan之间的相互隔离。例如,对于惠普刀箱,在刀箱的上行链路背板上使用4个万兆以太网口,我们使用其中一个口作为物理设备的管理口,配置在IP为192.168.100.X的网段上使用另外一端口为vmotion口,作为虚拟机的部署和迁移使用,配置在IP为192.168.101.x的网段上。绑定最后两个端口为业务口,用来运行与业务相关的虚拟环境,配置在IP为192.168.102.x的网段上,这三个网段分别对应交换机上vlanid为40,41,42的口。根据背板提供的总带宽,我们分别为三个段设置带宽为5G,8G,20G。系统在服务器集群上部署了3台虚拟机,分别用于vcenter集群管理软件、虚拟化平台管理软件和测试文件拷用。
2 计算资源的总体展现、网络拓扑和存储
2.1 计算中心的导入和展现
系统需要提供一个可以完整展现计算中心信息的首页,管理员导入计算中心URI、用户、密码信息后,系统自动去相应的管理中心(在这里是我们部署的vcenter虚拟机)读取当前计算机群的信息,可以观察到虚拟控制中心、虚拟存储资源、虚拟网络的数量,CPU、内存、网络、存储的使用率及性能曲线,实现对异常操作的报警与错误提示,如图2所示。
图2 云数据中心管理平台的监管页面
2.2 网络和组织结构的管理
虚拟网络是指构建在硬件网络资源之上的虚拟的网络,是承载虚拟机运行的重要资源。虚拟机需要从虚拟网络资源池中获取虚拟地址才能够对外建立通信,并发布服务。要求系统能够创建要求的虚拟网络,包括外部网络、内部网络,组织网络等。通过系统,操作人员能够建立一个虚拟IP资源池,vlan资源池。本次测试案例中,我们建立了两段IP资源池,分别是10.1.X.X 10.2.X.X,对应着两个不同的业务段,并且配置在vlan 50,vlan60两个不通的vlan段中,业务数据互相隔离。
2.3 存储的管理
要求系统提供引导界面,管理员可以导入外部存储,能够全面展示存储的位置、使用量、总量、协议、运行负荷、IO压力、报警等多方面数据。提供查询、新增、容量修改、删除、I/O管理、虚拟机存储挂载、数据清理等功能。
3 .对虚拟机的管理
3.1 虚拟机生命周期的管理
整个虚拟化环境对外以虚拟机提供计算和存储能力,而虚拟机不是服务器,没有物理的机柜、网络、对外接口,要实现对虚拟机的有效管理需要借助于可视化的管理系统。系统需要提供对虚拟机生命周期内业务的全方位管理能力,包括虚拟机的创建、部署、迁移、起停、优化等。系统要在界面上对虚拟机产生的日志,业务的进度作出实时反馈。能够按组织、网络、存储等不同检索维度,快速定位到需要管理的虚拟机,管理员要能实时看到给定虚拟机的运行状态,如桌面信息、网络负载等。同时,要能够提供安全管理,保证各组织各业务之间的虚拟机能够独立运行,不被侵扰。
3.2 虚拟机模板管理
模板是对虚拟机的定义,它定义了虚拟机的硬件描述,使用的CPU、内存、存储、使用的操作系统等信息,通过使用模板可以快速创建需要的虚拟机。不同类别的虚拟机适用不同的模板。例如,偏计算的虚拟机分配相对多的CPU资源,而用来做流媒体的虚拟机,则定义了更多的内存和存储空间。系统要能够在界面上按权限提供诸如模板创建、查询、修改、删除等信息,同时要能够保存用户的操作日志。提供模板的关联检索,通过一类模板定义可以检索出其生成的虚拟机并跳转到虚拟机的信息页面。
3.3 虚拟机交换机
通过建立虚拟机交换机,与虚拟机匹配,使虚拟机获得网络功能。测试是否支持建立虚拟交换机,同一集群内的虚拟机之间可以通过虚拟网卡和虚拟交换机通信;能否配置虚拟机的端口和vlan号。具体步骤为:首先,在网络资源池中建立多个VLAN端口组以及相应的IP段,包括VLAN50、VLAN60。通过虚拟机模板创建两台虚拟机,在虚拟化管理系统上为2台虚拟机配置虚拟网卡,每台虚拟机的虚拟网卡划分不同VLAN。使用Ping命令测试两台虚拟机是否联通。再把两台虚拟机配置为相同的VLAN,使用ping命令测试虚拟机是否联通。其结果为当两台虚拟机处于不通的VLAN段中,它们不能互相连接,当处于相同的VLAN段中,两台主机可以相互连接。
4. 虚拟机高可用性
4.1 虚拟机热迁移
热迁移(Live Migration,又叫动态迁移、实时迁移),即虚拟机保存/恢复(Save/Restore):将整个虚拟机的运行状态完整保存下来,同时可以快速的恢复到原有硬件平台甚至是不同硬件平台上。迁移前后,虚拟机可以平滑运行,用户不会察觉到任何差异。登录虚拟化管理系统,在同一服务器上,选择2台正在运行的windows虚拟机(虚拟机配置2vcpu),手动选择其它目标物理服务器进行主机热迁移,主机热迁移过程中ping其它虚拟机,查看在线迁移的中断情况。在热迁移的windows 虚拟机与用作CIFS共享文件服务器的虚拟机之间采用共享目录方式拷贝大文件。系统需要支持到多台虚拟机并发热迁移,并且在迁移的过程中,文件传输不中断,Ping丢包≤10。最后,系统要能够提供迁移的源地址信息、目标地址信息和相关的日志。
4.2 虚拟机快照
虚拟机快照是虚拟机在特定时刻的状态、磁盘数据和配置的基于文件的快照。当创建一个虚拟机快照时,会生成一个特定的文件,也是恢复快照当时系统的日志。为虚拟机创建每一个快照时,都会创建一个快照文件。这些文件用于存储关于快照的元数据和信息,这个文件是本文格式的,里面包括诸如快照显示名称、UID(编号)和磁盘文件名等信息。系统需要能够备份和恢复操作的虚拟机数据的时间点副本。登录虚拟化管理系统,选择一个虚拟机,在虚拟机中新建一个有任意内容的文件A并保存,记录文件A内容,Ping其它虚拟机,在windows 虚拟机间采用共享目录方式拷贝大文件,同时执行虚拟机快照,快照执行完毕后删除新建文件。恢复到上一步执行的快照点。虚拟机成功创建在线快照,期间Ping有丢包,之后网络能够恢复,大文件拷贝正常执行。在虚拟化管理系统中可以查看快照点,可以通过虚拟化管理系统浏览查看虚拟快照文件。快照文件恢复后,可以看到文件A,快照可以被正常删除。
4.3 物理机故障保护
虚拟服务器是部署在物理机上的,底层物理机性能出现异常或者其他原因都会导致物理机宕机。当检测到虚拟服务器所在的物理机发生故障,系统会启动保护性迁移,将服务器迁移到性能正常的宿主机上。登录虚拟化管理系统,选择一台测试虚拟机,连续向虚拟机发送ping包,同时对物理机断电。系统要能够对物理机异常做出正确的告警,并且ping包短暂的丢失后能够恢复。登陆系统,查看虚拟机现在寄宿在哪台物理机上,启动是否正常,并且要求能够查看到相应的日志。
4.4 动态资源调度
作为中心服务系统,运行的各虚拟机的负荷是不一样的。关键服务虚拟机的业务量较大,对硬件资源会造成相对大的负担。当虚拟机所在的物理机负载过大时,需要把虚拟机自动迁移至负载较轻的物理机上。选取一台物理机,人为增加该物理机的负载(增加该物理机的CPU利用率)使其达到触发阈值(资源利用率>=75%)。开启动态调度,选择其中一种“激进”策略,保持以上负载,并查看动态调度日志,查看当前调度周期,并在下一次调度周期开始后持续该负载15min以上,查看动态调度结果。系统应该能自动将该负载高的物理机上的虚拟机迁移至同集群内负载低的物理机。
5 .虚拟化平台的易维护性
5.1 资源展现
在日常使用中,操作人员需要能够直观的在系统界 面上查看到系统的资源配置及其使用情况,而且配以屏幕墙大屏展示的方式,能够让监控人员及时了解到平台的运行情况。系统需要能够同步物理资源、虚拟资源,将资源的分布和使用情况展示到界面上。通过创建物理资源中心,能够监控到所有的服务器、存储、集群,并能够更新物理资源的信息。系统要能将刀箱、刀片、服务器、存储、交换机等支持SNMP或其它方式查询工作状态的硬件资源以拓扑图形的方式显示在界面上。对于虚拟资源,也要能够将网络、集群、虚拟机以拓扑的形式展现。5.2 告警与审计
系统要能够将硬件环境和虚拟环境中的告警信息直观的推送给操作人员。系统要能够将物理机的CPU负荷、存储占用量、内存使用量、网络吞吐等数据集中展示,能够让管理人员设置告警阀值,能够对告警信息分级,首要的告警任务要能够直接推送到界面上,并能够按告警产生的时间、项目、网络位置进行检索。系统有告警的走势图,可以连续展现最近一段时间的告警次数多少,告警分布情况等。同时系统需要配备审计功能,针对某个子系统或者项目的虚拟环境使用状况,按照要求生成审计报表,例如项目的具体位置、配备的虚拟机、存储的数量及其配置,虚拟交换设备的平均吞吐量,系统平均工作负荷和最近一段时间的操作日志等信息。5.3 角色、组织和审批管理
系统需要为不同的用户分配不同的角色,通过角色关联到其对应的权限。例如管理员对应系统全部权限,包括虚拟环境的新增、修改、删除、网络和存储的配置等工作。对于监控人员,系统则不赋予管理的权限,但系统需要为监控人员打开告警和报表的权限,以方便监控人员第一时间查看到系统的运行状态。同时系统要具有组织定义和审批管理的功能,可以根据项目定义其中的组织关系、审批关系,方便人员通过逐级审批,获取虚拟资源的使用权限,并能够统计和展示组织内部虚拟资源的使用状况。
虚拟化平台通过将实体计算资源虚拟化,实现了计算资源的重复利用和集中统一管理。通过建设虚拟化计算环境,提高了硬件的利用效率、方便了后续系统建设、实现了系统之间的互联互通、提高了数据的利用效率,同时降低了能源消耗。但虚拟环境对管理和维护工作提出了更高的要求,如何在系统构成、服务器、网络和存储布局不断变化的虚拟环境中做好系统的运行维护和审计工作,需要仔细研究。通过使用虚拟资源管理平台,将繁琐的后台操作替代以图形化的简单操作,可以使管理工作更快速方便的开展。
本文对我台虚拟化环境的构成做了基本描述,包括计算资源的总体展现、网络环境和外部存储,阐述了在此环境中我台在选取虚拟环境管理系统时的主要考虑,从计算中心的总体资源展现、虚拟机的生命周期管理、虚拟化网络的管理、外部存储管理、人员和组织架构管理、高可用性、运行维护等方面作出基本说明。随着虚拟化、云计算不断发展,各个厂家如微软、Xen、VMWare都在纷纷推陈出新,开源方面以openstack为代表的众多组织都在不断的更新虚拟环境的产品,如何使系统能够适应更新,随着虚拟环境的使用不断发展,也是我们需要考虑的内容。
[1] 国家广播电影电视总局.GY/T106-1999,有线广播电视广播系统技术规范[S],1999
[2] 江苏省广播电视监测台.江苏省监测台系统建设规范[Z]
[3] 云计算解码/雷葆华等著[M] 北京:电子工业出版社,2012.6