□ 张亚龙
相对于传统的服务器部署模式,一台物理服务器部署一个应用软件,服务器的平均利用率仅占本机性能的10%到15%左右。甚至在很多情况下,空置或者仅提供少量服务,主机也会消耗70%以上的额定功耗,造成机房物理空间和电力的损耗。本文结合主流虚拟化体系的特点,从实际需求出发,提出基于VMware vSphere 虚拟架构的服务器虚拟化部署方案。此方案满足多种应用情况的服务器利用率,有效减少了在线服务器的数量,从而实现信息化系统的高可用性,并显著降低其部署成本。
服务器虚拟化就是将多台物理服务器资源整合成平台,按照实际需求进行二次分配计算资源,从而让操作系统和应用具有更高的可用性。当前,虚拟化技术主要应用在服务器虚拟化、远程虚拟桌面、AI 人工智能、大数据分析等方面。其中服务器虚拟化,对于各级信息化机房节点具有很多现实意义,它可以减少物理机的数量,节约机架空间,以及降低网络设备、空调、电源、存储单元等相关设备的消耗,有效降低日常运行的经济成本。
目前比较成熟的虚拟化技术体系主要有KVM、XEN、VMware 等,其中 KVM 和 XEN 是开源体系。
KVM 是基于Linux 内核的全虚拟化虚拟机系统,其架构由KVM 内核模块和QEMU-KVM 模拟模块组成。KVM内核模块是在Linux 内核的基础上增加的虚拟机管理模块,通过调用Linux 内核中已经包含的进程调度、I/O 管理等模块,结合QEMU-KVM 模拟模块为虚拟机提供的虚拟化资源进行工作,每一个虚拟机都是QEMU-KVM 的一个进程,由Hypervisor 中的进程调度模块统一管理调度。由于KVM是虚拟模块与Linux 内核的结合,模拟的硬件设备在数据交换时路径操作比较长,以及多次的上下文切换容易造成资源的损耗和高负载。KVM 体系支持的客户机操作系统包括Linux、Windows 等。由于 KVM 需要 CPU 中虚拟化功能的支持,只可在支持虚拟化功能的CPU 上运行,即具有VT功能的Intel CPU 和具有AMD-V 功能的AMD CPU。
XEN 是半虚拟化的虚拟机系统,其架构由XEN Hypervisor 和虚拟域两大部分组成。XEN Hypervisor 负责将CPU 和RAM 两大硬件资源虚拟出互相隔离的资源,供虚拟域使用的同时管理和监控虚拟域的资源和系统运行情况。每个虚拟域就是一个虚拟机环境,其中虚拟域又分为特权虚拟域和非特权虚拟域,特权虚拟域优先级更高。XEN 架构简约,系统运行较快,虚拟化实现的性能更强,但是由于没有Linux 内核的支持,系统更新需要重新编译整个体系,后期维护成本较高,涉及内核升级的安全隐患较大。
VMware vSphere 是一个不开源的虚拟化系统,系统配置流程较完善且独立封装。采用SDS 的核心原则,同时从控制层面和数据层面进行虚拟化。虚拟存储VSAN 采用分布式架构,配合固态硬盘实现高性能的读写缓存。同时,外接存储可以使系统获得更高的性价比。vSphere 内核的内部运行,使得数据I/O 路径能提供更高级别的性能。系统集成的vMotion、HA、DRS、FT 等功能模块可以实现通过前期的服务策略配置达到存储任务自动化,后期的管理更为便捷。VMware 的虚拟机支持Windows、LINUX 等系统。
本方案采用X86 服务器16 台,其中全闪存配置ESXi 14 台,SAS 配置ESXi 2 台。全闪存配置的主机中使用四分之一容量提供缓存层,四分之三容量提供数据存储层。SAS 配置的主机提供管理平台的运行。平台可用容量有限,后期扩容可采用混合集群,即缓存层使用已有闪存,容量层扩展,把容量较小的SSD 更换为普通的大容量磁盘。使用读写分离的缓存算法,配置缓存层中可用缓存的70%用于存储需要大量读取的磁盘块,配置剩余30%缓存层用于执行写入操作。从而最大限度减少对读写速度较慢的磁盘的访问,提高磁盘使用寿命和整个平台可用性。
底层的ESXI 主机采用SATA 接口的DOM 电子硬盘,使数据层和底层架构分离,提高X86 服务器的有效空间利用率,降低单一容器造成的系统风险。由于SATADOM 属于Flash 存储介质,主要使用NADA Flash 的Floating Gate 存储电子实现数据存储,电子多次穿过Floating Gate 后,会导致介质存储电子能力变弱,甚至导致击穿,因此要考虑系统运行的读写数据量。通常SATADOM 的读写寿命在3000 次左右,在平均使用2500 次以上的时候要提高警惕。我们的平台在上线数月内,就遇到SATADOM 的击穿情况,其后分析原因,把系统日志的存储进行了路径更改,确保了业务的可靠性。
虚拟机数据交换采用千兆交换机4 台,后台的背板数据交换采用万兆交换机2 台。两两做堆叠设置互备。ESXI6.5 本身支持将千兆和万兆网络接口用于混合配置下的Virtual SAN 网络流量。单一使用千兆网络,系统配置要求设置独立网口,专门用于Virtual SAN 流量。如果使用万兆网络,则网口可以与其他类型网络流量共享。考虑到主机迁移的速度和通信流量的稳定,本方案选择万兆交换机作为背板交换,千兆交换机作为Virtual SAN 数据交换。
关于I/O 控制器,Virtual SAN 支持每个ESXi 主机使用多个I/O 控制器。使用多控制器和单控制器配置ESXi主机的区别在于,多控制器可以实现更高的运行速度,并且在故障发生时,可以把故障的存储空间隔离在最小范围,降低平台数据损失的风险。使用单控制器时,主机中的所有设备都在同一控制器监管之下,因此,控制器故障会影响主机上的所有存储单元。在本方案中,结合系统可操作性和每台ESXI 主机的实际磁盘数量,我们选用单控制器。单控制器造成的磁盘数据风险,将通过完善存储策略进行规避。
针对承载重要业务系统的虚拟服务器,配置HA 功能。在创建集群后,配置HA 模块,ESXI 主机将根据系统形成的逻辑队列,对集群中的其他主机进行持续的心跳检测。当某台ESXI 主机在连续三个五秒的时间间隔后仍然没有释放出心跳信号,该主机就被判断为发生故障或者网络的连接出现了问题。在这种情况下,运行在该主机上的虚拟机就会被自动转移到平台中的其他主机上。同样,当一台主机无法检测到来自群集的其他主机的心跳检测,那么该主机便会启动内部自检的进程来判断自己跟群集中其他主机的连接是否出现了问题。如果确实出现了故障,那么系统会自动终止在这台主机上所有正在运行的虚拟机,并启动预先设定好的备用主机。对于VMware HA 的故障转移,虚拟机客户端的操作系统会识别为硬件故障而进行的重启,因此,这样的过程不会改变操作系统的状态。
针对核心业务的服务器,配置FT 功能,FT 是以集群为基础的容错机制。FT 具有比HA 更高的连续性,占用的资源也更多。在创建虚拟机后,FT 随即创建两个相同的副本,其中主要副本处于运行状态,接受虚拟机同步信息,并运行程序。次要副本捕捉主要副本的所有非决定性的操作。在虚拟主机的心跳检测或者网络连接出现异常时,主副本立即激活,无中断接管异常虚拟机中断的操作,所有关于虚拟机的状态信息都将被保留。其中,主副本和次副本不允许在同一主机运行。从而避免单一故障。
关于物理服务器的迁移,在面对不同安全等级的业务时使用不同的迁移方式。Vconverter 支持热克隆和冷克隆两种模式。核心业务系统或不可中断的业务采用热克隆,在不关闭源系统的情况下进行操作。由于转换过程中源服务器继续运行,生成的克隆体并不是源服务器的精确克隆,为避免克隆体重要数据的遗失,可在Vconverter 中设置关闭源服务器部分系统服务,克隆结束后需要进行执行同步,且在同步过程中保证不会对源服务器进行重要更改。转换过程结束后,虚拟服务器接管源服务器。重要业务和数据量较大的服务器采用冷克隆模式,在关机状态下进行克隆,生成与源服务器一致的克隆体,系统开机上线需注意IP 地址的冲突导致服务错误。
基于中国—东盟多语种全媒体融合平台的应用已经部分上线,其中重要的系统包括全媒体采访系统、全媒体广播和新媒体导播系统。
全媒体采访系统是基于虚拟云平台的全媒体采编播平台,实现移动采稿、编辑和审核,通过手机移动端,及时将国内外的新闻稿件、图片、视频上传到本平台,审核通过后即形成成品稿件,一键同步分享至各个新闻平台。该系统切实促进了新闻时效,增强了媒体影响力。全媒体广播是一套基于广播深度定制的可视化系统,将视频直播与广播特点深度融合,支持APP 直播和网页直播,可同时支持最多12 个不同机位在线直播,支持接入摄像头、手机、DV等轻量化拍摄设备。在广播直播间画面直播的同时,随时接入多路外场视频,并可灵活切换画面与在线听众互动。系统直播流同时推送至各个直播平台。新媒体导播系统是全媒体采编播系统里的播出终端,具有强大的数据采集和多元化的网络交互应用,实现了云资源中播出素材共享和协同,大大提高了广播节目的时效性及听众的参与度。
中国—东盟云平台尚处在逐步完善的阶段,已经对传统广播的媒体融合之路产生了极大的推动和促进作用。外采记者、导播等特殊岗位的工作效率得到了很大提升,微信等平台的在线互动量呈现出井喷式的增长。