沈凯华 俞磊 蒯颢 崔元龙 杭文文
摘要:随着医院信息化的逐步深入,临床业务对信息系统的连续性、稳定性提出了更高的要求。结合医院虚拟化集群搭建和运维过程,探讨如何建设高可用性,低故障率的虚拟化集群,减少因为兼容性问题引起不可预知性系统故障,为构建稳定可靠的系统基础架构夯实基础探讨经验。
关键词:ESXI;VMware;虚拟化集群;服务器虚拟化;医院信息系统
中图分类号:TP316 文献标识码:A
文章编号:1009-3044(2020)12-0235-02
1引言
虚拟化集群以其自身的高可用性、可扩展性在大型综合医院得到广泛应用,甚至承载多数核心业务系统。以大型综合医院为例,其重要核心业务如:电子病历系统(EMR),影像归档和通信系统(PACS),实验室信息管理系统(LIS)都部署在虚拟化集群上。该文通过实践经验总结探讨业务系统实现双机热备的同时,如何从规划、搭建、测试方面入手,建设管理好虚拟化基础架构为业务系统持续运行保驾护航。
2虚拟化集群建设规划
2.1系统版本选型
选择适用的服务器虚拟化系统以保证系统运行的兼容性、技术支持的完整性、运维管理的便捷性。支持X86服务器虚拟化产品众多XEN、KVM、VMware vsphere、微软Hyper-v等虚拟化系统凭借自身技术特点都占领一定市场份额。该文旨在讨论VMware环境下建设虚拟化集群版本选型,具体来说应遵循以下原则:第一技术支持,VMware官网上查询产品生命周期列表,选定系统版本应在未来三到五年内仍能获取官方技术支持;第二兼容性匹配,结合服务器品牌选择服务器厂商定制化系统版本具备更好的系统兼容性;第三应用适应,新建虚拟化集群应支持所有业务系统的运行操作系统版本,目前ESXI 6.7已不支持Windows2003系统运行,业务系统无法更换操作系统版本时应慎选ESXI版本;第四安装方式,在虚拟化集群扩容场景下应选择与原有集群相同系统版本安装,保持系统一致性。
2.2网络规划
网络冗余是虚拟化集群的基本要求,无论是业务网络还是管理网络都应做到双链路冗余,才能避免因為网络故障引起业务中断。在网络规划中应注意以下原则:一是策略配置,物理交换机端口策略应符合虚拟化集群中标准虚拟交换机负载均衡策略要求;二是VIAN划分,规划业务网络和管理网络在不同VLAN中运行可隔离广播域,灵活配置网络安全策略。三是VLAN ID使用,虚拟化集群中有多个VLAN应用必须保证标准虚拟交换机的VIAN ID与物理交换机上的VIAN ID保持一致,保证数据交换正常;四是故障转移,为vMotion建立独立VMkernel网络通过万兆网卡传输数据,使虚拟机故障时虚拟机迁移更为高效;五是配件准备,检查现场交换机与服务器之间的桥架连接,配备相应数量网线和光纤跳线,减少工期内等待事件;六是实施要求,各光纤线缆集束走边,避免光纤直接悬于服务器风扇出风口,长期高温高速气流易造成光纤老化。
2.3存储规划
存储是存放虚拟机操作系统、数据文件的关键设备,存储规划应满足以下要求:第一存储链路冗余,保证两块HBA卡各接一台存储交换机,当单个存储交换机或HBA卡发送故障时不影响集群内虚拟机运行;第二ZONE配置规划,命名HBA卡FC端口的Alias(别名),配置ZONE建立WWN号与Alias的对应关系,规范的命名方式有利于后期故障检查和运维管理;第三存储空间划分,合理建立LUN空间大小,通常每个LUN划分2TB-4TB存储空间使每个LUN上运行4-8个虚拟机,减少虚拟机10集中访问一个LUN造成性能瓶颈。第四特殊业务应用,有业务要求磁盘裸映射(RDM),应单独配置磁盘空间跳过ESXI存储添加配置,直接映射到业务系统使用,通过虚拟机直接管理存储划分的磁盘空间。
2.4集群规划
建立虚拟化集群数据中心,在此基础上规划2个或以上群集,一般平衡分配新建群集内的硬件资源,使群集内CPU核心数、内存容量大致相当,如果业务本身是通过两台虚拟服务器实现的高可用,应把两台虚拟机放在不同群集内运行,避免在同集群内多台主机发生故障时无法自动迁移。如果是刀片服务器与机架式服务器混合搭建的虚拟化集群,可以把一半数量的刀片服务器和一半数量的机架式服务器组成cluster1,剩下的一半数量的刀片服务器和机架式服务器组成cluster2,此类配置可以避免如果整个刀箱发生故障,在刀片服务器上运行的虚拟机可以自动漂到同群集内的机架式服务器上自动运行,避免整个集群宕机后虚拟机无法漂移。
3虚拟化集群实施重点
3.1系统驱动兼容性验证
由于安装ESXI系统步骤相对简单,安装后系统也能正常运行,往往忽略对硬件驱动的兼容性检查。有项目中遇到由于网卡驱动版本不在官网兼容性列表中,插拔万兆网卡光纤跳线引起网卡端口shutdown,重启服务器后故障消失,所以经常遇到一些未做任何变更,重启服务器又能正常运行的情况,有可能是搭建系统时未注意硬件兼容性匹配问题。硬件设备的固件版本、硬件驱动、操作系统之间的兼容性是否一致,可以在VMware官网的兼容性列表中查询。查看网卡驱动信息,首先通过SSH登录系统,输入vmkchdev-l lgrep vmnic5(vmnic5以实际网卡名称输入)显示12位固件ID号。这12位ID号中前4位是DID号、中间4位是SVID号、最后4位是SSID号,在VM-ware官网输入固件唯一ID,查询该硬件设备所对应的所有兼容性驱动版本。在ESXI系统中输入esxcli network nic get-n vm-nic5查询现系统中网卡驱动版本和固件版本信息。对比系统中显示的驱动版本信息与官网兼容性列表中信息确认是否一致。
3.2网络冗余模式配置
负载平衡和故障切换策略决定网络流量如何在适配器间分布,以及如何在适配器发生故障时重新路由流量。经实践测试,基于源虚拟机端口ID路由,断开一路网络时集群内虚拟机不丢包,连接网络后会丢失15-20个数据包;基于IP哈希路由,断开一路网络时集群内虚拟机不丢包,连接网络后会丢失0-1个数据包;基于MAC哈希路由。断开一路网络时集群内虚拟机不丢包,连接网络后会丢失15-20个数据包。通过插拔光纤实验发现使用基于IP哈希路由策略的集群配置受网络波动影响最小。配置基于IP哈希路由策略同时需要在物理交换机上配置链路聚合,将多个网络适配器合并到单条逻辑链路中,如果是虚拟标准交换机,则物理交换机端口需配置静态模式下的802.3ad链路聚合。
3.3存储冗余配置
将项目中设备VNX5300、UNITY300_1映射到VPLEX_1,VNX5400、UNITY300_2映射到VPLEX_2。两台VPLEX组成Metro模式。VPLEX接管存储空间后依次创建Extent、Device,使对应的LUN配置成Mirror模式并创建分布式Device,最后将相应的分布式Device映射给相应的主机实现存储双活保护。
4虚拟化集群充分测试
虚拟化集群配置完成后,新建服务器做性能测试,第一VIAN网络可用性测试,配置不同网段的IP地址在各网段下运行,测试网络连通性;第二vMotion迁移,把虚拟服务器vMotion迁移到每台主机上运行,测试服务器在线迁移是否正常;第三网络、存储链路插拔测试,检测网络、存储链路双活冗余是否有效。
5总结
通过探讨合理规划、精细实施、完善测试,为部署高可靠性系统基础架构,减少兼容性故障提供实践依据。使医院信息化建设节省空间资源,提高硬件资源利用率,提升业务服务器部署效率,降低因硬件故障造而成业务中断,助力医院信息系统高效运行。