苏冉
摘 要:文章介绍了刀片服务器的基本特点、发展状况。通过DELL PowerEdge M1000e刀框,DELL PowerEdge M820、M620刀片服务器应用于中南空管通信网络中心计算机系统实例,详细说明刀片服务器的配置、安装及运维管理,能够了解并掌握刀式服务器的应用技巧,运行维修管理。
关键词:刀片服务器;服务器集群;配置;安装测试
中图分类号:TN393 文献标识码:A 文章编号:1006-8937(2016)24-0095-02
1 刀片服务概述
刀片服务器,是一种小空间、多冗余、低功耗、高可用、高密度、集群式系统服务器群,每一个刀片都具有独立的操作系统,操作系统支持Windows NT/2000、Linux等,具备独立服务器的系统功能,刀片之间互不关联;所有的刀片按照一定方式组装在一个框架内,可以实现集群模式下,通过统一I/O总线系统(母版)连接成高速的网络系统,共享系统内资源,提供共同服务[1]。
本文主要介绍了DELL PowerEdge M1000e刀框,PowerEdge M820、M620刀片。要作为一个系统使用,可将刀片或封套插入刀框中,电源模块、风扇模块、CMC模块、可选的iKVM 模块和 I/O 模块是PowerEdge M1000e 机柜中刀片的共享资源,目前设备配置了双电源冗余,搭载高性能刀片服务器及存储,均配置RAID冗余机制。
2 刀片服务器的应用
2.1 刀片服务器系统构成及设备配置
目前中南空管核心业务系统运行在该刀框服务器的数据中心,该数据中心采用由Dell Compellent SC8000存储控制器、Dell Compellent SC220和Dell Compellent SC200系列组成的存储阵列。该阵列的每个设备均包含可热交换、带冗余的电源设备和冷却模块。其中Dell Compellent SC220存储配备了12块SSD硬盘,用于高速数据交换,将经常进行读写的数据存放在该存储中,保证数据读写速度。Dell Compellent SC200存储配备了12块7.2K转速的SAS盘,用于大数据存储,主要存放读写比较少,数据相对较大的文件。
2.2 设备配置
设备配置,见表1。
2.3 刀片服务器运维管理
登录DELL刀框服务器运维界面CMC监控网页后,可以清晰看到各刀片服务器、背板输入/输出模块、风扇和电源的设备状态,每个刀片服务器上面有会显示当前系统状态,绿色指示灯为正常,橘黄色指示灯为有告警需要注意,红色指示灯为有较为严重的故障需要尽快处理。下方的CMC硬件日志时间,会提供当前硬件故障的详细信息。点击左侧的“机箱概况”导航键,展开后依次点击各硬件部件的图标(如服务器概况、输入输出模块概况、风扇、电源设备及温度传感器等),可以在右侧看到每个部件的工作状态是否正常,如风扇转速、温度传感器的测温、电压等等。如图1所示。
在刀片服务器运维管理中,采用监控排障方法,通过VMware虚拟平台,使用vSphere Client登陆vCenter对每块物理刀片服务器和配置的虚拟服务器进行监控并按运维要求定期检查。
VMware虚拟化平台基于可投入商业使用的体系结构构建。使用像VMware ESXi这样的软件可转变或“虚拟化”基于 x86 的计算机的硬件资源(包括 CPU、RAM、硬盘和网络控制器),以创建功能齐全、可像“真实”计算机一样运行其自身操作系统和应用程序的虚拟机。
在VMware虚拟化技术中,每个虚拟机都包含一套完整的系统,因而不会有潜在冲突。VMware虚拟化技术的工作原理是,直接在计算机硬件或主机操作系统上面插入一个精简的软件层。该虚拟化技术还提供了HA、VMotion功能,使虚拟服务器具备可跨多个物理机自动切换或手动切换,使得单台服务器故障的时候,该物理服务器上运行的虚拟服务器可自动或手动的迁移至其他物理服务器,从而起到双机保障作用。设备运维人员可以根据业务资料、IP分配表,网络拓扑图,按照如下的流程测试,判断故障点,熟悉客户系统运行的网络环境和相关网络拓扑,知道数据是如何传输和存储,明确哪些是业务运行的相关因素是查找故障点的关键。
2.3.1 核心设备连通性检查
通过数据中心监控终端,使用Whats up查看管理防火墙、交换机、Dell存储管理端、vCenter服务器、刀片服務器,物理连通性。若异常,查看相关设备进行故障排除;若正常,进行下一步。
2.3.2 虚拟机运行状态检查
首先进行小范围故障排除,通过查看虚拟机列表:查看网络状态,若异常,对该虚拟机IP配置以及VLAN配置进行核对。若正常,进行下一步。查看虚拟机对应存储空间使用情况,可用空间是否足够。若不足,通过浏览对应的存储空间内有无异常文件,若有,咨询VMware技术支持进行立案;若无异常,同时虚拟机内用户确实将空间耗尽,登陆对应存储进行应急扩容,同时进行汇报,请示是否允许扩容。查看虚拟机性能状态,是否存在CPU利用率过高以及内存使用过多。查看相关系统日志明确原因。确实因为系统需要而新增资源,需汇报申请。
然后进行大范围故障排除。若用户故障出现在多台虚拟机或系统上,进行如下检查:
检查故障的虚拟机是否属于在同一台物理服务器,若是,进行在线迁移,保证业务恢复后,通过检查日志与配置彻底排除故障。
检查故障虚拟机或系统所在VLAN,查看对应网络链路是否正常。通过在相应交换机将空余端口配置到对应VLAN,先恢复业务,事后通过日志与相关测试明确故障原因。
检查故障虚拟机或系统是否运行在同一存储上,查看数据连接的路径是否存在异常。明确是存储设备原因之后,进行控制器切换,首先恢复业务。立刻联系厂家进行设备处理。
3 结 语
随着民航空管系统业务的快速发展,传统架构的项目部署方式造成了大量的硬件投资无法充分利用,同时也无法满足空管业务高稳定性的需求。中南地区核心业务基于虚拟化技术构建的刀片架构,经过实际的运行考验,能够较好地满足空管业务对设备稳定性要求日益增强的需求,同时也提供了强大、灵活的可扩展性,能够有效发挥硬件资源使用率。
参考文献:
[1] 洪亚财.浅谈刀片服务器的尝试应用-以泉州晚报为例[J].电子世界,
2014(3):95-97.
[2] 张新玲.浅谈刀片服务器的优势与发展前景[J].中国科技财富,2009(8):
91-91.