应用Xen虚拟机技术的小卫星总控设备方案

2021-12-21 08:21:12刘锋任光杰李敬博王崇羽
航天器工程 2021年6期
关键词:网卡可靠性服务器

刘锋 任光杰 李敬博 王崇羽

(航天东方红卫星有限公司,北京 100094)

航天器电气地面支持设备(EGSE)是航天器研制过程中的一个重要支持设备系统,由总控设备(OCOE)与专用设备(SCOE)组成。其中,OCOE负责完成测试数据库准备、测试过程管理、数据处理与验证、实时测试控制等[1]。随着OCOE硬件和软件的不断发展,它的构成也越来越复杂。作为EGSE的控制核心,OCOE稳定可靠运行是确保航天器研制任务顺利进行的关键,如何提升OCOE的可靠性,是EGSE发展的一个重要研究方向。国内近年对OCOE的研究主要关注其自动化功能与多星支持功能[2-3],缺乏能够提高系统可靠性的OCOE方案的相关研究。

本文通过对OCOE的可靠性进行研究,分析影响可靠性的因素,提出了一种应用Xen虚拟机技术的OCOE方案,可实现设备故障的系统自动容错与处理,解决传统系统中故障处理必须由岗位人员现场迅速实施的不足。

1 OCOE可靠性分析

1.1 OCOE组成

典型的OCOE由主测试处理器(MTP)、测试操作台、遥测/遥控(TM/TC)前端机、数据图形显示器组成[1]。随着计算机存储技术的发展,数据库系统开始应用于航天器测试系统,同时测试自动化程度也不断加深,小卫星OCOE在原有的基础上增加了基础数据库、实时数据库及文件调度服务器,MTP增加了自动化判读的功能,如图1所示。OCOE由多台计算机及不同功能的软件组成,基础数据库存储卫星遥控指令码字数据、遥测参数的解析方法等配置信息,实时数据库存储卫星测试过程中产生的全部工程数据,文件及调度服务器存储卫星测试用文档及软件数据。

图1 OCOE组成

1.2 可靠性的影响因素分析

影响OCOE可靠性的因素如表1所示。其中:计算机硬件故障及计算机病毒对OCOE的影响较大,发生时无法在短时间内恢复正常状态。计算机操作系统故障与网络通信设备故障发生时会造成相应设备短暂失能,重启或更换设备后可恢复正常状态;随着计算机技术和网络通信设备生产技术的发展,其出现的概率大大降低。应用软件的健壮性和容错性,除了可以在软件的总体设计及错误处理机制设计时进行针对性的增强,也可以在使用过程中通过不断改进和完善来持续提升。

表1 可靠性影响因素

在传统的OCOE突发故障预案中,对于硬件,一般采用冗余备份的方式,当主份硬件故障时,及时更换备份设备。对于软件,采用拷贝备份方式,确保发生故障时,能够通过软件拷贝快速重建工作状态。对于数据库,一般采用主备数据库同时存储数据的方式,保证数据安全。从这些风险控制措施可以看出,当故障发生时,设备负责人员必须能够在现场及时、迅速处置,这就对人力配置和专业能力提出了较高的要求。随着卫星的种类和数量不断提升,批产化程度越来越高,人员配置方式已经无法满足现场实时进行故障处置的需求,因此必须探索通过技术手段来实现故障的自动处理。

2 应用Xen虚拟机技术的OCOE方案

2.1 Xen虚拟机技术及其主要特点

虚拟机技术是指通过软件模拟具有完整硬件功能的计算机系统的技术,可以像使用实体计算机一样对虚拟机进行操作。Xen虚拟机技术是思杰(Citrix)公司推出的一种企业级的虚拟机技术,通过XenServer服务器建立一种全面而易于管理的服务器虚拟化平台,能够高效地管理Windows和Linux虚拟服务器,实现经济高效的服务器整合[4-6]。其具有部署快速、可靠性高的特点,具体如下。

(1)每台XenServer服务器上可以运行多台相互独立的虚拟机,每台虚拟机都有自己的硬盘、内存、网卡等虚拟硬件且可以灵活配置,虚拟机数量仅受限于服务器的CPU和内存大小[7-8]。用户可以通过网络远程桌面访问每台虚拟机[9]。

(2)多台XenServer服务器可以组成1个服务器池,由内部控制软件统一调度,池内任意一台服务器出现硬件故障导致无法正常工作时,其上运行的虚拟机就会立即迁移到池内其他服务器上,迁移过程中虚拟机正常工作[10]。

(3)服务器可以通过网卡绑定操作,将2个物理网卡接口在操作系统驱动层合并成一个绑定网卡,即使有1个物理网卡接口发生故障,绑定后的网卡仍然可以正常工作。

(4)虚拟机快照功能可以保存虚拟机当前状态,并可以在任意时间迅速恢复到这个状态。

(5)通过桌面推送功能,能够将事先定义好的桌面系统推送到多个计算机终端[11]。

(6)可以使用由磁盘阵列设备及控制服务器组成的外部大容量存储设备,多个磁盘故障不影响数据安全[12]。

2.2 OCOE方案

应用Xen虚拟机技术构建的Xen虚拟系统如图2所示。其中,硬件层3台XenServer服务器组成服务器池,使用外部大容量存储设备存储所有虚拟机的信息和数据。虚拟层运行所有的虚拟机,桌面推送服务也通过虚拟机来实现。Xen虚拟系统的高可靠性主要体现在系统能够通过容错与故障自动处理机制来应对突发的故障,如表2所示。

图2 Xen虚拟系统构成

表2 故障自动处理机制

应用Xen虚拟机技术构建的OCOE架构,如图3所示。OCOE中所有服务类型的计算机都以虚拟机的形式运行在Xen虚拟系统中,包括基础数据库、实时数据库、MTP及判读服务器、文件及调度服务器、TM/TC前端机。交互类型的计算机如测试操作台、数据显示终端等都部署在Xen虚拟系统外部。

图3 应用Xen虚拟机技术构建的OCOE

2.3 系统优点

基于Xen虚拟机技术构建的总控系统具有高可靠特点,主要表现如下。

(1)通过虚拟化技术将原有的服务类型的实体计算机转为虚拟机形式,避免了实体计算机硬盘、内存、网卡故障导致的失能。

(2)虚拟系统通过容错与故障自动处理机制,能够自动处理硬盘故障、网卡故障、内存故障、服务器重启、计算机病毒五大类常见的故障,提高了系统故障处理的自动化水平,避免了故障处理依赖于岗位人员迅速实施的不足。

3 方案实施与应用效果

应用Xen虚拟机技术的OCOE方案已在航天东方红卫星有限公司全面实施,分为固定场地模式与外场模式2种方式。

固定场地模式面向航天东方红卫星有限公司内部的固定卫星研制工位,为在固定工位内研制的卫星提供OCOE支持,在这种模式下虚拟系统选用高性能硬件,全部硬件部署在网络机房,部署情况如图4所示。在实际应用中,由6台XenServer服务器构成的Xen虚拟系统,能够提供近200台虚拟机7×24 h运行,以及300台数据显示终端的桌面推送服务,可以同时为30多颗卫星提供测试服务。

图4 固定场地模式下的OCOE部署

外场模式面向在航天东方红卫星有限公司之外的场所进行测试、试验的卫星,以及去发射场执行发射任务的卫星,此时需要单独构建OCOE。这种模式下,虚拟系统采用精简模式,由2台服务器提供虚拟服务,部署情况如图5所示。在实际应用中,硬件选用普通性能服务器就可以满足卫星测试的需求,能够提供10台虚拟机7×24 h运行,以及30台数据显示终端的桌面推送服务。

图5 外场模式下的OCOE部署

应用Xen虚拟机技术的OCOE方案与传统方案相比,在出现同样的故障时,会产生不同的影响结果,如表3所示。通过比较可以看出,应用Xen虚拟机技术的OCOE在可靠性方面获得极大的提升。

表3 与传统方案的可靠性比较

4 结束语

应用Xen虚拟机技术的小卫星OCOE方案,已经成功应用于多颗小卫星测试,解决了原有方案的可靠性控制措施必须由人来迅速实施的不足,具备了自动处置五大类常见故障的容错能力,极大地提高了OCOE的可靠性。该方案在实现高可靠的同时,通过采用成熟技术产品、构建通用化系统,降低了OCOE设备研发成本,通过将实体计算机虚拟化,节省了大量计算机设备的购置费用及场地占用成本,具有很好的推广应用价值。小卫星外场试验时,部署Xen虚拟系统步骤较繁琐,后续将研究外场模式部署过程的优化,如卫星测试数据库的快速迁移方法和虚拟桌面推送的简化实现方法。

猜你喜欢
网卡可靠性服务器
在DDS 中间件上实现双冗余网卡切换的方法
通信控制服务器(CCS)维护终端的设计与实现
可靠性管理体系创建与实践
上海质量(2019年8期)2019-11-16 08:47:46
Server 2016网卡组合模式
5G通信中数据传输的可靠性分析
电子制作(2017年2期)2017-05-17 03:55:06
得形忘意的服务器标准
知识产权(2016年8期)2016-12-01 07:01:13
计算机网络安全服务器入侵与防御
挑战Killer网卡Realtek网游专用Dragon网卡
基于可靠性跟踪的薄弱环节辨识方法在省级电网可靠性改善中的应用研究
电测与仪表(2015年6期)2015-04-09 12:01:18
可靠性比一次采购成本更重要
风能(2015年9期)2015-02-27 10:15:24