仇玉雪,赵晶晶,邱逸昌,张海英,赵永平,原 奕,李 凯,周 乐
(北京卫星环境工程研究所,北京 100094)
“空间环境地面模拟装置”( 国家大科学工程项目)作为大型空间综合环境地面模拟平台,用于实现空间主要环境因素及其效应的模拟。该装置共划分为5 个系统:空间综合环境模拟与研究系统,磁环境模拟与研究系统,空间等离子体环境模拟与研究系统,数值仿真与中央监控系统及配套系统。数值仿真与中央监控系统是“空间环境地面模拟装置”中实验设备的集中监控枢纽和实验数据的汇聚中心,为装置及其运行的实验提供全生命周期的管理与支持服务,包括数据采集、实验和安全监控、集中展示、数据存储、运行管理、数值仿真、数据共享以及配套系统的监管。该系统融合了8 类实验分系统(综合环境模拟分系统、空间生命科学分系统、微观机理分析分系统、离子加速器分系统、器件离子辐照分系统、空间磁环境模拟与研究分系统、空间等离子体环境模拟与研究分系统、低能加速器辐射防护分系统),1 套配套系统(实验区空调控制系统、低能区冷却水控制系统、智能楼宇监控系统和建筑信息模型)以及门禁、视频、电话系统业务,是集多种实验测控、高算仿真、多媒体等业务的多网融合系统。多种业务、多类别数据在同一张网络中传递,各类业务要求逻辑隔离,不同业务的差异性在同一张物理网络中叠加,根据业务需求变化而不断调整的网络拓扑,以及震荡的网络环路给网络设计、实施、维护带来了负担,这些都对网络可靠性提出更高的要求,对传统网络结构提出挑战。
针对以上问题,本文提出采用网络虚拟化技术对数值仿真与中央监控系统网络进行设计,构建多业务统一承载的网络,以有效解决大规模网络的复杂拓扑,简化网络规划,降低设计复杂度,消除网络环路,提升网络带宽,增强网络的可靠性和安全性。
网络虚拟化的核心目标是通过虚拟化技术,将一个物理网络分割为多个虚拟网络,或者将多个物理网络抽象为一个逻辑虚拟网络,使不同的虚拟网络之间的服务质量能够得到不同级别的保障,从而为上层的应用提供网络服务。在服务器领域启用虚拟化技术,运行多台虚拟机,可提升物理资源利用率,形成1∶N 虚拟化;将多台服务器整合,对外提供服务,称为N∶1 虚拟化。对于网络,虚拟化技术应用有着类似体现,在一张网络中采用虚拟化技术分割出彼此隔离的多个逻辑网络,即1∶N 方式虚拟化的应用;同样,将多台独立的设备在同一节点虚拟成一台设备,简化网络结构,即N∶1 虚拟化。虚拟化技术软件体系架构如图1 所示,其中:虚拟化模块的功能在于自动进行系统的拓扑结构收集、角色选举,并将多台设备虚拟成一台逻辑设备;硬件系统是组成虚拟化节点的硬件设备;设备管理层可通过软件对各节点上虚拟化设备的接口、板块等资源进行管理;系统管理与上层应用模块可对各种路由协议模块、链路层协议模块等进行管理和控制。
图1 虚拟化技术软件架构Fig. 1 Structure of the virtualization technology software
数值仿真与中央监控系统网络采用星型拓扑结构搭建,各节点采用双设备部署,利用网络虚拟化技术对网络横向整合,实现1∶N 虚拟化。网络拓扑如图2 所示。
图2 数值仿真与中央监控系统网络拓扑Fig. 2 Network topology of numerical simulation and central monitoring system
1)对图中核心层、汇聚层交换机利用虚拟化技术进行横向整合,整合后的网络从逻辑上简化了网络架构,构成单一逻辑节点,从而使同一节点对多台设备的管理简化至对单一逻辑设备的管理,在设备管理地址分配、网关设定方面都起到了简化作用,不必为逻辑设备中的多台设备分别设置独立的管理地址。
2)无需启用虚拟路由冗余协议(virtual router redundancy protocol, VRRP)做路由冗余设置,可实现跨设备链路聚合功能,简化了对多条物理链路的管理。通过聚合链路,可提升网络带宽,无需依赖生成树协议(spanning tree protocol, STP)进行环路探测,避免网络链路中环路的形成而导致的网络不可用情况发生。
3)当单台虚拟化节点交换机成员发生故障时,二层、三层拓扑无需进行重新收敛,路径可靠性增强。虚拟化的思想是将多台设备合并成单台高密度端口的设备,因此节点内有多个设备控制器,构成节点的设备分为master 和非master 设备,以及slave设备。master 与slave 设备保持同步关系,在业务处理方面,master 全面负责。当主设备master 出现故障,会从其他slave 中重新选出新主设备接替业务,因此网络节点不会因master 设备故障而导致节点失效。在数值仿真与中央监控系统网络中采用基于链路状态的路由协议——开放式最短路径优先(open shortest path first, OSPF)路由协议,当master收到邻居路由节点发送的update 报文时,会触发本地路由表更新,同时会立即转发新路由信息给节点内其他成员设备,其他成员设备也会立刻更新路由表,保证虚拟化节点内各物理设备内的路由信息同步;当slave 设备收到邻居节点发来的路由更新时,会将报文发送给master 设备进行处理。如此,保证了路由信息处理统一通过master 设备进行,然后再更新、同步至各个节点内其他设备。当master 出现故障时,新当选的master 可以无缝接手工作,不会影响到虚拟化节点的数据转发工作。此种机制可以有效保证二、三层数据流不因节点内master 故障而导致业务中断。
数值仿真与中央监控系统是一张物理连通,融合多种业务、多种数据的网络,利用网络虚拟化技术对网络进行纵向隔离,实现N∶1 虚拟化。网络结构如图3 所示。
图3 数值仿真与中央监控系统业务纵向隔离网络示意Fig. 3 Vertical segregation network of numerical simulation and central monitoring system services
将实验分系统层中的实验业务与配套业务层中的配套服务业务利用虚拟路由转发(virtual routing and forwarding, VRF)技术进行网络端到端隔离;将同一张网络纵向按需分割成多个贯穿全网的逻辑通道,独立业务间无需数据交换;部署在应用资源层的应用系统、高性能计算和数据存储作为公共资源为不同业务提供服务,根据实际需求划入不同VRF 域中,从而确保每个逻辑网络中所承载的业务相互独立。
根据计算业务需要,在数值仿真与中央监控系统中规划部署数据中心,向各类业务提供计算资源。传统的数据中心网络规划设计依据高可靠思路,形成了冗余复杂的Mesh 网状网结构。结构化网状网的物理拓扑在保持高可靠、故障容错、提升性能上有优势;但此类设计为通用设计方式,依赖纯物理冗余拓扑结构的架构,导致设备间连接线路过于复杂,加大了实际运行中运维的工作量,同时,二层环路出现在网络中的机率增加。Full Mesh的网络拓扑结构、链路通断、带宽增减等状态变化、节点设备故障会导致配置变化,使运维、排故更加复杂。利用网络虚拟化技术可方便地简化网络逻辑架构,整合物理节点,支持上层应用的快速变化,为数据中心网络结构设计提供良好的解决方案。
传统数据中心服务器区交换网络有无环设计和有环设计多种选择方案,网络拓扑如图4 所示。
图4 传统的多种服务器区接入网络拓扑Fig. 4 Traditional servers access to the network map
数值仿真与中央监控系统数据中心采用环路接入拓扑,通过虚拟化设计方式,在不改变网络物理拓扑结构、保持原布线方式的前提下,完成各层网络横向整合(如图5 所示),即完成节点内多设备组合成一个逻辑交换节点,被整合设备互连线缆成为设备虚拟化组内部互联线缆,对逻辑设备外部不可视,对逻辑组内设备互联接口省去IP 地址配置。
图5 数据中心网络虚拟化整合Fig. 5 Network virtualization structure of the data centre
虚拟化整合后的节点,多台设备工作在同一逻辑组内,每台设备各自独立的控制器通过设备间互联链路进行通信,通过选举出的主设备对整个逻辑组内的所有设备进行管理和控制,其控制板负责逻辑组内所有端口数据转发,完成各网络协议设置、地址配置。逻辑组内多台设备作为网络节点工作时等同单台设备,继而简化对设备配置及管理,同时,使不同网络层之间的网状互联简化成单条逻辑链路。对于接入服务器而言,多网卡上行接入到虚拟化节点内多台设备时,由于节点内设备作为一个逻辑节点,所以可方便地启用链路聚合技术,提供接入链路冗余以及带宽扩展能力。当网络节点单台设备出现故障时,节点逻辑组内存在单台可用设备即可保证网络节点不失效。由于服务器采用多链路与网络节点连接并采用链路聚合协议,所以单条物理链路发生故障不会导致服务器与网络节点间链路失效。测试结果表明:当单条物理链路或逻辑节点内单台设备发生故障时,网络丢包率为0;在故障节点设备或故障链路恢复过程中,数据丢包为1~2 帧,这是因为在设备恢复或链路恢复时,节点内设备会再次进行通信协商,物理链路再次聚合时同样会由于协议协商导致数据丢帧,但不影响整个网络通信及业务应用。通过虚拟化技术可提升网络冗余度及容错性,增加网络可靠性。
IT 安全在网络设计中至关重要,在安全设计中应充分考虑到网络设备与安全设备的冗余性,但如此会出现多种复杂的设计拓扑,这对实现网络安全性目标提出了挑战。利用虚拟化技术可在简化网络结构的同时,简化网络设备与安全设备之间的对接设计,从而提升系统的安全性和可靠性。
防火墙是网络安全中一种重要的技术手段和有效的防御工具,防火墙在网络中的部署模式分为路由模式和透明模式,路由模式在传统的部署方式中分为Active-Standby 和Active-Active 模式(如图6 所示)。Active-Standby 模式是指:网络中二层协议终止于汇聚层,汇聚和核心的网络同处一个OSPF 域内,为了保证负载均衡,采用多VRRP 组的部署方式;位于核心层和汇聚层间的防火墙接口均设置为三层接口,需要核心、汇聚、防火墙分别启用两组VRRP 组才能完成负载均衡功能(如图6(a)所示)。Active-Active 模式是指:各防火墙作为独立的路由节点与交换机组成OSPF 域,路由协议控制数据流经的防火墙,双防火墙相互同步会话信息,由图6(b)可见12 个路由节点,至少有12 条路由。
图6 防火墙路由模式Fig. 6 The firewall routing mode
在数值仿真与中央监控系统中,防火墙采用Acitve-Acitve 方式部署,以提高网络灵活性和防火墙设备利用率。以实验分系统为例,在系统接口交换机与实验监控交换机之间部署双防火墙(如图7所示)以提升网络节点可靠性。启用网络虚拟化技术后,实验监控交换机、实验系统接口交换机、实验监控实时防火墙被整合为一台逻辑设备,大幅减少了三层接口和路由数目,使网络安全结构更为简单。
图7 防火墙网络部署模式Fig. 7 The firewall network deployment mode
通过网络虚拟化技术构建的数值仿真与中央监控系统网络,将各节点多台网络设备虚拟化成一台逻辑设备进行管理和应用。此方式具备分布式设备管理、分布式弹性路由及分布式链路聚合特性,与传统的网络设计相比,起到简化网络设计、创建无环网络结构、提高网络安全性和可靠性、增强网络可扩展性以及便于后期网络运行管理的效果。