刘卫宏
(中广电广播电影电视设计研究院,北京 100045)
随着我国经济快速增长及“新基建”的需求,云计算、大数据、AI以及SDN网络等信息技术推动了数据中心的变革,其中也包括广播电视数据中心的变革。当前,广播电视数据中心正在从传统的数据中心向云化的、应用驱动的云数据中心转型。新建云化的应用驱动云数据中心建设过程中如何保证数据中心的可靠性是必须高度关注的问题[1]。一般地,决定数据中心可靠性的因素分为人的可靠性和物的可靠性,人的可靠性指数据中心运行过程中与人的素质和管理相关的因素,物的可靠性主要有数据中心建筑可靠性、供电可靠性、空调系统可靠性以及IT设备可靠性。本文主要针对IT设备可靠性这一领域,对广播电视云数据中心IT设备层的可靠性进行全面的分析与设计,并基于H3Cloud设备与技术进行实现。
广播电视云数据中心有别于传统数据中心,主要体现在以下3个方面。
(1)数据存储量大。一般广播电视云数据中心以存储音视频节目为主,音视频节目占用存储空间较大,一般数据中心都需要PB级存储容量[2]。除音视频数据外,数据中心还要存储大量用户数据,用于大众服务的数据中心的用户量多在百万级以上。
(2)网络传输带宽要求高。广播电视云数据中心多以给用户提供音视频节目流为主,一般标清节目要求带宽 4 MB·s-1,高清节目 8 ~ 20 MB·s-1,超高清节目30~50 MB·s-1,源码节目带宽达到100 MB·s-1以上,如果多套节目同时传输,对带宽的需求达到GB级以上。
(3)实时性强。广播电视数据音视频节目流在传输时要求不间断,需保证节目流畅,要求IT设备数据实时稳定传输。
此外,广播电视云数据中心可靠性要求极高。广播电视云数据中心一般服务于广播电视播出及相关业务,系统失效可能造成广播电视数据丢失或业务中断,会对党政宣传造成较大的危害和社会影响。因此,必须确保数据中心整体运行具有较高的可靠性[3]。
广播电视云数据中心系统的可靠性主要包括数据中心建筑可靠性、供电可靠性、空调系统可靠性以及IT设备可靠性,其中,IT设备层的可靠性与广播电视应用直接相关,是广播电视应用的基础,其可靠性需求最高。基于当前广播电视云应用发展需求和信息技术发展现状,对广播电视云数据中心IT设备层可靠性进行全面的分析及设计。
广播电视云数据中心IT设备层的可靠性需求主要包括3个方面。
(1)设备务必可靠,要确保承担某一功能的硬件设备稳定可靠,以备份或集群形式,保证任何时刻都有可保持业务正常开展所需的最少设备正常运行。
(2)链路务必可靠,网络保持连接,宽带能保障业务正常开展。
(3)业务务必可靠,支撑业务的正常开展。
根据以上可靠性需求,以H3Cloud云架构为基础,设计广播电视云数据中心IT设备层可靠性总体架构,如图1所示。
图1 基于H3Cloud云的广播电视云数据中心架构图
将广播电视云数据中心IT设备层按数据流向进行分层,从下到上分为计算接入层、基础设施层、网络控制与智能保障层以及业务交付层等4层,针对每一层系统进行具体的可靠性设计。
计算接入层的网络接入对象为数据中心中不同形态的计算资源和存储资源,如虚拟化服务器、容器计算资源、裸金属服务器以及存储设备[4]。网络资源可以自动化按需配置相关策略,多种多样的接入对象可以无差异化地接入网络,做到接入即可用。
数据中心网络的基础设施以转发设备和网络增值服务设备为主,为数据中心提供高性能、高可靠性、高可用性以及安全服务的能力,支持硬件交换机、软件交换机、NFV以及物理防火墙等多种形态的网络组件。
平台配置智能网关组以保证基础设施层的可靠性。智能网关组内部采用无状态转发设计,所有网关信息同步,实现VXLAN网络与传统网络的互联互通;支持多台网关组成网关组,网关组内的VXLAN IP GW设置相同的VTEP IP地址,设置相同的VNI接口IP地址及MAC地址,VTEP IP地址通过三层路由协议发布到内部网络。
网关与内外网设备连接,采用聚合或ECMP方式,某条链路故障时,网关自动切换链路,无需人工干预。单个网关设备采用双主控板设计,如果原主控板故障,新主控板接管设备管理。所有处理由网关自动完成,整个过程中网关上的流量转发不受影响。
H3Cloud架构云平台以先知分析器(SeerAnalyzer)和先知控制器(SeerEngine)为核心,作为网络智能分析平台,基于大数据分析以及AI等能力提供网络可视化和精细化管理,支持网络故障精准定位以及网络趋势预测等能力,帮助网络管理者轻松、高效地运维管理数据中心网络。网络控制器为网络架构的核心,由先知控制器完成网络的设计建模、网络自动化部署、设备管理、配置管理以及策略管理等工作、将网络能力资源池化,以服务的形式提供给上层平台,是数据中心核心组件。
数据中心在智能保障与网络控制层配置了H3C先知控制器和先知分析器。通过H3C先知控制器和先知分析器形成数据中心的SDN。先知控制器利用双网卡机制保证了SDN网络的可靠性。在控制器发生故障时,利用先知分析器进行网络逃生。
多个先知控制器可组成一个Team。Team成员按功能分工的不同分为Leader和Member角色。Leader负责集群的总体管理,Member负责南向连接OpenFlow转发设备,通过SSL协议或者直接基于TCP相连。Team成员共同实现集群功能:在集群当前Leader控制器上修改的配置,会自动同步给Team中其他成员控制器;Team中所有的控制器位于一个二层或三层网络中,对外提供一个统一的北向IP地址。
可靠性一般通过逃生机制、业务保障以及集群管理提高网络控制层可靠性。
(1)逃生机制。在控制器发生故障时,网络设备可切换为自转发模式。
(2)业务可靠性。为确保业务层数据可靠性,控制器使用系统的配置参数文件备份和配置参数导入导出功能,定期备份控制器配置参数,以便在系统配置修改错误或丢失的情况下通过导入配置文件恢复系统配置。
(3)集群IP高可靠性。控制器创建集群时,Leader控制器为该集群设定一个虚拟的集群IP地址,集群通过该IP地址与上层平台对接并提供服务。如果当前Leader控制器发生故障,按照Leader选举机制产生的新的集群Leader自动接管该集群IP,集群在初始时与其他设备间的通信由新Leader接管分配,从而实现负载均衡。在控制器更换Leader全过程中,各层平滑过渡。
广播电视云数据中心业务交付层面以云管平台为主要组件,面向数据中心最终用户或管理人员提供服务界面,管理着数据中心内部的计算资源、网络资源以及存储资源。云平台保证在平台内从进程、容器、虚拟机以及物理机发生四级故障的情况下,平台的计算资源、网络资源及存储资源不会因为这些故障而导致业务中断。业务交付层各个模块支持集群HA和动态资源调度等策略,以满足平台的高可靠性和高可用性要求。云管平台主要依靠双机集群HA和动态资源调整技术保证业务交付层可靠性。
广播电视云数据中心在IT设备的业务交付层、智能保障和网络控制层、网络基础设施层以及计算接入层的可靠性决定着整个数据中心IT设备的可靠性,各层都有不同的设备和技术手段为其提供可靠性保障,如果要使数据中心的整体可靠性达到一定程度,需要对各层使用不同的硬件支持、软件支持以及策略保障,才能保证数据中心IT设备整体的可靠性。目前国内外数据中心IT设备供应商都开发了各具特色的云数据中心平台,在可靠性方面采用不同的处理策略,因此广播电视云数据中心在设计和建设过程中,需要根据数据中心业务自身对可靠性的需求,对不同厂家的产品特性进行深入分析和论证,必要时进行可靠性测试,最终选定科学合理的建设方案,这样才能保证广播电视云数据中心建成后在IT设备层具有较高的可靠性。