浙江电信“玩转”SDN技术创新成就运营商首个“内外一朵云”

2015-03-16 08:18:24中国电信浙江分公司网络发展部顾炯
通信世界 2015年31期
关键词:玩转计算资源租户

中国电信浙江分公司网络发展部 | 顾炯

浙江电信“玩转”SDN技术创新成就运营商首个“内外一朵云”

中国电信浙江分公司网络发展部 | 顾炯

2014年底,中国电信浙江公司云计算资源池成为了业界首个商用的基于SRVSAN的软件定义存储(SDS),再加上前期已经实现的计算虚拟化和软件定义网络(SDN),在业界率先构建了一个软件定义、远距离“双活”、安全的“内外一朵云”的私有云计算资源池体系。

“内外一朵云”是指将中国电信自有的业务系统和外部政企的系统都运行在同一个资源池内,即内部系统和外部系统同时运行在同一个物理机的不同虚拟机上,通过安全手段进行安全隔离,让外部政企客户也能享受电信级的安全性、稳定性和可靠性,这些服务都是通过软件定义技术来实现的。

截至2015年7月,资源池内共有4路8核256G内存物理服务器600多台,这些服务器承载在80台物理网络设备上,共运行了6400多个虚拟机,有近400个浙江电信内部的业务系统、IT系统和外部政企行业应用平台。其中有600多台虚拟机通过SDN来实现内部网络组网,目前中国电信阅读基地的300多台虚拟机和近20个电信内部、政企类的平台也运行在上面。包括FCSAN和SRVSAN的“块存储”裸容量5.5P。浙江电信95%以上的业务平台都已迁移运行在资源池内,甚至包括业界认为很难“被云化”的语音类业务也成功云化,并稳定运行了10个月。

浙江电信资源池从“双活”走向“云化”

从电信业务的稳定性、可靠性和连续性的角度考虑,浙江电信在2013年就完成了“最远距离双活”的云计算资源池体系:将物理服务器和相关的网络、存储设备部署在传输距离1600公里的绍兴和金华两个物理节点上,形成一个“大二层”的网络。

虽然建成了“双活”的资源池体系,解决了资源池的稳定性、可靠性和连续性,但还是存在一些问题,影响和阻碍了资源池的快速部署、灵活调配。于是从2013年开始,浙江电信着手研究、探索和现场试验SDN。

应该说,传统的网络架构是影响云计算资源池快速部署、灵活调配的主要因素,这已经成为资源池的主要瓶颈。

从网络配置上看,私有云相较于公有云而言,各种平台的网络需求可谓是五花八门,网络结构更加复杂,个性化需求多。原来这些业务平台的网络需求都要抽象出来,配置在核心交换机、防火墙和负载均衡上。传统网络设备的配置往往需要通过命令行或者简单的图形界面完成,需要很高的专业水平,门槛高、难度大;同时这些成千上万的配置都是集中在某几个网络设备上,配置缺乏隔离手段。随着平台的增加,配置越来越复杂,稍不谨慎就会相互影响,导致几个平台故障,甚至整个资源池网络也会出现故障。所以传统资源池网络的配置只能集中在1或2名网络管理员上,不仅工作压力大,而且管理员生病、休假都会直接影响资源池的正常运行。

同时,大二层网络的IP地址管理和规划也是一件很复杂的事情,每个平台的地址必须严格遵守配置规划要求,并且不能重复,从资源池管理角度是没有办法确保地址的惟一性,因为业务平台的管理员可以任意修改虚拟机的IP地址。曾经一名平台管理员因分配地址不够用,在没有申请的情况下擅自用了一个地址,但其实这个地址已经分配给其他平台使用,最后导致整个平台出现故障,技术人员仅是在找出原因的环节上就花费了近一周时间。

网络运维与业务平台之间的“真空地带”

原来的业务平台都是“烟囱式”的建设模式,平台管理员能看到物理设备,很容易了解和掌握网络的拓扑,但是迁移到资源池内后,服务器是虚拟机,网络设置是共享的,没有办法呈现出和原来一样的网络拓扑。业务平台的管理员虽然了解业务平台的本身,但却不太了解网络结构;而资源池的网络管理员日常管理着成百上千个平台网络,并且对业务平台的本身也不了解;由此形成了维护的“真空地带”,这对平台的维护和管理带来了新的困难。

传统的物理设备扩展性差,功能不灵活、配置资源有限,无法灵活实现多租户环境和灵活调度。以替换核心交换机为例,随着业务不断膨胀,核心交换机原本就有上万条的配置记录,如果将原来的盒式防火墙替换成核心交换机上的板卡式防火墙,原来的路由发生了改变,不能简单地导入原来的配置。虽然机房人员已经进行了充分准备,但替换割接还是耗费了近20个小时,且由于网络过于复杂,导致割接失败。后再次割接时,在原有的基础上又花了20多个小时才完成替换工作。配置都集中在某些网络设备上,导致网络设备的某一资源耗尽,比如交换机的ACL资源等。

虽然资源池可以快速提供计算资源,但在一般情况下,1台虚拟机可以在几分钟内准备完成,但是网络资源往往要花很长时间。资源池的网络管理员不了解业务平台的网络需求,而业务平台管理员的网络知识又匮乏,不能很好都地一次性将网络抽象出来,网络配置的过程其实类似于“挤牙膏”——需要不断地调整、测试、再调整,甚至还有可能发生最后配置全部推倒重来的案例。如此看来,平均一个业务平台网络配置就需要花费2周的时间。

SDN为软件定义提供3种途径

所以,云计算需要一个低成本、高扩展、易配置、高隔离性、快速交付的网络架构,减轻网络管理员的工作难度和工作压力;提供业务平台管理员简单的配置手段和网络拓扑,便于维护;缩短资源池网络资源供给的时间;提高网络的扩展性和隔离性。

SDN能够解决这一难题,软件定义网络现在主要有3种方法:

1. 基于专用的接口:该类方案的实现思路是在不改变传统网络的实现机制和工作方式上,通过对现有网络设备的操作系统进行升级改造,使之能够支持专用的可编程接口供网络管理系统调用,实现网络设备的统一配置管理和策略下发,改变原先需要逐台设备进行登录配置的手工操作方式;同时,这些接口也可用于开发网络应用,实现网络设备的软件编程。

2. 基于开放协议的方案:它引入了开放的网络协议标准如OpenFlow,强调网络中控制与转发的分离,支持“南向”网络设备的集中控制,并提供丰富的“北向”应用编程接口,能够有效地降低网络架构复杂度,支持业务驱动的网络资源灵活调配。

3. 基于叠加网络的方案:该类方案的实现思路是以现行的IP网络为基础,在其上建立叠加的逻辑网络(Overlay Logical Network)用于屏蔽掉底层物理网络的差异,实现网络资源的虚拟化,使得多个逻辑上彼此隔离的网络分区以及多种异构的虚拟网络可以在同一共享网络基础设施上共存,支持网络资源的多租户共享并突破传统网络技术对租户网络的限制。

叠加网络胜在“对现网影响最小”

基于自身云资源池的现状和需求,浙江电信最终选择了对现网影响最小、基于叠加网络的方案,同时以隧道技术VxLAN 作为核心技术,其好处在于:

1. 屏蔽了运营商传统建设采购模式造成的底层物理设备差异性,对现网影响小。

2. 所需要的计算资源开销小,SDN的网络组件完全融入到虚拟化层。

3. 网络和计算虚拟化完全融合,天然感知计算资源的变化,有效协同。比如其中较为重要的虚机迁移功能。

4. 部署无需改变现网架构,可使传统网络和SDN网络共存。原有的业务平台可以运行在非SDN网络中,有需求的平台可以运行在SDN网络中,实现了网络的“按需分配”。

该解决方案的物理设计总体上将环境分为不同的功能域:计算(Computing)、管理(Management)、边界(Edge)、桥接(Bridge),采用扁平化的设计原则。

将原本只是做纯粹L2通道交换的接入交换机改造为架顶式TOR(top-of-rack)交换设计,在此为各个VxLAN 的VTEP配置网关地址,并开启三层路由功能。TOR 核心路由器为三层路由OSPF(Open Shortest Path First)交换, 资源可平行扩展, 能支持大量机架及TOR 建设。同时缩小了TOR及核心交换机管理MAC地址的数量,缩小了二层网络范围。

边界域(Edge)部署在VxLAN 和VLAN网关之间,其数量等于外联 VLAN 的数量。该设计使得每个Edge虚拟网关负载较小,但数量变多,可以选择用户集群中的服务器进行负载均衡,且Edge虚拟网关与服务VLAN 1:1 对应, 有利于问题查找。

计算域(Computing)内的VNI建立以每个业务的各种服务形态为单位, 如典型业务有Web/ APP/DB3种服务形态,即开设3个VNI给该业务,这样更便于实现服务的“东-西向”传输效率及提高安全性。

虚拟网络组网逻辑架构。通过VxLAN和分布式交换机、分布式路由器和EDGE提供的NFV功能的租户独享,让每个租户的网络运行在一个包厢里,它有独立交换机、独立路由器、独立负载均衡、独立“南-北向”防火墙、独立“东-西向”防火墙、独立VPN、独立DHCP、独立DNS等。用户可以任意配置IP地址而不担心和别人重叠,可以独立地配置各种网络设备,即使配置错误,也不用担心影响别的系统和整个网路,所有的配置只能在本租户网络内生效。

“傻瓜式”管理平台实现真正的“内外一朵云”

通过开发“傻瓜式”的管理平台,管理人员将计算、网络和存储,利用计算虚拟化、SDN、SDS技术封装,成为用户独立使用、简单配置、安全隔离的包厢,实现了真正意义上的“内外一朵云”。

笔者认为,“内外一朵云”是混合云的另外一种表现形式,是更高级的私有云。它可以利用VxLAN实现不改变原有物理网络基础的共享、隔离的虚拟网络架构;通过逻辑交换机使网络抽象化;通过逻辑路由器优化网络性能;通过EDGE边界网关提供NFV功能,提高网络服务的灵活性;通过vCenter+网络统一管理组件实现计算和网络的集中管理;通过“东-西”、“南-北”分布式防火墙提供安全和监控;通过网元的HA提供高可用性和容错性。

猜你喜欢
玩转计算资源租户
基于模糊规划理论的云计算资源调度研究
改进快速稀疏算法的云计算资源负载均衡
基于Wi-Fi与Web的云计算资源调度算法研究
耦合分布式系统多任务动态调度算法
南北种植有差异?看山东技术员如何在湖南“玩转”蔬菜基地!
和学生一起“玩转”英语课堂
基于MVC模式的多租户portlet应用研究*
老记者如何“玩转”新媒体
中国记者(2016年8期)2016-11-14 18:04:53
创意经济视野下宝马MINI“玩转”创意营销
商(2016年16期)2016-06-12 17:32:34
租户是大爷
特别文摘(2014年17期)2014-09-18 01:31:21