腾讯科技网络平台部网络解决方案架构师 | 马志强
互联网公司新一代骨干网架构探析
腾讯科技网络平台部网络解决方案架构师 | 马志强
信息的爆炸式增长已使互联网公司的现有网络架构难以适应形势的发展,试探自建新型的骨干网成为新的焦点。
互联网上有两大主要元素“内容和眼球”,“内容”是互联网公司(或称ICP)提供的网络服务,如网页、游戏、即时通信等,“眼球”则是指海量的互联网用户。“内容”与“眼球”之间的桥梁是网络运营商。互联网公司的内容分布在运营商多地的IDC中,二者的合作密不可分。但信息爆炸使得网络资源日趋紧张,互联网公司与运营商之间的紧耦合关系弊端日益增多,尝试新型网络架构的自建模式成为互联网企业的最新关注点。
互联网公司主要是根据用户服务体验的覆盖经验,向运营商租用IDC机架和网络出口资源,在不同的运营商、不同的省份/城市,批量部署业务服务器对外提供服务,并为业务模块间通信而建立IDC内部网络、城域网和广域网,同时通过自建CDN或CDN专业服务公司对服务盲点进行覆盖。其网络架构如图1所示。
IDC网络通常用于承载上千台服务器的通信,满足日益增多的东西向通信需求,要求扁平化、易扩展,现阶段较为流行的架构方式为CLOS架构,以“核心+接入”的方式提供上千台服务器的网络接入,甚至无阻塞通信。
城域网主要是应分布在多个IDC中业务之间需要通信而产生的,通常由于其以汇聚出口带宽为主要目的,采用大容量的以太网交换设备、通过租用运营商裸光纤实现互联,更有超前的互联网公司出于提高网络可靠性和质量、降低投资成本等考虑,自行铺设DWDM传输系统,基本上打造了运营商级别的传输系统。
广域网主要是由于跨全国部署业务,满足业务模块间内网通信需求而铺设的长途网络,广域网的范围和网络带宽视互联网公司业务规模和覆盖模式不同而不同,有些互联网公司业务众多且部署范围广,那么通过租用运营商长途线路,组建2.5G/10G级别的广域骨干网就非常重要。
CDN的形式有两种,一是自建;二是外包,将CDN选址、网络铺设、服务器部署、CDN分发系统交由服务公司完成,双方仅需签订服务合同。CDN是互联网通过IDC之外改善用户体验的一种补充,对视频、下载等业务具有非常重要的作用。
图1 互联网公司网络架构图
在现有的架构下,内部基础设施不仅要支持大规模服务器和网络建设,更要能以更低、更精简的团队保障其良好运营,因此需对架构重新审视。同时,外部环境的变化,如运营商IDC资源供给速度放缓、运营商网络扩容速度缓慢且网络质量不稳定、全球IPv4地址耗尽等,都要求我们对互联网公司下一代网络架构进行认真思考。
IDC资源日益匮乏
在飞速发展的互联网时代,ICP面临激烈竞争,公司业务要求“敏捷迭代、小步快跑”,对IDC资源、网络资源的供给量要求非常大,同时供给速度必须保障足够快,可称之为“爆发式需求”。以某互联网公司为例,2011年其服务器新建量就已与此前的服务器总量持平;再以某互联网公司的合作伙伴业务服务器需求量为例,短短3个月时间里,其业务服务器需求量从0激增到了1000多台,这给IDC机房、服务器、网络带宽等基础设施造成了巨大冲击。
在现有IDC供给模式和网络架构下,需大量向运营商租用IDC资源(机房、服务器机架、网络出口带宽等),但从东南沿海到中西部城市,可快速批量供应的IDC数量并不充足,再加上长达3个月的建设周期,基本上无法满足业务的爆发式需求。从现实情况看,IDC资源已成为互联网公司业务发展瓶颈。
所以我们需要探讨更好的网络架构,以更快速支撑业务覆盖。
运营商网络强耦合困境
互联网公司基本上不会通过一个运营商的IDC覆盖全国用户,因为现实情况是,国内运营商网络间互联互通质量不容乐观。
即便是想在同一个运营商内,挑选优质的运营商省网/城域网的IDC进行业务部署,用于覆盖该运营商全国用户,也并非易事,因为很多运营商省网/城域网发展并不均衡,扩容速度慢,通常以半年/年为扩容周期,省网/城域网出口带宽、骨干网链路带宽利用率普遍偏高,一旦长途传输链路中断,必然会导致骨干链路拥塞,通信时延和丢包率急剧上升。
所以对于互联网公司而言,用一个省网/城域网的IDC来覆盖用户,一旦遇到运营商网络质量波动,基本上业务就会受到影响,而互联网公司业务和网络架构本身没有手段可以进行冗余规避,只能等待运营商网络故障尽快恢复。
所以同样,我们需要探索更好的网络架构,以摆脱对运营商网络的强耦合依赖关系。
出口资源和IPv4资源紧缩
互联网公司提供服务主要是通过租用租用运营商IDC机架、网络出口、合法IP地址等资源。具体租用模式随运营商和互联网公司规模、双方合作紧密程度等有所不同,通常租用IDC机架和网络出口配备2~3个C甚至更多的合法IPv4地址。
然而全球合法IPv4地址正日益紧缺。2011年2月,IAIA宣布不再有任何IPv4地址可分配给五大区域互联网注册管理机构,而运营商骨干网、省网/城域网留存的合法IPv4地址数量预计也仅能坚持到2012年上半年,运营商开始收紧合法IPv4地址的发放。届时,互联网公司能否在国家政策、运营商整体改造就绪的情况下迅速向IPv6转型,根据目前的趋势判断并不乐观,势必会面临商务成本挑战,合法IPv4地址的使用成本必将提升,而不是像现在一样随带宽附带购买或收取稍许费用。
所以,互联网公司在国内国际的IDC出口网络使用自行申请的合法IPv4地址与运营商进行BGP路由互联,某种程度上可以缓解IPv4地址的压力,但这无法从根本上解决IPv4地址稀缺的问题,而且互联网公司通常拥有的合法IPv4地址数量并不多,所以全新的骨干网络或互联模式或许不能完全或长期解决IPv4地址不足的问题。
随着互联网公司及其业务的蓬勃发展,成本并不一定作为第一要素进行考虑,更多从更好地面向用户提供服务、改善用户体验等方面出发。要缓解IDC资源、网络等面临的巨大压力,必然要通过更加灵活的方式进行构建,拥有自己强健的骨干网络,有能力承担为改善用户体验而迂回流量,在运营商网络出现质量下降时保障用户服务的牵引流量,逐步走向ICP和ISP的混合体,这期间构建成本的适当增加是可预见的。
从技术的角度看,互联网公司首先要拥有合法的AS号码和IP地址,其次通过租用城域或长途专线构建自己的骨干网络,我们称之为ICP Internet Backbone,这区别于用于业务内部交互用的城域网和广域网(当然,最终的组网模式可以是单独的物理骨干网络,也可以是在现有城域网和广域网的基础上形成的业务承载网,逻辑上形成单独的骨干网),其特点是带宽需求量大。另外更重要的是有能力,包括业务规模、业务吸引力、商务洽谈等多方面能力,实现与运营商的BGP协议互联,当然这个过程可以从与中小型运营商的互联做起,随着能力的增强逐步实现与大型运营商的互联,或者通过IXP、NAP点等提供Public Peering的互联点做起都可以,典型的例子就是Google(在大中型IXP的客户列表中,Google常以自有AS号码与ISP进行对等互联)。
自建模式大幅降低成本
很多互联网公司的同仁仍然坚信按照既有的“资源多点部署模式”,也就是在各处部署服务器资源更加合算。
在此模式下,如图2所示,在运营商A城域网IDC部署业务X和Y,可轻松满足城域网A或周边省网/城域网的用户访问需求,如果要满足省网/城域网B的通信需求,则需依赖于运营商城域网A和城域网B之间骨干网络的带宽情况、利用率情况、扩容频度、稳定性情况等诸多因素,如果用户体验不好,就需在城域网B的IDC中部署同样一套的业务X和Y。对于互联网公司而言,这里的成本就是在城域网B的IDC中部署业务X和Y所需的机架、服务器等方面的成本。
根据我们的经验,这种模式的初始投资比较大,包括租用机架费用、服务器费用,长期投资包括机架电力费用、运行维护费用等。
图2 资源多点部署模式
但是,如果采用“自建骨干网模式”(图3),其差异在于如图红星标出的位置,互联网公司的IDC外网部分通过自己的骨干网互联,各IDC仍然保持与运营商的互联,形成多出口互联的模式,并不要求IDC A和B部署的业务完全一样,运营商用户对不同业务的访问,完全可以通过互联网公司自己的骨干网或运营商骨干网进行合理引导,并且在运营商网络质量不好时完全通过互联网公司自己的骨干网进行迂回,保障用户体验。
图3 自建骨干网模式
这种模式下,一次性和长期的投入只是骨干网链路成本,根据经验计算,假设部署业务X和Y所需的服务器数量为1000台,每机架15台服务器,每台服务器对外服务吞吐流量5Mbit/s,模式一的初始投资和一年运营成本约合1400万元,模式二的一年运营成本约合720万元。
按需实现灵活业务调度
还有一点相当重要,就是合理的流量引导策略,不同的流量引导方式,会导致完全不同的用户体验和成本。
图4 “冷土豆”模式
图5 “热土豆”模式
图4和图5展示了完全不同的流量引导方式,都是在链路和网络质量正常情况下的流量引导,但是有“冷土豆”、“热土豆”之分,这里用“土豆”比喻流量,实现了多地互联的ISP和ICP骨干网,两种流量模式实现了完全不同的效果。
“热土豆”:由于是三地互联,三地用户对本地内容的访问直接通过互联链路穿透实现,而运营商三地对异地内容的访问,例如运营商BJ用户对互联网公司GZ业务的访问,不论ICP侧如何进行策略引导,ISP侧都会像持烫手的热土豆一样将流量从BJ的互联点丢给ICP侧,然后穿透ICP的骨干网到GZ业务去,这样对ISP侧骨干网的资源占用最少。
“冷土豆”:差别仅在于运营商对穿透骨干网的流量不太敏感,就像放在手心的冷土豆一样,可以任由BJ用户对互联网公司GZ业务访问的流量穿透自己的骨干网,再经过GZ的互联点进入到ICP侧,这样对ICP侧骨干网的资源占用最少。
两种流量引导模式没有好坏之分,也不可能ISP侧采用“冷土豆”而ICP侧采用“热土豆”,让一方吃亏一方占便宜,是需要双方本着对等和服务优先的原则进行洽谈,两种模式都是在链路和网络质量正常情况下,选择更好的方式保障用户服务和改善用户体验。
事实上,现有的“资源多点部署模式”没有绝对的缺点,是互联网公司经过多年摸索形成的一种可行模式。但是随着公司业务的发展,用户体验和灵活性成为重中之重,采用新型模式架构将带来三大优势。
其一,极大地减轻对运营商网络质量的依赖,提高业务流量的灵活调度能力。当遇到运营商骨干网络故障或质量问题,可以及时切换到自有骨干网络进行流量迂回。
其二,适当减轻了IDC资源的需求。当需要对某一特定运营商的特定区域进行用户体验改善时,无需等待IDC机房、电力、机架的建设,仅需简单的网络设备及专线即可完成,通过自有骨干网络的承载完成业务覆盖。
其三,当运营商无法提供充足的IPv4地址时,通过自有骨干网络使用自有IPv4地址,一定程度上缓解了地址资源紧缺。
但是,互联网公司建设骨干网络,不会在短时间内建设完成,而必然是一定时期内两种模式并存,逐步按需建设。最初驱动力可能是运营商网络能力与互联网公司业务需求差距巨大而不可调和、运营商IPv4地址严重紧缺而又没有解决办法、海外运营商充分竞争环境等情况,届时,互联网公司作为ICP与ISP的界限将更加模糊,而互联网公司的业务灵活调度能力、用户体验改善情况将大幅提升。