文/高杰欣
中南民族大学: 数据中心机房搬迁策略
文/高杰欣
搬迁实施方案必须贴近实际,在内容上周密细致、切实可行,其中重点是如何保障网络迁移的平滑。
随着近些年信息化建设步伐的加快,旧的机房已逐渐无法适应现代化的信息化应用和管理,新建容灾机房,改造旧机房等新需求正变为现实。相对来说,在经费充足的情况下,新建或改造一座机房并不是那么困难,如何搬机房才是真正的难点。我们或许考虑过两座机房该如何容灾,考虑过业务系统如何高可用,考虑过单点故障时有哪些可应急的方案,但是,当我们要搬移这些网络和计算设备时,之前的所有考虑都还能管用么?
毫无疑问,机房的搬迁工作是一项复杂的工程,不仅要把网络、计算、存储等各类生产设备安全迁移到新机房,而且要求网络系统的迁移和集中存储系统的迁移必须安全、平稳,甚至达到不停机,不影响业务系统应用的要求。基于此,机房搬迁的风险点更加难以控制,技术难点也比初始部署或技术改造更为繁琐。
虽然高校的业务还尚未达到极致的24小时×7天的连续性需求,但保证业务连续性仍然是数据中心搬迁过程最核心的要求,网络保障则是机房搬迁成败的关键。
中南民族大学原有旧机房建于1999年,面积约70平方米,在配电、空调制冷、机柜容量、洁净度等方面已远远落后于当前信息化发展水平。经过“十二五”期间的数字化校园建设,逐渐改造或新建了边界网络、核心网络、数据中心网络、数据中心计算资源池等关键基础设施。在学校的大力支持下,于2014年末立项新建了两座机房,分别位于校内相隔1千米的两座建筑物内,功能上分为容灾机房和新的主机房,每座机房面积约120平方米,至2015年两座机房分别竣工,将旧机房设备和业务分别迁移到两座新机房,最后拆除旧机房。
按照机房和数字化校园的建设规划,网络、计算、存储等主体架构设施都是双活设计,双活的实现也成为本次搬迁可利用的技术要点和有利条件,它使搬迁具备了不停机、不断网的可能。
总体来说,本次搬迁规划分为两个阶段:第一个阶段为旧机房搬迁到容灾机房,使容灾机房具备完全独立承载全校网络和业务的能力;第二个阶段为旧机房断电,剩余全部设备搬迁到主机房并与容灾机房一起双活运行。整个搬迁过程按照不断网,不停业务的高标准进行组织安排,工期安排在暑假进行。图1所示为校园总体网络拓扑结构。
网络方面,自无线控制器,核心交换机、认证BRAS、防火墙,到边界交换机均以IEEE802.3ad协议实现双设备双活配置连接,所需做的重点是梳理线路连接,确保分拆到两座机房后立即正确接好心跳线,避免脑裂导致的网络异常,之后逐条接好汇聚到核心的双上行链路,确保双上行链路在割接过程中至少有一条不断开,用户不会感知到网络中断。数据中心的计算资源方面,已有两套刀片服务器,绝大多数关键应用和服务都创建在两套刀片组成的一个虚拟化集群内,在两个搬迁阶段中分别将全部业务漂移到一组不搬的计算环境就能确保业务不断条件下的搬迁实施。存储方面,已在2014年末采购了双活存储网关,一直等待新机房完工,图1所示的存储拓扑为搬迁完后规划的存储拓扑。双活存储网关和一套新存储在搬迁过程中部署在容灾机房,先与旧机房存储做好双活同步,使新旧两套存储都具有完整的数据,再将搬到容灾机房的刀片服务器、新存储、双活存储网关接通,使容灾机房的服务器与存储能全部接管全部业务,达到旧机房存储停机条件,将旧机房存储搬迁到新主机房,从而保障业务运行的同时也兼顾了存储的搬迁工作。除此之外,还剩余一些非关键业务的服务器或交换机,则在需要搬迁时短暂停机。
图1 校园总体网络拓扑结构
根据上述搬迁思路规划,不仅可以在实践中检验双活架构真正做到业务和网络不中断的效果,还有额外的优势在于:第一,所有的搬迁和割接工作都可安排在白天进行,实施人员可在头脑清醒的状态下投入工作,降低人为误操作的机率;第二,由于是不间断网络和业务的搬迁,所以不存在搬迁的窗口时间,实施过程的时间压力减小很多,尤其对于机器设备存在搬动后硬件故障的可能,更是无法掌握的时间因素;第三,割接过程万一出现预料之外的差错,用户会在最短的时间反馈给实施人员,以便及时调整和解决,若在夜间进行搬迁和割接因无法得到用户反馈,即使准备了相应的验证条件,也可能获得有偏差的结果,到白天又付出更多回退和中断事件才能找到症结。
搬迁的风险是客观存在的,总体上也有三个方面。技术方面,虽然有高可用性技术作为支撑,但仍可能存在意料之外的问题,因此必须制定一些策略,将业务对技术所依赖的各个方面都考虑进来,在搬迁前进行验证性测试和检查,以缩短万一出现的停机时间。硬件迁移方面,很多设备可能都会导致搬运过程中遭到损坏,策略之一是提前联系好供货商,在质保期内还可及时提供备件的更换,策略之二则是对该硬件承载的功能提前做出预判和备用,确保损坏真的发生时能减少损失。数据方面,不停机的搬迁在数据层面一直是活动的,提前的备份并不能持续跟踪变化的数据存储,但备份仍然是不可缺少的,我们可以采取业务系统只读等措施来减少搬迁期间的数据变化,以兼顾网络服务的持续使用和数据可恢复能力。
根据前文的搬迁思路,搬迁方案的拟定对于搬迁的顺利实施至关重要,图2所示为搬迁方案的几个主要方面。
图2 搬迁方案的几个主要方面
背景情况主体是对当前已具备条件的梳理和搬迁规划,已确认事项实际包含所有准备性工作清单,该清单不分巨细列举技术性、事务性、物品准备等情况,比如只关注尾纤数量却遗漏两端接口类型都会导致搬迁的延误。设备上架布局则不仅仅是设备与机柜容量的占用规划,还包含线缆的路径和机柜功能区规划等。
工序安排实则是整个搬迁工作的计划安排,其中不仅需要明确每个阶段搬迁的先后顺序,还要进一步明确每一步骤的工作内容、负责人、用时估计等信息,使所有参与人员了解和熟悉自己在搬迁工作中的角色和任务,以更好地相互配合。每一项搬迁以功能或设备集群单列一个工序安排,最后再将同时搬移的设备合并到一个安排表中,以进一步梳理同时搬移的细节。
工作细则是对工序安排的深化,每搬迁一项硬件功能,都要严格仔细地对照细则展开工作,并在各个环节做好信息记录与整理,比如验证测试基本模拟了搬迁时设备单边运行的情况,需要仔细观察和收集测试的情况,只有每个步骤落到实处才能确保搬迁整体的顺利进行。
风险控制的落脚点应在控制二字。设备搬运时首要遵循轻拿轻放、不可倒置、避免静电等原则,可以减少损坏的机率。应用启停则需提前联系好相关系统的承建商做好应急保障,如果不发生停机,则无须进行应用启停和检查。数据丢失的风险点主要在存储搬运的过程,对关键的系统,尤其是数据库提前备份到两套存储之外的第三处还是很有必要的。关于容灾,在双活的技术架构下,两个机房的硬件其实是互为容灾、负载均衡的,风险的出现在于两个搬迁的进行时,那时都是依靠一边机房的单套设备运行,一旦出现故障,只能中断抢修,因此对容灾风险的控制,主要落脚在搬前的验证测试。关于回退,在搬之前要备份所有配置,明确回退的时间底线,当到达回退时间且不能恢复时,都要确保单边环境能正常运行,缩短停机时间也就是给自己争取排查时间。
机房搬迁能否顺利进行,准备工作是真正的考验,大致可以归纳分为两类。
第一类——信息采集
1. 搬迁出发地到目的地的空间距离,车辆可靠近建筑物的位置,拖车可用的位置,是否可用电梯,楼梯的宽度与梯高,规划合适的路径,确保人员安全和设备安全,在搬迁开始前带全体人员熟悉地形。
2.灰层清理是吹灰还是吸灰,每个设备是只吹表面还是需要拆卸后彻底清理,除尘在机房外什么区域,该区域是否有配电给除尘设备供电,是否有适合垫放设备的木板泡沫。
3.两座机房之间已有的可用裸光纤芯数,统计搬迁过程中每次跳接裸光纤所需数量和剩余数量,当数量不足时拟定临时的跳接办法。
4.被搬迁设备的重量评估,提前准备扁担、麻绳、拖车,以及明确每个设备不可受力挤压的位置。
5.ODF柜到网络柜的路由长度,网络柜到每个设备柜的路由长度,只接本机房交换机的多模尾纤数量,只接远端机房的单模尾纤数量,尾纤两端接口类型的统计。
6.检查待搬运设备是否都安装有导轨,缺少导轨的设备拟定上架安装方式。检查待搬迁设备的电源线接口型号、线径、数量,PDU的插座型号。
7.列表交换机或服务器每个接口信息,包括使用的模块,接口的速率,配置的地址,通断状态等,依据表格信息逐接口检查和确认对端连线是否一致,与原标签是否一致。
8.规划待搬迁设备在目标机房的上架位置,尤其对体积较大的设备还需考虑柜内上架先后顺序。
9.根据经验列举搬迁期间需要保障的业务系统或用网需求,提前告知全校用户搬迁计划,以便反馈重要的用网信息,搬迁时避开这些时间段。
第二类——物料准备
1.根据清点的导轨数量情况,购置与设备相匹配的导轨。
2.干净的纯棉抹布,清理设备上污渍和搬运工指印,干净并且最好是新的,避免人体或其他动植物油脂,非纯棉材料摩擦会产生静电对设备产生破坏。
3.根据统计的尾纤数量情况,购置长短合适,接口合适的尾纤,减少尾纤在柜内或桥架上的盘曲。
4.根据统计的电源线数量和接口型号,购置转接头或长短适当的电源线,减少电源线盘曲发热。
5.准备质量较好的机柜卡扣一批,准备长短粗细不同的扎带一批,确保新搬入设备顺利上架和绑扎。
6.准备打标机标签模板格式,确保标签信息丰富准确,准备颜色各异标签纸一批,准备标签机打印耗材。
7.准备自动螺丝刀或称手的不同型号螺丝刀,提高拆卸和安装效率。
8.根据统计的模块数量和类型,减去已有模块数量,购置所缺的模块,并预留一定数量备用。
9.机房间高质量心跳裸光纤准备,机房间业务光纤熔接和准备,提前测试每一芯光衰质量,做到心中有数,有效缩短搬迁过程的调试时间。
经过较长时间的准备和多轮分析讨论,此次机房搬迁最终得以顺利进行,对所有参加搬迁的人员来说,既是一次考验,也是一次勇敢的尝试。通过此次搬迁,也使我们对机房建设和管理汲取了许多宝贵的经验,主要有以下几个关键点。
1.搬迁实施方案必须贴近实际,在内容上周密细致、切实可行,其中重点是如何保障网络迁移的平滑。网络的迁移是最基础的工作,只有在网络畅通的前提下才能从容地应对其他的搬迁事宜。同时,网络迁移又势必造成单节点运行的临时状况,维护的重心随之转移,紧急时刻要能立即切断有问题的设备,将中断时间空间在15~30分钟内,将受影响的范围缩小,这些都有赖于前期的信息收集与整理。因此线路割接、交换机调整等网络迁移先于其他迁移操作,待核心网络、认证BRAS、边界网络都割接成功,再集中精力处理服务器与存储的迁移,虽牺牲了一定时间,但最大程度保障了网络的平滑,降低了迁移的风险。
2.要提前预测搬迁风险。通过对兄弟院校搬迁机房的经验调查,我们总结出对于数据中心机房的搬迁主要存在4方面的风险,包括:设备故障风险,即设备在搬迁过程中所出现的损坏;操作风险,即线路割接、上联路由交换的切换、集中存储系统迁移、关键应用数据迁移(包括数据备份与恢复)等均属于高风险操作,这些环节虽经反复论证在理论上可实施,但操作复杂且无法进行演练,在搬迁过程中很可能由于操作问题带来安全隐患;人员风险,即在搬迁过程中的技术人员既要负责搬迁工作,又要负责日常生产运行的维护管理,搬迁人员少或精力不够也容易产生风险;其余不可预知风险,如系统的意外瘫痪、线路问题等。在预知这些风险以后才能提前做好预防工作。
3.充分调动一切资源。机房搬迁是一项极为复杂的工作,不仅涉及部门内众多的技术人员,还涉及相关业务部门、系统集成商、搬运公司等各个方面的人员及各种搬迁所用的器材,每一项可调动的资源都为搬迁的顺利进行推波助澜。我们除了与各业务部门密切分工协作外(业务部门负责分发公告、配合业务启停),还提前召集主要业务系统的系统集成商进行了方案讨论,并要求各集成商最大限度地准备技术支持人员和相关配件。另外,在充分总结兄弟院校搬迁经验的基础上,我们在装箱、搬运、除尘、上架等比较耗时的环节上增加了人力、工具、通信,极大提高了搬迁效率。
4.采用流程化搬迁方式。搬迁前,实施人员专门绘制图纸,详细对比搬迁前后的情况;提前规划各个机柜、各个网络设备与服务器的摆放位置,适当区别柜子的用途,测量好设备的具体尺寸,对所有设备进行编号,尤其是可拆解的大设备的每个模块部件都逐一做好标记,按规划机器的具体摆放位置,以合理、充分地利用机房的有效空间。分别在新旧机房设立调度人员,由该人员拟定每次搬迁调度和流程,负责不同工序的指挥与沟通协调,确保搬迁流程的有条不紊,在实际搬迁时均未出现衔接问题或误操作。
5.做好测试的充分验证和事务性准备。根据每一批搬迁的设备功能,我们提前发布公告或主动联系相关业务部门,由业务部门根据在迁移时间内对业务的影响程度及时向外发布公告,测试所反映的问题往往是迁移时无法回避的。对事务性的准备是需要耐心和细心的,准备的工作越是细致,遇到问题时可应对的弹性也就越大,所幸在整个搬迁过程中未发生影响应用的问题。
(作者单位为中南民族大学)