文|美国福禄克公司 尹 岗
如果你的数据中心对可靠性要求很高,那么数据机房的关键物理链路要按照1:1做冗余备份(GB 50174-2007要求A级),但实际运行中经常发现,虽然网络建设时非常注重质量管理,但在使用过程中备份链路及在用链路也可能不支持新上的高速设备,这让运维人员和网管人员比较困惑,因为,此链路以前做过验收测试,难道以前经过验收测试的链路质量也会发生“飘移”?其实,引起参数变化的原因有多种,有时我们会改变布线系统结构,比如新增加了跳线,新增加了万兆应用,重新调整物理拓扑结构等;另一些原因则是由于环境变化引起的,比如温度变化、漏雨、有毒气体侵蚀、虫吃鼠咬等。什么时候发现这些“改变”?多数时候都是网络出现故障或按计划上新设备、新应用时,这与高可靠性数据中心“在线容错”和“快速诊断”的要求是不相符的。以下我们用一些检测实例来说明这类不稳定现象的真正原因,揭示持续保证布线系统高可靠性的最有效方法。
支持万兆的链路有几项条件,对于电缆链路,主要是链路参数要达到要求(这项通常在工程交接验收时都能达到),如果是成捆电缆布放,则外部串扰参数也要达到要求(这项经常被忽视),环境干扰不能过大(这项有时不好控制);对于光纤链路,除了最好使用OM3光纤(可以支持300m,俗称万兆光纤)或者OM2光纤(可以支持82m)外,链路总损耗(这项通常在工程交接验收时能达到)和连接点损耗也要符合一定要求(这项常被忽视)才能得到保障。
故障现象:一直使用千兆网卡接入服务器,新近按照计划更换了部分核心交换机,准备将服务器全部改为万兆接入。结果发现竟然没有一台万兆服务器能接入网络。起先怀疑是服务器有问题,更换新的服务器后故障依旧,然后怀疑是交换机有问题,结果交换机厂商拿来新样机实验还是不行,最后才不得不怀疑是电缆链路有问题。但是查看竣工验收资料,电缆链路全部是合格的Cat.6A链路,而且是著名的监理公司负责监督和检测的,更让人难于置信的是,这些链路之前运行千兆服务器时都工作得很正常。如果真是电缆链路不合格,那么必须要更换电缆,这个时间工期就来不及了。
故障诊断:用电缆分析仪DTX-1800检测Cat.6A电缆链路,结果发现全部不合格,只能满足Cat.5e的要求,说明这是用Cat.5e仿冒的Cat.6A电缆链路。可以肯定的是,原来的验收检测报告肯定是伪造的。
改进方法:先将需要上万兆的机台服务器链路更换为Cat.6A,其他的仍然运行千兆的链路暂时不予更换,待今后择机进行。
问题预防:认真执行验收测试可以发现这类潜藏问题,更重要的是,如果后期定期进行检测,则可以提前发现此类无力控制的作弊问题(Cat.5e可以很好地支持千兆链路),避免后期升级网络时才发现问题,造成时间和设备的浪费。
故障现象:新上30台万兆服务器,淘汰原来的千兆服务器,新交换机也全部更新为支持万兆端口的设备,发现其中约有10台左右的服务器端口仍然是千兆(自适应),如果强制设定为万兆,则连接中断。怀疑是交换机端口有问题,试着改接到其他交换机端口,也不能连接。查看原来的验收记录,参数全部合格。稳妥起见,重新对这些不能使用的万兆链路用电缆分析仪DTX-1800进行测试,参数也全部合格(永久链路)。此间接证明是设备供应商提供的这批交换机有问题。试着将“在用的”另一台不同品牌的交换机短时试验性替代接入(更改相应配置),结果发现还是不能接入。
故障诊断:改变一下测试方法,首先使用电缆分析仪DTX-1800测试10条故障链路的“通道”参数,结果2条合格8条不合格。这说明是设备跳线后导致参数不合格,但为什么又有2条合格?这是因为通道测试并不包括被测链路两端的水晶头参数,所以该水晶头本身质量低劣或打线不合格,通道参数仍然有可能合格(不兼容)。接下来更换跳线测试适配器对新上设备的跳线逐一进行测试,结果发现全部不合格。重新更换同一品牌的匹配跳线,10台服务器全部正常工作。
问题预防:对批量购入的跳线进行入库检测能有效地阻止劣质或不兼容跳线进入高可靠性的高速网络。如果定期对链路进行检测,也能及早发现这类后续运行维护阶段才出现的不兼容问题。
故障现象:一台万兆服务器在工作半年后出现时断时续的现象,误码率明显升高,几天后变得非常严重,试着重启服务器,结果其连接速度经常在万兆和千兆之间摆动,怀疑是网卡老化,试着更换网卡,现象依旧。改跳其他交换机端口,无果。调阅电缆验收参数,合格;测试电缆链路,参数合格;测试跳线,参数依然合格。遂怀疑是服务器本身问题,试着临时调换另一台服务器做对比,现象依旧。
故障诊断:链路使用的是Cat.6A UTP链路,支持万兆绰绰有余,链路参数测试和容易被忽视的跳线测试也合格,说明单根链路本身没有问题,需要考虑是否是链路的外部工作环境有问题。本链路被绑扎在一捆48根电缆束中,需要使用外部串扰适配器对其进行外部串扰测试,测试结果发现参数严重超标。
改进方法:将48根电缆捆改成每6根一捆,服务器重新开机,故障消失。究其原因:服务器工作一个月后由于多台新增加的万兆服务器一周之内陆续投入运行,造成越来越严重的外部串扰,误码率上升,直至影响到各种应用,重启服务器导致万兆端口自适应失败(变为千兆状态,严重的甚至有可能变为百兆状态)。
问题预防:如果定期对链路进行抽测或者轮测,可以早期发现这类潜藏很深及影响布线系统高可靠性的问题。
对绝大多数数据中心用户来说,从千兆光纤升级到万兆光纤是一条很自然的技术路线。一种方法是直接升级到万兆光纤系统,另一种方法是先布放支持万兆速率的光纤系统,待应用提升和资金允许时再升级到万兆应用。
故障现象:一个大型IDC机房按工程预算计划升级150台千兆服务器到万兆服务器,最后约有15台不成功,无法实现万兆连接,更换回千兆光卡则又能恢复连接,由此怀疑链路长度或损耗超标,但查看数据库记录损耗均在2.5dB以内,长度不超过150m,使用的OM3万兆光纤。最后决定进行实测验证,使用DTX-1800MSO检测,发现13条链路的损耗和长度均符合要求,损耗控制在2.5dB,长度在150m以内(OM3要求不超过300m),但有两条链路的长度略有超长,分别达到340m和402m,损耗在2.7dB以内。使用DTX-1800MSO自带的DTX-OTDR模块进行进一步测试,发现超长的链路是被人为进行过二次非法跳接,应该是在使用过程中有维护人员重复跳接过。
故障诊断:使用DTX-OTDR检测发现,这15条链路中均存在至少一个跳接点损耗超差,损耗超过0.8dB。用显微镜仔细检查这些跳接点,发现光纤端面本身没有什么大问题,就是污渍太多。按照DTX-OTDR提示的位置,逐一对这15条不合格光纤链路对应跳接点进行清洁,重新安装后启动机器,全部恢复正常运行。
问题预防:安装过程中就可能污损光纤端面,需要在正式接入前清洁干净。后续维护、升级等过程中则存在防尘帽不装、跳线不清洁就直接安装等问题,这些都可以在定期检测中暴露出来,而不是等到实施系统和应用升级时才会暴露出来。对于高可靠性数据中心用户而言这是不可容忍的疏忽。
光纤一级测试是指传统的损耗——长度测试,对于低速链路而言,只要损耗和长度测试通过,则完全可以支持对应的应用,但对于高速光纤链路而言,只考虑整条链路的总损耗和长度是否合格是远远不够的,必须确认每个连接点的损耗都符合要求才能大致确保稳定支持高速应用,这就需要实施二级测试。二级测试是在一级测试的基础上在增加OTDR测试,并利用OTDR曲线确认链路中是否存在引起链路性能下降的“事件”。这些事件可能是连接点问题、熔接点问题、光纤微弯、晶裂、弯曲半径过小、捆扎过紧、张力太大等问题。
布线系统多数情况下被认为是不会更动的,只是在新家装设备的时候会对应加上跳线,并对跳线做绑扎处理,少数时候会进行二次跳线。问题也往往出现在这里,首先是实用的跳线可能是不合格的或是随意自制的劣质跳线;其次是理线过程会因为紧密捆扎和弯曲导致链路质量下降或外部串扰增加,从而引发误码率增加的问题;最后是设备的接地问题或从电源供应系统窜入过量的谐波和干扰信号,导致链路误码率上升。
故障现象:昨天上了10台万兆服务器,工作正常,今天又上了6台,工作正常,但却发现昨天投入运行的服务器中有2台误码率突然变得很高。关上新增加的6台服务器电源,问题依旧,非常奇怪。查看问题服务器CPU利用率7%,链路流量15%,流量负荷不高但应用访问的响应速度却很慢。
故障诊断:将出问题的链路接入DTX-1800电缆分析仪,仪器界面跳出提示:“检测到链路噪声,继续测试吗?”继续测试结果显示“通过”。这表明链路本身没有什么问题,问题出在有干扰进入。可是干扰是从何处进入?昨天还可以认为没有干扰,所以干扰一定跟今天接入的设备有关。仔细检查发现今天新增加的布线系统为了方便固定和捆扎跳线,被与多根电源电缆束捆在了一起,干扰就是从这多根电源电缆束中窜入的,重新解开捆扎后问题立刻消失。
问题预防:实际上,电缆束之前就与6根布线捆扎在一起,只是这6根电缆束没有启用,所以问题没有暴露。如果做定期检测,就会发现窜入干扰的6根电缆。今天有将新增加的电缆跳线与电缆束绑扎在一起,导致昨天投入运行的服务器出现问题。另外,如果设备开通对通道、跳线做相应的测试则可以很快发现问题。
从千兆升级到万兆时链路中的很多潜在问题都会暴露出来,但如果不是数据中心或数据机房等高速用户,而只是水平链路的普通用户,因其目前大多数处在百兆状态,不会有问题出现。即便是从百兆升级到千兆,也可能只有少数桌面用户会出现问题。这给网管员们一种很强的错误暗示:只要电脑能上网就说明网线是好的,这种潜在认识会潜移默化地影响到如何对待与水平链路质量要求完全不同的数据机房中。可是他们忘了,这里的服务器几乎不可能找到百兆及其以下接入速度的,最基本的都是千兆,目前万兆也正成为数据机房的标配方案。所以如果还是以在10/100/1000M时代的眼光来看待10G/40G/100G时代链路质量,则多半会遇到速度问题,此时发现问题可能已经为时已晚。
问题预防:如果每次都是在出现升级问题的时候才发现链路质量问题,则所有数据机房用户累计下来的损失将是一个天文数字。如果此时发现选用的布线产品有问题特别是线缆有问题,由此造成的损失是很惊人的。因为更换电缆既造成巨大材料、工时浪费,又会延误工期,造成正常业务开通延期,间接地给甲方造成业务收入损失。如果在布线系统的整个生命周期中经常会变动布线结构、增删用户和应用、增加/变更布线路由,则由此造成的链路质量下降会随机地产生并存在下去。定期检测可以及早发现此类累计的问题并解决问题。
验收测试是保证系统初期可靠性的基本方法,定期测试则是保持系统持续高可靠性的最可靠的“笨”方法,如果辅之以动态检测、及时更新标签、开通测试、故障恢复后测试等方法,则可以将整个综合布线系统的可靠性随时保持在高水平。最有效的方法都是看似不起眼的方法,这有点像个哲学命题——如果你是高可靠性用户,长生不老的灵丹妙药是没有的,一劳永逸的妙方也是不存在的,最有效、最有价值的方法往往都是不起眼的,但坚持定期检测这项不起眼的“基本维护制度”就是非常有效的方法。