文|美国康宁公司
避免无计划的数据中心业务中断对任何关键性设备来说都是需要优先考虑的。无论这个策略是不惜一切代价避免业务中断或减少其影响还是两者兼具,所有操作原件都需被检查。本文对此提出减轻业务中断相关风险的问题和策略。
文中所提出的问题和策略由DatacenterDynamics代表康宁在2011年5、6月对数据中心业主和运营商进行了调研。这些数据中心分布在英国、德国、荷兰、法国、中东和美国的关键市场,包括在这些地区排名前100位的数据中心的业主和运营商。
这次调查结果收集到以下信息:
普遍情况:样本的百分比在过去一年中经历一些形式的业务中断,其中23%的数据中心在2010年前经历过业务中断。
报告显示:平均每三年就有一次或者双倍频率的是因为其他原因而导致业务中断,每个数据中心允许一年平均1小时的停机时间。
很难诊断:业务中断的原因有千差万别,但我们可根据诊断所有中断的几个主要原因来分析中断发生的频率,何种原因或谁导致中断,中断的后果以及业务中断带来的成本支出。
存在不确定性的原因诊断事件:在144个康宁报告的抽样事件中,38%的事件由不确定性原因造成,这意味着不能提出有效的校正或解决方案。
费用通常很昂贵:康宁抽样数据显示,抽样区域的组织为数据中断总费用为1090万美元,平均每个中断成本为78000美元或者14000美元每小时。投射到全球数据中心,业务中断成本将达到平均每年45亿美金,这是法国一年的财务总投资预算。
完全或部分由布线网络设备或管理失败造成的中断损失平均每年约4亿美金,8%~9%的总损失占高达15%的年度对该类别方面的总投资支出。
图1 布线问题导致数据业务中断的成本表
为进一步的研究进行了(每组30)测试与数据中心有关的“熵”的原则。在这种情况下,“熵”可以被定义为“逐渐增加的布线复杂性不可避免地导致业务中断发生。熵发生在跳线、布线路径密度过高,布线系统像鸟巢一样的状态时将导致业务中断的高风险”。
在特定的网络布线熵的情况下(通常在数据中心中它看起来非常明显),其中一些样本的数据中心显示布线系统混沌的趋势适用于他们自己的设施。设施会逐渐老化并毁坏甚至是在管理有效的设施也会逐渐老化并毁坏,这能被映射。在这里,设备操作生命周期被标准化为100%,指从设备开始使用到现在,便于不同使用年限的设备间进行比较。这个数据显示业务中断的速度随着设备使用寿命的增加而增加。第一次破坏性的事件发生在设备使用到57%左右的寿命,第二次发生在88%,第三次发生在96%。
伴随“熵”出现的风险会加重并以几何倍数增加数据中心运营成本,样本中的事件显示,成本与事件间的关系是第四次事件的平均成本,是第一次事件平均成本的两倍(101000美元与43000美元)。随着设备使用年限增加,设备老化,同时还采用了高密度的IT架构,则需要承担更大的运营责任,显然这是风险管理中巨大的挑战。
此样本数据中心中布线系统的分析方式可被视为设备运营管理的立见分晓的检验方法准则。
使用一个正式的布线管理计划显示能降低布线系统相关中断,尤其是在网络布线责任归属于IT和房地产两者时。其他设施管理信息表明,这不仅仅只是做一个简单的链接布线管理计划,而是对整个系统的包含组织性能和通信需求的整体策略。
对一些少量的已经升级到40G的网络系统,数据证明业务中断并没有减少,但是金融风险显著地减少了。
图2 事件发生间隔与生命周期比例统计表