宕机

2013-04-29 03:38黄浩
中国信息化 2013年4期
关键词:宕机凡客中断

黄浩

在过去的一年里,国内的数据中心市场,获得了高速的发展。来自IDC的数据显示,2012年中国数据中心建设IT投资规模达1190亿元,同比2011年1018亿元增长16.9%;中国数据中心服务市场规模或将达248.7亿元,相比2011年的174.3亿元,增长率为42.7%。

这些数字从一定程度上反映出了社会信息化的进程,也暗含了“两化深度融合”的国家战略的萌发。可以说,在这一背景下,企业发展到一定程度大多将拥有IT的属性。这种属性,一方面优化了企业的管理、生产流程,便捷了企业服务,然而另一方面,一旦IT系统出现问题,企业的服务、生产、管理都要受到不同程度的影响,尤其是企业的数据中心,一旦宕机往往意味着业务中断。

服务器宕机,业务中断,这不仅仅是一个令企业IT运维人员极度头疼的概念,CFCA副总经理曹小青表示,如果银行系统中断1小时,将直接影响该行的基本支付业务;中断1天,将对其声誉造成极大伤害;中断2天以上不能恢复,将直接危及其他银行乃至整个金融系统的稳定。而调研机构Qualix Group曾有一组数字量化了不同行业关键业务中断带来的经济损失:服务器宕机1分钟,平均会使运输业损失15万美元,银行业损失27万美元,通信业损失35万美元,制造业损失42万美元,证券业损失45万美元。这也从直接经济效益的角度解释了关键业务平台对稳定性和可靠性的要求。

因此,在遍及2012全年的服务器宕机事件中,我们从中梳理了一些有代表性的事件,希望通过剥茧抽丝的方式,能够找到一些应对措施。

事件因果

从服务器宕机事件的起因上来看,至少分为5种:灾害性天气、停电、黑客入侵、系统bug、运维失误。并且每一种起因的背后都会找到长长的一串名单。

灾害性天气。

2012年10月24至30日,超级飓风桑迪横扫了大西洋,古巴、多米尼加、牙买加、巴哈马、海地、美国等国家和地区。这些区域的数据中心受到了严重的影响。其中,纽约市Datagram公司的服务器机房被洪水淹没,导致《赫芬顿邮报》和Gawker等多家媒体网站宕机。飓风桑迪所带来的影响超出了一般单一的中断事故,为受灾地区数据中心产业带来了规模空前的灾难。

问题:在灾害性天气已经准确预报的前提下,数据中心为何没有制定相应的应急措施?

停电。

由于停电,凡客五周年的线上庆典活动被迫中断了至少3个小时。2012年10月18日,由于北京酒仙桥附件区域出现大面积停电,导致凡客在此的服务器宕机,进而网站无法正常访问。而随后,凡客为弥补给用户带来的不便,决定将原本仅限于10月18日的满200减50的店庆促销活动,延长一天至次日24点。但业内人士分析,3个小时的服务中断,至少让凡客损失了几千万元的利润。

在当日停电风波中,遇到同样问题的电子商务网站还有亚马逊中国、维棉等。

问题:当日8时左右酒仙桥出现大面积停电,经电力公司抢修9点20分恢复供电,但实际上凡客截至10点45分依然无法访问,为什么?

系统BUG。

域名巨头GoDaddy是一家重要的DNS服务器供应商,其拥有500万个网站,管理超过5000万的域名。这也解释了为什么2012年9月10日宕机事故会是全年最具破坏性的代表。GoDaddy官方声明该事件的起因是,由于内部的一系列路由器的数据表造成的网络事件损坏。

问题:这次宕机事件持续T6个小时,尽管最后GoDaddy给出了免费一个月的补偿,但是,恢复速度还是太慢了。

黑客入侵。

2012年6月21日,Twitter中断了数小时,而五周后,7月26日,用户在登录Twitter的网站上只看到一则不完整的提示信息:“Twitter目前不可用,预计稍后恢复。”而后一名名为Cosmo黑客表示,他对UGNazi进行了一项针对社交网站的拒绝服务攻击。

问题:黑客入侵与安全防护之间的关系,就像是矛与盾。不过,拒绝服务攻击(DDoS)已不是啥新鲜的手法了。

运维失误。

2012年7月28日Hosting.com被迫停运。停机事故的发生是由于该公司位于特拉华州纽瓦克的数据中心正进行UPS系统预防性维护,“服务供应商执行断路器操作顺序不正确造成的UPS关闭是造成数据中心套房内的设施损失的关键因素之一。”Hosting.com首席执行官ArtZeile说。“没有任何重要的电力系统或备用电源系统出现故障,完全是一种人为的错误造成的”。

问题:人为错误通常被认为是数据中心停机的主导因素之一,因此管住人、规范人很重要。

不只是“马后炮”

说到应对服务器宕机,保持业务连续性,似乎上至企业CIO下至普通的IT运维人员,都能讲出一堆套路:不差钱的就搞两地三中心,一般的也至少会在容灾段做软容灾,设置应急库;在技术操作手册上,也会列个几十条须知。

然而,宕机事件还是频频发生。究竟是为什么?

2012年12月15日下午,中国银行信用卡服务器宕机4小时。而按照银监会的要求,其必然已经做了两地三中心的容灾备份。问题的关键在于,持续4小时的宕机本身就是一个问题。

那么,很多人会问,为什么不做备份切换呢?

关于这个问题,记者并没有得到中国银行方面的正面回答。而随后在记者的采访过程中,日立一位负责金融行业的系统工程师表示,如果启用备份系统,由于存在应用上的未知性,没人知道启动之后会出现什么问题。事实上,任何时候银行系统出现问题,都需要一把手拍板做决定,其他人没有这个责任和胆量启动预备系统。由此也不难理解为什么本次中国银行宕机事件没有迅速解决的原因了。

因此,问题的关键不在于是否做了容灾备份,而是平时演练是否到位,关键时刻才能顶上去。同时,也要防止关键应用因系统开发和历史延续等问题而绑死在某一服务器上。

猜你喜欢
宕机凡客中断
岛内人口普查刚启动就遇“宕机”
跟踪导练(二)(5)
千里移防,卫勤保障不中断
基于集中采购的分布式系统的设计与实现
一起民航气象数据库系统进程频繁宕机故障分析及处理方法
凡客复出 开卖文艺T恤
故地重游的凡客,归人还是过客?
故地重游的凡客,归人还是过客?
艾默生网络能源发布《2016年数据中心宕机成本》
AT89C51与中断有关的寄存器功能表解