印度CIO口述:小接线盒引来大危机
来源:IT168 更新时间:2012-04-14

 本文中,印度国有炼油商Bharat Petroleum首席IT主管M.D. Agrawal就因为一个小小的接线盒单点故障问题,遭受了一次IT危机。在此,他愿意将这次小故障引起的大危机及所需吸取的教训与他人分享。
  2006年4月的一天深夜,Agrawal接到一个来自公司数据中心的维护人员的电话——电话中称数据中心面临着一个电力中断的问题。这个数据中心有两条来自不同电网的两条电力线,但是都接在同一个接线箱中来为数据中心供电。正是这样的线路布局和以前被忽略的电力布线管理,导致了那个夜晚令人不愉快的事情。

  尽管Agrawal和他的同事们曾对这个运行不同系统的应用的数据中心进行了电力线和UPS的冗余设计,但是百密一疏,它仍然存在一个单点故障:由于两条线都布局在同一个电力接线箱中,如果其中一个电力供应商出了问题,就会导致这个接线盒发生故障;数据中心工作可以立即切换到另一个备用电源上,但它只能坚持90分钟。

  接到电话后30分钟内,Agrawal和他的团队都赶到了数据中心。他们对情况进行了分析,意识到了情况的严重性——备用电力正在迅速消耗,迫使数据中心关闭了10-12个相对不重要的系统。而在UPS的电能还能支持大约45分钟的时候,Agrawal决定关闭所有系统。

  在UPS的电能还能坚持20分钟的时候,服务器完成了正常的关闭。在关闭后的数分钟内,事先已在现场待命的电源维护专家迅速修好了接线盒,并恢复了整个电力供给。

  这次事故给Agrawal上了珍贵的一课,那就是——在IT领域中,任何环节(不管它是否属于IT系统范围内的)都有可能发生故障,并升级为IT危机。企业中负责信息化的人要做好面对任何不可预测的事情的发生。

  自从这次事故后,Agrawal让电力提供商纠正了这个存在单点故障隐患的问题,为不同的电力提供商提供了不同的接线盒。

  现在Bharat Petroleum公司的IT部门对于电源管理已经进行了更详细的规划,其中包括从不同的变电站取电等。最近刚刚建起的另一个数据中心是从第三个电网取电,作为灾难恢复中心的第三个数据中心在企业总部建立。

  而且在夜间,Agrawal安排了一个或更多的电力维护人员在数据中心值班,因此这方面的问题可以被迅速解决。另外,Bharat Petroleum公司的IT部门新增了闭路电视来监控数据中心,以前是每三到四个小时才检查一次,而现在每小时都进行一次物理检查,检查的范围也不再仅限于计算机技术方面,还包括诸如电力和线缆等方面。

  另外,诸如COBIT之类的管理标准也帮助Agrawal确保,他们现在可以更有准备地去面对和管理各种危机。