四问灾难恢复实施
来源:中国计算机用户 更新时间:2012-04-13
从开始做项目的时候,企业就要问一下自己,我花这么多钱要规避什么样的风险,是要规避一个很大的自然灾害,像“911恐怖袭击”或者是“伦敦爆炸案”这种低概率事件,还是自身每天都要面临的变革风险。

有人说,2006年是个“灾备年”,灾难恢复需求呈现了比较快速增长的现象。金融、保险、证券行业对灾难恢复的需求非常明确,有的客户已经按照自己的思路和策略做项目。像一些大的国有银行和全国性商业银行已经开始着手建立灾备中心,有的已经做完,有的正在做。

外资企业、合资企业、独资企业由于受到国外政策法规的约束,也要符合国外上市的要求和国外股东的要求,诸如萨班斯法案等,这也是一个需求。

一些和老百姓密切相关的政府服务机关,如国税和地税、社保和公安等也在做这些项目。因为他们的关键业务是为社会提供服务的,必须保证业务正常而持续地运行。

尽管不同行业处在不同阶段,但是,大家都已经意识到应该做好灾难恢复业务,更高层次地保证自己业务的连续性。这已经不是简简单单的技术部门的问题,更是企业的深层战略问题,可以说,它和企业生死相关。

当前,政府主管部门也在积极推进有关重要信息系统恢复的指南编写和灾难恢复的国家标准的制定。国务院信息化工作办公室早在2005年已经发布了《重要信息系统灾难恢复指南》,今年即将出台国家标准。

值此之际,我们采访了IBM大中华区基础机构业务及技术管理总监周国祥、IBM大中华区业务连续和灾备服务经理赵庆,请他们谈谈灾难恢复实施方面的问题。

图1 灾难恢复的划分

问一两种方式,采用哪一种?

记者:目前企业一般采用什么方式进行灾难恢复?有什么区别?

周国祥:到底采取什么样的技术、什么样的方式来做灾难恢复,大家还在探索中,主要有两种方式。

一、自己建设。目前来看,一些有实力的大企业,他们有资金、有能力自己做灾难恢复项目。

但是,企业自己建设灾难恢复中心,不仅建设周期长(一般而言,灾难恢复中心的建设周期都在18个月到24个月之间),投入资金大,而且灾难恢复中心的维护成本、管理经验、应急策略的规范等方面都是持续的挑战。

二、一些企业正在寻求诸如外包等方式,比如,IBM与中金数据系统有限公司合作建设了“灾备中心”,行业用户可以把资产等资源外包给该“灾备中心”,当发生灾难时,可以按照事先定义好的配置和流程恢复业务。

在国外,外包已经成为一种趋势,使用灾难备份外包服务的比例达到了71%,这其中包括美国国防部的灾备系统、澳大利亚政府的电子政务系统等。 在国内,这种方式正随着灾难恢复需求的增长而开始显现。

另外,还有多方共建模式,但是,由于责任分配等问题而不成为主流。

问二 如何入手?

记者:一些企业的应用或者业务流程有上百个,甚至有些银行的业务流程达到了三、四百个以上。这么多的业务流程,企业该如何入手做灾难恢复项目?

赵庆:对客户来说,这的确是很大的难题。因为这涉及到怎么去平衡的问题,到底应该花多少钱,花了这么多钱是否能够达到理想的状态,这是个非常重要的问题。关键问题是首先要清楚自己的目标。这涉及到灾难恢复或者业务连续性的目标,各个企业的目标差别非常大。

从业务连续性的目标来看,建议客户从战略层面和业务层面启动灾难恢复的项目,而不是从技术层面来入手。也就是说,当企业决定去做一个灾难恢复项目时,一定要先想清楚,您的企业是否要做灾难恢复服务,它和企业的战略目标是否相符合,这是个非常重要的问题。

因此,在项目前期,规划和评估工作是必需的,它可以使项目具有一个比较正确的方向。从开始做项目的时候,企业要问一下自己,我花这么多钱要规避什么样的风险,是要规避一个很大的自然灾害,像“911恐怖袭击”或者是“伦敦爆炸案”这种低概率事件,还是自身每天都要面临的变革风险。

在过去十几年中,灾难恢复业务的一个很大的变化,就是从防范低概念事件,转向规避企业每天都要面临的变革风险。现在,在造成企业业务中断的原因中,诸如自然灾难或者是机房着火和建筑物倒塌等低概率事件的机会,已经非常小。一些其他的诸如黑客、电源故障、人员操作问题等,也会造成业务中断。因此,在项目前期,需要企业从业务层面进行完善的风险分析。

图2 业务连续性建设模型

图3 灾难恢复项目实施步骤

记者:关于灾难恢复目标的设定上,有哪些好的经验可供借鉴?

赵庆:图1是国际上对灾难恢复的等级划分,大概分七个层次,从最低级的磁带备份,到实时备份。目前国务院信息化工作办公室也制订了一个中国自己的划分标准。这个等级划分的目的,是让企业清楚为什么要从业务层面做灾难恢复,不同业务应该采取什么样的手段。

对于企业来说,不一定必须选择第七级的方式,实际上,只要选择一个最能满足应用需求的方式,就可以了。它不一定是最高级的方式,也可能是最低级别的方式。如果一个客户拥有非常多的应用,建议客户划分成关键应用、重要的应用或者是一般应用,然后,针对每个部分,采取不同的灾难恢复的策略。

问三什么是好的灾难恢复方案?

记者:用户在实施一个完整的灾难恢复项目时,需要考虑哪些方面的问题?

赵庆:一个好的灾难恢复项目,至少要考虑到六个层面。图2是一个业务连续性建设模型,企业首先需要在底层有一个非常好的基础设施和技术,包括电源、场地、网络、硬件、软件等都需要详细考虑;其次,涉及到应用及数据方面的问题;还有流程、组织和战略问题。

举例来说,如果灾难恢复项目在开始建设的时候没有考虑组织和流程,企业没有专门设计一个相应的组织来管理这个项目,也就是,在发生灾难时有一个组织专门来协调,那么,真的出了问题,就很难恢复。

再以流程来说,当发生灾难时,到底按照什么样的流程去做,这个流程是不是业界最好的,是否是经过业界测试,是否经过演练,以上问题都非常重要。

记者:如果真的发生这种灾难,比较理想的灾难恢复状态是什么样?

赵庆:举例来说,IBM曾经为银行写了一本书《应急预案》,这本书写的很详细,对灾难发生时的组织人员、流程等都有事先的详细定义,必须要事先都定义好,否则,当灾难真正发生时,什么都来不及处理。

比如,楼着火了,这种情况发生时,一级方案会告诉你把系统转接到某某地方;接下来,要把处理人员划分成不同的小组,有技术恢复小组、应用恢复小组、技术支持小组和协调小组等。这些小组都是事先定义好的,每个小组的成员是谁,它的责任是什么等,之前都明确确定下来。

问四 实施分几步?

记者:一个完整的灾难恢复项目实施过程分哪几步?实施过程中,需要注意些什么问题?

赵庆:对于灾难恢复的项目,如何去建设,如何去管理,业界没有一个统一标准,但是,业界有一个最佳实践,企业可以去学习。

如图3所示,IBM公司把灾难恢复项目分划为三个阶段:分析评估、设计实施和维护管理;每个阶段又包含不同的内容。

一个企业在实施灾难恢复项目的时候,千万不要很快就跳到技术层面,只关注产品选择、集成商的选择,这在国外也是行不通的。关键是要做好前期的风险分析和业务分析,包括评估企业现有能力,业务切换流程如IT方面的切换流程和业务单位的切换流程等。

■ 链 接

《重要信息系统灾难恢复规划指南》

2005年4月,国务院信息化办公室联合电子政务、银行、电力、铁路、民航、证券、保险、海关、税务等行业,联合起草的《重要信息系统灾难恢复指南》(简称《指南》)正式出台。

其主要内容覆盖了灾难恢复工作的主要环节,以及每一个环节需要开展的各项具体工作。具体包括:灾难恢复的管理,灾难恢复需求的确定,灾难恢复策略的制订,灾难恢复策略的实现,灾难恢复预案的制订、落实和管理,灾难恢复的等级划分(规范性附录),灾难恢复预案框架(资料性附录)等。

《指南》充分考虑了实际操作中可能遇到的问题,具有较强的指导性和操作性,主要是为了给关键的行业用户做灾难恢复设计、建设、运维,提供一个操作性强的参考思路。

《指南》对灾难恢复的等级划分为6级。从低到高,依次是第1级,基本支持;第2级,备用场地支持;第3级,电子传输和部分设备支持;第4级,电子传输及完备设备支持;第5级,实时数据传输及完整设备支持;第6级,数据零丢失和远程集群支持。

而每个灾难恢复的等级都包括数据备份系统、备用数据处理系统、备用网络系统、备用基础设施、技术支持、运行维护支持、灾难恢复预案等7个要素。

我国的灾难恢复建设目前存在着四大误区

一、灾备中心建成营运中心。目前我国已建成的一些灾备中心,无论选址,还是运营管理制度或网络应用模式针对性都不强,很多灾备中心建成之后,离真正投入应用还有一段距离。

二、需求分析不充分。一些企业认为建设灾备就是设备招标,而忽略了最需要扎实做的是需求分析。灾备的目的是为了保障业务连续性,需要进行详细的风险分析、业务冲击分析进而得出需求依据。即要首先分析当前面临的哪些风险可以通过管理等手段避免,哪些是难以避免的,必须依靠灾备中心来保障;哪些系统非常重要,需要放到灾备中心中,哪些是不必的。

三,忽略运营维护。后期的运营和维护是持续的,并且更为关键。

四,灾难恢复预案简单,演练缺乏。预案难免会有很多漏洞,弥补不足的方式就是不断演练。一些大公司“定期演练”。而且这个演练的“脚本”必须能够测出灾备体系中存在的问题,同时不影响正常的业务运营。