容灾向我们走来
来源:存储在线 更新时间:2012-04-15

长久以来,提起数据安全,人们首先想到的是是网络安全,由于黑客等对系统、数据造成的迫害。因而,为了与网络安全区分,在容灾领域,人们使用了一个不太确切的词,数据完整性或可用性。

一、什么是

容灾

从广义上讲,任何提高系统可用性的努力,都可称之为容灾。现在业界常说的容灾,本地容灾,就是主机集群,当某台主机出现故障,不能正常工作时,其他的主机可以替代该主机,继续进行正常的工作。平时讲到容灾,尤其是值得重视的容灾,一般来说都是远程容灾。

所谓远程容灾,是指在企业的IT系统(不管是银行也好,电信也好),系统中必然有一部分(尤其核心部分)是非常重要的,我们叫它生产中心,人们往往给生产中心配备一个备份中心,该备份中心是远程的。在生产中心内部,已经实施了各种各样的数据保护。但不管怎么保护,当火灾、地震这种灾难发生时,一旦生产中心瘫痪了,备份中心会接管生产,继续提供网络服务。比如,全国铁路调度中心网络系统,当发生火灾、地震等灾难性事件时,该系统仍要保证正常进行,不能说当北京发生地震了,全国的铁路就不能调度,处于瘫痪状态,让灾难不合理地蔓延。因此实际上,我国的铁路调度中心除了在北京有一个生产中心外,在香山还有一个远程的备份中心。在生产中心和备份中心之间,有一个同步的数据对应关系,以保证生产中心有的信息,备份中心也有。因此,一般讲到容灾方案,对技术人员而言,90%都是指远程容灾。

二、关键业务呼唤容灾

l 目前行业对数据保护的分类

对所有的行业和系统,目前主要存在这几类问题:

没有采取任何保护措施,业务系统主要在单主机环境下运行。此种情况下,各种潜在的因素,如硬件故障、电源故障、病毒、认为误操作等,都会导致数据丢失,造成业务的停顿。

没有采取数据保护措施,但业务系统在双机或集群环境下运行;此种情况下,双机或集群解决方案可保证系统的高可用性,当系统中的某一部分出现故障,系统能照常运行。但是,当出现电源故障、自然灾害、认为误操作等,仍能造成系统中的数据丢失,使业务中断。
采取了一定的数据备份措施,通常在业务主机或网络上专门的备份服务器连接到磁带机等备份业务数据。此种情况需要通过中断业务来完成对数据库中数据的备份,但不能使商务运做保持在不停机的状态,当发生火灾、地震等的灾难时,系统和业务仍然会中断,影响客户完成交易。
l 关键业务要求不间断业务

目前,全球都在经历着IT风暴的洗礼,这涉及到每个部门、每个领域,改变着传统而又古老的行业运做模式。尤其是电子化服务的出现,使企业的业务及交易实现了网上操作,商业运做模式由此发生了根本性的变革。在这种发展趋势下,对信息资源的持续性访问成为令人关注的竞争优势。因此,保护数据其可访问性已成为信息技术发展的焦点问题。

在上面的三种企业对数据进行保护的模式中,应该说,三种情况下的数据都不是很安全,数据时时处于一种潜在的风险中。

由于容灾主要是保护数据安全,或者说对数据进行维护。因此,以前常规采用的数据备份容易造成备份的数据与数据库中的数据不一致,使数据库很难恢复;而且,恢复通过磁带备份的数据,需要3天到一个星期的时间,这阶段,企业业务将处在停滞状态。同时,由于备份介质与生产系统(onland)之间的在线交易在物理上不好分开,所以当机房发生危险,如火灾、水灾以及其他的灾难性事件发生时,企业对数据的依赖性变强。数据丢失将导致企业的业务瘫痪,以至破产。因而对业界来说,迫切需要解决的问题是:对那些关键应用来说,如何能保证书数据的安全性,以便能抵御灾难性的能力。因为,随着环境的变化,灾难事件的增多,企业不能将对数据的依赖建立在可能不会出现灾难这样的赌注上,关键业务需要容灾。

早先,传统业务对系统的高可靠性没有现在强。传统的很多业务,比如手工业,甚至是证卷行业,宕机几个小时,损失投资只要几百万。随着现在电子商务的出现,使很多行业(尤其是金融领域)的业务出现了新的变化,从前固定的上班时间完成存取业务,现在,有了网上银行,可以通过网络,实现24小时银行,这无形之中对系统的可用性要求提高了很多。因而,同样是宕机一个小时,可损失却在增加。不仅是银行,证券业同样也如此,很多行业现在都有这样的趋势,古老的业务前面加了个E,意味着宕机一小时,损失在增加,有的些行业是几倍、几十倍、甚至是上百倍地增加,这其中的附加损失难以度量。因而,对金融、证券、电信等对可靠性要求高的企业,迫切地需要进行容灾,以保证数据的完整性,保证业务的正常运行。

l 如何看待容灾的回报

一个容灾系统,由于需要建立远程灾备中心,因此,对企业的业务系统,需要从软件到硬件,进行多方面的投入。一个完整的容灾方案,大概要投资几百万,甚至上千万的人民币。对企业来说,花这笔钱是否值得呢?

对企业用户而言,无论是传统业务,还是新兴业务,投资都要讲究回报,投资到容灾系统上的回报,就是那部分提高了的系统可用性给企业带来的额外收益。以证券行业为例,现在的系统的可用性一般能保证每年宕机不超过50个小时,那么,企业会算一算,每年宕机50个小时,需要陪付多少钱,需要损失多少钱。如果用这些钱来追加投资,建立容灾系统,是否能将损失减小。比如说,现在宕机50小时,要损失1千万,那么,如果投资1千万,能不能将宕机时间缩短到1个小时,若能,从宕机50个小时到1个小时,减小损失是多少,这实际上是量化分析。对任何行业来说,都是一样,投资一个新技术在一个系统中,实际上就是讲投资回报。

这里有一个表格,是日用百货业的系统可用性与宕机时间、年宕机损失和金融业年宕机损失之间的关系。

可用性
年宕机时间
日用百货业年宕机损失
金融业
年宕机损失
99.9999
30秒
950美元
53750美元
99.999
5分钟
9417美元
537500美元
99.99
52分钟
98000美元
5590000美元
99.9
8. 75小时
988750美元
56000000美元
99.5
53.7小时
5000000美元
280000000美元
99.0
87.6小时
10000000美元
560000000美元
98.0
180+小时
20000000+美元
1000000000+美元+
95.0
450+小时
50000000+美元
3000000000+美元

    在我国,电信现在还是垄断,但在美国,目前国内有几家电信公司,如果某一家电信公司由于某种原因,业务需要中断1小时,即这一个小时不能打电话,那么,用户会马上选择别的电信公司,成为其他公司的客户,不再是你的客户,这种损失是潜在的,对运营者来说是非常重要。因而,可用性的要求越来越高,宕机一小时的损失越来越大。
 
三、容灾涉及到的行业
 
在中国国内,目前,容灾系统中的70%-80%都是在金融、银行领域,几乎所有的银行都上了容灾方案。不过,容灾方案增长得非常快,还有很多行业在逐渐地进入,比如,电信的计费系统、电力公司的计费系统、铁路调度系统,国内有部分电信部门已经实施了容灾方案,还有大量的电信行业目前正在认可过程中
 
四、容灾发展趋势
 
从高端走向低端
 
异地容灾方案正逐渐从高端企业走近中低端用户,容灾方案也在向着小型化、低成本化发展。EMC推出了面向中端应用的Clariion系列。李治博士说,在今年2月,EMC推出的FC4700存储设备(带容灾功能),使企业容灾成本大幅度降低。大约1000GB的异地容灾数据,容灾成本下降很多。除EMC外,其他厂商也把目光投向性能价格比高、价位低的容灾方案。
 
提高容灾性能
 
容灾方案也在不断优化,改进。通过优化传输,远程异地同步容灾方案,异地间的距离可以从几十公里到上百公里。
 
综观IT业发展历程,其实,整个计算机行业的技术都是一样。开始总是从高端应用入手,服务器、主机集群也一样,一开始从高端才应用,逐渐地技术走向成熟。随着技术开放,成本也会逐渐下降,总会有一些厂商,找一些办法,去降低成本。现在,整个容灾系统已经由最初的只是纯企业级、纯数据中心级的应用方案发展到今天的在稍微高档点儿的部门级就能实现了,容灾成本也降低了很多,而与此同时,性能却提升了很多。这一涨一降,使得今天能做容灾的企业越来越多,作得起容灾的部门也越来越多。