长久以来,提起数据安全,人们首先想到的是是网络安全,由于黑客等对系统、数据造成的迫害。因而,为了与网络安全区分,在容灾领域,人们使用了一个不太确切的词,数据完整性或可用性。
一、什么是
容灾
从广义上讲,任何提高系统可用性的努力,都可称之为容灾。现在业界常说的容灾,本地容灾,就是主机集群,当某台主机出现故障,不能正常工作时,其他的主机可以替代该主机,继续进行正常的工作。平时讲到容灾,尤其是值得重视的容灾,一般来说都是远程容灾。
所谓远程容灾,是指在企业的IT系统(不管是银行也好,电信也好),系统中必然有一部分(尤其核心部分)是非常重要的,我们叫它生产中心,人们往往给生产中心配备一个备份中心,该备份中心是远程的。在生产中心内部,已经实施了各种各样的数据保护。但不管怎么保护,当火灾、地震这种灾难发生时,一旦生产中心瘫痪了,备份中心会接管生产,继续提供网络服务。比如,全国铁路调度中心网络系统,当发生火灾、地震等灾难性事件时,该系统仍要保证正常进行,不能说当北京发生地震了,全国的铁路就不能调度,处于瘫痪状态,让灾难不合理地蔓延。因此实际上,我国的铁路调度中心除了在北京有一个生产中心外,在香山还有一个远程的备份中心。在生产中心和备份中心之间,有一个同步的数据对应关系,以保证生产中心有的信息,备份中心也有。因此,一般讲到容灾方案,对技术人员而言,90%都是指远程容灾。
二、关键业务呼唤容灾
l 目前行业对数据保护的分类
对所有的行业和系统,目前主要存在这几类问题:
没有采取任何保护措施,业务系统主要在单主机环境下运行。此种情况下,各种潜在的因素,如硬件故障、电源故障、病毒、认为误操作等,都会导致数据丢失,造成业务的停顿。
没有采取数据保护措施,但业务系统在双机或集群环境下运行;此种情况下,双机或集群解决方案可保证系统的高可用性,当系统中的某一部分出现故障,系统能照常运行。但是,当出现电源故障、自然灾害、认为误操作等,仍能造成系统中的数据丢失,使业务中断。
采取了一定的数据备份措施,通常在业务主机或网络上专门的备份服务器连接到磁带机等备份业务数据。此种情况需要通过中断业务来完成对数据库中数据的备份,但不能使商务运做保持在不停机的状态,当发生火灾、地震等的灾难时,系统和业务仍然会中断,影响客户完成交易。
l 关键业务要求不间断业务
目前,全球都在经历着IT风暴的洗礼,这涉及到每个部门、每个领域,改变着传统而又古老的行业运做模式。尤其是电子化服务的出现,使企业的业务及交易实现了网上操作,商业运做模式由此发生了根本性的变革。在这种发展趋势下,对信息资源的持续性访问成为令人关注的竞争优势。因此,保护数据其可访问性已成为信息技术发展的焦点问题。
在上面的三种企业对数据进行保护的模式中,应该说,三种情况下的数据都不是很安全,数据时时处于一种潜在的风险中。
由于容灾主要是保护数据安全,或者说对数据进行维护。因此,以前常规采用的数据备份容易造成备份的数据与数据库中的数据不一致,使数据库很难恢复;而且,恢复通过磁带备份的数据,需要3天到一个星期的时间,这阶段,企业业务将处在停滞状态。同时,由于备份介质与生产系统(onland)之间的在线交易在物理上不好分开,所以当机房发生危险,如火灾、水灾以及其他的灾难性事件发生时,企业对数据的依赖性变强。数据丢失将导致企业的业务瘫痪,以至破产。因而对业界来说,迫切需要解决的问题是:对那些关键应用来说,如何能保证书数据的安全性,以便能抵御灾难性的能力。因为,随着环境的变化,灾难事件的增多,企业不能将对数据的依赖建立在可能不会出现灾难这样的赌注上,关键业务需要容灾。
早先,传统业务对系统的高可靠性没有现在强。传统的很多业务,比如手工业,甚至是证卷行业,宕机几个小时,损失投资只要几百万。随着现在电子商务的出现,使很多行业(尤其是金融领域)的业务出现了新的变化,从前固定的上班时间完成存取业务,现在,有了网上银行,可以通过网络,实现24小时银行,这无形之中对系统的可用性要求提高了很多。因而,同样是宕机一个小时,可损失却在增加。不仅是银行,证券业同样也如此,很多行业现在都有这样的趋势,古老的业务前面加了个E,意味着宕机一小时,损失在增加,有的些行业是几倍、几十倍、甚至是上百倍地增加,这其中的附加损失难以度量。因而,对金融、证券、电信等对可靠性要求高的企业,迫切地需要进行容灾,以保证数据的完整性,保证业务的正常运行。
l 如何看待容灾的回报
一个容灾系统,由于需要建立远程灾备中心,因此,对企业的业务系统,需要从软件到硬件,进行多方面的投入。一个完整的容灾方案,大概要投资几百万,甚至上千万的人民币。对企业来说,花这笔钱是否值得呢?
对企业用户而言,无论是传统业务,还是新兴业务,投资都要讲究回报,投资到容灾系统上的回报,就是那部分提高了的系统可用性给企业带来的额外收益。以证券行业为例,现在的系统的可用性一般能保证每年宕机不超过50个小时,那么,企业会算一算,每年宕机50个小时,需要陪付多少钱,需要损失多少钱。如果用这些钱来追加投资,建立容灾系统,是否能将损失减小。比如说,现在宕机50小时,要损失1千万,那么,如果投资1千万,能不能将宕机时间缩短到1个小时,若能,从宕机50个小时到1个小时,减小损失是多少,这实际上是量化分析。对任何行业来说,都是一样,投资一个新技术在一个系统中,实际上就是讲投资回报。
这里有一个表格,是日用百货业的系统可用性与宕机时间、年宕机损失和金融业年宕机损失之间的关系。
可用性 |
年宕机时间 |
日用百货业年宕机损失 |
金融业
年宕机损失 |
99.9999 |
30秒 |
950美元 |
53750美元 |
99.999 |
5分钟 |
9417美元 |
537500美元 |
99.99 |
52分钟 |
98000美元 |
5590000美元 |
99.9 |
8. 75小时 |
988750美元 |
56000000美元 |
99.5 |
53.7小时 |
5000000美元 |
280000000美元 |
99.0 |
87.6小时 |
10000000美元 |
560000000美元 |
98.0 |
180+小时 |
20000000+美元 |
1000000000+美元+ |
95.0 |
450+小时 |
50000000+美元 |
3000000000+美元 |