灾难恢复中的安全隐患
来源:ccw 更新时间:2012-04-13

对于基金管理公司来说,谁业不希望成为业内的坏典型:缺乏完善的灾难恢复与应对措施,导致大量的数据丢失,损失惨重。但不幸的是,某些案例再次给用户敲响了警钟:系统修复中的安全问题同样不可忽视。

80万份档案丢失

某基金管理中心IT部门负责人王东近来一直疲惫不堪,他和他的同事们加班加点地工作了三个多月,终于把该基金中心丢失的80万份文档资料重新扫描进电脑中。不幸的是,王东加班加点的工作,并不是基金中心的正常任务。

“这一切都是为了补偿自己的过失。”王东百感交集地说。由于此前没有正确地处理用于灾难备份的磁盘阵列错误,自行尝试进行数据恢复,导致80万份的基金文档再也无法找回。

王东真的非常冤,因为该基金管理中心拥有完整的安全灾备方案。据悉,该基金中心采用的是服务器集群架构,连接到大约有3TB可用空间的存储阵列上,构成双机热备。其中,基金中心数据库包括大约1.5TB的数据和图像文件,而且以每年300-500MB的数据量递增。

基金中心的数据库主要保存由纸质文件扫描得来的数字图像文件。因为图像文件对于磁盘空间的要求很高,所以数据库中图像文件的部分包括一个分割成文件组的分区表MDF,以年为单位在文件组中作为一个单独的分区来保存相应的文件。当年的数据是一个读/写文件组,而一旦关闭,就标记成只读。然后,整个数据库使用文件组备份,接着备份事务日志。这些数据库备份文件再备份到磁带上,并妥善保管在各处。

百密一疏

不幸的是,在正常的数据备份工作过程中,一个磁盘阵列处理器报错了,无法读取RAID中的数据。此时,王东像许多技术人员一样,给厂商打了一个咨询电话。根据厂商的建议,王东和他的同事自行尝试恢复RAID数据。然而,在做了大量的尝试工作之后,才发现数据已经无法再恢复了。

因此,王东在周末加班,使用以前手工备份的MDF文件把所有只读的历史文件都恢复了,也就是前五年的数据,但是2007年的所有数据却永远丢失了,因为即使有2007年当前的备份和事务日志的备份,相对应的MDF文件的备份也是需要的。

为了尽快恢复业务,系统先调用了一个没有数据的2007年的文件组。因此今年夏天,王东和他的同事们不得不用了三个半月的时间把纸质文档重新进行了扫描。

关注隐含风险

从这个失败的例子中,用户应当看清楚一点:即便拥有安全灾备方案,漏洞仍然存在。由于灾备系统自身故障引起的业务连续性安全隐患已经成为企业不可回避的风险。另一方面来看,如果企业拥有完善的灾难恢复流程,则也不至于落到如此境地。

资深的读者也许还记得,本报曾经披露过类似的安全隐患----系统恢复风险。这类风险往往不被用户所洞察。事实上,记者就此问题曾经专门咨询过国家信息中心的专家。他们认为,由于安全备份设备导致企业数据受损的故障在不断上升,从2006年7月到2007年7月的一年时间内,类似的事件增长了近一倍。

对此,国家信息中心数据恢复中心负责人叶红在接受采访时表示,很多用户在出现数据安全风险时都凭借自己对产品的了解和厂商的建议,尝试自行恢复数据。然而,由于对数据恢复知识以及经验的局限性,自行恢复的可能性很小,还往往给数据造成二次破坏,导致一些数据永远无法恢复。

据介绍,RAID是大部分企业所采用的数据备份技术,但是RAID一旦出现故障,本身就会对数据造成一定的破坏。这时候,专业的数据修复机构首先要做的是最大限度地保护RAID中的数据不被破坏。显然,王东的做法并非如此。事后王东也承认,其自行恢复中进行的RAID加载操作,确实影响到了数据的成功恢复。

最后,希望所有用户都能够从该案例中吸取教训:即使企业拥有完整的业务连续性安全方案,也不能忽视在灾难发生后的恢复细节,甚至有必要按需定制自身的安全恢复流程,并通过制度落实下来。因为只有这样,才能最大限度地保证企业的灾备系统发挥作用。