存储器管理飞速发展:重复数据删除技术
来源:中国电子政务网 更新时间:2007-08-09

2007年已经过了一半,存储器管理人员决心致力于研究重复数据删除技术的益处。
  联邦储备银行的存储工程师Michael Thomas在近期一个存储问题会议上说,“现在我不会购买一款 
二级存储设备。”

  很容易就可以看出其中的原因。最新的虚拟磁带库包括重复数据删除功能,通过复制冗余备份数据给用户减少了约49/50的存储痕迹。这样,每十亿字节存储量的成本节约是巨大的。

  IDC的分析师Robert Amatruda说,“随着重复数据删除技术的出现,当今的虚拟磁带库经济可与磁带相比。”GlassHouse技术有限公司的数据保护服务的副总裁Curtis Preston估计,一个中等规模的磁带库成本大约在每十亿字节4到11美元之间,不包括压缩和重复数据删除的磁盘价格在大约每十亿字节3美元到11美元之间。

  虚拟磁带库供应商估计大约一年内:每周进行完全备份,每十天的进行日常增量备份,这样,一个1000兆的数据需要53兆字节的容量来进行数据保护。随着存储能力以这样的速度增长,此类费用的增加令人震惊。

  重复数据删除产品的发展帮用户限制了这一增长。这一产品的主要供应商有:Data Domain有限公司, Diligent技术公司, ExaGrid, FalconStor软件公司, Network Appliance公司, NEC公司,昆腾公司, Sepaton and Symantec公司。EMC公司收购了Avamar技术公司,并计划通过于今年末发布备份软件包来合并其dedupe技术。日立数据系统公司联合了Diligent技术公司;IBM公司则联合了NetApp公司。

  Taneja集团的创建者和顾问Arun Taneja说,“重复数据删除技术的好处很多。”然而,他说不同的重复数据删除方法和因而减少的数据比例是不清楚的。用户应该采用他们自身的数据集合彻底检测产品。

  Motorola公司的IT基础结构工程师Guna Shankar Selvaraj说,他的公司正在对Data Domain产品进行评估,但是这些产品仍处于非常早期的阶段。

  相似地,联邦储备银行的Thomas说他在购买产品之前会将检测所有数据重复删除产品六到八个月。“我想知道多少产品的副本将被保留,以及在被删除之后情况如何等等,整体状况如何非常重要。”

  另一个关注数据在进行完重复删除后的恢复的用户是Richard Dearmon——UIC医疗中心的企业存储工程师。他说,“我想购买这一产品,但是我并不清楚二级和三级副本将会被如何处理。”用户期望评估这一技术,但是仍有很多问题存在。

  CitiStreet公司在Sepaton的虚拟磁带库中保存了50 TB的备份数据,采用了重复数据删除产品后,备份数据集合由缩减比例为56比1。公司现在已经进行了几个月的产品检测,并计划在七月底投入生产。存在一些最初的性能挑战,这些挑战CitiStreet在Sepaton的帮助下可以消除。“他们的重复数据删除产品对用户来说像个黑箱。”据CitiStreet公司全球基础下部构造建设的副总裁Jeff Machols说,现在其作用像广告。随着数据的较少,CitiStreet公司可以得到长期的在线保持,而不需要担心磁带存储。“我们可以保持至少一年在线数据的价值以进行备份和恢复,我们不担心这些数据被转移到其他存储设备。”

  有很多现实问题会减缓重复数据删除产品被采用。用户所关注的是重复数据删除、加密技术以及压缩技术如何以协调的方式协同工作。

  Motorola公司的Selvaraj说,“有时这些功能会出现会出现不协调,因此了解数据的整体状况就很重要,因为不是所有的重复数据都能被很好的删除。”

  另一个关注是动力消耗问题,因为越来越多的存储器联网。我们与用户讨论因为动力消耗的问题:哪家企业最近不得不关闭一些Data Domain机箱。因为这个话题比较敏感,这一企业希望匿名。

  “产品运行状况很好,但接着设备管理人员走了进来说道‘要么你决定关闭那台机器,要么我将拔掉插头,因为公司的能源紧张。”Data Domain设备是数据中心最后进入最先出去的。“为了节能,我们采用磁带。”

  很不明白为什么存储设备管理人员受当前的能源影响这么大,但是问题在所有IT部门都显示了出来。根据最近Gartner公司的报告,“到2008年,当前50%的数据中心将没有足够的能源和冷却能力以达到高密度设备的需求。”2009年,Gartner公司说能源支出将成为世界70%的数据中心设备的第二大运营费用。