从归档中寻求数据的潜在价值
来源:中国电子政务网 更新时间:2007-07-02
在我们经历了一个辉煌的计算年代之后,我们发现,越来越多的数据已经让我们走进了一个更加关心存储的年代。在这个年代里,数据的计算与数据的存储相比,好像已经显得不那么重要,因为随着数据的从KB、
MB、GB再到TB与PB,如果不能解决存储的问题,那么再大的计算量也只能成为服务器的FLOPS符号。同时,因为数据挖掘、知识管理日益为人所知,以及越来越多的针对存储的法规需要遵从,数据的存储成为了企业必须要面对的难题。

  

      当存储的需求从未像现在这样旺盛的时候,我们只有简单的储存、备份和恢复,因为那时候我们的数据仅仅是几块硬盘就可以应付的小case,而现在我们的存储越发复杂,变成了备份、恢复、归档、灾难备份、持续数据保护、重复数据删除等一大堆复杂的名词,存储工作也随着这些名词越发的细致起来。在这些名词中,归档这项曾经大家认为只是简单重复劳动的工作,逐步走到了存储工作的台前,我们看到,很多因素让归档成为了企业必须要考虑的问题。

 

      法规遵从是归档的“源动力”?

  

      在谈起归档的时候,很多人的第一反应,就是对法规遵从的要求,诚然,越来越多的国家对于企业数据的长久保存做出了严格规定,如美国就对其上市公司颁布了要求企业保存数据的萨班斯法案,而就在我写这篇文章的前几天,中国人民银行正式颁布了《金融机构客户身份识别和客户身份资料及交易记录保存管理办法》,据此办法规定,我国的金融机构应当自业务关系结束当年或者一次性交易记账当年计起至少保存5年。交易记录则自交易记账当年计起至少保存5年。

  

      无论是美国的萨班斯法案还是国内针对金融机构新出台的此项规定,都对企业保存其数据有了严格的要求,正因为如此,企业必须要保存大量的重复、使用频度低的过期数据,这些数据也许是几年甚至十几年以前的数据,虽然看似这些数年前的数据只有区区几GB,但是当现在成为过去,今天的TB、PB级的数据需要被永久保存的时候,企业就不得不面对如山一样的数据灾难。

  

      因此,归档看似随着法规遵从的要求,成为了数据存储的新的热点,实际上,这种对归档的需求在我们看来是企业在被动的接受,如果企业不保存数据就会收到惩罚或诉讼失败等言论甚嚣尘上。

  

      对此我们难免就有疑问,归档的出现要比这些所有的法律法规早的多,难道法规遵从真的是归档的“源动力”?难道企业没有主动的归档需求么?

  

      归档的需求来源于信息的价值

  

      其实,当我们翻看全球网络存储工业协会(SNIA)如何解释归档的时候,我们发现,我们的看法与SNIA不谋而合。据SNIA的《网络存储双语词典》解释,Archive(归档)是指数据集合的一致性拷贝,通常用以长期持久地保存事务或者应用状态记录。一般情况下,归档通常用以审计和分析的目的,而不是用于应用恢复的目的。

  

      我们认为,这才是归档的真正意义所在。

  

      事实上我们都知道,所有企业去存储去归档的数据,都来自于企业的生产,这些数据都是企业在整个企业活动中所积累的,而不仅仅是0和1的堆叠。这些数据的出现,不仅体现着企业发展的轨迹,更不是一些简单的报表,在这个竞争的年代,它们是明镜,可以了解企业的情况;它们是罗盘,可以指引企业的方向;它们更是翅膀,可以帮助企业腾飞。

  

      就像EMC公司客户技术主管杨明轩先生所说,现在的电信行业提供了电话清单、计费详单的查询,但是只提供给我们五个之前月、一个当前月的记录,很多用户对这种服务颇有怨言,但是实际上,电信公司也希望保存超过六个月的历史数据,这些数据其实就是它们的竞争资源。

  

      随着在数据挖掘和知识管理在今天的日臻完善,包括Microsoft SQL Server Analysis、Cognos、Business Objects在内的多种商务智能(BI)软件开始为企业所熟知并应用在其生产中,越来越多的企业正在这些BI软件来从其数据中寻找价值,以我们刚才所说的电信行业为例,电信公司正在利用对用户过往的花费组成,如主叫通话时长、被叫通话时长、短信、上网流量所占比例,有针对性的推出一些手机通话套餐和手机服务,实际上我们看到的99套餐、199套餐,虽然被指与单向收费有悖,但是仍有许许多多的用户选择,就是因为用户发现这些套餐,确实适合自己的通信要求,而这些套餐的时长、费率的组合都是与对过往数据的挖掘分不开的。

  

      因此我们看到对数据的所蕴藏的价值的渴望与企业竞争的需要,越来越多的企业会需要那些曾被称作“过期”的数据,虽然这些数据可能只是在进行BI的时候需要那么一两次,但就是这一两次所带来的巨大价值,促进了企业主动归档的发展。我们看到,对于企业来说,被动的消极的应付法规遵从的需求,只能够保证其“生存”,而积极的存储数据并从中挖掘价值,将保证企业的“发展”。

  

      实际上,在我们与很多企业的交流中,其中一个CIO提到,如果说到底是哪一点更吸引他们去归档数据,他会让CFO明白,让数据赚钱比让数据省钱来的更加有价值。

  

      CAS 进行有效“归档” 而不仅仅是存储

  

      就像我们所说的,归档在那些法律法规颁布之前就已经存在了,一直以来,磁带占据着归档市场的老大位置,很多企业用磁带来进行备份已经有十几年了,但是磁带有着其不可逾越的问题。

  

      首先,磁带介质的脆弱和容易丢失让很多管理员头痛不已,在谈起磁带的脆弱性时,曾经有过8年磁带销售经历的EMC的技术顾问黄斌先生深有感触,他表示,磁带存储的维护量太大,驱动器容易坏,磁带更容易坏,他曾经有一个客户的公司在写字楼,写字楼没有专用的机房,北方地区冬天有暖气,机房里机器数量很多,温度很高,45度多,在这么高的温度下磁带一个月就全坏了,因为磁带是塑料介质缠在一起,温度高就连在一起,数据就读不出来了,所以磁带很怕高温。除此以外,磁带还不能摔不能受潮,更不能接触任何的带磁性的物质。于是,很多客户每天都在小心翼翼的维护着自己的磁带。

  

      其次是读取,因为磁带的顺序写入,顺序读取特点,这就造成如果要读磁带最里面的数据,将要把整盘磁带读取一遍,而且这还是在确定数据在哪一盘磁带的前提下,否则在磁带上搜索数据将会是漫长而又痛苦的。同时,磁带读取次数也有限,因为磁带上磁粉很容易脱落,所以一盘磁带在读取了30次左右之后,就会因为磁粉脱落而不能完整的读取出数据。

  

      据EMC大中国区副总裁曹晖介绍,银行用磁带已经几十年了,但是现在数据迅速增长。在现在商业社会,如果需要查询的资料,比如会计制度要审核,根本不可能允许数据在很长时间之后才从磁带中获取。

  

      而这一切都被磁盘存储所解决,其实在很多的用户接触了磁带归档和磁盘归档之后,他们便被磁盘的高速读取和稳定性所吸引。但是我们知道,磁盘存储门类繁多,那么到底什么样的磁盘存储最适合归档呢?

  

      实际上我们谈了那么多关于磁盘存储的优点与归档的重要性,我们很难去避开一个名词,CAS。大概在五年前,EMC以先行者的身份推出了Centera系统,基于内容寻址存储(Content-addressable storage CAS)的归档产品。“内容寻址存储(Content-addressable storage,CAS)”是根据内容(而不是位置)检索存储信息的,其具有面向对象存储特征,基于磁记录技术,它按照所存储数据内容的数字指纹寻址,具有良好的可搜索性、安全性、可靠性和扩展性。于是,从2002年世界上第一个内容寻址存储 (CAS) 解决方案EMC Centera出现开始,CAS技术就被越来越多的业内专家所称道。

  

      毫无例外的,我们依旧会谈到CAS对法规遵从的突出贡献,在CAS设备中进行记录管理与普通阵列是不同的。一旦记录被存储,就不能被改变,也不能被复写。因此,记录被存储后,跟踪记录修改是没有任何意义的?D?D也就是说,存储后不支持任何形式的修改。我们一旦将对象(文件)存储在CAS中,这个对象就会受到控制,不可更改。对于大多数用户来说,一个对象就是一个文件,文件的不可更改意味着这个文件不能被复写。这个性质使它符合很多规章制度的管理需要。

  

      但是另一方面,我们仍主要从企业的“主动归档”去看看CAS带给了我们什么。黄斌先生表示,EMC Centera为代表的CAS在存储上可以说带来了第三次浪潮,CAS具有的简单管理和高可用性,帮助它大幅度降低了企业的归档管理难度。从技术角度来说,CAS和SAN、NAS在技术层面有一个最大的区别。SAN、NAS在存储文件的时候是按照地址存放文件,用户找文件的时候一定要知道它放在哪个磁盘分区的哪个目录里,否则就要搜索。而CAS没有分区、没有目录,不需要记住文件路径,只需要把数据交给CAS,CAS会生成一个数字指纹,相当于公民身分证,靠一串数字和字母组合的数字指纹来识别某一段的数据。当用户需要找这个数据的时候,只要提交数字指纹来获取数据,所以它的技术和传统的SAN、NAS是完全不同的。这样的管理性能,成为了很多SAN或NAS系统管理员被无穷无尽的分区、卷和目录所折磨时的渴望。

  

      当企业拥有简单的管理并能获得安全且符合法规遵从要求时,企业对于归档的积极性远远比单纯的被动遵从法律要高的多,据杨明轩先生介绍,从2002年EMC推出第一台CAS产品Centera开始,现在在国外已经有4000多个用户购买了将近一万台的Centera产品,萨班斯法案的立法者,美国证券交易协会就采用了Centera进行电子邮件存储管理。而在国内,青岛大学医学院附属医院是EMC的第一个国内CAS用户,虽然此前默默无闻,但是实际上其已经应用Centera两年多了。在青岛大学医学院附属医院Centera主要针对医疗行业的PACS系统,保存医院的影像数据。他表示,这种数据要采用归档的方式保存,但是这种数据并不是一种死数据,而是让医务人员能够访问的一种活跃数据,我们看到这实际上正好印证了我们此前所说的“归档的需求来源于信息的价值”,在这里,医院的价值就是可以帮助医生更快的了解病人的病情,而CAS正帮助着医院快速的访问这些数据并从中获得其价值。

  

      在现在的企业里,我们看到了越来越多的CAS归档系统,但是这些归档系统的作用已经离曾经的归档越来越远了,企业归档不再是为了归档而归档,他们正努力从归档中挖掘价值,CAS让他们可以快速的归档并快速的读取,用以支持企业的数据挖掘、知识管理和众多在线业务,数据从归档系统中被提取出来,通过敲敲打打,仔细剖析,成为了企业的竞争价值。在这种环境下,CAS焕发了青春,我们曾经说过,存储行业从来不缺少新闻和新技术,某些技术也许沉睡了几天几个月甚至几年,但是总会有一天突然出来宣告它的大旗仍然飘扬,而随着用户应用的普及,这些技术也会慢慢的再次宣告它的存在,也许内容寻址存储(Content-addressable storage CAS)就是这样一个技术。