中国电子政务网--信息化--技术--换个角度思考大数据存储问题

换个角度思考大数据存储问题

来源:比特网更新时间:2013-09-26

信息化调查找茬投稿收藏评论好文推荐打印社区分享
大数据主要涉及两个不同的技术领域：一项致力于研发可以扩展至PB甚至EB级别的大数据存储平台；另一项则是大数据分析，关注在最短时间内处理大量不同类型的数据集。这两个论题已经被充分讨论，这里不准备再作讨论，而是换个角度思考一下大数据，事实上可能与大数据存储平台更相关一点。这些需求或者思考，或源自用户模糊的需求，或源自存储同行的交流讨论，还有一些源自存储实践中的感悟。
　　什么是大数据？IDC的权威定义为：满足4V(Variety,Velocity,Volume,Value，即种类多、流量大、容量大、价值高)指标的数据称为大数据。IDC对大数据技术的定位为：通过高速捕捉、发现和/或分析，从大容量数据中获取价值的一种新的技术架构。大数据主要涉及两个不同的技术领域：一项致力于研发可以扩展至PB甚至EB级别的大数据存储平台；另一项则是大数据分析，关注在最短时间内处理大量不同类型的数据集。这两个论题已经被充分讨论，这里不准备再作讨论，而是换个角度思考一下大数据，事实上可能与大数据存储平台更相关一点。这些需求或者思考，或源自用户模糊的需求，或源自存储同行的交流讨论，还有一些源自存储实践中的感悟。
　　1、数据备份
　　信息作为现代企业的核心资产，一旦发生数据损坏或丢失，小则带来不同程度的经济损失，大则关系企业生存。因此，现在企业对重要数据备份都不得不高度重视。在大数据之前，企业需要备份的数据量通常在GB级－数十TB级之间，上百TB的数据量的企业非常之少。这些数据往往都是Oracle/DB2/SQLServer等数据库的结构化数据，以及FTP/CIFS/NFS等文件共享服务的非结构化数据，目前诸如Symantec/Falcon/CommVault/EMC/Eisoo等公司的备份系统都可以很好地满足普通的备份需求。然而当遇上大数据，它们是否仍然可以满足备份需求呢？大数据容量很容易达到数十TB级以上，数百TB甚至PB级的案例也不再鲜见，而且这些数据种类多、流量大，都是新增数据。从备份技术角度看，全备份/增量备份/差异备份的备份窗口会很大，CDP的并发I/O捕获和处理能力要超强，否则大量数据都来不及备份。从备份数据量看，备份所需要的存储空间至少生产数据量的一倍以上，这个成本是巨大的。还有重点的一点是，大数据通常都是分布式采集、存储和处理的，实现统一的数据备份对备份系统是个技术挑战。或许，大数据天然不合适采用备份技术，而需要由存储系统本身的机制来解决，诸如多版本(multi-vesion)、写新地址(WriteAnyWhere，可实现自然的快照)等。
　　2、长期存储
　　信息有生命周期，金融/商业/财务/通信/法律等很多数据都需要遵从法规保存相应年限，一些重要的科学实验数据和历史资料甚至要永久保存。大数据作为现代企业有重要价的资产，长期保存基本都是必要的，比如10－20年甚至永久。长期存储，看似很简单的事情，实际上有很多问题需要解决。几百个TB或者PB级的大数据，假设是非活动的历史数据，采用什么介质进行存储？磁盘，磁带，还是光盘？采用离线还是近线方式？如何监控巨大数量存储硬件设备的状态？采用什么方法来保证海量数据的完整性？如何发现长期存储中的问题并修复？需要的时候如何简便快速地查询和获取数据？另外，还需要考虑存储所占用空间和能耗问题。面对这些问题，我们就会发现大数据长期存储也是一个很大的挑战，一方面需要提高存储介质的持久性、智能性、可靠性等，另一方面需要信息生命周期管理系统进行完善的管理和监控。
　　3、数据查询
　　数据访问是存储系统最基本的功能之一。传统的数据访问方式，都是根据文件名来定位和访问数据。文件名标识具有一定的表意性，但非常不足，很难通过文件名对数据本身的内容和特征进行理解。这种查询访问语义非常差，需要用户给出准确的文件名，否则就无法进行定位和访问。随着文件数量的不断增加，它将给用户对数据的访问带来很大的困难。现实世界中，人们主要根据事物的特征记忆和区分不同的事物，而非简单的名字。在实际应用中，如果能够提供基于文件属性和内容的数据访问方式，丰富的语义将会极大地增加数据的表意性，从而大大方便用户的使用，提高数据访问效率。Internet中，用户在Web搜索引擎（如Google，Baidu）中输入内容关键字就可以查询到自己想要的数据。数据库系统中，使用SQL语言查询记录，可以指定相关条件对查询记录进行筛选。由此可见，与传统的数据访问方式相比，基于数据内容和属性的数据访问方式具有很强的语义，能有效提高数据定位和访问效率，可以很大程度上降低用户的使用复杂性，适合于各种数据存储系统，尤其是分布式存储系统。目前，自然语言处理和WEB语义网络都有了长足的发展，大数据管理中如何能实现基于语义的数据访问方式，不仅可以提高了查询效率，而且符合人们的思维模式，能够提供更加友好的数据访问界面。
　　4、绿色归档
　　由于法规遵从或长期存储的需要，数据根据生命周期管理需要进行归档处理，采用方法有磁带归档、磁盘归档、光盘归档、CAS系统归档等。大数据数据量大，如果采用磁盘介质进行归档，磁盘数量会很多，正常工作下能耗也是相当可观。为了降低能耗实现绿色归档，同时有效延长磁盘使用寿命，需要考虑相关高效存储技术，包括MAID、SemiRAID、数据压缩、重复数据删除、自动精简配置等。这些技术主要从两个方面着手，一是精减数据量以减少磁盘介质达到降低能耗的目标，如数据压缩、重复数据删除、自动精简配置，二是控制磁盘介质状态(高速、低速、停止)或减少活动磁盘数量来实现降低能耗和延长寿命，如MAID和SemiRAID。SNIA相关组织专门研究绿色存储技术，包括提到的上述各种技术。
　　5、统一存储
　　大数据种类多，涵盖了结构化数据、非结构化数据以及对象数据，分别采用数据块接口、文件接口和对象接口进行访问。目前的大多数企业还没有将三者统一起来，采用不同的存储系统来管理这三类数据，在大数据快速增长的压力下，带来存储利用效率低、管理复杂性高、成本不断提升、资源整合程度低等一系列问题。在这些因素驱动下，统一存储概念得到复兴，SAN/NAS统一存储得到各大存储厂商推崇并相继推出产品，对象存储也有望被一同整合到统一存储中。如此一来，就可以使用统一的存储来管理大数据，统一规划和整合资源，提高存储资源利用率，简化管理和降低总体成本。
　　6、存储介质寿命管理
　　大数据存储系统具有成千上万块磁盘很常见，可能包括FC、SAS、SATA磁盘，还有可能包括SSD固态硬盘和磁带等存储介质。这么大数量的存储介质，每天坏上一两块盘的概率是非常的，不可控制的故障发生会影响前端大数据应用。存储介质的使用年限都有标准，可以基于此进行存储介质寿命管理，结合实际环境进行适当调整，并根据存储介质运行状态进行分析和故障预测。当存储介质使用寿命即将到达，或者预测到故障即将发生，则主动通知管理员对存储介质进行更换，之后有系统自动进行数据重建。如此，可以有效降低存储介质发生故障的随机性，增强故障的可管理性，再结合人为的调度，就可降低或者避免故障发生对大数据应用的影响。
　　7、磁带存储
　　一直都有人在预测磁带已死，不过可惜的是，直到目前这个预测还没有成真。
　　相比磁盘，磁带具有成本、寿命、能耗等特性和优势，另外磁带技术本身也在不断发展，比如新一代LTO5的磁带写入速度达到180Mb/s，未压缩容量提升至1.6TB，保证磁带仍然是最适合做为长期的数据归档保存之用，这些特性是磁盘所无法取代的。关于磁带在大数据中的使用，最为典型是做数据归档，比如上面谈到的长期存储和绿色归档，这里面的数据基本不会被访问。另外还有一种形式是分级存储HSM，磁带、磁盘、SSD固态硬盘、内存形成四级存储，数据按照活跃程度在不同级别存储介质之间流动，以实现较高的性价比。HSM中位于磁带的数据会被访问，只是频率和概率非常低。由于磁带自身的优势以及不断发展，它可能不但不会消亡，反而会在大数据时代重获新生。