来源:计算机光盘软件与应用 更新时间:2013-01-10
进入21世纪,人类进入了一个信息爆炸的时代,为了处理过于庞大的数据量,云计算的概念应运而生。文章第一部分对云计算和云存储的概念进行介绍;第二部分描述云存储在云计算中的作用;第三部分主要分析云存储对于云计算的安全性的影响;第四部分分析云存储与云计算高效性之间的关系;第五部分对云存储的未来进行展望。
一、云计算与云存储
云计算是将各种计算资源和商业应用程序以互联网为基础提供给用户的计算服务,这些服务将数据的处理过程从个人计算机或服务器转移到互联网的数据中心,将IT技术外包给云服务提供商来减少用户在硬件、软件和专业。
同云计算的存储即服务(storage-as-a-service)的概念类似,云存储专注于向用户提供以互联网为基础的在线存储服务。用户无需考虑存储容量、存储设备类型、数据存储位置以及数据的可用性、可靠性和安全性等繁琐的底层技术细节,只用根据需要付费,就可以从云存储服务提供商那里获得近乎无限大的存储空间和企业级的服务质量。从目前典型的云存储系统来看,云存储统由位于互联网上的大量存储资源以及将这些存储资源组织为可供用户透明访问的资源池的一整套资源管理与访问控制技术所组成。
二、云存储在云计算中的作用
云计算系统主要分为三个部分:云服务(cloud service),云计算(cloud computing),云存储(cloud storage)。云计算部件主要通过利用节点的计算能力来计算用户提交的数据,最后将满足用户要求的数据返回给客户,同时客户也可能需要将数据存放在云存储部件之上。云存储是云计算的基石,云计算所需的数据需要从云存储上获取,同时云计算的计算结果也需要存储在云存储之上。另外云存储还需要为云服务提供数据存储服务,同时云服务中的很大部分需要依靠云计算的计算能力。
三、云存储与云计算的安全
(一)云计算的安全性隐患
云计算给人们带来了方便,人们可以随时实地通过网络访问自己的数据,避免了传统的工作地点固定的弊端。但是云计算自身也存在着一定的安全隐患,因为核心是处在一个用户所不知道的位置。
1.数据方的公信力问题
云计算模式下,用户需要把自己的业务数据、IT业务流程等核心资源保存在第三方,并且由于虚拟化,用户并不清楚这些资源被实际存储在何处。这种情况下,需要云服务提供商具备相当的公信力,才可能让用户采用这种模式。
2.数据的访问控制
用户的数据存放在第三方,我们不能确定数据的信息会不会被第三方的服务商所利用。这个时候我们担心的问题就是这些资料是不是只能我们自己使用,而别人没有丝毫的访问权限,这个问题不能单单的依靠服务商的职业道德来保证,下面要讲的密钥手段可以避免此类事件的发生。
3.网络安全性
有网络的地方就会有病毒、木马。如果服务端受到感染,会造成不可估计的损失。对于这个问题,业界提出的应对之策是,采用云计算技术,对网络中的客户端软件异常行为进行监测,获取恶意程序信息,上传至服务器进行自动分析和处理,然后把病毒和木马的解决方案分发到客户端。
(二)云存储的安全性保证
1.多副本策略
云存储起始于Google发布的Google File System。Google的分布式文件系统构建在大量的廉价的机器之上,系统需要忍受硬件的失效,所以硬件失效在分布式文件系统中是允许的。如果某一个硬件机器失效,那么存储在该台机器上的数据是无法访问的,为了防止数据的丢失和为保证数据安全性,可以采取多副本策略。每个数据块在整个集群之上有多个备份,备份的数量可以有用户自己决定。这些备份根据系统的分布情况分布在不同的物理位置,防止一个节点失效导致多个备份无法访问。
2.密钥策略
通常的云存储是通过服务的方式由第三方提供给用户使用,用户不知道自己的数据存放在何处,这个时候对数据是否被别人使用就用了一重疑问,为了消除用户方的顾虑,我们可以通过加密的方式来实现。用户通过一定的加密手段来对数据加密,加密的密钥由用户自身掌控,第三方无法直接访问到用户的数据,访问时用户通过自身的密钥来访问对应的数据块。
3.数据的差异性保存
云存储出来之前,用户的数据都是存储在自己的私有服务器中,为了数据的安全性,数据的保密等级是必不可少的。这种策略可以运用到云存储上面,将关键的数据由用户自己保存,剩下的通用型的数据存放在云上,这样在私有存储和云存储上找到一个折中,可是使安全性和实用性都得到一个很好的保证。
四、云存储的高效性保证
云存储中关于数据的操作主要有写数据,读数据,数据同步和负载均衡四个方面
(一)数据的写入
在原始的数据写入策略中,用户需要确认写入数据的确切位移,而且对同一个数据的写入而言是串行的,很明显在分布式中这是不合适的,每时每刻系统都面对着巨量的访问,原始的写入策略需要精密的锁控制,严重的影响了系统的性能。
GFS提供了一种原子的数据追加操作–记录追加。使用记录追加,客户机只需要指定要写入的数据。GFS保证至少有一次原子的写入操作成功执行(即写入一个顺序的byte流),写入的数据追加到GFS指定的偏移位置上,之后GFS返回这个偏移量给客户机。这类似于在Unix操作系统中,对以O_APPEND模式打开的文件,多个并发写操作在没有竞态条件时的行为。这种并行的写入策略极大的提高了系统的性能,在分布式领域中有着广泛的运用。
(二)数据的读取
数据的读取形式分为大规模的流式读取和小规模的随机读取。大规模的流式读取通常一次读取数百KB的数据,更常见的是一次读取1MB甚至更多的数据。小规模的随机读取通常是在文件某个随机的位置读取几个KB数据。如果应用程序对性能非常关注,通常的做法是把小规模的随机读取操作合并排序,之后按顺序批量读取,这样就避免了在文件中前后来回的移动读取位置。同时在读取数据时如果数据块儿过大还可以通过分块儿的并行数据读取方式来获取数据。