传统容灾系统的实现
传统数据容灾系统有两种典型的实现方式:一种是基于磁盘阵列的容灾实现,比如IBMPPRC、EMCSRDF、HDSTruecopy等;另一种是基于主机的容灾实现,例如Veritas VVR等。
对于具体的容灾解决方案,可以有同步容灾和异步容灾。同步容灾具有更高的数据一致性,发生灾难时数据损失量最少,但代价最高,并且对中间的网络链路和容灾节点的设备配置有很高的要求,一般只能在几十公里的范围内实现。相对而言,异步容灾实现方便,可以承受的物理距离比较远,甚至可以达到上千公里的容灾,但数据的损失会比较大。当然,对大多数的电信行业、银行等关键业务系统,一般都采用同步容灾。
SAN是传统容灾基础平台
典型的容灾系统都是基于SAN(存储区域网络)实现的,SAN已成为容灾体系的基础平台。特别是在中国的电信行业,基于SAN的容灾已经获得大面积应用和推广。SAN在满足容灾系统的基本要求方面具有如下的优势。
SAN的远距离连接能力
传统的存储与服务器通常是一个连体婴儿,存储往往是服务器的一个附属品。但近年来随着数据量的爆炸性增长,数据重要性的日益增加,存储慢慢从服务器内部解放出来,实现了存储和服务器通过通道模式,比如SCSI、SSA等的直连,这称为直接访问存储(DAS)。DAS的连接距离有很大限制,比如传统的SCSI,最大连接距离只有25m(理论值,实际连接距离更小)。因此,如何摆脱连接距离的限制成为存储技术发展的重要一环。SAN技术应运而生。
SAN技术可以通过单模光纤实现最远10km的连接,如果配合SAN交换机技术(如Brocade交换机上的ExtendedFabric软件)和DWDM/CWDM等技术的使用,存储的连接距离可以扩展到上百公里,为城域数据的容灾提供了可靠的保障。
SAN的高容错机制和高可用性
SAN是专门为大型的高可靠性存储而设计的网络平台,因此,从诞生的第一天起就具有容错能力和高可用性。SAN交换机考虑了容错能力,比如SAN交换机本身的电源、风扇甚至控制卡的冗余设计;SAN网络的设计也基于冗余的基本思想,比如弹性Fabric设计、双Fabric的SAN网络设计等。这些都将保障数据访问路径的可靠性。
当然,为了配合多路径访问的需求,主机上也需要相应的模块配合,比如VeritasDMP、IBMSDD、EMCPowerpath、HDS HDLM等软件,都是用来支持双Fabric的SAN网络设计的,可以用来配合主机对存储的识别,实现从主机I/O接口卡即HBA到存储阵列安全、可靠的访问。
传统容灾系统存在的问题
SAN网络融合的挑战
传统的基于SAN的容灾系统,由于存在生产节点和容灾节点的存储网络可能不是同时建立、涉及的SAN网络产品可能来自于不同的厂家、生产节点和容灾备份节点之间的距离可能比较远等因素,因此,在远距离容灾SAN网络的搭建上存在难度。
SAN网络的融合并不是拿一根光纤将两个交换机连接起来那么简单,需要考虑到很多环节。如果生产节点和备份节点的交换设备来自于不同厂家,当它们需要融合为一个网络时,这个单一的SAN网络到底应该由哪个厂商来支持,将成为一个现实难点。如果两边网络具有的某些参数需要调整的话,在技术上的难点也不容忽视。就目前已经被各大OEM广泛采用的Brocade交换机来看,尽管集成Brocade交换机的不同厂家的产品在互联上是没有问题的,但会面临某些参数需要调整的情况,比如,为了维持不同版本的兼容性,CorePIDformat或DomainID参数可能需要调整,这就意味着交换机的端口地址发生变更。对于Windows机器来说,交换机端口地址的变更不会对其产生影响,但对于UNIX操作系统来说,通常是通过交换机端口地址的绑定来增加安全性和可靠性的,如果交换机端口地址发生变更,必将重新生成磁盘的设备文件等,这不仅需要各厂家的配合,也增加了融合的时间和风险。
整体SAN网络稳定性的挑战
建设容灾SAN网络必须考虑的另外一个重要问题是,中间链路的可靠性和稳定性。几十公里甚至上百公里的链路稳定性会直接影响整个容灾系统的稳定性。由于传统的SAN网络中没有路由的概念,因此无论中间的链路有多长,连接起来后都将形成单一的Fabric,而每一个Fabric中只能有一个主交换机(PrincipalSwitch),负责整个Fabric的事件协调和冲突检测。如果中间链路发生短暂的中断,整个网络就自动分裂成两个独立的Fabric,就会发生主交换机的重新选择,并且出现Fabric的重新配置(FabricReconfiguration),而这将造成生产节点和容灾节点的业务数据流停顿或中断,这是很多用户不能接受的。但缺乏路由的传统SAN网络就是这样的特性,SAN标准中也是这样定义的。
随着SAN网络的变大,网络中的广播信息如寄存器状态变更通知(RSCN)等也会影响网络的稳定性。在任何SAN网络中,根据发生事件的不同,Fabric控制器都会根据需要发送RSCN通知,从而保障Fabric中的所有设备了解最新的变更。由于有些设备对RSCN非常敏感,可能会发生服务中断,因此,所有SAN交换机都试图将RSCN控制在最小的范围内。但是某些RSCN必须发送到整个Fabric,这就意味着Fabric越大,风险越大。同时,SAN交换机直接连接距离越远,风险也越难控制。
容灾成本的挑战
由于传统的基于光纤的容灾链路(DWDM/CWDM/SDH/裸光纤等)价格昂贵,同时,容灾涉及的连接设备/技术的价格也居高不下,因此,造成了容灾只适用于大型用户,中小型企业只能望而却步,变“需要容灾”为“躲避容灾”。这大大限制了容灾技术的推广和向更广泛领域的发展。
现代容灾体系设计新突破
现代容灾系统不仅在技术上有了很大发展,同时在成本上也越来越走向平民化。这使得中小企业可以建设自己的容灾网,或通过将来的城域容灾中心实现数据容灾。
SAN路由技术成为容灾体系核心组件
光纤通道SANFabric间路由技术(以下简称SAN路由技术)是SAN技术发展的一个巨大突破,填补了传统SAN技术在扩展和远距离延伸方面的空白,使传统SAN容灾网络面临的挑战迎刃而解。SAN路由技术把生产SAN网络和容灾SAN网络连接起来,同时又能使每个Fabric保持相互的独立性,直接避开了SANFabric融合带来的所有风险和障碍。随着SAN路由产品推向市场,SAN路由技术已经成为容灾系统的核心组件。典型的现代容灾体系架构如图1所示。
SAN路由技术给容灾系统带来了如下好处:(1)光纤通道到光纤通道的SAN路由技术实现了SANFabric间的无缝连接。在连接不同的Fabric交换机时不要求对现有的参数做任何修改,避免了更改参数带来的风险。同时路由器的接入不会对正在执行的I/O造成任何影响,简化了容灾SAN网络的建设。(2)SAN路由器在保持不同Fabric相互独立性的同时,实现了Fabric间的某些资源选择性共享,提高了生产节点和备份节点资源共享的可管理性,提高了容灾SAN网络的可靠性和稳定性。(3)SAN路由技术突破了239台光纤通道交换机/Fabric的限度,使得大规模SAN网络成为可能。(4)SAN路由技术极大降低了对不同厂商的SANFabric服务提供支持的难度。
FCIP技术使容灾平民化
随着宽带网络的普及,如何利用宽带网络来实现SAN网络的远距离互联成为一个热门话题。FCIP(基于IP的光纤通道)隧道服务技术由此产生。FCIP刚开始被用来实现广域的SAN网络连接,比如上千公里的容灾系统的建造,但随着它投资小、实施便捷等优点逐渐为大家所认识,又成了中小企业实现城域容灾的最佳选择。FCIP可以利用IP宽带网络,延伸光纤通道SAN的距离,实现容灾SAN网络的互联。
图2是典型的基于FCIP的多点容灾架构。网络使用的BrocadeFCIP隧道服务具有两个的特点:一是与交换机完全集成。与需要外部网关的链路相比,部署和管理集成到交换机中的FCIP链路更容易、更经济,而且机架占用空间更小。二是SAN路由器可以实现SAN路由与FCIP的集成。一个端口既是进入骨干Fabric的E_Port,又是一个FCIP端口,这可以防止WAN链路上的故障影响整个MetaSAN的事故。这点很重要,因为跟光纤通道网络相比,IP网络和WAN的可靠性一般更低一些,不稳定的WAN链路可能会干扰骨干Fabric,因此,如果将这些干扰与所有边缘Fabric隔离开,那么,除了实际穿越不稳定WAN的那些主机/存储设备“对话”之外,没有别的主机/存储设备“对话”会受到影响。
FCIP和SAN路由技术的结合,最适合于校园网和拥有完整带宽的中小企业,可以提供其稳定可靠、价格低廉的容灾平台。因此,该技术已经逐渐成为容灾平民化的重要推动力。
城域容灾中心推动容灾技术的普及
FCIP隧道服务的引入,虽然大大降低了容灾成本,但管理的复杂性、系统设计和远距离容灾节点建立的成本等因素,仍然让很多用户无法享用容灾的好处。因此,国内外的一些政府机构或电信企业都在考虑建立城域容灾中心来普及容灾技术。在进行城域容灾中心设计时,必须考虑各个数据中心的现状,采用各种接入技术。具体如图3所示。
SAN接入技术
对于需要实现同步容灾的系统,如社保、医保系统或一些中小型企业的关键业务数据,必须保证主中心的数据和容灾中心的数据同步,从而确保一旦主中心的数据系统发生故障,容灾中心能够确保数据的完整性。另外,对于需要大容量备份的系统,依然可以通过SAN网络来确保备份的高效和稳定。为此,建议采用如下的3种接入技术:(1)DWDM/暗Fibre接入。通过高速的DWDM/暗Fibre直接接入容灾中心的SAN网络,可以满足客户数据和容灾中心数据完全同步的需求,确保数据的一致性和灾难发生后的快速恢复。(2)SANIP接入(FCIP)。如果用户的IT中心已经拥有SAN架构,但不能提供DWDM/暗Fibre等的高速接入界面,也可以通过已搭建的快速以太网接入容灾中心,从而充分利用现有资源,确保系统的可靠性。(3)SAN iSCSI(基于IP传输的SCSI)接入。如果用户IT中心没有SAN架构,或者仅能提供iSCSI等接入界面,则可使用iSCSI接入技术,确保低成本,同时又可享受SAN网络的好处。
城域IP接入
对于没有建立SAN网络的用户,建议暂时采用远程WAN连接到容灾中心。一旦有进一步的需求,需要升级到SAN连接,只要客户提出申请,由城域容灾中心将客户的连接转移到FC路由器就可以轻松享受SAN的IP互联。当然,如果客户需要转移到高速的SAN连接,必须向电信公司申请或自己铺设DWDM/暗Fibre连接线路,然后由城域容灾中心将客户的连接转换到高速SAN网络。具体的接入方式可以是ISDN、ADSL、DDN、GigabitEthernet、ATM或FR等,这些接入方式可以一起称做城域IP接入。
各种接入方式的对比
表1对上面提及的4种接入方式进行了对比。不同的接入方式、不同的带宽能力,将决定采用的容灾方式和容灾能力,应该根据实际情况和投入能力来决定最终与容灾中心的连接方式,不能一概而论。当然,从容灾中心的建设角度来讲,这些接入模型已经可以满足各种终端用户的需求,可按需进行适应和调配。
容灾在电信业的应用
对于电信企业来说,数据容灾已经随着企业信息化进程而融入了电信企业运营的血液中。假如发生了数据的丢失,特别是计费数据和CRM数据等,损失将是惨重的。实际上,中国的某些电信运营商曾经为数据丢失而痛心疾首过。但是,由于技术和成本等方面的制约,电信的某些业务或某些企业以前一直在容灾门前徘徊。随着容灾技术的进步,特别是SAN路由技术的推出、FCIP与路由技术的完美联姻,容灾已经不再遥不可及,国内的很多电信企业已经纷纷着手打造全面的容灾系统。
图4是联通某分公司的容灾架构,是电信企业典型的容灾体系。该容灾体系的建立可为电信企业带来了如下的好处:(1)通过DWDM/暗光纤建立快速的容灾网络,实现生产中心和容灾中心数据的实时同步,保障了灾难发生时数据的完整性;(2)引入了SAN路由技术,实现了生产中心和容灾中心逻辑上的隔离,同时部分设备的共享大大提高了容灾系统的稳定性和可靠性;(3)通过SAN广域连接技术,轻松实现跨地域容灾,保障了容灾系统对灾难抵御的完整性;(4)对某些可靠性要求相对较低的数据,可以采用FCIP和SAN路由的结合来作为传输链路,这大大降低了总体的容灾成本,也符合大家倡导的信息生命周期(ILM)的思想;(5)通过SAN路由技术的引入,大大扩展了SAN的扩展能力,为将来全国容灾的整合打下了良好的基础,同时保障了现有投资的有效性。
容灾技术的未来
目前的容灾系统大多基于磁盘阵列而实现。近两年被业界炒得沸沸扬扬的是存储应用的网络化概念。大家希望通过存储应用的网络化来降低存储本身的压力,充分发挥存储网络的能力,这是一个发展趋势。当然,将存储应用(比如数据复制/镜像应用)迁移到存储网络上来,还可以大大减少不同厂商之间存储的互操作性,让用户有更多的选择余地。很多公司正在朝这方面进行努力,如Brocade公司已经开发了FAP7420存储应用平台等,但这些产品离真正商用,还需要时日。
到目前为止,城域容灾中心还只是一个理想模型,要建立真正的城域容灾中心,需要整个社会的参与和相应法律条款的支持,没有这些基本的保障,城域容灾中心将无法生存。因此,现在对容灾立法的呼声越来越高。许多国家在这方面已经先行一步,比如:韩国政府规定,银行、电信、证券、保险等行业必须在灾难发生后3小时内恢复商务功能;英国政府从2003年开始筹备具体的立法细则,约束关键业务部门建立良好的容灾体系。在此推动下,我国某些地方政府也开始探讨容灾的实施方式,这些都为建立大型的容灾中心来提供对外服务起到推波助澜的作用,也为电信企业实施容灾找到了更多支持。只有城域容灾中心的建立,才意味着城域容灾技术的真正普及。