保险公司灾备系统建设浅析
来源:国保险报 更新时间:2012-04-14

  为提高IT系统的可靠性,IT系统的容灾建设已相当普遍。随着许多企业实施业务系统大集中,针对IT系统的高可靠性和容灾能力的需求日渐突出。

  对于保险公司来说,其数据的安全性以及业务的连续运营的要求更高。虽然各保险公司十分重视灾备系统的建设,陆续完成了基本容灾系统的IT基础架构建设,但如果没有相应的灾难恢复计划,也没有针对灾难发生后的应对、决策、详细的灾难恢复步骤,容灾系统将难以发挥真正功效。保险业越发展,数据“保险”越重要。相信在保监会的政策支持和引导下,越来越多的保险公司终将为核心业务数据找到安全的容身之所,为保险业安全持续运行提供重要保证。

    灾备是灾难备份的简称。它就是说利用技术手段、管理手段,或者任何可以获取的管理资源,来确保一些关键的数据和处理关键数据的手段,以及关键的业务,在灾难发生以后可以尽可能多、尽可能快地恢复的这么一个过程。灾备的目的就是要确保关键的业务能够持续不断地运行,尽量的减少非计划的宕机时间。

  保险公司灾备系统重要性

  随着保险公司业务的飞速发展,海量的业务数据对IT系统的依赖性也随之增加,而数据处理的高可靠性和系统可用性就尤为关键。一旦IT系统运转异常甚至崩溃,将直接导致异常严重的后果,相关的责任方不但会被追究责任,整个企业也要承担由此引发的相应损失。

  这些损失包括:

  数据丢失:一旦数据由于某种原因永久性丢失,不但会给企业的运作带来极大的困难,企业的商业信誉也必将受到致命的打击,在当今社会,商誉已经是越来越重要的企业战略资源,商誉的受损会使企业在竞争中处于劣势,造成难以弥补的恶劣影响。特别是对于保险公司这种以商业信誉为生存条件的金融机构。

  服务滞后:IT系统在由种种原因导致的系统不可用情况下,对于依靠IT系统对客户进行快速、全面服务工作的企业成员来说,是一个极大的打击,很多营销工作因此失去宝贵的客户资源,而已有的客户资源也可能因此流失。

  决策失准:由于只有依靠IT系统才可以迅速汇总统计企业所有数据,因此如果由于系统不可用,将导致决策人员不能及时得到期望的数据结果,而在瞬息万变的现代社会,决策的失准将浪费企业宝贵的机会。

  在信息化系统高速发展的今天,如何保证数据安全和IT系统故障下的及时恢复已经成为每个保险公司业务体系稳定运行的基础。灾难备份系统就是基于上述问题的最佳解决方案,灾难备份系统是在企业IT系统发生故障甚至崩溃时,能迅速地将企业IT系统恢复到可用状态的辅助IT系统。它可以保证企业IT系统在由各种原因引起的系统崩溃条件下,最大限度地保护企业资源,最快速地使企业重新开展各项工作。

  对于导致IT系统崩溃的灾难,我们分为两类,第一类是不可预料错误导致的IT系统故障和崩溃;第二类是不可抗力下的严重自然灾难导致的IT系统不可用。

  (1)第一类灾难通常是指IT系统本身存在的错误或人为错误,比如系统设计失误,人为误操作等原因导致的事故,影响到了IT系统数据安全和导致系统不可用。对于第一类灾难,灾难备份系统可以迅速恢复系统状态到错误发生前,保证系统平稳运行。

  (2)第二类灾难则指发生严重自然灾害情况下,如地震,海啸,台风等严重自然灾害导致的IT系统硬件损毁而使IT系统不可用和数据丢失情况。对于第二类灾难,灾难备份系统可以保证在发生计算机系统灾难后,在远离灾难现场的地方重新组织系统运行和恢复数据。

  上述两种灾难将不可避免地会发生在企业和企业使用IT系统上,所以IT系统灾难备份就显得十分重要。灾难备份系统可以减少甚至避免灾难对IT系统造成的影响。灾难恢复的目标:一是保护数据的完整性,使业务数据损失最少甚至没有业务数据损失。二是快速恢复运行,使业务停顿时间最短甚至不中断业务。

  灾备技术系统的建设

  灾备技术中,核心的内容包括:存储技术、灾备体系结构技术和信息安全技术。

  存储技术是灾备系统的基础。存储技术是对海量数据进行备份的技术,它由存储设备和相应的软件存储技术组成,存储设备包括,磁带,磁盘,光盘等为存储介质的硬件设备,存储技术随着科技的发展,已经发展的日新月异,现在最主要使用的是网络存储技术,通过局域网甚至广域网将数据和存储介质结合。

  灾备体系结构技术包括系统容错技术、数据恢复技术、系统恢复技术、业务连续性服务。

  灾备信息安全技术主要用于保障数据在存储与传输过程中的安全性问题、网络系统的可靠和安全连接问题、计算机系统的安全性问题、使用用户的身份安全问题和系统操作的不可抵赖性问题等。其核心包括:数据安全性技术、网络安全技术、系统安全技术、身份安全技术、安全审计技术。

  灾备系统建设应从以下几个方面着手:

  1.建立负责灾难备份系统的专门机构

  首先,要建立灾难备份系统的专门机构,由专门机构提出灾难备份方案并管理和实施这个系统。灾备系统方案应由董事会或高级管理层决策,并指定高层管理人员组织实施。由科技、业务、财务、后勤支持等灾难备份相关部门组成专门机构进行后续管理。

  2.灾备系统需求分析

  专门机构建立以后,就要分析灾备需求。重要的信息系统灾备需求包括:对数据处理中心的风险分析,对业务进行分析以及确定灾难恢复目标。

  3.灾备系统方案确立

  灾备方案主要分为7个等级,企业选择哪一级灾备方案,要根据其业务对IT依赖的程度,如什么样的数据必须在多长时间内恢复、哪种业务能承受多大的数据丢失等,要分析清楚各种业务的实际需求。

  (1)等级零:无异地备份。

  (2)等级一:备份介质异地存放。

  (3)等级二:备份介质异地存放及备用场地。

  (4)等级三:备份介质异地存放及备份中心。

  (5)等级四:定时数据备份及备份中心。

  (6)等级五:实时数据备份及备份中心。

  (7)等级六:零数据丢失。

  基于灾备需求分析,一个完整的灾备方案的设计将涉及各个灾备等级的使用,并且综合考虑技术手段、投资成本、管理方式等方面的因素,提出数据备份方案、建设备份处理系统,灾备中心、并制定相应规程和管理制度。

  4.实施灾备方案

  按照所制定的灾备方案,完成灾备工作。实施过程中,要严格灾备方案的要求和内容进行。落实相关的规章制度、应用灾备方案、建设和运行灾备中心。目前比较实用的的数据备份方式可分为:本地备份异地保存、远程磁带库与光盘库、远程关键数据%2B定期备份、远程数据库复制、网络数据镜像、远程镜像磁盘等六种。

  (1)本地备份异地保存:是指按一定的时间间隔(如一天)将系统某一时刻的数据备份到磁带、磁盘、光盘等介质上,然后及时地传递到远离运行中心的、安全的地方保存起来。

  (2)远程磁带库、光盘库:是指通过网络将数据传送到远离生产中心的磁带库或光盘库系统。本方式要求在生产系统与磁带库或光盘库系统之间建立通信线路。

  (3)远程关键数据%2B定期备份:本方式定期备份全部数据,同时生产系统实时向备份系统传送数据库日志或应用系统交易流水等关键数据。

  (4)远程数据库复制:在与生产系统相分离的备份系统上建立生产系统上重要数据库的一个镜像拷贝,通过通信线路将生产系统的数据库日志传送到备份系统,使备份系统的数据库与生产系统的数据库数据变化保持同步。

  (5)网络数据镜像:是指对生产系统的数据库数据和重要的数据与目标文件进行监控与跟踪,并将对这些数据及目标文件的操作日志通过网络实时传送到备份系统,备份系统则根据操作日志对磁盘中数据进行更新,以保证生产系统与备份系统数据同步。

  (6)远程镜像磁盘:利用高速光纤通信线路和特殊的磁盘控制技术将镜像磁盘安放到远离生产系统的地方,镜像磁盘的数据与主磁盘数据以实时同步或实时异步方式保持一致。磁盘镜像可备份所有类型的数据。

  5.制定灾难恢复计划

  其主要目的是规范灾难恢复流程,使重要的信息系统在灾难发生后就能够快速地恢复数据处理系统运行和业务运作,同时可以根据灾难恢复计划对其数据处理中心地灾难恢复能力进行测试,并将灾难恢复计划作为相关人员培训内容之一。

  6.保持灾难恢复计划持续可用 在灾难恢复计划制定以后,为保证计划的可用性和完整性,需要制定变更管理流程,定期审核制度和定期演练制度。

  灾备系统评价标准

  灾备系统主要有四个指标评价:分别是RTO、RPO、DOO和NRO。

  RTO是恢复时间目标,这个指标就是容灾恢复的时间指标。它的含义就是说从灾难发生造成的业务中断,一直到使业务能够以继续恢复所需要的这段时间。因此可以看出,如果RTO越短就意味着这个容灾系统的容灾能力越强。

  RPO就是所谓的恢复点目标。什么是恢复点?恢复点是宕机以后数据开始恢复的时间点,RPO所对应的灾难,所造成数据丢失情况,我们可以这样来看,如果RPO等于零,换句话来说,也就相当于没有造成数据丢失。因为从什么地方跌倒,就从什么地方爬起来,就没有造成数据本身的丢失,当然对其他可能还是有损失的。否则的话就需要对业务进行恢复处理,需要对丢失数据进行修复。

  第三个指标DOO,就是降级操作指标,这个时候它主要考虑宕机恢复以后到第二次故障的灾难以后的时间。

  第四个目标NRO,就是网络恢复的目标,主要是考虑网络恢复的时间。那么一个信息系统的灾备,它的结构怎么来描述呢?那么在信息领域里面,灾备系统可以描述为四大块:那么哪四大块呢?它其实是一个以存储系统作为基本的支撑,以网络作为基本的传输,以容错的软件、硬件技术作为直接的技术手段,以管理技术作为重要的辅助手段,这么四大块所组成的一个综合系统。