——深圳国税同城异址灾备项目建设实践
内容提要:税收信息化的高速发展,积极推动了税收征管和纳税服务的发展。国家税务总局提出的"信息管税"工作思路,更进一步肯定了信息化建设的地位和作用。随着信息技术的发展,目前税收业务系统已经逐步实现省级集中,业务数据的存储和管理也已高度集中。如何增强系统运行的稳健性,提高数据存储保管的安全性,是当前信息化建设必须面对的问题。本文旨在通过深圳国税同城异址容灾项目建设的实践,探讨省级国税系统如何在总局金税工程三期统一规划下开展本地容灾建设工作。
关键词:金税工程三期 省级 容灾备份
信息技术的快速发展和社会信息化建设力度的不断增强,对信息数据的完整性和系统运行的持续性提出了更为严格的要求。信息数据海量增长、信息系统支撑的业务高度集中和信息存储网络化不但使得信息数据的重要性日益凸显,同时也加大了各类风险的发生概率和信息资产的脆弱程度。一旦遭受水灾、火灾、地震、战争、恐怖袭击等大型灾难,正常社会秩序受到冲击,各种矛盾和冲突必将产生,后果严重,比如经济损失、社会动荡、政府失效等。对于公众机构,如何在威胁面前保护信息化的资产,提供不间断的政府服务是当局者需认真考虑的问题。近几年,随着我国税收信息化工作的深入开展,主要核心业务系统已经逐渐实现省级集中,税收征管、纳税服务、行政后勤等主要税收工作的集中程度大副提高。如何保障省级数据中心持续、稳定运行已经引起高度关注,容灾备份建设已经成为当前税收信息化的重点工作之一。
一、容灾备份的发展状况
容灾备份技术于上世纪七十年代中期在美国起步,随着银行、证券、保险和政府等各部门对容灾备份需求的增加而得到迅猛发展。到1999年,美国市场共有31个容灾备份中心服务商,为金融、政府部门的不同客户提供服务。美国"9.11恐怖袭击事件"后,大量设在世界贸易中心的大型投资公司由于丧失重要信息数据,被迫倒闭、破产。经历这次恐怖袭击事件后,容灾备份技术更受瞩目。2001年底,容灾备份调查公司Globe Continuity Inc.对美国、英国、澳大利亚及加拿大共565个大型公司使用容灾备份中心的情况进行调查,发现有71.2%的公司使用了容灾备份中心。在市场开发方面,也出现了更多的容灾产品,其产品功能、存储技术和备份技术有了突破性的发展,能够支持和实现更多级别的数据和应用容灾,性价比方面也有了更大的提升。
在我国,容灾备份工作同样受到各行业、各部门、各级政府的高度重视。2003年,在《国家信息化领导小组关于加强信息安全保障工作的意见》中,国务院明确提出:各基础信息网络和重要信息系统建设要充分考虑抗毁性与灾难恢复,制定和不断完善信息安全应急处置预案。为落实国家信息化领导小组关于加强信息安全保障工作的要求,国务院信息办会同有关部门在大量调查研究的基础上,组织起草了《关于做好重要信息系统灾难备份工作的通知》,对做好国家重要信息系统灾难备份工作的目标、原则和近期任务提出了明确要求。2004年10月开始,国务院信息办组织银行、电力、铁路、民航、证券、保险、海关和税务八大重点行业信息系统主管部门共同出台了《重要信息系统灾难恢复指南》。《指南》为各单位实施灾难恢复提供了最低参考标准,对行业灾难恢复管理规范的制定具有指导意义。
二、信息系统灾难风险分析
(一)大型机构常见信息系统风险共性分析
从机构常见灾难种类及其影响的统计分类来看,大多数大型企业、机构常见的信息系统灾难性故障类型及其对IT系统造成的影响可以从下表得到体现。
表1 灾难类型及可能带来的影响
序号 |
灾害名称 |
对IT系统可能造成的影响 |
1 |
地震 |
机房、机器损毁,电力、通信中断,人员伤亡 |
2 |
轰炸、爆炸 |
机房、机器损毁,电力、通信中断,人员伤亡 |
3 |
火灾 |
机房、机器损毁,电力、通信中断,人员伤亡 |
4 |
水灾 |
机器损坏、电力中断,人员受阻 |
5 |
电力供应中断 |
机器停止运行 |
6 |
环境污染 |
机器运行不正常,人员受损 |
7 |
飞机坠毁 |
机房、机器损毁,电力、通信中断,人员伤亡 |
8 |
火山爆发 |
机房、机器损毁,电力、通信中断,人员伤亡 |
9 |
恐怖袭击 |
机房、机器损毁,电力、通信中断,人员伤亡 |
10 |
大风雪 |
交通受阻,人员不能到位,电力通信可能中断 |
11 |
病毒的发作 |
系统运转不正常甚至停机 |
12 |
灾难的机器故障 |
系统停机 |
13 |
阴谋破坏 |
系统运行不正常 |
从机构设施差异情况分析灾难风险危害性,不同设施发生灾难时对IT系统破坏程度也有差别,差别分析如下表所示。
表2机构设施风险分析列表
序号 |
风险 |
对IT系统可能造成的影响 |
1 |
建筑环境物理安全 |
机房倒塌 |
2 |
基础设施的脆弱性 |
漏水、漏电,电磁干扰 |
3 |
数据中心的环境位置 |
泥石流,粉尘、有毒气体,造成机房故障 |
4 |
不满情绪的雇员 |
蓄意破坏系统,误操作 |
5 |
数据安全 |
非法入侵 |
6 |
关键技术点 |
文档丢失,关键技术人员离职 |
7 |
系统支持和恢复 |
配件不齐、支持人员不够 |
从灾难的可控制程度来看,根据不同的风险,采取可能的控制方法对风险的控制程度情况,如下表所示。
表3 风险可控程度分析列表
序号 |
风险类型 |
可能的控制方法 |
可控制程度 |
1 |
自然的 |
提高抵御自然灾害的能力 |
低 |
2 |
人为的 |
严格管理制度 |
中 |
3 |
技术的 |
采用冗余配备,加强技术培训和管理 |
高 |
4 |
政治的 |
|
低 |
5 |
无意的 |
严格管理制度 |
中 |
6 |
故意的 |
增强安全防范意识 |
中 |
7 |
内部 |
加强思想教育 |
中 |
8 |
外部的 |
加强联系沟通 |
中 |
根据机构共性风险分析结果表明,很多灾难的可控程度偏低,暴露了各机构的信息系统脆弱性,这种脆弱性会导致财产损失和失去关键性核心职能。因此,除了采取必要的措施对风险进行控制之外,建立灾难备份系统是增强信息安全的必由之路。
(二)税务系统信息系统灾难风险分析
针对税务系统可能存在的风险因素,通过对税务系统过去十年来主要停机事故的故障调研分析,税务系统主要灾难类型分布比例,如下图所示。
在上图各项主要灾难类型中,数据库故障、软件故障、应用故障、网络等技术类故障导致的风险成为税务容灾备份系统的首要抵御目标,而自然灾害、社会动乱和恐怖活动等大型灾难类型尽管发生概率很低,但鉴于其对正常运营和社会影响范围极大,因此也是税务系统需要重点防范的灾难风险类型。
从灾难发生的可控度分析,90%的灾难通过完备的事前灾难预防和完善的容灾项目实施,都能得到有效控制,10%的事件由于导致灾难发生的主观性、低概率和非预见性,成为整个系统内数据安全和业务保障的不可控因素。因此,在灾备中心的规划和建设过程中,应在全面分析考虑灾难类型基础上,加强对各类灾难风险的针对性防范工作。
三、金税工程三期对容灾备份体系建设的规划
按照金三规划,总局在广东南海建成南海数据中心。南海数据中心作为总局数据中心的灾备中心,主要服务范围包括总局和71个省(自治区、直辖市、计划单列市)级国税局和地税局的数据中心,其最终要实现的总体目标是为各单位提供由总局统一组织开发的主要核心业务系统的应用级灾备,为总局提供核心业务系统以外的其它系统的数据级灾难备份服务。灾备恢复内容如下表所示。
表4 纳入备份恢复的IT系统列表
序号 |
系 统 | |
1 |
征收管理系统 |
征收子系统 |
管理子系统 | ||
检查子系统 | ||
执行子系统 | ||
处罚子系统 | ||
救济子系统 | ||
2 |
行政管理系统 |
文件处理子系统 |
人力资源子系统 | ||
财务管理子系统 | ||
监察监督子系统 | ||
后勤保障子系统 | ||
辅助办公子系统 | ||
3 |
决策支持系统 |
税收业务子系统 |
行政管理子系统 | ||
4 |
外部信息系统 |
为纳税人服务子系统 |
外部信息交换子系统 | ||
国际情报交换子系统 | ||
5 |
CA/RA认证 |
南海数据中心面向总局的灾备恢复内容,具体包括提供征收管理系统、税务行政系统、决策支持系统等系统以及与核心业务系统相关的部分外部信息系统的应用级灾难备份恢复和CA认证系统的应用级恢复,对其他系统则提供数据级灾难备份恢复服务。面向省级国、地税局的恢复内容具体包括提供征收管理系统以及与核心业务系统相关的部分外部信息系统的应用级灾难备份恢复,对其他系统提供数据级灾难备份恢复服务。
在灾备恢复能力方面,南海数据中心的建设目标是保证北京数据中心和两个以上省级数据中心同时发生灾难时,具备核心业务应用系统的接管能力,同时还要保证为其它未发生灾难的总局或省级单位提供数据级容灾备份。
在灾备恢复等级规划方面,南海数据中心的设计必须达到国家规定的灾难恢复等级五级标准,其灾难恢复时间和恢复点目标为核心业务应用系统灾难恢复时间(RTO)<=48小时,恢复点目标(RPO)<=24小时。
四、国内容灾备份建设案例
目前,国内各行业已经在灾难备份系统的建设方面具有一些成功经验,其中走在前列的主要是金融行业。下表是国内一些银行在容灾备份系统建设中的案例。
表5银行业灾备成功案例
单位 |
灾备地点 |
主机类型 |
备份技术 |
工商银行 |
异地 |
IBM S390 |
IBM PPRC磁盘数据复制技术 |
中国光大银行 |
同城 |
HP SuperDome |
EMC SRDF磁盘数据复制技术 |
广东发展银行 |
异地 |
IBM AS400 |
MIMIX数据复制软件 |
深圳发展银行 |
同城 |
IBM S390 |
EMC SRDF磁盘数据复制技术 |
福建兴业银行 |
同城+异地 |
IBM RS6000 |
EMC SRDF磁盘数据复制技术 |
中国建设银行 |
异地 |
IBM S390+IBM RS6000 |
IBM PPRC+EMC SRDF磁盘数据复制技术 |
国家开发银行 |
同城+异地 |
HP SuperDome |
HDS Truecope磁盘数据复制技术 |
福建兴业银行 |
同城+异地 |
IBM RS6000 |
EMC SRDF磁盘数据复制技术 |
招商银行 |
异地 |
IBM AS400 |
MIMIX数据复制软件 |
五、深圳国税同城异址项目建设实践
(一)深圳国税信息系统建设概况
深圳国税信息系统应用架构基本采用了三层架构,数据的存储和保管全面实现市级大集中。主机以IBM小型机和PC服务器为主,存储设备有EMC DMX和IBM SHARK,备份设备有IBM 3584磁带库,数据库基本使用ORACLE9I,应用服务器使用WEBLOGIC.
(二)深圳国税信息系统运行存在风险分析
1、单点故障的风险。在避免信息系统单点故障方面,目前已经采取了必要措施,重要系统应用服务器采用WEBLIGIC集群方式,数据库的部署采用ORACLE RAC方式,数据存储采用RAID0+1或RAID5保护方式。但是,仍然存在单点故障的风险,如存储设备本身和生产中心机房。
2、本地磁带库进行数据备份、恢复的风险。目前数据备份做法是对本地数据通过TSM每天进行两次增量备份,每周进行两次全量备份,每天的备份磁带复制一份通过邮递方式异地存放。这种做法存在风险包括:磁带备份的数据恢复时间较长;当机房出现重大自然灾害后异地存放的磁带无法进行数据恢复;磁带库备份策略无法快速、灵活的恢复由人为操作失误造成的数据丢失。
(三)深圳国税同城异址容灾备份建设的必要性
1、同城异址备份站点建设周期较短,能有效填补时间空挡。总局南海数据中心面向全国国、地税71个省级单位提供灾备服务,涉及省级单位数量多、各地管理水平和技术水平参差不齐、基础设施建设状况有别,因此总局容灾建设无法短期完成。深圳国税目前已有大量的业务系统在运行,如何在总局容灾建设完成之前保障数据的安全和业务的连续成为一项重要的工作。同城异址备份站点建设因建设周期较短,可以有效填补时间空挡。
2、同城异址备份站点能够实现本地自行开发系统的容灾备份。南海数据中心为各省提供的容灾服务只限于总局推广的业务系统,深圳国税自行开发的重要应用系统如EAI、银税、网上业务系统等不在总局服务范围。同城异址备份站点能够实现这些系统和数据的灾难备份,是总局南海数据中心的有益补充。
3、同城异址备份站点既能实现应用级的灾难备份,又可作为第二生产中心分担运行压力。同城异址备份站点因为与生产中心、区分局办税服务大厅的距离相对接近,对容灾建设的网络资源要求比较低,比较容易实现应用级的容灾备份和灾难后的快速恢复;同时,备份站点建成后,还可由备份站点提供数据分析、查询、开发测试等服务,甚至还可作为第二生产中心,运行部分业务系统,与主生产中心互为补充。
(四)深圳国税同城异址容灾备份建设的目标及建设原则
深圳国税同城异址容灾备份建设的目标,一是保障数据安全,备份站点能为生产中心保留一份完整的、可供灾难恢复的数据;二是保障灾后业务及时恢复,灾难发生后,备份站点能在确定的时间内接替生产中心的运行,并重新提供业务服务;三是提高灾难抵御能力,减少灾难打击造成的经济损失和社会影响。
深圳国税同城异址容灾备份建设遵循原则,一是统筹规划,建设过程中做好资源整合,坚持统筹规划、分步实施;二是等级保护,针对面临的风险和各项业务停顿所带来的损失进行分析,确定灾备渠道和业务恢复时间目标,选择合适的灾备方案;三是资源共享,充分利用现有资源;四是平战结合,在不影响灾难备份与恢复的前提下,充分利用灾备中心的各类资源,开展培训、演练、开发、数据应用等业务。
(五)深圳国税同城异址容灾备份建设实施情况
1、系统架构及设备部署
深圳国税同城异址容灾备份系统架构如上图所示。在数据复制工具软件选型方面,经多款工具软件试用比较,最后采用飞康软件公司的数据复制软件IPStor CDP(持续数据保护工具)。在设备部署工作中,首先在生产中心配置一台装有复制软件的管理服务器,实现生产系统数据实时保护,同时向灾备中心实时复制数据;然后在灾备中心配置一台装有数据复制软件的管理服务器,实现远程数据复制和快速恢复。
2、本地数据的保护
采用磁盘镜像保护方法,实现本地数据保护。通过IBM操作系统提供的逻辑卷管理镜像功能实现"原主存储系统"到"CDP存储系统"的本地数据实时保护,这种保护模式可以有效应对本地存储设备的单点故障引起的数据灾难。在"主存储"系统发生设备故障时,CDP系统可以立即提供存储服务,接管生产存储。通过CDP设备提供的逻辑快照功能,还可获得多达256个全备份历史点。这种多备份历史点的模式可以应对任何数据逻辑故障,包括数据库逻辑错误、人为误操作和病毒等引起的数据丢失、文件丢失、数据库崩溃等。
3、远程数据复制和容灾
在生产中心和容灾备份站点之间通过数据复制工具实现生产数据远程实时容灾备份,当生产环境发生灾难后,备份站点完成业务接管。
4、容灾备份恢复演练
演练在容灾建设工作中必不可少,通过演练可以帮助管理人员提高操作水平,提高应急恢复速度;演练工作同时需要控制风险,降低对生产系统的影响。演练实现方式有两种,一是定期或随时利用容灾中心CDP所提供的多点快照,加载快照到容灾主机,同时启动容灾数据库和应用进行演练和验证;二是切断复制链路,直接提取容灾中心的数据盘,启动容灾中心应用,业务演练验证后既可以将生产端数据同步灾备端数据,消除灾备端由于演练产生的垃圾数据,又可以将灾备端数据同步生产端数据,保留由于演练产生的真实数据。
(六)深圳国税同城异址容灾备份建设特点及效益评估
深圳国税同城异址容灾备份建设,具有以下几个特点:一是不仅能够完成硬件设备出现故障后的业务恢复,而且还可以实现最为常见的数据丢失和人为错误出现后的业务恢复;二是生产中心与灾备中心的主机和存储设备不受生产厂商和型号的限制,主备中心平台无紧密关联;三是数据复制通过TCP/IP协议传输,数据分割为较小的单元,大幅节省网络传输资源;四是可以生成256份不同时间点的数据拷贝,这些虚拟的数据拷贝可供其它应用使用,如软件测试、查询与备份;五是采用差异比对技术,大幅提高容灾演练、容灾系统恢复过程的效率和可操作性,复杂过程简单化;六是采用集成的容灾备份管理和全图形化的容灾备份系统操作界面,原本非常复杂的容灾备份系统管理变得极其简单。
深圳国税同城异址容灾备份建成使用后,取得了良好的效益:提供了同城异址容灾备份能力,能够防御一定级别的灾难,确保信息系统在灾难发生时可以继续提供服务;灾备中心通过临时租用电信沙河机房的方式,有利于容灾工作网络架构的建设,节省了网络资源的运营费用,同时可以充分利用运营商专业的机房管理服务;采用的备份技术能够支持当前各种品牌、档次的主机、存储设备,在主、备站点灵活选择设备可以大幅降低硬件投入;多份不同时间点的数据拷贝可以同时用于开发测试、数据应用、数据归档、数据备份等工作,大幅减少了存储资源的的资金投入;本地数据保护的备份功能避免了以前磁带库备份遇到的各种困扰,减少了备份设备的资金投入;系统总体投入成本低,而且维护简单,灾难恢复演练和实施操作提供图形界面,操作简单便捷,大幅降低了后期系统维护资金的投入。
(七)深圳国税未来工作规划
1、建立和完善业务连续性管理体系
管理体系包括灾难事故的预防机制和应急机制。根据总局金税三期的指导建议,结合深圳国税同城异址容灾备份建设的实际情况,业务连续性管理体系建设应由易到难、分步实施、不断完善、逐步实现,最终达到全面持续管理。具体工作内容由以下几个方面组成:制定和完善IT灾难场景下的灾难恢复流程。制定、完善用于灾难事件响应和控制突发事件损失的制度、流程和应对措施,包括进行初始响应和紧急处理、损害评估、灾难等级识别、建立和管理应急指挥中心、灾难公告制度等,使得灾难发生后能够快速地恢复业务系统运行和业务运作。制定和完善业务连续性计划。设计、制定业务连续性计划;完成灾难备份系统和业务恢复体系的建设。灾难恢复预案的验证。对容灾备份体系和预案进行测试演练,记录和评估测试演练的结果,验证灾备体系的技术实施可靠性,完善灾难恢复预案,保持业务连续运行能力。灾备系统安全管理。包括运维管理安全、机房物理安全、系统安全、应用安全、网络安全、媒体数据安全和文档安全等。灾备系统运行维护和保障。建立完善的运维管理制度,规范生产中心和灾备中心的运维基本操作及切换、演练等操作,制定包括灾备系统集中监控、网络系统监控维护、磁带介质管理、灾备服务器维护、运行支持热线和服务商管理的统一变更流程。
2、沙井备份站点建设
在沙河电信机房过渡方案基础上,深圳国税备份站点将选用宝安国税沙井分局办公大楼,在该大楼建设占地面积800平米的备份机房。沙井备份站点的建设工作将成为深圳国税信息化下一步工作的重点,工作内容包括机房基础设施建设、网络改造、人员组织架构建设、容灾系统建设及维护。备份站点建成之后,将实现更多业务系统的应用级备份。
(作者单位:戴文忠 深圳市国家税务局信息中心主任
肖昭坚 深圳市国家税务局信息中心综合科科长
王晓明 深圳市国家税务局信息中心设备网络科科长
田仲昊 深圳市国家税务局信息中心系统运行科副科长