数据中心应急系统的三个关键
来源:CNET中国 更新时间:2012-04-15

用户资料:

  上海市电力公司一直很重视信息化建设,作为华东地区的电力龙头企业,上海市电力管辖的上海市电网位于长江三角洲的东南前缘,供电营业区覆盖整个上海市行政区,到2005年底,全网发电装机容量为1317.53万千瓦,35-500千伏变电站642座,变电容量6940.72万千伏安,年发电量728.45亿千瓦时,年售电量704.62亿千瓦时。为适应庞大的企业规模和迅猛的业务发展,上海市电力陆续部署了电力营销管理系统、ERP系统,实现了核心业务的信息化。

  2007年10月25日,“上海市电力公司数据中心应急系统项目验收及上线演练”在上海市电力大楼正式举行。国家电网信息化工作办公室、上海市电力公司、上海市信息委、上海市信息安全评测认证中心、华东电网公司、国家电网信息中心等领导和专家组成的专家组,以及来自上海市电力公司业务部门的代表,项目合作单位EMC公司和欣能公司的代表,与所有与会人员共同见证了上海市电力信息化建设历史上这个独具开创性的瞬间。

  上海市电力公司数据中心全方位应急演练获得了圆满成功,宣示EMC协助建立的上海市电力公司信息化建设水平达到了一个全新的高度。分析上海市电力公司应急系统的建设经验,对电力行业、以及其它公共服务事业有很好的借鉴意义。归纳起来说,方法论、技术平台和防患于未然的演练是数据中心应急系统的三个关键点。

  关键一:成熟的方法论

  上海市电力公司在数据应急系统建设中,选择了EMC公司作为重要的合作伙伴。EMC在数据容灾系统建设方面,具有非常丰富的经验,并在经验的基础上提练、总结出一套系统化的方法论——EMC业务连续性服务集成方法论(Business Continuity Solution Integration,简称BCSI)。上海市电力在选择合作伙伴时,非常看重供应商的规划、咨询能力。选择正确的合作伙伴,为整个项目的成功打下了坚实的基础。

  EMC BCSI在全球众多相关项目中广为使用并得到验证,它包括规划(Plan)、建立(Build)、和管理(Manage)三个阶段的咨询和技术服务。

  EMC的BCSI方法论,包括这些要点:评估当前的服务水平;定义业务需求;评估可用性和恢复技术;基础架构设计;建立实施规划;技术测试及实施;开发恢复及切换计划;集成测试和演习;业务连续性更新;资源管理、改进及衡量。


案例分析:数据中心应急系统的三个关键

  上海市电力公司借鉴EMC BCSI,并广泛学习国际灾难恢复协会(DRII)《Professional Practices for Business Continuity Planners》、国务院信息办《重要信息系统灾难恢复规划指南》、《国家电网公司信息系统应急预案》等指导性文件,对自己的业务情况进行了全面的风险分析、业务影响分析、IT系统现状分析,最终制定出上海市电力公司的业务连续性策略,写出了长达75页的《业务连续性策略报告》,作为整个项目实施的指南。

  关键二:先进的技术平台

  根据《策略报告》,上海市电力在浦东和浦西分别设立数据中心,实现同城异地的数据应急容灾。上海市电力在主、备数据中心选择了统一的IBM P570主机设备,主数据中心选用2台EMC DMX-3存储阵列作为主中心CIS、PMS、ERP应用系统存储设备,其中1台为CIS专用设备,另1台为ERP、PMS共用。原CIS数据仓库采用了EMC DMX2000存储系统,本次将数据仓库应用迁移到DMX-3以后,DMX2000便作为应急系统备份中心CIS、PMS、ERP应用系统存储设备。主、备中心之间采用DWDM设备通过2条不同方向的光纤实现两地SAN的高速级联,进行存储阵列2对1数据复制。在数据管理方面,用到EMC的三个重要软件:EMC SRDF异地复制软件、EMC TimeFinder本地复制软件和EMC Control Center管理软件,实现浦东数据中心和浦西数据中心之间的数据复制。

  通过以上平台,可以确保生产系统和备份系统的数据完全一致,可以透明地切换业务。换句话讲,用户无需任何专门的停机时间,即可完成业务的启动,真正实现用户业务系统的连续性。用户可以利用该功能,非常轻松地实现应急演练和日常计划性停机维护等工作。

  结合本地数据复制软件EMC TimeFinder,上海市电力可以克隆生产数据或对生产数据执行快照,或者用于数据仓库系统的数据挖掘和抽样等,还可以在灾备端对灾备磁盘执行同样的功能,克隆数据可以作为应急演练的环境。快照数据可以在链路中断等故障、需要数据再同步时,对灾备数据实现二次保护。

案例分析:数据中心应急系统的三个关键

  关键三:防患于未然的演练

  正如上海市电力公司副总经理阮前途在验收会上所说,“某种意义上讲,安全的最大隐患是对安全的估计不足。信息系统尤其是电力部门的信息系统,要把它提高到电网安全层面上来考虑。真正发生事故的时候,专家们并不在场,紧急状况下还有可能出现其他的突发事件。所以今后这方面的演练我们要经常做,信息系统也要像电网事故的演练一样要经常进行。不可能靠事故的发生来积累经验,只能通过不断地演练来积累自己的经验。同时,需要充分借鉴其他行业的经验。”

  在10月25日的演练中,模拟场景是:浦东数据中心的ERP系统出现严重故障,预计4小时内难以恢复。于是立即采取措施,启动浦西数据中心的应急系统,ERP、CIS、PMS三大应用系统切换到浦西数据中心。从应用处理到主机处理、存储处理,切换顺利完成,接着就是最为紧张的业务切回和数据恢复,由于整套系统遵循EMC的BCSI方法论进行了全套流程的规范和完善,一系列步骤快而不乱,不知不觉,主机恢复、应用恢复、接口恢复、应用内部测试、DNS修改、业务测试一气呵成,演练成功完成。

  由于整个技术平台设计先进、科学、合理,使得演练过程对正常业务开展几乎没有影响,演练也得以经常进行。

  据上海市电力公司科技信息部评价,总体来说,整个应急系统的建设是成功的。上海市电力数据中心应急系统实施后的效果与前期做的总体设计及BCP计划完全一致,也就是说主中心在出现主机故障、网络故障、甚至火灾情况下,公司业务中断时间可以控制在2小时之内,可以保证数据零丢失,RTO、RPO指标完全满足业务连续性需求,同时可有效提高一定区域内灾难(如地理灾害、电力故障、故意破坏等)的应对能力。

  整个项目的成功实施充分体现了上海市电力的执行能力,EMC公司的方法论和技术解决方案也经受住考验。项目相关各方通过几个月的努力,基于成熟的方法论、先进的技术平台、经常的演练,对异外故障作好了充分的准备,为我国的关键业务应用树立了又一个成功的信息化案例。