作者: 吴璐 夏捷 朱嘉
摘要:本文主要介绍了上海市规划和国土资源管理局数据中心建设目标、设计原则和主要特点,并对网络、主机、数据库、存储、应用服务器等IT组件的结构和功能进行了较为详细的说明。
关键词:数据中心;基础架构;数据交换;安全;容灾;虚拟化
中图分类号:P23 文献标识码:A 文章编号:1674-3695-(2010)01-13-11
1概述
数据中心的目标是为业务应用提供安全、可靠和高效的IT基础支持架构。为了配合本市规划和国土资源全生命周期的精细化管理需要并考虑到规划、国土资源基础数据的高度支撑作用和高度的共享性,我们在整个数据中心的规划和建设中都是紧密围绕着“统一共享IT基础设施”这一中心进行的。以此出发我们建立了上海全市集中统一的网络(所有应用共用内外网网络设备)、集中统一的数据库和信息存储管理、集中统一的应用服务器(采用虚拟化技术)以及集中统一的信息安全防护,并逐步建立和完善了“生产中心、灾备中心、指挥监测中心和测试中心”四个中心,为我局行政管理统一平台的贯彻执行起到了很好的技术支撑作用。
数据中心的整体架构如图一所示,从区域上可分为浦西和浦东两个部分,其中浦西是主数据中心,日常的业务运作、指挥监测和开发测试等都在这里进行,浦东主要起到容灾作用。从功能逻辑上可划分为四个功能中心区域,它们之间密切关联、相互依赖。生产中心作为核心,其容量和能力也是最强的,它为业务应用系统提供了强大保证,主要的日常运作业务应用系统都部署在生产中心,同时生产中心还可根据管理要求适时地将生产数据信息进行抽取、过滤、转换和汇总(ETI),为指挥监测中心提供了数据支持,确保管理决策支持有据可查。
测试中心建立了小型而又完整的的生产模拟环境可供应用开发进行功能测试、压力测试和联调测试,从而保证上线应用稳定、可靠并与其他应用兼容;测试中心可根据测试要求同步生产数据,使应用测试获得与正式环境差不多的运行感受,并且不会影响真实的生产数据。灾备中心为生产中心和指挥监测中心提供异地容灾,确保生产数据和指挥监测数据的可靠性,并确保关键业务应用在异常灾难环境下的可用性。
在上述四个中心的建设中我们秉承“统一共享IT基础设施”这一中心原则,在确保满足安全等要求的条件下在各个IT基础组件层次进行充分的共享,包括:指挥中心、测试中心和生产中心共享同一网络资源;生产中心和测试中心在日常运行中使用灾备中心的计算能力;灾备中心利用存储设备EMC SNAPVIEW和开发的脚本建立了独立的统计查询和报表数据库,极大减轻了生产库的压力并极大地提高了统计工作的效率等。通过上述方式达到了充分利用和共享了整个系统资源,降低投资和运行成本的目标。
我局在数据中心的建设中充分运用现代IT最新技术和方法手段,提高整个基础架构的稳定性、可用性和伸缩性,确保数据的高可靠性,这主要表现在:
1.1严格物理隔离条件下的内外网数据交换平台
针对生产内网和外网数据交换和共享的需要,同时根据政府机关信息安全的规定内外网之间必须满足严格物理隔离的要求,设计和开发了基于网闸和Oracle dataguard的内外网核心数据交换平台。整个同步和交换过程可根据业务需要进行设置,而且完全自动化易于控制。
该数据交换平台在内网和外网通过Oracle dataguard建立了对端的镜像数据库(Standby),并开发专门程序实现基于网闸的日志传输和满足业务要求严格受控的日志恢复同步功能模块,实现基于数据库级的内外网数据共享和交换。其主要机理如下:专门程序利用网闸文件摆渡功能进行归档日志的近实时发送和接收,并利用时间戳、校验和重传确认机制解决了文件丢失、文件内容错误等问题,根据业务的要求在规定时刻发送同步信号并进行日志log apply操作将镜像数据库恢复到当天,并最后以只读方式打开。
图2所示为内外网数据交换平台物理拓扑图,为了保证数据库系统的高性能和高可用,内外网的生产数据库和dataguard镜像数据库都用有两个节点的真正应用集群(Real application cluster简称RAC),并对网闸也进行了双机热备(图中未显示)以确保基础平台数据交换的可靠性。业务应用系统可在生产数据库上以db link方式访问镜像数据库,也可直接访问镜像数据库。
1.2多层次的数据保护体系
根据业务应用的需要,我们在存储层面基于EMC MIRROWVIEW技术实现了生产数据中心到容灾中心的实时数据同步;在生产数据库通过Oracle flashback技术可对于2-4小时以内的数据操作实现在线回溯;通过在远地(张江)利用oracle physical data guard实现了数据库级的异步数据复制,进一步保证数据的可靠性并通过参数配置实现了8小时以内数据的回溯;通过采用EMC SNAPSHOT技术为每周7天拍快照可以追溯到一周内任意一天的数据。此外我们还利用oracle RMAN和IBM TIVOLI实现了传统的磁带备份,通过备份窗口设置确保拥有足够的数据库全备份和归档日志使我们可以基本回溯到两个月以内的数据。
1.3统一的应用级灾备中心
考虑到房地业务信息和数据覆盖面广,关系到广大人民群众的切身利益,在数据级灾备的基础上,通过实施了一整套完备的技术框架和方案对网络、主机、存储、数据库和应用服务器等进行了完善和改进,并制定了相应配套的管理制度和演练计划,初步建立和实现了应用级灾备中心,对于IT核心基础架构和关键业务实现了站点(SITE)级的异地容灾,并对核心数据库服务器、存储、网络等可能出现的重大故障建立相应的应急技术方案和应对流程,进一步提高了生产数据中心的抗风险能力。
1.4虚拟化技术等
利用虚拟化技术建立了统一的应用服务器部署和分发策略,大大地提高了设备利用率、降低了应用间的相互干扰,提高了可用性,并极大地简化了灾备中心的建设。在IT基础架构——网络、数据库、主机、存储和应用服务器等各组件层次,通过冗余和均衡负载策略,充分发挥设备的利用率,提高基础架构的可用性和可靠性。在设备选型和采购中还充分考虑了余量和扩展性,可根据业务的需要在较大的范围内进行扩充,确保系统平滑升迁并避免投资浪费。
此外我们还进一步加强了机房环境建设,建立统一的监控平台和基于业界标准的ITSM流程规范(ITIL),以确保数据中心的安全、有效和有序地运行。
在如下部分我们将从IT组件的各个层次和环节对数据中心的结构和功能进行详细说明。
2网络和安全
2.1网络
网络系统的建设着重考虑到了数据中心的高效、安全与稳定性和纵向业务网络的覆盖面的广度与深度。
2.2数据中心网络
针对数据中心核心网络的建设,我们以建设高性能、高可用性、高安全性、健壮性、先进性与可扩展性为设计的准则。如图3所示,数据中心横向划分为生产数据中心主核心网络与异地灾备网络两部分;纵向又分为核心数据区、应用服务发布区、业务访问区三块独立的安全层面。
生产数据中心主机房与灾备中心机房间通过100Mbps速率的裸光纤互联。通过先进的光波波分复用技术,逻辑上将1路光纤分为了8路光纤独立使用,最大化的降低了线路互联的成本。主中心网络与灾备网络各安全层面间均为二层透传网络,其最大的优点在于逻辑上的一致性,可以将服务器透明的部署在生产主机房和灾备机房。二层网络的低延迟,高稳定性的特点也迎合了先进的数据中心网络的要求。
生产和灾备数据中心中的网络节点与线路均采用冗余部署模式,不存在单点故障。
2.3业务接入网络
针对覆盖全市各区县、街道、乡镇的信息业务接入网络的建设,我们以建设稳定、安全、高效、经济为设计的准则。如上图所示,信息业务接入网络依据接入点层次、职能不同,将其划分为区县房地交易中心、区县房地管理局、区县土地科、街道房地办事处和乡镇土地所5块。
区县房地交易中心和区县房地管理局均采用100Mbps速率的电信光纤作为接入主线路,2Mbps速率的帧中继专线作为接入的备份线路。主线路与备份线路分别连接至位于生产数据中心主机房的核心汇聚路由器及灾备数据中心机房的核心汇聚路由器上。通过先进的OSPF动态路由协议冗余技术,当遭遇可能发生的广域网主线路异常中断时,备份线路能迅速接管,对房地业务系统的正常运行无任何影响。在网络安全技术运用方面,引人了先进的OSPF路由加密算法,对非授权节点的准入进行严格控制,保障了边界网络接入的安全可靠。
街道房地办事处和乡镇土地所均采用2Mbps速率的EDSL电信专线作为接入线路。其稳定的线路质量与充足的线路带宽完全满足了日常业务的需求。由于房地街道办事处和乡镇土地所点位数量多、分布广故在建设过程中,着重考虑了边界网络的安全性与网络的整体管理性。通过在接入节点部属UTM一体化网络安全接入设备,通过中心统一监控平台,实时地监控所有节点的运行状况与流量分析报告,提升了运维管理的质量。
2.4外网网站
我局网站对外提供政府政策信息发布、业务受理、舆情等主要应用。
如图4所示,网站网络为我局门户网站提供了高可用、高安全的基础支撑平台。网站网络从设备资源到线路资源,均满足关键节点的双核心高可用性部署。同样的,浦东、浦西分开的两个运管中心可以同时对外提供服务。借助于F5负债均衡设备和动态DNS解析技术,实现了灵活的访问流量分配和冗余。
2.5安全
根据《信息安全等级保护管理办法》和《定级指南》的有关内容,我局信息系统满足国家信息系统三级等保要求。
安全系统建设要按照国家有关电子政务安全策略、法规、标准和管理要求进行,以风险评估和需求分析为基础,坚持适度安全、技术与管理并重、分级与多层保护和动态发展等原则,保证网络与信息安全和政府监管与服务的有效性。安全系统建设内容包括信息安全管理规章制度、资源安全、应用安全、系统安全、网络安全和物理安全等方面。
安全系统设计按照基础设施层、数据访问层、信息交换层、应用层划分层次。如图5所示。
网络安全系统主要遵循了隔离、控制、保护三个原则。
如图6所示。
核心业务内网按重要级别不同分为3个层次区域,通过防火墙策略控制与物理DMZ相结合方式对各层面间的访问进行控制;核心业务内往与Internet物理隔离,仅部分数据交换应用通过安全网闸文件摆渡的方式实现。
业务核心内网与国土资源主干网之间部署安全网闸物理隔离,仅通过文件摆渡方式实现数据交换。数据交换服务器对核心业务库的访问受到防火墙安全策略的严格控制。
同时,在核心网络区域部署有多个入侵检测探头和网络行为录像机,对外界的访问行为记录、审计,必要时可进行回滚重放,确保数据安全万无一失。
在技术方面,目前已经完成的工作有以下方面:
(l)物理安全:物理位置的选择、物理访问控制、防盗窃和防破坏、防雷击、防火、防水和防潮、防静电、温湿度控制、电力供应、电磁防护。
(2)网络安全:结构安全、访问控制、安全审计、边界完整性检查、入侵防范、恶意代码防范、网络设备防护。
(3)主机安全:身份鉴别、访问控制、安全审计、入侵防范、恶意代码防范。
(4)应用安全:身份鉴别、访问控制、安全审计。
(5)数据安全及备份恢复。
3主机系统
房地局的核心业务系统位于浦西生产中心机房,分为内网和外网两部分,内外网之间通过Oracle数据库的DataGuard每天相互进行业务数据同步。因此房地局核心业务总共有4套AIX小型机系统:内外网各有1套核心生产系统以及1套对方的镜像系统,基础架构如图7:
从图中可以看到每套系统都采用Oracle RAC,也就是双机并行的HACMP,两个汽点可以同时对外提供数据库服务。任何单节点故障只会导致该节点的服务中断,而另一个节点会在最短的时间内恢复故障节点占用的系统资源以及数据库资源,代替故障节点对外提供服务。这种容错设计最大程度的降低了单机故障可能对业务连续性造成的不利影响,有力保障了系统的7*24不间断运行。
为了整合系统资源,提高资源利用率,房地局在部署外网业务系统时采用了IBM当时新推出的先进的分区技术LPAR。LPAR来源于IBM的MainFrame,可以高效地将单台Power4物理小型机分割为多台相互独立的逻辑机器。因此外网业务系统虽然有2套RAC,但是只有2台IBM旗舰产品p690,每台p690划分成2台逻辑机器。不同p690之间的逻辑机器做RAC,避免了单台p690故障可能导致的业务中断。
在解决了单机故障对业务连续性造成的不利影响之后,还要考虑诸如机房失火或者供电故障等影响机房内所有设备的情况。因此在构建IT系统时除了浦西的核心业务系统外还在浦东以及张江构建了2套独立的灾备系统。浦西-浦东之间采用基于存储硬件复制的同步技术,浦东灾备系统是应用级灾备。而浦西-张江之间采用基于Oracle DataGuard的数据库同步技术,张江灾备系统是数据级灾备。2个采用不同同步技术,并且位于不同物理位置的灾备系统从根本上避免了由于同步技术存在bug,或者机房范围的故障可能导致的业务数据丢失。而且浦东应用级灾备可以在浦西主机房发生故障的情况下迅速接管对外业务。
4存储系统
房地局存储系统采用全光纤通道、全冗余、异地容灾的SAN架构。为了确保数据的安全性(内、外网物理隔离),分为内、外网络,每个网络都有自己的SAN,每个网络的SAN架构相同,如图8所示:
SAN基础架构中的互连设备——光纤通道交换机,采用的是4Gb、多端口的Brocade DS5000系列。其内部的可替换部件(电源、风扇、端口)都是冗余的,避免了这些部件的单点故障而导致整个光纤交换机不可用。同时为了避免单个交换机的失效对整个SAN的连通性的影响,采用的是冗余交换机、双Fabric架构。配合主机上的冗余HBA卡和多路径管理软件,任一交换机的失效不会造成主机中断对存储系统的访问。极大提高了整个SAN互连的可用性。同时,光纤交换机上采用的是设备硬件地址的认证,未经认证的设备无法接入SAN,提高了SAN的安全性。
存储设备采用的是可用性达到5个9(99.999%)的EMC CX系列,该系列在可用性、性能、管理、复制和可靠性方面在中端存储领域处于领先地位。该系列存储内部组件(控制器、硬盘、端口、连接卡和连接线缆),配合主机上的冗余HBA卡和多路径管理软件,避免了这些组件的单点故障对整个存储系统访问的影响,从而提高整个存储的可用性。为提高数据的可用性,使用双控制器来保证主机尽可能地能连接到存储系统;使用RAID技术来避免单个磁盘的损坏而导致重要的数据不可访问和数据丢失。为提高整个存储系统的安全性, CLARiiON存储采用了LUN,确保未经许可的主机无法访问受保护的数据。为提高存储的可用性、避免存储的失效导致数据不可访问,在灾备中心配置了同系列的存储,利用存储上的MirrorView软件通过容灾线路,将数据实时复制到灾备中心的存储上。当生产中心存储失效或者生产中心整个站点失效时,可在最短时间内切换到灾备中心的存储,提高存储的可用性。为避免人为误操作、病毒或者其它意外导致数据损坏而业务时,需要将数据恢复到以前的某个时间点,在存储上对重要的数据进行了快照,需要时可以快速地将数据恢复到快照时的情形。
为提高存储的可用性,每台主机上至少配置2块光纤通道HBA卡,避免任一HBA卡的失效导致主机无法连接到SAN。同时在每台主机上安装EMC的多路径管理软件——PowerPath,它是主机上用来增强性能和可用性的解决方案。它具有多路径存取、平衡负载、切换有故障的路径和优化性能的功能。最大的功能就是提高可用性和性能。
为避免因火灾、地震、建筑物倒塌等意外发生造成生产中心SAN基础设施失效、数据丢失、业务中断等,在异地建设了灾备中心,同时配备相关的基础设施、技术人员和灾难恢复预案。生产中心和灾备中心的数据复制链路采用的是与协议无关的电信裸光纤,采用ZGb SFP保证在存储上可以采用同步复制,当灾难发生时,数据丢失可以降以最低。
5数据库系统
房地局的数据库系统使用ORACLE 9.2版本数据库软件,分内网业务应用(交易登记、地理信息系统等)、外网网站应用(一手房、二手房业务系统等)和指挥监测中心(监测、报告、展示系统等)三大模块。内、外网的数据通过网闸在保证物理隔离的情况下进行数据交换;指挥中心通过ETL工具抽取内网生产库及外网镜象库的数据用于监测及展示。具体结构见图9:
基于数据的重要性、安全性以及整个数据库系统的可用性和连续性,我们在数据库系统中使用了许多新技术:
5.1内、外网数据同步
内、外网的镜象数据库通过使用ORACLE的技术来实现。由于审核部门需要审核前一日的各种交易数据,并从历史数据中进行报表查询工作,同时不允许其擅自修改交易信息,因此采用了内、外网数据库在其对应的层面生成只读镜象库的方式来完成这样的业务要求(即内网数据库在外网产生一个镜像库,外网数据库在内网产生一个镜像库)。同时又要兼顾数据的安全,严格要求内、外网数据物理隔断,因此使用网闸这一产品在内、外网之间充当中转站来传输数据库归档日志,从而实现数据库的镜象同步,保证了内、外网的镜象库数据能够在第二天提供给各自的审核部门审核、报表查询等基本的业务操作。
5.2 RAC技术
内、外网的生产以及镜象数据库都使用了RAC技术,都具有双节点,各应用按照自身的应用类型及与其他应用之间的钩稽关系分布在两个节点之上,看到的却是同一份数据。另外将最核心的应用分节点部署,从可用性角度来说也是为了避免一个节点当机造成最核心的应用全部瘫痪的情况。RAC技术能确保即使在一个节点的实例发生意外当机的情况下,另一个节点仍能负担起整个业务的负载。
5.3 DATAGUARD技术
DATAGUARD是一种数据库级别的HA方案,最主要功能是冗灾、数据保护、故障恢复、报表查询等。在数据库系统的日常运行过程中,DATAGUARD技术大量应用于我们的环境中。首先,前面我们已经介绍过,内、外网的镜象库就是使用DATAGUARD技术搭建的,目的是为了报表只读查询;除此之外,张江灾备以及指挥中心的灾备同样使用DATAGUARD来搭建,目的是为了冗灾、数据保护以及故障恢复。
5.4 FLASHBACK技术
在数据库安全方面,我们不允许开发人员擅自登录数据库修改数据内容或数据结构,有专门的工程师在固定时间段对此类操作审核并集中处理;另外部署了数据库监控产品对数据库操作进行审计,对于违规操作我们会给予警告或是处分,这极大的降低了数据误操作的风险性。即时在这种情况发生了不应该的数据修改,我们仍能快速完成对象级别的数据恢复:采用日志挖掘技术分析定位误操作的时间点并使用FLASHBACK技术实现对象级别的数据恢复。
5.5数据库备份
不管是什么结构的数据库,还是安全性高低要求不同的数据库,都应当会有一套数据库备份系统方案。对于24*7提供服务的数据库系统来说,我们设计使用联机热备方案,就是在业务低峰期间(如每天夜间)不关闭数据库的情况下,把数据库备份到可靠的介质中去,我们配备了磁带库做为备份介质。为了提高备份效率,减少备份时间,我们只在周五晚上或周六白天做数据库全备份,其余时间使用增量备份策略,这样,当数据库需要恢复的时候,只需要恢复最近的一次全备份,然后再恢复日志即可,只要条件许可,可以做到完全恢复。
5.6张江数据库级容灾备份
考虑到业务应用数据的重要性,为了防止整套系统发生灾难性故障,造成所有数据无法挽回的情况,我们除了在灾备中心基于EMC MIRR0WVIEW在存储级上进行实时灾备外,还在张江对内外网核心数据库另外配备了一个STANDBY数据库,实现了数据库级的容灾。实现原理是,使用oracle的dataguard川技术,自动同步生产库上已经归档的数据(接收到的归档数据相隔8小时后才会应用到灾备环境使其同步,这是为了便于回溯数据),这样,当主机完全不能使用,如机房焚毁、塌陷等等不可抗灾难情况时,数据的损失几乎是最小化的。另外,如果生产库的数据结构发生了误更改,通过张江灾备库基于时间点的恢复技术仍能找回之前的状态。
6虚拟机和应用服务器
目前信息中心机房的虚拟机主要使用vmware公司的vSphere4.0及vCenter管理中心。
VMware vSphere4.O是一种企业级虚拟化工具。它利用能够管理许多虚拟机的服务程序进行工作,由于vSphere4.O运行在“裸机”商,这在本质上意味着将vSphere4.O软件直接安装在计算机上,不需要有一个让它可以运行在其上的操作系统。
VMware vCenter是一套虚拟架构的管理软件,通过vCenter能够单点管理上千台Windows NT/2000/2003/Linux服务器。vCenter接口提供了一个强大的浏览功能,能够浏览数据中心的所有虚拟资源,通过调整每个软件服务器占用的资源,监视和最优化数据中心资源的使用,在维护应用服务的级别上最小化资源的浪费。
目前机房总计有33台VSphere 4.0服务器及两台vCenter管理服务器分别部署在内、外网,分布于Dell PowerEdge 1955刀片服务器两组及三台Dell R710服务器,而虚拟机的数据文件都是统一存放在EMC CX系列存储中,其中内网由2组Dell PowerEdge 1955刀片服务器及1台Dell R710服务器组成。下图10是单台VSphere 4.0服务器的拓扑图:
VSphere 4.0服务器主要安装了Windows、Linnux操作系统并部署大量的应用系统为局属二级、二级单位的终端用户提供服务。因为虚拟机的数据文件都是存放在EMC CX存储中的,所以数据文件的安全性得到了保障,并且可以充分利用VMware提供的各种优势功能来最大限度保证应用系统的正常运行,例如当一台VSphere 4.0服务器的硬件资源使用率太高而影响到应用系统可能宕机时,就可以使用VMotion功能在不停机的状态下,通过VCenter对虚拟机操作系统进行快速的在线迁移,让该应用系统在另一台服务器上正常运行,使应用系统提供服务的连续性得到了保证。由于虚拟操作系统不是运行在真实的物理硬件上,因此可以很容易的修改操作系统配置,从而优化物理硬件资源配置做到物尽其用。
在安全方面,通过安装Trendmicro趋势防病毒服务器及Landesk补丁分发服务器,对VSphere 4.0服务器上Windows系统虚拟机进行实时的病毒防护及补丁管理,将由于病毒、漏洞引发的宕机危险降低到最低限度。
在容灾方面,在浦东容灾机房中有一组安装了VSphere 4.0软件的Dell PowerEdge 1855服务器用作中心机房VSphere 4.0服务器的容灾备份,而全部虚拟机数据文件都是存放在EMC CX系列存储上的。当中心机房全部的VSphere 4.0服务器因停电等各种不可抗拒的原因发生宕机影响到应用系统无法正常提供服务时,可在较短的时间内在灾备存储上找到全部应用系统的虚拟机数据文件并通过vCenter管理服务器将全部数据文件加到浦东容灾机房的容备vSphere 4.0服务器的目录中,根据应用系统的重要性及影响范围依次恢复全部应用。
7统一监控管理平台
房地局使用的监控管理平台基于IBM Tivoli解决方案,该解决方案提供各种基础设施的监控、管理功能的整合,整个方案围绕事件管理,将所有的管理报警信息、以事件的方式报告到统一事件管理平台,管理人员通过直观的事件信息监控,就可以了解基础设施实时的运行状况并进行事件的处理。
7.1基础监控模块
见图11,通过Netcool/Syslog Probe(系统日志探针)产品收集网络设备的syslog信息,实现网络设备的告警。
通过Netcool/ISM SNMP Monitor产品轮询设备的CPU、Mem利用率等性能指标,从而提供灵活的性能指标监控定义;通过Netcool/ISM ICMP Monitor产品又对设备发起Ping的操作,判断连通性、响应时间、丢包率等服务质量。这两个隶属于Netcool/ISM的产品实现网络设备的性能告警。
通过Netcool/EIF Probe (Event Integration Facility——事件集成探针)整合Tivoli的主机和数据库的监控产品ITM以及Tivoli数据库备份软件TSM;再加上通过Netcool/Trap Probe(Trap探针)整合dell服务器告警程序(Dell open Manager)、EMC存储管理程序(Navisphere),实现第三方的告警集成。
所有的这些实现了对项目所涉范围内所有设备的实时监控,通过统一事件管理平台收集监控数据信息并存储在ORACLE数据库中,并通过Netcool/Webtop以HTML和Java的展现形式向远程操作员交付图形、表和事件列表,使我们能够利用Netcool/Webtop的灵活界面和高级管理功能来管理Netcool/OMNIbus(统一事件管理平台)的告警。
7.2告警管理模块
整个管理平台监控的对象和内容可以根据需求进行灵活的定制,根据需求在事件的采集、分类、处理和呈现等方面进行相应的客户化定制工作,以实现对总体基础设施状况的及时、高效、准确了解,从而奠定服务质量管理的基础。
在对管理对象的策略上,针对重要程度不同的管理对象,实现精细化管理,对不同的管理对象配置不同的告警级别、响应操作等,并通过EMAlL及短信平台联系故障相关维护工程师,使其可以集中精力优先处理对业务支持产生重大影响的故障。
整个监控管理解决方案以故障事件处理为核心,规范运行操作流程,确定维护工程师岗位的设置和职责,实现故障处理的记录、升级、统计、审计以及手工创建故障单等功能。
7.3报表模块
Tivoli的报表管理是一套通用的、集中的报表管理体系,能够显示跨越多个产品或平台的数据,从而组成针一对整个数据中心IT应用或IT服务的特定管理报表,为我们在日常的系统运维中所必须的趋势分析、容量管理以及决策支持提供了数据支撑。我们使用微软的Crystal RePort产品来制作报表,呈现性能监控数据。
另外,针对操作系统及数据库的性能监控,我们使用了Tivoli ITM产品,并整合进Netcool统一事件管理平台(见图11中的“第三方告警集成”)。整体架构图如下图所示:
监控代理(Monitoring Agent)软件安装在被监控的目标机上,通过监控代理对配置信息及性能数据进行监控管理,包括操作系统、数据库、MQ队列等,再由ITM监控管理服务器(TEMS)层次性的架构,从监控代理收集数据,并且报告给主要的HUB TEMS,同时还提供了历史数据保存,然后ITM管理门户服务器(TEPS)集中展现管理数据、资源对象状态、告警信息和业务视图等,最终用户可以基于浏览器或者Java客户端来管理数据展现和视图。
8机房环境设施和环控
上海市房屋土地资源管理局信息中心机房(以下简称机房)应是安全性、可靠性要求最高、最重要的地方,其特点具有:防尘、防震、防静电、空调送回风、防漏水设施、隔热、保温、防火、以人为本等。
机房区位于北京西路95号房地大厦西大楼8楼,机房总面积约550平方米,主要由机房区域和机房辅助配套用房区域两部分组成,层高约3.35米左右,机房楼面有效荷载300-400公斤/平方一米。
机房环控由装饰及环境、电气及新(排)风、空调、集中监控(门禁)、UPS和柴油发电机等系统组成。
8.1环境系统
(l)机房区域地面铺设防静电活动地板,铺设高度为3O0mm,活动地板下均作网格接地处理。为保证地面的洁净度,地坪作平整清洁处理后,刷防静电环氧树脂地坪漆。为防止机房楼板产生结露现象,采用精密空调的机房区域楼板底面采用保温棉进行保温。
(2)机房区域围护墙内墙面主要采用彩钢板做饰面材料,板后作网格接地处理,美观、大方,并能达到抗干扰和防静电的效果。
(3)机房区域天花吊顶采用吊顶主要采用铝合金微孔方板吊顶,并加有吸音棉,此材料最适宜机房装修,并能达到吸音和防静电的效果。
(4)机房各用房的门根据不同的装饰要求,主要采用定制甲级防火工艺门、铯钾防火玻璃门。
8.2UPS、柴油发电机系统
(l)供配电
机房工作用电:
市电输入统一由大楼低配间引至地下一层UPS机房的UPS输入配电柜,再经2台120KVA梅兰日兰UPS引两路UPS电源至南面机房UPS输出配电柜(8PA-1和8PB-l),供机房设备用电。
精密空调设备用电:
市电输入统一由大楼低配间引至机房区域的动力输入配电柜,再经动力配电柜分路开关送至精密空调设备用。
动力配电柜的总输入开关与消防联动,当消防动作时,电源自动切断,以利及时消除灾情。
机房和地下一层UPS机房的精密空调机组要求能由大楼地下一层的一台300KVA依维柯柴油发电机组进行后备应急供电。
照明及辅助用电:
市电输入统一由大楼楼层配电间引至机房内的照明配电箱,再分送至各用房照明设备和市电插座用电。
(2)UPS输出
本工程机房区域的UPS供电方式均为集中输出供电的方式,UPS的输出电源送至UPS输出配电柜后,再分送至各机房的UPS配电箱或用电设备。
对于信息中心机房区域的UPS末端输出供电均采用双电源供电形式,一主一备,每个电源插座的电源供给来自于不同的UPS系统,以满足机房设备双电源供电的要求。
(3)照明、辅助供配电
机房内照明、辅助电源由机房配电柜引出,送入机房内的照明、辅助电源配电箱,应急照明电源统一由UPS电源供电。
机房辅助电源插座:在机房各室的墙面上,敷设暗线,按每30砰左右配备一组辅助电源插座,每组辅助电源插座均配漏电保护开关。机房内的辅助电源由市电直接单独供电。
(4)配电系统防静电
所有电源插座的中性线和接地线之间的电位差不应大于1伏。
(5)防雷
UPS输入柜安装三相电涌保护器一套,作为机房UPS供电系统第一级雷击电磁脉冲防护措施。(大楼已有)
UPS输出柜安装德国DHEN三相电涌保护器一套,作为机房UPS供电系统第二级雷击电磁脉冲防护措施。
在机房各UPS输出配电箱分别安装德国DHEN三相电涌保护器一套,作为机房UPS供电系统第三级雷击电磁脉冲防护措施。
(6)接地
机房现采用的接地是共同接地的等电位接地方法(大楼接地)。
8.3空调及新(排)风系统
机房内温、湿度应满足下列要求:
开机时电子计算机机房内的温、湿度
停机时电子计算机机房内的温、湿度
开机时主机房的温、湿度应执行A级。为了确保本机房设备的安全性,建议停机时也执行A级标准。
为了达到机房的洁净度要求,机房的换气次数最好能达到30-50次/小时,一般是在15-30次/小时。
机房现有精密空调十台供机房区域和地下一层UPS机房使用,以保证机房和地下一层UPS机房区域内的服务器设备在标准温湿度环境中工作。机房北区有海洛斯S23UA精密空调四台和力博特CM-30精密空调四台,南区有力博特CM-40精密空调四台,大楼地下一层UPS机房有海洛斯24UA精密空调二台(一主一备的工作方式)。另外,还有大金VRV吸顶空调一台和日立吸顶空调四台供主控室和辅助配套区域使用。
机房北区和南区各有一台28KW的新风机组,开机后新鲜气体的不断涌入,使计算机房里的空气保持一定的清新度。
根据消防安全规定,机房北区和南区还各有一台排风机组,以使火灾发生后,能尽快把机房区域内的烟和废气排到室外。
8.4气体消防系统
机房内采用了FM200(七氟炳烷)气体灭火系统,在同一个区域的消防温感和烟感同时监测到有火灾隐患时消防系统会在30秒后自动喷放气体灭火,并且所用动力配电柜会联动切断市电电源,精密空调、新(排)风机和门禁也会联动切断电源,以使消防气体能有效灭火,喷放出的气体不会对机房区域内的服务器设备造成污染。
8.5集中环控系统
机房内各个区域都敷设了温湿度传感器,用于实时监控机房内的温度及湿度情况。机房北区和南区各敷设了一根漏水报警感应绳,用于实时监控机房活动地板下有没有漏水现象。集中监控系统通过龙控软件,集中式地对温湿度模块、视频摄像头、门禁、配电、专用空调、漏水、消防等环控设备进行管理和监控,以使机房值班人员能实时对环控设备进行监控,发现故障及时处理。
9结论
本文就上海市规划和土地资源管理数据中心的基础架构从技术层面作了较为详细的介绍,随着现在IT新技术的出现和世界环保的要求,在今后的工作中我们将进一步向绿色、节能、低碳环保的方向发展。
参考文献
[1]oracle公司,Oracle 9 Data Guard Concepts and Admnstraton、oracle express,2002
[2]联公司,联网御神州网闸使用手册,2006