【赛迪网讯】IT运维诊断面对面系列活动(八) 传统被动的、孤立的、分散的“救火队”式IT运维管理模式,已经让IT部门疲惫不堪。如何简化IT管理,更好地满足业务需求,已经成为IT部门的一个重大挑战。 为了有效地解决行业用户在IT运维管理方面的困惑,并推介ITIL在IT运维管理中的价值和意义,我刊策划了“IT运维诊断面对面系列活动”,活动特别邀请IBM、HP、CA、BMC等IT服务厂商的资深运营管理专家,深入了解行业用户的IT运维管理现状,切实为用户解疑答惑,并共同探讨IT运维管理方法和经验。 本期邀请国家统计局计算中心网络部运行管理负责人与联盈数码技术有限公司副总经理刘多进行了面对面讲解。 基于ITIL的IT运维管理是一种具有创新理念的运维管理模式。国家统计局在此方面的先行实践,为我们积累了宝贵经验。尤其是,国家统计局顺利完成了ITIL十大流程中最复杂、实施难度最大的一个流程——配置管理。这是目前统计信息系统内配置管理建设中的主要项目。 我的运维故事 时一年零两个月的运维管理和资源分析项目,让实施双方都感到很不容易,但结果令人非常满意。 项目以建立基于ITIL的IT运维管理为目的,建立了一种具有创新理念的IT运维管理模式。尤其是,ITIL十大流程中最复杂、实施难度最大的一个流程——配置管理,在这个项目中得以顺利实现。 这不仅是国家统计信息系统内先行成功实践了ITIL理念的一个项目,也是目前国家统计信息系统内配置管理建设比较完善的一个项目。 牵头实施这个项目的是国家统计局计算中心网络部运行管理(简称“网络部”),实施方是联盈数码技术有限公司(以下简称“联盈数码”)。 实施这个项目的想法由来已久。 困扰之下的酝酿 网络部负责维护统计局的网络和系统环境,需要向包括直报、普查等业务在内的统计系统业务和支撑业务提供稳定、可靠的运行环境。其维护工作主要是监控网络设备、主机、线路、数据库、安全系统等软硬件基础设施。 这些软硬件设施种类繁多、数量庞大。据网络部负责人统计介绍,软硬件设施具体包括关键网络(几十台路由器、交换机和几百条重要链路)、上百台PC服务器、几十台UNIX服务器、存储系统、安全系统、、数据库和应用系统(5000家直报系统、3000家直报系统、企调队、经济普查)等。 他们处理的问题也相对繁杂。问题一般来自于两个方面:一个是设备本身的故障,如覆盖全国64个省级重点城市的广域网络系统的设备故障等。另一个来自于用户端,用户端的问题又分成两部分。一部分是限于北京地区的国家统计局内部办公人员,大概1500人左右,网络部负责他们日常办公应用处理方面的维护支持;另一部分是一些企业或者团体机构,他们是为国家统计局提供数据来源的单位,三万家左右。 如此繁重的运行维护工作,首先面临着人手紧张问题。网络部的维护人员和管理人员一共只有10余人,多数人员都是身兼数职。按照邮件、安全、网络、应用系统等分类,这些人划分成不同小组。每个小组安排1-2个人支持不同的服务需求,比如一位工程师负责处理网络安全问题,另一位工程师处理服务器问题等。每位工程师的工作量都相当饱和。 早在2002年就开始搭购网管系统,建设网管中心。在这个过程中遇到了原有运行维护工作的诸多困扰:这些基础设施来自于多年来大大小小的项目建设,其资源信息分散和记录的不完整,使得网络部不能对其进行统一管理,不能随时了解每台设备的各种详细信息,如使用、维保情况等,不能提供各种分析报表给各级领导,以便决策使用。如何在有限的资源配置情况下提高工作效率、完成工作目标是长期管理中需要考虑的实际问题。另外,解决人员流动所带来的影响也越来越迫切。尤其是,来自领导、业务部门的要求更让网络部觉得必须寻找新的出路。 由于大量有用的信息、经验分散在不同环境、不同人员手中,无法实现对各信息系统的运行状况进行全面统计、分析、判断。管理人员也不能及时、全面的了解统计局的IT资源使用情况,系统运维管理决策支持能力不足。 因此,优化服务流程,提高服务效率,让领导、用户、内部人员满意,成为网络部运维管理中面临的一大挑战。 面对困扰,网络部一直在寻找新的出路,以改进原来的运维管理工作。他们开始陆续接触一些IT服务管理的新理念,如ITIL等,并积极参加相关培训及实践的探索工作。 图1 网络运行部副主任赵明宵演示报表系统 图2 各种配置信息网络结构图 图3 应用系统服务响应时间 图4 网络、主机的使用情况统计表
|
运维管理和资源分析系统
时机成熟
在2002年,网络部初步建立了以HP OpenView为软件平台的网络监控系统。经过两年多的学习、培训和摸索,2004年5月,网络部与联盈数码公司合作实施运维管理和资源分析项目,开始了ITIL实践之路。
2005年7月,系统正式上线运行。一个完善的配置管理数据库(CMDB)正式在国家统计局建成。该配置管理数据库收集、录入了业务系统,硬件(主机,存储,网络,传输),软件,文档,线路,机房环境(机柜,配线架)等信息,共计近万项,同时建立了各种关联关系几千项。通过该配置管理数据库,网络部可以很容易地获得目前IT基础设施状态的准确信息。
配置管理流程也得以实现,规范了配置信息的识别、管理,使得关键的配置信息可以准确地记录在管理数据库中。这算得上目前国家统计信息网络系统配置管理建设比较完善的一个项目。
通过这个项目,网络部重新设计了服务呼叫管理流程,如建立了服务台,设置专人响应各种服务请求;将服务内容细分成5大类,98小类,并根据影响程度和优先级提出不同的响应时间要求;对服务人员的角色分工也进行了优化调整。
目前,网络部的运维管理以流程和制度的方式,保证了维护操作过程中的授权、 审计、跟踪、记录,确保配置信息记录与实际环境的一致性。
此项目还结合OpenView平台开发了报表管理功能,建成了IT服务管理报表系统,提供9大类、78个报表,可以按日、周、月、年对设备基本信息、性能数据、故障信息、安全信息、服务信息进行统计分析,为决策提供支持。
用报表展现运维数据
“报表系统对我们的帮助非常大,相信它对每个人都会很有用。”一边说,网络部负责人一边打开电脑,演示各种各样的服务统计报表(如图1、2、3所示)。
这些报表完整地展现出了网络系统环境运行情况、资产设备配置信息、服务质量、响应时间以及每个人工作量统计情况,让你一目了然地知道每个月的服务情况。
现在,作为领导的网络部负责人根本不用问每个工程师网络、主机系统的运行状况,只要登陆该系统,就可以及时了解设备运行情况、资源使用情况、人员工作负荷、服务质量等指标。
通过对服务管理信息的统计和分析(如图4),网络部还能够了解当前自身的服务能力,发现近阶段的服务质量趋势,同时对于个人服务数据的详细统计,提前让部门领导准确地了解到个人服务能力信息,进而可以通过培训、人员调配等方式,加强服务提供能力。
让大家都满意
项目实施前,国家统计信息管理决策者要查看一个设备的情况,需要网络部手工打印一份资料,再提交给他。现在,他可以直接登陆网上查看每台设备的详细资料,包括什么时候购买、谁在用,出现过什么故障,什么时候需要淘汰等。这对于明年是否采购新设备、采购哪些设备等提供了决策依据。
用户的满意度也大幅度提升,至今没有接收到投诉。现在网络部可以跟踪每一个打过来的用户电话,保证从开始到结束是一个完整的服务过程。
“现在的服务过程一定是可控的,不会失控,因此,服务质量就是可控的。可控的服务怎么能做得差呢?一定不会差的。”
对话
记者:这个项目的特点是什么?项目实施具体包括哪些内容?
刘多:整个运维管理和资源分析系统分为三个子系统:监控系统、服务系统和报表系统。它不是简单的管理工具的堆砌,它是一个有机的整体,紧密结合管理流程、人员和管理工具,通过规范的管理流程、技术手段,实现集中的、全面的管理功能,提升管理水平。
为了使项目顺利执行,按照先后次序,依次进行。首先,使得监控系统尽快到位,以发挥作用,使得运维人员能从日常的工作中抽出时间,参加服务流程系统的规划和实施;其次,报表系统在前两个系统开始一段时间后展开,使得用户在对前两个系统有比较充分的了解后,可以形成更加符合实际要求的报表需求,也可将后续的修改要求降到最低。
从服务管理角度看,这个项目实现了配置管理、服务台、突发事件管理。配置管理是这个项目的一个亮点,因为其实现的难度比较大,而国家统计局已经顺利完成。
改变服务流程
记者:原来12个人在做运行维护,并且按照邮件、安全、网络、应用系统等进行分类。项目实施之后,维护人员的组织结构如何划分?与以前有什么不同? 具体的服务流程是什么样?
网络部负责人:项目实施之后,目前运维人员划分为一线支持工程师(2个)和二线支持工程师(10个)。一线工程师负责接听电话,并解决80%的问题,这些问题的专业性不是很强。如果一线工程师解决不了,可以把这些问题转交给二线工程师。二线工程师仍然按照邮件、安全、网络、应用系统等进行划分,解决的都是专业性比较强的问题。
由于用户不了解后台资源,而一线工程师知道谁擅长某个领域,通过这种方式,用户就不会碰到打电话找不到合适的人来处理等问题,满意度也相应提高。
当然,在服务处理过程中,也需要把服务按照优先级别进行分类。比如说,一些关键业务的应用系统或电子邮件和数据报告的提报系统,是比较高级别的服务类型,因此一旦它们出了问题,我们就要快速恢复应用。一些比较简单的应用,如为PC增加一块硬盘,我们就会把这个问题往后缓一缓。
事情处理之后,按照服务流程,需要把一些故障解决情况记录下来,并保存起来形成一个文档,这个文档也会存放在OVSD中,成为我们的知识,以备下一次使用。这样形成一个循环,知识积累越多。每周、每个月,或者半个月,根据这些内容,我们可以提交一些报表的分析结果,以供分析决策。
记者:一线和二线之间通过什么方式进行联系?
网络部负责人:我们有一个OVSD服务管理系统,他们通过这个系统保持联系。举例来说,如果一线工程师遇到解决不了问题,他不用去二线工程师的办公室找他,也不用给他打电话,也不会口头描述,而是根据要求在网上提交一个表单,填写用户的名称、故障现象、联系方式、希望解决的时间等,然后把这个表单通过网络提交给二线工程师,二线工程师就拿着这个表单去现场处理。
热线专员设置由工作量决定
记者:国家统计局的服务台是否设置了专人接听热线电话?一些企业认为在维护人员比较少比如20人以下的时候,配备专人接听热线电话有点浪费人力,国家统计局在这个问题上是怎么考虑的呢?
网络部负责人:我们是配备两位人员专门接听热线电话,这两位人员也是一线人员。
为什么要安排两位人员呢?具体计算方法是这样的:基本上我们平均每个月的呼叫服务是200件左右,除以22个工作日,每天10件左右;80%由一线人员直接处理,如果每件事情要处理半个小时左右,两个人就差不多够用了。
从每日的呼叫量看,这样安排是合理的。如果再增加一个人接听电话,技术支持人员就不够了,用户的满意度就会有问题。而如果减少一个一线人员,不仅一线员工的工作量超负荷,他接听电话的时间是七个小时,相当于用户永远打不进来。
刘多:热线设置情况要根据企业自身的情况来计算,不是由运维人数的多少决定的,和企业运行维护工作量的大小有关系。
监控目标设置要合理
记者:系统监控是运维管理的一个主要内容,国家统计局是如何实现的?
网络部负责人:应用系统监控的确比较难,这件事情也花了我们大量的精力,一年多都在做这方面的工作。实际上,从服务管理流程来看,我们的障碍并不大,比较顺利就完成了。因为,我们在这方面开展的时间比较长,思想容易统一。统一了观念之后,就可以规定好流程,明确好每个实施步骤,制订好服务级别,确定好提供服务的标准,然后执行。比如现在国家统计局对外公布了11条服务的流程。
但是,监控可不一样。它要求每个管理员把自己管理的设备整理清楚,把每一条我们要求的配置参数一条条地用手工整理出来,只有这样,才能放到监控系统里,这个工作量非常大。另外,由于最初的监控基础比较差,大家对监控的理解也不一致,即到底做监控系统的目标是什么,因此在这个问题上,我们召开了好几次研讨会来讨论,最后终于达成一致。
记者:开始有一些什么样的分歧?
网络部负责人:开始,大家的理解都不一致,我们希望这个监控系统什么事情都能做,但实际上,这是不可能的,必须根据有限的技术条件实现一定的目标。而且,我们设备的数量多,关系复杂,要全部容纳在监控系统中,这个工作量非常大。为此,我们做了好几次动员,做了大量的工作。
记者:据介绍,借鉴ITIL理论,联盈数码公司为国家统计局设计的系统,采用了三层管理模式(如图所示),而面向业务/服务的应用系统监控管理是核心,为什么要采用这样的模式?
刘多:这是结合了联盈数码公司在监控管理方面的经验、IT服务管理方法论和模型而设计出来的。三层架构是一种为了应对IT环境的复杂性而设计的灵活性架构,包括下层的基础结构部件监控,中间的集成管理平台和上面的服务管理。以业务管理为核心的目的是要梳理监控管理的视角,不仅仅是监控IT设备,更重要的是从业务角度来实施监控。
基础结构部件监控的目的是要做到主动发现故障,主动发现配置的资产信息,从而提供数据,包括性能指标数据等,为上面服务管理流程提供相关的管理依据。
配置管理架构设计因地制宜
记者:配置管理架构设计会直接影响到配置管理的效果。在配置管理架构的设计上,不同用户会有不同的结构设计。作为IT服务项目经理,您有哪些好的经验和建议?
刘多:不同用户具有不同的特点,其要求也是不一样的,因此配置管理架构的设计也不一样,包括在设计的深度上,即具体细化到什么程度,这也要根据用户的管理要求而定。
配置管理架构主要指的用户要维护的IT设备的分类,横向看,包括硬件、软件、服务、文档等都可以进行分类;纵向看,就是细化到什么程度,比如硬件可以包括网络设备、UPS、主机,主机又可以再往下细化到显示器、硬盘、键盘等。用户要求的细化程度不一样,与以后的运维需求、人员配备情况和管理能力等都有关。如果细化得越深,维护工作量就越大,但是故障处理的依据就会更多,处理效果也更好。
制订事件的影响程度
记者:在事件管理中,如何制订事件影响的程度?其方法和步骤是什么?具体由谁来制订?应该由哪些人员参与?
刘多:首先将应用系统的各个组成部分进行细分,如软件、硬件、线路等,不断地细分下去,形成一个个可衡量的功能点,如果该功能点出现问题,会影响业务系统的运行,这些问题对于监控系统来说,会有相应的事件产生。
随后,将分析得来的所有事件进行归类,并逐条根据发生的情况,如位置,判定对IT环境中其它部分的影响严重程度,形成一个互相依赖的网络。细分的过程、影响程度的评估,是由系统管理员、应用的开发维护人员和联盈数码的技术人员共同讨论决定的。
从改变观念入手
记者:每一个项目的实施肯定都会遇到很多难题,在实施配置管理的过程中,您是否也面临一些困难?主要是哪些困难?怎么克服这些困难?
网络部负责人:说实在的,实施起来的确非常困难。仅前期的动员会就召开了三、四次。尤其是对员工来讲,真得很困难。因为需要改变他自己的工作习惯,他从过去的传统的工作方式里面出来,进入另外的工作方式,这种习惯是很难转变的。
比如说原来都是手工的、电话的,现在要通过网上,还要重新输入登记。他要增加好多工作量,尤其是每个设备的配置你要重新的输入,需要在完成日常工作之外做这些事情,他们时间上可能完成不了,这个困难是最大的。
但是,我们最终克服了这个难题。首先,我们的上级领导对此比较重视,毕竟领导对管理的重要性认识得比较充分。其次,这实际上是一个思想问题,不是技术问题,这个难点不在于技术,如果是技术问题,我们就买一些技术产品来解决,但是这个不是技术的问题,是人的观念的问题。
怎么转变这个观念?我们做了很多培训。首先给员工做理论学习,给主要的技术骨干做ITSM服务流程管理的培训,先把思想统一了,大家说一样的话,然后逐渐开始做技术培训,刚开始就是统一思想。
我们会告诉员工,新的流程管理模式会给工作带来什么好处。它可以提高整体运维服务的质量,不仅是对用户的服务质量,而且也能很好地提升整个网络系统本身的运行质量。
这个提升后的服务水平是稳定的,不是今天好、明天不好。它是可控的,而以前是不可控的。比如突发事件,以前员工每天都在处理突发事件,现在有了监控系统之后,我们所有的设备都在监控系统里面,它每天正常或不正常,只用查看一下监控系统,就可以一目了然。
成功的关键因素
记者:在IT运行维护中引入IT服务管理理念,这就是一个比较勇于革新的行为。尤其是许多都没有做配置管理,因为其难度比较大。这也是项目的亮点。国家统计局为什么能顺利实施?
网络部负责人:其实,这件事情我们已经想了很多年了。2002年第一次上网管系统的时候就有这个想法,希望通过网管系统把现在管理的设备有效地管理起来。所以几年来我们一步一步地开展这项工作。首先,领导的决心大,是该项目顺利实施重要因素。当然,这确实需要付出代价的,要做好各种思想准备,因为可能会听到抱怨,可能会影响我们现在的工作,也可能经费不足使项目停下来,种种情况,我们都要考虑到。
其次是沟通做得比较好。各个层面沟通,所有与项目关联的沟通都非常重要。
最后是基础比较好,前几年,国家统计局做了很多尝试,前期面临的问题还要多一些,但是到做这个项目的时候,已经在员工、领导中有了比较好的基础。
刘多:我觉得这个项目的成功的关键因素有有三点:领导重视,大家积极配合,一个科学的、好的方法。尤其是,国家统计局的领导比较重视,一般服务管理项目都涉及流程的改变、工作职责的变化,这对员工来说是很困难的,而几个领导都非常重视和支持。在实施方法上,项目采用分步走的策略,不是一步到位;另外,要为用户设计合理的目标,不能超越自身的服务能力,去实现一个非常完善、非常理想化的目标,这是不可能的。
记者:这个项目做完了,下一步有什么打算?
网络部负责人:这个项目只是国家统计局IT服务管理的第一步。要做好配置管理,必须还要做变更管理,因此,变更管理、问题管理等是下一步要解决的几个服务管理流程。