从信息工程监理角度看IT运维管理
来源:通信世界杂志 更新时间:2014-04-27

在大规模的信息化建设完成后,将面临长期的系统运行维护的问题。在IT项目的生命周期中,大约80%的时间与IT项目的服务和运营有关。
1.引言
    经过十年的信息化发展,国内很多行业的很多单位都已经实现了一定程度的信息化。在大规模的信息化建设完成后,将面临长期的系统运行维护的问题。在IT项目的生命周期中,大约80%的时间与IT项目的服务和运营有关。
    如何维护已经建成的信息系统,成为信息化建设走向良性循环发展轨道的重点。作为信息工程监理单位,一般完成项目验收就结束了监理工作,但随着市场需求的不断扩大,监理公司顺应市场,已经将业务扩展到了运维阶段的监理,本文将说明信息工程监理如何进行IT运维管理。
2.IT运维现状
    根据高德纳咨询公司(GartnerGroup)的调查发现,在经常出现的问题中,源自技术或产品(包括硬件、软件、网络、电力失常及天灾等)方面的问题其实只占了20%,而流程失误方面的问题占40%,人员疏失方面的问题占40%。流程失误包括变更管理没有做好、超载、没有测试等程序上的错误或不完整,人员疏失包括忘了做某些事情、训练不足、备份错误或安全疏忽等。201421785538734.jpg (564×315)
 
图1 IT系统出现故障原因分析图
    从世界范围看,IT部门面向内部的最终客户提供服务的历程可以分为四个阶段,如图2所示:
  201421785539580.jpg (553×325)
图2 IT部门演变历程图
    第一阶段是救火队阶段,哪里出了问题赶快派人到哪里,有时候会忙得焦头烂额,响应也不及时,打电话找不到人,最终客户满意度不高;第二阶段是为了提高客户满意度,很多企业逐渐设置了专门的热线服务,受理故障申告后,及时安排工程师处理,跟踪故障处理过程及时反馈最终客户,客户满意度逐渐提高;第三阶段是集成的服务和运行中心阶段,其显着特征是在HELPDESK的基础上,进行了几个方面的优化和改进:一是在故障处理的基础上进行了问题管理,采取措施分析故障根源,解决故障隐患,二是服务过程流程化,三是增加了变更管理、资产配置管理、服务水平SLA管理等内容。同时,必须有一个良好的服务管理系统的支持,不仅仅是网管监测系统,服务台/服务热线在接到客户的保障后,马上就知道当月已经发生的故障历时,并确定这次故障的优先级别;第四个阶段是主动维护管理和自动维护管理。IT系统能够自动报告,SLA与其对业务的影响紧密相关。
    目前,中国的很多企业还处于第一、二阶段,刻不容缓的工作是对客户的服务要尽快提升到一个更高的水平。
3.信息化管理体系建设内容
    IT运维管理体系要真正发挥效益,避免“为技术而技术”,需要融合人、流程、技术。根据信息化的发展要求,赛迪监理认为配套的管理措施应包括组织模式、管理制度、管理流程、绩效考核、运维费用、技术支撑等内容。
    3.1 组织模式
    监理单位应协助信息中心从全局的角度定位IT运行维护和服务工作,将中心目前分散进行的各项IT运行维护和服务的工作职能逐渐整合,进行集中统一管理,统一调度IT运行维护和服务的技术力量,并结合信息中心实际情况和管理需要进行配套的组织机构的设置和逐步完善。
    第一,成立IT运维管理领导小组。初期可以成立由信息中心领导和各处(室)负责人组成的IT运维管理协调小组,从总体上负责IT运行维护和运维管理的统一组织协调,监督检查各处室服务质量;将来根据IT运维管理发展,可以成立由部领导、中心领导和业务司局领导组成的信息化治理领导小组。
    第二,建立面向用户的服务接口。初期以服务台为统一服务接口,不断扩充与完善服务台的功能,统一受理客户的IT服务请求,记录问题并及时解决,对解决不了的较为专业的问题派发给专业的技术人员,各相关处室提供技术支持,并明确相关技术支持人员及职责;将来逐步建立独立的IT运行维护和服务机构(运维中心),专门负责IT运维和服务工作,合理划分建设与运维的边界,实现建设与运维的分离。
    第三,设置合理的组织机构。初期保持目前组织机构和职责不变,进一步理顺关系;将来随着信息化发展和管理成熟度的不断提升,逐步建立起完全适应体系运行的IT治理组织机构。
    3.2 管理制度
    赛迪监理认为管理制度是指IT运行维护和服务工作必须遵循的内部管理规定,用于提高工作的协调性和管理的有效性。借鉴IT运维管理体系国际标准标准ISO20000要求,管理制度分为“纲领性办法”、“分项办法”、“实施细则或操作指南”和“配套表单”四个层次,见图3。
  201421785539621.jpg (515×295)
图3 管理制度级别图
    第一级:制定涵盖信息中心IT运维管理全过程的纲领性总体办法《IT运维管理办法》,作为指导IT运维管理工作开展的统领,内容涵盖IT服务全过程的管理控制点和人员管理等核心内容,包括IT运维管理模式、归口管理、组织结构与职责、人员岗位与职责、IT运维管理工作规划与执行、预算保障、绩效评价等方面的管理规定。
    第二级:结合IT服务的实际情况,针对管理工作需要而制定的具体管理分项办法,范围涵盖系统、网络、机房、桌面、设备备品备件及耗材、文档等,明确管理职责与规范操作流程。
    第三级:在第二级分项办法的基础上,按照精细化管理需要,对某些方面的运行维护工作的具体实施过程与操作程序做出的细化准则或指南。
    第四级:配合第一、二、三级制度的执行而配套制定的表单等,用于记录、备案人、物、行为等信息。
    3.3 管理流程
    管理流程是指为达到既定的IT运维管理目的而组织起来的逻辑上相关的有规律性并可重复的活动。赛迪监理认为可以借鉴IT运维管理国际最佳实践ITIL,将IT运维管理分为服务支持和服务交付两大部分;根据信息中心的管理需要,分阶段建立相关流程。先期建立服务台和事件管理、问题管理、变更。
    3.4绩效考核

为实现IT服务精细化管理的目标,提高管理制度和管理流程的执行力,赛迪监理认为绩效考核是非常重要的管理手段;绩效考核从信息中心IT运维管理体系的目标出发,按照体系、流程和岗位角色分解,形成IT运维管理体系关键绩效指标(KPI)-流程KPI-角色岗位KPI”三层相互关联的绩效考核指标体系,见下图3-2。201421785539360.jpg (558×354)图3-2三层绩效考核体系

3.5运维费用

运维费用是IT运维管理体系持续运行的资金保障。随着信息化建设的逐渐深入,信息化工作将逐渐由建设转向以应用为主的运行维护阶段。为保障业务应用系统的有效运行和IT服务质量的提高,实现IT服务精细化管理的目标,为业务提供信息化支撑,科学进行运维费用管理非常重要;

运维费用管理清晰定义运维费的构成要素,规范运维费用预算的口径和标准,使其与信息化建设费用、日常公用经费区分。在运维费预算的基础上,要按照中心财务制度规范运维费预算的执行,保障运维工作有序开展。基于预算执行结果,进一步指导信息中心运维管理工作,最终实现“运维预算-核算(预算执行)-结算”全过程管控。 3.6技术支撑

监理在执行运维监理过程中主要利用技术支撑体系进行监控,包括以下三个层次:展示层、流程及业务运维管理层、集中监控层。

展示层:提供对用户的IT运维管理界面与对技术人员的体系管理控制界面,在运维管理界面上实现集中运维的统一管理功能和信息展示与交互。

流程及业务运维管理层:在集中运维管理模式下实现流程执行和管理控制功能、业务运维管理功能。

集中监控层:通过监控工具实现对不同服务对象和IT资源的实时监控,包括主机、数据库、中间件、存储备份、网络、安全、机房、业务应用(以下简称“应用”)和客户端等技术支撑管理子系统,并通过集中监控管理平台对不同被管对象的技术支撑管理子系统进行综合处理和集中管理。

4.赛迪监理对ITIL的初探

4.1背景

作为2001年由英国政府计算机和电信中心(CCTA)整合而来的英国商务部,从20世纪80年代开始就致力于研究和解决“IT服务质量不佳”的问题。1989年,CCTA发布了一套10卷本的IT服务管理指南,这10本书系统地介绍了根据“最佳实践”归纳和总结的10大IT服务管理核心流程,这就是ITIL1.0版本。

2001年,OGC对ITIL1.0进行了修订和扩充,将原来的10本指南合编为《服务提供》和《服务支持》两本书(共同构成ITIL6大模块中的“服务管理模块”)。此外,增加了应用管理、安全管理等其他5个模块。这6个模块构成了ITIL2.0版本。

20世纪90年代后期,ITIL的思想和方法,被美国、澳大利亚、南非等国家广泛引用,并进一步发展。2001年英国标准协会(BritishStandardInstitute)在国际IT服务管理论坛(itSMF)年会上,正式发布了以ITIL为基础的英国国家标准BS15000。

2002年,BS15000为国际标准化组织(ISO)所接受,作为IT服务管理的国际标准的重要组成部分。目前,ITSM领域正成为世界IT巨子、政府、企业和各界专家广泛参与的新兴领域,对未来的IT走向和企业信息化,将会产生深远的影响。

4.2对ITIL的理解

ITIL作为一种以流程为基础、以客户为导向的IT服务管理指导框架,它摆脱了传统IT管理以技术管理为焦点的弊端,实现了从技术管理到流程管理,再到服务管理的转化。

在ITSM(IT服务管理)领域,受到广泛关注和欢迎的企业信息化“最佳实践”,是以“流程”为主线,以标准化为框架,以管理为核心的。

ITIL核心包括IT服务提供(ITServiceDelivery)和IT服务支持(ITServiceSupport)两大体系,如图所示,ITIL的核心是服务管理模块,即服务支持和服务提供两个子模块中包括的十个典型服务管理流程和一个服务管理职能。201421785539371.jpg (578×341)图4-1ITIL核心示意图

4.3服务支持流程之间的关系

服务支持流程主要面向用户(End-Users)。它用于确保用户得到适当的服务以支持组织的业务功能。服务支持流程包括,体现服务接触和沟通的服务台职能和5个运作层次的流程,即事件管理、问题管理、配置管理、变更管理和发布管理。这5个服务管理流程的主要职能是,确保IT服务提供方(ITServiceProvider)所提供的服务质量,符合服务级别协议(SLA)的要求。201421785539797.jpg (562×400)图4-2服务支持流程之间关系图

事件管理:所谓事件是指任何不符合标准操作、且已经引起或可能引起服务中断和服务质量下降的事件。事件管理的目的就是在出现事件时尽可能快地恢复服务的正常运作,避免其造成业务中断,以确保最佳的服务可用性级别。为了实现这个目的,事件管理流程必须最佳地利用资源支持业务、开发和维护有效的事件记录以及设计和应用统一的事件报告方法。

问题管理:问题是导致一些或多起事件的潜在原因,问题管理就是尽量减少服务基础架构、人为错误和外部事件等缺陷或过失对客户造成影响,并防止它们重复发生的过程。发生事件并不一定表明存在问题,问题也不一定要等发生事件后才能发现。

事件管理和问题管理的目标是相同的,但两者的侧重点不同。前者是强调“尽快恢复服务”,为此可以采取各种各样的措施,包括一些临时性的措施;而后者强调“从根本上解决问题”,即让事件不再发生,或者即使发生也有很好的应对措施。

变更管理:变更是指对IT基础架构组件(包括硬件、网络、软件、应用、环境、系统及相关文档)进行增加、修改或移除。变更管理的目的是使用标准方法和规程来快速有效地处理所有变更,以减少事件对服务的影响。

配置管理:配置管理是识别和确认系统的配置项,记录和报告配置项状态和变更请求,检验配置项的正确性和完整性等活动构成的过程,其目的是提供IT基础架构的逻辑模型,支持其它服务管理流程特别是变更管理和发布管理的运作。为此,配置管理需要计量所有IT资产,为其它流程提供准确的信息,为事件管理、问题管理、变更管理和发布管理提供基础,验证基础架构记录并在必要时纠正有关记录。

发布管理:发布(版本)是指一组经过测试后导入实际运作环境的新增的或经过改动的配置项。发布管理的目的是为了保证发布的成功,主要应用于大型的或关键硬件、主要软件及打包或批处理一组变更。

4.4服务提供流程之间的关系

服务提供流程主要包括服务级别管理、IT服务财务管理、能力管理、IT服务持续性管理和可用性管理5个服务管理流程。由于这些管理流程必须解决“客户需要什么”、“为满足客户需求需要哪些资源”、“这些资源的成本是多少”、“如何在服务成本和服务效益(达到的服务级别)之间选择恰当的平衡点”等问题,因而服务提供所包括的这5个核心流程均属于战术层次的服务管理流程。201421785539112.jpg (556×370)

图4-2服务提供流程之间的关系图

服务等级管理:服务等级管理是有关定义、协商、签订和测评提供给客户的服务的质量水准的流程。服务等级协议中说明了有关所提供的服务和这些服务的质量水准,并规定了服务双方各自的责任、权利和义务。服务等级管理是IT服务成功运作的重要保障。

就像服务台是服务支持各流程的“联系点”一样,服务等级协议是服务提供各流程的连接处,它定量说明了IT服务过程中的财务、持续性和可用性等方面的数据指标,并规定当这些定量指标没有被满足时的处理方法。同时,服务等级协议还详细说明了处理事件的升级方法。

IT服务财务管理:IT服务财务管理是负责预算和核算IT服务提供方提供IT服务所需的成本,并向客户收取相应服务费用的管理流程。

IT服务财务管理流程包括IT投资预算、IT服务成本核算和服务计费三个子流程,其目标是通过量化服务成本减少成本超支的风险、减少不必要的浪费、合理引导客户的行为,从而最终保证所提供的IT服务符合成本效益的原则。IT服务财务管理流程产生的预算和核算信息可以为服务级别管理、能力管理、IT服务持续性管理和变更管理等管理流程提供决策依据。

IT服务持续性管理:IT服务持续性管理是指确保发生灾难后有足够的技术、财务和管理资源来确保IT服务持续性的管理流程。IT服务持续性管理关注的焦点是在发生服务故障后仍然能够提供预定级别的IT服务,从而支持组织的业务持续运作的能力。因此,IT服务持续性管理必须立足于组织的业务持续性管理。

可用性管理:可用性管理是通过分析用户和业务方的可用性需求并据以优化和设计IT基础架构的可用性,从而确保以合理的成本满足不断增长的可用性需求的管理流程。

可用性管理是一个前瞻性的管理流程,它通过对业务和用户可用性需求的定位,使得IT服务的设计建立在真实需求的基础上,从而避免IT服务运作中采用了过度的可用性级别,节约了IT服务的运作成本。

能力管理:能力管理是指在成本和业务需求的双重约束下,通过配置合理的服务能力使组织的IT资源发挥最大效能的服务管理流程。

能力管理流程包括业务能力管理、服务能力管理和资源能力管理三个子流程,其中业务能力管理子流程主要关注当前及未来的业务需求,服务能力管理子流程主要关注当前IT服务的品质是否能够支持正常的业务运作,而资源能力管理子流程主要关注所有服务提供赖以进行的技术基础,确保IT基础设施中所有组件能发挥最大的效能。

5.结束语

本文从国内到国外信息化发展趋势来看,充分说明了信息化工程的未来市场将着眼于运维管理服务,因此,信息化监理工作在运维阶段的作用充分体现出实质性监理的工作水准,赛迪监理将监理工作从过去的全天候监理转型为全过程实质性监理,利用超前的工作理念,先进的管理工具,结合多年的项目经验立足于信息化后时代中。