摘 要 本文简要介绍了风险管理的方法,描述了基于风险管理电力系统安全监控中心的组成部分,讨论了其三级应急响应流程。该监控中心以资产为基础,对安全事件进行了关联分析,能快速准确地定位故障,提高了安全防护体系的效率,实现了可管理的安全。
关键词 风险管理 资产 安全事件 应急响应
一、建立安全监控中心的必要性 随着电力系统安全防护体系建设工作的开展,防火墙、入侵检测系统IDS、防病毒、电力专用安全隔离装置、数字证书管理系统、数据加密等安全技术和产品得到了广泛应用,虽然这些安全产品发挥了一定的作用,但也存在着如下问题:
(1)安全事件不能及时准确发现,如网络设备、安全设备、应用系统每天都会产生海量的安全事件,这些事件报警中存在着大量的误报,同时对未知病毒、未知网络攻击、未知系统攻击等问题存在漏报,而且对多个安全系统的日志不能进行自动实时审计,人工地对这些系统的大量日志进行实时审计、分析就流于形式了,这样使得很多安全事件不能及时发现。
(2)安全事件不能准确定位。各个安全事件孤立、相互之间无法形成很好的合成关联,一个事件的出现往往不能定位到真实问题,如未知病毒的攻击,网络病毒和主机病毒的表现就不一样:网络病毒大都表现为流量异常;主机病毒的表现大都为CPU异常、内存异常、硬盘空间异常、文件的属性和大小改变等。要发现这个问题,需要关联流量监控(网络病毒)、关联服务器运行状态监控(主机病毒)、关联完整性检测(主机病毒)来发现,必须将多种因素结合起来才能更好分析,快速定位真实问题并及时恢复正常。
(3)没有有效的事件处理查询机制。没有对安全事件处理的整个过程作跟踪记录,安全部门主管不了解哪些管理员对该事件作了处理,处理结果过程没有做记录,处理的知识经验不能得到共享,导致下次再发生同类事件时,处理的效率低下。
(4)缺乏专业的安全技能。系统管理员发现问题后,因为安全知识的不足导致事件迟迟不能被处理,影响网络和系统的安全性、延误网络和系统的正常使用。
安全监控中心是通过一个集中管理平台[1],收集整合来自网络和系统的大量数据,并且从这些海量数据中提取用户关心的数据,帮助用户对这些数据进行关联性分析和优先级分析,提供安全事件的快速、准确定位功能。因此,在电力系统中,建立这样的安全监控中心,实现对各种网络和系统安全资源的集中监控、统一策略管理、智能审计及多种安全功能模块之间的联动,简化信息安全管理工作,提升网络和系统的安全水平和可控制性、可管理性,是非常必要和紧迫的。
二、风险管理 风险管理就是一个风险评估[2]的过程。电力系统风险评估是对电力网络拓扑结构、重要服务器的位置、带宽、协议、硬件、与Internet的接口、业务系统的配置、防火墙、入侵检测系统等安全设备的策略配置等进行安全漏洞、安全威胁及潜在影响进行全面分析,以提出合理的安全建议以保证电力企业资产的机密性、完整性和可用性等基本安全属性。通过风险评估,可以了解目前电力网络系统安全情况和存在的各种安全风险,并以此为依据有针对性地制定安全策略和解决方案,针对系统中存在的各种安全风险进行相应的网络安全技术和安全产品的选用和部署,并根据风险评估的结果指导电力企业下一步的信息化建设。
电力系统风险管理主要分以下四步:
(1)资产调查和赋值,资产[3]包括物理资产(处理器、监视器、笔记本电脑、调制解调器等计算机设备、路由器、交换机、传真机、录音电话等通信设备、磁带和磁碟等磁介质、还包括电源、空调、办公用品及场地等)、信息资产(数据库及数据文件、系统文件、用户手册、培训材料、操作或支持程序、连续性计划、后备安排和文档信息等)、软件资产(应用软件、系统软件、开发工具和资源库等)、人员资产(各级管理人员、普通员工、合同工等)、服务(WWW、SMTP、POP3、FTP、Telnet、DNS、呼叫中心、内部文件服务、网络连接、网络隔离保护、网络管理等)、其它(企业形象、客户关系等)等若干层面。资产赋值通常需要考虑资产机密性、完整性和可用性等安全属性,赋值的方法有定性、定量和半定量三种,资产评估后形成一个资产库。
(2)漏洞评估是对每项资产具有的安全漏洞进行分析,对漏洞被利用的难易程度赋值。漏洞的获取可以有多种方式,如:工具扫描、人工审计、白客渗透测试等。漏洞评估后形成一个漏洞库,包括漏洞级别及相应解决方案。漏洞库包含已公开的各系统和应用的漏洞,既包含技术层面的漏洞,也包含管理层面漏洞。
(3)威胁评估是对资产潜在威胁和可能入侵给出全面的分析,潜在威胁主要是根据每项资产的安全漏洞而引发的安全威胁。通过对威胁发生的可能性和造成后果的严重性来对威胁进行高、中、低这三个等级的赋值。通过分析,形成一个威胁库。
(4)风险计算,风险值可以利用资产价值、漏洞严重性、威胁可能性以及措施有效性等多个取值计算得到,通过风险计算,可以形成风险库。
三、电力系统安全监控中心的总体框架 基于风险管理的电力系统安全监控中心由受监控系统风险评估、事件生成器、事件收集格式化器、事件库、关联分析引擎、知识库、控制台、端用户Portal八部分组成,总体框架如图1所示:
图1 基于风险管理的电力系统安全监控中心的总体框架
(1)受监控系统风险评估模块主要是对所监控系统(操作系统、网络设备、电力应用系统、安全设备等)的安全性进行评估,首先列出系统的技术和管理方面的资产清单,并把这些数据存放在电力系统安全知识库的资产库中;把评估发现系统存在的漏洞(结构性、功能性、网络拓扑等)存入安全知识库的漏洞库中;把评估所得的系统存在的威胁存入安全知识库的威胁库中。在这些数据库的基础上,风险评估模块提供多种查询方式、统计分析和维护手段,保证信息的实时性和准确性。电力系统风险评估是安全监控中心的核心之一。
(2)事件生成器模块主要是产生原始事件,把这些事件直接或经过预过滤(基于安全策略、入侵检测系统的探头等)传给事件收集格式化器。
(3)事件收集格式化器模块首先经过Syslog、SNMP、HTTP/XML等协议(可称为协议Agent)收集原始消息,并把这些消息传给事件转发器;事件转发器的作用是确定事件源并把原始消息转发给相应的应用Agent;应用Agent对各种格式的原始消息进行过滤和正则化,对各产品定义的不同级别的告警进行整合,形成统一格式的消息,并把结果存入事件库中。
(4)事件库主要是存储经过格式化的标准消息、系统状态和一些告警信息。
(5)关联分析引擎模块主要任务是建立一个上下文环境,以对复杂的消息序列进行结构分析、功能分析、行为分析等深入分析,通过特征匹配、异常分析等多种模式分析方法对安全事件进行判断,通过一定措施降低误报/漏报率,这样可以准确找出事件发生的真正原因。
(6)电力系统安全知识库模块包括漏洞库、威胁库、安全策略、资产库、补丁库。其中,安全策略是根据风险评估提供的风险状况描述和安全需求,由安全管理小组完成以保证对网络和系统状况和安全需求的把握,是电力企业所有安全行为所必须遵循的准则。安全知识库可以用于提供知识共享、安全论坛以及培训课程等,是电力系统员工安全素质培训与安全意识提高的基本保证。安全知识库模块提供多种方式的查询、排序和修改功能,以方便用者或其它功能模块检索和提取信息。
(7)控制台模块主要是内部分析并表示事件库中的数据,它包括实时监控、事件处理和统计分析等模块。实时监控提供事件库中消息部分的原始消息,实时监控也可以过滤一些调试信息,以深度分析特定的事件和回放事件;事件处理是一个产生事件标记和应急响应流程的内部引擎,它可以提供报警消息和一些调试信息;统计分析主要生成安全行为统计的短、中、长期数据,可以用图形来表示。
(8)端用户Portal模块提供从安全管理员、安全主管到高级领导的多级报告,它包括安全评价、安全行为、响应措施和事件工作单系统4个部分。安全评价提供所监控系统当前的安全级别、漏洞特征、入侵情况、补丁及配置细节等安全状况;安全行为提供所监控系统的入侵类型、频率、源和后果的中、长期报告,用于确定按趋势和识别攻击在发生的可能性;响应措施表示当攻击发生时所采取的措施,如启动应急处理流程,断开网络连接,限制攻击并发起反击;事件工作单系统是对于与安全知识库中不能匹配的或在规定时间内不能处理的安全告警事件,将发出安全事件工作单,进入安全技术专家处理流程。
四、电力系统安全监控中心安全事件的应急响应流程 基于风险管理的电力系统安全监控中心建设除技术之外,还有一个非常重要的部件就是运行维护人员、应急响应小组和专家队伍,并且需要相应的管理制度和应急处理流程。安全事件的应急响应可以分为三级:第一级是安全值班员,负责7x24小时的安全事件监视,按照安全事件的处理指南和知识库处理已知的安全告警事件;第二级是安全专家小组,由电力企业内部的安全专家和网络和业务系统的专家组成,负责对第一级发现提交的未知安全事件进行分析判断,完成绝大多数安全事件的处理,对不能及时找到完整解决方案,需要在将该问题提交第三级以外,还必须及时找到临时解决方案。负责撰写安全问题处理指南,用以指导第一级安全值班员的工作;第三级是电力系统安全实验室,负责针对重大安全隐患和网络攻击进行诊断,同时还负责撰写安全事件分析报告,提交安全策略和配置的变更建议。对于第一级和第二级应急响应体系,因为涉及到详细的核心业务资源和流程,对于电力系统这样的国家基础设施应该各自内部解决,自己培养一只既熟悉业务又精通信息安全的专家队伍,保证可以做到依靠自己的力量提出信息安全需求、规划和进行风险评估,优化企业的安全策略,总结安全事件和安全问题的处理经验,保证企业自己就能够处理大多数的安全事件。应急处理流程的每个环节需要定义一个最大延迟时间,在最大延迟时间内采取有效的处理措施;超过最大延迟时间还没有采取相应措施的情况下,应该立即进行安全事件升级,进入到更高级别的处理阶段。
电力系统安全监控中心安全事件的应急响应流程如图2所示。
图2 电力系统安全监控中心安全事件的应急响应流程
首先,安全监控中心的分析引擎对所监控到的安全事件进行分析,第一级安全值班员启动事件工作单系统,若该事件为已知告警事件,安全值班员自己从安全监控中心的知识库中找到解决方案,并进行事件处理。若该事件不能与安全知识库的已知告警相匹配或在时间t1内不能解决的,就通过工作单系统产生事件工作单,进入第二级安全专家处理,第二级经过深入分析,根据安全事件对业务系统的影响程度,判定其优先级。如果第二级及时发现了安全事件的根源,找到了解决方案,就执行该方案,事件处理完后应该及时更新知识库,并通知第一级和第三级,提高他们的技能水平。如果在规定时间内,第二级安全专家也没有找到有效的解决方案,就提出临时解决方案,并通知请示安全监控中心的管理者,待批准后,与第一级安全值班员一起,执行该解决方案,处理完毕后,记录事件工作单的处理结果。同时第二级的安全专家把该安全问题提交给第三级电力系统安全实验室;第三级的安全实验室根据该安全问题的严重程度,对其进行模拟和测试,寻求解决该问题的最终解决方案。找到最终解决方案后,需要更新电力系统安全监控中心的安全知识库,同时对第二级安全专家和第一级安全值班员进行知识转移。
实现可管理的安全和从海量的安全事件中提取用户关心的事件是安全管理领域的两个最具有挑战性的问题。以电力系统的资产为核心,基于风险管理的电力系统安全监控中心实现了安全技术和管理的有效结合,可以为各级安全管理人员提供接口,提高了安全事件的应急响应处理能力,同时降低了管理成本,最大限度地提高安全防护体系的效果和效率,为用户实现了可管理的安全。因此,基于风险管理的安全监控中心必将应用得越来越广泛。
参考文献
[1]姚键,叶保留等.安全管理研究综述. 计算机科学,2004,Vol.31.No.8
[2] Information Security Management BS 7799:1999.
[3] TECHNICAL REPORT, ISO/IEC TR 13335 Information technology-Guidelines for the management of IT security. |