前言:
2017年5月,由国家发改委主管、国家信息中心主办的《信息安全研究》期刊特别策划,以信息安全国际合作为主题,推出微软中国专题栏目。期刊邀请了微软公司资深副总裁、微软大中华区董事长兼首席执行官柯睿杰、微软亚洲研究院主管研究员朱斌、世纪互联蓝云技术运维总经理汤涛、微软中国首席安全官邵江宁和微软亚太研发集团法律事务总经理罗立凡等人撰写论文。其中,世纪互联蓝云技术运维总经理汤涛在《云服务的安全运维平台》一文中展现了世纪互联蓝云在云安全领域的实践,并向业界介绍了如何打造世界一流本土可信云的经验。
早在2015年1月,国务院印发《关于促进云计算创新发展培育信息产业新业态的意见》,为促进创业兴业、释放创新活力提供有力支持,为经济社会持续健康发展注入新的动力。《意见》提出,要加快发展云计算,打造信息产业新业态,推动传统产业升级和新兴产业成长,培育形成新的增长点,促进国民经济提质增效升级。到目前,我国云计算服务能力大幅提升,创新能力明显增强,在降低创业门槛、服务民生、培育新业态、探索电子政务建设新模式等方面取得积极成效,云计算数据中心区域布局初步优化,发展环境更加安全可靠。预计到2020年,云计算将成为我国信息化重要形态和建设网络强国的重要支撑。
云计算是一种新兴的计算模型,它是在网络计算的基础上发展起来的,目前已经在社会各个领域发挥着多方面的作用,从支持网站的发布,支撑企业应用,移动互联网,物联网,大数据等等这些往往在底层都离不开云计算的支持。云计算本质上是一种按使用量付费的服务模式,类似于水电等公共服务,这种服务模式可以为用户提供无所不在、便捷的、按需的网络访问,进入可配置的计算资源共享池(这些资源包括网络,服务器,存储,应用和服务),这些资源在只需投入微乎其微的管理工作,或与云服务提供商进行极少的交互就能被快速获取或者释放。
云计算作为一种服务,必然会深刻影响和改变软件开发、软件架构、软件测试、系统运维等包括整个软件生命周期的各个阶段各个方面。随着云计算的不断发展壮大,云又可以按照共享的模型分为公有云、私有云和混合云等。本文从多个角度多层面探讨公有云的云运维,云安全以及与传统IT运维的关系和区别。
云运维时代的变迁
由于云计算服务与传统的IT的计算有所不同,传统IT是硬件厂商提供硬件,平台软件服务商提供平台软件,应用软件服务商提供应用软件,通常由企业IT部门负责企业的这些硬件、平台软件和应用软件的运行维护。而在云计算应用场景中,这些运行维护通常就会切分成由云计算服务商和企业IT部门分别负责各自的服务。一般而言,由云服务商负责机房、网络硬件、服务器硬件、云平台、虚拟机以及一些相关的网络服务等组成部分的运维;而由用户负责虚机内的操作系统,应用程序等的运行维护。由于云本身通常又分为三层,即基础结构即服务(Infrastructure as a Service,IaaS)、平台即服务(Platform as a Service,PaaS)和软件即服务(Software as a Service,SaaS),在云服务这3个层面,云服务商和用户各自负责的部分又有差异,如下图所示:
传统软件应用与云应用
其中,IaaS在虚机及虚机以下,皆由云服务商负责运维,而虚机内的操作系统以及之上的部分则由用户自主负责管理。对于PaaS而言,在运行时以及以下部分,是由云服务商负责运维,而用户只需要负责数据和应用。如果是使用SaaS,对于用户而言,就会变得相对简单,因为用户基本上不需要负责与应用相关的任何运维,都是由云服务商提供,也就是说就这些系统而言,用户的IT部门基本上不需要任何相关的运维。
因此,在云时代,就IaaS和PaaS而言,传统的IT运维发生了根本性的变化,原有的运维体系切分成两部分,云平台部分由云运营商负责,而云平台之上的部分则由用户的IT部门负责。对于SaaS,传统的IT运维则完全转移到云运营商负责。
同时对于云服务商而言,为了满足多用户的不同需求,使得云平台底层硬件和数据中心的规模都需要扩大,数据中心机房、机架、核心路由设备和服务器等硬件基础设施也需要相应地投入,这就与之前传统互联网数据中心(Internet Data Center,IDC)的运维又不一样。正是由于云服务需要大量的物理基础设施,因此,对于传统的IDC在业务模型上向云转移更有得天独厚的优势,同时由于云业务的兴起和蓬勃发展,也在一定程度上倒逼传统的IDC在云业务方面通过多种不同方式在转型。
云运维与传统运维
传统IT运维本质上而言是面向单服务器机或者服务器聚群的运维,而云运维则是相当于把整个数据中心,甚至多个数据中心当成一套大而全的物理硬件设备,在其上部署云操作系统,实现在云操作系统的虚拟主机内部署客户的应用程序,如下图所示:
传统IT运维与云运维
由此,传统IT运维向云运维的转变就不再是简单的单服务器到多服务器,而是涉及大规模硬件,云操作系统,虚拟主机,虚拟网络,跨虚拟主机的协同等等多层面多方位的增加。同时云服务的业务模型也决定了云运维与传统运维的差异,本质上云运维是综合了IDC基础设施运维和企业级IT运维,涉及面从底层IDC基础设施运维,即业内常说的风火水电等,到服务器物理硬件,再到云操作系统,然后是虚拟网络、虚拟机等等,一整套全方位多层面的运维体系。如果直接给一个相应的定义,云运维就包含了IDC基础设施运维、传统企业级IT运维的底层部分,当然其规模要大出很多,以及云业务相关的一系列外围系统。由于云业务与传统IDC以及企业IT业务也完全不同,因此,还需要很多额外的外围系统作为云业务的支撑,这些系统也是云运维的一个重要组成部分。这些外围系统通常就包括业务和运维支撑服务系统(Business and Operation Support Service, BOSS),或者也会经常拆分开来成业务支撑服务系统(Business Support Service,BSS)和运维支撑服务系统OSS(Operation Support Service,OSS),如下图所示:
云服务模型
在云时代,运维模型发生了根本性变化,云技术提供商与传统解决方案技术提供商类似,但是由于云本身的特殊性,需要不断的在生产环境,即云环境中不断升级底层应用系统。这就使得云技术提供商需要更多的团队来管理和分发部署包,而且是在生产环境中升级,不像之前企业级IT运维那样,可以随时对某部分服务器停机来升级,就有点类似于给行驶中的汽车换轮胎,需要多工种一起协同才能达成。这样就需要增加很多的不同的角色来负责协调和管理,比如云服务整合经理和云服务提供经理等等诸多传统IT并不需要的一些角色。云产品交付后,也不再是直接交给用户去使用和运行维护,而是交付给云服务提供商。而云服务提供商则需要比传统IT扩充更多的角色,不单单是增加BOSS系统,而且更为重要地是需要增加云服务和业务服务、客户支持、部署管理、过渡和迁移管理、运维管理、安全和风险管理等等诸多涉及跨用户的服务。而这其中大部分服务都需要7x24x365的支持。因为云服务上的用户多种多样,业务系统也多种多样,有的用户要求高,有的用户要求低,有的用户可以接受5x8(5个工作日,每天8小时支持),有的客户则需要7x24(全天候支持)等等,作为基础服务平台的运维而言,往往就只能选择最高的要求作为服务基线。就像五星级酒店一样,不管客户什么时候来、什么时候需要,热水等等都可以随时提供服务。
对于云用户而言,就不再像以前那样需要完整的运维系统及运维人员,云用户只需要关心应用解决方案层面的运维,也就是说更专注于业务系统,而不再需要关心什么时候需要采购扩充物理硬件。这样一来,对于云运维而言,就比传统IT运维提出了更高的要求,也对云运维从业工程师提出了更高的要求,传统IT运维往往只需要考量单个或者基于群集的多台服务器,而在云运维阶段,云运维工程师需要考虑更多云服务组件的部署,多租户的资源分配,虚拟主机和网络协同等等,对工程师的要求也更高。就云运维而言,这就需要通盘考虑,特别是不能停机的情况下升级系统等等,这是一个很典型地从量变到质变的过程。
云运维平台
云运维的广度和复杂度在一定程度上就决定了对运维人员和相关运维系统的要求高度。如何能保障云平台的稳定可靠,就需要有相关的外围系统的支撑,这些系统主要包含云平台管理系统和云服务系统,其中,云平台管理系统又可以分为如下4个类别:
1、运维支持服务系统
运维支持服务系统主要提供云平台后台的运维支持相关服务,比如云平台的监控和事件管理、变更和配置管理、容量和性能管理、IT资产和许可管理、平台和基础结构管理等等,其功能通常如下表所示:
2、业务支持服务系统
业务支持服务系统通常包括与客户相关的商务和服务系统,比如客户管理系统、合同和协议管理系统、订阅管理和价格管理等等,这些相关系统以及其功能描述如下表所示:
3、业务管理流程及API管理系统
由于云服务涉及多样化的流程,甚至是跨业务部门的流程,因此,业务流程的管理和各个系统之间以及系统内的API管理就很重要。业务流程有的可以整合到云运维平台中,即是系统对系统的业务流程,有的可能是信息系统与纸质或者邮件的结合。
4、云服务内部管理或第三方合作伙伴管理系统
云服务运维平台通常可能需要提供管理第三方合作伙伴的系统等,以及内部的管理系统,比如内部办公系统、内部邮件系统等等。这些与常规的企业内部信息化管理系统类似,在此不再一一复述。
云安全与合规
云安全是个比较大的范畴的问题,涉及到云的安全防护,比如反病毒、防攻击、防渗透等外来攻击,还涵盖用户的数据安全,比如防泄漏、防监守自盗等多方面。这些问题都是云运维中不可避免,而且需要着重强调和考虑的。
通常在云平台中,需要有多重的防DDOS攻击和黑客攻击渗透的工具和手段。在防DDOS方面通常业界有比较流行的处理方法,比如软硬防火墙、协议分析、流量清洗、黑洞等等。由于云平台用户的多样性和复杂性,不仅要防由外而内的攻击,还需要注意由内向外的攻击,这种往往就是用户的虚拟机被劫持或者是恶意用户通过云平台对外的DDOS攻击。而防黑客攻击方面,包含日常的漏洞扫描、及时打补丁、针对一些开源技术的可能漏洞进行跟踪。为了防止帐号和服务等的劫持,除了采用必要的双因子认证以外,还需要加强对堡垒机的安全加固,并且构建威胁分析模型,对所有可能的威胁做全面的分析,必要时执行包含白客扫描在内的多样化的扫描的模拟攻击以便找到并堵住这些潜在的风险和漏洞。
在用户之间做好严格的隔离也非常重要,比如在Azure平台中,就有多方面的隔离措施:首先在网络上有完全的逻辑隔离技术,内网IP在跨用户账户之间不可以访问,在用户访问权限上有逻辑隔离,而且在数据存储上也通过加密及读写隔离措施防止用户访问之前磁盘上别的用户存储的但已逻辑删除的数据等方式。
在次就是增强用户数据的安全性方面,需要提供多种加密方式可以供用户选择用于保护用户存储的数据。将所有数据访问活动记入日志,并且让用户可以访问自己的日志也是用户数据安全防护的重要手段之一。数据的异地同步、异地容灾也有利于增强用户数据的安全性。云运维工程师对客户数据无常设的访问权限,只有在客户提供书面授权的情况下才按照客户要求访问客户的数据,而且用户的书面授权书和相应的操作日志都完整保存,并保证可追溯。这样也是满足国家信息安全三级等级的审计要求,以及满足工信部可信云认证的要求的重要保障,同时也是防止监守自盗的重要方法,对于用户而言这样的用户数据安全性就会比较有信心。
在云合规方面,根据国家法律法规的要求,不仅需要把数据物理上保存在境内,而且需要严格地提供针对各种相关法律法规的要求,以及政策方面的要求的十分严格又易于理解的解释,以便用户了解能做什么不能什么。按照这些要求,针对用户的数据进行存储和管理。在合规方面,还需要定期开展第三方独立审计,以便满足上述不同的合规要求。由于云平台作为底层平台,用户部署在其上的系统需要满足合规的要求时,云服务商往往也可能需要配合并满足用户相关的合规要求。
结语:
云服务的质量不仅仅取决于技术的先进性,同样重要的是也取决于云运维的服务质量。本文从云运维的变迁入手,简要地描述了云运维与传统运维的区别,着重描述了云运维平台的各个系统以及这些系统的基本功能,同时也简明扼要地阐述了云安全以及云合规的基本要求。这些都是云运维的重要组成部分,也是云服务商日常需要考虑和涉及的。世纪互联全资子公司上海蓝云网络科技有限公司在4年多来提供Azure和O365云服务过程,一直致力于为国内用户提供世界级的云技术和云服务,为提升国内云技术和服务水平,为促进国内经济和社会的发展起到了积极作用。
(本文作者汤涛,世纪互联蓝云技术运维总经理,主要研究方向为云运维安全合规。)