云计算平台和云计算服务模式已成为后超算时代计算服务的主流载体和主流服务模式,其所蕴含的技术变革和创新服务模式将深刻影响到产业技术创新及产业竞争格局的发展,加快区域科技自主创新和区域经济结构调整的步伐。分析了云计算平台推动制造业创新发展的必然性,剖析了工业云平台的体系架构及其关键技术,并介绍了平台的开发、实现及典型应用实例。该平台已经服务北京区域经济体近100多家用户,有效地推动了区域经济体的创新发展。
引言
云计算是推动经济发展和产业升级的引擎。云计算能创造新的经济模式,带动现代服务业与文化创意等相关产业的发展。通过与云计算相关企业的创新和服务能力的有机整合,并依托新的商业模式,云计算可为区域经济体带来巨大市场和产业倍增效应,并借助互联网、3G等新兴技术的迅速发展,形成更大的网络市场规模。区域经济体借助云计算可促进产业整体向高端集聚,衍生出新的创业和就业群体,形成产业人力资源分流,助力产业结构调整。
以美国为首的西方发达国家在20世纪80年代就加大了信息化建设的投入,以促进工业的转型发展,如美国先后建立了圣地亚哥超级计算中心(SDSC)、美国国家超级计算应用中心(NCSA)、匹兹堡超级计算中心(PSC)、劳伦斯·利弗莫尔国家研究所(LLNL)、美国阿贡国家实验室(ANL)、美国橡树岭国家实验室(ORNL)等,这些机构先后服务于工业、生物、制药、国防等领域。美国国家超算中心在20世纪80年代开始的私营企业计划(private sector program),为美国500强工业企业开发了创新的硬件和软件设施、虚拟原型制作技术、可视化技术、网络技术、数据挖掘技术等,维持了美国工业在随后全球经济中的竞争优势。俄亥俄州超算中心从2004年开始一直在倡导蓝领计算(blue collar computing)。蓝领计算将高性能计算应用于工业领域,基于虚拟建模和仿真技术改进产品生产工艺,缩短产业开发时间,降低开发成本,提升了企业的竞争优势。超级计算中心就是当前云计算中心的前身,从某些方面来说,超级计算就是云计算的一种形式,可以说,云计算等信息技术及平台在西方工业化大国扮演了十分关键的角色。这些大国对云计算相关领域的科研、产业投入力度巨大,而且投入具有持续性、时间跨度长等特点。云计算等新一代信息技术对经济建设的贡献度正在不断提高,形成了技术创新的良性循环。
当前,我国通过自身生产要素比较优势成为新的国际制造业中心。以制造业为主导的产业结构显示了中国工业化加速发展阶段的产业特征,这种结构促进了中国现阶段的高速增长。但一方面,工业产业结构的畸形化和低劳动生产率对中国的可持续发展提出了新的挑战;另一方面,中国工业化发展没有通过经济和社会的关联性带动第二、第三产业的共同发展,相反,第一产业不断萎缩,第三产业停留在一个较低的水平上,致使第二产业的发展失去强大的基础和服务。生产性服务业涵盖了信息、金融、物流等诸多行业,在中国的发展尚未成熟。因此,当前以云计算推动我国制造业的创新发展尤为迫切。本文在分析工业云计算的需求基础上,结合北京区域工业云平台的前期应用实践,提出了一种工业云计算平台的体系架构。
1 工业云计算需求分析
用信息化改造第二产业的一个重要内容就是用信息技术改造制造业的生产工艺。信息技术是通过不断向制造业渗透扩散来改造传统生产工艺的。同时,信息技术也促进了传统制造业的管理现代化。中小型工业企业在提升企业创新能力时往往要面临工业计算软件及平台搭建、计算机建模和仿真技术、高端研发人员的培养等诸多问题,这些问题将直接影响生产成本和生产效率。云计算是生产性服务业的重要工具,是一种商业模式的创新。基于SaaS(software as a service)模式的云计算服务,工业用户可通过各种客户端设备的瘦客户界面(如网页浏览器、基于网页的电子邮件)使用相应的工业应用软件。另外,工业用户可以基于PaaS(platform as a service)模式采用工业云计算运营商支持的编程语言和工具编写好自己的应用程序,然后放到云计算平台上运行。在提升企业信息化服务能力方面,工业用户可以基于SaaS模式获得低廉的ERP、CRM等企业信息化解决方案及服务。基于这些方案和服务,工业用户可进行快速有效的仿真模拟,降低设计与制造成本,提高原材料的利用率,从而大幅缩短企业产品升级换代周期,改善产品性能,大幅提升工业企业的自主创新效率,并推动企业核心竞争优势的提升。
2 工业云计算平台体系结构及关键技术
2.1 体系结构
工业云计算平台采用CPU+GPU混合异构架构,实现芯片级、基础架构级和系统级三级节能设计,采用核心—边缘两层高可用冗余Fat-tree非阻塞(non-blocking)网络拓扑结构,40Gb/s4xInfiniband QDR网络互联,其网络拓扑结构如图1所示。平台用户管理采用NIS(network informationservice),文件系统采用NFS(networkfile system)共享部署;GPU节点采用双启动多操作系统,应用软件部署在共享存储上,计算节点部署Xen、KvM(kernel-based virtual machine)等虚拟机。
工业云体系架构(图2)分为基础设施即服务层IaaS(infrastructure as a service)、平台即服务层PaaS、软件即服务层SaaS,以及面向工业制造领域的行业应用云服务,如焊接云、切削云、磨削云、精加工云等。基础设施即服务层IaaS涵盖了基础设施和基础服务。基础设施包括计算资源、存储资源、设计资源、仿真资源、生产资源、试验资源、管理资源、集成资源以及能力资源等,体现为制造资源和制造能力两种形态。基础服务包括基于基础设施之上的服务,通过感知、虚拟化、服务化中间件而全面整合资源层所提供的基础设施,通过资源管理和协同中间件为上层的资源利用所提供的重要支撑服务,如数据存储服务、计算服务、负载均衡服务、备份服务等。平台即服务层PaaS基于相关工业云计算API,提供服务发布/发现、智能匹配、整合/协同、运行/容错、交易/管理、监控/评估等各项核心功能。平台基于高效能工业云计算服务门户,实现独立完成某阶段制造任务、协同完成某阶段制造任务、协同完成跨阶段制造任务。
2.2 关键技术
2.2.1 虚拟化技术
依据中小制造企业创新设计和协同制造的特点,工业云计算平台以虚拟化技术为主要支撑,对平台的软硬件及虚拟机等各类资源进行服务化管理,以满足灵活管理和高效利用的需要,主要包括:①资源统一管理,即利用作业调度、资源调度和虚拟机技术实现对物理机、物理存储、物理交换机的动态分配,对虚拟服务器、虚拟交换机及虚拟存储的产生和变更,以及对所有资源的动态部署和动态回收;②应用模板化,即根据不同用户群的需求定制不同的虚拟机模板,并通过虚拟机池动态地使用这些模板,实现操作系统、应用软件资源的动态迁移,最大化地利用物理机资源,实现应用与硬件资源、虚拟资源的映射管理;③应用软件资源云服务化研究,即利用对基于FlexLM浮动许可证的调度来实现商业应用软件服务的动态分配,提供开发接口以实现扩展应用软件的服务功能。
图1 工业云计算平台网络拓扑结构
图2 工业云体系架构
工业云计算平台对虚拟计算环境进行动态评估,并基于计算系统虚拟化技术实现在线迁移、动态扩容,一部分集群中部署虚拟化中间件,以此为基础按需动态地构建虚拟计算节点,形成虚拟计算资源,由虚拟机管理模块统一管理;另一部分集群中直接安装仿真分析等高性能工程计算软件,在上面部署监控代理,形成物理计算资源,由物理机管理模块统一管理。服务化中间件根据需要,既可以部署到物理计算节点上,又可以部署到虚拟计算节点上,为部署和监控工具软件的接口服务和仿真分析等软件的计算提供服务。对各类生产资源的感知信息经感知中间件融合之后,通过Web服务方式向上层传输。各类型服务均由服务动态管理模块统一管理。软件资源有的直接部署在物理计算资源上,供作业调度/管理模块进行调用;有的部署在虚拟机模板中,按需动态地加载,以虚拟交互应用的方式向外发布。
2.2.2 前后台交互技术
工业对计算的需求主要包含以下环节:CAD建模设计、模型离散化和初始化、CAE仿真论证、仿真结果可视化、CAM仿真制造加工。
CAD建模设计环节是工业计算仿真模拟流程中最具创造力、交互最复杂的阶段,这个环节的特点是计算量不大,人机交互复杂频繁。模型离散化和初始化环节中,用户需要干预网格划分来确保自动划分结构的准确性,网格划分的执行时间通常按照分钟和小时来计量。CAE仿真论证环节中,工业用户采用CAE软件对设计模型进行渲染和仿真论证。对上一环节产生的离散数据利用有限元和有限差分方法来模拟其变化,模拟过程因需要反复迭代和求解大量的方程,计算量非常大,因此通常需要利用大型机来加速计算。计算后的数据较原始模型的数据量增大200~500倍。仿真结果可视化环节中,将上述数据通过可视化处理后,以多种类型的图像和动画方式进行展示。CAM仿真制造加工环节依据用户输入的NC代码、工艺模塑和刀具模型,采用CAM软件计算出有关工件变化、刀具状况、加工效率等信息,为进行产品的可制造性评价和优化打下基础。该环节的特点是计算量不大,交互也不复杂。虽然很多工业计算软件囊括了设计、离散化、计算、后处理、仿真制造全流程,但是不同阶段呈现出明显不同的交互特征。CAD建模设计环节的用户需对模型进行不断操作,使其具有强交互特征;离散化和初始化环节中的网格划分通常由软件自动完成,但是用户需对自动生成的网格进行检查与干预,属于中等强度的交互;计算模拟可在后台计算,通常不需要人工干预,属于弱交互;而后处理阶段用户需要按照不同的维度检查仿真结果,属于中等强度的交互;仿真制造属于中等强度的交互。对于强交互的情况可采用远程桌面的控制方式,用户直接操纵云端的工业计算软件,这就避免了对复杂交互的应用的封装;对于弱交互的情况可采用Web封装的方式,用户通过浏览器即可简便地使用其服务;对于中等强度交互的情况可先期采用远程桌面的控制方式,后期根据用户的需求对部分功能进行Web封装。工业云计算平台服务控制流程图如图3所示。
图3 工业云计算平台服务控制流程
2.2.3 可靠性技术
检查点技术是一种传统的系统级容错技术,其特点是在系统规模增大时生成检查点的时间和空间的开销线性增大。工业云计算平台采用多层次系统级鲁棒性技术,该技术采用全检查点技术、故障预测技术、故障时检查点与进程迁移技术相结合的方式,降低检查点生成的频率,同时根据故障进行一些预测,在保证系统可靠性的前提下降低容错的开销。系统级检查点技术通过透明的方式保存和恢复进程的状态,包括进程间通信和交互的状态的处理。故障分析与故障预测根据生产性系统中的故障数据,总结部件故障的规律,研究相应的故障诊断与预测方法。故障前检查点与迁移技术是根据故障预测和监测结果,在故障发生或可能发生前进行单个进程的相关操作。
3 系统开发与应用实例
工业云计算服务门户系统的Web容器采用omcat来实现,Web的应用服务采用Struct2开发(Java语言),用户浏览器通过下载Extjs组件来生成和渲染UI交互界面。用户与门户系统通过Https协议进行交互。门户系统与支撑管理服务之间采用SOAP协议进行通信,其中认证系统采用耶鲁大学的CAS认证系统,数据库系统采用Mysql。支撑管理层的各类服务主要采用Java或者Python语言开发。支撑管理层与资源管理层之间采用相应系统提供的内部接口通信,如在数据服务节点上安装Lustre客户端,支撑服务使用标准的文件操作接口即可对Lustre文件系统的数据进行各类操作;在作业管理服务的节点上安装LSF客户端(或者提供LSF API的库),直接调用LSF客户端程序,即可将用户请求发送到LSF作业管理系统上;支撑服务通过SOAP协议即可访问Eucalyptus提供的各类虚拟机管理服务。应用服务运行在虚拟机上或者高性能计算节点上,用户通过NX远程桌面皆可访问特定的虚拟机,或者由门户系统将工程计算作业推送到后台系统上运算并返回状态及结果。系统开发结构关系图如图4所示。
图4 系统开发结构关系图
工业云计算服务平台可广泛应用于工业设计及工程计算领域,如加工工艺分析、装配工艺分析、模具设计优化、机械零部件设计与性能分析、车辆等复杂机电设备性能及装配工艺分析与设计、工程电磁兼容性分析、图形渲染、虚拟装配、虚拟焊接等诸多领域。在近两年的运行中,该平台已成功应用于北京长城华冠汽车公司的汽车碰撞仿真项目、中国京冶工程技术有限公司的钢结构虚拟装配仿真项目、北京生命科学研究所的生物计算研究项目等十几个项目。例如,在基于CAE的钢结构虚拟装配的项目中,利用CAE技术模拟仿真各种工程材料的性能,通用虚拟装配技术验证装配设计和操作的正确与否,以便及早发现装配中的问题,对模型进行修改,并通过可视化显示装配过程。可以说,工业云计算服务平台不仅能缩短企业产品升级换代周期、降低设计与制造成本、提高产品性能,还能为各种规模的企业提供虚拟产品设计与性能仿真的共享平台。
4 结束语
中国经济增长的本质特征就是工业化,工业化的本质就是产业结构的调整优化和经济效率的提升,包括两个方面,一是量的层面,即指工业部门在各产业之间的产值份额迅速提高,二是质的层面,即指所有产业部门的劳动生产率和全要素生产率的全面提升,也即经济效率的提升。只有从这两个方面进行推进,我们才能真正实现中国的经济增长。云计算平台实现了资源集中,客户能够使用的资源规模极大但所需成本低、获取途径多,并且可按需定制。另外,云计算平台紧紧地耦合了资源的聚集使用模式,使得计算资源保持较高的利用率,节约了社会投资。当前,我们抓住云计算发展的战略机遇期,将其积极导入工业产业中,以云计算推动工业产业创新能力的发展,加快传统制造业的改造和升级,发挥后发优势,实现社会生产力和技术的跨越式发展,可以说显得尤为迫切。