曙光航空航天高性能计算方案
来源:中国电子政务网 更新时间:2012-04-15
摘  要 CFD-FASTRAN软件是由CFDRC公司与美国NASA联合开发的专门用于航空航天领域空气动力学计算的CFD软件,该软件可广泛应用于飞行器的亚、跨、超和高超音速的气动力学计算和一些特殊气体动力学问题如直升机旋翼、导弹发射、座舱弹射、投弹、机动和气动弹性等。本文针对航空航天高性能计算提出了一套完整的集群解决方案,并在此平台上对FASTRAN并行性能进行了详细的测试。测试结果表明,FASTRAN软件可以方便的部署和运行于曙光集群系统,并能够获得令人满意的加速比。

   关键字  CFD,FASTRAN,并行,航空航天

   1.FASTRAN介绍

   CFD-FASTRAN是CFDRC公司与美国NASA联合开发的专门用于航空航天领域空气动力学计算的CFD软件,在当前所有为航空航天设计的计算流体力学软件中位于前列,被广泛应用于飞行器的亚、跨、超和高超音速的气动力学计算和一些特殊气体动力学问题如直升机旋翼、导弹发射、座舱弹射、投弹、机动和气动弹性等。CFD-FASTRAN 具有挑战性的功能是将基于密度的可压缩欧拉方程和N-S方程同多体运动力学、有限反应率化学和非平衡传热学耦合起来,解决一系列极为复杂的航空航天问题。

   CFD-FASTRAN具有强大的技术优势,它体现在:

   @多年同美国国家航空和宇宙航行局(NASA),美国能源部(DOE),美国国家科学基金会(NSF)等机构的合作,使CFD-FASTRAN不断得到完善和发展。
   
   @CFD-FASTRAN专门针对航空航天设计,可以计算包括超高速流动,移动体,气动热化学和气弹等复杂艰辛的课题。

   @CFD-FASTRAN充分考虑了行业的需要,开发出航空航天工程师所需要的前处理、后处理程序。

   正是基于上述原因,使得FASTRAN在全球拥有巨大的用户数量并获得了广泛的认可。在美国军方,CFD-FASTRAN软件一直用于先进战斗机的设计,其中著名的应用案例包括F-16战斗机翼身气动弹性分析、Martin Baker MK16座椅弹射设计、F/A18杰达姆投弹模拟设计以及X34机高超音速激波模拟设计等,如下图所示。



   此外,近期NASA采用CFD-FASTRAN模拟了在9500英尺高空高速飞行(7倍声速)状态下的飞行器分离情况。高速分离现象一直是CFD软件很难模拟的领域,但如下图所示,FASTRAN很好的模拟了飞行器分离过程中整个流场的速度和温度分布。



   随着中国航天航空事业的快速发展,尤其是载人航天技术的巨大成功,我国科技人员对空气动力学的数值模拟研究提出了越来越多的需求,常规的计算能力远远无法满足复杂的大型飞行器设计所带来的巨大需求。因此,采用大规模集群技术成为最佳选择。

   FASTRAN支持大规模并行计算集群系统,它可以采用两种并行计算环境,一种为我们熟知的MPI,适用于非结构化网格;一种为自行开发的MDICE,适用于结构化网格。由于FASTRAN的大多数湍流模型仅针对结构化网格,因此本文仅对MDICE并行环境下的FASTRAN性能进行了测试,并根据测试结果提供了一套完整的集群解决方案。

   2.曙光航空航天高性能计算解决方案

   曙光高性能集群由若干台高性能节点机、高速计算网络连接到一起组成,并通过监控系统和一组集群管理软件对其进行有序管理。曙光集群的基本体系结构如下图1所示,主要包括节点、网络、存储、监管和软件等几个部分。根据用户对计算规模需求的不同,可以对节点、网络和存储等进行量身定制。



   2.1.节点机

   节点机主要包括三类节点:计算节点、管理/登入节点和IO节点。

   2.1.1.计算节点

   计算节点主要用于完成FASTRAN的计算任务,因此要求:

   @有很强的计算能力,对CFD而言特别是浮点运算能力。

   @有适量的内存以使前处理和求解时数据能完全驻留在物理内存中。经验表明,一般每个CPU至少分配1GB内存。

   @支持高速、低延迟的通讯网络

   针对以上要求,我们推荐计算节点采用两路的曙光天阔R210A(可升级到双核)或者4路的曙光天阔R4280A。R210A支持两颗200 Series的Opteron处理器,同时根据需要可以轻松扩展到双核;R4280A则支持4颗Opteron 800 Series单核或者双核处理器,这两种服务器都具有极高的性能,非常适合用于构建高性能集群系统。体现在:

   @Opteron系列处理器较Xeon架构的处理器具有更高的性能。AMD的Opteron系列处理器采用创新的直连架构,通过在处理器内部集成内存控制器而大幅降低内存延迟,提高数据访问速度。由于消除了Intel固有的共享带宽瓶颈,使得AMD平台的内存带宽随着处理器数量的增加而成倍的增加,例如4路的R4280A配合双通道DDR400内存可以提供最高达4*6.4GB/s的理论内存带宽,这尤其适合浮点密集型和内存密集型的CFD应用程序。此外,Opteron处理器在提供强大的计算能力的同时具有业内出名的低功耗,用户通过选用基于Opteron平台的处理器能够大幅降低在供电与散热系统上的开销,可以最大限度的降低TCO。

   @采用四路的曙光天阔R4280A可以获得极高的性能。AMD的超传输技术将4颗CPU直接连接在一起,两颗CPU之间可以提供高达6.4GB/s的通讯带宽和纳秒级的延迟,这使得1个四路的SMP系统比采用任何高速网络互联的2个两路系统的性能都要高。此外,在CPU数量需求一定的情况下,采用4路的R4280A可以大幅减少网络设备(网卡、交换机、网络监控卡)从而降低系统成本。

   @采用升级到双核的曙光天阔R210A作为计算节点可以在获得高性能的同时降低系统成本。采用一颗AMD的双核处理器可以获得50-70%左右的性能提升(参见AMD官方网站测试数据),这使得其具有几乎相当于两路单核处理器的性能。同时,采用Opteron的DP产品较MP产品的成本更低。用户通过选用双核R210A可以获得性能与价格的平衡。

   2.1.2.IO节点

   IO节点由存储设备、NFS文件系统等组成。IO节点作为NFS文件系统主节点,外挂磁盘阵列或者连接其它存储设备,负责文件的I/O操作。其它节点包括计算节点和管理登入节点访问存储设备的请求都要通过I/O节点完成。

   由于IO节点和存储系统密切相关,所以IO节点将在后面存储系统中详细讨论。

   2.1.3.管理/登陆节点

   管理/登入节点是外部设备和集群系统之间连接的桥梁,任何用户和系统的管理员都只能通过管理/登入节点才可能登陆到节点机子系统上,事实上,管理/登入节点是一个多种身份于一身的节点,它具有登入、管理和作业提交等功能。但总的来说,系统对管理/登入节点要求不高,只要采用相对经济的配置就可以了,但必需保持和计算节点、IO节点同构。

   2.2.网络

   网络的设计是系统中很重要的一部分,网络系统特别是计算网络的性能很大程度上影响着整个系统的性能。由于并行计算时的数据通讯和NFS文件系统的数据传递对网络的要求较高,为了管理、监控等操作不对计算通讯和文件IO操作产生任何干扰,本方案设计了两套网络系统,实现双网分离、专网专用,保证了系统的高效性。同时,两套网络又起着相互备份的功能,当其中一套网络由于某种故障瘫痪时,另一套网络就会担负起其功能,提高了系统的可靠性。

   两套网络包括计算网络和管理网络。计算网络宜采用高速的互连网络,目前的高性能网络包括千兆网、Myrinet和Infiniband等。目前Myrinet和Infiniband价格非常昂贵,并且FASTRAN软件尚未支持这两种网络,因此本方案中的计算网络选用千兆以太网;管理网络对性能的要求不高,选择价格便宜的百兆以太网。

   对于较大规模的集群系统,还可以考虑单独设置数据传输网络,将计算过程中的数据传输与个节点之间的通讯分离开,避免相互干扰。这对于非稳态、有大量中间数据需要保存的CFD应用而言尤其重要。数据传输网络一般采用千兆以太网,根据需要还可以在IO节点上进行双网卡绑定以提高数据传输带宽。

   2.3.存储

   目前根据应用规模的不同,存储的解决方案有三种选择:直连式存储DAS、网络接入存储NAS和存储区域网络SAN。DAS主要适合于构建小型存储系统,NAS适合于投资规模不大的部门级存储,而SAN造价昂贵,性能突出,适合于企业级、要求扩展能力强的存储。

   针对高性能计算的特点,本解决方案的存储系统采用简单易维护的DAS方式,系统由I/O节点、磁盘阵列和NFS文件系统等组成。为了保证性能,可单独设置I/O节点(也可与管理/登入节点合并以节省投资),所有计算节点通过NFS文件系统和I/O节点,即可象访问本地文件一样访问保存在存储设备上的数据。

   磁盘阵列采用曙光DS-2120SA或DS-2120。其中DS-2120SA盘阵支持Serial ATA磁盘技术,外部主机通道支持SCSI接口技术,内部可以容纳12颗SATA硬盘,最大提供3TB的存储空间; DS-2120包括2个SCSI内部通道和2个SCSI外部主机通道,最大支持12块146GB的高速SCSI硬盘。两种磁盘阵列在设计上都采用了CableLess(无线缆连接)结构,避免了诸如线缆脱落、信号串扰、线缆受热老化等问题,从根本上提高了磁盘阵列系统的可靠性,同时也带来了更高的性价比、更方便的管理。

   3.曙光集群FASTRAN性能测试与分析

   曙光公司和ATE中国有限公司合作,在曙光集群系统上部署了FASTRAN程序,同时对其并行性能进行了测试。结果表明,FASTRAN空气动力学模拟软件在曙光集群上可以取得较高的并行效率。

   3.1.测试环境

   本测试环境为曙光公司的内部测试平台,由4个R4280A组成,采用千兆以太网连接。具体配置如下:



   3.2.测试模型:DLR-F4翼身组合体

   DLR-F4翼身组合体算例是NASA的一个标准算例,用于测试商业CFD软件计算阻力的准确性。采用CFD-FASTRAN软件进行了结构化网格的计算。DLR-F4外形如图所示:



   给定的计算状态为:



   采用多块结构化网格进行翼身组合体计算,计算网格如图所示,图中给出了对称面和物体表面的网格。

   计算网格共80块,网格单元数目为:3,780,480。



   数值计算空间格式采用Roe格式,通过MUSCL限制器扩展到高阶,时间格式采用全隐格式进行时间积分。采用层流模型,迭代30步后记录结果。

   3.3.测试结果



   从以上测试结果可以看出,CFD-FASTRAN软件可以非常好的运行在曙光集群系统上,并可以获得非常优良的近乎线性的加速比。正是基于这种特性,曙光集群系统非常适合CFD-FASTRAN等计算流体力学软件的并行计算。由于其良好的可扩展性和加速比,用户可以通过扩展系统的节点数来达到提高系统性能的目的。

   4.方案选择



   5.附录

   5.1.相关编纂人员简介

   @曹连雨

   @所学专业:热物理与流体力学

   @所在单位:曙光公司技术支持部深度技术支持组

   @所做工作:流体力学、财政软件等相关技术的售前支持工作