石油地震资料处理系统解决方案
来源:中国电子政务网 更新时间:2012-04-15
摘要
   
   曙光公司根据其多年从事高性能计算机研究、生产和服务于石油行业特别是地震资料处理的经验,推出了基于曙光4000超级计算机的石油地震资料处理系统解决方案。该解决方案结合高性能计算机和地震资料处理的特点,充分的考虑了整个系统的可靠性,有效地缓解了系统瓶颈,合理地分配系统资源,确保了整个系统高效、稳定、连续的运行。同时又充分考虑了整个系统今后的扩容、升级,切实地保护用户的投资。
   
   关键字:Paradiam、石油地震资料、集群、石油勘探
   
   1方案构成
   
   1.1.地震资料处理软件
   
   地震资料处理类软件较多,目前采用较多的有以色列Paradigm公司的Paradigm软件的GEO叠前深度偏移系统Geodepth、西方地球物理公司的OMEGA处理软件、ADS的炮域波动方程系统VIEWS、CGG公司的Geovector系统、Landmark公司的PROMAX处理系统、PGS的CM地震处理系统、ScreenSeis并行地震处理系统等等。
   
   这一类软件有一个共同的特征是:文件IO量巨大,其输入输出文件一般都是以T作为计算单位,IO系统的性能严重影响着整个系统的性能。所以,地震资料处理系统要求有巨大、高效的存储系统。其次,它对计算性能也有一定的要求,特别是浮点处理能力。
   
   1.2.曙光4000 32位集群方案
   
   整个系统采用目前流行的Linux集群系统,主要包括节点机、网络、存储系统、管理和监控系统、机柜和电源系统、集群软件和并行软件。

 
   
图1: 整体结构图

   1.2.1.节点机
   
   节点机主要包括三类节点:计算节点、管理/登入节点、IO节点。其中:
   
   计算节点
   
   主要用于完成计算,担负着完成地震资料处理的巨大的计算任务。例如采用炮域波动方程的方法完成叠前深度偏移时,计算节点主要任务是完成求解炮域波动方程。这就要求计算节点:
   
   @有很强的计算能力,特别是浮点运算能力。
   
   @有适量的内存以能容纳求解方程时所有的数据和程序,一旦内存空间不够使用系统缓存,这将极大的影响系统性能;但同时没有必要内存空间过大,经测试表明,一般情况下每个CPU配置1GB内存为最佳。
   
   @有很好的通讯网络,以便保证在作并行计算时计算节点间通讯的带宽和延迟。
   
   @由于计算节点的任务主要是计算,对IO要求并不高,所有没有必要有很强的IO扩展能力。同时,在一套集群系统中,计算节点众多,所以采用高密节点机为佳,一般都采用1U、2U节点机。
   
   综合以上分析,在地震资料处理系统,我们一般采用天阔R210XP或者R210XV作为计算节点,配置两颗Intel Xeon CPU,每个节点2GB内存,计算网络一般采用千兆以太网。
   
   IO节点
   
   IO节点与存储设备、NFS文件系统、HA软件等组成存储系统。IO节点作为NFS文件系统主节点,外挂磁盘阵列或者连接其它存储设备,负责文件的I/O操作。其它节点包括计算节点和管理登入节点的访问存储设备的请求都要通过I/O节点完成。IO节点有如下特点:
   
   @有丰富的外设,如光驱、软驱、USB口等等
   
   @一般需要外接一些IO设备和插一些IO扩展卡,所以要求节点机较强的IO可扩展性,要求节点机有较大的空间,一般都采用2U、4U甚至空间更大的节点机
   
   @对性能有较高的要求,系统中所有节点的IO操作都需要通过IO节点,所以一定要保证IO节点的性能
   
   @有较大的内存,大内存有利于IO操作性能的提供
   
   @一般需要安装高可用软件,IO节点一般是系统的单一故障点,所以可以通过高可用系统消除这一单一故障点
   
   由于IO节点和存储系统密切相关,所以IO节点将在后面存储系统中详细讨论。
   
   管理/登陆节点
   
   管理/登入节点是外部设备和集群系统之间连接的桥梁,任何用户和系统的管理员都只能通过管理/登入节点才可能登陆到节点机子系统上,事实上,管理/登入节点是一个多种身份于一身的节点,它主要由以下几项功能:
   
   @登入:它是用户登陆整个系统的第一道设备,用户在通过系统的防火墙以后就可以登陆到管理节点,由此用户可以远程连接到计算节点上进行运算,用户也可以直接通过管理节点提交计算任务,总之用户必须通过管理节点对整个集群系统进行操作,它为整个系统提供了一个更加安全的设备保障。
   
   @管理:在这个节点上安装绝大多数的曙光集群管理系统软件,系统管理员可以通过在管理节点上的图形界面对整个集群进行有效的管理。
   
   @作业递交:在这里安装了曙光作业调度系统,用户可以在这个节点上提交并行任务。
   
   上述身份对管理/登入节点有如下要求:
   
   @对性能要求不高。管理/登入节点虽然身兼数职,但每一项任务对节点机的性能没有过高的要求。
   
   @管理/登入节点安装了很多软件,包括集群管理监控、作业调度系统、防火墙等等,所以与计算节点相比,它需要连接一些外部设备、一定的存储空间。
   
   @需要多块网卡。管理/登入节点不仅要和集群内部网络相连,同时还必须和外部网络连接,所以相比与其它节点,管理/登入节点需要增加一块与外部网络相连的网卡。
   
   总的来说,系统对管理/登入节点要求不高,只要采用相对经济的配置就可以了,但必需保持和计算节点、IO节点同构。
   
   1.2.2.@网络
   
   网络的设计是系统中很重要的一部分,网络系统特别是计算网络的性能很大程度上影响着整个系统的性能。本方案的网络系统的设计从性能和可靠两个原则出发,采用两套网络实现方式。实现双网分离、专网专用、相互备份,达到系统的高性能和高可靠性。
   
   由于并行计算时的数据通讯和NFS文件系统的数据传递对网络的要求较高,为了管理、监控等操作不对计算通讯和文件IO操作产生任何干扰,本方案设计了两套网络系统,实现双网分离、专网专用,保证了系统的高效性。同时,两套网络又起着相互备份的功能,当其中一套网络由于某种故障瘫痪时,另一套网络就会担负起其功能,虽然会在一定程度上影响到系统性能,但却能保证系统在某一套网络瘫痪时正常运行,提高了系统的可靠性。
   
   两套网络包括计算网络和管理网络。其中计算网络采用千兆以太网,管理网络为百兆以太网,如图:

   
   
   图2:网络结构图    

   在作地震资料处理时,计算网络主要担负着并行计算时的数据通讯和NFS文件系统的数据传递。并行计算时的数据通讯主要是求解方程组时各个计算节点间的数据交换;这种数据交换主要是发生在计算节点之间,每次交换的数据相对不是很大,但交换的次数较为频繁。NFS文件系统的数据传递主要是读写数据文件和其它文件;这种网络通讯主要发生在计算节点和IO节点之间,计算节点通过IO节点读写存储设备;其特点是网络通讯并不频繁,一般发生在程序运行的开始、结束以及中间特定的时间,但是每次通讯的数据量很大,所以对网络的带宽要求较高。
   
   根据计算网络这样一些特点,本方案采用千兆以太网作为计算网络,其优越的性能足以在地震资料处理系统中担负起计算网络的角色。同时,其相对于其它专用高速网络更为便宜的价格以及方便的安装维护,通用的接口,具有极高的性价比。
   
   管理网络主要用于系统管理、监控、登入等,这些操作对网络性能没有较高的要求,所以在本系统采用经济的百兆以太网作为管理网络。
   
   1.2.3.存储系统
   
   存储系统由IO节点、存储设备、NFS文件系统、HA软件等组成。存储设备可以是DAS,也可以是SAN。
   
   下图是采用DAS方式的存储系统结构图:


   
   图3:DAS存储系统结构图


   下图是采用SAN方式的存储系统结构图:


     
   图4:SAN存储系统结构图


   在作地震资料处理时,所有计算节点都通过IO节点从存储设备上读写数据文件,此时,IO节点和存储设备就成为系统的瓶颈,特别是与IO相连的网络。千兆以太网的理论传输速度为1000Mbps,NFS系统在千兆以太网上最大传输速度在110MB/s左右,也就是说所有的计算节点此时分享110MB/s的带宽。为了缓解NFS文件系统的数据传递时,IO节点网络的瓶颈,本方案在IO节点上,对于计算网,采用了双千兆网卡或者三千兆网卡绑定的方法,提高IO节点网络连接带宽。下表是千兆以太网在采用双网卡/网卡绑定时的性能:
   
   表1:千兆以太网卡性能表
   从上表可以看出,在IO节点上配置双网卡绑定或者多网卡绑定,有利于提高IO节点的网络传输带宽,从而更好地提高整个系统的性能。而由于双网卡绑定会使得计算机的网络传输延迟变长,这不利于计算节点之间的频繁的网络通信,因此不建议计算节点采用双网卡绑定的方式。
   
   IO节点是系统中的单一故障点,一旦其瘫痪,整个系统将无法运行。为了消除这一单一故障点,本方案采用了高可用(HA)方式。通过曙光高可用软件(DHA)实现两个IO节点的高可用。平时只有一个IO节点工作,当工作的IO节点由于意外情况发生故障时,另一个IO节点自动接替工作,并向系统管理员报告。这一接替过程自动完成,对于管理员和应用软件完全透明。
   
   1.2.4.集群操作系统
   
   集群操作系统位于节点操作系统之上应用软件之下。通过集群操作系统,实现了集群系统单一系统映象,使得整个集群系统便于管理、使用和维护。   
   集群操作系统在真个系统中的位置


   不同的应用系统对于集群操作系统有不同的要求。对于地震资料处理系统来说,主要需要集群操作系统中集群管理、集群监控、作业调度和并行环境等功能。本方案中,包括曙光集群管理系统(DCMS)、曙光集群监控系统(DCMM)、曙光集群部署系统(DCIS)、并行命令系统(MTERM)、作业调度系统PBS和并行环境MPICH。
   
   1.2.5.管理和监控系统
   
   管理和监控系统包括SKVM网络、I2C硬件监控网络、监控台、监控机、管理监控软件等。其中SKVM可以实现远程的多节点同时本地控制;硬件监控系统可以实现对集群中所有节点的实时监控;
   
   1.3.曙光4000 64位集群方案
   
   1.3.1.方案背景
   
   到目前为止,在计算机行业中已经大量出现了基于64位架构的计算机系统,而在服务器领域,目前也基本上实现了从32位服务器到64位服务器的过渡。而在石油地震资料处理系统这种应用中,过去采用64位服务器系统的还非常的少,原因主要在于:
   
   1.石油地震资料处理系统是一套完整庞大的应用系统。它涉及到计算、前处理、后处理、网络、存储、备份以及资料加工等等的一整套解决方案,64位服务器系统在其上的应用还没有完全被切换过来。
   
   2.石油地震资料处理软件通常规模庞大,开发周期长,实现64位过渡较慢。
   
   3.64位服务器应用在石油地震资料处理系统中的应用性能还没有得到大量的测试依据。
   
   4.石油领域最核心的地震叠前偏移处理软件模块还没有被切换到64位上。
   
   目前,Paradiam公司、东方地球物理公司、曙光公司等多家国际国内权威机构正在极力地推动石油地震资料处理系统32位系统向64位系统的切换。Paradiam公司专门开发出针对曙光最新的Opteron 64位处理器的叠前时间偏移模块Epos3.0,用来代替过去运行在32位平台上的PG2.0叠前时间偏移模块。针对这个最新的模块,曙光公司联合Paradiam公司和东方地球物理公司共同进行实际的测试,测试的环境参见(附件1)。
   
   1.3.2.64位叠前时间偏移模块Epos 3.0在曙光64位集群上的测试
   
   2005年5月,地球物理勘探局研究院处理中心组织帕拉代姆地球物理公司北京办事处和曙光计算机公司对处理中心新采购的AMD64位架构PC机群和老的INTEL32位架构PC机群进行了偏移效率对比测试。本次测试的目的一是要验证AMD64位架构PC机群的偏移效率,获得具体的偏移效率数据,二是获得优化AMD64位架构PC机群的经验。通过这次测试,我们主要得出了如下几点结论:
   
   @基于64位操作系统开发的Epos3.0软件(叠前时间偏移)在AMD 64位PC机群上的偏移效率是32位PG2.0在INTEL32位机群的5-7倍。如果单纯考虑AMD64位和INTEL32位的影响(应当在2倍左右),那么,采用64位编译的Epos3.0应当比32位编译的PG2.0快3-4倍。下表是两种对比环境(附件1)下的运行结果,时间越短性能越好:   @通过目前已经完成的测试,可以看出:Epos3.0运行在32个节点一下,其偏移效率是线性提高,即:32个节点是16个节点的2倍速度。可以预见,当节点数提高到64,128甚至256以后,整个系统仍然能够获得较高的性能加速比。
   
   通过前面的测试结果可以清楚地看到,采用最新的Epos 3.0叠前时间偏移模块,配合曙光公司提供的64位的集群系统,可以使得整个系统的性能提高到过去32位系统应用方案7-8倍的性能,如此优异的测试结果无疑将更好地将64位集群系统推向石油地震资料处理领域。
   
   1.3.3.曙光针对Epos 3.0提供的高性能集群系统
   
   节点机
   
   针对Epos系统对集群系统节点机的需求,曙光公司适时地推出最新的1U Opteron 64位节点机系统——曙光天阔R210A,它在很多特性上符合Epos 3.0的应用需求:
   
   @1U节点机设计。曙光天阔R210A采用密度最高的1U2P设计,这样可以极大地降低系统的空间占用,通常石油领域对服务器的高度有特殊的要求,采用较薄设计的结构解决石油领域大量集群服务器空间占用大的问题。
   
   @采用双路性能超强的AMD Opteron处理器,Epos 3.0的系统可以很好地运行在该处理器上并获得了较为深入的优化,AMD Opteron处理器和Epos 3.0的完美的和谐使得64位应用性能尽显无余。
   
   @支持双核扩展。该服务器系统支持处理器的双核扩展,这也就意味着用户可以通过更换双核处理器来实现系统的成倍性能扩展。
   
   @支持曙光公司32位集群方案种的所有应用软件。AMD Opteron处理器采用64位系统兼容32位应用的模式,可以更好地保护用户和研发机构的研发投资,帮助实现系统的平滑过渡,在过去的集群方案种的所有应用软件和硬件系统都可以直接移植到该节点构成的集群系统中。曙光天阔R210A系统外观


   集群管理系统
   
   由于采用了基于Opteron的架构,曙光天阔R210A完全支持曙光的集群软件和硬件系统,包括SKVM、硬件监控系统、网络系统、DCOS(DCMM、DCMS、Mterm、DCIS)、机柜系统、电源系统等。
   
   1.4.一个小型地震数据处理系统
   
   下面是一个基于曙光4000L的小型地震数据处理系统解决方案。该系统共采用了35个节点(包括32个计算节点、2个IO节点和1个管理登入节点),存储系统采用DAS方式,配置2T存储。
   
   本方案适用于中小型地震数据处理系统。
   
   硬件配置:
   
   节点机:
   
   计算节点    天阔R210A   32台
   
   详细配置:2个AMD Opteron 248 CPU / 2GB DDR内存 / 73GB SCSI硬盘 / 2个千兆以太网网卡
   
   IO节点    天阔R220A   2台
   
   详细配置:2个AMD Opteron 248 CPU / 4GB DDR内存 / 146GB SCSI硬盘 / 2个千兆以太网网卡 / 1个百兆以太网网卡 / 1块光线HBA卡
   
   管理/登入节点  天阔R220A   1台
   
   详细配置:2个AMD Opteron 244 CPU / 2GB DDR内存 / 73GB SCSI硬盘 / 2个千兆以太网网卡 / 1个百兆以太网网卡 / 1块光线存储卡
   
   网络:
   
   千兆以太网   HP ProCurve Switch 2848  1台
   
   详细配置:44个10/100/1000端口、4个双功能定制端口、背板 71.4mpps 96 Gbps
   
   百兆以太网   D-Link DES 1024    1台
   
   详细参数:48口百兆以太网交换机
   
   存储:
   
   磁盘阵列    DS-3140F      1台
   
   详细配置:14块146GB硬盘 / 双冗余2Gb光纤控制器 / 4个2Gbps光纤通道FC主机接口 / 2个2Gbps FC-AL磁盘通道 / 支持RAID 0 1 3 5 10 / 冗余电源
   
   管理及监控:
   
   视频切换系统   曙光视频切换系统    1套
   
   详细配置:1U内置控制台 / 1个USTS / 35个CIM
   
   监控系统    曙光硬件监控系统    1套
   
   详细配置: 12’液晶监控触摸屏 / 硬件监控网 / 35个硬件监控卡
   
   机柜及电源:
   
   机柜     曙光集群主机柜、从机柜各1套(包含布线系统)
   
   电源     曙光集群专用电源系统1套
   
   软件配置:
   
   曙光集群系统监控软件(DCMM)     1套
   
   曙光集群系统管理软件(DCMS)     1套
   
   曙光集群系统部署软件(DCIS)     1套
   
   并行命令软件(Mterm)       1套
   
   PBS作业调度系统        1套
   
   MPICH并行系统        1套
   
   曙光高可用软件(DHA)       1套
   
   2曙光的优势
   
   2.1.技术和品牌
   
   曙光公司是国内最早从事研发、生产服务器和服务器集群的专业厂家。曙光公司依托中国科学院计算所、国家高性能计算机工程中心、国家智能计算机研究开发中心作为技术后盾。提出了“SUMA”服务器标准,开发出独具特色的集群管理技术,多级监控、单机监控、可视化监控管理、SKVM等技术,在用户中得到一致欢迎,并在实际生产中得到充分应用,是国内集群系统市场占有率最高的厂商。
   
   2.2.国内品牌本地化
   
   曙光集群系统具有很高的性价比,不仅改变了国外高性能集群在中国的高价政策,并且在实施能力、周期和后期维护费用等方面具有极强的优势,在综合成本上保持最低,不仅仅只是初期的采购费用,因此在国内数次竟标中,多次取胜。
   
   2.3.专业化的服务
   
   曙光公司设有为石油物探行业服务的专业队伍,人员毕业于石油专业院校,具有多年的实际工作经验。服务工程师参加过应用软件厂家的相关培训,对石油应用软件有相当多的经验,对于集群、网络、存储、石油行业应用软件等综合技术的掌握大大加快了用户集群投入实际生产的进度。
   
   此方面的优势在与多个石油行业用户的合作中得到充分验证,保证了用户的项目顺利的实施。
   
   2.4.众多行业成功案例
   
   曙光公司已经在国内外石油地震资料处理部门实施安装了大量用于实际生产的集群系统,为用户产生了巨大的经济效益。目前,已有几十套曙光集群系统、上千颗CPU应用于国内外石油地震资料处理部门。具体的成功案例以及节点数参加(附件2)
   
   3附件
   
   3.1.附件1:Opteron集群和Xeon测试环境配置
   
   Opteron集群配置:

   Xeon集群配置

   3.2.附件2:曙光集群系统石油领域成功案例截止2004年8月

   
   3.3.附件3:方案相关编纂人员介绍
   
   @曹振南:
   
   @所学专业:并行计算机系统应用
   
   @工作部门:曙光公司技术支持部产品经理组。
   
   @工作方向:集群产品产品经理,集群产品测试和技术咨询。
   
   @王?:
   
   @所学专业:并行计算和并行系统应用
   
   @工作部门:曙光公司技术支持部深度技术支持项目组
   
   @工作方向:深度售前技术咨询,售前方案制作和呈现
   
   @唐景涛
   
   @所学专业:石油资料处理
   
   @工作部门:曙光公司高性能事业部
   
   @工作方向:石油领域售前售后支持,方案制作和呈现