高能物理网格的建设和使用
来源:中国科学院网 更新时间:2012-04-15
 
中国科学院高能物理研究所     作者:陈刚
    一、引言

    未来二十年内,科学研究将面临前所未有的挑战。这些挑战主要来自科学研究项目规模的不断扩大和实验复杂性的不断增加。大量的计算、存储以及网络资源将用于科学研究及PB量级(1015 bytes)的实验数据分析计算。仅以中国的高能物理为例,到2010年,高能物理数据将达到10PB以上。这样的数据量将需要大规模的计算资源和超高速的网络。科学家需要把分布在广域网上的信息技术资源整合到一起,形成一个超高性能的计算用基础设施。这一计算基础设施所提供的服务将包括以下关键领域:

    ● 计算:提供足够的计算和存储能力,用于科学计算、数据的处理;

    ● 网络:部署告诉网络,用于各合作机构之间海量数据的传输;

    ● 软件:支持方便透明的数据和软件资源的访问;

    ● 合作:提供高效的资源互相访问工具,从而实现将大量的工作有效地分配给世界各地的合作成员;

    ● 教育与培训:为人才培养提供资源和手段,推动技术与知识的普及。

    二、网格技术

    网格就是一个集成的计算与资源环境,或者说是一个计算资源池。网格能充分吸纳各种计算资源,并将它们转化成一种随处可得的、可靠的、标准的、经济的计算能力。除了各种类型的计算机,这里的计算资源还包括网络通信能力、数据资料、仪器设备、甚至是人等各种相关资源。

    对于网格提供的计算能力,有四个基本要求:

    1. 可靠性要求:网格的可靠性要求是指网格提供的计算能力必须保证是持续、稳定和安全的,不应该因为网格内部个别资源的变化而对网格应用造成影响。同时,网格还应该是安全的,它应该满足各种形式的安全要求,如数据传输加密、权限认证等。如果没有安全性保障,先进的计算服务就不可能得到广泛的推广。

    2. 标准化要求:网格的标准化要求一方面是指网络资源之间应该有一个统一的可以相互访问的接口或协议标准;另一方面是指网格对用户提供的计算能力应该满足一定的标准,有一种比较统一的形式,以便于以统一的方式进行访问。

    3. 易访问性要求:网格的易访问性要求是指用户可以在任何时间、任何地点,以自己习惯的形式访问和使用各种网格资源。

    4. 价格低廉要求:网格费用的低廉性要求是网格能够被普通接受和推广的前提,不管网络有多少优点,如果大多数的使用者无法承受其费用,网格就不可能普及。网格技术正是通过将资源充分共享,最大限度发挥资源的使用价值,将原来闲置和浪费的资源收集起来供网格用户使用,而且,网格还可以避免以前由于地理位置限制所带来的各种额外开销。

    网格概念的提出将从根本上改变人们对“计算”的看法,因为网格提供的是与以往根本不同的计算方式,它所提供的计算能力是以前所无法得到的,也是不能够通过其它方式得到的。网格概念的核心就是突破了以往计算资源的种种限制,使人们可以更自由、更方便地使用计算资源。

    网格技术突破了计算能力大小的限制。在单机运行时代,绝大多数用户无法得到足够的计算能力,为了解决计算资源稀缺的问题,集群技术应运而生,虽然这在一定程序上解决了大规模计算的问题,但对于大部份超大规模计算来说,计算能力的缺乏仍然是严重的问题。网格技术让人们看到了希望,它所提供的远远超过我们想象的计算能力,足以满足任何计算的需求,因此,就突破计算能力大小的限制来说,网格技术具有划时代的意义。

    网格技术突破了地理位置的限制。从世界上第一台计算机至今,计算机已经在全球范围内得到了普及。但是,据统计在全球目前所拥有的全部计算能力当中,有近3/4集中于少数国家或机构,地理上的分隔使这些计算资源形成了一个个计算资源的孤岛,以致产生了大量急需使用计算能力的应用无法得到满足与大量的计算能力闲置并存的现象,造成了资源的严重浪费。网格技术突破了地理位置的限制,使资源的使用者和资源的所在地位置无关,能够使任何用户在任何地方方便地使用全球范围内的资源。

    网格技术打破了传统共享或协作方面的限制。网格技术打破了传统的共享和协作方面的限制,改变了以前对资源的共享停留在数据文件传输层的现象,允许用户直接对资源进行控制,并使共享资源的各方在协作时可以通过多种方式更广泛地交流信息,充分利用网格提供的各种功能。

    在科学计算领域,网格可以在如下几个方面得到应用:

    分布式超级计算:由于目前遇到的很多科学与工程计算问题(特别是计算密集型的任务)无法在任何一台独立的超级计算机上解决,因此就需要更多的越级计算机一起来完成,网格可以把分布式的超级计算机集中起来,协同解决复杂的大规模问题。从集中计算到分布计算,是网格功能的重要体现。

    数据密集型计算:对于数据密集型计算,数据采集、数据处理、数据分析、结果存放往往都不是在同一个地点,这种问题的求解通常会产生大量的通信和计算需求,常规的计算模式很难满足需要,因此需要网格技术才可能得到解决。

    高吞吐率计算:高吞吐量计算与高性能计算不同,其关心的并不是每秒能完成多少计算量,而是关心几个月、一年甚至几年能够完成多少计算量。对于大型的高吞吐率计算工作来说,利用CPU周期窃取技术,将大量闲置的计算资源集中起来,在短时间完成大量的工作,是网格技术应用的一个重要的方面。

    三、高性能计算实例

    高性能计算设计几乎所有科学与工程的领域。这里仅以高能物理等为例。

    国内外许多大学与研究所正在联合进行多项大型高能物理合作研究。这些高能物理研究项目是人类探索宇宙起源的最前沿课题。典型的高能物理大型研究合作包括以下项目:

    北京谱仪BESIII (Beijing Electron Spectrometer III)是北京正负电子对撞机BEPC (Beijing Electron-Positron Collider)上的大型粒子物理实验。也是当今世界上运行在2-5GeV能区专门从事τ(tau)-粲物理研究的唯一的一台磁谱仪。BESIII每年将产生640TB的数据。除了要求有高性能的海量数据存储系统外,分析处理BESIII数据需要两千个CPU.

    LHC (Large Hadron Collider) 是欧洲粒子物理研究中心(CERN)的一个大型强子对撞机。全世界约6000名科学家将参加LHC的四个主要实验,探索物理学最前沿的课题。中国科学院等科研机构和国内多所大学参加LHC的所有四个实验。2008年LHC投入实验运行,每年将产生约15PB的数据。LHC实验物理分析需要至少10万个CPU和海量的数据存储系统. 由于数千个物理学家分布在世界各地,为了方便高效地进行物理数据分析研究,LHC采用分级式(Tier)的网格计算平台,将计算任务分发到世界各地的网格中心。

    设立在西藏羊八井的宇宙线观测实验是我国重要的粒子天体物理实验基地。基地主要由中日合作的AS阵列、中意合作的地毯式全覆盖阵列(ARGO)、以及宇宙线强度检测装置等组成。羊八井宇宙线观测实验基地每年将采集约200 TB以上的原始数据。数据处理需要约相当于400个目前最快的CPU的处理能力。羊八井的物理分析与计算必须采用网格技术。

    粒子天体和宇宙演化的数值模拟和计算是高性能计算的重要应用。暗能量的一个重要宇宙学意义是,它显著改变了宇宙膨胀及扰动增长的动力学演化,直接影响了宇宙中非线性成团结构及大尺度结构的形成过程。因此,宇宙学观测将为暗能量宇宙学模型提供一个重要的检验,并为在物理上理解暗能量的本质提供重要的线索。这部分研究将紧密围绕暗能量宇宙学的可观测效应,结合大规模的高分辨的宇宙学数值模拟技术,系统研究各种暗能量宇宙学模型。同时,通过大量数值计算,分析来检验各种暗能量理论模型并为构造模型提供线索。为了达到这些目标,需要大于2TB的内存总量,和1000个CPU。

    除了高能物理,在理论生物物理方面也需要支持大规模计算的并行计算系统支持。在模拟计算方面,包括分子动力学,蒙特卡罗模拟,需要面对原子数目更多,势场更复杂,尤其是更长的时间尺度,才能更加逼近于真实的分子生物过程。在生物信息学方面,主要面对海量数据的储存,字符序列的处理,搜索,运算,数据挖掘。生物信息研究有必要建立特色生物数据库,一方面可以对生物信息学的工作提供巨大帮助,同时,还可以向全世界的公众开放,真正加入到世界大科学的研究氛围与领域中。这类计算服务是网络访问与应答密集型,与计算密集型的计算机系统不同,要求有大规模的,可靠的海量储存,高带宽的网络接。

    现代科学技术与工程等在科学计算方面也面临着更多同样的挑战。这些领域包括,天文学,基因与蛋白质研究,空间探索,地震模拟预报,医学影像等。网格技术利用一系列的中间件工具,将应用和数据存储、计算资源、网络资源有机结合在一起,为这些领域提供有效的资源共享与合作的手段与机制。

    四、国内外网格技术发展

    由于网格计算环境可以连接广域范围内不同标准的异构 “孤岛”,形成庞大的全球性计算体系,是Internet发展的高级形式,因此,受到世界各国和组织的高度重视,已经开展了许多实验环境和研究项目。

    Globus项目是国际上最有影响力的与网格计算相关的项目之一,由来自世界各地关注网格技术的研究人员和开发人员共同开发了Globus Toolkit. Globus Tookit是一个开放源码的网格的基础平台,基于开放结构、开放服务资源和软件库,并支持网格和网格应用,目的是为构建网格应用提供中间件服务和程序库。Globus Tookit具有较为统一的国际标准,有利于整合现有资源,也易于维护和升级换代。目前大多数网格项目都是采用基于Globus Tookit所提供的协议及服务建设的。

    EGEE (Enabling Grids for E-SciencE)是欧盟支持的大型网格项目,目标是采用先进的网格技术建立一个高性能的网格系统为科学研究和工业提供服务。EGEE负责开发的网格中间件gLite成为国际上重要的网格平台基础。用gLite构造的网格系统在全世界30多个国家近200个站点运行,为包括地球科学、高能物理、生物信息、天体物理等领域的众多应用提供'生产’级的服务。

    OSG(Open Science Grid)是由美国的大学和研究机构建立的国家网格计算平台。该网格平台的主要目的是将已有的网格加以连结并扩大规模,用于科学研究及开发。 OSG网格软件中各个组件的发展由参加 CERN的LHC 实验的美国科学家负责。目前OSG的应用范围已经从高能物理扩展到生物化学、生物学、生物信息、天文物理、天文学及重力波物理等。

    国内的网格研究始于上个世纪90年代末,经过几年的发展已经取得了显著的进展。其中,中国国家网格(CNGrid)是国家863重大专项“高效能计算机及网格服务环境”的课题之一。其目标是开发技术先进、性能稳定、实用性强的网格软件(CNGrid GOS),有效支撑中国国家网格环境与网格应用的开发、部署、运行管理和维护,实现生产性运行并推广应用。通过CNGrid GOS支持的资源共享、协同工作、应用集成功能,期望取得显著的应用效果。中国国家网格希望通过对各类应用系统的支持,体现网格作为新型基础设施的支撑作用,以新的理念和方法,指导信息化应用系统的规划、部署和集成。 中国国家网格遵循以网格技术支持多领域应用的思想,以行业信息化应用为突破口,在资源环境、科学研究、服务业和制造业等4个领域,一期成功研制了国家地址调查应用网格、航空制造应用网格、中国气象应用网格、科学数据应用网格、新药发现应用网格、生物信息应用网格、数字林业应用网格、仿真网格、油气地震勘探应用网格及交通信息服务应用网格等10个重要的行业应用网格。二期的应用网格是:中国气象应用网格、水利应用网格、天体大规模并行数值计算软件平台、中医药数据网格、高性能计算化学应用系统、药物研发网格、基于网格的铁路货运信息综合应用系统及科学数据网格。

    五、网格应用实例—高能物理网格

    高能物理网格计划的主要目标是为LHC、BESIII以及羊八井ARGO等高能物理和宇宙线实验提供计算资源,这些计算资源包括CPU资源、存储资源和网络通信设施等。以上这些实验所产生的数据在15年的生命期内可被利用。另一方面,所有这些实验均为国际大合作,中国众多科学家以及全世界数千同行共同参与合作研究。在实验前期建造工作中,中国投入了大量的人力与物力。当实验开始运行,将采集大量数据。分析实验数据并取得物理成果是高能物理实验的目标,而计算平台的支撑是实验数据分析的基本条件。

    当代高能物理实验的规模巨大,任何一个研究机构都无法承担建造、运行和维护其计算环境。传统的集中式计算和存储模式已经不能满足大型物理实验的需要。因此,合作成为唯一可行的解决方案,需要采用最新的网格技术来解决面临的难题。基于这些原由,世界范围的高能物理同行提出并建设了LCG网格项目,其目的就是为了给全世界所有使用LHC等高能物理研究机构提供强大的数据存储和高性能计算服务。

    LCG是当前世界上进入生产型阶段的少数大型网格系统之一,它专注于高能物理计算,并可应用于生物、大气、地球科学等其他科学研究领域,从而已成为一个科学研究的通用计算平台。通过LCG项目,可以有效地共享、管理和分配全球范围内的计算和存储资源,从而避免资源浪费,提高资源利用率,节约投资成本。目前包括欧洲、北美、亚洲在内的30多个国家加入了该项目的合作,在计算能力和存储能力等方面都已经具有较大的规模。

    LCG采用网格技术,按需求和规模分级(Tier)组织建设和运行计算环境。按照规划,高能物理实验数据将被按照以上零级中心(Tier-0)至三级中心(Tier-3)四层结构分布在全球范围内。零级中心主要负责原始数据记录、数据重建和向一级中心中心分发数据;一级中心负责数据分析、数据存储管理、再处理和地区技术支持;二级中心负责磁盘存储管理、模拟、终端用户分析和并行交互分析。三级中心用作本地小规模计算。LCG是一个具有强大计算能力且已投入使用的大型网格系统,它不仅要为高能物理实验提供计算解决方案,最终将建立一个科学计算的综合平台。通过LCG技术,我们可建立一个先进数据网格综合平台,广泛地应用到其他科学与技术领域。

    高能物理研究所自2001年开始对网格技术在高能物理中的应用进行深入的调研,于2003年率先建立了国内高能物理网格站点。该站点包括的网格中间件包括:

    · 用户的界面UI:用户界面是用户和网络资源的交界点,用户通过它认证自己的身份和在得到授权以后使用网格资源,获取信息系统,任务系统和数据管理系统的信息。

    · 计算单元CE:计算单元包括一个网格关口( Grid Gate)和一个在其背后的本地集群。网格关口是对本地集群的通用接口。集群则在本地资源管理系统的管理下工作。集群中的节点叫做工作节点(Work Node,WN)。

    · 存储单元SE:存储单元提供对数据存储资源的统一接口。用于用户或者应用程序存储数据。

    · 资源代理RB:网格的资源调度,用于发现和定位最佳资源以便向相应的资源提交作业。

    · 信息服务BDII: 信息服务用于收集网格资源信息。该信息服务为资源代理提供资源信息的评价和选择。

    · 网格信息监视系统MON:用于检测网格资源信息并将信息提交个信息服务系统。

    · 文件目录LFC: 文件目录服务系统,用于用户或应用程序对文件及文件副本的定位。

    · 计算节点WN:计算节点提供计算服务,所有计算最终都在计算节点上进行。

    · Proxy:网格证书更新代理系统,用于代理用户的身份证书。

    高能物理研究所还建立了CA安全认证授权中心,可以签发个人、主机以及服务证书。该CA系统已成为亚太地区网格安全认证政策委员会APGridPMA成员和欧洲网格安全认证政策委员会EUGridPMA成员。高能物理研究所是中国第一个被APGridPMA承认,亚洲第一个被EUGridPMA承认的可以签发个人、主机以及服务证书的CA认证授权中心。高能所CA授权中心已经为国内外500多用户和网格服务系统签发了证书,是亚洲最大的证书签发中心之一。

    高能所在分级计算模型的框架下,为国内的大学和研究机构三级站点提供技术支持服务,其中协助山东大学、北京大学、中科院网络中心、中国科技大学等建立了网格站点,服务于本地的高能物理数据分析。图1显示了部分网格站点的状态。所有这些网格平台都采用Intel或AMD架构,操作系统采用Linux。


图1,部分中国网格站点。

    在网络整合与优化方面,为了实现羊八井实验的数据高速传输,在科技网的帮助下建立了羊八井到北京的155Mbps的网络专线。另外,在科技网和教育网的共同帮助下,高能所与美国和欧洲之间通过Gloriad和TEIN2等专用高速网络实现了高速连接。目前网络的传输能力达到约400Mbps以上的持续传输速度,确保每天TB级的数据交换。高能物理网格系统为国内物理学家提供了便利高效的计算服务。仅2007年就提交了数万个作业,产生十多TB的数据,取得了一批研究结果。图2显示的是Bc粒子衰变到J/Psi pi+的质量谱和衰变长度的物理模拟结果。该结果将是物理实验数据分析的重要依据。图3是羊八井ARGO实验测量得到的宇宙线月影。



图2,Bc 质量和Bc衰变长度。


图3,羊八井ARGO实验宇宙线月影

    国内国际高能物理网格系统不仅为物理学家提供服务,同时也在为生物、天体物理提供计算服务。在过去两年中,高能物理网格系统为生物医学研究提供计算服务。图4显示的是在高能物理网格系统高能所站点上运行的部分生物医学的计算任务。


图4,在高能物理网格站点上运行的生物医学应用。

    这些生物医学包括疟疾、禽流感病毒的研究、新药开发以及生物分子对接、分子筛选、基因系列数据库产生等。

    六、国家超级计算机网格建设的展望

    随着信息技术的革命以及科学研究、社会活动的发展,超级计算机的应用越来越广泛、需求越来越迫切。分布式的计算模式推动了网格技术在超级计算领域的发展和普及。网格技术被认为是继互联网之后的第二次信息技术革命,是目前和未来的超级计算的有效解决方案。经过近20年的发展,网格技术已经基本成熟并进入实用阶段。国际上普遍认为,网格已经不再是'投入经费进行技术研发并发表文章’的热门领域。因此,未来国家超级计算机网格系统应以系统建设为目标,确定较明确的应用,评价和选择成熟的网格中间件组件并进行集成。结合针对应用的需求,开发应用接口。选择具有代表性的应用在网格平台上进行先导型的部署、检验和测试,积累经验并逐步大规模部署应用。只有通过先导性应用的牵引才能建设成真正有实用意义的网格系统。

    国家超级计算机网格应该考虑在异构网格平台上进行建设。不同网格平台之间的互通互操作是目前重点需要解决的技术问题。网格平台的异构性将极大有利于科研项目的国际合作并高效地利用国际网格和数据资源,同时也有利于国家网格技术更好地与国际网格技术的合作。

    网格系统的高质量运行是目前应重视的重大问题。分布式的网格系统不同于集中式计算系统,高效率的运行才能发挥网格系统的真正作用。在网格系统的建设运行过程中应特别关注以下问题:(1)高可用性和高可靠性。网格系统的运行应对所有站点和资源进行可用性和可靠性的监视和评价。(2)高性能。对应用进行分类,特别应考虑计算密集型和数据密集型的应用。应根据应用类型建设和部署经过优化的计算系统从而实现面向不同应用类型的高性能计算。(3)模块化和渐进增长。根据需求逐步建设和扩容。(4)系统与服务的快速响应。应建设高水平的运行团队,实现高效率的网格系统运行并快速响应所有运行中出现的问题。

    超级计算机网格系统是国家科学研究与经济建设的重要基础设施。世界各国也都充分认识到这一点。以欧洲为例,欧盟已经开始制定计划,从2010年开始建设整个欧盟范围的长期可持续的网格基础平台。因此目前是中国建设'生产级’超级计算机网格系统的最佳时机。我们应该把握机会,科学合理地规划,建设具有先进水平的网格系统为科学与技术研究服务并推动信息技术的发展。