汇通计算—曙光4000入驻教育科研网格计算
来源:赛迪网-中国计算机报 更新时间:2012-04-15

 

        中国教育科研网格将分布在教育和科研网上自治分布异构的海量资源集成起来,实现了CERNET环境下资源的有效共享。具备64节点的曙光4000L超级服务器,为该平台构建了运算速度高达7000多亿次/秒的网格计算平台。


        网格是当前IT和互联网领域的发展前沿领域。专家认为网格是1995~2010年计算机体系结构、操作系统、用户界面领域最重大的突破性创新。专家指出,已经错过全球微电子发展高潮的中国,一定要加强在下一个前沿技术领域的研究,网格的机遇无论如何不能错过。 

 
        中国教育科研网格(ChinaGrid)项目随即成为了“十五”国家“211工程”公共服务体系“CERNET(中国教育科研网)高速地区网和重点学科信息服务体系建设”项目中的重要建设内容。该项目将建立聚合能力超过15万亿次量级的教育科研网格,成为世界上最大的超级网格之一,以在网格计算的基础研究和应用研究方面占得先机。


*教育网格需求不断升

        中国教育科研网格ChinaGrid计划是教育部“十五”211工程公共服务体系建设的重大专项。中国教育科研网格将充分利用中国国家教育科研网CERNET和高校的大量计算资源及信息资源,开放相应的网络软件,配合网络计算机的使用,将分布在教育和科研网上自治分布异构的海量资源集成起来,实现CERNET环境下资源的有效共享,并将高性能计算送到教育和科研网用户的桌面上,成为国家科研教学服务的大平台。
中山大学在医学图像诊断等图像处理网格应用方面一直处于国内领先地位。在科研计算领域,计算运算量大、强调处理器运算能力的特点促使中山大学对高性能计算平台以及高性能网格计算平台的需求日益加深。此外,相应网络软件的共享、海量资源的有效利用也使得中山大学对科研网格的需求不断升级。
突出的需求和典型的特征使得中山大学成为了首批进入国家教育部教育科研网格项目的高校,该校采用64节点曙光4000L超级服务器,构建起运算速度高达7000多亿次/秒的网格计算平台。


        在完善自身高性能计算平台的同时,中山大学还与华中科技大学、清华大学、北京大学、北京航空航天大学等12所高校联手,共同建立起聚合能力超过每秒6万亿次量级的教育科研网格,总存储容量超过60TB。
此后,中国教育科研网格还将逐步连接更多高校,实现聚合能力超过15万亿次量级的教育科研网格。

*HPC机群构架出高性能计算平台


          在中山大学高性能计算平台的搭建过程当中,系统根据科学计算领域运算量大、强调处理器运算能力的特点,并综合考虑了整体性价比,最终以62节点的天阔I610r-V服务器构成了计算平台主体框架,外加配置2颗计算能力卓越的 Nocona 2.8GHz的CPU,2G ECC内存,36G 10K RPM Ultra320 SCSI硬盘,双1000M RJ45网卡。整个机群系统理论计算峰值可达每秒6944亿次,实现了强大的高性能运算环境。


        系统还旨在实现整个高性能计算平台的资源共享,访问节点成为了实现该目标的重要载体。
访问节点主要负责整个机群系统的接入、控制及作业的调度,由于机群中所有节点的管理和配置,以及用户的登录,计算作业的分发、管理都需要通过此节点完成,针对应用需求,该系统采用了2块36G 10K RPM Ultra320 SCSI硬盘做成RAID1,实现了系统的安全保障性。


         系统监控节点还配备2颗Nocona 2.8G处理器,2GB ECC Registered DDR RAM,2个1000M RJ45网卡和1个100M RJ45网卡,用于消除单一故障点,以最大限度提高其处理速度。


         此外,考虑到整个机群系统的监控、日常管理工作以及大型存储系统互联、NFS文件的共享,系统还配备了监控节点,并根据存储互连及共享需求采用了具有较强的内存读写能力的存储节点。


*两大瓶颈得到突破


         在以曙光超级计算机构建起自身高性能计算平台之后,中山大学继而投入到了中国教育科研网格的首批入驻工程当中。


         在高性能网格计算平台的搭建过程中,长期以来IA架构机群一直存在的I/O瓶颈问题亟待攻克。问题主要表现在两方面,一是网络带宽,二是存储系统带宽。


          为了解决这两大问题,也为了充分发挥各类设备现有的性能,在本方案的设计中,充分考虑到了各计算节点、I/O节点、以及核心交换机的性能参数。在保证了系统稳定的前提下,使每台设备都能得到最大限度的利用。


         在该套系统中,整个机群系统采用数据通讯网络和管理网络双网分离的解决方案。所有节点有两套网络,1套是管理网,1套是数据通讯网。采用数据网和管理网分开的方式可以减轻数据网的负载,同时由于每个节点都配置了自适应的多块千兆网卡,在今后的升级中可以仅增加交换机,就可以构造双千兆的网络,增加传输带宽,形成动态分配系统。


        本方案中采用两台千兆交换机来进行并行计算的数据通讯网络,为保障数据通讯有足够的带宽,2台交换机采用堆叠的方式。交换机选用Foundry网络公司的EdgeIron 48GS千兆交换机。管理网络是由2台D-LINK公司的DES-1048交换机构成的100M网络。针对用户要求,系统还采用2Gbps的光纤通道网卡。