方正HPCC集群系统为高等教育全面助力
来源:方正科技 更新时间:2008-03-13
 
    教育信息化是国家信息化的重要组成部分,近几年,国家不断出台各种扶持政策、社会各界投入大量人力、财力支持和促进教育信息化的发展,取得了令人瞩目的成绩。但是在发展过程中存在的一些薄弱环节仍然制约和影响着教育信息化的发展。数字化校园的建设过程中、运营商、硬件、软件厂商、内容提供商还有校方都是单打独奏,既没有系统整体的方案设计、也没有资源整合,所以总是在有需求的时候,出现问题的时候再想办法解决问题,既浪费了财力又耽误了时间。

   几多波折、回归理性

    清华大学作为全国的最高学府,却在信息化的建设过程中,走过一段不平之路。1958年成立的工程力学系,一直为国家输送了大批有关力学及计算数学方面的专业人才。它主要设立了:“流体力学、固体力学、计算数学、工程热物理和一般力学五个教研组。主要从事一系列高难度的运算,这就对运算服务器提出了很高的要求。随着我国教育事业的发展,许多高校建起了大型实验室,甚至一些国家级重点实验室也在大学校园安家,承担着重要的科研与教学任务。一些实验室必须利用高性能计算群集(HPCC)、海量存储和高端工作站等设施,通过大规模运算来完成仿真、工程设计等任务。

    在这样的市场背景下,一些国际知名服务器厂商抓住机会,向教育领域发起了猛攻。但是用户的需求是多方面的,从实际机房的改造方案到集群设备的硬件组成构架;要帮助客户建议基于IA架构工业标准服务器的相关主板芯片组以及相关CPU的选型,要详细到高频XEON CPU在空闲时主动降频等特性等等;软件方面,需要考虑高效率的并行运行环境,结合了消息传递和共享内存两种并行编程模型,高效率的并行程序编译器和运行环境、优化的内核、健壮的日志型文件系统等等。所以,清华大学在进行了各方面的尝试之后,还是理性的选择了方正科技。作为有多年服务器生产经验的方正科技,一直提倡“应用”的服务理念,为清华的力学系量身定做了一套有针对性的解决方案。

   HPCC的真实内涵

    目前,高性能计算机性能评价受到前所未有的广泛关注,主要是因为业界面临着严峻挑战:一方面,超级计算机的理论峰值按摩尔定律在迅速提高、机群成为主流架构,似乎只要有钱,多大的机群都可以造出来;另一方面,几乎所有实际应用(气象、石油、机械等等)在超级计算机上的运行效率不到10%,有的甚至低于1%。而在TOP500中,多数机器Linpack效率高于60%。为什么?是实际应用优化的不够吗?应该说,如果能像优化Linpack性能那样,对每一应用去做精心优化,在一定条件下,提高效率在理论上还是有可能的。但实际上,首先是因为应用太多,其次是因为用户使用模式千差万别(例如计算的规模就不可能规定死),因此,逐一优化的代价会相当高!

    方正HPCC系统基于IA架构工业标准服务器,使用集群(Cluster)体系,通过高效互联方式构建的并行计算集群系统,并且完全遵循标准开放统一的设计原则。其高效率的并行运行环境,结合了消息传递和共享内存两种并行编程模型,可以扩展和管理几十甚至上百个节点,具有超级计算机的运算能力,同时对系统的软硬件各部分做了针对高性能计算服务的优化工作,例如优秀的散热系统、稳定的供电电源、高效率的并行程序编译器和运行环境、优化的内核、健壮的日志型文件系统等等。
个性化的解决方案

    通过在“清华大学力学系实验室产品采购”招标,方正科技的HPCC产品脱颖而出,其倡导的实用性也得到了校方的一致认可。方正科技根据清华大学力学系实验室的需求,提供了一套完整的解决方案。该方案基于IA架构的服务器硬件平台,采用服务器集群技术;硬件方面,由32个2U方正圆明MR200A双路至强服务器节点组成。软件方面方正科技HPCC软件系统采用了最被用户认可的WINDOWS、LINUX、UNIX的集群软件系统和高速互联结构,保证了研究、运算的高速畅通。其次,HPCC还设立了监控软件系统,保证了错误的及时发现和处理,体现了系统的安全可靠性。另外,用户可根据计算需求,轻松升级HPC的高性能计算能力,用户不必担心因为软、硬件的升级而更换更新更标准的HPCC平台,只需更换更高主频的CPU、更大量的内存和硬盘。这一方案的实施为清华大学的力学研究,带来了质的飞跃,满足了复杂运算的要求,确保了数据的安全,更为科学研究节省了大量的经费。

    但在实施过程中,用户提出新要求,用户要求我们对登陆的每个进程的持续时间做月度和年度的统计,从而作为用户与其他院系合作时收费的根据。这个需求虽然是客户的合理需求,但坦率的说,此等需求满足起来要运用技术手段相当复杂,涉及到LINUX内核命令和高级脚本编程,我们从没有做过相关的技术储备,但为了坚持完成项目,我同服务器研发工程师刘显用了2周时间,在服务器实验室自己搭建模拟环境,计量全面模拟实际环境,我们先后从线程的内核占用时间和应用级占用时间,和相应比率进行了反复的提取,阅读了大量全英文文档,尝试了好几个第三方系统工具,组合几十句系统命令,终于达成了相应的统计功能。

    以人为本的发展之路

    整个系统经过了一端长时间的测试之后,运行稳健,到目前为止,客户高度评价方正科技员工的全程配合精神,通过与客户长达3个月方案交流,客户对方正人的办事态度及能力,相关的技术背景予以充分肯定与理解,客户也体谅它们做高端产品推广的难度,主动建议它们将本案例做成典型案例进行下一步的推广。

    方正科技的成功是与它们一直提倡的“全程服务“理念和脚踏实地的为用户解决实际应用分不开的,作为起步较晚的中国高性能计算机产业,在整体实力上还远远落后于国际厂商,只有加强自身技术的改造、创新和加强方案、服务实力,发挥本土企业的自身优势,才能在HPCC的这条路上迈的更加夯实、稳健。