超算应有国家战略
来源:元器件交易网 更新时间:2014-04-15

  中国已经跻身“超算大国”行列。然而,中国离“超算强国”的目标却有差距。我国超算产业暴露出明显的应用瓶颈,存在重技术、轻应用,重硬件、轻软件等问题,其根源在于我国缺乏完善的超速应用生态软环境,具体表现在人才储备、应用意识、政策导向等方面。

  目前,我国超算投资仅有10%的资金用于应用软件的开发和优化,而美国的这一比例已经超过50%。应用瓶颈的存在不仅会导致超级计算机资源无法充分应用到社会、科研及生产中,也会反过来限制其自身的发展。

  中国计算机学会高性能计算专业委员会秘书长、中科院计算所张云泉研究员在接受《中国经济和信息化》记者专访时表示:“国家已经意识到长期忽视对应用软件的投入开始影响超级计算机的应用推广和后续研发,必须平衡投入的重要性,但另一方面国家对超算应用软件研发投入的决心仍显不足,国家应该成立专门的国家级超算应用软件工程中心统筹和协调全国超算应用软件的研制和推广工作。”

  CEI: 中国超级计算机在应用领域的发展演变史是怎样的?

  张云泉:战争的需要造就了超级计算机(下称超算)最早的用户。早期的计算机主要被用于军事用途。二战时期德国潜艇的狼群战术就是通过计算机对密码的成功破译被瓦解的,而超算在美国研制原子弹的曼哈顿计划中应用的也非常成功。中国最早的超算也是被用于类似的用途。上世纪80年代以后,PC机开始出现和普及,除了科学和军事用途之外,超算开始有了其他的应用。但是由于当时MPP超算的成本很贵,所以主要还是应用在气象、石油等需求比较明确和成熟的行业。直至上世纪90年代中期左右,随着机群的出现和普及,超算成本开始大幅度下降,超算的应用开始百花齐放起来,广泛分布在气候气象、地球物理、计算化学、药物设计、动漫、生物信息学、天体物理、互联网服务、在线游戏等领域。现在,超算仍以机群体系架构为主,但是其功耗问题逐渐显现出来,为了控制功耗,超算科学家和工程师开始在原有的超算体系架构上添加“异构加速部件”,比如和MIC等进一步提升性能。2009年之后,超算开始出现异构集群的新趋势,但这也意味着其硬件越来越复杂,并行编程越来越复杂,而应用开发也越来越难。

  CEI:与国外相比,我们在超算的应用上有哪些差距?

  张云泉:2002年我们刚发布第一期中国高性能计算机TOP100排行榜的时候,我国超算能力排名100台超算的平均性能与国外前500台的平均性能差距是3-5年左右,后来很快缩短为2-3年,直至去年我国超算的平均性能已经超过世界平均水平,这说明我国超算平台系统的发展态势良好且研制水平已经步入国际领先水平。

  我国超算取得这样的成绩,意味着中国超算整体水平提升,在国际舞台上的发言权也随之提升,合作和交流机会也越来越多,对于提升国内科研水平、培养科研队伍,包括参与国际高水平会议研讨和对话,增进国际合作都有很好的帮助,我们科研工作者在高水平国际会议上对这一点有很强烈的感受。

  夺取超算TOP 500排行榜冠军不仅仅是个排名问题,而是关系到整个国家从事超算研究的科研人员在国际上的地位和话语权问题,所以还是不能忽视排行榜的重要性,我们不鼓励去刻意追求,但是要在战略上重视。

  2011年,日本的京速机夺走“天河一号A”TOP500冠军位置的时候,日本国内去了80多个参会代表,西装革履拿着录像机进入会场,我们在现场感受到了国与国之间在高技术领域竞争的残酷和无情,更强烈地感觉到日本对超算的重视程度并不像他们表面上所表现出来的平静。美国其实更重视超算的排名,一旦失去第一的位置,就会加大对超算的科研投入,制定中长期研制计划,确保能够尽快把第一名的位置夺回来。

  不过,虽然我国超算硬件平台的研制水平很强,但是我们的超算应用水平确实落后国际水平比较多。当然超算软件的研制落后于超算硬件的发展速度也不仅是我们国家存在,美国也是一样。在美国,超级计算机的使用年限大概为3-5年,我国的使用年限约为5-8年,有的使用年限甚至能达到10年。而假如超算应用软件研制成功的话,其使用年限至少是10-20年,当然使用的过程中软件还得不断改进。美国甚至认为超级计算成功的关键是物理建模+计算方法+并行软件,缺一不可。

  超级计算最大的投资应该在应用软件,最大的困难也在应用软件。以前美国投资超算硬件的力度也比应用软件大,但现在美国对应用软件的投资达到50%以上,超算硬件投资只占不到40%。

  过去,我们国家长期忽视对超算应用软件的开发,一直把应用软件当做是超算硬件平台的配套来研制。往往等超算硬件平台研制成功之后,才拨付一小笔经费为其研制配套的应用软件,对机器进行测试和评价,而不是像美国等发达国家一样在开始部署超算研制项目时,同时部署超算硬件平台和应用软件的研制任务,等到超算硬件平台投入使用时,超算应用软件也同时可以上线运行,大大提高了生产效率和利用率。

  CEI:有观点认为受限于软件开发和应用支持,设备运行时资源利用率低下,是当前应用瓶颈的核心所在。你认同吗?

  张云泉:这有客观和主观原因。像一些军事、气象等成熟的行业,软件和硬件是同步发展,但是现在很多超算中心的硬件能力很强,应用又跟不上计算能力,需要有一段时间推动应用跟上计算能力的发展。所以会出现你说的现象。

  因此,我们不能单纯说应用不行,这需要一个发展过程。我国过去是超算应用需求牵引超算硬件发展的模式,现在变成了超算硬件的发展超前超算应用需求的发展模式,计算能力开始驱动应用需求的发展,应用自然会显得滞后。今后两种发展模式会不断出现交替的情况。

  CEI: 现在一些超算被用在政府电子网站建设中,有观点认为这是一种超算“物非所用”的现象,你怎么看?你认为中国超算在应用领域有哪些发展隐患?

  张云泉:这其实是一种误解。超算应用在电子政务网站的运行并不算是物非所用,不过是一种不同的应用形式而已。广义的超算可以分为两种,一种用于科学计算,一种用于互联网服务。

  过去的超算中心是行业内专用的计算中心,仅仅用在有限的几个比较成熟的科学计算应用领域,而现代意义上的超算中心成为一个综合的计算能力服务机构,面向各行各业提供计算能力和存储能力的服务包括政府的电子政务。超级计算机在提供这类互联网服务的时候,往往采取云计算的形式提供服务。实际上,云计算也是一种松散耦合的结合了虚拟化技术的超级计算。

  实际上,超算中心服务于政府的电子政务不但不浪费资源,反而会节约政府预算和提高资源的利用率。试想如果政府的每个部门还像过去一样分散地采购服务器,搭建自己的信息化服务平台,部门间很容易形成信息孤岛,造成资源的重复投入和浪费,通过集中起来采购建设统一的超算中心并以云计算的形式为各部门服务,既节约了经费投入,又提高了资源的利用率。为此,目前中国的不少超算中心,往往会通过将超算系统划分成传统的科学计算分区和云计算分区两个分区提供不同类型的服务以提高超算资源的利用率。

  CEI:应用瓶颈是一个过程问题,真正把大超算做成一个生产工具,国内还差得比较远。如何尽快实现这个目标?

  张云泉:过去,超算是战略性行业,冷门行业,人才容易流失且比较匮乏。现在,由于各地方政府都在建超算中心,对人才的需求开始逐渐增加。在美国,一个很普通的高校也有超算中心,美国建设中小规模超算中心的目的,一个是满足本地的应用需求;另一个是通过小的超算中心作为培养应用人才的基地。通过把大中小超算中心合理布局和建设,形成一个超算应用的生态系统,才有利于超算的长期健康发展。

  目前,国家对超算应用软件研发投入的决心仍然不足,投资力度还是不够。因此,建议继续加大对7个已经成立的国家超级计算中心的研发及应用投入,持续加大对计算科学软硬件研究开发平台特别是软件的协调支持力度,维持目前稳定持续的发展势头。

  其次,科研人员需要静下心来花费更多的精力开发国产超算应用软件,不能搞短、平、快。因为应用软件研制的难度非常大,建议国家制定20-30年的中长期规划。

  国家应该在中央网络安全和信息化领导小组下面成立专门的类似美国总统信息技术顾问委员会这类的专家委员会统筹协调超算系统和应用软件的发展;成立国家级超算应用软件研发工程中心,专门研制各行各业应用软件,而不仅仅只是通过小实验室的小课题进行断断续续的研制。