应把国家投入的高端算力尽快联成一张“网”
来源:新京报 更新时间:2023-08-21

钱德沛院士:

应把国家投入的高端算力尽快联成一张“网”


更高性能与更低能耗,是算力这枚“硬币”的一体两面,还是ChatGPT大模型带火算力产业后,我国面临的挑战?

“这两个其实互为因果,是我们国家发展算力遭遇的最大挑战。”中国科学院院士、北京航空航天大学教授钱德沛告诉新京报新京智库。在美国等发达国家对我国高科技产业实施封锁的国际背景之下,我们只有在这两个方面都突出重围,才能走出一条中国的高性能、低能耗的计算之路。

那么,我国算力当前处于什么水平,能否满足不同城市的算力需求?算力建设是否真如舆论所说一定能带动经济发展?新京智库就此采访了钱德沛院士,他回应了当下关于算力建设的一些热点问题。

钱德沛长期担任我国高性能计算方向国家重大项目总体组组长,主持制定了战略目标和实施方案,确立了高性能计算机的体系结构和技术方案,实现了高性能计算机的跨越发展。

我国算力迈上了第四个台阶

新京智库:目前,我国算力水平位居全球第二,从弱到强,这个过程经历了几个阶段?每个新阶段开始的标志性事件是什么?

钱德沛:算力主要是随应用需求而发展,在我国高性能计算得到了国家科技计划的长期支持,所以实现了从跟踪到并跑,甚至交替领先的发展过程。

如果从计算机的性能来划分,过去30年有4个台阶,每个台阶性能提高1000倍,即从G级(每秒10亿次)到T级(每秒万亿次),再到P级(每秒1000万亿次),再到E级(每秒百亿亿次)。相对应的典型计算机系统是,早期的曙光1000(G级),上世纪末的曙光3000(百G级)。从本世纪开始,我国陆续发展了几代超级计算机,比如联想深腾6800和曙光4000A(T级),天河一号、曙光6000和神威·蓝光(P级),神威·太湖之光和天河二号(百P级)等,接着是E级计算机。

最近这几年,新一代人工智能的发展对算力需求急剧提升,特别是最近一年来,大模型训练引来了社会各界越来越多的关注。在这一阶段,一批智算中心成立,它主要是以针对人工智能应用为目标而建立的算力中心。

更高性能和更低能耗是一个挑战

新京智库:从国家层面来看,目前国家规划了“东数西算”工程,这种一体化的新型算力网络体系可以解决哪些问题?又面临哪些挑战?

钱德沛:国家规划“东数西算”工程的目的是建设一种新的算力网络体系,但它的出发点实际上也是要解决“双碳”指标已经确定的背景下,碳达峰、碳中和目标能否如期实现的问题。IT系统的能耗已经相当高了,而且在不断快速攀升。

在这种情况下,东部能源已经紧张,比如国家超算深圳中心,原本规划安装E级计算机,因为能耗将从几兆瓦一下提高到80兆瓦,最后就放弃了计划。所以说,“东数西算”工程是一个长久的国家战略,是为了解决一些现实问题的措施。

至于说“东数西算”工程所面临的挑战,就是要尽量避免其负面效应的发生。比如,在西部建成算力中心后面临负载不足,即任务不饱满。任何事情都有其两面性,如果说将来在西部建的算力中心没有足够的应用,造成空闲就是一种浪费,而且西部的网络基础、人才条件和应用需求可能都不那么充足。我们最不希望出现的就是用了西部的能源电力,但某种程度上破坏了西部的环境,还没有促进西部的经济发展。

新京智库:那你觉得我国算力发展面临最大的挑战是什么?是缺少更高计算能力的芯片,还是能耗更高与减碳之间的矛盾?

钱德沛:我觉得这两个是交织在一起的挑战,这两个挑战互为因果。我们衡量一台计算机好不好,是看其计算速度快不快、是否节能、是否好用。我们需要计算性能更高,同时又能耗更低的计算机,因为美国的封锁,使得我们无法购买到高端芯片,就是高性能低能耗的芯片,比如NVIDIA(英伟达)的H100。它最近又发布了GH200。

我们自己能造计算机,但如果没有高端的芯片,就会导致能耗更高。能耗的指标就约束了怎么造计算机,你不能随心所欲,靠多装一些处理器(CPU)来提高计算机的性能,那不行,因为处理器太多能耗太高,就会超出用户的承受能力。因此没有高端处理器,整个计算系统能耗就降不下来。

所以,更高性能与更低能耗实际上是我们面临的同一个挑战。我们要在这两方面都有突破,才能走出一条中国的高性能、低能耗的计算之路。

“距离”不是“东数西算”的挑战

新京智库:现在也有一种观点担忧,即京津冀、粤港澳和长三角三大算力枢纽和用户端离得比较近,而甘肃、宁夏、内蒙古和贵州四个枢纽离用户端比较远,对于一些实时性要求比较高的场景应用是否就难以满足?

钱德沛:其实计算应用是分不同类型的,有实时性高的,也有实时性不那么高的,而且大部分数值模拟的应用实时性都不那么高。比如说一个工程师提出了一个新的设计方案,需要通过仿真验证设计好不好,他下班时提交任务,第二天一早上班能拿到结果,那就很好。

我觉得一些人有一种认知误区,好像一定要机器在桌边或在单位才好,才能够随时使用。其实不是这样,很多应用并不是都要那么高的实时性。特别是高性能数值模拟计算,它经常是批处理作业,并不需要交互式的实时性。但有些人觉得好像机器不在他的控制之下,就不方便。我觉得这是一种错觉。

其实,真正阻碍我们远程使用计算的因素是技术,比如网络的性能。如果网络传输速率不高,那么大量的原始数据和结果数据的传输就会比较慢,多数人对于这种传输的延时比较缺乏忍耐力。这可能会是一个制约远程使用算力中心的因素。

另外就是服务水平,但这个问题在目前情况下并不突出,因为目前西部的算力中心多是用户端机构本身所设立的,比如中国电信、中国移动、阿里巴巴和京东等在西部设立算力中心。这些都是在它们自己控制范围之内,并不存在因为服务水平高低而影响用户使用的问题。

不过,从长远来看,算力中心应该逐渐从提供原始算力到提供应用解决方案过渡,在那时可能应用的服务水平会更加显现出它的作用。

新京智库:从不同城市来说,目前我国的算力资源分布是否可以很好地满足所在城市或附近城市的需求?

钱德沛:如果真正形成了网络,超算的网络或智算的网络,是不是全国一张网都无所谓,算力的地理分布应该不是关键因素,除非传输网络太差。只要应用系统跟得上,肯定是可以满足非算力中心附近城市的算力需求。

比如,国家超算无锡中心下一步升级的机器就将放到青海西宁,让他们去管理,因为那边电价便宜。所以机器在哪里或者靠不靠近一个城市关系都不大。

影响大的是,你的应用系统能不能被计算系统所支持,有没有相应的应用软件支持。如果没有相应软件支持,机器放家门口也没用;如果有软件支持,哪怕机器部署在西部也照样可以使用。

另外就是怎么运行算力中心,从经济上来讲要看收费合理不合理,或者用户有没有得到真正的收益。如果算力中心联网以后,用户使用的成本降低了,用户为何不用?

但是,如果算力中心收费不合理,或者急于收回成本定价过高,那用户就会选择不用你的资源。如果一个算力中心没有足够应用,那最终就会经营不下去。

“中国算力网”目前还不存在

新京智库:关于算力的作用有很多说法,比如对算力的投入能拉动GDP增长。你认为算力对我国经济、科技发展有何影响?

钱德沛:算力是创新型国家建设的一个基础,而且是一种支撑性技术,这一点已经逐渐形成共识,但在二三十年前并不是这样认为。今天已经有越来越多人认识到了算力的重要性,特别是最近这几年。

但具体说算力到底能带来多少GDP,很难说。计算的作用完全取决于你是否用计算完成了你的应用,不是说投入了就一定有产出。所以,我从来不愿意引用一些机构测算的算力带来GDP回报的数据,我个人一直怀疑这些数据的科学性,不太主张这种提法。

新京智库:目前我国有哪些算力中心(超算中心、智算中心等)已经接入中国算力网?这对各城市对算力的需求而言,会有怎样的作用?

钱德沛:“中国算力网”目前还不存在,尽管有很多宣传,但现在还没有真正意义上的“中国算力网”。要作为一个基础设施说“中国算力网”,那谁是业主,谁在运营?还没有。

但是局部的、某个领域的、或者超算中心的“网”是存在的。经过20多年发展,超算中心已经联成网络,现在又计划发展新一代的超算互联网,这是存在的,已经联成网。新的部分智算中心也已经联网,它的业务形态正处于形成过程中。

至于将来是否能够建成中国算力一张网,我有点持怀疑态度。计算和电力有点不一样,电力不连接起来,就只能供本地使用。现在我们有国家电网、南方电网两大电力运营商。但是,到目前为止,算力还没有一个业主或运营商在运营“中国算力网”。

计算,从本质上来说,一开始就是离散的、分布式的。因为计算机就是一台一台分布在不同地方,后来有了网络,才把计算机连接在了一起,才有了资源共享、统一调度,最后形成一个基础设施形态。

而且,有的算力资源是国家投入建设的,有的是企业投入建设的,不同算力中心的所有权、所有制也不一样,你怎么把它们统一起来并入到一张“网”里?

就像云计算,每家大企业都有自己的云计算平台,阿里、京东、百度、腾讯等都经营自己的云平台,它们可以发展不同云之间的互联,可以变成一种联合体,但是很难想象要京东的资源交给阿里去运管,这在商业模式上不可能实现。

过去这些年,我们一直在做一件事情,就是要把关系国计民生、关乎国家创新发展、由国家主要投入的高端算力联成一张“网”,作为一个基础设施来运行,支撑科研发展。其他大量的算力可能还是要放开、竞争,国家予以政策指导。(记者 肖隆平)

中国科学院院士、北京航空航天大学教授钱德沛