算力网络的普及是智能时代的重要标志。随着5G、IoT、人工智能等技术的逐步成熟,新基建成为我国下一步基础设施建设的大方向。国家发改委在2020年4月对新基建的含义进行了阐述,在“信息基础设施”中明确提出“算力基础设施”的概念。今年2月启动的“东数西算”,加速了全国一体化算力网络国家枢纽节点的建设步伐。《2021—2022全球计算力指数评估报告》显示,算力指数每提高一个点,数字经济和GDP分别增长3.3‰和1.8‰。算力已经成为数字经济时代的核心生产力。
目前,算力网络系统架构规划大多侧重如何运营、如何打通服务的提供方和消费者、如何将“网云融合”改造升级为“算网一体”等内容。笔者认为,高效的算力资源层是算力网络这座大厦的根基,底层处理芯片、数据传输等物理层产品和技术的支撑能力不容忽视。算力网络的有效实施除了资源整合、服务创新,还亟须新核心技术的突破。
算力网络的定义
对于算力网络,中国移动的定义是“以算为中心、网为根基,网、云、数、智、安、边、端、链等深度融合、提供一体化服务的新型信息基础设施”。中国联通的定义是“在计算能力不断泛在化发展的基础上,通过网络手段将计算、存储等基础资源在云-边-端之间进行有效调配的方式,以此提升业务服务质量和用户的服务体验”。可见实施算力网络的共同目标是“提升业务服务质量,优化用户体验”,具象化的愿景阐述是“使算力成为像水、电一样,可‘一点接入,即取即用’的社会级服务”。
以上定义更多的是从运营商角度来审视算力网络,这里我们给出一种技术角度的定义:算力网络是与应用需求密切匹配的网络化计算基础设施,使算力可应需集结,并与网络一样泛在,最终实现“网络即计算(NaaC,Network as a Computer)”。
要实现这一目标,需要算力计量、数据安全、操作平台、应用商店等运营措施的配套完善和应用生态的不断丰富,但根基在于底层核心技术的突破。好比在功能机时代,即便人们对移动互联网的需求足够强烈,也不可能构建出目前琳琅满目的应用生态和服务。直到智能手机出现,宽带互联网和3G、4G移动网络普及,才真正推动了移动互联网的业态成为现实。
“算力”与“电力”的类比
电力和算力都被视为跨时代的基础设施级驱动力,电力的广泛采用是第二次工业革命的标志。电的“泛在”只需要铺设好输送网络——电网,即可实现。如果把“算力”类比为“电力”,“算力”的泛在又能否通过铺设信息网络来实现,达到能联网的地方就能方便、应需地使用算力?
答案似乎没有那么简单。目前宽带、电信网络可谓无所不在,但“算力”尚未达到“一点接入”的方便程度,也没有实现“即取即用”的使用弹性。一个重要原因是算力资源的整合难度比电力资源高,算力的“池化”也比电力更具挑战。电力的源端是发电站,即便存在装机容量、发电方式的差异,生产的电力是无差别的,发电资源的“池化”只需将电网并网。相比之下,算力的源端更加“异构”,既包括云端的数据中心、超算中心、智算中心等,也包括边缘侧的数据中心、计算中心、基站等,因而“池化”算力比电站并网更具挑战。此外,电的传输对延迟没有特殊要求,而算力的调用通常对延迟有严格的要求。
同时,不同于电力,算力不是一种客观存在的物质,而是一种分析、存储、处理数据的能力。电力的基本操作是开通/断开,如何使用由终端设备决定,并不需要告知源端(发电站)。而算力的基本操作除了开通和断开,还要定义算什么甚至怎么算。相比电力的终端(电器)完全定义了功能,算力的终端大多数情况只负责“提问”,即发送计算请求,而源端通过大规模计算给出“解答”。算力网络的使用方式与云计算比较相似,云计算在某种程度上可以被视为算力网络雏形。
底层基础设施还需技术突破
直观理解的算力网络包含两个关键:一是算力,二是网络。算力网络的效力不是两者的相加,而是倍乘。根据梅特卡夫定律,网络的价值等于该网络内节点数的平方。算力网络的节点包括各种算力中心(如数据中心、超算中心、智算中心、边缘计算节点等)和服务的终端应用(如PC、智能手机等强交互设备,摄像头、智能电表等弱交互设备)。互联网的发展已经显示出梅特卡夫定律的巨大威力,将人类带入信息时代。如果算力网络的梅特卡夫定律能继续发挥作用,将拉开智能时代的序幕。
然而,新酒还需新瓶来装。现有的计算、网络、存储基础设施,尚不能完全支撑算力网络的愿景。从1940年到2010年,计算能耗效率呈现稳定的指数级增长,大约每1.6年效率指标就会加倍。在21世纪的前十年,我们得以将一台PC的算力装在了手机中,赋能移动互联网的快速发展。相比算力,数据量的增速也毫不逊色。从2005年至今,数据量约每两年翻一番。然而,摩尔定律从2015年开始放缓,单位能耗下的算力增速逐渐被数据量增速拉开差距。现有的网络化算力可以部分解决利用率不均衡的问题,却不能从本质上解决算力增速放缓。
为了便于分析算力相关的核心基础技术,我们把算力分为两大类——应用层算力和基础层算力。应用层算力指用于执行业务层应用的算力,例如视频解析、数据查询、路径规划、图像渲染等,对应云计算系统的SaaS和PaaS层,其算力提升主要来自专用服务器的采用。基础层算力指用来做资源池化、数据转发、压缩存储、网络功能虚拟化等基础层负载的算力,对应IaaS层,其算力提升得益于DPU、5G移动边缘计算、超高速光电混合网络、NVMe—oF等技术的采用。预计算力网络的基础层将会有三个方面的技术突破。
一是通过DSA(领域专用架构)维系应用算力的指数级提升。短期来看,专用体系结构的广泛采用有望维持2~3个数量级的算力提升,这也是DSA技术路线受到重视的原因。存内计算、网内计算、类脑计算等非冯·诺伊曼架构,都在尝试用非传统计算架构提升计算效能。从技术成熟度来看,通用GPU(GPGPU)、面向深度学习模型训练和推理的通用AI芯片,最有可能在短期内发挥算力增强作用。
二是通过DPU释放应用层算力的同时,扩容基础算力的管道。基础算力层的核心功能之一是构建算力流通的“管道”,在传统系统架构中,网络与计算是分离的,计算的主体是服务器,网络的主体是网卡、路由器和交换机。DPU技术的逐渐成熟,可以将大量原本在服务器运行的基础层负载卸载到DPU上。DPU还能将本地物理资源虚拟化,将远层访问本地化。在不改变现有路由器和交换机的前提下,DPU也开始承载基础算力的角色,并进一步提升网内计算的成熟度。
三是通过数据面代理赋能无服务器服务和云原生应用。随着云原生微服务架构的普及,服务网格作为微服务间通信的专用基础设施层,在微服务架构中实现可靠、快速和安全的服务间调用,并提供了可观测性、流量控制能力和安全保障。但是,服务网格增加了网络的复杂性,任意两个微服务间的通信都增加了两跳七层应用代理,微服务间通信的时延显著增加,限制了云原生应用的大规模部署。针对当前云原生服务网格存在的这一问题,可以通过DPU实现服务网格数据面代理,进而解决CPU和内存的消耗和微服务间访问延迟的问题。
目前我国在构建算力网络上有较好的基础,如良好的基建化程度、网络覆盖率、运营水平等,但也存在核心算力芯片自主率低、核心光电器件主要依赖进口等技术层面的挑战。在新基建、“东算西数”等政策的引导下,可以看到巨大的盘活存量、优化增量的机遇,推动算力早日成为普惠大众的生产力。
作者系中科院计算所研究员、中科驭数创始人兼CEO 鄢贵海