中国电子政务网--信息化--技术--三大核心技术突破筑牢算力网络底座

三大核心技术突破筑牢算力网络底座

来源:中国电子报更新时间:2022-06-10

算力网络的普及是智能时代的重要标志。随着5G、IoT、人工智能等技术的逐步成熟，新基建成为我国下一步基础设施建设的大方向。国家发改委在2020年4月对新基建的含义进行了阐述，在“信息基础设施”中明确提出“算力基础设施”的概念。今年2月启动的“东数西算”，加速了全国一体化算力网络国家枢纽节点的建设步伐。《2021—2022全球计算力指数评估报告》显示，算力指数每提高一个点，数字经济和GDP分别增长3.3‰和1.8‰。算力已经成为数字经济时代的核心生产力。

目前，算力网络系统架构规划大多侧重如何运营、如何打通服务的提供方和消费者、如何将“网云融合”改造升级为“算网一体”等内容。笔者认为，高效的算力资源层是算力网络这座大厦的根基，底层处理芯片、数据传输等物理层产品和技术的支撑能力不容忽视。算力网络的有效实施除了资源整合、服务创新，还亟须新核心技术的突破。

算力网络的定义

对于算力网络，中国移动的定义是“以算为中心、网为根基，网、云、数、智、安、边、端、链等深度融合、提供一体化服务的新型信息基础设施”。中国联通的定义是“在计算能力不断泛在化发展的基础上，通过网络手段将计算、存储等基础资源在云-边-端之间进行有效调配的方式，以此提升业务服务质量和用户的服务体验”。可见实施算力网络的共同目标是“提升业务服务质量，优化用户体验”，具象化的愿景阐述是“使算力成为像水、电一样，可‘一点接入，即取即用’的社会级服务”。

以上定义更多的是从运营商角度来审视算力网络，这里我们给出一种技术角度的定义：算力网络是与应用需求密切匹配的网络化计算基础设施，使算力可应需集结，并与网络一样泛在，最终实现“网络即计算（NaaC，Network as a Computer）”。

要实现这一目标，需要算力计量、数据安全、操作平台、应用商店等运营措施的配套完善和应用生态的不断丰富，但根基在于底层核心技术的突破。好比在功能机时代，即便人们对移动互联网的需求足够强烈，也不可能构建出目前琳琅满目的应用生态和服务。直到智能手机出现，宽带互联网和3G、4G移动网络普及，才真正推动了移动互联网的业态成为现实。

“算力”与“电力”的类比

电力和算力都被视为跨时代的基础设施级驱动力，电力的广泛采用是第二次工业革命的标志。电的“泛在”只需要铺设好输送网络——电网，即可实现。如果把“算力”类比为“电力”，“算力”的泛在又能否通过铺设信息网络来实现，达到能联网的地方就能方便、应需地使用算力？

答案似乎没有那么简单。目前宽带、电信网络可谓无所不在，但“算力”尚未达到“一点接入”的方便程度，也没有实现“即取即用”的使用弹性。一个重要原因是算力资源的整合难度比电力资源高，算力的“池化”也比电力更具挑战。电力的源端是发电站，即便存在装机容量、发电方式的差异，生产的电力是无差别的，发电资源的“池化”只需将电网并网。相比之下，算力的源端更加“异构”，既包括云端的数据中心、超算中心、智算中心等，也包括边缘侧的数据中心、计算中心、基站等，因而“池化”算力比电站并网更具挑战。此外，电的传输对延迟没有特殊要求，而算力的调用通常对延迟有严格的要求。

同时，不同于电力，算力不是一种客观存在的物质，而是一种分析、存储、处理数据的能力。电力的基本操作是开通/断开，如何使用由终端设备决定，并不需要告知源端（发电站）。而算力的基本操作除了开通和断开，还要定义算什么甚至怎么算。相比电力的终端（电器）完全定义了功能，算力的终端大多数情况只负责“提问”，即发送计算请求，而源端通过大规模计算给出“解答”。算力网络的使用方式与云计算比较相似，云计算在某种程度上可以被视为算力网络雏形。

底层基础设施还需技术突破

直观理解的算力网络包含两个关键：一是算力，二是网络。算力网络的效力不是两者的相加，而是倍乘。根据梅特卡夫定律，网络的价值等于该网络内节点数的平方。算力网络的节点包括各种算力中心（如数据中心、超算中心、智算中心、边缘计算节点等）和服务的终端应用（如PC、智能手机等强交互设备，摄像头、智能电表等弱交互设备）。互联网的发展已经显示出梅特卡夫定律的巨大威力，将人类带入信息时代。如果算力网络的梅特卡夫定律能继续发挥作用，将拉开智能时代的序幕。

然而，新酒还需新瓶来装。现有的计算、网络、存储基础设施，尚不能完全支撑算力网络的愿景。从1940年到2010年，计算能耗效率呈现稳定的指数级增长，大约每1.6年效率指标就会加倍。在21世纪的前十年，我们得以将一台PC的算力装在了手机中，赋能移动互联网的快速发展。相比算力，数据量的增速也毫不逊色。从2005年至今，数据量约每两年翻一番。然而，摩尔定律从2015年开始放缓，单位能耗下的算力增速逐渐被数据量增速拉开差距。现有的网络化算力可以部分解决利用率不均衡的问题，却不能从本质上解决算力增速放缓。

为了便于分析算力相关的核心基础技术，我们把算力分为两大类——应用层算力和基础层算力。应用层算力指用于执行业务层应用的算力，例如视频解析、数据查询、路径规划、图像渲染等，对应云计算系统的SaaS和PaaS层，其算力提升主要来自专用服务器的采用。基础层算力指用来做资源池化、数据转发、压缩存储、网络功能虚拟化等基础层负载的算力，对应IaaS层，其算力提升得益于DPU、5G移动边缘计算、超高速光电混合网络、NVMe—oF等技术的采用。预计算力网络的基础层将会有三个方面的技术突破。

一是通过DSA（领域专用架构）维系应用算力的指数级提升。短期来看，专用体系结构的广泛采用有望维持2～3个数量级的算力提升，这也是DSA技术路线受到重视的原因。存内计算、网内计算、类脑计算等非冯·诺伊曼架构，都在尝试用非传统计算架构提升计算效能。从技术成熟度来看，通用GPU（GPGPU）、面向深度学习模型训练和推理的通用AI芯片，最有可能在短期内发挥算力增强作用。

二是通过DPU释放应用层算力的同时，扩容基础算力的管道。基础算力层的核心功能之一是构建算力流通的“管道”，在传统系统架构中，网络与计算是分离的，计算的主体是服务器，网络的主体是网卡、路由器和交换机。DPU技术的逐渐成熟，可以将大量原本在服务器运行的基础层负载卸载到DPU上。DPU还能将本地物理资源虚拟化，将远层访问本地化。在不改变现有路由器和交换机的前提下，DPU也开始承载基础算力的角色，并进一步提升网内计算的成熟度。

三是通过数据面代理赋能无服务器服务和云原生应用。随着云原生微服务架构的普及，服务网格作为微服务间通信的专用基础设施层，在微服务架构中实现可靠、快速和安全的服务间调用，并提供了可观测性、流量控制能力和安全保障。但是，服务网格增加了网络的复杂性，任意两个微服务间的通信都增加了两跳七层应用代理，微服务间通信的时延显著增加，限制了云原生应用的大规模部署。针对当前云原生服务网格存在的这一问题，可以通过DPU实现服务网格数据面代理，进而解决CPU和内存的消耗和微服务间访问延迟的问题。

目前我国在构建算力网络上有较好的基础，如良好的基建化程度、网络覆盖率、运营水平等，但也存在核心算力芯片自主率低、核心光电器件主要依赖进口等技术层面的挑战。在新基建、“东算西数”等政策的引导下，可以看到巨大的盘活存量、优化增量的机遇，推动算力早日成为普惠大众的生产力。

作者系中科院计算所研究员、中科驭数创始人兼CEO 鄢贵海