从今年3月的GTC大会到6月的Computex展会,英伟达出场的主角都是Grace CPU和Hopper GPU,这意味着,从现在到未来,这两者都将是英伟达在数据中心市场的绝对主角。英伟达希望通过命名自计算机编程界先驱Grace Hopper的最新GPU架构Hopper重新定义数据中心,抢占人工智能(AI)、高性能计算(HPC)和数据分析等需求市场,成为这波需求红利的头茬收割者。
人工智能、高性能计算和数据分析等市场,被鹏城实验室研究员陈春章概括为“量子计算大规模流行之前的平行计算市场”。而笔者更愿意将其简缩为“前量子计算市场”——量子计算机可能还需要10年到20年成熟,但对”量子级”的海量算力需求已经存在,一向以市场嗅觉敏锐著称的英伟达CEO黄仁勋,已经“磨刀霍霍”了。
数据中心将变成AI工厂
不管品种繁多的消费电子产品市场如何消长,后端数据中心市场的增长从来不会放缓,这是为什么英伟达、英特尔、AMD等半导体厂商都把数据中心视为“兵家必争之地”的原因。
目前这三家企业都把CPU+GPU超级混合芯片作为数据中心市场的最新“联合作战方案”,基于这样的组合思路,原来没有GPU的补GPU,没有CPU的补CPU。在基本完成“补短板”行动之后,最近,英特尔宣布推出Falcon Shores XPU芯片,AMD推出Instinct MI300芯片,英伟达则推出Grace,这几款“CPU+GPU”的混合芯片将在2023年、2024年陆续登场。
如何在同一市场塑造差异化,从来都是CEO们必须思考的关键问题,正是基于差异化思路,黄仁勋今年频繁在各个场合释放“未来的数据中心将变成AI工厂”的论调,并下大注推动GPU代次更迭。因为在AI市场,英伟达的GPU优势无人撼动,如果未来的数据中心都向AI工厂转型,那么英伟达将是这一转型的最大获利者。
未来的数据中心、云计算数据中心会越来越凸显AI特征吗?未来的数据中心会变成所谓“AI工厂”吗?Gartner2020年发布的《云AI开发者服务关键能力报告》显示,AI与云的结合将越来越紧密,AI云服务的能力也将成为AI产业的重要指标,到2025年,70%的新应用程序将集成AI模型。中国工程院院士王恩东同样表示,当前人工智能计算需求正呈指数级增长,未来在社会总计算需求中将占80%以上,承载这种需求的就是AI算力中心。
这印证了英伟达CEO黄仁勋的判断。英伟达认为AI人工智能计算的发展正经历第五次浪潮。AI计算的第一次浪潮始于深度神经网络的发现。第二次浪潮是因为云,通过云AI计算迎来第二次浪潮。AI计算的第三次浪潮是因为AI工具的开发,使得AI获得更为容易,大型企业使用AI工具提高工作流程的质量、安全和效率。第四次浪潮是AI从云或数据中心推向边缘,比如工厂、医院、机场、商店、餐厅和电网等地方。AI的第五次浪潮是自主性的增长——即AI在没有人类干预的情况下自主操控移动机械,如汽车、卡车、船舶、飞机、无人机等。
“自AI大爆炸以来,该行业已取得了迅速发展并引发了后来的计算浪潮,包括云服务、企业AI、边缘AI和自主机器。”黄仁勋表示,“下一个机会就藏在AI工厂、云AI和边缘AI之中。”
眼下,AI正以前所未有的速度向各行各业渗透,各个IT巨头正在奋力突破AI加速渗透的最后瓶颈,大模型的“军备竞赛”是这场突围的信号之一。咨询公司IDC认为,人工智能的落地已经发展到一定阶段,向前一步的瓶颈在于某一厂商往往不具备足够的可用于模型训练的数据资源,且缺乏充足的算力,很难将偏通用的AI模型落地到企业场景中。
模型算法、数据、算力是推动人工智能发展的三大要素,其中算力被视为人工智能走向规模化应用的“发动机”。关于这个“发动机”有多重要,AI又多能“吃”算力,AI大模型训练对算力消耗是一个参照:阿里用了480块GPU来训练其千亿参数模型,英伟达用3072块GPU训练万亿参数模型,谷歌则用2046块TPU训练16万亿参数的模型。所以加快提升“发动机”的能力,进一步降低算力成本,成为推动人工智能加速规模化落地的关键。
应对人工智能发展所需要的“指数级算力”增长,要想成为下一轮“AI工厂”竞争的头牌,英伟达必须将GPU的算力再次推向极致。
Hopper带来GPU代际飞跃
一直以来英伟达在GPU市场拥有绝对优势,但AI等市场对于算力的无穷诉求,加上英特尔推出独立GPU,以及AMD的步步紧逼,英伟达必须革新架构,进一步加宽其护城河。
两年前,英伟达推出的GPU架构是Ampere(安培),英伟达最新的GPU新架构以美国计算机编程界先驱Grace Hopper命名,足见其希望新架构引领未来计算的企图。
Hopper是英伟达最新的GPU架构,基于Hopper架构的GPU H100实现的性能提升,有人用“新核弹”来形容其代际飞跃。目前,基于Hopper架构,英伟达推出了面向数据中心的GPU H100,“用20块H100 GPU,可以承托全球互联网的流量”,这是黄仁勋的原话。
具体来看,H100 GPU芯片由800亿个晶体管构建而成,采用了专为英伟达加速计算需求而优化的TSMC 4N工艺,单个H100最大支持40TB/s的IO带宽。H100同时还集多项“首个”于一身,包括首款支持PCIe 5.0的GPU、首款采用HBM3标准的GPU,以及全球首款具有机密计算功能的GPU。
尽管GPU H100将于2023年上半年才正式供货,但自从今年曝光以来,已在业界引发诸多震荡。
赛迪顾问集成电路产业研究中心分析师池宪念认为,相比于上一代的安培架构,Hopper架构在工艺、张量核心、性能方面均实现了飞跃,H100还具有机密计算功能,可保护AI模型和正在处理的客户数据。
业内资深人士认为,Hopper架构的性能提升和主要变化体现在新型线程块集群技术和新一代的流式多处理器。英伟达在Hopper中引入了新的线程块集群机制,可实现跨单元进行协同计算。
池宪念认为,基于Hopper的GPU H100可以作为加速计算卡来助力超级计算机的发展,极大推进了数据中心、AI超级计算产业的发展。此外,它对产业界还有以下几点促进:一是Hopper架构的GPU产品可以应用于服务器,为AI训练和推理以及数据分析提供更高应用性能。二是H100 PCIe规格便于集成到现有的数据中心基础设施中,有效提高算力和减小能耗。三是H100可助力开发者和企业构建并加速AI、HPC等一系列应用,使企业可用它来加速由AI驱动的业务。
如果再加上英伟达的连接技术,那么Hopper还可以像搭积木一样进一步拓展处理器性能。比如今年GTC大会上,英伟达推出了AI计算系统DGX H100,借助 NVLink 连接,DGX 使8块H100成为了一个巨型GPU:拥有6400亿个晶体管,具备32 PetaFLOPS的AI性能,具有640GB HBM3显存以及24TB/s的显存带宽。
就像黄仁勋所宣称的那样,作为一家计算机平台厂商,而非芯片企业,英伟达从来都不仅仅提供芯片,而是围绕AI建立全栈的能力,其中芯片是关键基石,此外还有平台、工具,并建立“样板房”“样板工厂”“样板模型”。
目前英伟达正在构建首个AI工厂的 “样板房”EOS。据介绍,该EOS搭载18 个DGX POD、576台DGX H100、4608个H100 GPU。在传统的科学计算领域,EOS的速度是275 PetaFLOPS,比 A100 驱动的美国速度最快的超级计算机Summit还快1.4倍。在AI方面,EOS的AI处理速度是18.4 ExaFLOPS,比全球最大的超级计算机——日本的Fugaku快4倍。
大模型也是近年英伟达大力投入的又一个维度。除了与微软联手研发大模型,最近,英伟达又联手包括加州理工学院、伯克利实验室在内的多家科研机构合作开发FourCastNet天气预报AI模型。“传统的数值模拟需要一年的时间,而现在只需要几分钟。”黄仁勋称,它能够预测飓风、极端降水等天气事件。
布局“前量子计算”市场?
英伟达下狠心研发海量算力的GPU,H100将GPU的性能做到目前全球的顶配,陈春章认为其真正意图正是抢占量子计算大规模流行前的需求市场,即“前量子计算市场”。目前看量子计算产业发展尚在早期,产业成熟或许还需5~10年,但市场需求已经存在。英特尔、IBM、谷歌、微软等IT巨头都在紧锣密鼓进行量子计算的研究,布局未来计算的下一站。
具体来看,H100的技术性能能解决哪些重大问题?有哪些典型的应用场景?“第一是AI,第二是HPC。”陈春章表示。在AI方面,英伟达已经给出了它在训练大模型方面的能效比,不再做讨论,而HPC的典型场景包括基因序列、病毒的动态病理学研究,还包括自动驾驶、AR/VR、天气预报、大飞机制造等。量子计算主要用在哪些场景?以IBM的量子计算为例,IBM将之用于计算化学、分子化学研究,解决药物合成问题。H100的目标市场与量子计算市场高度重合。
本源量子公司总经理张辉说:“量子计算擅长两类问题,一类是处理海量数据并行运算,另一类擅长模拟微观体系下电子、原子、分子的运动规律。”张辉进一步表示,比如未来的新药研制很可能不需要通过经验合成,不用进行小白鼠、大型动物和人体一期、二期、三期的实验并花费几十年的研制周期,量子计算机模拟后可快速得出最优解决方案,极大地加速了新药研制过程。
量子计算所擅长的场景与H100描述的典型应用场景高度一致。陈春章的判断果然没错——7月12日,英伟达发布统一计算平台NVIDIA量子优化设备架构(QODA)。英伟达称,该平台将加快人工智能、高性能计算、医疗、金融和其他学科的量子研发突破。
据介绍,QODA通过创建相干的混合量子经典编程模型,使量子计算更容易使用。QODA 是开放的、统一的环境,适用于当今一些最强大的计算机和量子处理器,提高了科学生产力,并使量子研究具有更大的规模。具体来看,HPC和AI领域的专家使用QODA能够轻松地将量子计算添加至现有应用中。
此前,英伟达通过CUDA平台+ NVIDIA GPU收割了AI市场第一茬红利;现在英伟达希望通过QODA平台+ NVIDIA GPU收割量子计算应用市场红利。张辉说,量子计算机有可能还需要10年到20年才成熟,但这对于英伟达来说更是机会,“在用户享用到量子计算之前,现在可以通过QODA平台+NVIDIA GPU来满足需求”。
英伟达高性能计算和量子计算产品总监Tim Costa说: “在短期内, 结合经典计算和量子计算的混合解决方案可能为科学研究带来突破。”7月13日,英伟达在东京Q2B大会上透露,目前已经与量子硬件供应商、量子软件供应商,以及一些国家的计算中心和实验室就 QODA展开合作。
陈春章分析说:“英伟达公司收购Arm没成,又没有FPGA,果然,现在走了另外一条路线。”(特约撰稿 李佳师 )