黄仁勋3月19日英伟达GTC演讲
发布者:admin发表于:39天前阅读数:88评论:0
关键词:ai

主要内容摘要

  • 人工智能四波浪潮:感知式AI——生成式AI——代理式AI——物理式AI;生成式AI目前的阶段,计算所需的tokens和资源比最初预期的多100倍;
  • 数据中心基建:到2028年底,数据中心基础设施的资本支出将超过1万亿美元;
  • Blackwell芯片:Blackwell已全面投入生产,将轻松过渡到升级版(Blackwell Ultra);
  • 新款AI电脑:拥有高达1000 TOPS的AI算力的迷你电脑DGX Spark和20000 TOPS的工作站DGX Station;
  • Dynamo:发布了用于加速和扩展 AI 工厂中AI推理模型的开源软件NVIDIA Dynamo;
  • 机器人:与Google DeepMind和迪士尼合作开发名为Newton的机器人平台,展示灵动的“Blue”的机器人 原型;
  • 智能驾驶:通用汽车将使用英伟达的计算平台(包括Omniverse和Cosmos)构建定制AI系统,以优化通用汽车的工厂规划和机器人技术; 6G网络:英伟达将与 T-Mobile、Mitre、思科、ODC和Booz Allen Hamilton合作开发AI原生6G无线网络的硬件、软件和架构。

全文

欢迎来到GTC!这是一个了不起的一年,我们想在NVIDIA做到这一点,所以通过人工智能的魔力,我们将带你到NVIDIA的总部。你觉得怎么样?这里是我们工作的地方。

这是一个了不起的一年,我们有很多令人难以置信的事情要讨论,我想让你知道,我在这里没有安全网,没有脚本,没有提词器,我有很多内容要提及,所以让我们开始吧。

首先,我想感谢所有赞助商,所有参与这个会议的了不起的人,几乎每个行业都有代表,医疗在这里,交通,零售,计算机行业,整个计算机行业都在这里,所以看到你们所有人真的很棒,谢谢你们的赞助。

GTC始于GeForce,今天我带来了一块GeForce 5090。难以置信,我们研究GeForce25年后的今天,GeForce在全球都卖光了,这是90,Blackwell一代,和4090相比,你看它的体积小了30%,散热效提高高了30%,性能令人难以置信。GeForce将Cuda带到了世界,Cuda使AI成为可能,现在AI又回来对计算机图形带来了革命。

你看到的是实时计算机图形,对每个像素100%路径追踪渲染,人工智能预测另外15%,想一想,每一个我们数学渲染的像素,人工智能推断另外15%,它必须以如此高的精度做到这一点,图像看起来是正确的,并且在时间上准确,这意味着从一帧到另一帧,无论是向前还是向后必须保持时间稳定,令人难以置信,人工智能取得了非凡的进步,现在才10年。

人工智能的四个阶段

我们谈论AI的时间比这稍长,但AI真正进入世界意识大约是十年前,开始于感知AI,计算机视觉,语音识别,然后是生成式AI

感知式AI——生成式AI——代理式AI——物理式AI

过去5年我们主要关注生成式AI,教AI如何从一种模式翻译到另一种模式,文本到图像,图像到文本,文本到视频,氨基酸到蛋白质,元素到化学品,我们可以用AI生成内容的所有不同方式。

生成式AI从根本上改变了计算方式,从检索计算模型,我们现在有生成计算模型,过去我们几乎所做的一切都是提前创建内容,存储多个版本,然后在使用的时刻获取我们认为合适的版本。

过去三年发生了重大突破,人工智能取得了根本性的进步,我们称之为代理式人工智能。这种AI意味着我们将会有一个具有代理权限的AI,它能够感知并理解环境的上下文。更重要的是,它能够推理如何回答或解决问题,并能够计划行动。它能够计划并采取行动。它能够使用工具,因为它现在理解多模态信息。它可以访问一个网站,查看网站的格式、文字和视频,甚至播放视频。从该网站学习的内容,理解之后,再回来利用这些信息,用这些新获得的知识来完成它的工作。

这就是有能动性的人工智能。当然,有能动性的人工智能的基础是非常新的推理能力。

当然,下一波浪潮已经开始。我们今天将讨论这一点——由物理人工智能赋能的机器人技术。能够理解物理世界的人工智能。它理解摩擦和惯性、因果关系、物体恒常性等概念。因此,理解物理世界、三维世界的能力将开启我们称之为物理人工智能的新时代,并将促进机器人技术的发展。

这每一个阶段,每一波浪潮,都为我们所有人开启了新的市场机会。它为GTC带来了更多新的伙伴。因此,GTC现在济济一堂。要在GTC容纳更多人,我们必须在圣荷塞扩展。我们正在努力实现这一点。我们有很多土地可以利用。我们必须扩展圣荷塞,以便能够举办GTC。在这里站着时,我希望你们都能看到我所看到的。我们正处于一个体育场的中间。去年是我们首次恢复现场举办这一活动,它就像一场摇滚音乐会。GTC被形容为人工智能的伍德斯托克(注:世界上最著名的系列性摇滚音乐节之一),今年被形容为人工智能的超级碗。唯一的不同是,所有人在这个超级碗中都是赢家。所以每一年,参与的人数都在增加,因为人工智能能够为更多行业和公司解决更有趣的问题。

预训练扩展——后训练扩展——测试-时间扩展

今年,我们将讨论很多关于有能动性的人工智能和物理人工智能的内容。从根本上说,推动每一波每一阶段人工智能的三个基本问题是:

第一,你如何解决数据问题?这个问题重要的原因是因为人工智能是一种数据驱动的计算机科学方法。它需要数据来学习,需要数字经验来学习,从中获取知识,并获得数字经验。你如何解决数据问题?

第二,你如何解决训练问题?而且是在没有人参与的情况下。有人参与的原因根本上是一个挑战,因为我们只有有限的时间,而我们希望人工智能能够以超越人类的速率、实时的速率学习,并能够以人类无法跟上的规模进行学习。因此第二个问题是,如何训练模型?

第三,如何实现规模化?你如何创造、如何找到一个算法,只要你提供更多的资源,无论资源是什么,人工智能就会变得更聪明?这就是扩展法则(Scaling Law)

那么,在过去一年里,几乎全世界都误判了这一点。人工智能的计算需求、规模法则更加弹性,实际上是超加速的。由于有能动的人工智能,推理的结果,我们目前所需的计算量,比去年这个时候我们认为的多得多,容易达到100倍

让我们推理一下为什么这是真的。首先,从AI能做什么开始,我从后往前推导。代理AI的基础是推理,我们现在有了可以推理的AI。推理从根本上说是将问题一步步分解,也许它会用几种不同的方法处理一个问题,然后选择最佳答案;也许它会以多种方式解决同一个问题,确保答案一致;或者在得出答案后,将答案代入方程——比如二次方程——以确认答案确实正确,而不是一次性直接吐出答案。还记得两年前我们开始使用ChatGPT时,尽管它是个奇迹,许多复杂问题和简单问题它都答不对,这是可以理解的。它基于预训练数据一次性回答,无论从其他经验中学到了什么,它就一次性吐出来,像个预言家。现在我们有了可以一步步推理的AI,使用一种叫做“思维链”(Chain of Thought)的技术,通过最佳答案一致性检查、多种不同的路径规划和一系列技术,我们现在有了可以分解问题、一步步推理的AI。

你可以想象,因此我们生成的Token数量大幅增加。AI的基本技术仍然是生成下一个Token、预测下一个Token,只是现在下一个Token构成了第一步,然后在生成第一步后,下一个Token又进入AI的输入,生成第二步、第三步、第四步。所以不是简单地生成一个Token或一个词接着下一个,它生成一系列代表推理步骤的词语。因此生成的Token数量大幅增加,我马上会展示给你看,轻松达到100倍以上。100倍更多意味着什么?它可以生成100倍更多的Token,正如我之前解释的那样,你可以看到这种情况;或者模型变得更复杂,它生成10倍更多的Token。为了让模型保持响应性和互动性,让我们不至于失去耐心等待它思考,我们现在必须计算快10倍。所以10倍Token、10倍速度,我们必须做的计算量轻松达到100倍。在接下来的演讲中你会看到,我们为推理(Inference)所做的计算量比过去高得多。

那么问题来了,我们如何教AI做到我刚才描述的事情,如何执行这个思维链?一种方法是你必须教AI如何推理。正如我之前提到的,在训练中有两个基本问题需要解决:数据从哪里来?如何不让它受限于人类参与?我们能提供的数据和人类演示是有限的。所以这是过去几年的重大突破——强化学习(RL,Reinforcement Learning),可验证的结果。基本上是AI的强化学习,当它尝试一步步解决问题时,我们人类历史上已经解决了很多问题,我们知道答案。我们知道如何解二次方程,知道如何解毕达哥拉斯定理,知道直角三角形的规则,知道许多数学、几何、逻辑和科学的规则。我们有拼图游戏,可以给它约束条件,比如数独这样的问题,诸如此类。我们有数百个这样的问题领域,可以生成数百万个不同的例子,给AI数百次机会一步步解决,我们使用强化学习奖励它,当它做得越来越好时。因此,你拿数百个不同的主题、数百万个不同的例子、每次尝试数百次,每次尝试生成数万Token,把这些加起来,我们谈论的是数万亿、数万亿Token来训练那个模型。现在有了强化学习,我们有能力生成大量Token——合成数据生成,基本上用机器人方法教AI。这两者的结合,给行业带来了巨大的计算挑战,你可以看到行业正在做出回应。

我接下来要展示的是Hopper,来自四大CSP(云服务提供商)的出货量。这四大CSP是指拥有公共云的那些——亚马逊、Azure、GCP和OCI,不包括AI公司,不包括所有初创公司,不包括企业,还有很多没包括在内,只是这四个,给你一个对比感,Hopper的巅峰年与Blackwell的第一年。

你可以看出,AI确实在经历一个拐点,它变得更有用,因为它更聪明,可以推理,被更多人使用。你能看出来它被更多人使用,因为现在你用ChatGPT时,似乎要等的时间越来越长,这是好事,说明很多人用得很有效。训练这些模型和推理这些模型所需的计算量增长得太惊人了。所以仅在一年内,Blackwell刚开始出货,仅在一年内,你可以看到AI基础设施的惊人增长。这在整个计算领域都有体现

我们现在看到,紫色是分析师的预测,关于未来全球数据中心的资本支出增加,包括CSP和企业等等,到2030年底。我之前说过,我预计数据中心的建设将达到一万亿美元,我相当确定我们很快就会达到这个数字

有两个动态同时发生。第一个动态是,这种增长的绝大部分可能是加速的,意思是我们早就知道通用计算已经走到尽头,我们需要一种新的计算方法。世界正在经历从手写软件运行在通用计算机上,到机器学习软件运行在加速器和GPU上的平台转变。这种计算方式此时此刻已经过了临界点,我们现在看到拐点发生在全球数据中心的建设中。所以第一件事是计算方式的转变。

第二是人们越来越认识到,未来软件需要资本投资。这是一个非常大的想法。过去我们编写软件并在计算机上运行,未来计算机将为软件生成Token。所以计算机变成了Token生成器,从基于检索的计算到基于生成的计算,从过去建设数据中心的老方法,到建设这些基础设施的新方法。我称它们为AI工厂,它们是AI工厂,因为它们只有一个工作——生成这些不可思议的Token,然后我们将这些Token重组为音乐、文字、视频、研究、化学物质或蛋白质,重组为各种不同类型的信息。所以世界正在经历一场变革,不仅是数据中心建设数量的变革,还有建设方式的变革。

英伟达CUDA的应用库

数据中心里的一切都将被加速,但并非所有都是AI。我想在这点上说几句。这个幻灯片是我最喜欢的,原因在于,所有这些年来参加GTC的人,你们一直在听我讲这些库(Libraries)。这实际上就是GTC的全部内容,这一页幻灯片。

事实上,很久以前,20年前,这是我们唯一的一页幻灯片,一个库接一个库接一个库。你不能仅仅加速软件,就像我们需要一个AI框架来创建AI一样,我们加速了AI框架,你需要物理学、生物学、多物理学的框架,还有量子物理学,你需要各种库和框架,我们称之为CUDA X库,每个科学领域的加速框架。

所以第一个很不可思议,这是CuPy Numeric,NumPy是全球下载量第一的Python库,最常用的Python库,去年下载了4亿次。Cu Litho是计算和CuPy Numeric,是NumPy的零改动加速替代品。所以如果你们中有谁在使用NumPy,试试CuPy Numeric,你会爱上它的。

Cu Litho,一个计算光刻库,在过去四年里,我们现在已经接管了整个计算光刻过程,这是晶圆厂里的第二工厂,有一个制造晶圆的工厂,还有一个制造信息的工厂来制造晶圆。未来每个行业、每个公司有工厂的,都将有两个工厂:一个是他们制造东西的工厂,一个是数学的工厂,AI的工厂——汽车工厂,汽车的AI工厂;智能音箱工厂,智能音箱的AI工厂。所以Cu Litho是我们的计算光刻技术。台积电、三星、ASML是我们的合作伙伴,Synopsys(注:新思科技,一家美国电子设计自动化公司,专注于芯片设计和验证、芯片知识产权和计算机安全)、Mentor(注:明导国际,一家从事电子设计自动化的跨国公司),全方位的惊人支持。我认为这现在到了临界点,再过五年,每一个掩模、每一个光刻,都将在NVIDIA CUDA上处理。

ARIEL是我们的5G库,将GPU变成5G无线电,为什么不呢?信号处理是我们非常擅长的,一旦做到这一点,我们可以在上面叠加AI,AI for RAN(无线接入网),或者我们称之为AI RAN,下一代无线电网络,将深度嵌入AI。为什么我们受限于信息理论的限制?因为频谱信息只有那么多,如果我们加入AI,就不会了。

CUOPT,数值或数学优化,几乎每个行业都在用这个,当你规划座位和航班、库存和客户、工人和工厂、司机和乘客等等,我们有多个约束条件、一大堆变量,你在优化时间、利润、服务质量、资源使用,无论是什么。NVIDIA用它来管理我们的供应链,CuOpt是一个不可思议的库,它将需要数小时的事情变成几秒钟。这之所以是大突破,是因为我们现在可以探索更大的空间。我们宣布将CuOpt开源,几乎每个人都在用,Gurobi(注:一家开发用于计算最优解软件的公司)、IBM CPLEX或FICO(注:公司使用预测分析技术帮助企业在整个组织和客户生命周期中实现决策的自动化),我们与这三家都在合作,行业对此非常兴奋,我们即将把这个行业加速得天翻地覆。

PARABRICKS用于基因测序和基因分析。

MONAI是世界领先的医学影像库。

Earth-2多物理学,用于超高分辨率预测局部天.

Cu Quantum和CUDA Q,我们将在GTC举办首个量子日,我们与生态系统中几乎所有人合作,要么帮助他们研究量子架构、量子算法,要么构建经典加速量子异构架构,所以那里有非常激动人心的工作。

Cu Equivariance和Cu Tensor用于张量收缩,量子化学。当然是这个世界闻名的技术栈。

人们以为只有一个软件叫CUDA,但实际上在CUDA之上,有一大堆库,集成到生态系统的各个部分、软件和基础设施中,以实现AI。

我今天要宣布一个新的,Cu DSS,我们的稀疏求解器,对CAE(计算机辅助工程)非常重要,这是去年发生的最重要的事情之一,与Cadence(注:电子设计自动化软件与工程服务厂商)、Synopsys、Ansys(注:研发CAE或多物理场工程仿真软件)等合作,还有所有系统公司,我们现在几乎让每一个重要的EDA和CAE库得以加速。

令人惊讶的是,NVIDIA以前一直在用通用计算机,运行软件超级慢,为其他人设计加速计算机,原因是我们以前没有针对AIDA优化的软件。所以现在我们整个行业将得到超级加速,随着我们转向加速计算。

CuDF,一个用于结构化数据的数据框架,我们现在为Spark和Pandas提供了加速替代品,太不可思议了。

然后我们有WARP,一个在Python中运行的物理库,用于CUDA的物理库,我们有一个大公告,我先按下不表。

这只是使加速计算成为可能的部分库样本,不仅仅是CUDA,我们为CUDA感到非常骄傲,但如果没有CUDA以及我们庞大的安装基础,这些库对使用它们的开发者毫无用处。

对所有使用它们的开发者来说,你们用它因为一是它能给你惊人的加速,能给你惊人的扩展,二是因为CUDA的安装基础现在无处不在,它在每个云端,每个数据中心,全球每一家计算机公司都有,它真的无处不在。因此,通过使用这些库之一,你的软件,你了不起的软件,可以触达所有人。所以我们现在达到了加速计算的临界点,CUDA让这一切成为可能,而你们所有人,这就是GTC的意义所在,生态系统,你们所有人让这一切成为可能。

自2006年以来,600万开发者,来自200多个国家,使用了CUDA并改变了计算,拥有超过900个CUDA X库和AI模型。你们在加速科学,重塑行业,赋予机器看见、学习和推理的能力。现在,NVIDIA Blackwell比第一代CUDA GPU快5万倍,这些数量级的速度和规模提升,正在缩小仿真与实时数字孪生之间的差距。对你们来说,这只是开始,我们迫不及待想看到你们接下来做什么。

我爱我们所做的事,我更爱你们用它做的事。在我33年做这件事的过程中,最触动我的一件事是一位科学家对我说:“黄仁勋,因为你的工作,我能在有生之年完成我毕生的工作。”如果这都不能触动你,那你一定是僵尸。

所以这一切都是关于你们,谢谢大家。

好了,我们要谈谈AI,但你知道,AI起源于云端,它起源于云端是有原因的,因为事实证明AI需要基础设施。它是机器学习,如果科学说的是机器学习,那你就需要一台机器来做科学。所以机器学习需要基础设施,而云端数据中心有基础设施,它们还有卓越的计算机科学、卓越的研究,AI在云端起飞的完美条件,在CSP(云服务提供商)中。但AI不会仅限于此,AI将无处不在,我们将以多种不同的方式谈论AI。云服务提供商当然喜欢我们的尖端技术,他们喜欢我们有全栈,因为正如我之前解释的,加速计算不仅仅是芯片,不仅仅是芯片加库,编程模型是芯片,编程模型,还有上面的一大堆软件,整个堆栈极其复杂。每一层,每一个库,本质上就像SQL,你知道SQL在存储计算中,是IBM带来的计算大革命,SQL只是一个库。想象一下,我刚给你展示了一大堆,而在AI的情况下还有更多。所以这个堆栈很复杂。他们还喜欢这样一个事实,CSP喜欢NVIDIA CUDA开发者是他们的客户,因为归根结底,我们是为全世界建设基础设施的。所以丰富的开发者生态系统非常有价值,非常非常受重视。

现在我们要将AI带到世界其他地方,世界其他地方有不同的系统配置、不同的运行环境、特定领域的库差异、使用差异。所以AI在转向企业、转向制造业、转向机器人技术、自动驾驶汽车,甚至是开始做GPU云的公司时,有大约20家公司在NVIDIA时代开始的,他们只做一件事——托管GPU,他们称自己为GPU云。

我们的一位伟大合作伙伴CoreWeave正在上市过程中,我们为他们感到非常骄傲。所以GPU云有他们自己的需求,但我超级兴奋的一个领域是边缘(Edge)。今天我们宣布,思科、NVIDIA、T-Mobile——全球最大的电信公司——Cerebras、ODC,将为美国的无线电网络建设一个全栈。这将是第二个堆栈,所以这个当前堆栈,我们今天宣布的,将把AI带入边缘。记住,每年全球在无线电网络上的资本投资,以及为通信准备的所有数据中心,高达一千亿美元。我毫不怀疑,未来这些都将被加速计算和AI融合。AI将做得更好,更好地适应无线电信号,大规模MIMO适应不断变化的环境和流量条件。当然,我们会用强化学习来做到这一点,当然,MIMO本质上是一个巨大的无线电机器人,当然是的。所以我们当然会提供这些能力,当然,AI可以革命化通信。

你知道,当我打电话回家时,不需要多说几句话,因为我妻子知道我在哪里工作,那里的情况如何,对话从昨天继续,她有点记得我喜欢什么不喜欢什么,常常几句话就传达了很多。原因在于上下文和人类的先验知识。将这些能力结合起来,可以革命化通信。看看它对视频处理做了什么,看看我之前描述的3D图形,所以我们当然也会为边缘做同样的事情。我对我们今天宣布的消息超级兴奋,T-Mobile、思科、NVIDIA、Cerebras、ODC,将要建设一个全栈。

汽车行业与智能驾驶

AI将进入每个行业,这是AI最早进入的行业之一——自动驾驶汽车。当我看到AlexNet的那一刻,我们已经研究计算机视觉很久了,看到AlexNet的那一刻是如此激动人心,它促使我们决定全力投入开发自动驾驶汽车。所以我们现在已经研发自动驾驶汽车超过十年,我们构建的技术几乎被每一家自动驾驶汽车公司使用。数据中心,比如特斯拉在数据中心用了很多NVIDIA GPU;可能是数据中心或车内,Waymo和Wave在数据中心和车内都用了NVIDIA计算机;可能只是车内,这种情况很少,但有时只是车内,或者他们还用了我们所有的软件。

我们与汽车行业合作,无论汽车行业希望我们如何合作,我们构建了所有三种计算机——训练计算机、仿真计算机和机器人计算机,自动驾驶汽车计算机,上面所有的软件堆栈,模型和算法,就像我展示的所有其他行业一样。

所以今天我超级兴奋地宣布,通用汽车(GM)选择NVIDIA与他们合作,打造他们未来的自动驾驶车队。自动驾驶汽车的时代已经到来,我们期待与GM一起打造AI,在三个领域:制造的AI,让他们革命化制造方式;企业的AI,让他们革命化工作方式,设计汽车和仿真汽车;还有车内的AI。所以为GM打造AI基础设施,与GM合作,与GM一起构建他们的AI,我对此超级兴奋。我非常骄傲的一个领域,但很少受到关注的是安全,汽车安全。在我们公司里这叫做Halos,Halos安全。安全需要从硅片到系统到系统软件的技术,算法、方法论,一切从多样性到确保多样性、监控和透明性、可解释性,所有这些不同的理念,必须深深植根于你开发系统和软件的每一个部分。我相信我们是全球第一家,每一行代码都经过安全评估的公司,700万行代码经过安全评估。我们的芯片、我们的系统、我们的系统软件和我们的算法,都由第三方安全评估,他们逐行检查代码,确保设计时考虑了多样性、透明性和可解释性。我们还拥有超过一千项专利,在这次GTC期间,我真的鼓励你们去参加Halos研讨会,这样你们可以看到所有汇聚在一起的东西,确保未来的汽车既安全又自主。所以这是我非常骄傲的事情,它很少受到关注,所以这次我想多花点时间谈谈这个。

好了,NVIDIA Halos,你们都见过汽车自己开,Waymo的机器人出租车很不可思议,但我们制作了一个视频,与你们分享我们用来解决数据和训练问题的一些技术,以及多样性,这样我们就可以用AI的魔力去创造AI。让我们来看看。

NVIDIA正在为自动驾驶(AV)加速AI开发,使用Omniverse和Cosmos。Cosmos的预测和推理能力支持端到端可训练的AI优先AV系统,采用新的开发方法——模型蒸馏(Model Distillation)、闭环训练(Closed-Loop Training)和合成数据生成。首先,模型蒸馏,作为策略模型,Cosmos的驾驶知识从一个较慢的智能老师,转移到一个更小、更快的学生模型,在车内进行推理。老师的策略模型展示了最佳轨迹,学生模型通过迭代学习,直到它的表现几乎与老师一样。

x

蒸馏过程启动了一个策略模型,但复杂场景需要进一步调整。闭环训练使策略模型得以微调,日志数据被转化为3D场景,在基于物理的仿真中使用Omniverse进行闭环驾驶。神经重建,这些场景的变体被创建,测试模型的轨迹生成能力。Cosmos行为评估器随后可以评分生成的驾驶行为,衡量模型性能。新生成的场景及其评估,为闭环训练创建了大型数据集,帮助AV更稳健地导航复杂场景。最后,3D合成数据生成,增强AV对多样环境的适应性。从日志数据中,Omniverse通过融合地图和图像,构建详细的4D驾驶环境,生成真实世界的数字孪生,包括分割以指导Cosmos,通过分类每个像素。Cosmos然后通过生成准确多样的场景,扩展训练数据,缩小仿真与现实的差距。Omniverse和Cosmos使AV能够学习、适应和智能驾驶,推进更安全的移动性。

NVIDIA是做这件事的完美公司,天哪,那是我们的使命,用AI重新创造AI。我们展示给你们的技术,与你们正在享受的、带你们进入数字孪生的技术非常相似,我们称之为NVIDIA。

数据中心与AI工厂

好了,让我们谈谈数据中心。Blackwell已全面投产,这就是它的样子,太不可思议了,你知道,对于我们这些人来说,这是一道美丽的风景,你们同意吗?怎么能不美呢?

这是一件大事,因为我们在计算机架构上做出了根本性的转变。我想让你们知道,事实上,我在三年前向你们展示过这个的一个版本,当时叫Grace Hopper,系统叫Ranger。Ranger系统大约是屏幕宽度的一半,那是世界上第一个NVLink 32。三年前我们展示了Ranger的运行,它太大了,但想法完全正确。我们试图解决的是扩展(Scale Up)的问题。分布式计算是用很多不同的计算机一起解决一个非常大的问题,但扩展起来(Scale Up)比扩展出去(Scale Out)更重要,两者都很重要,但你得先扩展起来再扩展出去。扩展起来非常难,没有简单的答案。你不会拿一堆普通计算机,连接成一个大网络,用Hadoop(分布式存储)做存储计算。Hadoop是一个革命性的想法,我们知道它使超大规模数据中心能够解决巨型问题,用现成的计算机。然而,我们试图解决的问题太复杂了,那样扩展会耗费太多电力、太多能源,深度学习永远不会发生。所以我们必须先扩展起来。

这就是我们扩展的方式。我不会举起这个,它有70磅,这是上一代系统架构,叫HGX。它彻底改变了我们所知的计算,彻底改变了人工智能。这是8个GPU,每个都像这样。这是一个Blackwell封装,里面有两个Blackwell GPU,一个Blackwell封装里两个Blackwell GPU。

下面有八个这样的。它连接到我们称之为NVLink 8的东西,然后连接到一个CPU架,上面有双CPU,通过PCI Express连接,然后很多这样的东西通过Infiniband连接,变成了一个AI超级计算机。这是过去的方式,这是我们开始的方式。

这是我们在扩展出去之前扩展到的程度,但我们想进一步扩展。我告诉过你们,Ranger把这个系统扩展了四倍,所以我们有了NVLink 32,但系统太大了,所以我们必须做一些相当了不起的事情,重新设计NVLink的工作方式和扩展的方式。第一件事我们说,NVLink交换机嵌在主板上,我们需要解耦NVLink系统,把它拿出来。这就是NVLink系统,这是一个NVLink交换机,这是世界上性能最高的交换机,它让每个GPU都能同时以全带宽与每个GPU通信。所以这是NVLink交换机,我们解耦了它,拿出来,放在机箱中央。这里有18个这样的交换机,分成9个不同的架子,我们称之为交换机托盘。

然后交换机被解耦,计算部分现在在这里,相当于这两个东西的计算能力。令人惊讶的是,这完全是液冷的,通过液冷,我们可以将所有这些计算节点压缩到一个机架中。这是整个行业的大变革,你们在场的观众,我知道你们有多少人,我要感谢你们促成了这个从集成NVLink到解耦NVLink、从风冷到液冷、从每台计算机大约6万个零件到每个机架60万个零件的根本性转变。120千瓦完全液冷,结果我们有了一台一亿亿次浮点运算(Exaflops)的计算机,在一个机架里,这不是很不可思议吗

所以这是计算节点,这就是计算节点,现在它能装进一个这样的机架里。我们有3000磅,5000根电缆,大约2英里长,太不可思议的电子设备了,60万个零件,我想这相当于20辆汽车的零件,集成成一台超级计算机。我们的目标是做到这个,我们的目标是扩展,这就是它现在的样子。我们本质上想造这个芯片,只是理论极限做不到,工艺技术也做不到。它有130万亿个晶体管,其中20万亿用于计算,所以你无法在短期内合理地造出来。解决这个问题的办法就是像我描述的那样解耦,变成Grace Blackwell NVLink 72机架,结果我们完成了世界上最极端的扩展。

这里可能的计算量,内存带宽570太字节每秒,这台机器里的一切现在都是以万亿为单位,你有一亿亿次浮点运算,也就是每秒一百万万亿次浮点运算。我们之所以想这样做,是为了解决一个极端问题,这个问题很多人误以为很简单,实际上它是终极的极端计算问题,叫推理(Inference)。原因很简单,推理是工厂的Token生成,工厂是产生收入和利润的,或者不产生,所以这个工厂必须以极高的效率、极高的性能建造,因为这个工厂的一切直接影响你的服务质量、你的收入和你的盈利能力

让我教你们怎么看这个图表。基本上有两个轴,X轴是每秒Token数,当你用ChatGPT聊天,输入提示后出来的是Token,这些Token被重新格式化为单词,你知道,一个词不止一个Token。比如“th”可以用于“the”、“them”、“theory”、“theatrics”等等,所以“th”是一个Token的例子,它们把这些Token重新格式化为单词。我们已经确定,如果你想让AI更聪明,你得生成一大堆Token,这些Token是推理Token、一致性检查Token、想出一堆点子然后选出最好的那些点子的Token,这些Token可能是自我怀疑,可能是它能做的最好工作,所以它自己跟自己对话,就像我们自己跟自己对话一样。所以你生成的Token越多,你的AI就越聪明。

但如果你回答问题花太长时间,客户就不会回来,这跟网页搜索没什么区别,在它给出聪明答案之前能等的时间是有限的。所以你有两个互相抗衡的维度,你想生成一大堆Token,但你想尽可能快地做到。因此,你的Token速率很重要,你希望每个用户的每秒Token数尽可能快。然而,在计算机科学和工厂里,延迟(响应时间)和吞吐量之间有根本性的张力。原因很简单,如果你是大批量业务,你会批量处理,叫批处理(Batching),你把很多客户需求批量起来,制造某个版本供大家以后消费。然而,从他们批量制造到你消费的时间可能很长。所以计算机科学没什么不同,AI工厂生成Token也没什么不同,你有两个根本性的张力。一方面,你希望客户的服务质量尽可能好,智能AI要超级快;另一方面,你试图让数据中心为尽可能多的人生产Token,以最大化你的收入。

完美的答案是右上角,理想情况下,这个曲线的形状是一个正方形,你可以为每个人快速生成Token,直到工厂的极限。但没有工厂能做到,所以它可能是某种曲线,你的目标是最大化曲线下的面积,也就是X和Y的乘积,你推得越远,越可能意味着你建的工厂越好。结果是,整个工厂的每秒Token数和响应时间的每秒Token数,一个需要巨大的计算量(Flops),另一个维度需要巨大的带宽和计算量,所以这是一个很难解决的问题。好的答案是你得有很多计算量、很多带宽、很多内存,很多一切,这是最好的起点,这就是为什么这是一台伟大的计算机。你能得到的最多计算量、最多内存、最多带宽开始,当然还有最好的架构、最好的能效,你得有一个编程模型,让你能在这一切上运行软件,所以你能做到这个。

现在让我们看一个演示,给你们一个我说的直观感觉,请播放。

传统大型语言模型(LLM)捕获基础知识,而推理模型用思维Token帮助解决复杂问题。这里一个提示要求在婚礼餐桌周围安排座位,同时遵守传统、上镜角度和家族纷争等约束。传统LLM用不到500个Token快速回答,但安排客人时出错,而推理模型用超过8000个Token思考,得出了正确答案,需要一个牧师来维持和平。

好的,正如你们所知,如果有300人的婚礼派对,你要为每个人找到完美——或者说最优——的座位安排,这是一个只有AI能解决的问题。所以这是CuOpt解决不了的问题之一。你看到的是,我们给它一个需要推理的问题,你看到R1开始推理,尝试各种不同场景,然后回来测试自己的答案,它问自己做得对不对。与此同时,上一代语言模型一次性回答,用了439个Token,很快,很有效,但错了,所以是439个浪费的Token。另一方面,为了推理这个问题——这其实是一个很简单的问题,你知道,我们再加几个更难的变量,它就变得很难推理了——用了8000个,几乎9000个Token,需要更多计算,因为模型更复杂。

所以这是一个维度,在我展示一些结果前,让我再解释一下。如果你们看Blackwell,看Blackwell系统,现在是扩展的NVLink 72,第一件事是我们得拿这个模型,这个模型不小,你知道,在R1的情况下,人们认为R1很小,但它有6800亿个参数,下一代模型可能是万亿级参数。你解决这个问题的方法是,把这些万亿级参数分布到整个GPU系统上。你可以用张量并行(Tensor Parallel),把模型的一层分布到多个GPU上;你可以拿管道的一部分,叫管道并行(Pipeline Parallel),放到多个GPU上;你可以把不同的专家分布到不同GPU上,我们叫专家并行(Expert Parallel)。管道并行、张量并行和专家并行的组合,数量太多了,取决于模型、取决于工作负载、取决于情况,你得调整计算机的配置,才能从中获得最大吞吐量。有时你优化低延迟,有时你优化吞吐量,所以你得做一些飞行中的批处理(Inflight Batching),很多不同的批处理和聚合工作的技术。所以这些AI工厂的软件、操作系统,太复杂了。

一个观察是,像NVLink 72这样同构架构的好处是,每个GPU都能做我刚描述的所有事。我们观察到,这些推理模型有几个计算阶段。一个阶段是思考,当你思考时,你不会产生很多Token,你产生的Token可能是自己消耗的,你在思考,可能在阅读,消化信息,这些信息可能是PDF、网站,你甚至可能在看视频,以超线性速率吸收所有这些,然后你用这些信息制定答案,制定计划好的答案。所以这个消化信息、上下文处理的过程,需要大量计算量(Flops)。另一方面,下一阶段叫解码(Decode),第一部分我们叫预填充(Prefill)。

解码阶段需要浮点运算,但需要巨大的带宽。这很容易计算,你知道,如果一个模型有几万亿参数,那就需要几太字节每秒,我提到过576太字节每秒,从HBM内存拉模型进来,生成一个Token就需要几太字节每秒。原因它生成一个Token是因为,记住,这些大型语言模型是在预测下一个Token,所以说下一个Token,不是预测每个Token,是预测下一个Token。现在我们有各种新技术,比如推测解码(Speculative Decoding)等等,让它更快,但在最后分析中,你是在预测下一个Token。所以你拉进整个模型和上下文,我们叫它KV缓存(KV Cache),然后生成一个Token,再把这个Token放回我们的大脑,生成下一个Token,每一次都这样,我们输入万亿参数,生成一个Token,再输入万亿参数,生成另一个Token,再输入万亿参数,生成另一个Token。注意那个演示,我们生成了8600个Token,所以万亿字节的信息被输入我们的GPU,一次生成一个Token。

这从根本上就是你想要NVLink的原因,NVLink让我们能把所有这些GPU变成一个巨大的GPU,终极扩展(Scale Up)。第二件事是,现在一切都在NVLink上,我可以把预填充和解码分开,我可以决定用更多GPU做预填充,少做解码,因为我在大量思考,我在做代理性工作(Agentic Work),我在读很多信息,做深入研究。注意在深入研究时,你知道,之前我听Michael讲他做研究,我也一样,我们为AI写很长的研究项目,我爱做这个,因为我已经付出了成本,我就是爱让我们的GPU工作,没什么比这更让我开心。所以我写好,它就去做所有这些研究,去了94个不同网站,读了所有这些,我在读这些信息,它制定答案,写报告,太不可思议了。在这整个过程中,预填充超级忙,但它其实没生成多少Token。另一方面,当你跟聊天机器人聊天,几百万人在做同样的事,它是Token生成很重的,很解码重。所以取决于工作负载,我们可能决定把更多GPU放进解码,取决于工作负载放更多GPU进预填充。这个动态操作真的很复杂,所以我刚描述了管道并行(Pipeline Parallel)、张量并行(Tensor Parallel)、专家并行(Expert Parallel)、飞行中批处理(Inflight Batching)、解耦推理工作负载管理,然后我得拿这个叫KV缓存的东西,路由到正确的GPU,通过所有内存层次管理它,这块软件太复杂了。

所以今天我们宣布NVIDIA Dynamo。它本质上是AI工厂的操作系统。过去我们运行数据中心的方式,我们的操作系统是像VMware这样的东西,我们会编排,我们仍然这样做,你知道,我们是大用户,编排一大堆运行在我们企业IT上的不同企业应用。但未来,应用不是企业IT,而是代理(Agents),操作系统不是像VMware这样的东西,而是像Dynamo这样的东西,这个操作系统运行在不是数据中心,而是一个AI工厂之上。

我们叫它Dynamo是有原因的,你知道,发电机(Dynamo)是上一次工业革命的第一个工具,能源的工业革命,水进来,电出来,太棒了,你知道,水进来,你点火变成蒸汽,出来的是这个无形但非常有价值的东西,花了80年才变成交流电,但Dynamo是这一切的起点。所以我们决定把这个操作系统,这个极其复杂的软件,叫NVIDIA Dynamo,它是开源的,它是开源的,我们很高兴有这么多合作伙伴跟我们一起做这个。我最喜欢的合作伙伴之一,我很爱他们,因为他们的革命性工作,也因为Aran是个很棒的人,但Perplexity是我们在这个过程中的伟大合作伙伴。所以总之,真的真的很棒。

现在我们得等到我们把这些基础设施都扩展起来,但与此同时,我们做了很多非常深入的仿真,我们有超级计算机在仿真我们的超级计算机,这很有道理。我现在要展示我刚说的所有东西的好处,记住那个工厂图表,X轴是每秒Token吞吐量,抱歉,Y轴是工厂的每秒Token吞吐量,X轴是用户体验的每秒Token数,你想要超级聪明的AI,你想生产一大堆这样的AI。这是Hopper,这是Hopper,它能为每个用户每秒生产大约100个Token,100个,这是8个GPU,用Infiniband连接,我把它标准化为每兆瓦每秒Token数,所以这是一个一兆瓦的数据中心,不算很大的AI工厂,但总之一兆瓦。它能为每个用户生产100个Token每秒,能在这个水平生产,不管是多少,10万个Token每秒,对于那个一兆瓦数据中心,或者如果超级批处理,客户愿意等很长时间,它能生产大约250万个Token每秒,250万个Token每秒,对于那个AI工厂。明白了吗?好的,因为你知道,每次GTC都有入场费,你们知道,就像被数学折磨一样,只有在NVIDIA你才会被数学折磨。所以Hopper你得到250万,那250万是什么,怎么翻译那250万?记住,ChatGPT大概是每百万Token10美元,我认为10美元每百万Token大概在这儿。每秒25万美元每工厂,然后一年有3100万秒,转化成一兆瓦数据中心的收入。

所以这是你的目标,一方面你希望你的Token速率尽可能快,这样你能做出很聪明的AI,如果有聪明的AI,人们会付你更多钱;另一方面,AI越聪明,你能生产的量就越少,很合理的权衡,这是我们想弯曲的曲线。

我现在展示给你们的是世界上最快的计算机Hopper,它彻底改变了一切。所以我们怎么让它更好?第一件事我们拿出Blackwell,带NVLink 8,同一个Blackwell,同一个计算节点,带NVLink 8,用FP8,所以Blackwell就是更快,更大,更多晶体管,更多一切。但我们想做的更多,所以我们引入了一种新精度,不完全是4位浮点那么简单,但用4位浮点我们可以量化模型,用更少能量做同样的事,结果当你用更少能量做同样的事,你能做更多,因为记住一个大想法是,未来每个数据中心都将受限于电力,你的收入受限于电力,你能根据你有的电力算出你的收入会是多少,这跟很多其他行业没什么不同。所以我们现在是受限于电力的行业,我们的收入跟这有关。基于这个,你得确保你有尽可能最高效的计算架构。

接下来我们用NVLink 72扩展,明白了吗?看看NVLink 72 FP4的区别,然后因为我们的架构整合得太紧密了,现在我们加上Dynamo,Dynamo能把它再推进一步,你们跟得上吗?所以Dynamo也帮Hopper,但Dynamo对Blackwell的帮助简直太不可思议了。

所以现在注意我放的那两个闪亮的部分,那大概是你的最大质量点(Max Q),你知道,那可能是你运行工厂操作的地方,你在试图找到最大吞吐量和AI最大质量之间的平衡,最聪明的AI,最多的AI,这两个XY交点真的是在优化的东西,如果你看这两个方块下面,Blackwell比Hopper好太多了。记住这不是同芯片,这是同功率,这是终极摩尔定律(Moore’s Law),过去摩尔定律一直是这样的,现在我们在这儿,一代25倍,同功率,不是同芯片,不是同晶体管,不是同任何东西,同功率,终极限制,数据中心能获得的能源只有那么多,所以在同功率下,Blackwell是25倍。

现在这儿有个彩虹,太不可思议了,那是好玩的部分,看看所有不同配置,每个在帕累托前沿(Pareto Frontier)下面,我们叫它帕累托前沿,下面有几百万个点,我们可以配置数据中心去做,我们可以并行、分片工作,用很多不同的方式,我们找到了最优答案,就是帕累托前沿,每个因为颜色告诉你它是不同配置,这就是为什么这个图像很清楚地说,你想要一个尽可能同质可替换的可编程架构,因为工作负载在整个前沿变化太大了。

所以这是输入序列长度,这是一种常见的测试案例,这个测试案例你可以相对容易地基准测试,输入是1000个Token,输出是2000个,注意之前我们刚展示的演示,输出很简单是9000,对,8000,所以显然这不代表那一个聊天,这个更具代表性,这就是你知道,目标是为下一代工作负载建下一代计算机。所以这儿有个推理模型的例子,在推理模型中,Blackwell的性能是Hopper的40倍,太惊人了。

你知道,我之前说过,有人问我为什么这么说,我说过,当Blackwell开始大量出货,你没法把Hopper送出去,这就是我的意思,这很合理。如果有人还在想买Hopper(上一代芯片),别害怕,我是说,没事,但我可是首席收入破坏者(Chief Revenue Destroyer),我的销售团队在说,哦不,别这么说。有些情况下Hopper是没问题的,这是我能对Hopper说的最好话,有些情况下你是没问题的,但情况不多。所以这就是我的观点,当技术发展这么快,你在建这些东西,它们是工厂,你得投资在正确的版本上。

为了给你一个视角,这是一个100兆瓦工厂的样子,这个100兆瓦工厂,基于Hopper,你有4.5万个GPU,1400个机架,它生产3亿个Token每秒。然后这是Blackwell的样子,你有8.5万个。所以总之,你买得越多,你省得越多,比这更好,现在是你买得越多,你赚得越多,你知道。所以总之,记住一切都在AI工厂的背景下,虽然我们谈芯片,你总是从扩展开始,我们谈芯片,但你总是从扩展开始,全力扩展,你能扩展到最大。我现在想给你们展示AI工厂的样子,但AI工厂太复杂了,我刚给你们一个机架的例子,它有60万个零件,重3000磅,现在你得拿这个跟一大堆其他连接起来,所以我们开始建我们说的每个数据中心的数字孪生,在你建数据中心前,你得先建数字孪生。让我们看看这个,太美了。

全世界在竞相建造最先进的大型AI工厂,启动一个AI千兆工厂是工程上的非凡壮举,需要数万名工人,从供应商、建筑师、承包商和工程师,建造、运输、组装近50亿个组件和超过20万英里的光纤,几乎是从地球到月球的距离。NVIDIA Omniverse的AI工厂数字孪生蓝图让我们能在物理建设开始前设计和优化这些AI工厂。在这儿,NVIDIA工程师用蓝图规划一个1吉瓦的AI工厂,整合最新的NVIDIA DGX超级POD的3D和布局数据,以及来自Vertiv和施耐德电气的先进电源和冷却系统,以及NVIDIA Air优化的拓扑结构,一个用于模拟网络逻辑、布局和协议的框架。这工作传统上是在孤岛中完成,Omniverse蓝图让我们的工程团队能并行协作,让我们探索各种配置,以最大化总拥有成本(TCO)和电源使用效率。NVIDIA用Cadence Reality数字孪生,由CUDA和Omniverse库加速,模拟空气和液体冷却系统,施耐德电气用EAP,一个模拟电源块效率和可靠性的应用。实时仿真让我们能迭代和运行大规模假设场景,从几小时变成几秒。我们用数字孪生向大群团队和供应商传达指令,减少执行错误,加速启动时间,规划改造或升级时,我们能轻松测试和模拟成本和停机时间,确保面向未来的AI工厂。

好了,我得讲快一点,因为我发现我有很多要告诉你们,如果我讲得太快,不是因为我不关心你们,只是我有很多信息要讲。好的,首先我们的路线图,我们现在Blackwell已全面投产,全球的计算机公司在大规模提升这些不可思议的机器,我非常非常高兴,也非常感激你们所有人努力过渡到这个新架构。

现在今年下半年我们将轻松过渡到升级,所以我们有Blackwell Ultra NVLink 72,你知道,它有1.5倍更多的浮点运算,它有新的注意力指令,1.5倍更多内存,所有这些内存对KV缓存之类的东西有用,你知道,2倍更多带宽,网络带宽。所以现在我们有了同样架构,我们会优雅地滑向那个,叫Blackwell Ultra。所以这是今年下半年的事。现在我们这么做的原因。

我们在建AI工厂和AI基础设施,这需要几年的规划,这不是买笔记本电脑那样可自由支配的开支,这是我们得计划的开支。所以我们得计划好土地和电力,我们得准备好资本支出,我们得有工程团队,我们得提前两三年布局,这就是为什么我提前两三年给你们看我们的路线图,这样我们不会在五月突然说,嘿,你知道,再过一个月我们会推出这个不可思议的新系统,我马上会给你们一个例子,所以我们多年规划这个。

一年后,以一位天文学家命名,她的名字是Vera Rubin,她发现了暗物质。Vera Rubin太不可思议了,因为CPU是新的,是Grace两倍的性能,有更多内存、更多带宽,然而只是一个50瓦的小CPU,真的很不可思议。Rubin全新的GPU CX9,全新的网络SmartNIC,NVLink 6,全新的NVLink,全新的HBM4内存,基本上一切都是新的,除了机箱,这样我们能在一个方向上冒很多险,不冒基础设施相关的其他风险。所以Vera Rubin NVLink 144是明年下半年的事。

现在我犯了一个错误,所以我需要你们做这个调整,我们只做这一次,Blackwell其实是一个芯片里两个GPU,我们叫那个芯片一个GPU,这是错的,原因是它搞乱了所有NVLink命名之类的东西。所以往前走,当我说NVLink 144,只是说它连到144个GPU,每个GPU是一个GPU芯片,可能组装在某个封装里,组装方式可能不时变化。所以每个GPU芯片是一个GPU,每个NVLink连到GPU,所以Vera Rubin NVLink 144,然后这为后年下半年铺路,我们叫Rubin Ultra。

我知道这个是你们该说“哇”的地方。所以这是Vera Rubin,Rubin Ultra,27年下半年,它是NVLink 576,极端扩展,每个机架600千瓦,250万个零件,显然有很多GPU,一切都翻倍,所以14倍更多浮点运算,15亿亿次浮点运算(Exaflops),不是我之前提到的一亿亿次,是15亿亿次扩展浮点运算,它是300,哦,4.6PB,所以每秒4600太字节扩展带宽,我不是说聚合,我是说扩展带宽,当然有很多全新的NVLink交换机和CX9。注意,16个站点,4个GPU一个封装,超大的NVLink,我给你们一个视角,这就是它的样子。现在这会很好玩,所以你们现在正在提升Grace Blackwell,我不是想让它看起来像笔记本电脑,但我们走吧。所以这就是Grace Blackwell的样子,这就是Rubin的样子,ISO维度,所以这是另一种说法,在你扩展出去前,你得先扩展起来,明白了吗?在你扩展出去前先扩展起来,然后用我马上要展示的惊人技术扩展出去。所以先扩展起来,现在这给你们一个我们前进速度的感觉,这是扩展浮点运算量,Hopper是1倍,Blackwell是68倍,Rubin是900倍扩展浮点运算,然后如果我把它变成你的总拥有成本(TCO),就是上面的电力除以下面的曲线下的面积,我跟你们说的那个方块,基本上是浮点运算乘以带宽。所以你判断AI工厂进步的一个很简单直觉检查是瓦特除以这些数字,你可以看到Rubin会把成本大幅降低。所以这是NVIDIA的路线图,很简单,每年一次,每年一次,像钟表一样,每年一次。

InfiniBand网络

我们怎么扩展?我们引入了,我们准备扩展出去,扩展起来是NVLink,我们的扩展网络是Infiniband和Spectrum X,大多数人很惊讶我们进入了以太网世界,我们决定做以太网的原因是,如果我们能帮以太网变得像Infiniband,有Infiniband的品质,那么网络本身对大家用和管理会容易很多。所以我们决定投资Spectrum,我们叫它Spectrum X,我们给它带来了拥塞控制、低延迟和我们计算结构(Computing Fabric)的一部分软件的属性,结果我们让Spectrum X性能超高,我们用Spectrum X扩展了有史以来最大的单一GPU集群,一个巨型集群,那就是Colossus。所以还有很多其他例子,Spectrum X无疑是我们的大成功。

我很兴奋的一个领域是最大的企业网络公司把Spectrum X整合进他们的产品线,这样他们能帮世界上的企业变成AI公司。我们有10万个,用CX8,CX7,现在CX8来了,CX9来了,在Rubin的时间框架里,我们想把GPU数量扩展到几十万。现在把GPU扩展到几十万的挑战是,扩展起来和扩展出去的连接是铜线,我们得尽可能用铜线,你知道,大概一两米,这是非常好的连接性,很低很高的可靠性,很好地节能,很低的成本,所以我们尽可能在扩展起来时用铜线,但在扩展出去时,数据中心现在有体育场那么大,我们需要一些长距离的东西,这就是硅光子(Silicon Photonics)进来的地方。硅光子的挑战是,收发器从电到光子要消耗很多能量,要通过一个CIS,经过一个收发器,一个CERIS几个CIS,所以这些这些这些,我是一个人吗?有人吗?我的网络团队怎么了?我能把这个拿上来吗?是的,是的,把它拿上来,这样我能给人们展示我在说什么。

好的,首先我们宣布NVIDIA的第一个共封装(Co-Packaged)选择硅光子系统,这是世界上第一个每秒1.6太比特的CPO,我们要用的是一个叫微环谐振调制器(Micro Ring Resonator Modulator)的技术,它完全是用我们在台积电(TSMC)合作很久的这个不可思议的工艺技术建造的,我们跟一个巨大的技术提供商生态系统合作,发明了我要展示给你们的东西,这真的是疯狂的技术,太疯狂太疯狂的技术。我们决定投资MRM的原因是,这样我们能用MRM的惊人密度和功率准备自己,比用于电信的Mach-Zehnder(莫桑德)更好密度和功率,当你从一个数据中心到另一个数据中心,在电信里,甚至在我们用的收发器里,我们用Mach-Zehnder,因为密度要求不高,直到现在。所以如果你看看这些收发器,这是一个收发器的例子。

没你想的那么简单,这些是乱七八糟的小东西。好的,这个在这儿,这个是30瓦,记住这个,30瓦,如果你大批量购买,它是1000美元,这边是插头,这边是电的,这边是光的。光纤通过黄色的进来,你插进交换机,这边是电的,有收发器、激光器,是个叫Mach-Zehnder的技术,太不可思议了。所以我们用这个从GPU到交换机,到下一个交换机,然后下一个交换机,到GPU,比如这样。所以这些,如果我们有10万个GPU,我们会有10万个这边,然后另外10万个,连接交换机到交换机,然后另一边分配到另一个NIC,如果我们有25万个,我们加另一层交换机,所以每个GPU,每个25万个GPU,每个GPU会有6个收发器,每个GPU会有6个这样的插头,这6个插头会加每GPU180瓦,也就是每GPU6000美元。

所以问题是,我们现在怎么扩展到几百万个GPU?因为如果我们有一百万个GPU,乘以6,对吧,会是600万个收发器,乘以30瓦,180兆瓦的收发器,它们没做任何数学,只是移动信号。所以问题是,我们怎么负担得起,正如我之前提到的,能源是我们最重要的商品,一切最终跟能源有关,所以这会限制我们的收入,我们的客户收入,减去180兆瓦的电力。所以这是我们做的惊人事情,我们发明了世界上第一个MRM微镜。

这就是它的样子,有个小的波导,你看到那个,波导连到一个环,那个环谐振,控制波导的反射率,当它绕过去,限制和调制能量,通过的光量,通过吸收关掉或通过打开,把光,这个直接连续的激光束,变成1和0,这就是奇迹。这个技术,然后光子IC跟电子IC堆叠,然后跟一堆微透镜堆叠,然后跟这个叫光纤阵列的东西堆叠,这些东西都用台积电的这个技术制造,用3D 技术封装,跟所有这些技术提供商合作,我刚给你们看的那些名字一大堆,把它变成这个不可思议的机器。所以让我们看看它的视频。

这是个技术奇迹,它们变成这些交换机是Infiniband交换机,硅片工作得太棒了,今年下半年我们会出货这个硅光子交换机,今年下半年,下一年下半年会出货Spectrum X,因为MRM选择,因为过去5年我们冒的不可思议的技术风险,申请了几百个专利,我们授权给我们的合作伙伴,这样我们都能造,现在我们能把硅光子跟共封装选择放进我们的交换机,没有收发器,光纤直接进我们的交换机,基数(Radix)是512,这是512个端口,这用其他方式根本不可能。所以这现在让我们能扩展到几十万GPU,几百万GPU,好处是,你想象这个,在数据中心我们能省几十兆瓦,几十兆瓦,比如说10兆瓦,哦,说60兆瓦,60瓦,6兆瓦是10个Rubin Ultra机架,对吧,60那是很多,100个Rubin Ultra机架的电力,我们现在能部署到Rubin。好的,这是我们的路线图,每年一次,每年一次,每两年一个新产品线,每年X倍增长,我们试着分块冒硅片风险、网络风险或系统机箱风险,这样我们能推动行业前进,追求这些不可思议的技术,Vera Rubin,我很感激她的外孙在这儿,这是我们表彰她、纪念她不可思议工作的机会。我们下一代会以费曼(Feynman)命名。

企业计算

好了,NVIDIA的路线图,让我跟你们谈谈企业计算,这真的很重要,为了我们把AI带到世界上的企业,首先我们得去NVIDIA的另一部分,GAN Splats的美妙之处。为了把AI带到企业,退一步提醒你们自己,记住,AI和机器学习重塑了整个计算堆栈,处理器不同了,操作系统不同了,上面的应用不同了,应用的方式不同了,编排的方式不同了,运行它们的方式不同了。让我给你们一个例子,你访问数据的方式会跟过去根本不同,过去是精确检索你想要的数据,你读它试着理解,未来我们会像用Perplexity一样,不那样检索,我只问Perplexity我想知道什么,问它一个问题,它会告诉你答案。未来企业IT也是这样工作的,我们会有AI代理,作为我们数字劳动力的一部分,世界上有10亿知识工作者,未来可能有100亿数字工作者跟我们并肩工作,未来100%的软件工程师,全球有3000万,100%会是AI辅助的,我很确定,到今年底,NVIDIA 100%的软件工程师会是AI辅助的。所以AI代理会无处不在,它们怎么运行,企业运行什么,我们怎么运行,会根本不同,所以我们需要一个新的计算机系列——DGX 工作站。

这就是PC该有的样子,20拍字节每秒浮点运算(Petaflops),太不可思议了,72个CPU核心,芯片到芯片接口,HBM内存,以防万一还有几个PCI Express插槽给你的GeForce。所以这是DJX Station,DGX Spark和DGX Station,将由所有OEM提供,HP、Dell、Lenovo、Asus,将为全球的数据科学家和研究人员制造,这是AI时代的计算机,计算机就该这样,未来计算机会这样运行。

我们为企业有一整套产品,从小到工作站的、服务器的,到超级计算机的,这些将由我们所有合作伙伴提供。

我们还将革命化计算堆栈的其余部分,记住计算有三大支柱,有计算,有网络,我之前提到的Spectrum X,去世界上的企业,一个AI网络。

第三个是存储,存储得完全重塑,不是基于检索的存储系统,将是基于语义的检索系统,基于语义的存储系统。所以存储系统得在后台持续嵌入信息,把原始数据嵌入知识,然后当你访问时,你不是检索它,你跟它说话,你问它问题,给它问题。我希望我们有个视频的例子,但Box的Aaron甚至跟我们合作把它放云端,基本上是个超级智能存储系统,未来每个企业都会有这样的东西,那是未来的企业存储,跟整个存储行业合作,太棒的合作伙伴,DD、Dell、HP Enterprise、Hitachi、IBM、NetApp、Neonics、Pure Storage、Vast、W,基本上全球存储行业将首次提供这个堆栈,你的存储系统将用GPU加速。

所以你们可以看到,我们在革命化世界企业的过程中,我们今天还宣布这个不可思议的模型,每个人都能运行,所以我之前给你们展示了DeepSeek-R1,一个推理模型,跟LLaMA 3对比,一个非推理模型,显然R1聪明多了,但我们能做得更好,能让它为任何公司准备好企业使用,现在完全开源,是我们叫NIMs的系统的一部分,你可以下载它,你可以在任何地方运行,可以在DGX Spark上跑,可以在DGX Station上跑,可以在OEM造的任何服务器上跑,可以在云端跑,可以整合进你的任何代理AI框架,我们跟全球公司合作,我会快速翻过这些,仔细看,我有些很棒的合作伙伴在观众席,我想表彰,Accenture,Julie Sweet和她的团队在建他们的AI工厂和AI框架,AMDOS,全球最大的电信软件公司,AT&T,John Stankey和他的团队在建AT&T AI系统,代理系统,Larry Fink和BlackRock团队在建他们的,Annie Roode,未来我们不只雇ASIC设计师,我们会雇一大堆数字ASIC设计师,来自Anude,Cadence会帮我们设计芯片,所以Cadence在建他们的AI框架,你们可以看到,每一个里都有NVIDIA模型,NVIDIA NIMs和Vidia库贯穿其中,所以你可以在本地运行,在云端运行,任何云端都可以。Capital One,最先进的金融服务公司之一,他们使用的技术全是NVIDIA。Deere,Jason和他的团队;Enany,Janet和他的团队;NASDAQ,Adena和她的团队,他们都将NVIDIA技术整合进他们的AI框架。然后是SAP,Christian和他的团队;ServiceNow,Bill McDermott和他的团队。挺不错的吧?。

机器人

我们来谈谈机器人,机器人时代已经到来。

机器人有能与物理世界互动的好处,能做数字信息做不到的事情。我们很清楚,世界正严重缺乏人力劳动,到这个十年末,世界将至少短缺5000万工人。我们很乐意每年付给他们每人5万美元请他们来工作,而未来可能会得付给机器人每年5万美元来工作,所以这会是一个非常非常大的行业。有各种机器人系统,你的基础设施会变成机器人的,数十亿摄像头分布在仓库和工厂里,全球有1000万到2000万家工厂。我之前提到,每辆车已经是一个机器人,现在我们在打造通用机器人,让我给你们展示我们是怎么做的。

一切移动的东西都将变得自主,物理AI将体现在各行各业的各种机器人中。NVIDIA打造的三台计算机启用了一个机器人AI的持续循环:仿真、训练、测试和现实世界的经验。训练机器人需要海量数据,互联网规模的数据提供了常识和推理能力,但机器人需要行动和控制数据,这些数据的捕捉成本很高。利用基于NVIDIA Omniverse和Cosmos构建的蓝图,开发者能够生成大量多样的合成数据来训练机器人策略。首先,在Omniverse中,开发者根据不同领域、机器人和任务,聚合现实世界的传感器数据或演示数据,然后通过Omniverse调适Cosmos,将原始捕捉的数据放大为大量逼真且多样化的数据。开发者随后使用Isaac Lab训练机器人策略,利用增强后的数据集,让机器人通过模仿学习克隆行为,或者通过强化学习试错掌握新技能,并获得AI反馈。在实验室里的练习与现实世界不同,新的策略需要在实地测试。开发者使用Omniverse进行软件和硬件在环测试,在数字孪生中仿真策略,结合现实世界的环境动态,运用领域随机化、物理反馈和高保真传感器仿真。现实世界的操作需要多个机器人协同工作,Mega——一个Omniverse蓝图——让开发者能够大规模测试并训练策略舰队。这里,Foxconn在虚拟的NVIDIA Blackwell生产设施中竞赛异构机器人。当机器人“大脑”执行任务时,它们通过传感器仿真感知行动结果,然后规划下一步行动。Mega让开发者测试众多机器人策略,使机器人作为一个系统协作运行,无论是空间推理、导航、移动性还是灵巧性,惊艳的东西就在仿真中诞生。 今天我们介绍NVIDIA Isaac Groot N1,Groot N1是人形机器人的通用基础模型,建立在合成数据生成和仿真学习的基础上。Groot N1拥有双系统架构,快慢兼备,受人类认知处理原则启发:慢思考系统让机器人感知和推理环境及指令,规划正确的行动;快思考系统将计划转化为精确且连续的机器人动作。Groot N1的泛化能力让机器人能够轻松操作常见物体,协作执行多步序列。通过这个合成数据生成和机器人学习的完整管道,人形机器人开发者可以在全球多种环境、多种任务、多种形态下训练Groot N1。各行各业的开发者利用NVIDIA的三台计算机,打造下一代具身AI。

物理AI和机器人技术发展得太快了,大家要关注这个领域,这很可能是最大的行业。在其核心,我们面临着我之前提到的同样挑战,我们关注三个问题,相当系统化:

一是如何解决数据问题,如何创造训练AI所需的数据;

二是采用什么模型架构;

三是什么扩展法则(Scaling Law),我们如何扩展数据、计算或两者,让AI变得越来越聪明,我们如何扩展。这些根本性问题在机器人领域同样存在。在机器人领域,我们创建了一个叫Omniverse的系统,这是我们的物理AI操作系统,你们听我讲Omniverse很久了。今天我们为它添加了两项技术,我要给你们展示两件事。第一件是让我们利用生成能力扩展AI,生成模型能够理解物理世界,我们称之为Cosmos。

通过Omniverse调适Cosmos,Cosmos可以生成无限多的环境,让我们创造有根有据、我们可控、但系统上无限的数据。所以你们看到Omniverse时,我们用糖果色给你们展示了一个例子,我们完美控制场景中的机器人,而Cosmos能创造所有这些虚拟环境。

第二件事,正如我们之前所说,今天语言模型惊人扩展能力之一是强化学习,可验证的奖励。问题在于,机器人中的可验证奖励是什么?我们很清楚,那就是物理定律,可验证的物理奖励。所以我们需要一个不可思议的物理引擎。大多数物理引擎设计有各种用途,可能是为了大型机械,或者为虚拟世界、视频游戏设计,但我们需要一个专为非常细粒度的刚体和软体设计的物理引擎,为训练触觉反馈、精细运动技能和执行器控制而设计,需要GPU加速,让这些虚拟世界能在超线性时间、超实时中运行,超快地训练这些AI模型,并且需要无缝整合进全球机器人学家使用的框架MuJoCo。

所以今天我们宣布一件特别的事情,这是DeepMind、Disney Research和NVIDIA三家公司的合作,我们称之为Newton,让我们来看看Newton。

告诉我那是不是很不可思议?嘿,Blue,你好吗?你喜欢你的新物理引擎吗?喜欢吧?我打赌我知道,触觉反馈,刚体和软体仿真,超实时,你能想象吗?你刚看到的是完全实时的仿真,这就是我们未来训练机器人的方式。顺便说一句,Blue里面有两台NVIDIA计算机,看你多聪明,是的,你很聪明。

好的,嘿,Blue,听着,我们带他们回家吧,结束这个主题演讲,午饭时间到了,你准备好了吗?准备好了,我们结束吧,我们还有一个宣布。就站在这儿,站在这儿,很好。(与机器人互动)

总结

好了,我们还有一个惊人消息,我告诉过你们我们的机器人进展巨大,今天我们宣布Groot N1开源了。我要感谢你们所有人来参加,让我们总结一下。感谢你们参加GTC,我们谈了几件事:

一是Blackwell全面投产,增长不可思议,客户需求不可思议,原因很充分,因为AI正处在一个拐点,我们在AI中需要做的计算量由于推理AI、训练推理AI系统及代理系统而大幅增加。

第二,Blackwell NVLink 72搭配Dynamo是Hopper 40倍的AI工厂性能,推理将是下一个十年最重要的工作负载之一,当我们扩展AI时。

第三,我们有每年的路线图节奏,为你们铺好了路,这样你们可以规划AI基础设施。

然后我们有三种AI基础设施:我们在构建云端的AI基础设施,企业的AI基础设施,以及机器人的AI基础设施。

谢谢大家,感谢所有让这个视频可能的合作伙伴,感谢所有让这个视频可能的人,祝你们GTC愉快,谢谢。嘿,Blue,我们回家吧,好样的,小家伙。谢谢,我也爱你们,谢谢。