如果说AI产业现在有一个风向标公司,自然会是英伟达;如果看英伟达最新的动向,那无疑是每年一度的GTC大会;而如果说GTC最不能错过的环节,自然就是黄仁勋的主题演讲了。
黄仁勋的演讲开始时间是在北京时间3月19日的凌晨1点,美国当地时间上午十点,不过八点钟我到场的时候,会场所在的圣何塞SAP中心外就已经有排队的队伍。入场后,屏幕预热的是美国知名科技播客Acquired Podcast双人组主持的场内访谈。他们之前专访过黄仁勋,也曾经制作过一只英伟达公司发展史播客,信息量很足。而参与访谈的人不仅包括了Dell公司创始人迈克尔·戴尔,也出现了前英特尔CEO基辛格的身影。
演讲开始,黄仁勋身还是一身标志性的黑色皮夹克,GTC上一届被形容为"AI伍德斯托克",今年则是"AI超级碗",只不过这里不是竞技体育,所以没有零和游戏,“人人都是赢家”。
01、AI发展进程:从感知到生成再到代理和物理AI
黄仁勋在演讲开始时,回顾了AI在过去十年的快速演进历程。他指出,人工智能的发展经历了几个关键阶段:首先是感知AI(包括计算机视觉和语音识别),然后是生成式AI,现在已进入代理AI(agentic AI)阶段,而物理AI和机器人技术正成为下一个重要浪潮。
"AI已经取得了巨大的进步。它只经历了10年的发展。人工智能真正进入全球意识大约是在十年前。它开始于感知AI、计算机视觉、语音识别,然后是生成式AI。在过去五年,我们主要关注生成式AI,教AI如何从一种模态转换到另一种模态,如文本到图像、图像到文本、文本到视频、氨基酸到蛋白质、属性到化学物质等各种方式。"黄仁勋解释道。
他强调,生成式AI从根本上改变了计算方式。过去的计算模型主要是基于检索的,我们预先创建内容,存储多个版本,然后在使用时获取最合适的版本。而现在,AI理解上下文,理解我们的请求含义,能够生成答案而不仅仅是检索数据。
"从检索计算模型,我们现在有了生成计算模型,而过去我们几乎所有的工作都是预先创建内容,存储多个版本,然后在使用时获取我们认为合适的版本。现在,AI理解上下文,理解我们的请求,理解我们请求的含义,并生成它所知道的内容。如果需要,它会检索信息,增强其理解,并为我们生成答案。不是检索数据,而是生成答案。这从根本上改变了计算的方式。"
接着,黄仁勋详细阐述了代理AI的概念:"代理AI基本上意味着你拥有一个具有代理能力的AI。它可以感知并理解环境上下文,它可以推理,非常重要的是,它可以推理如何回答或解决问题,它可以规划行动,它可以规划并采取行动。它可以使用工具,因为它现在理解多模态信息。它可以访问网站,查看网站的格式、文字和视频,甚至可能播放视频,从中学习,理解这些信息,然后回来使用这些信息,使用这些新获得的知识来完成任务。"
代理AI的基础是推理能力,这一点与早期的大语言模型有着根本区别。黄仁勋指出:"两年前,当我们开始使用ChatGPT时,尽管它已经是个奇迹,但对于许多复杂问题甚至一些简单问题,它仍然无法正确回答。这是可以理解的,它只是一次性输出,无论它从预训练数据中学到什么,或者从其他经验中看到的,它都只是像沙龙一样一次性输出。而现在我们有了可以推理的AI,它们可以一步步地分解问题,使用称为思维链(chain of thought)、n中最佳(best of n)、一致性检查(consistency checking)等各种路径规划和技术。"
02、AI计算需求的爆发性增长
黄仁勋揭示了一个被广泛误解的事实:AI推理已成为极限计算问题,其计算需求比去年同期预期高出约100倍。他明确指出:"人工智能的Scaling Law更具弹性,事实上是超加速的。由于代理AI和推理能力,我们目前所需的计算量是我们去年此时认为需要的100倍。"
这种计算需求的爆发主要源于两方面:首先,具备推理能力的AI需要生成大量"思考令牌"来进行逐步推理;其次,为了训练这些模型,需要使用强化学习和可验证结果等技术,这些也需要大量计算资源。
黄仁勋通过一个生动的示例。展示了推理型模型和传统大语言模型之间的差异:在一个婚礼座位安排问题上,传统LLM生成了439个令牌但结果错误,而推理模型生成了8,600多个令牌并得出正确答案。
他说,"传统语言模型做一次性推断。所以一次性推断是439个令牌。它速度快,效果好,但结果是错的。所以这是439个浪费的令牌。另一方面,为了对这个问题进行推理,这实际上是一个非常简单的问题,只需再增加几个难题变量,推理就变得非常困难,它用了8,000,接近9,000个令牌。而且因为模型更复杂,它需要更多的计算。"
有意思的是,黄仁在这个演示中,推理模型选择的是DeepSeek R1。
这种增加的计算需求对AI基础设施提出了更高要求,黄仁勋解释了AI推理的复杂性:"每生成一个令牌,我们就要将整个模型和上下文输入进来,我们称之为KV缓存,然后我们生成一个令牌。然后我们将这个令牌放回我们的大脑,生成下一个令牌。每次我们这样做,我们都会输入万亿参数,生成一个令牌。万亿字节的信息,万亿字节的信息被输入到我们的GPU中,一次产生一个令牌。"
黄仁勋将推理比喻为工厂生产:"推理是工厂进行的令牌生成,而工厂是创收和创利的,或者说缺乏创收和创利。因此,这个工厂必须以极致的效率和极致的性能来建造,因为这个工厂的一切都直接影响你的服务质量、收入和盈利能力。"
03、Blackwell架构与Blackwell Ultra:AI基础设施的重大突破
黄仁勋宣布,Blackwell架构已全面量产,这一架构代表了计算设计的根本性转变。他展示了从HGX架构到全新的Grace Blackwell NVLink 72架构的转变过程,这是一次真正的计算革命。
"这是整个行业的重大变革。在座的所有人,我要感谢你们实现了这一从集成NVLink到分离式NVLink、从空气冷却到液体冷却、从每台计算机约6万个组件到每个机架60万个组件、120千瓦完全液体冷却的根本性转变,因此,我们在一个机架中就有了一台一个exaFLOPS的计算机。难道这不是不可思议吗?"
Blackwell架构采用了分离式NVLink交换机设计。在过去的架构中,NVLink开关嵌入在主板上,而在新架构中,他们将NVLink系统分离出来并放置在机箱中央,有18个这样的开关分布在9个不同的开关托盘中。计算节点现在完全液冷,这使得所有计算节点可以压缩到一个机架中,每个机架包含约600,000个组件,重3,000磅,有约5,000根电缆(总长约两英里),集成成一个超级计算机。
黄仁勋展示了Blackwell相比Hopper的显著性能提升。在ISO功率条件下(相同功耗),Blackwell的性能是Hopper的25倍,对于推理工作负载,特别是推理模型,性能甚至可达40倍。
"在推理模型中,Blackwell的性能是Hopper的40倍,直接提升。非常惊人。我之前说过,当Blackwell开始大量出货时,你甚至无法赠送Hopper。这就是我的意思。这是有道理的。如果有人仍在考虑购买Hopper,不要害怕,没关系。但我是首席收入破坏者。我的销售人员说,'哦,不要这么说'。在某些情况下,Hopper是可以的。这是我能对Hopper说的最好的话。在某些情况下,它是可以的。不是很多情况。"
在演讲中,黄仁勋正式宣布了Blackwell Ultra的到来,这是Blackwell架构的增强版本。"NVIDIA Blackwell Ultra增强了训练和测试时间扩展推理(在推理过程中应用更多计算以提高准确性的艺术),使世界各地的组织能够加速AI推理、代理AI和物理AI等应用。"
Blackwell Ultra将推出两个版本:一个配备两个与NVIDIA Arm CPU配对的芯片,称为GB300;另一个版本仅配备GPU,称为B300。它还将推出带有八个GPU的单个服务器刀片版本,以及一个包含72个Blackwell芯片的机架版本。
具体来说,Blackwell Ultra NVL72平台将于2025年下半年上市,它具有如下特点:
- 带宽是原版Blackwell的两倍
- 内存速度是原版的1.5倍
- 单个Ultra芯片提供与Blackwell相同的20 petaflops AI性能
- 内存从192GB增加到288GB HBM3e
- DGX GB300 "Superpod"集群拥有300TB内存(原来是240TB)
黄仁勋表示:"人工智能已经取得了巨大的飞跃——推理和代理人工智能需要更高数量的计算性能。我们为这一刻设计了Blackwell Ultra——它是一个单一的多功能平台,可以轻松高效地进行预训练、后训练和推理人工智能推理。"
04、NVIDIA Dynamo:AI工厂的操作系统革命
为了管理代理AI复杂的工作负载,NVIDIA发布了Dynamo操作系统,它专为AI工厂设计,能够动态管理和优化计算资源。黄仁勋将这款软件比作电机(Dynamo),象征着它在AI时代的重要性,就像电机在电气时代的革命性角色一样。
"我刚才描述了流水线并行、张量并行、专家并行、动态批处理、分离式推理、工作负载管理,然后我必须拿这个叫做KV缓存的东西,我必须将它路由到正确的GPU,我必须通过所有内存层次结构来管理它。这部分软件极其复杂。因此,今天我们宣布NVIDIA Dynamo。NVIDIA Dynamo完成所有这些工作。它本质上是AI工厂的操作系统。"
Dynamo是一款开源推理软件,用于以最低的成本和最高的效率加速和扩展AI工厂中的AI推理模型。黄仁勋解释了为什么将这个系统命名为Dynamo:"你知道,电机是启动上一次工业革命的第一个工具,即能源工业革命。水进入,电出来,非常棒。你知道,水进来,你点燃它,变成蒸汽,然后出来的是这个看不见的但非常有价值的东西。虽然之后花了80年才发展到交流电,但电机就是一切开始的地方。"
Dynamo的主要功能是协调和加速数千个GPU之间的推理通信,并通过分解服务将大型语言模型的处理和生成阶段分离在不同GPU上。这允许每个阶段根据其特定需求进行独立优化,并确保最大程度地利用GPU资源。
Dynamo包含几个关键能力:
1. 动态资源管理:根据不断变化的请求量和类型动态添加、移除和重新分配GPU,以及在大型集群中精确定位特定GPU,以最大限度地减少响应计算和路由查询。
2. 内存优化:将推理数据卸载到更便宜的内存和存储设备,并在需要时快速检索它们,从而最大限度地降低推理成本。
3. KV缓存映射:将推理系统在内存中保存的知识映射到可能数千个GPU上的先前请求,然后将新的推理请求路由到具有最佳知识匹配的GPU,避免昂贵的重新计算并释放GPU来响应新的传入请求。
黄仁勋表示:"世界各地的行业都在训练AI模型以不同的方式思考和学习,随着时间的推移,它们会变得更加复杂。为了实现自定义推理AI的未来,Dynamo有助于大规模服务这些模型,从而推动整个AI工厂的成本节约和效率提高。"
实验表明,使用相同数量的GPU,Dynamo使在当今NVIDIA Hopper平台上为Llama模型提供服务的AI工厂的性能和收入翻了一番。在GB200 NVL72机架的大型集群上运行DeepSeek-R1模型时,Dynamo的智能推理优化还将每个GPU生成的令牌数量提高了40倍以上。
黄仁勋宣布Dynamo将完全开源,支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM,使企业、初创公司和研究人员能够开发和优化跨分解推理服务AI模型的方法。它将使用户能够加速AI推理的采用,包括AWS、Cohere、CoreWeave、Dell、Fireworks、Google Cloud、Lambda、Meta、Microsoft Azure、Nebius、NetApp、OCI、Perplexity、Together AI和VAST等合作伙伴。
05、CUDA-X库生态系统:加速计算的多样化工具集
黄仁勋在演讲中着重强调了NVIDIA的软件能力和CUDA-X生态系统的重要性。"NVIDIA一直使用通用计算机,以超慢的速度运行软件为他人设计加速计算机。直到最近,我们才有针对CUDA优化的软件库。"
他强调,CUDA不仅仅是一个软件,而是一整套生态系统和库,使开发者能够加速各种科学和工程领域的计算。CUDA-X包含900多个特定领域的库和AI模型,为众多应用提供计算加速能力。
黄仁勋详细介绍了多个CUDA-X库及其应用:
1. cuPYNUMERIC:用于NumPy的加速。"NumPy是全球下载量最大的Python库,去年下载了4亿次。cuPYNUMERIC是NumPy的零更改直接替代加速。所以如果你们中有人在使用NumPy,试试cuPYNUMERIC吧,你会爱上它的。"
2. cuLitho:计算光刻库。"在四年的时间里,我们现在已经将整个光刻处理过程,计算光刻,这是晶圆厂的第二个工厂,纳入进来。有制造晶圆的工厂,然后有制造信息以制造晶圆的工厂。未来每个拥有工厂的行业、每个公司都会有两个工厂:一个用于建造产品的工厂,另一个用于数学的工厂,AI的工厂。"
3. Arial:用于5G的库。"Arial是我们用于5G的库,将GPU转变为5G无线电。为什么不呢?信号处理是我们做得非常好的事情。一旦我们做到了这一点,我们可以在其上添加AI。AI用于RAN或我们称之为AI RAN。下一代无线网络将深度嵌入AI。"
4. cuOPT:数值或数学优化库。"几乎每个行业都在使用这个——当你在航班上规划座位,库存和客户,工人和工厂,司机和乘客,等等,我们有多重约束,多重变量,你正在优化时间、利润、服务质量、资源使用等等。NVIDIA使用它进行我们的供应链管理。cuOPT是一个令人难以置信的库,它把原本需要几个小时的事情变成了几秒钟。" 黄仁勋宣布NVIDIA将开源cuOPT,并表示正在与Gurobi、IBM CPLEX和FICO合作。
5. Parabricks:用于基因测序和基因分析。
6. Monai:全球领先的医学成像库。
7. Earth2:用于高分辨率预测本地天气的多物理学模型。
8. cuQuantum和CUDA-Q:用于量子计算研究。"我们正在与生态系统中几乎所有人合作,或者帮助他们研究量子架构、量子算法,或者建立经典加速的量子异构架构。"
9. cuDSS:稀疏求解器,对CAE非常重要。"这是去年发生的最重要的事情之一。与Cadence、Synopsys、Ansys、Dassault和所有系统公司合作,我们现在已经使几乎所有重要的EDA和CAE库都能被加速。"
10. cuDF:用于结构化数据的数据框架。"我们现在有一个用于Spark的直接替代加速和用于Pandas的直接替代加速。非常棒。"
11. Warp:在Python中运行的物理库,一个用于CUDA的Python物理库。黄仁勋提到,使用Warp,Autodesk使用八个GH200节点可以进行最多48亿个单元的模拟,这比使用H100节点大5倍。
黄仁勋强调,这些库的价值不仅在于它们提供的加速,还在于CUDA的广泛部署:"CUDA的安装基础现在无处不在。它在每个云中,每个数据中心中,可从世界上每家计算机公司获得。它实际上无处不在。因此,通过使用这些库中的一个,你的软件,你的惊人软件可以触及每个人。所以我们现在已经达到了加速计算的临界点。CUDA使这成为可能。"
06、未来产品路线图:从Blackwell到Vera Rubin再到Feynman
黄仁勋详细介绍了NVIDIA未来几年的产品路线图,这是NVIDIA首次如此清晰地展示其长期技术发展计划,让客户和合作伙伴能够提前规划他们的AI基础设施投资。
"我们建设AI工厂和AI基础设施需要数年的规划。这不像买笔记本电脑。这不是可自由支配的支出。这是我们必须规划的支出。所以我们必须规划土地和电力,我们必须准备好资本支出,我们需要工程团队。我们必须提前两三年规划好,这就是我为什么提前两三年向你们展示我们的路线图的原因。"
黄仁勋首先介绍了当前已在生产中的Blackwell架构,然后宣布了即将在2025年下半年发布的Blackwell Ultra、2026年下半年推出的Vera Rubin以及2027年下半年的Rubin Ultra。
1. Blackwell Ultra (2025年下半年)
黄仁勋表示:"在2025年下半年,我们将轻松过渡到升级版。所以我们有Blackwell Ultra,NVLink 72。它的实验室是原来的1.5倍。它有一个用于注意力的新指令。它的内存是原来的1.5倍。所有这些内存都可用于KB缓存等。它的网络带宽是原来的2倍。"
2. Vera Rubin (2026年下半年)
这一架构以发现暗物质的天文学家Vera Rubin命名。黄仁勋在现场特别致敬了Rubin的贡献,她的孙子们也出席了演讲。Vera Rubin架构将带来全新的CPU、GPU、网络和内存技术,NVLink数量增加到144。
"Vera Rubin有两个主要组件:一个称为Vera的CPU和一个称为Rubin的新GPU设计,具有NVLink 144。Vera是NVIDIA的首款定制CPU设计,它基于名为Olympus的核心设计。与Vera搭配使用时,Rubin可以在进行推理时实现每秒50千万亿次浮点运算,比Blackwell每秒20千万亿次浮点运算的速度高出一倍多。Rubin还可以支持高达288 GB的快速内存。"
黄仁勋还澄清了一个命名上的变化:"Blackwell实际上是两个独立的芯片组装在一起作为一个芯片工作。从Rubin开始,当将两个或多个芯片结合成一个单一芯片时,它会将这些芯片称为独立的GPU。"
3. Rubin Ultra (2027年下半年)
这是一个更加惊人的规格,将提供NVLink 576极端扩展能力,每个机架600千瓦,拥有250万个部件,计算能力达到15 exaFLOPS(是Blackwell的15倍),内存带宽达到4.6 petabytes/s(4,600 terabytes/s)。
"这是14倍更多的计算力,15 exaflops。从一个exaflop,正如我前面提到的,现在是15个exaflops扩展的exaflops。它是300,什么,4.6 petabytes,所以是4,600 terabytes每秒的扩展带宽。我不是指聚合带宽,我是指扩展带宽。当然,还有全新的NVLink开关和CX9。"
黄仁勋通过一个直观的对比展示了从Hopper到Blackwell再到Rubin架构的性能提升:Hopper是1x,Blackwell是68x,Rubin是900x。在TCO(总拥有成本)方面,Rubin将极大地降低成本,提高能效比。
最后,黄仁勋还透露,NVIDIA继Rubin之后的下一代芯片将以物理学家Richard Feynman的名字命名,进一步强调了NVIDIA对科学和创新的致敬。不过黄仁勋没有透露更多细节。我们只知道Nvidia计划于2028年的某个时候将它推向市场,取代Rubin Vera。
07、硅光技术突破:实现百万GPU规模扩展
黄仁勋展示了NVIDIA在硅光技术方面的重大突破,这将成为实现超大规模GPU连接的关键。他宣布了NVIDIA首个共封装光子系统(co-packaged optics silicon photonic system),这是全球首个1.6Tb/s的CPO,基于微环谐振调制器(micro ring resonator modulator)技术,与TSMC合作开发。
黄仁勋通过一个生动的实物演示,向观众展示了当前光纤收发器的问题:"这个(收发器)是30瓦。大批量购买的话,要1000美元。这是一个插头。这一边是电的,那一边是光的。光线通过黄色部分进入。你把这个插入交换机,这边是电的。有收发器、激光器,它是一种叫做马赫-曾德尔的技术,非常了不起。"
接着,他解释了在大规模GPU集群中使用这些收发器的挑战:"如果我们有10万个GPU,我们将有10万个这种(收发器)在这一边,然后另外10万个连接交换机到交换机,然后另一边我将其归因于另一个网卡。如果我们有25万个,我们会添加另一层交换机,所以每个GPU,25万个,每个GPU都会有6个收发器。每个GPU的这6个插头将增加180瓦每个GPU,180瓦每个GPU,6000美元每个GPU。"
这种情况下,如果要扩展到百万级GPU,会面临巨大的功耗和成本挑战:"所以问题是我们如何扩展到数百万GPU?因为如果我们有一百万个GPU乘以6,对吧,那将是600万个收发器乘以30瓦,180兆瓦的收发器。他们没有做任何计算,他们只是移动信号。所以问题是我们如何负担得起,正如我之前提到的,能源是我们最重要的商品。一切最终都与能源有关,所以这会通过减去180兆瓦的功率来限制我们的收入,我们客户的收入。"
为解决这一问题,NVIDIA开发了基于微环谐振调制器的硅光技术。黄仁勋展示了这项技术的原理:"有一个小波导,你看那个波导连接到一个环,那个环共振并控制波导在绕行时的反射率,调制通过的能量,光的量,它通过吸收关闭它或者让它通过。好的?它将这个直接连续的激光束转换成1和0,这就是奇迹。"
这项技术将被应用于NVIDIA的下一代InfiniBand交换机和Spectrum X以太网产品中,使得交换机每个交换机可以支持512个端口,从而实现超大规模GPU集群的连接。黄仁勋表示,这项技术将在2025年下半年开始应用于InfiniBand交换机,2026年下半年将应用于Spectrum X交换机。
"在一个数据中心,我们可以节省数十兆瓦,数十兆瓦。比如说10兆瓦,好吧,比如说60兆瓦,6兆瓦是10个Rubin Ultra机架。6兆瓦是10个Rubin Ultra机架。60兆瓦,那是很多。100个Rubin Ultra机架的功率,我们现在可以部署到Rubin中。"
这项技术的突破性在于,它使NVIDIA能够在交换机中实现共封装光学,无需收发器,直接将光纤连接到交换机,每个交换机支持512个端口。这在以前是不可能实现的,而现在它使NVIDIA能够扩展到数十万乃至数百万GPU的规模。
08、企业AI基础设施的革新:从计算到存储
黄仁勋强调,为了将AI带入全球企业,NVIDIA开发了全新的企业级AI计算产品线,从DGX工作站到服务器再到超级计算机。他展示了一台DGX工作站,将其描述为"AI时代的计算机"。
"这就是PC应该有的样子。20 petaflops。难以置信。72个CPU核心。芯片到芯片接口。HBM内存。以防万一,还有一些PCI express插槽给你的G-force。这被称为DGX工作站。DGX Spark和DGX工作站将由所有OEM提供。惠普、戴尔、联想、华硕。它将为全球的数据科学家和研究人员制造。这是AI时代的计算机。"
黄仁勋指出,在AI时代,计算有三大支柱:计算、网络和存储。在网络方面,NVIDIA的Spectrum X正在走向全球企业,成为AI网络的关键组成部分。
在存储方面,黄仁勋宣布了一场存储系统的革命。传统的存储系统主要基于检索,而新一代存储系统将基于语义理解和生成能力:
"存储系统必须被完全重新发明。而不是基于检索的存储系统,它将是基于语义的检索系统。基于语义的存储系统。因此,存储系统必须在后台持续嵌入信息。将原始数据嵌入到知识中,然后当你稍后访问它时,你不会检索它。你只是与它交谈。你问它问题。你给它问题。在未来,你将在每个企业中拥有类似的东西。这就是未来的企业存储。"
NVIDIA正与整个存储行业合作,包括DDN、Dell、HP Enterprise、Hitachi、IBM、NetApp、Nutanix、Pure Storage、Vast和Weka等合作伙伴,首次将GPU加速引入存储系统。
此外,NVIDIA还宣布了NIMS模型,这是一个完全开源的企业就绪推理模型,可以在任何地方运行——DGX Spark、DGX Station、OEM服务器或云端,并可集成到任何代理AI框架中。
黄仁勋快速展示了与NVIDIA合作构建AI系统的众多企业伙伴,包括Accenture、Amdocs、AT&T、BlackRock、Cadence、Capital One、Deloitte、ENY、Nasdaq、SAP和ServiceNow等。这些企业正在各自行业中利用NVIDIA技术构建AI工厂和框架。
"在每一个例子中,都有NVIDIA模型、NVIDIA NIMS、NVIDIA库集成在整个过程中。这样你就可以在本地运行它,在云中运行,在任何云中。"
09、NVIDIA在自动驾驶领域的进展与Halos安全系统
黄仁勋转向自动驾驶领域,强调这是AI最早应用的领域之一,NVIDIA已在此领域深耕十多年:"当我看到AlexNet时,那是一个如此鼓舞人心的时刻,如此令人兴奋的时刻,它使我们决定全力投入到自动驾驶汽车的建设中。所以我们现在已经在自动驾驶汽车上工作了十多年。"
他指出,NVIDIA为几乎所有自动驾驶汽车公司提供技术支持,无论是数据中心技术(如特斯拉在数据中心使用大量NVIDIA GPU)还是车载计算机(如Waymo和Wave在数据中心和车辆中都使用NVIDIA计算机)。NVIDIA构建了三种计算机:训练计算机、模拟计算机和机器人计算机(自动驾驶汽车计算机),以及所有基于它的软件堆栈、模型和算法。
黄仁勋宣布与通用汽车(GM)的重要合作:"我很高兴地宣布,通用汽车已选择NVIDIA作为合作伙伴,与他们一起建设未来的自动驾驶车队。自动驾驶汽车的时代已经到来。我们期待与通用汽车在三个领域构建AI:AI用于制造,使他们能够彻底改变制造方式;AI用于企业,使他们能够彻底改变工作、设计汽车和模拟汽车的方式;然后还有AI用于车内。所以这是为通用汽车提供的AI基础设施,与通用汽车合作,为通用汽车构建他们的AI。"
接着,黄仁勋展示了NVIDIA在汽车安全领域的创新——NVIDIA Halos,这是一个综合安全系统,将NVIDIA的汽车硬件和软件安全解决方案与其在自动驾驶安全领域的尖端AI研究结合在一起。
"安全需要从硅到系统再到系统软件的技术,算法,方法论,从多样性到确保多样性,监控和透明度,可解释性。所有这些不同的理念必须深深植根于你开发系统和软件的每一部分中。我们是世界上第一家,我相信,每一行代码都经过安全评估的公司。七百万行代码经过安全评估。我们的芯片,我们的系统,我们的系统软件和我们的算法都经过第三方安全评估,他们检查每一行代码,以确保它的设计可以确保多样性,透明度和可解释性。"
Halos系统涵盖三个不同但互补的层面:
1. 技术层面:涵盖平台、算法和生态系统安全。
2. 开发层面:包括设计时、部署时和验证时防护措施。
3. 计算层面:涵盖从AI训练到部署的整个过程,使用三台强大的计算机——用于AI训练的NVIDIA DGX、在NVIDIA OVX上运行的NVIDIA Omniverse和NVIDIA Cosmos用于模拟,以及用于部署的NVIDIA DRIVE AGX。
10、物理AI与机器人技术:GROOT N1与Newton物理引擎
黄仁勋将演讲的最后部分,聚焦于物理AI和机器人技术,他强调机器人时代已经到来,并将成为一个巨大的产业。
"机器人的时代已经到来。我们清楚地知道,世界面临着严重的人类劳动力、人类工人短缺。到本世纪末,世界将至少缺少5000万工人。我们非常乐意支付他们每人5万美元来工作。我们可能不得不支付机器人每年5万美元来工作。所以这将是一个非常非常大的行业。"
黄仁勋指出,机器人系统有多种形式:从工业基础设施(仓库和工厂中数十亿个摄像头,全球1000-2000万个工厂)到已经是机器人的汽车,再到现在正在构建的通用机器人。
NVIDIA宣布开源全球首个人形机器人基础模型GROOT N1,这是一个完全可定制的通用人形推理和技能基础模型。黄仁勋表示:"通用机器人时代已经到来。借助NVIDIA Isaac GR00T N1以及新的数据生成和机器人学习框架,世界各地的机器人开发人员将开拓AI时代的下一个前沿。"
GROOT N1是NVIDIA去年在GTC大会上推出的Project Groot的演进版本。Project Groot面向工业用例,而GROOT N1将重点扩大到各种不同外形的人形机器人。
GROOT N1基础模型采用双系统架构,灵感来自人类认知原理:
- "系统1"是一种快速思考的行动模型,反映了人类的反应或直觉。
- "系统2"是一种慢速思考的模型,用于深思熟虑、有条不紊的决策。
在视觉语言模型的支持下,系统2可以推理其环境和收到的指令,从而规划行动。然后,系统1将这些计划转化为精确、连续的机器人动作。系统1接受人类演示数据和NVIDIA Omniverse平台生成的大量合成数据的训练。
GROOT N1可以轻松实现常见任务(如抓取、用一只或两只手臂移动物体以及将物品从一只手臂转移到另一只手臂),或者执行需要长时间上下文和一般技能组合的多步骤任务。这些功能可应用于物料搬运、包装和检查等用例。
黄仁勋还宣布了与DeepMind和迪士尼研究中心的合作,开发名为Newton的开源物理引擎。这一合作旨在解决物理AI面临的核心挑战,尤其是在强化学习领域。
"就像我们之前谈到的,语言模型今天令人难以置信的扩展能力之一是可验证奖励的强化学习。问题是机器人技术中的可验证奖励是什么?正如我们非常清楚的那样,它是物理定律,可验证的物理奖励。所以我们需要一个令人难以置信的物理引擎。"
黄仁勋解释了,为何需要一个专门为机器人设计的高级物理引擎:"大多数物理引擎都是为各种原因设计的。它们可以被设计用于大型机械,或者可能是为虚拟世界、视频游戏等设计的。但我们需要一个为非常精细的刚体和软体设计的物理引擎,能够训练触觉反馈、精细运动技能和执行器控制。我们需要它由GPU加速,这样这些虚拟世界可以以超线性时间、超实时生活,并以难以置信的速度训练这些AI模型。我们需要它与全球机器人专家使用的框架和JOCO和谐地集成。"
Newton物理引擎基于NVIDIA Warp框架构建,将针对机器人学习进行优化,并与Google DeepMind的MuJoCo和NVIDIA Isaac Lab等模拟框架兼容。此外,三家公司还计划让Newton使用迪士尼的物理引擎技术。
11、AI走进各行各业:从电信到医疗的应用扩展
黄仁勋强调,AI正在进入各行各业,尽管全球范围内不同行业在平台、需求以及其他方面存在诸多差异,NVIDIA正在通过多种方式推动AI在全球范围内的应用。
在电信领域,黄仁勋宣布NVIDIA与思科(Cisco)、T-Mobile和Cerberus ODC合作,在美国建立无线网络全栈解决方案:"今天我们宣布,思科、NVIDIA、T-Mobile(全球最大的电信公司)、Cerberus ODC将在美国建立无线网络的全栈。这将是第二个栈。全球资本投资每年1000亿美元用于无线电计算机和为通信提供的所有数据中心。在未来,毫无疑问,在我看来,这将是融入AI的加速计算。AI将做得更好,远远更好地适应无线电信号,大规模MIMO,适应不断变化的环境和交通状况。"
他指出,背景信息和先验知识是实现通信领域突破的关键:"当我打电话回家时,你不必说那几个词,因为我妻子知道我在哪里工作,那种情况是什么样的。对话从昨天继续。她记得我喜欢什么,不喜欢什么。通常,只需几个词。你交流了很多东西。原因是因为上下文和人类先验,先验知识。将这些能力结合起来可以彻底改变通信。看看它对视频处理做了什么。看看我之前描述的3D图形。所以我们当然会为边缘做同样的事情。"
在医疗领域,黄仁勋提到了MONAI库的应用,这是全球领先的医学成像库,可以加速医学图像处理和分析。
在企业IT领域,他强调人工智能将彻底改变企业应用,从数据存储到数据处理方式。未来,企业将拥有数字劳动力——AI代理,这些代理将与人类员工并肩工作:
"有10亿知识工作者在世界各地。可能会有100亿数字工作者与我们并肩工作。未来100%的软件工程师,全球有3000万,100%会得到AI辅助。我确信这一点。到今年年底,100%的NVIDIA软件工程师将得到AI辅助。所以AI代理将无处不在。"
在金融服务领域,黄仁勋提到了与BlackRock和Capital One等公司的合作,这些公司正在利用NVIDIA技术构建AI系统。
在设计和制造领域,他强调了与Cadence的合作:"未来,我们不仅会雇佣ASIC设计师,我们还会从Cadence雇佣大量数字ASIC设计师来帮助我们设计芯片。"
黄仁勋的观点清晰:AI将进入每个行业,无论是通过云服务、企业基础设施还是嵌入式设备,而NVIDIA正在为这一转变提供必要的技术和平台支持。
12、总结:AI时代的三大基础设施
在演讲结束时,黄仁勋总结了NVIDIA正在构建的三大AI基础设施,这些基础设施将支撑未来AI的发展和应用:
"Blackwell已全面投产。客户需求非常强劲,这是有充分理由的。因为AI出现了一个拐点,由于推理AI系统和推理AI系统的训练以及代理系统,我们必须在AI中做的计算量要大得多。其次,搭载Dynamo的Blackwell NVLink 72的性能是Hopper的40倍。在未来十年,推理将成为最重要的工作负载之一,随着我们扩展AI。第三,我们为你规划了年度路线图,以便你可以规划你的AI基础设施。然后我们正在构建三个AI基础设施:云的AI基础设施,企业的AI基础设施,以及机器人的AI基础设施。"
1. 云AI基础设施:从Blackwell到Vera Rubin再到Feynman,NVIDIA提供了清晰的硬件路线图,同时通过Dynamo等软件优化AI工厂的效率,使云服务提供商能够大规模部署AI服务。
2. 企业AI基础设施:通过DGX系列产品、Spectrum X网络和革命性的语义存储系统,NVIDIA为企业提供了从计算到网络再到存储的完整AI栈,使企业能够构建自己的AI能力。
3. 机器人AI基础设施:通过GROOT N1、Newton物理引擎和Omniverse平台,NVIDIA为下一代机器人提供了必要的技术基础,使机器人能够理解物理世界并与之交互。
黄仁勋的演讲展示了NVIDIA如何通过创新硬件、全栈软件和广泛的合作伙伴关系,应对AI计算需求的爆发性增长,并构建支持下一代AI应用的基础设施。从推理AI到代理AI再到物理AI,NVIDIA不仅在应对当前挑战,还在前瞻性地规划未来的技术发展路径。
黄仁勋在演讲中强调,现在是一个AI新时代的起点,这个时代将由更智能的推理系统、更高效的AI工厂和更多样化的应用场景所定义。

