英伟达下一代GPU,Rubin CPX一次推理数百万Token,网友：这是头野兽

机器之心报道

机器之心编辑部

在周二的 AI 基础设施峰会上，英伟达宣布推出一款名为 Rubin CPX（Rubin Context GPUs） 的新 GPU，专为超过 100 万 token 的长上下文推理而设计。

对用户而言，这意味着他们在软件开发、视频生成等长上下文任务中能够获得更好的性能。

例如，在软件开发中，AI 系统必须能够对整个代码库进行推理、理解仓库级代码结构，才能更好的帮助开发者。同样地，长视频和研究类应用也要求在数百万 token 范围内保持持续的连贯性和记忆。

现在，随着 Rubin CPX 发布，这些问题都能迎刃而解。

这款新型 GPU（Rubin CPX）将与 NVIDIA Vera CPU 和 Rubin GPU 搭配使用，共同组成全新的 NVIDIA Vera Rubin NVL144 CPX 平台。这一集成式 NVIDIA MGX 系统在单机架内可提供 8 exaflops AI 算力，其 AI 性能是 NVIDIA GB300 NVL72 系统的 7.5 倍，并配备 100TB 高速内存和 1.7 PB/s（petabytes）内存带宽。

同时，NVIDIA 还将为已有 Vera Rubin NVL144 系统的客户提供 Rubin CPX 专用计算托盘，以便在现有平台基础上进行复用。

NVIDIA Vera Rubin NVL144 CPX 机架与计算托盘，配备 Rubin CPX、Rubin GPU 和 Vera CPU

NVIDIA 创始人兼首席执行官黄仁勋表示：Vera Rubin 平台将标志着 AI 计算前沿的又一次飞跃，它不仅引入了下一代 Rubin GPU，还带来了一类全新的处理器 CPX。正如 RTX 曾经彻底改变图形处理和物理 AI 一样，Rubin CPX 是首款专为大规模上下文打造的 CUDA GPU，使模型能够一次性在数百万 token 的知识范围内进行推理。

对于这款新的 GPU，很多人认为这将会改变创作者的游戏规则。

Rubin CPX 技术突破

众所周知，大模型正逐步演变为具备多步推理、持久记忆和长上下文能力的智能体系统，使其能够胜任软件开发、视频生成与深度研究等复杂任务。

但这些工作负载对基础设施提出了前所未有的要求，在计算、存储和网络方面带来了全新挑战，迫切需要从根本上重新思考推理的规模化与优化方式。

为此，英伟达 SMART 框架提供了一条可行方案。该框架强调采用全栈解耦式基础设施，实现计算与内存资源的高效调配。通过 Blackwell 架构 GB200 NVL72 平台与 NVFP4 低精度推理技术的结合，辅以 TensorRT-LLM、Dynamo 等开源软件，使得整个 AI 领域的推理性能大大提升。

另一方面，推理过程包含两个截然不同的阶段：上下文处理与内容生成，每个阶段对基础设施的需求存在本质差异。

上下文阶段属于计算密集型，需要高吞吐量处理能力来摄入和分析海量输入数据，以产生首个输出 token。

相比之下，生成阶段则受限于内存带宽，依赖 NVLink 等高速互连技术实现快速内存传输，以维持逐 token 输出的性能表现。

解耦式推理架构使这两个阶段能够独立处理，实现对计算与内存资源的精准优化。这种架构变革显著提升了系统吞吐量，降低了延迟，并全面提高资源利用率。

然而，解耦式架构也带来了新的复杂性，需要在低延迟 KV 缓存传输、LLM 感知路由以及高效内存管理之间实现精确协调。

NVIDIA Dynamo（一个开源、低延迟的模块化推理框架）作为这些组件的编排层，在最新的 MLPerf Inference 结果中发挥了关键作用。借助 Dynamo 在 GB200 NVL72 上的解耦推理，创造了新的性能纪录。

为了充分发挥解耦推理的优势，尤其是在算力密集的上下文阶段。

正是在这样的背景下，NVIDIA 推出了 Rubin CPX GPU：专为高价值长上下文推理工作负载设计的解决方案，能够提供高吞吐性能，并与解耦式基础设施实现无缝集成。

在技术上，基于 NVIDIA Rubin 架构，Rubin CPX GPU 采用了具备高性价比的单片设计，内置强大的 NVFP4 计算资源，并针对 AI 推理任务进行了优化，以实现极高的性能与能效表现。

具体而言，Rubin CPX 采用 NVFP4 精度，可提供高达 30 petaflops 算力，在性能与精度上均达到业界领先水平，并配备 128GB 高性价比 GDDR7 内存，能够加速最苛刻的上下文计算任务。此外，与 NVIDIA GB300 NVL72 系统相比，Rubin CPX 的注意力处理能力提升了 3 倍，显著增强了 AI 模型在长上下文序列处理中的速度与稳定性。

随着 Rubin CPX 的官宣，业界也是好评连连。Cursor 首席执行官 Michael Truell 表示：借助 NVIDIA Rubin CPX，Cursor 将能够实现极速代码生成和深度开发者洞察，从而重塑软件创作方式。这将释放前所未有的生产力水平，赋能用户将曾经遥不可及的创意快速实现。

Runway 首席执行官 Cristóbal Valenzuela 表示：视频生成正快速迈向更长上下文和更灵活的智能体驱动创作流程。我们认为 Rubin CPX 在性能上的飞跃，将为这些高强度任务提供有力支持，从而构建更通用、更智能的创意工具。这意味着，从独立艺术家到大型工作室，创作者都能在工作中获得前所未有的速度、真实感和掌控力。

最后，NVIDIA Rubin CPX 预计将于 2026 年底上市，大家再等等。

参考链接：

https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference

https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/