机器之心报道
机器之心编辑部
在周二的 AI 基础设施峰会上,英伟达宣布推出一款名为 Rubin CPX(Rubin Context GPUs) 的新 GPU,专为超过 100 万 token 的长上下文推理而设计。
对用户而言,这意味着他们在软件开发、视频生成等长上下文任务中能够获得更好的性能。
例如,在软件开发中,AI 系统必须能够对整个代码库进行推理、理解仓库级代码结构,才能更好的帮助开发者。同样地,长视频和研究类应用也要求在数百万 token 范围内保持持续的连贯性和记忆。
现在,随着 Rubin CPX 发布,这些问题都能迎刃而解。

这款新型 GPU(Rubin CPX) 将与 NVIDIA Vera CPU 和 Rubin GPU 搭配使用,共同组成全新的 NVIDIA Vera Rubin NVL144 CPX 平台。这一集成式 NVIDIA MGX 系统在单机架内可提供 8 exaflops AI 算力,其 AI 性能是 NVIDIA GB300 NVL72 系统的 7.5 倍,并配备 100TB 高速内存和 1.7 PB/s(petabytes)内存带宽。
同时,NVIDIA 还将为已有 Vera Rubin NVL144 系统的客户提供 Rubin CPX 专用计算托盘,以便在现有平台基础上进行复用。


NVIDIA Vera Rubin NVL144 CPX 机架与计算托盘,配备 Rubin CPX、Rubin GPU 和 Vera CPU
NVIDIA 创始人兼首席执行官黄仁勋表示:Vera Rubin 平台将标志着 AI 计算前沿的又一次飞跃,它不仅引入了下一代 Rubin GPU,还带来了一类全新的处理器 CPX。正如 RTX 曾经彻底改变图形处理和物理 AI 一样,Rubin CPX 是首款专为大规模上下文打造的 CUDA GPU,使模型能够一次性在数百万 token 的知识范围内进行推理。
对于这款新的 GPU,很多人认为这将会改变创作者的游戏规则。


Rubin CPX 技术突破
众所周知,大模型正逐步演变为具备多步推理、持久记忆和长上下文能力的智能体系统,使其能够胜任软件开发、视频生成与深度研究等复杂任务。
但这些工作负载对基础设施提出了前所未有的要求,在计算、存储和网络方面带来了全新挑战,迫切需要从根本上重新思考推理的规模化与优化方式。
为此,英伟达 SMART 框架提供了一条可行方案。该框架强调采用全栈解耦式基础设施,实现计算与内存资源的高效调配。通过 Blackwell 架构 GB200 NVL72 平台与 NVFP4 低精度推理技术的结合,辅以 TensorRT-LLM、Dynamo 等开源软件,使得整个 AI 领域的推理性能大大提升。
另一方面,推理过程包含两个截然不同的阶段:上下文处理与内容生成,每个阶段对基础设施的需求存在本质差异。
上下文阶段属于计算密集型,需要高吞吐量处理能力来摄入和分析海量输入数据,以产生首个输出 token。
相比之下,生成阶段则受限于内存带宽,依赖 NVLink 等高速互连技术实现快速内存传输,以维持逐 token 输出的性能表现。
解耦式推理架构使这两个阶段能够独立处理,实现对计算与内存资源的精准优化。这种架构变革显著提升了系统吞吐量,降低了延迟,并全面提高资源利用率。

然而,解耦式架构也带来了新的复杂性,需要在低延迟 KV 缓存传输、LLM 感知路由以及高效内存管理之间实现精确协调。
NVIDIA Dynamo(一个开源、低延迟的模块化推理框架) 作为这些组件的编排层,在最新的 MLPerf Inference 结果中发挥了关键作用。借助 Dynamo 在 GB200 NVL72 上的解耦推理,创造了新的性能纪录。
为了充分发挥解耦推理的优势,尤其是在算力密集的上下文阶段。
正是在这样的背景下,NVIDIA 推出了 Rubin CPX GPU:专为高价值长上下文推理工作负载设计的解决方案,能够提供高吞吐性能,并与解耦式基础设施实现无缝集成。
在技术上,基于 NVIDIA Rubin 架构,Rubin CPX GPU 采用了具备高性价比的单片设计,内置强大的 NVFP4 计算资源,并针对 AI 推理任务进行了优化,以实现极高的性能与能效表现。
具体而言,Rubin CPX 采用 NVFP4 精度,可提供高达 30 petaflops 算力,在性能与精度上均达到业界领先水平,并配备 128GB 高性价比 GDDR7 内存,能够加速最苛刻的上下文计算任务。此外,与 NVIDIA GB300 NVL72 系统相比,Rubin CPX 的注意力处理能力提升了 3 倍,显著增强了 AI 模型在长上下文序列处理中的速度与稳定性。

随着 Rubin CPX 的官宣,业界也是好评连连。Cursor 首席执行官 Michael Truell 表示:借助 NVIDIA Rubin CPX,Cursor 将能够实现极速代码生成和深度开发者洞察,从而重塑软件创作方式。这将释放前所未有的生产力水平,赋能用户将曾经遥不可及的创意快速实现。
Runway 首席执行官 Cristóbal Valenzuela 表示:视频生成正快速迈向更长上下文和更灵活的智能体驱动创作流程。我们认为 Rubin CPX 在性能上的飞跃,将为这些高强度任务提供有力支持,从而构建更通用、更智能的创意工具。这意味着,从独立艺术家到大型工作室,创作者都能在工作中获得前所未有的速度、真实感和掌控力。
最后,NVIDIA Rubin CPX 预计将于 2026 年底上市,大家再等等。
参考链接:
https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference
https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/