AI热点 14小时前 71 阅读 0 评论

英伟达下一代GPU,Rubin CPX一次推理数百万Token,网友:这是头野兽

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

机器之心报道

机器之心编辑部


在周二的 AI 基础设施峰会上,英伟达宣布推出一款名为 Rubin CPX(Rubin Context GPUs) 的新 GPU,专为超过 100 万 token 的长上下文推理而设计。


对用户而言,这意味着他们在软件开发、视频生成等长上下文任务中能够获得更好的性能。


例如,在软件开发中,AI 系统必须能够对整个代码库进行推理、理解仓库级代码结构,才能更好的帮助开发者。同样地,长视频和研究类应用也要求在数百万 token 范围内保持持续的连贯性和记忆。


现在,随着 Rubin CPX 发布,这些问题都能迎刃而解。



这款新型 GPU(Rubin CPX) 将与 NVIDIA Vera CPU 和 Rubin GPU 搭配使用,共同组成全新的 NVIDIA Vera Rubin NVL144 CPX 平台。这一集成式 NVIDIA MGX 系统在单机架内可提供 8 exaflops AI 算力,其 AI 性能是 NVIDIA GB300 NVL72 系统的 7.5 倍,并配备 100TB 高速内存和 1.7 PB/s(petabytes)内存带宽。


同时,NVIDIA 还将为已有 Vera Rubin NVL144 系统的客户提供 Rubin CPX 专用计算托盘,以便在现有平台基础上进行复用。



NVIDIA Vera Rubin NVL144 CPX 机架与计算托盘,配备 Rubin CPX、Rubin GPU 和 Vera CPU


NVIDIA 创始人兼首席执行官黄仁勋表示:Vera Rubin 平台将标志着 AI 计算前沿的又一次飞跃,它不仅引入了下一代 Rubin GPU,还带来了一类全新的处理器 CPX。正如 RTX 曾经彻底改变图形处理和物理 AI 一样,Rubin CPX 是首款专为大规模上下文打造的 CUDA GPU,使模型能够一次性在数百万 token 的知识范围内进行推理


对于这款新的 GPU,很多人认为这将会改变创作者的游戏规则。




Rubin CPX 技术突破


众所周知,大模型正逐步演变为具备多步推理、持久记忆和长上下文能力的智能体系统,使其能够胜任软件开发、视频生成与深度研究等复杂任务。


但这些工作负载对基础设施提出了前所未有的要求,在计算、存储和网络方面带来了全新挑战,迫切需要从根本上重新思考推理的规模化与优化方式。


为此,英伟达 SMART 框架提供了一条可行方案。该框架强调采用全栈解耦式基础设施,实现计算与内存资源的高效调配。通过 Blackwell 架构 GB200 NVL72 平台与 NVFP4 低精度推理技术的结合,辅以 TensorRT-LLM、Dynamo 等开源软件,使得整个 AI 领域的推理性能大大提升。


另一方面,推理过程包含两个截然不同的阶段:上下文处理与内容生成,每个阶段对基础设施的需求存在本质差异。


上下文阶段属于计算密集型,需要高吞吐量处理能力来摄入和分析海量输入数据,以产生首个输出 token。


相比之下,生成阶段则受限于内存带宽,依赖 NVLink 等高速互连技术实现快速内存传输,以维持逐 token 输出的性能表现。


解耦式推理架构使这两个阶段能够独立处理,实现对计算与内存资源的精准优化。这种架构变革显著提升了系统吞吐量,降低了延迟,并全面提高资源利用率。



然而,解耦式架构也带来了新的复杂性,需要在低延迟 KV 缓存传输、LLM 感知路由以及高效内存管理之间实现精确协调。


NVIDIA Dynamo(一个开源、低延迟的模块化推理框架) 作为这些组件的编排层,在最新的 MLPerf Inference 结果中发挥了关键作用。借助 Dynamo 在 GB200 NVL72 上的解耦推理,创造了新的性能纪录。


为了充分发挥解耦推理的优势,尤其是在算力密集的上下文阶段。


正是在这样的背景下,NVIDIA 推出了 Rubin CPX GPU:专为高价值长上下文推理工作负载设计的解决方案,能够提供高吞吐性能,并与解耦式基础设施实现无缝集成。


在技术上,基于 NVIDIA Rubin 架构,Rubin CPX GPU 采用了具备高性价比的单片设计,内置强大的 NVFP4 计算资源,并针对 AI 推理任务进行了优化,以实现极高的性能与能效表现。


具体而言,Rubin CPX 采用 NVFP4 精度,可提供高达 30 petaflops 算力,在性能与精度上均达到业界领先水平,并配备 128GB 高性价比 GDDR7 内存,能够加速最苛刻的上下文计算任务。此外,与 NVIDIA GB300 NVL72 系统相比,Rubin CPX 的注意力处理能力提升了 3 倍,显著增强了 AI 模型在长上下文序列处理中的速度与稳定性。



随着 Rubin CPX 的官宣,业界也是好评连连。Cursor 首席执行官 Michael Truell 表示:借助 NVIDIA Rubin CPX,Cursor 将能够实现极速代码生成和深度开发者洞察,从而重塑软件创作方式。这将释放前所未有的生产力水平,赋能用户将曾经遥不可及的创意快速实现。


Runway 首席执行官 Cristóbal Valenzuela 表示:视频生成正快速迈向更长上下文和更灵活的智能体驱动创作流程。我们认为 Rubin CPX 在性能上的飞跃,将为这些高强度任务提供有力支持,从而构建更通用、更智能的创意工具。这意味着,从独立艺术家到大型工作室,创作者都能在工作中获得前所未有的速度、真实感和掌控力。


最后,NVIDIA Rubin CPX 预计将于 2026 年底上市,大家再等等。


参考链接:

https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference

https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!