近日,蚂蚁集团正式开源了业内首个高性能扩散语言模型推理框架 ——dInfer。这一框架的推出,不仅意味着扩散语言模型在推理速度上取得了重大突破,也标志着这一新兴技术向实际应用迈出了重要一步。
在最新的基准测试中,dInfer 的推理速度比英伟达的 Fast-dLLM 框架提升了惊人的10.7倍。在代码生成任务 HumanEval 中,dInfer 在单次推理中达到了每秒1011个 Tokens 的速度,这一成绩在开源社区中首次实现了扩散语言模型的推理速度显著超越传统自回归模型。这样的进展让人们对扩散语言模型的未来充满期待,认为它将成为通往通用人工智能(AGI)的重要技术路径。
扩散语言模型的独特之处在于其将文本生成视作一个 “从随机噪声中逐步恢复完整序列” 的去噪过程,具备高度并行、全局视野以及结构灵活的特点。尽管理论上拥有强大的潜力,dLLM 在实际推理中却受限于高计算成本、KV 缓存失效和并行解码等挑战。这些难题使得扩散语言模型的推理速度一直未能得到充分发挥,亟待突破。
针对这些挑战,dInfer 专为扩散语言模型设计,包含了四大核心模块:模型接入、KV 缓存管理器、扩散迭代管理器和解码策略。这样的模块化设计,像乐高玩具一样,让开发者可以灵活组合和优化各个模块,同时在统一的平台上进行标准化评测。
在配备8块 NVIDIA H800GPU 的节点上,dInfer 的表现极为出色。在与 Fast-dLLM 的对比中,dInfer 在效果相当的情况下,平均推理速度达到了681个 Tokens / 秒,相比之下,Fast-dLLM 的速度仅为63.6个 Tokens / 秒。此外,与业界顶尖的推理服务框架 vLLM 上运行的自回归模型 Qwen2.5-3B 相比,dInfer 的速度更是达到了其2.5倍。
蚂蚁集团表示,dInfer 的推出是连接前沿研究与产业应用的重要一步,期待全球的开发者与研究者共同探索扩散语言模型的巨大潜能,构建更加高效与开放的 AI 生态。