DeepMind 推出 Genie 3，一款文本到 3D 的交互式世界模型

DeepMind 推出了Genie 3，这是其世界模型框架的最新版本，用于直接从文本提示生成交互式 3D 环境。该系统在 720p 分辨率下以大约每秒 24 帧的速度实时渲染场景，允许连续导航和交互数分钟而无需重置场景。与早期版本相比，它的核心改进之一是对象持久性：对环境所做的任何更改，如移动、删除或更改对象，都会随着时间的推移保持持久性。该模型还保持了一致的物理特性，无需使用单独的内存模块，而是依赖于学习到的世界动态。

Genie 3将这些工具的各个方面整合到一个单一的生成管道中。它既可以作为一个从自然语言产生独特环境的内容创建系统，也可以作为一个测试自主代理的仿真平台。该模型可以完全从文本中创建各种设置，如室内工业布局、室外自然地形或复杂的障碍路线。这种灵活性使其适合于训练场景的快速原型设计，特别是在机器人和具身智能领域，多样化和动态的世界对开发可泛化的技能至关重要。

该方法将 Genie 3 与其他生成式 AI 系统区别开来。例如，OpenAI 的Sora可以从文本描述中产生高度逼真的视频，但仅限于固定长度的剪辑，不支持实时交互。Meta 的Habitat专注于具身智能研究，为智能体提供高保真的 3D 空间，用于导航和操纵任务。然而，Habitat 需要预定义的场景和资产，而不是从提示中程序化地生成它们。NVIDIA 的Isaac Sim提供了先进的机器人仿真功能，具有详细的传感器建模和物理特性，但同样依赖于手动构建或导入的环境。基于《我的世界》（Minecraft）构建的MineDojo允许 AI 智能体在程序生成的世界中操作，但其机制和基于方块的视觉效果限制了现实感和物理准确性。

Reddit 用户在r/singularity 上分享了一些关于 Genie 3 的看法，其中一位用户评论道：