AI热点 7小时前 168 阅读 0 评论

DeepMind 推出 Genie 3,一款文本到 3D 的交互式世界模型

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

DeepMind 推出了Genie 3,这是其世界模型框架的最新版本,用于直接从文本提示生成交互式 3D 环境。该系统在 720p 分辨率下以大约每秒 24 帧的速度实时渲染场景,允许连续导航和交互数分钟而无需重置场景。与早期版本相比,它的核心改进之一是对象持久性:对环境所做的任何更改,如移动、删除或更改对象,都会随着时间的推移保持持久性。该模型还保持了一致的物理特性,无需使用单独的内存模块,而是依赖于学习到的世界动态。

 

Genie 3将这些工具的各个方面整合到一个单一的生成管道中。它既可以作为一个从自然语言产生独特环境的内容创建系统,也可以作为一个测试自主代理的仿真平台。该模型可以完全从文本中创建各种设置,如室内工业布局、室外自然地形或复杂的障碍路线。这种灵活性使其适合于训练场景的快速原型设计,特别是在机器人和具身智能领域,多样化和动态的世界对开发可泛化的技能至关重要。

 

该方法将 Genie 3 与其他生成式 AI 系统区别开来。例如,OpenAI 的Sora可以从文本描述中产生高度逼真的视频,但仅限于固定长度的剪辑,不支持实时交互。Meta 的Habitat专注于具身智能研究,为智能体提供高保真的 3D 空间,用于导航和操纵任务。然而,Habitat 需要预定义的场景和资产,而不是从提示中程序化地生成它们。NVIDIA 的Isaac Sim提供了先进的机器人仿真功能,具有详细的传感器建模和物理特性,但同样依赖于手动构建或导入的环境。基于《我的世界》(Minecraft)构建的MineDojo允许 AI 智能体在程序生成的世界中操作,但其机制和基于方块的视觉效果限制了现实感和物理准确性。

 

Reddit 用户在r/singularity 上分享了一些关于 Genie 3 的看法,其中一位用户评论道:

 

想象一下,过去几年你一直与世隔绝,然后突然看到了这个。这简直就像科幻小说里的情节,像是《星际迷航》里的东西。

 

而另一位用户评论道:

 

现在把这个接入虚拟现实(VR),基本上就是元宇宙了。

 

虽然传统的模拟引擎如Unreal EngineUnity等也支持自定义环境,但它们通常需要资源库和手动场景组装。Genie 3 则通过按需生成环境绕过了这一步骤,不过与专用游戏引擎相比,其当前的局限性包括运行持续时间和环境复杂性。

 

原文链接:

https://www.infoq.com/news/2025/08/deepmind-genie-virtual/

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!