AI热点 3小时前 139 阅读 0 评论

全球独家首测Genie 3,实验室细节曝光超震撼,AGI最后一块拼图已实现

作者头像
新智元

AI技术专栏作家 | 发布了 246 篇文章

昨晚,「第三次世界大战」彻底打响了。

GPT-5发布前夕,三大模型厂商齐上阵,2025年8月5日应该是会被载入AI发展史册的一天。

战火硝烟之际,谷歌DeepMind祭出的世界模型Genie 3,可谓一枚重磅炸弹,代表着世界模型的全新前沿。

可以说,从静态视频到交互式世界的飞跃,它标志着世界模型和AGI发展的转折点。

要知道,一年前的Genie 2还是这个样子的,仅仅一年,Genie 3居然就进化成了右边这个样子……

要知道,Genie 2并不是实时的,还需要再等几秒钟;但Genie 3是完全实时的

并且,Genie能支持大约10秒的生成,Genie 2能支持20秒,而到了Genie 3,则可以模拟数分钟的交互式环境。

可以说,Genie 3改变了一切。

而这位Youtuber提前去了谷歌DeepMind的伦敦总部,对Genie 3进行了全球独家首测,放出的30分钟视频中,为我们揭露了更多炸裂细节。

谷歌前员工内测:它将永远颠覆游戏行业!

无需预先构建3D模型,仅通过文本描述,Genie 3可以在720p分辨率下生成数分钟的一致性视频。

而这个「可提示的世界事件」功能就更是炸裂,仅仅通过文本命令,就可以添加新物体、生成角色,为训练AI智能体开辟了全新的可能性。

就在刚刚,前谷歌DeepMind员工Tejas Kulkarni也分享了自己的Genie 3使用初体验。

以下为他的独家实测demo。

他的评价就是四个字——「难以置信!」

总结来说,这是他尝试过的第一个性能如此之好,并且具有长期世界一致性的神经游戏引擎,或者说世界模型。

他相信,Genie 3的诞生,将彻底颠覆游戏行业。可以说,它就是我们离实现完全AGI之前的最后一块拼图。

在很多方面,它更像ASI而不是AGI。因为保真度和泛化能力已经达到人类水平,并将迅速超越人类,它可以和3D人工智能及LLM结合起来,彻底颠覆3A游戏。

根据这位前员工的说法,Genie 3的亮点可以总结如下。

真正的通用,启动时间很快,可推广到其他工业和现实世界场景。

会学习物理知识。在没有底层引擎的情况下学习游戏引擎和非刚体物理学。对于角色走动的风格化环境非常有效。

比视频模型有趣得多。

逼真的漫游,无人机拍摄效果极好。

全局照明和灯光效果很赞。

视觉记忆非常强大。

当然,它还存在一些未解决问题。

物理学很难。(尝试积木塔中的经典直觉物理实验时,它失败了)

社交和多智能体交互很难,1v1战斗游戏不起作用。

长时间的指令遵循和简单的组合游戏逻辑失败(例如收集一些点/钥匙等,走到门口,解锁等等)。

动作空间有限。

远非真正的游戏引擎,但让我们瞥见了未来。

而且,Kulkarni也着重cue到了Genie 3被官方提到的一大亮点——记忆功能

即使过了20-30秒,看到的某个东西依然会保持原样

揭秘Genie 3诞生:全球独家首测,实验室细节超震撼

而Genie 3一发布,Youtuber「Machine Learning Street Talk」也紧接着放出了对幕后团队的采访视频。

他们实地探测了实验室的情况,揭秘了Genie 3的诞生过程。

在此过程中,主持人不断惊呼:这是我见过最令人叹为观止的技术!

在谷歌DeepMind的伦敦总部,他试用完Genie 3后这样说道:这项技术将成为下一个万亿美元的产业,甚至成为VR的杀手级用例。

这期节目的嘉宾,正是Genie 3的幕后功臣——谷歌DeepMind的两位研究者Shlomi Fuchter和Jack Parker Holder。

有趣的是,跟之前的采访不同,这次他们对Genie 3架构的技术关键细节讳莫如深。

主持人评论:可以理解,毕竟小扎正像松露猎犬一样四处巡回狩猎。但他建议小扎别这么干,因为这些研究者做的是「上帝一般的工作」,如果小扎真的很想要,就自己做一个吧。 (狗头)

全球独家首测

可以说,Genie 3令人印象深刻的一大记忆点,就是它的一致性。

它所创造的世界拥有可靠的记忆。如果我们将视线从某个物体上移开,然后再回头看,它仍然会在那里。

让人出乎意料的是,两位研究者解释道,这种一致性并非明确编程的;它是强大的AI模型中突然出现的一种令人惊讶的「自发」能力。

而且,它代表着一个巨大的飞跃。之前的Genie 2已经算是一次重大的飞跃了,但它的速度不足以实现实时交互,而且分辨率也低得多。

这次不同的是,Genie 3 分辨率高达720p,具有交互性和照片级的逼真度,每次运行可以流畅运行几分钟。

而且,Genie 3代表着训练机器人的杀手级应用。

团队认为, Genie 3将彻底改变AI训练的格局。与其在现实世界中训练自动驾驶汽车或机器人(这既缓慢又危险),不如创建无限的模拟环境。

你甚至可以触发一些罕见事件,例如一只鹿跑过马路,以此教会AI如何安全地应对突发情况。

Genie 3跟传统的游戏引擎或模拟器不同,也并不像生成视频模型,但它的确具有这三者的特点。

本质上来说,它是一个交互式的世界模型和视频生成器。

这是技术上迈进的一大步。要知道,在1996年的地震引擎中,它还需要对物理、规则和交互进行明确的编程。

然而Genie 3所代表的新一代AI,却能直接从视频数据中学习现实世界的动态。

而且,它还能让我们实时控制世界中的智能体。

这种转变,就彻底摆脱了手工编码模拟器的局限。要知道,前者最先进的平台XLAND,也只是像卡通一样,跟现实世界相去甚远。

但是现在,只需一个简单的提示,就能生成想要训练智能体的任何交互式世界了。

Genie的第一个版本,经过了30000小时2D平台游戏记录的训练。

它的核心创新,就是一个时空视频tokenizer,一个潜在动作模型,以及一个预测未来状态的自回归动力学模型。

仅通过分析游戏录像中的帧间变化,Genie就能发现8个在不同环境中保持一致的离散动作,它可以无需接受针对这些动作的明确训练,就知道什么是跳跃,什么是向左移动。

可以说,这是一个OMG时刻!

仅仅10个月后,Genie 2就问世了,而且具备了3D功能,视觉保真度达到了虚幻引擎的级别。

Holder向Hassabis介绍:这是团队某人在加州拍的照片,而他们可以让Genie将其转化成一个交互式世界。

而今天的Genie 3一来,直接做到了720p的分辨率,达到了惊人的级别。

有趣的是,Shlomi对Veo 3了如指掌,此次他们也将Genie架构的元素和Veo做了结合。

因此,Genie 3的主要特点就是具有多样化的环境、漫长的视野和可提示的世界事件。

比如在这个滑雪世界中,我们可以创造另一个滑雪者,或者一群跑下雪坡的鹿。

这对模拟自动驾驶等罕见事件的建模,就显得意义重大!

另外,谷歌DeepMind还认为:训练机器人模拟可以作为真实玩家的主要用例。这样,就能省下惊人的成本。

如果我们能像《黑镜》一样,在计算机中就能模拟任何可能的情况,为什么还要在世界中模拟呢?

研究者使用模拟环境训练智能体执行特定任务的例子

遗憾的是,Genie 3目前还有一个短板——它并不具备创造力。

现实世界与虚拟世界的最大不同,就是前者充满着创造力,也就是说可能发生的事件之树会不断生长。

在未来,我们或许能有一个外循环,使系统更加开放。

最终,Genie 3代表着娱乐的未来——

它这可能会催生「YouTube 2.0」或一种全新的虚拟现实形式,让用户可以像哲学里的体验机一样,共同创造和探索无尽的互联世界。

虽然Genie 3目前仍处于研究原型阶段,尚未向公众开放,但它代表着我们朝着从零开始创造真正的人工世界迈出了重要的一步。

参考资料:

https://www.youtube.com/watch?v=ekgvWeHidJs

https://x.com/tejasdkulkarni/status/1952737669894574264?t=GxoL_FaKqWAeuAFUPYWOCg&s=19

本文来自微信公众号“新智元”,作者:新智元,编辑:Aeneas,36氪经授权发布。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!