AI热点 1月前 174 阅读 0 评论

李飞飞对话 a16z:LLM 是有损压缩,世界模型才是真正重要方向,应用远超机器人

作者头像

AI技术专栏作家 | 发布了 246 篇文章


World Labs 是由著名 AI 专家、斯坦福大学教授李飞飞于 2024 年创办的初创公司,致力于开发具备“空间智能”的下一代 AI 系统。


自成立以来,World Labs 已完成两轮融资,总计筹集资金约 2.3 亿美元。主要投资者包括 a16z、Radical Ventures、NEA、英伟达 NVentures、AMD Ventures 和 Intel Capital 等 。公司估值在短短三个月内突破 10 亿美元,成为 AI 领域的新晋独角兽 。


近日,李飞飞与 a16z 两位合伙人 Martin Casado 以及 Eric Torenberg 展开了一场对话,她首次公开讲述了他们共同创办 World Labs 背后的理念构建、研究方向与宏大愿景a16z 平台战略前世今生:从 VC “不愿擦屁股”到“全栈服务”。


李飞飞一开始就点出了本场对话的核心观点:“我不需要大语言模型来说服我,世界模型才是那个真正重要的方向。”


她强调,空间智能——无论是我们生活在其中的三维物理世界,还是想象中的数字宇宙——都是智能不可或缺的组成部分。而今天,我们终于具备了生成与重建这些宇宙的能力。


▍比语言更古老的智能:空间感知与三维重建


李飞飞指出,相比于语言,空间感知才是人类进化过程中更为古老而本能的能力。她分享了一段亲身经历:数年前因角膜受伤导致短暂丧失立体视觉,在那段时间里,她不敢独自驾车,哪怕是熟悉的街道,也难以判断与旁车的距离。


这个实验性的体验让她深刻认识到三维感知系统在人类行动中的基础作用。而对 AI 而言,如果无法建立三维世界模型,就无法真正理解、操作或重建现实世界。


Martin Casado 补充说,这种三维智能的缺失,正是机器人和具身智能系统迟迟难以落地的关键原因。他用一个通俗的例子解释:如果你带着一个人走进一个陌生房间,蒙上他双眼,只靠语言来描述这个空间,再让他完成任务——几乎不可能。而一旦睁开眼睛,大脑就能自动重建空间模型并完成行动。这种重建能力,是当前主流语言模型所完全不具备的。


▍从 NeRF 到世界模型的技术临界点


谈及为何此时选择创办 World Labs,李飞飞认为,这是长期学术研究与产业基础积累的结果。


她回顾道,早在四年前,一项名为 NeRF(神经辐射场)的研究突破,已为三维视觉建模打开了全新通路。而 NeRF 的提出者,正是现任 World Labs 联合创始人之一 Ben Mildenhall。


而另一位创始人 Christopher 则在高效三维表示方面进行了开创性研究,推动了 volumetric 3D 建模在工业界的回归。


再加上早期将 GAN 技术应用于图像风格迁移的 Justin Johnson,这些零散的研究成果如今得以整合在同一团队之中,围绕一个“北极星级”的目标:构建 AI 的世界模型能力。


Martin 将这一目标归结为两个系统的深度融合:一是 AI 模型、数据与架构本身,二是图形渲染与空间重建的工程体系。能让这样两个世界的专家在一个平台上高效协作,本身就是技术产业的一次重要组织创新。


▍语言模型不是终点,而是序章


李飞飞强调,她对世界模型的信仰并非来自对 LLM 的失望,而是对智能本质的更进一步理解。


她指出,语言是一种“有损压缩”的认知方式,它抽象了世界,却也失去了丰富的物理与感知信息。真正的现实世界,没有单词、语法和文本,只有物理、运动与三维结构。


这种看法也改变了她对 AI 公司应有形态的认知。从斯坦福教授转向创业者,是因为她意识到,要实现对空间智能的建模,仅靠学术研究远远不够——需要工业化的算力投入、系统级的架构调度与顶级跨界人才的协作能力。


而这一切,只有在一家组织化程度极高、全栈工程协同能力突出的公司中,才能真正落地。


▍空间智能应用远超机器人


对大多数人而言,“世界模型”仍是抽象的科研术语。但李飞飞与 Martin 共同指出,它的应用远超自动驾驶与机器人。


创造力,本质上就是视觉性的。工业设计、电影制作、建筑构图,甚至游戏开发,全部依赖于三维构建与操控。而如果 AI 拥有世界模型能力,它不仅能“看懂”三维世界,还能“生成”并“操作”虚拟空间。


Martin 描述道,只需一张桌子的照片,模型就能推断出背后的形态与材质,进而构建完整空间场景。在此基础上,用户甚至可以对空间进行测量、添加、删除或重新设计。这是一种比文字指令更为直觉和自由的人机交互方式,也为设计、创作与模拟实验打开了全新维度。


李飞飞进一步提出,数字空间正带来一个从未有过的变革机会:“人类迄今为止都只活在一个三维物理世界中。但数字世界,将首次让我们进入‘多重宇宙’。”


她列举了几个例子:有的宇宙专为机器人而建,有的宇宙服务于人类创意,有的用于讲述、交流与体验旅行。这些曾只存在于想象中的空间,如今将真正被生成出来,并被机器理解、使用、改造。


▍基础模型下一战,三维全景建模


回到技术本身,李飞飞强调,World Labs 不只是要造一个“会看”的 AI,而是要让 AI 理解世界的三维结构、动力学与组合逻辑。这不只是更难的工程问题,也是一种全新的表示哲学。


她认为,像 DNA 的双螺旋结构、巴基球等科学发现,都是空间智能的结晶。纯靠语言,不可能推导出这类几何构造。而这也是为何世界模型不仅能提升机器的理解能力,更可能为人类的科学与艺术打开新的创作路径。


Martin 总结说,LLM 带来的革命证明了一个事实:当我们找对了数据结构和模型表示方式,AI 的能力提升会呈指数级爆发。现在,他们相信“世界模型”正站在类似的临界点上。


▍理解并构建世界的钥匙


“我们其实正在倒着走进化之路。”Martin 提出这个观点时,整个对话也走到了哲学层面。


语言是人类大脑进化中最晚出现的模块之一,而空间感知系统则自节肢动物以来就存在,至今已有五亿年。今天的 AI,如果只是“学会语言”,并不能真正称之为“理解世界”。而只有构建出类人空间模型,AI 才算真正踏入“具身智能”的大门。


李飞飞以一贯的坚定口吻总结道:“我一直在等这一天。不是因为我不信语言模型,而是我深知:真正的世界,不是文本构成的。”


而世界模型,就是让 AI 真正理解并构建这个世界的钥匙。I/O 到 iO,Jony Ive 将推动一场新的设计运动 —— AI 正在改写计算范式与硬件定义,也是大模型后的新战场


文章来自于“有新Newin”,作者“有新”。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!