AI热点 3小时前 90 阅读 0 评论

UC伯克利大牛预警:留给人类能干的活,只剩5年了

作者头像
新智元

AI技术专栏作家 | 发布了 246 篇文章

五年倒计时已经开始。UC伯克利大牛Sergey Levine直言:机器人很快就会进入真实世界,接手的不只是厨房与客厅,还可能是工厂、仓储,甚至数据中心建设。真正的革命,是「自我进化飞轮」一旦启动,就不会停下。

折衣、做饭、拖地,五年后可能都不用你亲自动手!

UC伯克利教授、机器人顶级专家Sergey Levine预言:2030年前,机器人就能像家政阿姨一样,独立打理整个家庭。

这不是炫技演示,而是「自我进化飞轮」即将启动的信号。

家务只是开始,更大的震荡是——蓝领经济、制造业、甚至数据中心建设,都将在机器人潮水中被改写。

五年倒计时:飞轮何时真正启动

当Sergey Levine在播客中说出「中位数5年」这个预测片时,很多人会觉得这是科幻。

但这并非信口开河,而是建立在近年Robot Foundation Models+真实部署+实操反馈不断累积的基础上。

与此同时,Physical Intelligence的π0.5模型已经在未见过的家居环境中,让机器人完成「清理厨房或卧室」这样复杂且延展性的家务。

π (0.5) 配方中协同训练任务的插图,包括来自多种不同机器人类型的各种机器人数据源,以及包含高级子任务指令、指令和来自网络的多模态数据。

这些进展与演示型视频不同,它们是清晰可见的实战能力——比如机器人从洗衣篮里取衣、收拾满是杯盘的餐桌、叠衣服、搭箱子这些动作,都是由模组模型+视觉语言-动作网络实现的。

Levine也强调:

真正标志这个飞轮启动的,不在于你造出一台看起来厉害的机器人,而是机器人在真实家庭中 能把一项被人愿意付费做的任务做好。

一旦这个跨过这个门槛,每次实操都会带来数据,每次反馈都推动改进,飞轮才真正开始转动。

而且这并非遥远的想象。

UC Berkeley的研究团队近期展示,机器人能在一两个小时的真实操作中学会组装主板、甚至完成IKEA家具拼装。

虽然效率仍需提升,但这意味着「学会做事」的机制已经在现实里运作。

自动驾驶难产,机器人却要加速落地

很多人一听「家务机器人」,第一反应是:连自动驾驶都还没普及,机器人怎么可能更快?但Sergey Levine却认为——机器人可能落地更快。

原因在于「出错-纠正-学习」的循环。

在家里叠衣服、收拾碗筷、做饭时,机器人即使出错了,大多也能被迅速纠正,并从中学到经验;

而在道路上开车则完全不同,一次错误可能就是灾难。

这意味着家庭场景里的机器人能够更频繁、更安全地积累数据和反馈,学习速度自然更快。

另一个优势是常识与直觉感知

在家务环境中,机器人面对的虽然是杂乱、遮挡和各种物品,但整体还是可控的。

相比之下,自动驾驶要处理高速运动、复杂交通、突发状况,且每个决策都关乎公共安全,门槛更高。

麻省理工学院研究者在今年的评论中所说:

如果在机器人感知中加入推理与常识,它们能在现实世界发挥的作用会远超我们的想象。

Levine特别强调,真正的关键不是造出万能机器人,而是让它在现实中把某件人们愿意付费的事做得足够好。

一旦跨过这个门槛,它就能开始上岗,在上岗中不断改进,进而扩展到更多任务。

这也是他认为「机器人飞轮」可能比自动驾驶更早启动的根本原因。

技术突破并不只体现在更快的落地节奏,还来自底层模型的重构。

技术底座:VLA模型与涌现能力

让机器人从演示走向真实家庭任务,靠的不是一两条硬编码指令,而是新的底层架构——VLA模型

Sergey Levine在播客里提出了VLA——视觉(Vision)、语言(Language)、动作(Action)模型的概念。

视觉模块像眼睛一样捕捉环境,语言模块理解指令并规划步骤,而动作解码器则像「运动皮层」,把抽象计划转化为连续、精准的操作。

与大语言模型只需生成离散文字不同,机器人需要处理连续动作。

Levine透露,他们采用了流匹配扩散等方法来实现高频率的精细控制。

这些技术让机器人不仅能执行「叠一件衣服」这样的单次任务,更能连续完成复杂动作序列。

更令人惊讶的是,随着规模扩大,机器人展现出涌现能力。

在一次实验中,它误拿起两件衣服,先尝试折叠第一件,发现另一件碍事,就会主动把多余的衣物放回篮子,再继续折叠手里的那件。

当购物袋意外倒下时,它也会「自发」地把袋子扶正。这些细节并没有写进训练数据,却在真实操作中自然出现。

类似的现象在斯坦福的Vocal Sandbox项目中也出现过。

研究人员发现,机器人在打包礼物袋的任务中,可以把「拿起玩具车」「移动到礼物袋」「放下」这些低层动作拼接起来,完成一个全新的复合任务。

这说明当视觉、语言、动作三者真正协同时,机器人能把已有的技能像乐高一样组合,去应对复杂场景。

这就是VLA的意义:它不仅是一种架构,更是一条通向「具身智能」的大道。

机器人因此不再是机械臂,而是能逐步积累经验、学会适应的「学习型助手」。

从家务到产业:扩张与经济冲击

家务只是起点,接下来是仓储、工厂、数据中心等场景。

Levine在播客里提到过一个逻辑:

能做好一杯咖啡,就能朝着开一家咖啡店迈进。

这不只是比喻,而是他的能力扩张路径:先能把某件真实任务做得让人满意,之后步骤会越来越多、越来越复杂,而部署也越来越大。

经济路径也很清晰。机器人先「与人搭档」,在重复性体力活、常规操作中替代人工,这样人类可以把更多精力放在应急判断和创造性任务上。

在过去30年里,机器人的成本降低了50%以上

McKinsey在「自动化与美国制造业的人才挑战」报告里就指出,那些例行性、重复性活动最容易被自动化,而一旦这类环节被自动化替代,效率和良品率往往会出现显著提升。

多个行业被改造,机器人进「制造 / 仓储 /装配」等领域。

硬件成本在下降,算法也越来越精准。

过去一台研究级机器人可能成本极高,而当硬件批量生产、材料和组件标准化后,再配合视觉-语言-动作模型的算法,机器人的「可用性」成本被拉低。

家用场景的门槛变低,也让更多初创团队或中小企业能够参与部署,进而形成规模效应。

当这些因素叠加,经济冲击将会是显著的。

一方面是对企业成本和生产率的释放;另一方面,是对劳动市场、价值链乃至社会结构的重新塑造。

仓储、包装、设备巡检这些原本需要大量人工的岗位,最有可能成为第一批被机器人广泛取代的场景。

当机器人真正走进家庭、工厂、工地,我们面临的不只是效率提升,更是社会结构的深度调整。

短期内,人与机器的搭档模式会带来巨大红利;长期看,全面自动化可能重塑劳动、教育与财富分配的格局。

正如Sergey Levine所说,

真正重要的不是某个年份的终点,而是飞轮何时开始转动。

一旦起步,速度将远超我们的直觉。

接下来的五年,可能就是决定未来几十年格局的窗口期。

参考资料:

https://www.dwarkesh.com/p/sergey-levine

本文来自微信公众号“新智元”,作者:倾倾,36氪经授权发布。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!