AI热点 2小时前 77 阅读 0 评论

谷歌重塑物理 AI 智能体:赋予机器人“大脑和身体”,让其学会“先思考,后行动”

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

IT之家 9 月 26 日消息,谷歌 DeepMind 团队昨日(9 月 25 日)发布博文,宣布推出 Gemini Robotics 1.5 与 Gemini Robotics-ER 1.5 两款专为物理世界设计的 AI 新模型,旨在打造能够感知、规划、思考并行动的物理智能体。

IT之家援引博文介绍,这两款模型协同工作,致力于让通用型机器人能够更高效地解决现实世界中的复杂多步任务,新系统采用了一种创新的“大脑-身体”协作框架。

其中,Gemini Robotics-ER 1.5 模型扮演着“高层大脑”的角色,它精通物理环境中的规划与决策,拥有业界领先的空间理解能力。

例如,当机器人被要求“根据我所在地的规定,将这些物品分类到正确的垃圾箱”时,ER 1.5 会主动上网搜索本地垃圾分类指南,然后制定详细的执行计划。

随后,“大脑”会将计划分解为一步步的自然语言指令,传递给扮演“身体”角色的 Gemini Robotics 1.5 模型。

这是一个视觉-语言-行动(VLA)模型,它负责接收指令,并将其直接转化为机器人的具体运动指令。这一流程不仅实现了高效分工,还让机器人的行动逻辑更加清晰。

Gemini Robotics 1.5 的一项核心突破是具备“先思考后行动”的能力。在执行任务前,它能以自然语言生成一套内部推理与分析序列,从而更好地理解任务的深层语义。

例如,在执行“按颜色对衣物分类”任务时,模型会先思考“白色衣服放入白桶,其他颜色放入黑桶”,然后再规划“拿起红色毛衣放入黑桶”的具体步骤。这种能力不仅提升了任务成功率,还让其决策过程更加透明,机器人甚至能解释自己的行为逻辑。

Gemini Robotics 1.5 展现了卓越的跨机器人形态学习能力。传统上,为一个机器人学习的动作很难直接迁移到另一个形态不同的机器人上。

而新模型打破了这一限制,它将在某个机器人(如 ALOHA 2)上学到的技能,成功迁移至外形和自由度完全不同的机器人(如 Apollo 人形机器人和 Franka 双臂机器人)上,无需针对新型号进行专门训练,从而极大地加速了新技能的学习和部署。

谷歌强调,在发展 embodied AI(具身人工智能)潜力的同时,公司正积极构建新的安全与对齐方法。Gemini Robotics 1.5 实施了一套整体安全策略,包括行动前思考安全、遵循现有安全政策以及在必要时触发机器人内置的低级安全子系统。

Gemini Robotics-ER 1.5 目前已通过 Gemini API 向开发者开放,而 Gemini Robotics 1.5 则提供给部分合作伙伴使用。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!