开源项目 1月前 95 阅读 0 评论

阿里达摩院开源具身智能三件套!RCP协议首解机器人开发碎片化难题

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

智东西

作者 | 李水青

编辑 | 云鹏

智东西8月11日报道,在世界机器人大会上,阿里达摩院宣布开源其自研的 VLA(视觉-语言-动作) 模型RynnVLA-001-7B、世界理解模型RynnEC、以及机器人上下文协议RynnRCP,推动数据、模型和机器人的兼容适配,打通具身智能开发全流程。

达摩院将MCP(模型上下文协议)理念引入具身智能,首次提出并开源RCP(Robotics Context Protocol)协议,推出一套完整的机器人服务协议和框架RynnRCP。它类似于一个“万能连接器”,能够打通从传感器数据采集、模型推理到机器人动作执行的完整工作流,目前已支持Pi0、GR00T N1.5等多款热门模型以及SO-100、SO-101等多种机械臂。

RynnRCP是一套完整的机器人服务协议和框架,主要由两个模块组成:RCP框架和RobotMotion

RCP目前实现的主要功能包括:提供机器人本体及相关传感器能力的抽象,对外提供各种功能,并通过标准协议、不同的传输层和模型服务进行交互;RobotMotion作为云端推理与机器人本体控制之间的桥梁,将离散的低频推理命令实时转换为高频的连续控制信号,驱动机器人完成运动任务。此外,它还配备了运动规划与控制所需的工具包,助力具身智能融入物理世界。

机器人上下文协议RynnRCP开源页面截图

开源地址:
https://github.com/alibaba-damo-academy/RynnRCP

RynnVLA-001是达摩院自研的基于视频生成和人体轨迹预训练的视觉-语言-动作模型,能够从第一人称视角的视频中学习人类的操作技能,隐式迁移到机器人手臂的操控上。

如下面动图所示,当研发人员告诉机械臂把草莓放到手掌上,机械臂能够理解语言的意思,随后在一些物品中识别出草莓,拿起并放到正确的位置。

RynnVLA-001演示

研发人员在同一数据集上对基线进行了微调,以评估其性能。对比结果如下图所示,RynnVLA-001在多项具体的捡拾物品放置测评中都取得了最高分成绩。

RynnVLA-001测评结果

研发团队提供了如何使用开发者自己的LeRobot数据(第 2 阶段和第 3 阶段)对模型进行微调的说明,后续还将发布如何从零开始训练模型的说明。

VLA模型RynnVLA-001开源页面截图

开源地址:
https://github.com/alibaba-damo-academy/RynnVLA-001

世界理解模型RynnEC将多模态大语言模型引入具身世界,赋予了大模型理解物理世界的能力。该模型能够从位置、功能、数量等11个维度全面解析场景中的物体,并在复杂的室内环境中精准定位和分割目标物体,建立连续的空间感知并支持灵活交互。

RynnEC是一种专为具身认知任务设计的视频多模态大型语言模型(MLLM),如下图所示,能够对现实世界中几乎无限的事物进行识别和认知分析。本次,达摩院推出了RynnEC-2B 模型、RynnEC-Bench和训练代码

RynnEC演示

如下图所示,RynnEC-2B在Direct Seg(直接分割)、Situational Seg(情境分割)、Material(材料)、State(状态)、Surface(表面)等对象认知测试中超越了Gemini-2.5-Pro、Qwen2.5-VL-72B等顶尖模型,并在空间认知测试中大幅超越了这些模型。

RynnEC-2B测评结果

聚焦RynnEC-Bench基准,其在两个关键领域对模型进行评估:object cognition(对象认知)和spatial cognition(空间认知),评估总体22体现的认知能力。

世界理解模型RynnEC开源页面截图

开源地址:
https://github.com/alibaba-damo-academy/RynnEC

结语:打通机器人从感知到执行的完整链路

达摩院此次开源的“三件套”——贯通硬件的RynnRCP协议、拟人化操控的RynnVLA模型与理解物理世界的RynnEC模型,如同为具身智能开发者提供了一套“乐高式工具包”。

它们通过标准化连接、拟人化控制与空间认知三大突破,打通了机器人从感知到执行的完整链路,有望在之后迭代的过程中大幅降低开发门槛,加速具身智能在工业、家庭等场景的规模化落地,让机器人真正“看得懂世界,动得像人类”。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!