技术解读 23小时前 79 阅读 0 评论

这家国内公司,在给具身智能技术栈做「通解」

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

机器之心报道

编辑:泽南、杜伟

打通机器人智能化的关键:眼+脑+手。

具身智能(Embodied Intelligence)是 AI 领域里热度极高的赛道:给大模型以物理的躯体,让它能够感知真实世界,这套新范式似乎能让机器人完成各种以前无法想象的复杂任务。

自大语言模型(LLM)技术爆发以来,以具身智能为目标的明星机器人公司不断涌现,新闻头条一个接着一个。不过直到最近还有机器人领域专家表示,我们似乎仍没有看到「机器人领域的 ChatGPT」出现。

具身智能究竟应该会是怎样的形式,我们还没有定论。不过最近的世界人工智能大会 WAIC 2025,已经让这个概念逐渐清晰了起来。

形态、任务模式不受限

真正通用的 AI

今年的 WAIC 大会热闹非常,展区人头攒动,最能吸引人们目光的当然是一台台机器人。值得一提的是,有个展位上似乎集合了最近机器人技术落地的大多数形式。

我们知道一直以来,机器人的铁手都是难以处理柔软物体的。但在这个展台的模拟居家场景中,机器人正在展示叠衣服。

它从判断到做出决策的过程丝滑流畅。在设置好工作范围后,机器人就可以完成一长串连续复杂的动作,把柔软衣服整齐叠好,还会像人类一样铺平几下。

机器人叠衣服,看起来比人还仔细。

有两个五指灵巧手的机器人在表演海量真实生活物品自动识别 + 操作能力。它能阅读人类手写的标签,识别出「小黄人是玩具」、「卡皮巴拉是动物」这样的概念,能准确抓取起物体再正确地进行分门别类。

<video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v6-web.toutiaovod.com/3f011ddfda5960bf19a0d1e0fe61b583/6888bec0/video/tos/cn/tos-cn-ve-e5b010/oIHqQfxfDAyoFxb5uIEqKSIbiBDE6APgklhOlJ/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=2048&bt=2048&cs=0&ds=4&ft=WbaUMqBrffPdOP~-h1jNvAq-antLjrKXJhnCRka1IQBdUjVhWL6&mime_type=video_mp4&qs=0&rc=M2U7NmlpMzg1PDU8PDdpN0BpM2tmcWw5cnVkNTUzNDs6M0BhYS8tMy1jNjQxMC0vNi82YSMtc29iMmRrZjFhLS1kNjBzcw==&btag=80000e00018000&dy_q=1753788561&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=202507291929212CC7D363CC332F103872"></video>
不支持的音频/视频格式 请试试刷新
<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
播放
00:00 / 00:00 直播
00:00
<button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
进入全屏
<button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
50
    点击按住可拖动视频
    <svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20"> </svg>
    <button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>

    双臂机器人在按照手写标签进行分类,视频内容有加速。

    人类使用自然语言列出的各种需求,机器人都可以弄懂并执行。面对这个机器人,你不需要像大模型 Prompt 那样给出绝对清晰的指令,它就可以完成蔬菜、水果的分类收纳,或是区分食肉动物和食草动物。

    <video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v6-web.toutiaovod.com/eba89c97500648dce99a44f46b78f2e6/6888beda/video/tos/cn/tos-cn-ve-e5b010/oQfRDVIsRQaUz0BIUCELm0LIIlGgofTOzAe83M/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=1472&bt=1472&cs=0&ds=4&ft=hGkwBy6LRR0s~0C3TDv2Nc.xBiGNbLpr7-dU_44N3tVJNv7TGW&mime_type=video_mp4&qs=0&rc=NGVnPDg5ZjlpZTozOTZlOEBpM2k4M2w5cnhkNTUzNDs6M0AvNWM2Xi4uXzAxNTYtNC4yYSNmNG0yMmRjZjFhLS1kNmFzcw==&btag=c0000e00020000&dy_q=1753788561&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=20250729192921B7DC39375CD43E00C03E"></video>
    不支持的音频/视频格式 请试试刷新
    <button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播
    <button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
    播放
    00:00 / 00:00 直播
    00:00
    <button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
    进入全屏
    <button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
    50
      点击按住可拖动视频
      <svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20"> </svg>
      <button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>

      如果你再写一个新标签,或是用不同的颜色做为分类标准,机器人也可以把对应类型的物体放置到对应的标记上。它也可以也自行进行加减乘除的计算。

      <video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v3-web.toutiaovod.com/e646b813ee2b196b331e10a9b2357a1b/6888bed2/video/tos/cn/tos-cn-ve-e5b010/oIOF45BPI7hNGmIK4fweIEK2ob0qRDpxiQEgJA/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=1464&bt=1464&cs=0&ds=4&ft=WbaUMqBrffPdOP~-h1jNvAq-antLjrKXJhnCRkax1QBdUjVhWL6&mime_type=video_mp4&qs=0&rc=ZjZpOTY5MzU6ZjQ7Zzw8M0BpM2hyN3I5cjVkNTUzNDs6M0AyMTNiLS5eXjAxMDItM2NhYSNwcmJjMmRrZzFhLS1kNmFzcw==&btag=c0000e00020000&dy_q=1753788561&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=20250729192921FD6341E92D81CA34F7DB"></video>
      不支持的音频/视频格式 请试试刷新
      <button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播
      <button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
      播放
      00:00 / 00:00 直播
      00:00
      <button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
      进入全屏
      <button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
      50
        点击按住可拖动视频
        <svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20"> </svg>
        <button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>

        这是一个工业机器人,面对一盒杂乱的物品,它可以自主决策进行工作,前所未见的也能识别并一个个分拣出来,而且速度极快

        任意物体,机器人都可以快速抓取。

        100% 透明的物体也可以被机器人识别出来并准确拿起。

        这里是一个模拟的商业场景,你在服务台的 iPad 上下单,人形机器人就会自主规划路线,快速从货架取到对应的商品递过来。

        人形机器人便利店。

        在现场,还有很多其他种类的机器人在有条不紊地工作着,我们可以看到,机器人已经可以做到接近人类的理解和推理能力,可以认识和操作海量的真实物体,可以抓取透明物体,也可以完成复杂的柔性任务,而且速度很快,通用性强

        可见,不论是面对工业、商业场景,还是未来贴近于人的家用环境,具身智能都已经做好了准备。

        这些不同形态的机器人背后的技术全都来自同一家厂商 —— 国内科技公司梅卡曼德(Mech-Mind),他们自研的通用机器人「眼脑手」全栈技术产品在 WAIC 上首次得到了全景展示。

        「眼脑手」合一

        才叫具身智能

        WAIC 上展示的一套套机器人应用,搭载了梅卡曼德的通用机器人自研技术栈:Mech-GPT 机器人多模态大模型、Mech-Eye 高精度 3D 相机与 Mech-Hand 仿生五指灵巧手。

        梅卡曼德机器人在 WAIC 2025 大会上。

        他们展示的机器人都有机器人的「眼睛」有高精度 3D 视觉摄像头,信息传输给多模态大模型进行处理,整个系统就可以像人一样理解现实世界,自动进行任务规划,配合高灵活度的五指灵巧手,就可以实现多种操作。

        梅卡曼德的灵巧手 Mech-Hand 凭借灵活紧凑的硬件设计和先进的算法,能够灵活操作各类物体。

        梅卡曼德所做的,相当于把具身智能的核心技术和关键能力做好,至于你想要以怎样的形式落地,根据实际使用情况,可以搭配人形等多种形态的机器人,方便灵活且实用。

        在现场,我们还能看到机器人背后的服务器。基于大模型 Scaling Laws「算力投入越多,智力越高」的定律,今天的机器人已经展现出了极高的灵活性,具备了和人类协同工作的能力。

        Mech-Eye 3D 相机可以生成结构完整、细节清晰的 3D 点云数据。

        梅卡曼德的工程师表示,机器人现在也可以理解一些人类之间对话背后的意义,例如你对它说「我饿了」,机器人就会把桌上的零食拿给你。看起来,它们已经具备了一些人类的基本常识。

        与大家经常接触到的大模型应用不同,机器人需要面对真实世界这个最复杂的环境,因此发展出了多种不同的形态:有些机器人更擅长运动,而有些更擅长物体操控;有些机器人用于工业用途,有些则用于家务。在未来的制造和物流等行业,人形机器人很可能不是最主流的形态。

        但这并不意味着机器人的核心技术,要为各种不同任务进行完全定制化。例如从工业场景来看,不论是装配、切割还是焊接,机器人所做的事情都存在共性:识别物体的种类,判断状态,进行精确定位,然后引导机器人完成相应的动作。

        对于具身智能来说,跨实体化不仅仅是一项研究上的创新,也是通用大脑的一项基本特性。

        为了构建通用化的具身智能,梅卡曼德专注于构建基础能力,其提供的技术能力和各种不同形态机器人(单臂、双臂、人形等)搭配,具有自我感知、规划和决策能力,可执行多种类型的任务,覆盖大量实际应用场景。

        经过实践,这套标准化的 AI 大脑 + 3D 视觉 + 灵巧手产品组件,可以让机器人具备更高阶智能,具备类人的理解和推理能力,可快速理解自然语言指令,高效、精细地执行复杂任务。丰富数据和 AI 算法,可以让机器人认识更多常见物体。

        自 2016 年成立起,梅卡曼德一直坚持产品化的道路,不断升级迭代技术,高精度 3D 相机、AI 算法软件等产品组件均高度标准化且开放,提供通用标准接口,可以适配几十个品牌、上千个不同的机器人型号。对于其客户来说,可以通过一些主流的方式直接将产品与工业现场的系统快速打通配合。

        梅卡曼德的工程师表示,他们目标就是让机器人能「真的把事情办好」。

        具身智能的未来

        还有更多应用场景

        最近,Grok-4、Kimi K2、Step-3 等大模型在 AI 领域掀起了又一轮技术进步潮流,人们对于通用化的人工智能充满了信心。在同样前沿且热门的机器人领域,人们也已迫不及待。就在 7 月,美团和京东接连出手,投资了多家具身智能公司,科技巨头正在零售、物流、服务等领域持续探索新技术落地。

        从更宏观的角度看,面对从业者人数动辄上亿的制造业、服务业等行业,在全球范围内,目前至少还是每几百个人能对应一台机器人,智能化程度不足是最主要的瓶颈。

        但我们还不知道哪家公司提出的技术会成为「机器人领域的 ChatGPT」—— 一方面,基于大模型的新一代人工智能技术让通用化任务的机器人有了方向;另一方面,从技术展示到大规模落地,仍存在很多挑战。与自动驾驶类似,机器人行业的发展需要大量产业链条的重塑,从零开始构建客户场景。

        正如梅卡曼德 CEO 邵天兰所言,这个方向不仅门槛高,难度也大。但一路走来,这家公司已经率先实现了跨行业、多场景、全球化的大规模落地。在不断变化大趋势下,梅卡曼德持续在 AI 等前沿技术方向进展突破,专注于通用机器人「眼脑手」三项基础能力,希望通过标准化产品适配广泛的硬件形态,推动机器人在各行业的落地。

        成立八年来,梅卡曼德「AI 大脑 + 3D 视觉」赋能下的机器人产品已被应用至物流、汽车、家电等多个应用场景,规模化应用的典型场景包括工件上下料、纸箱 / 周转箱 / 膜包拆码垛、高精度定位 / 装配、缺陷检测、高精度测量、焊接等。

        据介绍,目前梅卡曼德「AI 智慧大脑 + 3D 视觉之眼」的解决方案在全球的落地数量已经超过 15000 台,过去五年在国内细分领域市场的占有率一直位列第一,预计在今年一年内的落地数量会突破 1 万

        事实上,梅卡曼德是全球首个在制造和物流行业实现大规模制造、大规模智能机器人应用的公司,是全球「AI + 机器人」领域规模最大的独角兽企业。

        通过一系列自主研发的 AI 核心技术,梅卡曼德希望能够帮助机器人实现更好的理解、推理和学习能力,和更好地处理复杂任务、操作海量物体等关键能力,更具通用性和实用性,推动机器人从工业场景向更广泛的应用领域迈进。面对具身智能的未来发展大方向,家用和服务领域拓展也在进行中。

        也许很快,具身智能加持的机器人就会成为人人可用的智能「帮手」。

        文中视频链接:https://mp.weixin.qq.com/s/2yZ_gpcypvN69kZ-pooaig

        作者头像

        AI前线

        专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

        246篇文章 1.2M阅读 56.3k粉丝

        评论 (128)

        用户头像

        AI爱好者

        2小时前

        这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

        用户头像

        开发者小明

        昨天

        有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

        作者头像

        AI前线 作者

        12小时前

        我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

        用户头像

        科技观察家

        3天前

        GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!