机器人自主探索未知复杂空间？GLEAM破解主动探索建图的泛化难题

本文一作为陈骁，香港中文大学 MMLab - 上海人工智能实验室具身智能中心联培博士生，研究方向是三维计算机视觉和具身智能，导师为薛天帆教授。个人主页：xiao-chen.tech/。

研究背景

当人类走入陌生房间时，会通过移动和观察来掌握室内结构。想象机器人被扔进一个陌生场景：有的房间堆满障碍，有的走廊九曲十八弯，它能像人类一样主动探索未知空间吗？

尽管计算机视觉已赋予机器人强大的被动技能，比如按预设拍摄轨迹实现同步定位建图（SLAM），可一旦剥离所有提示，机器人却可能沦为 “路痴”——

“门在哪？”“怎么绕过障碍物？”
“哪片区域还没有探索过？”
“目标最可能出现在哪片区域？”

“主动探索” 这一智能基石，何以成为技术盲区？

经典方案往往依赖人工预设的轨迹、视角与指令，而现有探索策略在陌生复杂场景中频频失效：机器人既可能在废墟救援时因全局规划缺失而卡死墙角，又容易在障碍密集的客厅中反复碰撞进退维谷。当机器人在此类复杂环境下运转时，感知 - 决策 - 行动闭环如何挣脱被动依赖桎梏？这正是下一代机器人跨越 “智能鸿沟” 的核心挑战。

如何让机器人在完全未知的复杂房间里自主探索？

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

针对移动机器人在复杂未知环境中 “探索 - 建图” 的泛化难题，香港中文大学与上海人工智能实验室联合提出系统性解决方案：研究者们搭建了全球规模最大的 “探索 - 建图” 基准 GLEAM-Bench—— 该数据集涵盖上千个室内场景，并在此基础上设计了通用可泛化的 “探索 - 建图” 策略GLEAM。该策略使机器人在完全陌生的复杂室内环境中首次实现了高效安全的探索和精准建图，实现零样本适配未知复杂空间，无需微调即达66.5% 平均场景覆盖率。得益于大规模训练架构，GLEAM 较现有技术提升 9.49%。

论文标题：GLEAM: Learning Generalizable Exploration Policy for Active Mapping in Complex 3D Indoor Scenes
项目主页： https://xiao-chen.tech/gleam
代码：https://github.com/zjwzcx/GLEAM
论文：https://arxiv.org/abs/2505.20294

方法效果

基线方法往往只能在空旷的单一场景内探索，一旦面对家具等障碍物密集的多房间布局，难以保证跨房间探索的安全性和高效性。

相比之下，GLEAM 在来自三个室内场景数据集的未知场景上展现了优越的泛化能力。更为重要的是，GLEAM 首次体现了无需在新数据集上微调模型的零样本泛化能力 —— 它能够直接适配到全新的真实场景数据集（如 Matterport3D），而之前的方法通常局限于单一数据集或需要针对特定场景进行参数调整。