机器人衣物折叠新范式，NUS邵林团队用MetaFold解耦轨迹与动作

本文的共同第一作者为新加坡国立大学博士生陈浩楠，南京大学研究助理 / 本科生李骏骁和北京大学博士吴睿海。合作者为刘益伟、侯懿文、徐志轩、郭京翔、高崇凯、卫振宇、许申思、黄嘉祺。通讯作者为新加坡国立大学计算机学院助理教授邵林，研究方向为机器人和人工智能。

机器人对可形变物体的操作（Deformable Object Manipulation, DOM），是衡量通用机器人智能水平的关键指标之一。与刚体操作不同，衣物、绳索、食物等物体的形态不固定，其状态空间维度极高，且物理交互过程呈现出复杂的非线性动力学特性，为感知、规划和控制带来了巨大挑战。

传统的服装折叠方法往往依赖于预定义的关键点或演示数据 [1, 2]，这严重限制了它们在不同服装类别间的泛化能力。现有研究大多采用基于规则的启发式方法或依赖人工演示的学习方式，这些方法在面对多样化的服装类型和用户指令时表现出明显的局限性。

近年来，随着基础模型在计算机视觉和自然语言处理领域的巨大成功，研究者们开始探索将这些先进技术应用于机器人操作任务 [3]。视觉和语言引导的机器人操作已成为当前研究的热点，它能够让机器人理解自然语言指令并执行相应的操作任务。然而，在可变形物体操作，特别是服装折叠任务中，如何有效结合视觉和语言指导与物理操作仍然是一个亟待解决的问题。

在此背景下，MetaFold 旨在填补现有研究的空白：创建一个既能理解人类语言的丰富内涵和场景的视觉信息，又能精准、泛化地操作多类别衣物的、具有良好解释性的机器人框架。

目前，该论文已被机器人领域顶级会议 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025) 接收。

论文标题：MetaFold: Language-Guided Multi-Category Garment Folding Framework via Trajectory Generation and Foundation Model
论文链接：https://arxiv.org/abs/2503.08372
项目主页：https://meta-fold.github.io/

MetaFold：基于轨迹生成和动作预测的分层架构

MetaFold 采用了一种创新的分层架构设计，将复杂的服装折叠任务分解为两个相对独立的子问题：任务规划（task planning）和动作预测（action prediction）。这种分离式设计受到人类神经系统结构的启发 —— 大脑负责高级任务理解和物体识别，而脊髓和外周神经系统管理手部运动和抓取动作。

该框架的核心思想是通过语言引导的点云轨迹生成来处理任务规划，同时使用低级基础模型来进行动作预测。这种模块化设计不仅简化了训练过程，还显著提高了模型在不同服装类别间的泛化能力。

Fig. 1 MetaFold 框架

数据集生成与标注

由于当前衣物折叠数据稀缺，研究团队首先构建了一个包含 1210 个服装和 3376 条轨迹的大规模数据集。该数据集基于 ClothesNet [4] 提供的服装模型，使用 DiffClothAI [5] 可微分仿真器生成高质量的点云轨迹数据。

对于不同种类的衣物，研究团队首先使用启发式的方法生成折叠轨迹，并记录每时刻的衣物网格。从连续帧的衣物网格中，可以提取出衣物的点云轨迹。研究团队对这些衣物的折叠轨迹进行筛选，将失败的折叠轨迹去除，构建了一个成功折叠的衣物折叠数据集。

数据集涵盖了四种主要的折叠类型：（1）无袖折叠（包括连衣裙、裙子和无袖上衣）（2）短袖折叠（3）长袖折叠（4）裤子折叠。每个轨迹都配有相应的自然语言描述，用于指导折叠过程。

数据集已经在 huggingface 上开源：

开源地址：https://huggingface.co/datasets/chenhn02/MetaFold

轨迹生成模型

轨迹生成模型的核心是一个基于注意力机制的跨模态融合模型。它首先通过独立的编码器分别提取点云的几何特征和语言指令的语义特征，然后利用交叉注意力机制来深度融合这两种模态的信息，从而理解指令在特定几何形态上的具体意图。

该模型的输出并非直接的机器人动作，而是衣物形态在未来的一系列几何快照。这种以点云轨迹作为中间表征的设计是 MetaFold 的关键创新之一，其优势在于：

解耦与抽象：它将「任务目标」的几何定义从「如何实现该目标」的物理动作中剥离出来，显著降低了学习的复杂性。
提升泛化性：无论是 T 恤还是连衣裙，「对折」这一动作在几何形态上的变化具有共性。学习这种视觉 / 语言 - 几何的映射，比学习视觉 / 语言 - 具体动作的映射更具泛化潜力。
可解释性：生成的可视化点云轨迹为人类提供了一个直观的窗口，以理解和验证机器人的「任务规划」是否符合预期。

轨迹生成模型基于条件变分自编码器（CVAE）构建，其编码器和解码器均采用 Transformer 编码器架构。该模型接收点云观察和语言描述，生成点云轨迹。模型使用 PointNet++ 提取点云空间信息，得到点云特征。同时，LLaMA 模型处理语言描述的语义信息，经过降维后得到语言特征。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

底层操作策略

ManiFoundation [6] 模型将操作任务形式化为接触合成问题。接收两个连续点云状态，模型将输出从上一个点云状态转移到下一个点云状态所需要的动作。这个动作将以接触合成的形式表示，即若干个接触点和对应的运动方向。

为减轻随机种子对预测结果的影响，系统采用模型集成方法，使用 160 个不同随机种子生成多个预测结果。当两个预测结果之间的距离小于阈值时，将它们归为同一组，最终选择排名最高的组内平均位置最近的点及其对应力作为输出。

系统实施闭环反馈控制策略，在机器人执行动作后重新获取服装状态，将当前点云输入轨迹生成模型产生后续轨迹。这种设计使框架能够适应环境扰动和变化，确保操作的鲁棒性和精确性。

实验结果与深度分析

数据集与评估指标

实验在 Isaac Sim 仿真环境中进行，相比传统的 PyFleX 仿真环境，该环境能够提供更准确的服装内力仿真和更低的网格穿透发生率。为了能同时衡量多种衣物的折叠效果，研究团队采用三个关键评估指标：

矩形度（Rectangularity）：折叠后服装面积与其边界矩形的比值，评估折叠质量。
面积比（Area Ratio）：折叠后与初始服装面积的比值，指示折叠紧密程度。
成功率（Success Rate）：矩形度超过阈值且面积比低于阈值的样本比例。

性能对比分析

MetaFold 在多项指标上显著优于现有方法。

在矩形度上，MetaFold 保持 0.80-0.87 的高水平。
在面积比指标上，MetaFold 实现 0.24-0.45，优于基线方法。
在成功率指标上，MetaFold 达到 79%-97%，显著超过 UniGarmentManip [9] 的 42%-91% 和 GPT-Fabric [3] 的 3%-63%

在未见过的 CLOTH3D [7] 数据集上，MetaFold 仍然达到 79%-97% 的成功率，证明了其强大的跨数据集泛化能力。

在语言指导的实验中，MetaFold 与基线比较了已见指令与未见指令的泛化能力。结果表明，MetaFold 在处理不同类型语言指令方面表现出色。除此之外，系统能够处理复杂的用户指令，如指定折叠顺序（「先左后右」）等，即使这些顺序在训练数据中未出现过，模型仍能正确理解和执行。

真实环境验证

研究团队使用 uFactory xArm6 机器人配备 xArm Gripper 和俯视 RealSense D435 相机进行真实环境实验。通过 SAM2 [8] 分割 RGB 图像生成服装掩码，结合深度数据提取真实服装点云。相比于 RGB 图片，点云模态有更小的模拟与实际差距 (sim-to-real gap)，使其能够直接迁移到真实环境，而无需另外训练。

真实环境实验证实了 MetaFold 从仿真到现实的有效迁移能力，成功完成了多种服装的折叠任务，验证了框架的实用性和鲁棒性。

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

结论和展望

本研究成功地提出并验证了一个名为 MetaFold 的、用于机器人多类别衣物折叠的语言引导框架。其核心贡献在于：

提出了一种创新的解耦架构，将任务规划与动作生成分离，有效提升了系统的性能、泛化性和可解释性。
引入点云轨迹作为中间表征，为连接高级语义与底层控制提供了一种高效的桥梁。
构建并开源了大规模多类别服装折叠点云轨迹数据集，为后续研究提供了宝贵资源。

参考文献

[1] Canberk, Alper, et al. "Cloth Funnels: Canonicalized-Alignment for Multi-Purpose Garment Manipulation." 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.

[2] Ganapathi, Aditya, et al. "Learning dense visual correspondences in simulation to smooth and fold real fabrics." 2021 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2021.

[3] Raval, Vedant, et al. "GPT-Fabric: Folding and Smoothing Fabric by Leveraging Pre-Trained Foundation Models." CoRR (2024).

[4] Zhou, Bingyang, et al. "Clothesnet: An information-rich 3d garment model repository with simulated clothes environment." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[5] Yu, Xinyuan, et al. "Diffclothai: Differentiable cloth simulation with intersection-free frictional contact and differentiable two-way coupling with articulated rigid bodies." 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2023.

[6] Xu, Zhixuan, et al. "Manifoundation model for general-purpose robotic manipulation of contact synthesis with arbitrary objects and robots." 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2024.

[7] Bertiche, Hugo, Meysam Madadi, and Sergio Escalera. "Cloth3d: clothed 3d humans." European Conference on Computer Vision. Cham: Springer International Publishing, 2020.

[8] Ravi, Nikhila, et al. "Sam 2: Segment anything in images and videos." arXiv preprint arXiv:2408.00714 (2024).

[9] Wu, Ruihai, et al. "Unigarmentmanip: A unified framework for category-level garment manipulation via dense visual correspondence." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.