
312条轨迹助力241%性能提升,上交大与SII开源电脑智能体引领新潮流
在电脑智能体(Computer Use Agent)领域,最近有一个激动人心的进展。上海交通大学与 SII 的研究团队,借助仅312条人类标注的操作轨迹,成功训练出了名为 PC Agent-E 的新一代开源电脑智能体,其性能提升高达241%,超越了著名的 Claude3.7Sonnet,成为 Windows 系统上的新一代最优模型。自从 Anthropic 推出 Claude Computer U
在电脑智能体(Computer Use Agent)领域,最近有一个激动人心的进展。上海交通大学与 SII 的研究团队,借助仅312条人类标注的操作轨迹,成功训练出了名为 PC Agent-E 的新一代开源电脑智能体,其性能提升高达241%,超越了著名的 Claude3.7Sonnet,成为 Windows 系统上的新一代最优模型。
自从 Anthropic 推出 Claude Computer Use 以来,电脑智能体的发展一直备受关注。OpenAI 也相继发布了 Operator,通过强化学习技术提升电脑智能体的能力。然而,业界普遍认为,要想达到这样的水平,需要大量的轨迹数据和复杂的强化学习算法。面对这种观点,上海交通大学和 SII 的团队用实际成果反驳了这一说法:只需少量的高质量数据,便能激发智能体的潜力。
这项研究的关键在于如何有效利用人类的操作轨迹。研究团队仅用了两名研究者一天的时间,通过开发的工具 PC Tracker,收集到了312条真实的操作轨迹。这些轨迹包含任务描述、屏幕截图以及详细的键盘和鼠标操作记录,确保了数据的准确性。在这之后,研究团队还为这些轨迹进行了 “思维链补全”,即为每个动作提供了背后的思考过程,使得数据更加完整。
为了进一步提升模型的性能,团队引入了 “轨迹增强” 技术。通过使用 Claude3.7Sonnet,研究人员为每一步的操作合成了多个合理的动作决策,这样不仅增加了轨迹数据的多样性,也显著提高了训练的效率。最终,PC Agent-E 在 WindowsAgentArena-V2的测试中表现出色,超越了 Claude3.7Sonnet 的 “extended thinking” 模式。
这项研究的成果显示,使用少量高质量的数据即可实现强大的智能体训练,不再需要海量的标注数据。这为未来更智能的数字代理的发展指明了方向,团队也认为,通过提高轨迹数据的质量,可以有效降低数据需求,推动智能体的自主性提升。
论文地址:https://arxiv.org/abs/2505.13909
代码地址:https://github.com/GAIR-NLP/PC-Agent-E
模型地址:https://huggingface.co/henryhe0123/PC-Agent-E
数据地址:https://huggingface.co/datasets/henryhe0123/PC-Agent-E