AI新词:Visual-ARFT

视觉语言模型新突破!Visual ARFT 助力多模态智能体能力

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。近日,来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT(视觉智能体强化微调)的新方法,旨在提升视觉语言模型的多模态智能体能力,使其能够更灵活地执行复杂任务。V