在智能体性能评估领域,如何有效地测试其在真实场景中的表现一直是一个亟待解决的问题。尽管市场上已经有多个评估基准试图解决这一问题,但 Meta 的研究人员认为,当前的方法仍然不足以真实地反映智能体的适应能力。因此,Meta 推出了一个新的评估平台 ——Agents Research Environment(ARE)和一个全新的基准模型 Gaia2,以帮助评估智能体在实际应用中的表现。

ARE 的设计初衷是创建一个与现实世界相似的环境,使得智能体能够在其中进行交互。该环境中的任务是异步进行的,时间也在不断推移,智能体必须在这种动态约束下调整和执行其任务。ARE 的核心要素包括状态保持的 API 接口应用、环境集、事件、通知和场景等,用户可以根据自己的需求自定义测试场景。

Gaia2作为 ARE 的重要组成部分,侧重于测评智能体在复杂环境中的能力。与之前的 Gaia1基准不同,Gaia2不再仅仅关注智能体找到答案的能力,而是评估它们在面对不断变化的条件、截止日期、API 故障以及模糊指令时的表现。此外,Gaia2还支持多种协议,如 Agent2Agent,以评估智能体之间的协作能力。

Gaia2的评估过程是异步的,即使智能体处于闲置状态,时间依然在流逝,这使得它能够测量智能体在接收到新事件时的响应能力。通过在移动环境中进行的1120个任务测试,当前的评估显示,OpenAI 的 GPT-5在 Gaia2基准上表现出色,位居领先。

除了 Meta 的 Gaia2,市场上还有其他一些尝试提供真实环境测试的评估平台,比如 Hugging Face 的 Yourbench、Salesforce 的 MCPEval 和 Inclusion AI 的 Inclusion Arena。这些平台各有侧重,但 Gaia2特别关注智能体的适应能力和处理突发事件的能力,为企业提供了另一种评估智能体表现的有效方式。

官方博客:https://ai.meta.com/research/publications/are-scaling-up-agent-environments-and-evaluations/

划重点:

🌟 Meta 推出了新的 Agents Research Environment(ARE)和 Gaia2基准,以提高智能体在真实世界中的适应能力。  

📊 Gaia2着重评估智能体在面对变化条件和不确定性的情况下的表现,与之前的基准相比更具实用性。  

🤖 Gaia2的评估方法异步进行,并测试智能体在收到新事件时的反应能力,当前 OpenAI 的 GPT-5在测试中表现优异。