AI热点 1周前 181 阅读 0 评论

美团 LongCat 团队发布 Agent 评测基准“VitaBench”,号称“高度贴近真实生活场景”

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

IT之家 10 月 20 日消息,美团 LongCat 团队今日正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准 ——VitaBench。

IT之家从官方介绍获悉,VitaBench 以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含 66 个工具的交互式评测环境,并进行了跨场景的综合任务设计。例如,在旅游规划任务中,要求智能体通过思考、调用工具和用户交互,完整执行从买好票到订好餐厅的终端状态。

该团队首次基于深度推理、工具使用与用户交互三大维度对智能体任务进行了量化拆解,以可控地构建复杂问题。团队发现,即便是当前领先的推理模型,在主榜(复杂跨场景任务)中的成功率也仅有 30%,揭示了现有智能体与复杂真实生活场景应用需求之间的显著差距。VitaBench 现已全面开源,旨在为推进智能体在真实生活场景中的研发与应用提供重要基础设施。

随着大语言模型在复杂推理与工具调用能力上的快速进步,基于 LLM 的智能体在真实生活场景中的应用日益广泛。然而,现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距,主要体现在:工具生态简单化、信息密度不足、模型探索性受限、交互动态性缺失。

通过对美团生活服务场景的深入分析,LongCat 团队指出:真实世界的任务复杂性,源于三大维度的交织 ——

  • 推理复杂性:需整合多源信息、自主推理规划任务完成路径;

  • 工具复杂性:需在高度互联的工具图中理解领域特征,精确调用目标工具;

  • 交互复杂性:需在多轮对话中主动澄清、追踪意图、适应多样化的用户行为并给予反馈。

为系统衡量这三重挑战下的模型表现,团队构建了 VitaBench,一个依托“生活服务”场景、高度仿真的综合性 Agent 评测基准。VitaBench 的评测榜单未来将长期维护更新,现已全面开源

项目主页:https://vitabench.github.io

论文链接:https://arxiv.org/ abs / 2509.26490

代码仓库:https://github.com/ meituan-longcat / vitabench

数据集:https://huggingface.co/ datasets / meituan-longcat / VitaBench

排行榜:https://vitabench.github.io/#Leaderboard

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!