AI热点 5月前 132 阅读 0 评论

AI界拼多多,首篇分析agent能效比的系统性工作!

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章


一句话概括,花大价钱请来的AI智能体天天搁那儿“过度思考”,这篇论文教你如何让它“该省省该花花”,别再当冤大头了,当你给智能体卸掉复杂记忆/冗余规划这些"奢侈品"后,发现它跑得比香港记者还快还便宜。(原论文题目见文末,点击阅读原文可直接跳转至原文链接, Published on arXiv on 6 Aug 2025, by OPPO AI Agent Team)


亲爱的读者们,沈公子的公众号agent🤖和base model升级到v3.0,今后公众号文章行文会更流畅,处理公式和符号也完全达到人类专家水准,会大幅减少出现错乱和显示异常的情况,提升阅读体验。enjoying :)


第一阶段:识别核心概念


Motivation分析


这篇论文的出发点非常明确和实际:强大的AI智能体(Agent)太贵了!


近年来,基于大型语言模型(LLM)的智能体展现出了惊人的解决复杂、多步骤任务的能力,比如帮你做深度市场调研、自动编程等。然而,这种强大能力的背后是巨大的成本。这些顶尖的智能体在解决一个问题时,可能需要与背后的大语言模型(如GPT-4)进行数百次的对话,每一次对话都是要花钱的。这导致了两个严重问题:


  • 可扩展性差:对于企业来说,如果每个用户请求都要花费数美元,那么将这种服务大规模部署给成千上万的用户在经济上是不可持续的。


  • 可及性低:高昂的成本使得普通开发者和小型研究团队难以负担,限制了技术的普及和创新。


作者认为,AI智能体的研究已经走到了一个“拐点”,就像过去自然语言处理领域从盲目追求模型规模转向关注效率一样。现在,必须在“效果”和“效率”之间找到一个最佳平衡点,否则AI智能体将永远是“实验室里的玩具”,难以走向真正的实际应用。


主要贡献


  • 主要创新点


  • 首次系统性研究:这是第一篇全面、系统地研究现代AI智能体中“效率-效果”权衡关系的论文。它不是只关注某一个点,而是把智能体拆解开来,逐一分析。


  • 提出EFFICIENT AGENTS框架:基于上述研究的洞察,作者提出了一个名为 EFFICIENT AGENTS 的新型智能体框架。这个框架的核心思想是“恰到好处”,即根据任务的实际需求来配置智能体的复杂度,避免“杀鸡用牛刀”。


  • 实现新的业界标杆:在衡量性价比的cost-of-pass(成功通关成本)指标上,EFFICIENT AGENTS 刷新了纪录,证明了其设计的优越性。


  • 关键技术或方法


  • 组件化实证分析:这是本文最核心的方法。作者没有笼统地谈论效率,而是将一个智能体系统解构成几个关键模块:


  • Backbone(核心大脑)


  • 用哪个LLM?Planning(规划模块)


  • 如何制定和调整计划?Tool Using(工具使用)


  • 如何更高效地使用外部工具(如网络浏览器)?Memory(记忆模块)


  • 需要多复杂的记忆系统?Test-time Scaling(测试时增强策略)


  • 是否需要多次尝试(如Best-of-N)来提升效果? 作者通过大量的实验,独立地调整每个模块的配置,来观察其对最终效果和成本的影响。


  • Cost-of-Pass(成功通关成本)度量标准:这是支撑其所有分析的“标尺”。它不是简单地看一次运行花多少钱,也不是只看成功率,而是将两者结合,计算“为了成功解决一个问题,平均需要花费多少钱”。这个指标是评估性价比的利器。


  • 显著性结果


  • 揭示了“过犹不及”:论文通过实验证明,许多看起来很高级、很复杂的模块(比如复杂的记忆系统、多次采样决策的Best-of-N策略)带来的性能提升非常有限,但成本却急剧增加,得不偿失。性能与成本的平衡点:最重要的结果是,他们提出的 EFFICIENT AGENTS 在仅损失微不足道的性能(保持了顶尖开源智能体OWL 96.7%的性能)的情况下,显著降低了运行成本,最终在cost-of-pass这个综合指标上提升了28.4%。这向业界传递了一个强有力的信号:我们可以在不牺牲太多效果的前提下,构建出便宜得多的AI智能体。


核心理解难点


  • 理解论文的关键概念/方法


  • 理解“效率-效果权衡”(Efficiency-Effectiveness Trade-off)这个核心矛盾。


  • 理解智能体的模块化构成(Backbone, Planning, Tools, Memory等)。


  • 最核心、最关键的概念是 Cost-of-Pass(成功通关成本) 这个度量标准。


  • 最具挑战性的部分


  • Cost-of-Pass 的计算方式和其背后的直觉。很多人可能会简单地认为“成本低就是好”或者“准确率高就是好”,而 Cost-of-Pass 告诉我们,必须把这两者结合起来看。一个便宜但基本没用的模型,它的“成功通关成本”其实是无穷大,因为你永远也无法靠它成功。


  • 需重点解释的核心概念


  • 毫无疑问,需要重点解释的核心概念就是 Cost-of-Pass。它是整篇论文的基石,理解了它,就理解了作者所有实验设计的目的和结论的意义。


核心概念依赖关系


  • 概念间的关系


1.核心问题:AI智能体存在严重的“效率-效果权衡”问题。


2.评估工具:为了量化并解决这个问题,作者引入了 Cost-of-Pass 度量标准。


3.分析方法:使用 Cost-of-Pass 作为尺子,对智能体的各个核心组件(大脑、规划、记忆等)进行细致的实证分析。


4.最终方案:根据分析结果,将每个组件的最优性价比配置组合起来,构建出 EFFICIENT AGENTS 框架。


  • 最佳解释切入点


  • 最佳切入点就是从“问题”出发,引出解决问题的“度量衡”——**Cost-of-Pass**。只要读者理解了这把尺子是如何衡量“性价比”的,后续所有关于组件选择的讨论都会变得顺理成章。


第二阶段:深入解释核心概念 (Cost-of-Pass)


生活化比喻:雇佣不同水平的修理工


想象一下,你家里的水管漏水了,你需要雇一个修理工来解决问题。市场上有两位修理工供你选择:


  • 修理工A(新手):收费很便宜,每次上门服务只收 $50。但是他技术不太行,经验不足,可能要来好几次才能彻底修好。根据他的口碑,他一次就修好的成功率只有 20%


  • 修理工B(专家):收费很贵,每次上门服务要价 $200。但他技术精湛,经验丰富,几乎每次都能一次性解决问题,成功率高达 100%


现在的问题是:从“最终把水管修好”这个目标来看,雇佣谁其实更划算?这个场景非常普遍,每个人都能理解“单次收费”和“最终解决问题的总花费”是两个不同的概念。这个比喻直观地展示了成本和成功率之间的权衡关系。


比喻与技术的对应关系


  • 修理工 <-> AI智能体 (Agent / Model m):不同的修理工代表了使用不同配置(如不同LLM、不同记忆模块)的AI智能体。


  • 漏水问题 <-> 一个具体任务 (Problem p):比如GAIA benchmark中的一个测试题。


  • 单次上门服务费 <-> 单次推理成本 (Cm(p)):AI智能体为解决任务p运行一次所消耗的计算资源和API调用费用。


  • 一次修好的成功率 <-> 成功率 (Rm(p)):AI智能体m在任务p上的成功概率,通常用测试集上的准确率(pass@1)来估计。


  • 期望总花费 <-> 成功通关成本 (v(m,p)):为了最终成功解决任务p,所需要付出的期望成本。


这个对应关系非常合理,因为它完美地捕捉了“效率-效果权衡”的本质。一个便宜但低效的AI智能体(像新手修理工A)可能需要多次尝试才能成功,累积成本会很高。而一个昂贵但高效的AI智能体(像专家修理工B)虽然单次成本高,但可能一次成功,总花费反而更低。Cost-of-Pass 正是为了衡量这种“长远来看的总花费”。


深入技术细节


在我们的比喻中,如何计算两位修理工的“期望总花费”呢?


  • 对于新手A,单次收费,成功率50 = $250。


  • 对于专家B,单次收费,成功率200 = $200。 结论很惊人:虽然新手A单次收费便宜,但从解决问题的最终结果来看,雇佣专家B反而更省钱!这正是 Cost-of-Pass 的计算逻辑。


核心公式解析


公式1:Cost-of-Pass的定义



公式2:单次尝试成本的计算



技术细节与比喻的映射


  • 技术步骤在比喻中的体现




核心总结


  • 比喻与技术的核心联系


  • “雇佣修理工”的比喻核心在于告诉我们:“单次便宜”不等于“最终划算”。同样,评价一个AI智能体,不能只看它跑一次多便宜,或者准确率多高,而应该看为了获得一次成功的结果,我们平均要为它花多少钱。


  • 对应关系如何帮助理解


  • 通过这个比喻,Cost-of-Pass 从一个冷冰冰的数学公式,变成了一个生活中我们都会做的、合乎情理的决策过程。


  • 比喻总结数学原理


  • Cost-of-Pass 的数学原理,用修理工的比喻来说就是:期望总花费 = 单次服务费 / 一次成功的概率。这个简单的逻辑,就是整篇论文进行所有分析和优化的基石。


第三阶段:详细说明流程步骤


根据论文在Table 6中给出的最优配置,EFFICIENT AGENTS 的工作流程如下。


EFFICIENT AGENTS 的配置清单:


  • 核心大脑 (Backbone): GPT-4.1


  • 最大步骤数 (Max Step): 8


  • 规划频率 (Plan Interval): 1 (即每一步都重新规划)


  • 搜索源 (Search Source): Multi (使用多个搜索引擎)


  • 搜索查询扩展数 (Search Num): 5


  • 决策采样 (Best-of-N / BoN): 1 (不采样,直接采纳)


  • 记忆类型 (Memory): Simple (只记录基本的历史观察和行动)


假设任务是:“请找出提出‘cost-of-pass’度量标准的论文,并总结其第一作者近期(过去两年内)的其他研究工作。”


步骤 1:任务接收与初步规划 (Planning)


  • 输入: 用户的原始请求。


  • 处理过程:


1.Agent的核心大脑(GPT-4.1)接收到请求。


2.根据Plan Interval = 1的设定,它需要制定一个仅包含下一步行动的短时计划。


3.它分析任务,将其分解为两个子目标:a) 找到论文;b) 找到第一作者并搜索其近期工作。当前最优先的行动是找到这篇论文。


  • 输出 (内部思考与计划):


  • 思考 (Thought): “任务要求我找到一篇关于‘cost-of-pass’的论文。我需要使用搜索工具来完成这一步。”


  • 计划 (Plan): “1. 搜索关于‘cost-of-pass’的学术论文。”


步骤 2:工具选择与执行 - 网页搜索 (Tool Using)


  • 输入: 上一步生成的计划。


  • 处理过程:


1.Agent识别出需要使用“网页搜索”工具。


2.根据Search Num = 5的配置,它调用GPT-4.1将核心词“cost-of-pass”扩展成5个不同的搜索查询,


例如:


"cost-of-pass metric for language models paper" "origin of cost-of-pass in AI agents" "who proposed cost-of-pass evaluation" "arXiv "cost-of-pass: An economic framework"" "evaluating LLM efficiency cost-of-pass"


3.根据Search Source = Multi的配置,Agent将这5个查询发送给多个搜索引擎(如Google, Bing等)。


4.Agent收集所有返回的结果列表(标题、链接和摘要)。


  • 输出 (工具执行结果 - 观察):


  • 观察 (Observation): “搜索结果中频繁出现一篇名为《Cost-of-pass: An economic framework for evaluating language models》的论文,链接指向arXiv。摘要中提到了作者Mehmet Hamza Erol, Batu El, Mirac Suzgun等。”


步骤 3:信息处理、记忆更新与重新规划


  • 输入: 上一步的观察结果。


  • 处理过程:


1.Agent将观察结果存入其Simple Memory中。


2.当前任务的第一部分已基本完成。Agent的核心大脑(GPT-4.1)现在要处理第二部分。


3.由于Plan Interval = 1,它根据最新信息重新规划下一步。


  • 输出 (内部思考与新计划):


  • 思考 (Thought): “我已经找到了论文和作者。任务要求总结第一作者的近期工作。Mehmet Hamza Erol很可能是第一作者。我需要确认并搜索他的近期发表。”


  • 计划 (Plan): “1. 访问论文的arXiv页面,确认第一作者。 2. 搜索第一作者‘Mehmet Hamza Erol’的个人主页或Google Scholar页面,查找过去两年的论文。”


步骤 4:循环执行与信息整合 (Loop)


  • 输入: 上一步生成的新计划。


  • 处理过程:


1.Agent进入第2个大步骤(总限额为8步),执行新计划,如使用浏览器工具访问arXiv链接,确认第一作者。


2.观察结果再次被记录到Simple Memory中。


3.接着,再次执行搜索,查询“Mehmet Hamza Erol Google Scholar”。


4.从搜索结果中找到学者主页,提取论文列表,并筛选出近两年的条目。


5.每一步的观察都会被顺序地、简单地追加到Simple Memory中。


6.这个“规划 -> 行动 -> 观察 -> 记忆 -> 再规划”的循环会持续进行。由于BoN = 1,Agent在每一步都果断执行,不进行多余的采样。


步骤 5:任务完成与最终输出


  • 输入:Simple Memory中积累的所有观察结果。


  • 处理过程:


1.当Agent认为信息足够(或达到Max Step = 8的上限)时,停止循环。


2.核心大脑(GPT-4.1)审视内存中的所有信息片段,并将它们整合成一段通顺的回答。


  • 最终输出 (给用户的回答): “提出‘cost-of-pass’度量标准的论文是《Cost-of-pass: An economic framework for evaluating language models》。该论文的第一作者是Mehmet Hamza Erol。在过去两年内,他参与的其他研究工作主要包括:[论文1标题]、[论文2标题]和[论文3标题]...(对内容进行简要总结)。”


第四阶段:实验设计与验证分析


主实验:核心论点验证


  • 核心主张通过精心选择各组件的“最具性价比”配置,可以构建一个在效率(以cost-of-pass衡量)上远超现有SOTA方法,同时在效果(准确率)上不落下风的AI智能体。


  • 实验设计


  • 数据集GAIA (General AI Assistants)。GAIA是业界公认的、评测通用AI助手的高难度基准,需要复杂推理和工具使用,能充分考验智能体的综合能力,选择它很有说服力。


  • 评价指标Accuracy (pass@1) 和 cost-of-passcost-of-pass将成本和效果结合,完美地量化了论文的核心论点——“性价比”,使得评价体系与论文主张完全对齐。


  • 基线方法 (Baselines):OWLSmolAgentOWL 是当时GAIA上的开源SOTA(State-of-the-Art),击败它或证明比它性价比高,是证明自己价值的最有力方式。选择强大且有代表性的对手,使得胜利的含金量更高。


  • 实验结论主实验结果见 Table 7EFFICIENT AGENTScost-of-pass0.55,显著低于OWL的 0.75,而准确率(**51.52%)与OWL(53.33%**)非常接近。这直接、定量地证明了 EFFICIENT AGENTS 在几乎不牺牲解决问题能力的情况下,将“成功解决一个问题的平均成本”显著降低了。


消融实验:验证组件贡献


论文的 第3节 整体是一个大型的消融实验系列,通过控制变量法,验证了每个设计选择的合理性。


  • 被“消融”的部分与创新点


  • 复杂的记忆系统 (Table 5):对比6种记忆配置后发现,最简单的Simple Memory不仅cost-of-pass最低(0.74),连准确率(56.36%)都是最高的。这强力证明了复杂记忆模块是“负优化”。


  • 测试时采样策略 (Table 2):对比Best-of-N中 N=1, 2, 4 的情况。结果显示,增加N带来的微小准确率收益远不足以抵消其巨大的成本,因此“消融”掉BoN(即设置N=1)是 B 最优选择。


  • 过于简单的规划 (Table 3):将最大步骤从4步增加到8步,准确率大幅提升,证明了一定程度的规划深度是必要的,不能为了省钱过度简化。


  • 单一的工具配置 (Table 4):使用多个搜索源和更多的查询扩展能显著降低cost-of-pass,证明了在工具使用上“多做一点”是划算的。


  • 结果的证明作用这些实验结果为EFFICIENT AGENTS的每一个配置选择(见Table 6)都提供了坚实的数据支撑,使其最终组合不是凭空想象,而是基于严谨的实验证据。


深度实验:洞察方法特性


  • 实验类型跨难度等级的性能分析


  • 实验目的:探究不同AI智能体在面对不同难度任务时,其“性价比”的变化规律,即“抗压能力”。


  • 实验设计:在 Table 1 中,将结果按照任务的官方难度等级(Level 1, 2, 3)进行分解。


  • 实验结论:得出了一个深刻洞见:“大力出奇迹”的模型,在难题面前效率会急剧崩溃。例如,o1模型,其cost-of-pass从Level 1的1.96飙升到Level 3的12.66,暴涨了**646%**。这揭示了这些模型可能存在“过度思考”的问题,对于如何在不同任务中智能切换模型具有重要的指导意义。


  • 实验类型可视化分析


  • 实验目的:将多维度的数据(准确率、成本)直观呈现,帮助读者快速理解不同模型在“效率-效果”空间中的定位。


  • 实验设计Figure 2 是一个二维散点图,横轴是成本(越低越好),纵轴是准确率(越高越好)。


  • 实验结论:该图一目了然地展示了不同模型的定位。Claude-3.7-Sonnet是“有钱任性型”(高成本高准确率),Qwen系列是“经济适用型”(低成本低准确率),而GPT-4.1则是“性价比之选”,在成本和准确率之间取得了极佳的平衡。


本文题目:Efficient Agents: Building Effective Agents While Reducing Cost


文章来自于微信公众号“沈公子今天读什么”,作者是“Tensorlong 看天下”。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!