Avengers-Pro团队投稿
量子位 | 公众号 QbitAI

顶级大模型性能确实很强，但对于预算不高的用户来说就是：

你很好但我不配。

虽然大模型的优越表现令人瞩目，但动辄高昂的使用成本也让不少用户望而却步。

为平衡性能与成本，上海人工智能实验室科研团队基于前期技术积累，开源推出了Avengers-Pro多模型调度路由方案。

该方案集成了8个行业领先的大模型，并在Human Last Exam、GPQA-diamond、ARC-AGI等6个挑战性数据集上取得了优秀成绩：

性能新高：Avengers-Pro的最高性能超越GPT-5-medium 7%，超越Gemini-2.5-Pro 19%。
极致性价比：Avengers-Pro能以降低27%成本的方式，达到与GPT-5-medium同等的顶级性能；更能以仅19%的成本，获得Gemini-2.5-Pro同等的性能水平。
帕累托最优：相比单个模型，Avengers-Pro在任何给定成本水平下都能实现最高准确率；反之，针对任何指定的准确率目标，也能将成本降至最低，实现了性能-成本平衡的帕累托最优解。

来看看是如何做到的。

比GPT-5更强，更便宜

研究背景：大模型的智能调度路由

如何平衡大模型的性能表现和推理成本是大模型领域的关键问题。

在已经被优化到极致的大模型系统的基础上进一步提升性价比的挑战性不言而喻。

为解决这一问题，大模型智能调度路由应运而生。其核心思想是将不同任务分配给最适合的大模型，以提升模型回复质量，同时避免”大炮打蚊子“而产生的资源浪费。

OpenAI在最新推出的GPT-5中，首次在商业模型中引入的多模型调度路由机制：

在推理阶段，系统会根据任务特性和用户需求，动态切换低成本、低性能模型与高成本、强推理模型，实现性能与成本的灵活平衡。

这表明GPT-5会通过一个实时的路由器（Router）来动态决策，可以在保证绝大多数问题得到高效解答的同时，将复杂、困难的推理任务交给能力更强的模型处理，从而在系统层面实现性能与陈本的最佳平衡。

Avengers-Pro多模型调度路由方案则是对GPT-5多模型调度路由机制的进一步拓展。

Avengers-Pro实现了对不同性能与成本的大模型进行统一集成与调度路由，为性能与成本的权衡提供了一站式解决方案，有效推动了大模型的降本增效。

其核心机制是通过对用户请求进行嵌入（embedding）和聚类（clustering）分析，动态匹配并分配最适合的模型来处理不同任务。

只需依靠少量用户请求-答案标签数据，Avengers-Pro框架主要包括以下三个核心步骤：

嵌入 (Embedding): 首先，该框架使用文本嵌入模型将用户请求转换成高维向量，捕捉其深层语义信息。
聚类 (Clustering): 接着，该框架将这些语义向量进行聚类，将相似的问题或任务归为一个团簇。这使得系统能够理解不同类型任务的共性，例如“物理知识问答”、“网页制作代码生成”等。
评分(Scoring): 该框架会预先在每个聚类所得到的团簇（即每类任务）上评估模型池中所有模型的性能和成本。基于一个可调节的性能-成本权衡参数α，系统为每个模型在个团簇上计算一个性能-成本综合评分。

推理时，Avengers-Pro框架会首先将其归类到最相关的聚类中，并结合各模型在该聚类上的性能-成本综合评分，将请求动态分配给得分最高的模型。

通过调整参数α（范围在0到1之间），系统可以在追求极致性能（α=1）与极致性价比（α=0）之间灵活切换，满足不同应用场景下对性能与成本的多样化需求。