中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

本文由北京中关村学院、哈尔滨工业大学、中科院自动化所等多家单位作者共同完成，第一作者为北京中关村学院与哈尔滨工业大学联培博士生俞斌，指导教师包括：哈尔滨工业大学教授 & 哈工大青岛研究院院长王佰玲，北京中关村学院 & 中关村人工智能研究院具身智能方向负责人陈凯。

研究背景：Test-Time Scaling 的两种范式

在大语言模型（LLM）席卷各类复杂任务的今天，“测试时扩展”（Test-Time Scaling，TTS）已成为提升模型推理能力的核心思路 —— 简单来说，就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说，Test-Time Scaling 分成两类：

内部 Test-Time Scaling：以 DeepSeek-R1 为代表的推理型大模型通过拉长思维链来实现内部的测试时扩展。
外部 Test-Time Scaling：让模型在回答问题时进行并行推理得到多个推理路径，然后通过聚合这些不同的推理路径来得到最终的答案。

随着各种改进推理思维链方案的提出，通过内部 Test-Time Scaling 来提高模型性能的方法逐渐接近瓶颈，这时更好的选择则是转向去回答另一个问题：如果通过外部 Test-Time Scaling 来继续实现模型性能的增长？

Best-of-N 范式是测试时扩展的一种典型代表：对于一个数学问题，模型生成 N 条推理路径并从中选择一项最有可能正确的路径作为最终答案，如下图所示：

传统实现 Best-of-N 的方法有两种：

1. 投票法（Majority Voting）：哪个答案出现最多就选哪个；

2. 过程奖励模型（Process Reward Model，PRM）：用一个额外的模型给每一步打分，再选总分最高的路径。

然而两者都存在各自的问题：投票法相对粗糙，且近期的研究也发现，“正确的答案往往存在于少数中”，这也进一步揭示了投票法在 Best-of-N 任务中的不足；过程奖励模型的相关方法则存在性能不稳定现象，这种现象源于当前的各类过程奖励模型并非针对外部 Test-Time Scaling 和推理型模型所设计，从而导致了这些模型在应用于 Best-of-N 任务时存在明显的鲁棒性和性能问题。

本文的研究试图去弥补这类研究的缺陷，并提出了 TrajSelector 方法：一种轻量级但强大的 Best-of-N 策略，它通过复用大模型自身的 “隐藏状态” 来评估推理路径质量，无需昂贵的过程标注或 7B 参数的奖励模型，就能在数学推理任务中取得显著性能提升。

论文标题：TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
论文地址：https://arxiv.org/abs/2510.16449
项目主页：https://zgca-ai4edu.github.io/TrajSelector/

TrajSelector：利用大模型隐状态，解锁大模型推理的 “最优选择”

论文首先分析现有 Best-of-N 方法的两个致命缺陷：

重量级过程奖励模型（PRM）的成本太高：主流方法用 7B 参数的 PRM 给每个推理步骤打分，部署和推理成本几乎和策略模型（比如 8B 的 Qwen3）持平，成本骤增；
模型隐状态被浪费：另一些方法尝试用策略模型的内在状态评估答案，但这些状态没有被系统化利用，在不同任务上性能波动极大，可靠性差。

为什么需要隐状态？因为大模型的隐状态里往往藏着 “自我反思信号”—— 比如解数学题时，某个步骤的隐状态可能已经编码了 “这个推导是否合理” 的信息，只是没有被显式利用。

TrajSelector 的核心目标就是解决这两个问题：用最小的参数开销，充分利用策略采样模型的隐状态，实现 Effective 且 Efficient 的 Best-of-N 范式。该方法的架构图如下：

TrajSelector 的框架非常简洁，本质是 “并行采样 - 步骤打分 - 聚合选优” 的三步流水线：

1. 并行采样：使用一个冻结的策略模型进行并行采样，得到多个推理路径及其隐状态。

2. 步骤打分：TrajSelector 方法用一个仅 0.6B 参数的轻量级打分模型（即 Qwen3-0.6B-Base），通过复用策略模型的隐状态给每个推理步骤打分。这种隐状态的利用使得轻量级的小模型能够复用来自于策略模型的编码能力，使得在显著减小模型参数规模的前提下，实现了更优的打分效果。

3. 聚合选优：TrajSelector 使用了最简单的算术平均来计算每个推理路径的得分情况，得出每一个的全局分数，进行选择出全局分数最高的路径作为最终答案。

训练方案

传统 PRM 需要大量 “步骤级标注”—— 比如人工给每个推理步骤标 “对 / 错”，成本极高。而 TrajSelector 的训练完全不用手动标注，仅靠 “弱监督” 就能实现模型的训练。

训练时的核心挑战在于：一个最终正确的轨迹，未必每个步骤都正确（比如步骤有冗余，但结果对了）。如果直接把 “轨迹标签” 当成 “步骤标签”，会引入大量噪声。TrajSelector 借鉴了来自于 FreePRM 的损失函数设计方案，额外引入了一个 “buffer” 选项来吸收噪声，从而设计出一个特殊的三分类损失函数：

对于标签为 “正确” 的轨迹，要求模型预测 “正确 + 中性” 的概率和为 1（允许部分步骤是中性，吸收噪声）；
对于标签为 “错误” 的轨迹，要求模型预测 “错误 + 中性” 的概率和为 1。

这样的训练方案摆脱了对人工过程标注的依赖，从数据驱动的角度让模型自主学习如何 “抓重点”，在大规模数据的训练下实现了一个智能且轻量级的过程验证器。

实验效果

论文给出了 Best-of-N 任务中多个 N 值设置下的模型性能表现，包括 N = 1,5,10,16,32,64 ，基准选用了主流的 AMC23、AIME24、AIME25、BeyondAIME、HMMT25、BRUMO-25 等多个基准。

下表给出了以 Qwen3-8B 为基座的 N=16 和 N=32 时 Best-of-N 表现：

汇总各个 baselines 的平均表现，可以绘制出一个由 Best-of-N 实现的外部 Test-Time Scaling 曲线图：

与各基线相比，随着 N 的增大，TrajSelector 方案实现了更稳定的性能增长。

总结

TrajSelector 给大模型推理优化提供了一个重要思路：与其追求更大的模型，不如更聪明地利用现有模型的能力。它用 0.6B 的轻量级验证器，实现了比 7B PRM 更好的效果，证明了 “隐藏状态中的自我反思信号” 是未被充分挖掘的宝藏。对于需要落地大模型推理的场景（比如教育、科研计算），TrajSelector 的高效性和低成本特性，让 “Best-of-N” 从 “实验室方案” 真正走向 “实用化”。