目 录CONTENT

文章目录

【模型训练】只奖励最终答案,为什么模型仍然学会了正确推理?

EulerBlind
2026-01-07 / 0 评论 / 0 点赞 / 1 阅读 / 0 字

——RLVR 的工程机制与实践启示

1. 背景:RLVR 是否真的提升了推理能力?

随着 DeepSeek-R1 及其所采用的 GRPO(Group Relative Policy Optimization)算法引发广泛关注,Reinforcement Learning with Verifiable Rewards(RLVR) 已成为当前大模型推理训练中的核心范式之一。

RLVR 的基本设定相对简洁:

  • 模型生成完整的 Chain-of-Thought(CoT)以及最终答案;
  • 训练阶段仅根据答案是否正确提供可验证奖励;
  • 推理过程本身不直接参与奖励计算。

这一设定也引发了一个持续争论的问题:

RLVR 是否真的提升了模型的推理能力,还是仅仅提高了采样效率?

该质疑主要源于一个被反复观察到的现象:
在许多数学基准上,RLVR 后的模型通常在 Pass@1 上有显著提升,但在 Pass@K(K 较大)时,base model 往往可以通过增加采样次数追平甚至超过 RLVR 模型。

由此产生了一种颇具影响力的假设:所有正确推理路径早已存在于 base model 中,RLVR 只是重新分配了这些路径的采样概率。本文所讨论的论文正是针对这一假设给出了系统性的反驳与澄清 。


2. 工程评估中的关键问题:Pass@K 的系统性偏差

论文指出,Pass@K 在数学推理任务中存在结构性缺陷,这是导致 RLVR 效果被低估的重要原因。

在数学任务中:

  • 最终答案通常是极短的 token(整数、选项或符号);
  • 推理过程则往往冗长且复杂。

这意味着 base model 在多次采样时,即使推理过程存在明显错误,也有较高概率通过猜测或偶然性命中正确答案。Pass@K 仅关注“是否存在一次答案正确的采样”,而不关心该答案是否源于正确推理。

从工程评估角度来看,这种指标无法区分以下两类行为:

  • 通过完整、严谨的推理得到正确答案;
  • 通过错误推理或不稳定猜测命中答案。

这使得 Pass@K 在衡量推理能力时存在显著失真。


3. CoT-Pass@K:更符合工程直觉的评估指标

为解决上述问题,论文提出了 CoT-Pass@K 指标,其核心思想是:

只有当一次采样同时满足“答案正确”和“推理过程正确”时,才计为成功。

在工程实现上,作者采用了可扩展的 LLM-as-a-CoT-Judge 方案,而非依赖人工标注:

  • 使用一个在数学推理上表现稳定的小模型作为 verifier;
  • 对每条 CoT 进行多次独立验证;
  • 通过 any-correct、majority-correct、all-correct 三种策略聚合结果,以降低误判风险。

该方案在工程上具有可复现性和可扩展性,为复杂推理任务的质量评估提供了可操作路径。


4. 实证结论:RLVR 扩展了推理能力边界

在引入 CoT-Pass@K 之后,实验结论发生了显著变化。

AIME 2025 等几乎不存在数据污染的高难度数学基准上:

  • base model 即使在 K=1024 的情况下;
  • 仍然无法追平 RLVR 模型在 CoT-Pass@K 下的表现。

在代码任务(LiveCodeBench)中,这一结论更加稳定。由于代码任务依赖真实执行反馈,几乎不存在“猜中”的可能,RLVR 模型在大 K 条件下持续保持优势。

这些结果表明,RLVR 并非仅仅提升采样效率,而是促成了 base model 原本难以生成的正确推理结构


5. 理论解释:为何只奖励答案也能优化推理?

论文给出了一个极为克制但关键的假设(Logic Prior):

在预训练模型中,正确的推理过程更有可能导向正确的最终答案。

形式化地表示为:

  • 正确 CoT 生成正确答案的概率为 α;
  • 错误 CoT 生成正确答案的概率为 β;
  • 且 α > β。

在该假设成立的前提下,GRPO 的 group-relative advantage 机制在期望意义上具有如下性质:

  • 正确推理样本的期望 advantage 为正;
  • 错误推理样本的期望 advantage 为负。

因此,即便奖励函数完全不显式评估推理过程,梯度更新仍会持续提高生成正确推理路径的概率。这一分析解释了 RLVR 在工程实践中的一个常见现象:推理质量的改善往往在训练早期便已开始,而非仅在答案准确率饱和之后


6. 训练动态分析:推理优化并未停滞

论文进一步分析了 RLVR 的训练过程,重点跟踪两个关键指标:

  • P(CA):生成正确答案的概率;
  • P(CC | CA):在答案正确的情况下,推理过程同样正确的比例。

实验结果显示:

  • P(CA) 通常较快接近 1;
  • 但 P(CC | CA) 仍在持续上升。

这表明,即使在“答案层面已完全收敛”的阶段,RLVR 仍在对推理结构进行隐式优化。


7. 工程层面的重要发现:RLVR 生成了高质量 CoT 数据

论文还验证了一个对工程实践具有直接价值的结论:

  • 使用 RLVR 模型生成的 CoT 数据;
  • 仅通过监督微调(SFT),不再进行 RL;
  • 即可在测试集上复现接近 RLVR 模型的性能。

这说明 RLVR 的价值不仅体现在模型参数上,更体现在其生成了 base model 难以直接采样到的高质量推理轨迹。在工程实践中,这为“RLVR → 数据蒸馏 → SFT 扩散能力”提供了一条高性价比路径。


8. 对工程实践的启示

结合本文结论,可以总结出若干实践层面的建议:

  1. 不应将 Pass@K 作为唯一的推理能力评估指标,尤其是在数学任务中;
  2. 应尽可能引入对 CoT 正确性的评估,即便采用近似的 LLM verifier;
  3. RLVR 的核心价值在于改变推理路径分布,而非简单的采样重排;
  4. 训练早期的行为变化具有重要意义,不应仅关注最终收敛结果;
  5. RLVR 与 SFT 的组合在中等算力条件下具有较高工程性价比。

9. 总结

本文所讨论的工作澄清了一个长期存在的工程误解:
RLVR 并非只是提高“答对的概率”,而是在已有知识与逻辑先验的基础上,隐式塑造了更可靠的推理路径分布。

对于从事大模型推理、Agent 系统或复杂决策任务的工程团队而言,这一结论具有直接而现实的实践意义。

0
博主关闭了所有页面的评论