【模型训练】只奖励最终答案，为什么模型仍然学会了正确推理？-Euler的博客

——RLVR 的工程机制与实践启示

1. 背景：RLVR 是否真的提升了推理能力？

随着 DeepSeek-R1 及其所采用的 GRPO（Group Relative Policy Optimization）算法引发广泛关注，Reinforcement Learning with Verifiable Rewards（RLVR） 已成为当前大模型推理训练中的核心范式之一。

RLVR 的基本设定相对简洁：

模型生成完整的 Chain-of-Thought（CoT）以及最终答案；
训练阶段仅根据答案是否正确提供可验证奖励；
推理过程本身不直接参与奖励计算。

这一设定也引发了一个持续争论的问题：

RLVR 是否真的提升了模型的推理能力，还是仅仅提高了采样效率？

该质疑主要源于一个被反复观察到的现象：
在许多数学基准上，RLVR 后的模型通常在 Pass@1 上有显著提升，但在 Pass@K（K 较大）时，base model 往往可以通过增加采样次数追平甚至超过 RLVR 模型。

由此产生了一种颇具影响力的假设：所有正确推理路径早已存在于 base model 中，RLVR 只是重新分配了这些路径的采样概率。本文所讨论的论文正是针对这一假设给出了系统性的反驳与澄清。

2. 工程评估中的关键问题：Pass@K 的系统性偏差

论文指出，Pass@K 在数学推理任务中存在结构性缺陷，这是导致 RLVR 效果被低估的重要原因。

在数学任务中：

最终答案通常是极短的 token（整数、选项或符号）；
推理过程则往往冗长且复杂。

这意味着 base model 在多次采样时，即使推理过程存在明显错误，也有较高概率通过猜测或偶然性命中正确答案。Pass@K 仅关注“是否存在一次答案正确的采样”，而不关心该答案是否源于正确推理。

从工程评估角度来看，这种指标无法区分以下两类行为：

通过完整、严谨的推理得到正确答案；
通过错误推理或不稳定猜测命中答案。

这使得 Pass@K 在衡量推理能力时存在显著失真。

3. CoT-Pass@K：更符合工程直觉的评估指标

为解决上述问题，论文提出了 CoT-Pass@K 指标，其核心思想是：

只有当一次采样同时满足“答案正确”和“推理过程正确”时，才计为成功。

在工程实现上，作者采用了可扩展的 LLM-as-a-CoT-Judge 方案，而非依赖人工标注：

使用一个在数学推理上表现稳定的小模型作为 verifier；
对每条 CoT 进行多次独立验证；
通过 any-correct、majority-correct、all-correct 三种策略聚合结果，以降低误判风险。

该方案在工程上具有可复现性和可扩展性，为复杂推理任务的质量评估提供了可操作路径。

4. 实证结论：RLVR 扩展了推理能力边界

在引入 CoT-Pass@K 之后，实验结论发生了显著变化。

在 AIME 2025 等几乎不存在数据污染的高难度数学基准上：

base model 即使在 K=1024 的情况下；
仍然无法追平 RLVR 模型在 CoT-Pass@K 下的表现。

在代码任务（LiveCodeBench）中，这一结论更加稳定。由于代码任务依赖真实执行反馈，几乎不存在“猜中”的可能，RLVR 模型在大 K 条件下持续保持优势。

这些结果表明，RLVR 并非仅仅提升采样效率，而是促成了 base model 原本难以生成的正确推理结构。

5. 理论解释：为何只奖励答案也能优化推理？

论文给出了一个极为克制但关键的假设（Logic Prior）：

在预训练模型中，正确的推理过程更有可能导向正确的最终答案。

形式化地表示为：

正确 CoT 生成正确答案的概率为 α；
错误 CoT 生成正确答案的概率为 β；
且 α > β。

在该假设成立的前提下，GRPO 的 group-relative advantage 机制在期望意义上具有如下性质：

正确推理样本的期望 advantage 为正；
错误推理样本的期望 advantage 为负。

因此，即便奖励函数完全不显式评估推理过程，梯度更新仍会持续提高生成正确推理路径的概率。这一分析解释了 RLVR 在工程实践中的一个常见现象：推理质量的改善往往在训练早期便已开始，而非仅在答案准确率饱和之后。

6. 训练动态分析：推理优化并未停滞

论文进一步分析了 RLVR 的训练过程，重点跟踪两个关键指标：

P(CA)：生成正确答案的概率；
P(CC | CA)：在答案正确的情况下，推理过程同样正确的比例。

实验结果显示：

P(CA) 通常较快接近 1；
但 P(CC | CA) 仍在持续上升。

这表明，即使在“答案层面已完全收敛”的阶段，RLVR 仍在对推理结构进行隐式优化。

7. 工程层面的重要发现：RLVR 生成了高质量 CoT 数据

论文还验证了一个对工程实践具有直接价值的结论：

使用 RLVR 模型生成的 CoT 数据；
仅通过监督微调（SFT），不再进行 RL；
即可在测试集上复现接近 RLVR 模型的性能。

这说明 RLVR 的价值不仅体现在模型参数上，更体现在其生成了 base model 难以直接采样到的高质量推理轨迹。在工程实践中，这为“RLVR → 数据蒸馏 → SFT 扩散能力”提供了一条高性价比路径。

8. 对工程实践的启示

结合本文结论，可以总结出若干实践层面的建议：

不应将 Pass@K 作为唯一的推理能力评估指标，尤其是在数学任务中；
应尽可能引入对 CoT 正确性的评估，即便采用近似的 LLM verifier；
RLVR 的核心价值在于改变推理路径分布，而非简单的采样重排；
训练早期的行为变化具有重要意义，不应仅关注最终收敛结果；
RLVR 与 SFT 的组合在中等算力条件下具有较高工程性价比。

9. 总结

本文所讨论的工作澄清了一个长期存在的工程误解：
RLVR 并非只是提高“答对的概率”，而是在已有知识与逻辑先验的基础上，隐式塑造了更可靠的推理路径分布。

对于从事大模型推理、Agent 系统或复杂决策任务的工程团队而言，这一结论具有直接而现实的实践意义。