——RLVR 的工程机制与实践启示
1. 背景:RLVR 是否真的提升了推理能力?
随着 DeepSeek-R1 及其所采用的 GRPO(Group Relative Policy Optimization)算法引发广泛关注,Reinforcement Learning with Verifiable Rewards(RLVR) 已成为当前大模型推理训练中的核心范式之一。
RLVR 的基本设定相对简洁:
- 模型生成完整的 Chain-of-Thought(CoT)以及最终答案;
- 训练阶段仅根据答案是否正确提供可验证奖励;
- 推理过程本身不直接参与奖励计算。
这一设定也引发了一个持续争论的问题:
RLVR 是否真的提升了模型的推理能力,还是仅仅提高了采样效率?
该质疑主要源于一个被反复观察到的现象:
在许多数学基准上,RLVR 后的模型通常在 Pass@1 上有显著提升,但在 Pass@K(K 较大)时,base model 往往可以通过增加采样次数追平甚至超过 RLVR 模型。
由此产生了一种颇具影响力的假设:所有正确推理路径早已存在于 base model 中,RLVR 只是重新分配了这些路径的采样概率。本文所讨论的论文正是针对这一假设给出了系统性的反驳与澄清 。
2. 工程评估中的关键问题:Pass@K 的系统性偏差
论文指出,Pass@K 在数学推理任务中存在结构性缺陷,这是导致 RLVR 效果被低估的重要原因。
在数学任务中:
- 最终答案通常是极短的 token(整数、选项或符号);
- 推理过程则往往冗长且复杂。
这意味着 base model 在多次采样时,即使推理过程存在明显错误,也有较高概率通过猜测或偶然性命中正确答案。Pass@K 仅关注“是否存在一次答案正确的采样”,而不关心该答案是否源于正确推理。
从工程评估角度来看,这种指标无法区分以下两类行为:
- 通过完整、严谨的推理得到正确答案;
- 通过错误推理或不稳定猜测命中答案。
这使得 Pass@K 在衡量推理能力时存在显著失真。
3. CoT-Pass@K:更符合工程直觉的评估指标
为解决上述问题,论文提出了 CoT-Pass@K 指标,其核心思想是:
只有当一次采样同时满足“答案正确”和“推理过程正确”时,才计为成功。
在工程实现上,作者采用了可扩展的 LLM-as-a-CoT-Judge 方案,而非依赖人工标注:
- 使用一个在数学推理上表现稳定的小模型作为 verifier;
- 对每条 CoT 进行多次独立验证;
- 通过 any-correct、majority-correct、all-correct 三种策略聚合结果,以降低误判风险。
该方案在工程上具有可复现性和可扩展性,为复杂推理任务的质量评估提供了可操作路径。
4. 实证结论:RLVR 扩展了推理能力边界
在引入 CoT-Pass@K 之后,实验结论发生了显著变化。
在 AIME 2025 等几乎不存在数据污染的高难度数学基准上:
- base model 即使在 K=1024 的情况下;
- 仍然无法追平 RLVR 模型在 CoT-Pass@K 下的表现。
在代码任务(LiveCodeBench)中,这一结论更加稳定。由于代码任务依赖真实执行反馈,几乎不存在“猜中”的可能,RLVR 模型在大 K 条件下持续保持优势。
这些结果表明,RLVR 并非仅仅提升采样效率,而是促成了 base model 原本难以生成的正确推理结构。
5. 理论解释:为何只奖励答案也能优化推理?
论文给出了一个极为克制但关键的假设(Logic Prior):
在预训练模型中,正确的推理过程更有可能导向正确的最终答案。
形式化地表示为:
- 正确 CoT 生成正确答案的概率为 α;
- 错误 CoT 生成正确答案的概率为 β;
- 且 α > β。
在该假设成立的前提下,GRPO 的 group-relative advantage 机制在期望意义上具有如下性质:
- 正确推理样本的期望 advantage 为正;
- 错误推理样本的期望 advantage 为负。
因此,即便奖励函数完全不显式评估推理过程,梯度更新仍会持续提高生成正确推理路径的概率。这一分析解释了 RLVR 在工程实践中的一个常见现象:推理质量的改善往往在训练早期便已开始,而非仅在答案准确率饱和之后。
6. 训练动态分析:推理优化并未停滞
论文进一步分析了 RLVR 的训练过程,重点跟踪两个关键指标:
- P(CA):生成正确答案的概率;
- P(CC | CA):在答案正确的情况下,推理过程同样正确的比例。
实验结果显示:
- P(CA) 通常较快接近 1;
- 但 P(CC | CA) 仍在持续上升。
这表明,即使在“答案层面已完全收敛”的阶段,RLVR 仍在对推理结构进行隐式优化。
7. 工程层面的重要发现:RLVR 生成了高质量 CoT 数据
论文还验证了一个对工程实践具有直接价值的结论:
- 使用 RLVR 模型生成的 CoT 数据;
- 仅通过监督微调(SFT),不再进行 RL;
- 即可在测试集上复现接近 RLVR 模型的性能。
这说明 RLVR 的价值不仅体现在模型参数上,更体现在其生成了 base model 难以直接采样到的高质量推理轨迹。在工程实践中,这为“RLVR → 数据蒸馏 → SFT 扩散能力”提供了一条高性价比路径。
8. 对工程实践的启示
结合本文结论,可以总结出若干实践层面的建议:
- 不应将 Pass@K 作为唯一的推理能力评估指标,尤其是在数学任务中;
- 应尽可能引入对 CoT 正确性的评估,即便采用近似的 LLM verifier;
- RLVR 的核心价值在于改变推理路径分布,而非简单的采样重排;
- 训练早期的行为变化具有重要意义,不应仅关注最终收敛结果;
- RLVR 与 SFT 的组合在中等算力条件下具有较高工程性价比。
9. 总结
本文所讨论的工作澄清了一个长期存在的工程误解:
RLVR 并非只是提高“答对的概率”,而是在已有知识与逻辑先验的基础上,隐式塑造了更可靠的推理路径分布。
对于从事大模型推理、Agent 系统或复杂决策任务的工程团队而言,这一结论具有直接而现实的实践意义。