本文通过系统性实验证明,纯强化学习(RL)训练不仅提升大型语言模型的复杂推理能力,还能隐式培养过程奖励模型(PRM)能力,提出Self-PRM框架以进一步改进性能,但也揭示了其在高难度问题上的低精度局限。
Reinforcement Learning, Large Language Model, Reasoning, Self-Supervised Learning, Alignment
Zhangying Feng, Qianglong Chen, Ning Lu, Yongqian Li, Siqi Cheng, Shuangmu Peng, Duyu Tang, Shengcai Liu, Zhirui Zhang
Huawei Technologies Ltd., Hong Kong University of Science and Technology (HKUST), Southern University of Science and Technology
Generated by grok-3
Background Problem
近年来,大型语言模型(LLMs)的推理能力发展成为研究前沿,强化学习(RL)和过程奖励模型(PRM)被认为是提升推理能力的主要方法。然而,PRM面临定义推理步骤的模糊性、高昂的标注成本以及奖励机制被滥用的风险等问题。论文以DeepSeek-R1等模型的实证证据为起点,质疑PRM的必要性,探索纯RL训练是否足以在不依赖过程监督的情况下提升复杂推理能力,并解决了一个关键问题:RL训练是否能隐式地培养出过程监督能力,从而减少对显式PRM训练的依赖。
Method
论文提出并验证了纯RL训练能够隐式培养PRM能力的假设,具体方法如下:
- 核心思想:通过纯RL训练(如基于最终答案正确性的奖励),模型不仅能提升问题解决能力,还能同步发展过程判断能力,无需显式PRM监督。
- 实验分析:使用PROCESSBENCH基准测试评估不同模型的PRM能力,涵盖GSM8K、MATH等数据集,比较纯RL训练模型(如DeepSeek-R1)、指令微调模型和显式PRM训练模型的表现。
- Self-PRM框架:提出一种自省式方法,模型利用自身内部奖励信号对生成的多个解决方案进行重新排序(rerank),以提升准确性,而无需外部PRM。
- 统计验证:通过卡方检验(Chi-square test)分析问题解决能力与过程判断能力之间的相关性,验证两者在RL训练中的协同进化。 批判性思考:虽然方法创新性地挑战了PRM的必要性,但Self-PRM的实现细节(如内部奖励信号的具体计算方式)描述不够清晰,可能影响可重复性。此外,论文未充分探讨RL训练在不同任务类型或模型规模下的普适性,存在一定的局限性。
Experiment
实验在PROCESSBENCH基准上进行,包含GSM8K、MATH、OLYMPIADBENCH和OMNIMATH数据集,评估指标为正确率(Correct Rate)、错误率(Error Rate)和F1分数。实验设置分为三组模型:专有模型(如GPT-4o)、纯RL训练模型(如DeepSeek-R1、QwQ-32B)和显式PRM训练模型。结果显示:
- 效果显著性:纯RL训练模型表现出色,DeepSeek-R1和QwQ-32B的平均F1分数分别为83.5和83.7,显著优于显式PRM训练模型(如Skywork-PRM-7B的42.1)。
- Self-PRM改进:Self-PRM在较大采样规模(k=32,64)下持续提升准确率,例如QwQ-32B在AIME24上的准确率从86.7(多数投票)提升至90.0,但其在高难度问题上的精度极低(<10%),经常将错误解误判为正确。
- 实验设计合理性:实验覆盖多个数据集和模型类型,设置较为全面,但对Self-PRM低精度的原因分析不足,仅归因于奖励对齐问题,缺乏更深层次的探讨。此外,外部PRM(如Qwen2.5-Math-PRM-72B)对强推理模型的提升效果不佳,甚至不如多数投票,表明当前PRM与RL训练模型的内部奖励信号存在不匹配问题。 批判性思考:实验结果支持了论文的核心论点,但对Self-PRM局限性的分析较为表面,未提供具体的改进方向或可能的根本原因(如模型对自身推理的过自信)。此外,实验主要聚焦数学推理任务,未验证结论在其他推理领域的普适性。
Further Thoughts
论文提出的RL训练与PRM能力协同进化的观点为未来的模型训练提供了新思路,但也引发了一些值得深入探讨的问题。首先,RL训练是否在所有推理任务中都能隐式培养PRM能力?例如,在需要多模态推理或高度上下文依赖的任务中,纯RL可能无法充分捕捉过程的复杂性,显式PRM监督可能仍有价值。其次,Self-PRM的低精度问题可能与模型的过自信或内部奖励信号的偏差有关,这与近期关于模型校准(calibration)和不确定性估计的研究密切相关,未来可以结合这些领域的工作来改进Self-PRM。此外,论文未讨论模型规模对结果的影响,是否小型模型也能通过纯RL训练获得类似能力,还是这一现象仅限于大型模型?最后,RL训练与PRM能力的协同进化是否会受到训练数据分布的影响,例如在数据稀疏或分布偏移的场景下,模型的过程判断能力可能退化。这些问题值得进一步研究,以验证论文结论的普适性和局限性。