Skip to content
Go back 2505.11227 arXiv logo

Is PRM Necessary? Problem-Solving RL Implicitly Induces PRM Capability in LLMs

Published:  at  11:09 AM
90.43 🤔

本文通过系统性实验证明,纯强化学习(RL)训练不仅提升大型语言模型的复杂推理能力,还能隐式培养过程奖励模型(PRM)能力,提出Self-PRM框架以进一步改进性能,但也揭示了其在高难度问题上的低精度局限。

Reinforcement Learning, Large Language Model, Reasoning, Self-Supervised Learning, Alignment

Zhangying Feng, Qianglong Chen, Ning Lu, Yongqian Li, Siqi Cheng, Shuangmu Peng, Duyu Tang, Shengcai Liu, Zhirui Zhang

Huawei Technologies Ltd., Hong Kong University of Science and Technology (HKUST), Southern University of Science and Technology

Generated by grok-3

Background Problem

近年来,大型语言模型(LLMs)的推理能力发展成为研究前沿,强化学习(RL)和过程奖励模型(PRM)被认为是提升推理能力的主要方法。然而,PRM面临定义推理步骤的模糊性、高昂的标注成本以及奖励机制被滥用的风险等问题。论文以DeepSeek-R1等模型的实证证据为起点,质疑PRM的必要性,探索纯RL训练是否足以在不依赖过程监督的情况下提升复杂推理能力,并解决了一个关键问题:RL训练是否能隐式地培养出过程监督能力,从而减少对显式PRM训练的依赖。

Method

论文提出并验证了纯RL训练能够隐式培养PRM能力的假设,具体方法如下:

Experiment

实验在PROCESSBENCH基准上进行,包含GSM8K、MATH、OLYMPIADBENCH和OMNIMATH数据集,评估指标为正确率(Correct Rate)、错误率(Error Rate)和F1分数。实验设置分为三组模型:专有模型(如GPT-4o)、纯RL训练模型(如DeepSeek-R1、QwQ-32B)和显式PRM训练模型。结果显示:

Further Thoughts

论文提出的RL训练与PRM能力协同进化的观点为未来的模型训练提供了新思路,但也引发了一些值得深入探讨的问题。首先,RL训练是否在所有推理任务中都能隐式培养PRM能力?例如,在需要多模态推理或高度上下文依赖的任务中,纯RL可能无法充分捕捉过程的复杂性,显式PRM监督可能仍有价值。其次,Self-PRM的低精度问题可能与模型的过自信或内部奖励信号的偏差有关,这与近期关于模型校准(calibration)和不确定性估计的研究密切相关,未来可以结合这些领域的工作来改进Self-PRM。此外,论文未讨论模型规模对结果的影响,是否小型模型也能通过纯RL训练获得类似能力,还是这一现象仅限于大型模型?最后,RL训练与PRM能力的协同进化是否会受到训练数据分布的影响,例如在数据稀疏或分布偏移的场景下,模型的过程判断能力可能退化。这些问题值得进一步研究,以验证论文结论的普适性和局限性。



Previous Post
A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs
Next Post
MergeBench: A Benchmark for Merging Domain-Specialized LLMs