Tag: Reinforcement Learning
All the articles with the tag "Reinforcement Learning".
-
Reinforcement Learning for Reasoning in Large Language Models with One Training Example
本文发现,通过对大型语言模型应用带有可验证奖励的强化学习,仅使用一个训练示例即可显著提升其数学推理能力,效果可媲美使用数千示例进行训练,并揭示了饱和后泛化、跨领域泛化等现象,强调了策略梯度和探索的重要性。
-
Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL
本文提出PNLC方法,通过离线RL训练轻量级目标条件值函数辅助大型语言模型在多轮交互任务中进行高效长程规划,在性能和计算效率上显著优于现有RL微调和推理时搜索方法。
-
DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs
本文提出DialogueReason,一种基于对话的推理模式,通过PPO和规则奖励函数训练大型语言模型,以提升复杂复合问答任务中的推理多样性和连贯性,并在MATH、AIME和GPQA数据集上展现出比单论式推理更强的鲁棒性。
-
Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking
本文提出InteRank方法,通过知识蒸馏和强化学习训练一个3B参数小型语言模型,在推理密集型文档重排序任务中生成解释并实现与70B+参数模型相当的性能,在BRIGHT基准上位列第三。
-
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning
本文提出R1-Reward,通过StableReinforce算法将强化学习应用于多模态奖励模型训练,显著提升了性能并在多个基准测试中超越现有最优模型,同时展示了优异的数据效率和测试时扩展性。