Tag: Reinforcement Learning
All the articles with the tag "Reinforcement Learning".
-
The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning
本文通过熵最小化提出三种无监督方法(EM-FT, EM-RL, EM-INF),显著提升了大型语言模型在数学、物理和编码推理任务上的表现,无需标注数据且在某些情况下超越了传统监督方法和前沿模型。
-
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models
本文综述了DeepSeek-R1发布后100天内推理语言模型的复制研究,系统总结了监督微调和基于可验证奖励的强化学习方法在数据构建和算法设计上的进展,并探讨了推理能力提升的多方向应用。
-
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
本文研究了大语言模型在强化学习后训练中对奖励噪声的鲁棒性,提出推理模式奖励(RPR)策略,通过奖励关键推理短语而非答案正确性显著提升性能,并用RPR校准噪声奖励模型,改善开放式任务表现。
-
Think Silently, Think Fast: Dynamic Latent Compression of LLM Reasoning Chains
本文提出Compressed Latent Reasoning (CoLaR)框架,通过潜在空间动态压缩和强化学习优化大型语言模型的推理过程,在数学推理任务中显著提升效率并保持较高准确率。
-
When More is Less: Understanding Chain-of-Thought Length in LLMs
本文通过理论分析、控制实验和现实观察,揭示Chain-of-Thought (CoT) 长度与推理性能呈倒U型关系,提出最优长度随任务难度增加和模型能力增强而变化的缩放规律,并展示了基于最优长度的训练和推理策略的显著性能提升。