Tag: Reinforcement Learning
All the articles with the tag "Reinforcement Learning".
-
Thinkless: LLM Learns When to Think
本文提出Thinkless框架,通过强化学习和解耦组相对策略优化(DeGRPO)算法,使大型语言模型根据任务复杂度和自身能力自主选择短格式或长格式推理,在数学任务上显著提升效率并保持性能。
-
SATURN: SAT-based Reinforcement Learning to Unleash Language Model Reasoning
SATURN提出一个基于SAT问题的强化学习框架,通过课程学习和可控难度的SAT任务显著提升大型语言模型在SAT、数学和编程任务上的推理能力。
-
RAISE: Reinforced Adaptive Instruction Selection For Large Language Models
本文提出 RAISE 框架,通过强化学习驱动的动态指令选择方法,根据指令对模型性能的预期影响自适应选择训练数据,仅用 1% 训练步骤即可超越全数据训练效果,并在多个基准测试中显著优于静态选择基线。
-
HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization
HAPO 通过历史感知的策略优化训练语言模型,利用动态长度奖励机制显著减少推理输出长度(33-59%),同时仅以 2-5% 的准确率下降为代价,优于现有方法。
-
Adaptive Deep Reasoning: Triggering Deep Thinking When Needed
本文提出了一种自适应深度推理方法,通过监督微调和强化学习使大型语言模型根据问题复杂性自动切换长链和短链推理模式,并在数学任务上展示了有效性和效率提升。