Tag: Reasoning
All the articles with the tag "Reasoning".
-
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
本文提出ProRL方法,通过长时间强化学习结合KL散度惩罚和参考策略重置,在多样化任务上训练Nemotron-Research-Reasoning-Qwen-1.5B模型,显著扩展了大型语言模型的推理边界,尤其在基础模型表现较差的领域和分布外任务上表现出色。
-
Do LLMs Need to Think in One Language? Correlation between Latent Language and Task Performance
本文通过引入对抗性提示干扰大型语言模型的潜在语言一致性,研究其对翻译和地理文化任务性能的影响,发现一致性并非总是必要的,因为模型能在最终层适应语言变化。
-
Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning
本文提出Long⊗Short框架,通过长思维和短思维LLM协作推理,利用自动思维分块、冷启动SFT和多轮RL优化,显著提升推理效率,在多个基准上使Qwen2.5-7B和Llama3.1-8B性能接近蒸馏模型,同时减少token长度超80%。
-
Training Language Models to Reason Efficiently
本文提出了一种通过强化学习训练大型推理模型以高效推理的方法,利用长度惩罚目标函数和可调参数α显著降低推理成本,同时在多个数学数据集上保持大部分准确性。
-
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection
本文提出AttentionInfluence方法,通过无监督地利用预训练模型注意力头机制选择推理密集型数据,显著提升了7B参数模型在知识和推理任务上的性能,展现了弱到强的扩展潜力。