Tag: Reasoning

All the articles with the tag "Reasoning".

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Published: 3 Jun, 2025 at 11:45 AM

91.52 🤔

本文提出ProRL方法，通过长时间强化学习结合KL散度惩罚和参考策略重置，在多样化任务上训练Nemotron-Research-Reasoning-Qwen-1.5B模型，显著扩展了大型语言模型的推理边界，尤其在基础模型表现较差的领域和分布外任务上表现出色。
Do LLMs Need to Think in One Language? Correlation between Latent Language and Task Performance

Published: 3 Jun, 2025 at 11:44 AM

91.19 🤔

本文通过引入对抗性提示干扰大型语言模型的潜在语言一致性，研究其对翻译和地理文化任务性能的影响，发现一致性并非总是必要的，因为模型能在最终层适应语言变化。
Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning

Published: 24 May, 2025 at 11:13 AM

91.13 🤔

本文提出Long⊗Short框架，通过长思维和短思维LLM协作推理，利用自动思维分块、冷启动SFT和多轮RL优化，显著提升推理效率，在多个基准上使Qwen2.5-7B和Llama3.1-8B性能接近蒸馏模型，同时减少token长度超80%。
Training Language Models to Reason Efficiently

Published: 24 May, 2025 at 11:14 AM

91.10 🤔

本文提出了一种通过强化学习训练大型推理模型以高效推理的方法，利用长度惩罚目标函数和可调参数α显著降低推理成本，同时在多个数学数据集上保持大部分准确性。
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

Published: 17 May, 2025 at 11:20 PM

91.07 🤔

本文提出AttentionInfluence方法，通过无监督地利用预训练模型注意力头机制选择推理密集型数据，显著提升了7B参数模型在知识和推理任务上的性能，展现了弱到强的扩展潜力。

Tag: Reasoning

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Do LLMs Need to Think in One Language? Correlation between Latent Language and Task Performance

Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning

Training Language Models to Reason Efficiently

AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection