Tag: Efficiency

All the articles with the tag "Efficiency".

Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning

Published: 24 May, 2025 at 11:13 AM

91.13 🤔

本文提出Long⊗Short框架，通过长思维和短思维LLM协作推理，利用自动思维分块、冷启动SFT和多轮RL优化，显著提升推理效率，在多个基准上使Qwen2.5-7B和Llama3.1-8B性能接近蒸馏模型，同时减少token长度超80%。
Training Language Models to Reason Efficiently

Published: 24 May, 2025 at 11:14 AM

91.10 🤔

本文提出了一种通过强化学习训练大型推理模型以高效推理的方法，利用长度惩罚目标函数和可调参数α显著降低推理成本，同时在多个数学数据集上保持大部分准确性。
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

Published: 17 May, 2025 at 11:20 PM

91.07 🤔

本文提出AttentionInfluence方法，通过无监督地利用预训练模型注意力头机制选择推理密集型数据，显著提升了7B参数模型在知识和推理任务上的性能，展现了弱到强的扩展潜力。
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning

Published: 24 May, 2025 at 11:12 AM

90.98 🤔

本文提出 PLAN-AND-BUDGET 框架，通过结构化推理和基于不确定性的自适应 token 预算分配，显著提升大型语言模型在推理任务中的计算效率，E3 指标最高提升 187.5%，同时保持准确率。
Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately

Published: 23 May, 2025 at 11:10 AM

90.81 🤔

本文提出SART框架，通过冗余采样与早期停止以及两阶段动态修剪方法，显著提升了大型语言模型推理服务的效率（最高28.2倍），同时保持了与基线相近的准确性。

Tag: Efficiency

Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning

Training Language Models to Reason Efficiently

AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning

Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately