Posts
All the articles I've posted.
-
Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning
本文提出Long⊗Short框架,通过长思维和短思维LLM协作推理,利用自动思维分块、冷启动SFT和多轮RL优化,显著提升推理效率,在多个基准上使Qwen2.5-7B和Llama3.1-8B性能接近蒸馏模型,同时减少token长度超80%。
-
Training Language Models to Reason Efficiently
本文提出了一种通过强化学习训练大型推理模型以高效推理的方法,利用长度惩罚目标函数和可调参数α显著降低推理成本,同时在多个数学数据集上保持大部分准确性。
-
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection
本文提出AttentionInfluence方法,通过无监督地利用预训练模型注意力头机制选择推理密集型数据,显著提升了7B参数模型在知识和推理任务上的性能,展现了弱到强的扩展潜力。
-
CoordField: Coordination Field for Agentic UAV Task Allocation In Low-altitude Urban Scenarios
本文提出了一种基于协调场的代理系统(CoordField),通过大型语言模型解析自然语言指令并利用动态势场实现异构无人机群在城市环境中的去中心化任务分配,实验验证了其在任务覆盖、响应时间和动态适应性方面的优越性能。
-
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning
本文提出 PLAN-AND-BUDGET 框架,通过结构化推理和基于不确定性的自适应 token 预算分配,显著提升大型语言模型在推理任务中的计算效率,E3 指标最高提升 187.5%,同时保持准确率。