Tag: Efficiency
All the articles with the tag "Efficiency".
-
AdaptThink: Reasoning Models Can Learn When to Think
本文提出 *AdaptThink*,一种基于强化学习的算法,通过自适应选择 *Thinking* 或 *NoThinking* 模式显著降低推理模型的响应长度(平均减少 40-53%)并提升准确率(平均提升 2.3-2.4%),在数学任务上展现了效率与性能的良好平衡。
-
Can Past Experience Accelerate LLM Reasoning?
本文提出SpeedupLLM框架,通过自适应计算分配和记忆机制实现LLM推理加速,实验表明计算成本最高可减少56%,尤其在高相似度问题上效果显著。
-
Activation-Guided Consensus Merging for Large Language Models
本文提出Activation-Guided Consensus Merging (ACM),通过基于激活值互信息(MI)的层级权重系数调整,实现大型语言模型在Long-to-Short推理任务中的高效合并,显著减少输出冗余并提升推理精度,尤其在小规模模型上效果明显。
-
REARANK: Reasoning Re-ranking Agent via Reinforcement Learning
本文提出REARANK,一种基于强化学习的列表式重排序代理,通过显式推理和数据增强,仅用179个标注查询即在多个信息检索基准上显著超越基线并媲美甚至超越GPT-4,尤其在推理密集型任务中表现突出。
-
A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs
本文提出滑动层合并(SLM)方法,通过基于CKA相似性动态合并大型语言模型的连续层,实现深度剪枝,在零样本任务和推理效率上显著优于现有方法,同时探索了深度与宽度剪枝结合的潜力。