Tag: Efficiency
All the articles with the tag "Efficiency".
-
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory
本文提出了Mem0及其图增强变体Mem0*<sup>g</sup>*,这是一种可扩展的记忆架构,通过动态提取、整合和检索对话中的关键信息来赋予AI Agent长期记忆能力,并在LOCOMO基准测试中显著优于现有方法,同时大幅降低了计算开销。
-
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs
论文通过大规模实验分析了Transformer LLMs中稀疏注意力的效率-准确性权衡,揭示了长序列下更大稀疏模型的优势,并建立了可推广的缩放定律。
-
Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding
本文系统揭示了自注意力模块中大规模值在LLM上下文知识理解中的关键作用,并通过实验证明其源于旋转位置编码(RoPE),为模型优化和量化策略提供新洞见。
-
Think, Prune, Train, Improve: Scaling Reasoning without Scaling Models
本文提出 Think, Prune, Train 框架,通过迭代监督微调和基于正确性的数据修剪,实现模型在不增加规模的情况下提升推理能力,避免模型坍缩。
-
A Survey on Test-Time Scaling in Large Language Models: What, How, Where, and How Well?
本文通过提出一个四维度分类框架(什么扩展、如何扩展、哪里扩展、扩展效果如何),系统综述了测试时扩展(TTS)在大型语言模型中的研究现状,为理解和应用推理阶段计算扩展提供了结构化视角和实践指导。