Tag: Efficiency
All the articles with the tag "Efficiency".
-
Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling
本文提出Grouped Cross Attention (GCA)机制,通过可微分检索和动态上下文选择实现Transformer模型的长度泛化,在16M上下文长度下达到完美passkey检索准确率,同时显著降低计算和内存成本。
-
Interleaved Reasoning for Large Language Models via Reinforcement Learning
本文提出了一种交错推理范式,通过强化学习训练大型语言模型交替思考和回答,显著降低时间到首token(TTFT)超过80%,并在多个推理任务上提升准确率最高达19.3%。
-
Structured Agent Distillation for Large Language Model
本文提出结构化代理蒸馏框架,通过分割大型语言模型代理轨迹为推理和行动片段并施加分段特定监督,在压缩模型时显著提升任务成功率、推理效率和一致性,优于token级基线。
-
Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning
本文提出TokenAdapt框架,通过混合启发式初始化策略实现分词器移植,并在零样本困惑度测试中显著优于基线方法,同时初步探索Supertoken学习以提升压缩效率。
-
Tensor Product Attention Is All You Need
本文提出Tensor Product Attention (TPA),通过上下文相关的张量分解压缩KV缓存,显著减少推理内存占用,并在语言建模任务中优于或匹配MHA、MQA等基线性能。