Tag: Efficiency
All the articles with the tag "Efficiency".
-
Temporal Scaling Law for Large Language Models
本文提出时间缩放定律(Temporal Scaling Law),通过动态双曲线法则建模LLM预训练中每个token位置的损失变化,精准预测整体测试损失演变,支持直接在目标模型上选择超参数并揭示学习动态。
-
From System 1 to System 2: A Survey of Reasoning Large Language Models
本文综述了从基础LLMs向推理LLMs的演进,通过整合System 2技术提升AI的逐步推理能力,并在基准测试中展示了显著性能改进。
-
Looped Transformers for Length Generalization
本文提出Looped Transformers方法,通过循环结构和自适应步数显著提升了Transformer在算法任务上的长度泛化能力,在多种任务中优于传统方法。
-
Efficient Single-Pass Training for Multi-Turn Reasoning
本文提出了一种通过响应令牌复制和自定义注意力掩码来实现多轮推理对话单次前向传递训练的方法,显著提高了训练效率,同时维护了推理可见性和位置一致性。
-
R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training
R&B框架通过基于语义相似性的数据重新分组和梯度驱动的动态权重调整,以极低的计算开销(0.01%)在自然语言和多模态任务中匹配或超越现有数据混合策略,提升了基础模型训练效率。