Tag: Efficiency
All the articles with the tag "Efficiency".
-
LoRA-One: One-Step Full Gradient Could Suffice for Fine-Tuning Large Language Models, Provably and Efficiently
本文通过理论分析揭示LoRA适配器与一步全微调梯度子空间的对齐特性,提出LoRA-One算法,利用谱初始化策略显著提升大型语言模型在自然语言理解、数学推理和代码生成任务上的微调性能,同时保持计算效率。
-
Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards
本文提出自适应直接长度惩罚(A-DLP)方法,通过动态调整强化学习中的长度惩罚系数,在减少大型语言模型推理长度超过 50% 的同时保持准确性,为构建高效推理模型提供了新方向。
-
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models
EfficientQAT提出了一种高效的量化感知训练框架,通过块级全参数训练(Block-AP)和端到端量化参数训练(E2E-QP),在低比特场景下显著提升大型语言模型的量化性能,同时大幅降低训练资源需求。
-
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?
本文首次系统比较了推理型与非推理型大语言模型在自然语言生成评估中的表现,发现推理能力的效果高度依赖模型架构,OpenAI o3-mini 在机器翻译评估中显著优于非推理型模型,而 DeepSeek-R1 仅在文本摘要一致性评估中表现突出,蒸馏模型在 32B 参数规模时仍有效。
-
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models
本文提出两种测试时计算扩展算法(淘汰赛式和联赛式),通过生成多个候选解决方案并进行成对比较,在理论上证明其失败概率随计算资源增加呈指数或幂律下降,并在多个数据集和模型上验证了性能提升。