Tag: Efficiency
All the articles with the tag "Efficiency".
-
Unraveling LoRA Interference: Orthogonal Subspaces for Robust Model Merging
本文提出OSRM方法,通过在微调前约束LoRA子空间以减少任务间干扰,显著提升了多个语言模型在八个GLUE数据集上的合并性能,同时保持单任务准确性。
-
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation
本文提出CoLA及其内存优化变体CoLA-M,通过用低秩自动编码器替换LLMs的全尺寸MLP和投影层,实现2倍模型大小和计算成本的减少,同时保持全秩性能,并在训练和推理中显著提升吞吐量。
-
Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization
本文提出了一种通过迭代训练和人类反馈将提示内部化到模型权重中的方法,使基于Llama-3.1-70B的AI代理在多任务基准测试ToolQA和OfficeBench上分别达到97.9%和90.3%的成功率,超越GPT-4o和DeepSeek-V3,同时显著提升推理效率。
-
CoLA: Collaborative Low-Rank Adaptation
CoLA通过提出灵活的LoRA架构和三种协作策略,结合扩展PiSSA初始化,显著提升了参数高效微调在多任务和数据稀缺场景下的性能和鲁棒性。
-
Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning
本文系统研究了CoT蒸馏中教师模型选择、粒度和格式对小型语言模型(SLMs)推理能力的影响,发现强模型受益于高粒度CoT而弱模型偏好中等粒度,格式影响有限,且教师模型能力并非决定学生表现的唯一因素。