Posts
All the articles I've posted.
-
When More is Less: Understanding Chain-of-Thought Length in LLMs
本文通过理论分析、控制实验和现实观察,揭示Chain-of-Thought (CoT) 长度与推理性能呈倒U型关系,提出最优长度随任务难度增加和模型能力增强而变化的缩放规律,并展示了基于最优长度的训练和推理策略的显著性能提升。
-
Improving Multilingual Language Models by Aligning Representations through Steering
本文提出了一种通过表示引导调整大型语言模型层级表示的方法,以提升多语言任务性能,实验显示其在多种任务中优于基本提示并接近翻译基线,但对英语任务有负面影响且对低资源语言改进有限。
-
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
本文通过构建模型特定数据集和信念操控实验,揭示了大型语言模型(LLMs)的撤回行为受内部信念因果影响,并通过监督微调显著提高撤回性能。
-
CAT Merging: A Training-Free Approach for Resolving Conflicts in Model Merging
CAT Merging提出了一种无需训练的多任务模型合并框架,通过参数特定的修剪策略有效减少知识冲突,在视觉、语言和视觉-语言任务上显著提升了合并模型性能,平均准确率分别提高2.5%(ViT-B/32)和2.0%(ViT-L/14)。
-
Large Vocabulary Size Improves Large Language Models
本文通过实验证明较大词汇量能显著提升单语大型语言模型在英语和日语任务中的性能,并提出了一种在持续训练中更换词汇表的简单方法以适配目标语言,进一步提升模型表现。