Posts
All the articles I've posted.
-
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging
本文提出MKA方法,通过流形学习和信息瓶颈度量实现大语言模型的层合并压缩,在多个基准数据集上以较小的性能损失实现显著压缩率,并结合量化进一步提升效果。
-
AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models
本文提出 AutoL2S 框架,通过标注长短推理路径和 <EASY> 标记训练 LLMs,使其根据问题复杂性动态选择推理长度,实验显示推理长度压缩高达57%,性能基本保持。
-
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
本文揭示强化学习(RL)微调大型语言模型(LLMs)时仅更新5%-30%参数子网络的现象,通过实验验证仅微调子网络即可恢复全微调性能,并指出训练数据分布接近策略是稀疏性主因,为高效微调策略提供新思路。
-
Round and Round We Go! What makes Rotary Positional Encodings useful?
本文通过理论和实证分析揭示了旋转位置编码(RoPE)在大型语言模型中通过高频构建位置注意力模式和低频传递语义信息的作用机制,并提出p-RoPE方法通过截断低频提高长上下文鲁棒性,在Gemma 2B模型上取得性能提升。
-
Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models
本文通过探测和激活编辑实验,系统研究了语言模型内部信念表征的涌现、结构、鲁棒性和可增强性,发现表征随模型规模和微调改善,具有结构化特征但对提示变化脆弱,并可通过对比激活添加(CAA)显著提升ToM性能。