Tag: In-Context Learning
All the articles with the tag "In-Context Learning".
-
Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism
本文通过提出Gather-and-Aggregate (G&A)机制,揭示了Transformer和SSM模型在上下文检索能力上的性能差距主要源于少数关键头部的实现差异,并通过混合模型实验验证了注意力机制在改进SSM检索能力上的潜力。
-
Born a Transformer -- Always a Transformer?
本文通过检索和复制任务研究Transformer的长度泛化限制,发现预训练选择性增强了归纳能力(向右/向前任务),但无法克服架构固有局限,微调可平衡不对称性但仍受理论约束。
-
Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning
本文通过创新任务设计和Pythia模型训练检查点分析,揭示上下文学习(ICL)在大型语言模型中既非纯记忆也非符号算法,而是依赖统计特性的有限泛化能力,并探讨了其训练动态和内部机制联系。
-
本文通过隐藏状态的几何特性(可分离性和对齐性)提出统一框架,揭示上下文学习(ICL)在分类任务中的两阶段机制——早期层通过PTH增强可分离性,后期层通过IH优化对齐性,并解释了任务向量的有效性。
-
Understanding Cross-Lingual Inconsistency in Large Language Models
本文通过*logit lens*分析大型语言模型(LLMs)的跨语言不一致性,发现大型模型倾向于在个别语言子空间操作而非共享语义空间,并提出跨语言激活引导方法以提升小型模型的多语言推理性能和知识转移。