Tag: Representation Learning
All the articles with the tag "Representation Learning".
-
ABBA: Highly Expressive Hadamard Product Adaptation for Large Language Models
ABBA 提出了一种新型参数高效微调方法,通过两个独立低秩矩阵的哈达玛积重新参数化权重更新,在保持参数效率的同时显著提升表达能力和性能,实验表明其在多个语言模型和任务上优于现有 PEFT 方法。
-
A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)
本文提出了一种无训练的长度外推方法GALI,通过贪婪局部化位置插值和注意力逻辑值插值,显著提升了大型语言模型在长上下文任务中的稳定性和性能,同时避免了输入长度特定调优的需求。
-
Language Model Distillation: A Temporal Difference Imitation Learning Perspective
本文提出了一种基于时间差分学习的模型蒸馏框架,利用大型语言模型输出分布的稀疏性,通过top-p候选集缩减动作空间,在指令跟随任务中实现了性能提升和计算效率的改进。
-
Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling
本文提出Grouped Cross Attention (GCA)机制,通过可微分检索和动态上下文选择实现Transformer模型的长度泛化,在16M上下文长度下达到完美passkey检索准确率,同时显著降低计算和内存成本。
-
Achieving Tokenizer Flexibility in Language Models through Heuristic Adaptation and Supertoken Learning
本文提出TokenAdapt框架,通过混合启发式初始化策略实现分词器移植,并在零样本困惑度测试中显著优于基线方法,同时初步探索Supertoken学习以提升压缩效率。