Tag: Language Modeling

All the articles with the tag "Language Modeling".

From Attention to Atoms: Spectral Dictionary Learning for Fast, Interpretable Language Models

Published: 4 May, 2025 at 04:33 PM

75.71 🤔

本文提出光谱字典生成模型（SDGM），通过学习全局傅里叶字典和 token 混合系数替换自注意力机制，实现 O(KL) 复杂度的高效语言建模，并在基准数据集上取得竞争性 perplexity 和显著的资源节省。
Intra-Layer Recurrence in Transformers for Language Modeling

Published: 7 May, 2025 at 12:12 AM

69.79 🤔

本文提出Intra-Layer Recurrence (ILR)方法，通过在Transformer单次前向传播中选择性循环特定层（尤其是早期层），在不增加参数量的情况下改善语言建模困惑度，但计算成本增加和大规模模型验证不足限制了其实用性。