Tag: Language Modeling
All the articles with the tag "Language Modeling".
-
From Attention to Atoms: Spectral Dictionary Learning for Fast, Interpretable Language Models
本文提出光谱字典生成模型(SDGM),通过学习全局傅里叶字典和 token 混合系数替换自注意力机制,实现 O(KL) 复杂度的高效语言建模,并在基准数据集上取得竞争性 perplexity 和显著的资源节省。
-
Intra-Layer Recurrence in Transformers for Language Modeling
本文提出Intra-Layer Recurrence (ILR)方法,通过在Transformer单次前向传播中选择性循环特定层(尤其是早期层),在不增加参数量的情况下改善语言建模困惑度,但计算成本增加和大规模模型验证不足限制了其实用性。