Intra-Layer Recurrence in Transformers for Language Modeling

本文提出Intra-Layer Recurrence (ILR)方法，通过在Transformer单次前向传播中选择性循环特定层（尤其是早期层），在不增加参数量的情况下改善语言建模困惑度，但计算成本增加和大规模模型验证不足限制了其实用性。

Transformer, Language Modeling, Representation Learning, Efficiency, Recurrent Structures

Anthony Nguyen, Wenjun Lin

Algoma University

Generated by grok-3

Background Problem

Transformer模型在自然语言处理（NLP）任务中取得了突破性进展，但其不断增加的层数和参数量带来了显著的计算和内存负担。如何在不增加参数量的前提下提升模型性能成为一个重要研究方向。已有方法通过在Transformer中引入循环机制（如Universal Transformers或深度循环Transformer）来增加有效深度，但这些方法通常对整个模型或一组层无差别地应用循环，缺乏细粒度控制，可能导致资源分配不均。本文提出了一种新的方法——Intra-Layer Recurrence (ILR)，旨在通过在单个前向传播中选择性地对特定层进行多次迭代，探索哪些层从循环中获益最多，从而以更精细的方式提升语言建模性能，同时避免参数量的增加。

Method

本文提出的核心方法是Intra-Layer Recurrence (ILR)，即在Transformer模型的单个前向传播中，根据一个预定义的循环映射（reuse map）R=[r1, …, rL]，对每一层进行指定次数的迭代。具体步骤如下：

基本原理：对于标准Transformer的每一层输出 $h^{(l)}$ ，ILR允许该层被重复应用 $r_l$ 次，每次迭代的输出作为下一次迭代的输入，即 $h^{(l,k)} = f_{\theta}^{(l)}(h^{(l,k-1)})$ ，其中 $k=1, ..., r_l$ 。
实现细节：循环次数由循环映射R决定，例如[2,1,1,1]表示第一层迭代2次，其余层各迭代1次（即正常前向传播）。
梯度计算：在反向传播中，循环层的梯度会在每次迭代中累积，作者给出了输入和参数的梯度计算公式，以处理潜在的梯度爆炸或消失问题。
目标：通过这种方式，ILR在不增加参数量的情况下增加模型的有效深度，旨在提升语言建模的困惑度（perplexity），并探索不同层对循环的敏感性。

Experiment

实验基于LLaMA架构，分为小规模（1.2M参数，4层）和大规模（100M参数，8层）两个模型规模，数据集为Fineweb-Edu子集。实验设置包括：

循环策略：测试了多种循环映射（reuse map），如[2,1,1,1]（第一层循环2次）到[4,2,1,1]（早期层循环更多），以及块循环（block recurrence）作为对比。
位置编码：测试了NoPE、RoPE、Learned Absolute PE和ALiBi四种位置编码方法，评估其对循环的影响。
评估指标：以语言建模的困惑度（perplexity，数值越低越好）作为主要指标，同时记录训练计算成本（FLOPs）。

结果显示：

性能提升：ILR在小模型上显著降低了困惑度，尤其是早期层循环更多的配置（如[4,2,1,1]），例如在ALiBi编码下从14.38降至13.63；在大型模型上，效果较为有限（如ALiBi从17.16降至16.98），可能受限于训练数据量（仅3B token）。
循环位置的影响：早期层循环效果优于后期层，符合早期层对表示学习更关键的现有研究。
计算成本：循环增加了计算开销，例如小模型单层循环增加约25%的FLOPs，双倍深度循环增加约100%。

实验设计的合理性：测试多种循环映射和位置编码是全面的，但大规模模型的训练数据量不足（作者承认受计算资源限制），可能未充分发挥ILR潜力；此外，循环映射的选择未通过系统优化，而是基于小模型结果直接推广，存在一定随意性。结果基本符合预期（早期层循环更有效），但提升幅度有限，且计算成本增加明显，实用性需进一步验证。

Further Thoughts

ILR的概念提供了一个有趣的视角，即Transformer中不同层对计算资源的敏感性不同，尤其是早期层在表示学习中的关键作用。这让我联想到其他研究领域，如参数高效微调（Parameter-Efficient Fine-Tuning）中的LoRA方法，是否可以结合ILR，通过在早期层引入少量可训练参数来进一步减少计算开销，同时保持循环带来的性能提升？此外，ILR的循环次数目前是静态定义的，是否可以引入自适应机制，根据输入序列的复杂性（例如通过困惑度或注意力分布的熵值）动态调整循环次数？这可能在实际应用中更具实用性，尤其是在资源受限的边缘设备上。

另一个值得思考的方向是ILR在其他任务上的适用性。本文仅关注语言建模（困惑度），但在分类、翻译或多模态任务中，不同层的功能可能有更大差异，循环策略是否仍以早期层为主？或者是否需要任务特定的循环映射？此外，与深度循环Transformer等方法相比，ILR的细粒度控制是否会在超大规模模型（如GPT系列）中带来显著优势，还是会被计算成本的增加所抵消？这些问题值得后续研究探索，可能需要结合自动化搜索（如NAS）来优化循环映射，而不仅仅依赖手动试验。