Tag: Long Context
All the articles with the tag "Long Context".
-
Core Context Aware Transformers for Long Context Language Modeling
本文提出了一种核心上下文感知注意力机制(CCA-Attention),通过全局感知池化和局部保持模块减少长上下文建模中的冗余信息,在保持性能的同时显著提升计算效率,实验表明在 128K 上下文下实现了 7.9 倍加速和约 45% 内存减少。
-
Mitigate Position Bias in Large Language Models via Scaling a Single Dimension
本文提出通过缩放隐藏状态中的位置通道来缓解长上下文语言模型的位置偏差问题,并在多个模型和任务上验证了其有效性,特别是在“中间丢失”基准测试中显著提升了中间位置信息的利用率。
-
Explaining Context Length Scaling and Bounds for Language Models
本文从内在空间视角提出理论框架,解释上下文长度对语言模型损失的影响,推导出与数据集大小相关的最优上下文长度,并通过自然语言和合成数据实验验证假设。
-
InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models
INFTYTHINK通过将长上下文推理分解为迭代短推理片段并结合中间总结,突破了大型语言模型的上下文长度限制,在多个基准上显著提升性能,同时降低了计算成本。
-
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions
本文通过提出AI记忆系统的分类(参数、上下文结构化和非结构化)和六种基本操作(整合、更新、索引、遗忘、检索、压缩),系统化地综述了长期记忆、长上下文、参数修改和多源记忆等研究主题,并展望了未来方向。