Skip to content
Go back 2407.19580 arXiv logo

Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures

Published:  at  01:14 PM
87.28 🤔

本文提出 CoLM 方法,通过构建小批量核心集匹配大批量梯度,在内存需求减少 2 倍的情况下,使 LLM 微调性能优于 4 倍批大小的常规训练,同时提升收敛速度。

Large Language Model, Fine-tuning, Efficiency, Data Augmentation, Pre-training

Dang Nguyen, Wenhan Yang, Rathul Anand, Yu Yang, Baharan Mirzasoleiman

UCLA

Generated by grok-3

Background Problem

大型语言模型(LLM)的训练和微调需要大量计算资源和 GPU 内存,尤其是在存储参数、计算梯度和优化器状态(如 Adam 的动量和历史梯度)时。以 Phi-2(27 亿参数)为例,使用批大小 128 进行完整微调至少需要 44GB GPU 内存,这使得使用更大批大小(batch size)以提升收敛速度和性能变得不可行。本文从数据视角出发,针对这一内存瓶颈问题,提出通过构建小批量核心集(mini-batch coresets)来模拟大批量训练的效果,解决的关键问题是:在内存受限的情况下,如何通过选择代表性数据子集提升 LLM 训练的收敛速度和性能,尤其是在语言数据高度不平衡的场景下。

Method

本文提出了 Coresets for Training LLMs (CoLM) 方法,核心思想是通过构建小批量核心集来匹配大批量梯度,从而在内存受限的情况下模拟大批量训练的效果。具体步骤如下:

Experiment

实验主要在微调和预训练两个场景下进行评估:

Further Thoughts

CoLM 的方法从数据选择角度解决内存问题,为 LLM 训练提供了一种新思路,特别是在资源受限环境下的应用潜力值得关注。然而,其假设小来源样本必须全部保留的策略可能在实际应用中面临挑战,例如在噪声数据较多的场景下可能导致性能下降。未来可以探索结合影响函数或数据质量评估的方法,动态筛选小来源样本以提升鲁棒性。此外,CoLM 与其他内存优化技术(如 LoRA)的兼容性是一个亮点,但其与最新方法(如基于梯度低秩投影的 GaLore)的联合效果值得进一步研究,尤其是在更大规模模型和多样化任务上的表现。另一个有趣的方向是探索 CoLM 在联邦学习(Federated Learning)中的应用,特别是在客户端资源受限的情况下,如何通过核心集选择提升分布式训练效率。



Previous Post
FlashThink: An Early Exit Method For Efficient Reasoning
Next Post
Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism