Skip to content
Go back 2502.10743 arXiv logo

1bit-Merging: Dynamic Quantized Merging for Large Language Models

Published:  at  11:52 AM
92.20 🤔

1bit-Merging提出了一种动态模型合并框架,通过1位量化任务向量和任务特定路由,在保持94.53%性能的同时将存储需求降至55.02%,在通用知识、数学推理和代码生成任务上优于传统和动态合并方法。

Large Language Model, Parameter-Efficient Fine-Tuning, Efficiency, Multimodal Systems, Reasoning, Code Generation

Shuqi Liu, Yuxuan Yao, Bowei He, Zehua Liu, Xiongwei Han, Mingxuan Yuan, Han Wu, Linqi Song

City University of Hong Kong, Huawei Noah’s Ark Lab

Generated by grok-3

Background Problem

大型语言模型(LLMs)在特定领域内表现出色,但如何将多个领域专精模型的能力整合到一个统一模型中,成为一个亟待解决的问题。传统的模型合并方法(如静态合并)往往牺牲任务特定性能,而基于任务路由的动态合并方法虽能保持精度,却引入了巨大的存储开销。1bit-Merging 旨在解决这一权衡问题,通过结合任务特定路由和1位量化任务向量,在性能和存储效率之间找到平衡点,同时利用不同任务模型在不同层(如MLP和Attention层)存储知识的特性,进行针对性压缩。

Method

1bit-Merging 是一种动态模型合并框架,其核心思想是通过任务特定路由和1位量化任务向量来实现性能与存储效率的平衡。具体方法如下:

Experiment

实验在LLaMA2-7B、Mistral-7B和LLaMA2-13B模型家族上进行,覆盖通用知识(Chat)、数学推理(Math)和代码生成(Code)三个领域,使用七个基准数据集(如MMLU、GSM8K、HumanEval)评估性能。实验设置包括与传统合并方法(如Task Arithmetic、TIES-Merging、DARE)和动态合并方法(如Twin-Merging)的对比,以及对不同架构和模型规模的扩展性测试。

Further Thoughts

1bit-Merging 的核心贡献在于通过1位量化和动态路由解决模型合并中的存储与性能权衡问题,但其局限性也值得进一步探讨。例如,1位量化虽然大幅减少存储,但在复杂任务中可能丢失关键信息,是否可以通过混合精度量化(如部分模块使用更高精度)来进一步优化性能?此外,动态路由机制的计算开销可能在高并发场景下成为瓶颈,未来可以探索更轻量级的路由设计或基于输入特征的静态路由策略。另一个有趣的方向是跨架构模型合并,当前方法受限于相同架构的模型,若能结合参数映射或知识蒸馏技术,或许能实现异构模型的合并,这将显著扩展应用场景。联想到近期在联邦学习领域的研究,是否可以将1bit-Merging的思想应用于分布式模型合并,以减少通信成本并保护隐私?这一方向可能为边缘设备上的模型部署提供新的思路。



Previous Post
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs
Next Post
Gameplay Highlights Generation