Skip to content
Go back 2502.18679 arXiv logo

Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data

Published:  at  11:18 AM
81.58 🤔

本文提出判别式微调(DFT)框架,通过判别式概率模型优化大型语言模型的输出概率,无需人类偏好数据或奖励模型,在数学推理和通用语言任务上显著优于SFT并与SFT→PO方法相当。

Large Language Model, Supervised Learning, Fine-tuning, Reasoning, Efficiency

Siqi Guo, Ilgee Hong, Vicente Balmaseda, Changlong Yu, Liang Qiu, Xin Liu, Haoming Jiang, Tuo Zhao, Tianbao Yang

Texas A&M University, Georgia Institute of Technology, Amazon.com Inc

Generated by grok-3

Background Problem

大型语言模型(LLM)的微调是将其适应特定任务、提升性能和实用性的关键步骤。当前标准方法通常包括监督微调(SFT)和偏好优化(PO)两个阶段,即SFT→PO,其中SFT通过监督数据对齐模型,而PO依赖人类标注的偏好数据或奖励模型进一步优化模型。然而,PO阶段需要大量资源来收集偏好数据或训练奖励模型,限制了其可扩展性和在专业领域的应用。本文提出一个关键问题:是否可以在不依赖人类偏好数据或奖励模型的情况下,实现与SFT→PO相当的性能?为此,作者引入了判别式微调(DFT),旨在解决SFT的局限性,即其生成式训练目标无法有效抑制负面输出,通过判别式学习直接提升正确输出的概率并降低错误输出的概率。

Method

DFT提出了一种判别式概率框架,用于微调大型语言模型(LLM),核心思想是通过显式建模给定输入下所有可能输出中正确答案的判别式似然(discriminative likelihood),而非SFT中仅关注token生成概率的生成式似然。具体方法如下:

关键问题与批评:虽然DFT的判别式框架在理论上具有吸引力,但其依赖于基础模型生成的负面样本质量,若样本分布偏倚或质量不高,可能导致优化方向错误。此外,优化算法的复杂性和数值稳定性问题(如文中提到的极小值问题)可能在大规模应用中成为瓶颈,作者虽提出了解决方案,但未充分验证其在更大模型上的效果。

Experiment

实验在两个训练场景下评估DFT框架:

实验设计分析:实验设置较为全面,涵盖了数学推理和通用语言任务,数据集选择合理,基准测试覆盖广泛。然而,负面样本生成方式(例如通过对抗性提示)可能引入主观性,且样本数量B的选择对性能影响显著(B=2在UF数据上表现最佳,B=4可能导致过拟合),这表明方法对超参数敏感。结果基本符合预期,DFT在抑制负面输出方面表现出色(如训练曲线显示对负面样本的对数似然显著下降),但与最优SFT→PO方法在某些任务(如AlpacaEval2)上仍有差距,且输出长度较短可能影响GPT4评判结果。

批评:实验虽显示DFT的潜力,但缺乏对计算成本和训练时间的详细分析,DFT2虽降低了部分成本,但与SFT相比仍有额外开销。此外,实验未充分探讨负面样本质量对结果的影响,若基础模型生成样本偏差较大,DFT效果可能受限。

Further Thoughts

DFT的核心创新在于将传统监督学习中的判别式思想引入大型语言模型的微调过程,这一思路值得进一步探索,尤其是在如何提升负面样本生成质量方面。当前方法依赖基础模型生成负面样本,若能结合其他技术(如生成对抗网络或对比学习)生成更具代表性的负面样本,可能进一步提升DFT的效果。此外,DFT的优化算法复杂性较高,未来可以探索更高效的近似方法或并行计算策略,以适应更大规模的模型和数据集。我还联想到,DFT的判别式框架可能与其他对齐技术(如RLHF或DPO)结合,形成一种混合方法,既利用判别式学习的优势,又通过少量偏好数据提升对齐精度,这种结合可能在资源受限场景下具有实际应用价值。最后,DFT在输出长度较短时可能被评判系统低估,这提示我们在评估LLM时需重新审视评判标准,确保公平性,尤其是在指令跟随任务中。



Previous Post
Effective Length Extrapolation via Dimension-Wise Positional Embeddings Manipulation
Next Post
TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts