Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data

本文提出判别式微调（DFT）框架，通过判别式概率模型优化大型语言模型的输出概率，无需人类偏好数据或奖励模型，在数学推理和通用语言任务上显著优于SFT并与SFT→PO方法相当。

Large Language Model, Supervised Learning, Fine-tuning, Reasoning, Efficiency

Siqi Guo, Ilgee Hong, Vicente Balmaseda, Changlong Yu, Liang Qiu, Xin Liu, Haoming Jiang, Tuo Zhao, Tianbao Yang

Texas A&M University, Georgia Institute of Technology, Amazon.com Inc

Generated by grok-3

Background Problem

大型语言模型（LLM）的微调是将其适应特定任务、提升性能和实用性的关键步骤。当前标准方法通常包括监督微调（SFT）和偏好优化（PO）两个阶段，即SFT→PO，其中SFT通过监督数据对齐模型，而PO依赖人类标注的偏好数据或奖励模型进一步优化模型。然而，PO阶段需要大量资源来收集偏好数据或训练奖励模型，限制了其可扩展性和在专业领域的应用。本文提出一个关键问题：是否可以在不依赖人类偏好数据或奖励模型的情况下，实现与SFT→PO相当的性能？为此，作者引入了判别式微调（DFT），旨在解决SFT的局限性，即其生成式训练目标无法有效抑制负面输出，通过判别式学习直接提升正确输出的概率并降低错误输出的概率。

Method

DFT提出了一种判别式概率框架，用于微调大型语言模型（LLM），核心思想是通过显式建模给定输入下所有可能输出中正确答案的判别式似然（discriminative likelihood），而非SFT中仅关注token生成概率的生成式似然。具体方法如下：

判别式概率框架：定义一个评分函数 $s_\theta(y, x)$ 来衡量输出 $y$ 对输入 $x$ 的适合度，并通过softmax形式建模判别式概率 $P_d(y|x) = \frac{\exp(s_\theta(y, x)/\tau)}{\sum_{y' \in \mathcal{Y}} \exp(s_\theta(y', x)/\tau)}$ ，其中 $\mathcal{Y}$ 是所有可能输出的空间， $\tau$ 是温度参数。目标是最大化训练数据上的判别式对数似然，同时降低其他潜在错误输出的评分。
评分函数设计：作者尝试了两种评分函数设置：一是直接使用生成式对数似然 $s_\theta(y, x) = \log P_g(y|x)$ ；二是长度归一化的生成式对数似然 $s_\theta(y, x) = \frac{1}{|y|} \log P_g(y|x)$ ，以便与某些偏好优化方法比较。
优化算法：由于对所有可能输出求和在计算上不可行，作者采用有限和耦合组合优化（FCCO）框架，通过从基础模型 $P_g^0$ 生成负面样本（使用增强提示以生成潜在错误输出），并利用移动平均估计器跟踪目标函数的梯度估计，优化判别式似然。还提出了DFT2作为DFT的近似版本，通过简化计算降低成本。

关键问题与批评：虽然DFT的判别式框架在理论上具有吸引力，但其依赖于基础模型生成的负面样本质量，若样本分布偏倚或质量不高，可能导致优化方向错误。此外，优化算法的复杂性和数值稳定性问题（如文中提到的极小值问题）可能在大规模应用中成为瓶颈，作者虽提出了解决方案，但未充分验证其在更大模型上的效果。

Experiment

实验在两个训练场景下评估DFT框架：

数学推理任务：使用MetaMathQA数据集（395K样本），基于Mistral-7B-v0.1模型，评估在GSM8K和MATH基准上的零样本准确率。结果显示DFT和DFT2均优于SFT训练的MetaMath-Mistral-7B，在GSM8K上达到79.15%（DFT）和78.77%（DFT2），在MATH上达到28.34%（DFT）和28.62%（DFT2），表明DFT在数学推理能力上显著改进。
通用语言任务：使用UltraFeedback（UF）数据集（61K样本，仅使用胜出响应作为正样本），在Huggingface Open Leaderboard的七个基准（如MMLU、TruthfulQA等）和AlpacaEval2上评估。DFT和DFT2在几乎所有基准上优于SFT，平均准确率分别为62.84%和62.56%，与自博弈方法（如SPIN、SimPO）和SFT→PO方法（如DPO、KTO）相比具有竞争力，尤其是在单阶段训练且不依赖偏好数据的情况下。

实验设计分析：实验设置较为全面，涵盖了数学推理和通用语言任务，数据集选择合理，基准测试覆盖广泛。然而，负面样本生成方式（例如通过对抗性提示）可能引入主观性，且样本数量B的选择对性能影响显著（B=2在UF数据上表现最佳，B=4可能导致过拟合），这表明方法对超参数敏感。结果基本符合预期，DFT在抑制负面输出方面表现出色（如训练曲线显示对负面样本的对数似然显著下降），但与最优SFT→PO方法在某些任务（如AlpacaEval2）上仍有差距，且输出长度较短可能影响GPT4评判结果。

批评：实验虽显示DFT的潜力，但缺乏对计算成本和训练时间的详细分析，DFT2虽降低了部分成本，但与SFT相比仍有额外开销。此外，实验未充分探讨负面样本质量对结果的影响，若基础模型生成样本偏差较大，DFT效果可能受限。

Further Thoughts

DFT的核心创新在于将传统监督学习中的判别式思想引入大型语言模型的微调过程，这一思路值得进一步探索，尤其是在如何提升负面样本生成质量方面。当前方法依赖基础模型生成负面样本，若能结合其他技术（如生成对抗网络或对比学习）生成更具代表性的负面样本，可能进一步提升DFT的效果。此外，DFT的优化算法复杂性较高，未来可以探索更高效的近似方法或并行计算策略，以适应更大规模的模型和数据集。我还联想到，DFT的判别式框架可能与其他对齐技术（如RLHF或DPO）结合，形成一种混合方法，既利用判别式学习的优势，又通过少量偏好数据提升对齐精度，这种结合可能在资源受限场景下具有实际应用价值。最后，DFT在输出长度较短时可能被评判系统低估，这提示我们在评估LLM时需重新审视评判标准，确保公平性，尤其是在指令跟随任务中。