本文通过数据导向的监督微调和强化学习,开发了小型LLM Phi-4-reasoning 和 Phi-4-reasoning-plus,提升了其在复杂推理任务上的性能,与大型模型竞争。
Supervised Learning, Reinforcement Learning, Reasoning, Fine-tuning, Large Language Model, Data Augmentation
Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng
Microsoft
Generated by grok-3-mini-latest
Background Problem
本工作的出发点是开发专注于推理的大型语言模型(LLMs),以处理需要多步分解、内部反思和探索多种问题解决策略的复杂任务。背景包括当前推理模型的快速发展,如OpenAI的o1、o3系列、Anthropic的Claude和Google的Gemini等,以及DeepSeek-R1等模型通过蒸馏技术将大型模型的推理能力转移到较小模型中的进展。关键问题包括如何在较小模型中提升推理能力、利用推理时的计算资源(如增加推理长度来改善性能),以及通过数据导向的方法(如监督微调和强化学习)来解决模型在复杂任务上的局限性,例如Phi-4基模型虽有较强基础但未被显式训练生成扩展的链式思考痕迹。
Method
- 核心思想: 通过数据导向的方法增强小型LLM的推理能力,核心是利用监督微调(SFT)和强化学习(RL)来提炼结构化的推理技能。
- 实现方式: 对于Phi-4-reasoning,使用SFT在Phi-4基模型上训练,数据集包括超过140万条提示和响应对,这些响应由o3-mini生成的高质量推理痕迹组成。提示被筛选为处于模型能力边界处的”可教”样本,涵盖STEM、编码和安全领域。SFT使用特定系统消息引导模型在
和 标签内生成推理块,并调整模型的最大令牌长度至32k。针对Phi-4-reasoning-plus,进一步应用基于结果的RL,使用Group Relative Policy Optimization (GRPO)算法,焦点在约6.4k个可验证数学问题上。RL的奖励函数结合了准确性奖励和长度惩罚,例如对于正确答案,奖励基于余弦缩放公式,其中是长度归一化因子;对于错误答案类似处理,并添加重复惩罚。 - 主要步骤: 1. 数据 curation:收集并过滤种子提示,优先选择难度适中、多样化的样本,并使用LLM评估器筛选。2. SFT训练:使用AdamW优化器,学习率,在32k上下文长度下训练。3. RL训练:使用GRPO最大化奖励函数,批大小64,训练约90步。
Experiment
- 实验设置: 本文使用多种基准测试评估模型性能,包括数学推理(AIME、HMMT、OmniMath)、科学推理(GPQA)、编码(LiveCodeBench)、算法问题解决(3SAT、TSP)、规划(BA-Calendar)和空间理解(Maze、SpatialMap)。实验设计考虑了模型的非确定性,通过多次运行(例如AIME 2025使用50次独立运行)报告标准差,以提高统计鲁棒性。数据集 decontamination 确保无污染,RL焦点在数学领域。实验旨在验证SFT和RL对推理能力的提升,以及模型在未针对领域的泛化能力。
- 为什么这样设计: 这种设置全面且合理,因为它不仅覆盖了多样化的推理任务,还通过增加运行次数和报告方差来处理LLM的固有随机性,避免了基于小样本的单次运行可能带来的误导。基准选择包括挑战性和非饱和数据集,以评估模型的真实性能和鲁棒性。
- 结果: Phi-4-reasoning和Phi-4-reasoning-plus在保持基模型准确率的同时,显著提升了推理性能。例如,在AIME 2025上,Phi-4-reasoning-plus准确率达78.0%(标准差4.6%),与671B参数的DeepSeek-R1相当;在OmniMath上提升50%以上;在编码基准LiveCodeBench上提升25%以上。模型在非目标领域如算法和规划任务上也显示出30%-60%的改善。准确率与令牌使用权衡显示,RL版本生成更长推理痕迹(约1.5倍),但在某些任务上未见显著优势,提示未来优化方向。结果符合预期,证明了数据 curation 和RL的有效性,但也暴露了如生物学和化学领域较小改进的机会。
Further Thoughts
论文强调数据 curation 在提升小型LLM推理能力中的关键作用,这启发我们将其扩展到其他领域,如AI安全或多模态模型中,例如结合视觉数据进行空间推理训练。同时,RL方法的改进(如更广泛的任务集)可能借鉴DeepSeek-R1的蒸馏技术,进一步提升泛化性;此外,论文对评估方法的反思(如处理非确定性和使用更大基准)呼应了最近工作(如Eureka ML Insights),建议未来研究开发更鲁棒的评估框架,以减少模型比较中的偏差,并探索推理模型在真实世界应用中的伦理问题,如潜在的过拟合或安全风险。