Skip to content
Go back 2504.21318 arXiv logo

Phi-4-reasoning Technical Report

Published:  at  04:31 PM
77.09 😐

本文通过数据导向的监督微调和强化学习,开发了小型LLM Phi-4-reasoning 和 Phi-4-reasoning-plus,提升了其在复杂推理任务上的性能,与大型模型竞争。

Supervised Learning, Reinforcement Learning, Reasoning, Fine-tuning, Large Language Model, Data Augmentation

Marah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng

Microsoft

Generated by grok-3-mini-latest

Background Problem

本工作的出发点是开发专注于推理的大型语言模型(LLMs),以处理需要多步分解、内部反思和探索多种问题解决策略的复杂任务。背景包括当前推理模型的快速发展,如OpenAI的o1、o3系列、Anthropic的Claude和Google的Gemini等,以及DeepSeek-R1等模型通过蒸馏技术将大型模型的推理能力转移到较小模型中的进展。关键问题包括如何在较小模型中提升推理能力、利用推理时的计算资源(如增加推理长度来改善性能),以及通过数据导向的方法(如监督微调和强化学习)来解决模型在复杂任务上的局限性,例如Phi-4基模型虽有较强基础但未被显式训练生成扩展的链式思考痕迹。

Method

Experiment

Further Thoughts

论文强调数据 curation 在提升小型LLM推理能力中的关键作用,这启发我们将其扩展到其他领域,如AI安全或多模态模型中,例如结合视觉数据进行空间推理训练。同时,RL方法的改进(如更广泛的任务集)可能借鉴DeepSeek-R1的蒸馏技术,进一步提升泛化性;此外,论文对评估方法的反思(如处理非确定性和使用更大基准)呼应了最近工作(如Eureka ML Insights),建议未来研究开发更鲁棒的评估框架,以减少模型比较中的偏差,并探索推理模型在真实世界应用中的伦理问题,如潜在的过拟合或安全风险。



Previous Post
Base Models Beat Aligned Models at Randomness and Creativity
Next Post
Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models?