Skip to content
Go back 2504.21233 arXiv logo

Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

Published:  at  04:33 PM
83.56 👍

本文提出了一种多阶段训练方案,包括大规模蒸馏、滚动偏好优化和可验证奖励的强化学习,显著提升了小型语言模型在数学推理任务中的性能,使3.8B参数的Phi-4-Mini-Reasoning模型超过了近两倍参数的开源基线模型。

Small Language Model, Chain-of-Thought, Mathematical Reasoning, Distillation, Reinforcement Learning, Preference Optimization

Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen

Microsoft

Generated by grok-3-mini-latest

Background Problem

大型语言模型(LLMs)通过链式思考(Chain-of-Thought, CoT)技术显著提升了推理能力,但小型语言模型(SLMs)由于模型容量有限,改进推理能力仍面临挑战。最近的研究表明,从LLM生成的合成数据中进行蒸馏可以显著提升SLM的推理性能,例如Deepseek-R1的工作将Llama-8B在MATH-500上的准确率从44.4%提高到89.1%。然而,现有的方法缺乏详细的训练方案,且简单应用某些技术(如直接蒸馏小数据集)可能导致性能下降。本文的目标是解决这一问题,提出一个系统的、多阶段的训练配方,针对SLM在数学推理任务中的能力提升,提供一个全面且有效的解决方案。

Method

Experiment

Further Thoughts

这项工作突出了数据质量和训练策略在SLM性能提升中的关键作用,可能启发其他领域如代码生成或常识推理的应用,因为类似的多阶段方法可以帮助模型在资源受限环境下实现高效学习;此外,它强调了RL稳定性的重要性,未来可以探索与其他优化技术(如元学习)的结合,以提高模型的泛化能力和部署效率,特别是在边缘计算场景中。



Previous Post
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs
Next Post
Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding