本文提出弱到强推理(W2SR)范式,通过显著较弱教师模型生成的结构化链式思维轨迹对强学生模型进行监督微调,以低成本方式显著提升其推理能力,接近甚至超越昂贵的强化学习效果。
Large Language Model, Supervised Learning, Reasoning, Fine-tuning, Efficiency
Yige Yuan, Teng Xiao, Shuchang Tao, Xue Wang, Jinyang Gao, Bolin Ding, Bingbing Xu
中国科学院计算技术研究所, 中国科学院大学, 宾夕法尼亚州立大学, 阿里巴巴集团
Generated by grok-3
Background Problem
大型语言模型(LLMs)在推理密集型任务(如数学问题求解、符号计算和代码生成)上表现出色,但提升其推理能力通常依赖于两种昂贵的方法:一是通过可验证奖励信号的强化学习(RL),二是通过高质量链式思维(CoT)数据的监督微调(SFT)。前者计算成本高昂,且对基础模型能力有较高要求;后者则面临高质量数据获取困难,尤其是在专业领域中,人工标注或从前沿强模型中提取CoT数据的成本极高。本文提出一个新颖问题:是否可以在不依赖昂贵强教师模型和强化学习的情况下,通过显著较弱模型的监督来有效激励LLMs的推理能力?
Method
本文提出了弱到强推理(W2SR)范式,核心思想是通过显著较弱的教师模型生成的链式思维(CoT)轨迹,对能力更强的学生模型进行监督微调(SFT),以激发其推理能力。具体步骤如下:
- 数据生成:使用弱教师模型(参数规模小或准确率较低,但具备一定推理能力)为输入问题生成长CoT轨迹(包括中间推理步骤和最终答案),不考虑最终答案的正确性。
- 变体设计:提出三种数据筛选策略:W2SR(使用所有CoT轨迹)、W2SR-P(仅使用最终答案正确的轨迹)和W2SR-N(仅使用最终答案错误的轨迹),以探究正确性对监督效果的影响。
- 学生训练:通过简单的SFT方法,使用负对数似然(NLL)损失函数,让学生模型模仿教师的CoT轨迹,更新参数以提升推理能力。
- 评估指标:引入推理差距恢复(RGR)指标,衡量弱监督训练的学生模型相对于RL训练的学生模型的性能差距恢复程度。
关键洞察:弱教师模型即使规模小或准确率低,只要能生成结构化的推理轨迹,就能为学生提供有价值的监督信号,激发其潜在推理能力。但我对方法的普适性持保留态度:论文未充分探讨弱教师CoT轨迹的具体结构特征(如逻辑连贯性、错误分布)对学生学习的影响,这可能是方法效果的关键变量。此外,W2SR是否会在某些任务或模型架构上失效,尚需更多验证。
Experiment
实验基于多个推理基准数据集(MATH、OlympiaBench、MinervaMath、AMC2023、GPQA)进行,学生模型为Qwen2.5系列(7B、14B、32B),教师模型为更小规模的Qwen2.5系列(0.5B、1.5B、7B、14B),分为具备推理能力的Reasoner和不具备推理能力的Non-Reasoner两类。训练数据来自MATH数据集(难度3-5),采用两阶段框架:首先通过教师模型生成CoT轨迹,然后对学生模型进行SFT训练。评估指标包括Pass@1(准确率)和RGR(推理差距恢复率)。
结果:
- 有效性:W2SR显著提升了学生模型的推理能力,例如Qwen2.5-Math-7B在MATH数据集上从60.20%提升至79.00%(W2SR-P),RGR高达94.34%,接近甚至超过RL训练的效果。
- 关键因素:实验表明,教师模型的推理能力(即生成结构化CoT的能力)比参数规模或任务准确率更重要;即使是最终答案错误的CoT轨迹(W2SR-N),也能提升学生性能(如7B学生模型平均Pass@1从30.71%提升至43.77%)。
- 效率:W2SR在计算成本上远低于RL,例如W2SR-P训练时间比GRPO(一种RL方法)减少25倍,同时性能提升2.92%。
分析与质疑:实验设置较为全面,涵盖了多种模型规模和任务类型,但存在以下问题:一是数据集偏向数学推理任务,可能限制了方法对其他推理类型(如常识推理)的适用性验证;二是RGR指标虽然创新,但以RL为性能上限可能低估了W2SR的潜力(某些情况下W2SR已超过RL);三是缺乏对弱教师CoT轨迹质量的定量分析,难以明确‘结构化’的具体影响。此外,教师规模增加带来的收益递减现象提示方法可能存在适用边界,需进一步探讨。
Further Thoughts
W2SR范式为提升LLMs推理能力提供了一种低成本且具有潜力的新思路,但其机制和局限性值得深入探讨。首先,弱教师模型生成的CoT轨迹如何具体影响学生模型的学习过程,是否会引入系统性偏差或错误模式?例如,若弱教师的推理轨迹在某些领域(如伦理推理)包含误导性逻辑,学生模型是否会继承这些缺陷?这与AI对齐研究密切相关,W2SR或许能作为一种工具,帮助理解强模型如何从弱监督中学习复杂行为模式。其次,W2SR的效果可能与任务类型高度相关,数学推理任务的结构化特性可能使其更适合此方法,而在开放性或多模态任务中,弱教师的监督价值可能下降,未来研究应扩展到更多领域验证其普适性。最后,W2SR与最近的‘小模型指导大模型’趋势(如在隐私保护联邦学习中的应用)有潜在联系,或许能结合多代理系统(Multi-Agent)设计,通过多个弱教师协作生成多样化CoT轨迹,进一步提升学生模型的推理广度和鲁棒性。