Tag: Supervised Learning
All the articles with the tag "Supervised Learning".
-
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models
本文综述了DeepSeek-R1发布后100天内推理语言模型的复制研究,系统总结了监督微调和基于可验证奖励的强化学习方法在数据构建和算法设计上的进展,并探讨了推理能力提升的多方向应用。
-
IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment
IDEAL提出了一种基于梯度的迭代数据均衡适应框架,通过动态优化监督微调(SFT)中多领域数据集的比例,在2次迭代内显著提升大型语言模型的多任务性能,平均得分提高约7%。
-
When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
本文通过构建模型特定数据集和信念操控实验,揭示了大型语言模型(LLMs)的撤回行为受内部信念因果影响,并通过监督微调显著提高撤回性能。
-
Adaptive Deep Reasoning: Triggering Deep Thinking When Needed
本文提出了一种自适应深度推理方法,通过监督微调和强化学习使大型语言模型根据问题复杂性自动切换长链和短链推理模式,并在数学任务上展示了有效性和效率提升。
-
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
本文提出强化蒸馏(REDI)框架,通过两阶段训练利用正向和负向推理轨迹,显著提升小型语言模型的数学推理性能,Qwen-REDI-1.5B在公开数据上达到1.5B模型的最新水平。