Tag: Supervised Learning
All the articles with the tag "Supervised Learning".
-
Behavior Injection: Preparing Language Models for Reinforcement Learning
本文提出BRIDGE方法,通过在SFT阶段注入探索和利用行为增强大型语言模型的RL准备度,并在数学与逻辑推理任务上显著提升RFT性能。
-
Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster
本文提出分块训练(CWT)和跳跃思维训练(STT),通过将推理过程分块并跳过非核心块,显著提升小型语言模型在链式思维蒸馏中的推理准确性和速度。
-
Advancing Multimodal Reasoning via Reinforcement Learning with Cold Start
本文通过质疑‘aha moment’模式与推理能力提升的相关性,提出了一种结合监督微调(SFT)和强化学习(RL)的两阶段方法,在3B和7B规模的多模态大语言模型上显著提升了多模态推理性能,达到开源模型中的最优水平。
-
AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models
本文提出 AutoL2S 框架,通过标注长短推理路径和 <EASY> 标记训练 LLMs,使其根据问题复杂性动态选择推理长度,实验显示推理长度压缩高达57%,性能基本保持。
-
Sparsity May Be All You Need: Sparse Random Parameter Adaptation
本文提出SpaRTA方法,通过随机选择一小部分预训练模型参数进行微调,实现参数高效性,并在自然语言理解任务上展现出与LoRA相当的性能和显著的内存节省。