Tag: Instruction Tuning
All the articles with the tag "Instruction Tuning".
-
Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models
本文提出Diverse-NS框架,通过长度控制的自学习和偏好优化显著提升了大型语言模型在创造性任务中的响应多样性,同时在大多数情况下保持了输出质量,并验证了小模型作为大模型多样性教师的可行性。
-
Exploring the Potential of Offline RL for Reasoning in LLMs: A Preliminary Study
本文通过探索离线强化学习方法(LD-DPO),在DeepDistill-32B模型上实现了平均3.3%的推理性能提升,尤其在Arena-Hard基准上提升10.1%,并强调了推理长度与语义丰富性平衡的重要性。
-
Cross-Lingual Optimization for Language Transfer in Large Language Models
本文提出跨语言优化(CLO)方法,通过翻译数据和改进的DPO策略,将英语中心的大型语言模型有效转移到目标语言,在保持英语能力的同时显著提升目标语言性能,尤其在低资源语言中以更少数据取得优于传统SFT的结果。
-
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
本文研究了大语言模型在强化学习后训练中对奖励噪声的鲁棒性,提出推理模式奖励(RPR)策略,通过奖励关键推理短语而非答案正确性显著提升性能,并用RPR校准噪声奖励模型,改善开放式任务表现。
-
Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs
本文提出DCoT方法,通过在单次推理步骤内生成多个多样化推理链并进行自我改进,显著提升了大型语言模型在复杂推理任务上的性能,尤其在结果空间较大的任务中效果突出。