Tag: Instruction Tuning
All the articles with the tag "Instruction Tuning".
-
More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives
本文提出DrICL方法,通过差异化学习和基于优势的重新加权优化大型语言模型在many-shot上下文学习中的性能,并在自建的ICL-50数据集上验证了其在多种任务中的稳定性和有效性。
-
Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling
本文提出响应条件Bradley-Terry(Rc-BT)模型,通过区分语义意图和长度指令,显著缓解大语言模型在RLHF中的长度偏见,并提升长度指令遵循能力,实验验证了其在多个模型和数据集上的优越性。
-
Scaling Reasoning can Improve Factuality in Large Language Models
本文通过从先进模型中提取并用知识图谱增强推理轨迹,微调Qwen2.5系列模型,并在复杂开放域问答任务中验证了测试时计算扩展(并行采样和预算强制)可提升事实准确性2-8%,尤其对小型模型效果显著。
-
Improving the Language Understanding Capabilities of Large Language Models Using Reinforcement Learning
本文通过将自然语言理解任务转化为强化学习问题,使用PPO算法微调中小规模LLMs,在GLUE和SuperGLUE基准上显著提升性能,超越监督微调和BERT-large,并展现出优于GPT-4o的零样本泛化能力。
-
PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery
PASER提出了一种针对剪枝后大语言模型能力恢复的后训练数据选择方法,通过语义聚类、能力退化感知选择和负面效应缓解,在有限数据预算下显著提升恢复性能并降低计算成本。