Tag: Preference Optimization
All the articles with the tag "Preference Optimization".
-
Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models
本文提出动态思维模式优化框架(DTO),通过分割和优化大型推理模型的推理路径,显著减少计算开销并提升准确率,在数学推理基准上实现高达12%的准确率提升和47%的FLOPs减少。
-
SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization
SoLoPO通过将长上下文偏好优化分解为短上下文优化和短到长奖励对齐,显著提升了大型语言模型在长上下文任务中的性能和训练效率,同时保持短上下文能力。
-
InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models
InfiFPO提出了一种在偏好对齐阶段进行隐式模型融合的偏好优化方法,通过序列级概率融合和优化策略,将多个源模型知识整合到枢轴模型中,显著提升了Phi-4在11个基准上的平均性能从79.95到83.33。
-
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models
本文提出残差对齐模型(RAM),通过重要性采样分离对齐模块,实现高效的序列级训练和令牌级解码,在多个对齐任务中显著提升性能并降低资源成本。
-
When2Call: When (not) to Call Tools
本文提出When2Call基准,通过多选格式评估语言模型在工具调用决策上的表现,并通过偏好优化(RPO)训练方法显著提升模型在何时调用工具及何时保守行为之间的平衡能力。