Tag: Reinforcement Learning

All the articles with the tag "Reinforcement Learning".

StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation

Published: 4 May, 2025 at 04:29 PM

79.93 🤔

本文提出 StreamRL 框架，通过分离式流生成架构优化 RL 训练，解决了流水线和偏斜气泡问题，提高了 LLMs RL 训练的吞吐量和成本效率。
Toward Efficient Exploration by Large Language Model Agents

Published: 4 May, 2025 at 04:31 PM

79.45 🤔

本文通过使用 LLMs 显式实现后验采样 RL 算法，显著提高了 LLMs 代理在自然语言环境中的探索效率，同时保留了经典算法的统计性能优势。
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models

Published: 7 May, 2025 at 08:42 AM

78.41 🤔

本文系统综述了基于强化学习的推理方法在多模态大语言模型（MLLMs）中的进展，分析了算法设计、奖励机制及应用，揭示了跨模态推理和奖励稀疏性等挑战，并提出了分层奖励和交互式RL等未来方向。
Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes

Published: 12 May, 2025 at 11:14 AM

76.90 🤔

This paper introduces Latent Preference Coding (LPC), a framework that uses discrete latent codes to model multifaceted human preferences, consistently improving the performance of offline alignment algorithms like DPO, SimPO, and IPO across multiple LLMs and benchmarks.
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

Published: 4 May, 2025 at 04:26 PM

76.52 🤔

本文首次系统调查了大型语言模型高效推理的进展，通过分类模型、输出和提示-based方法，探讨了减少"过度思考"现象的策略，以优化计算效率并保持推理能力。

Tag: Reinforcement Learning

StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation

Toward Efficient Exploration by Large Language Model Agents

Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models

Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models