Tag: Reasoning
All the articles with the tag "Reasoning".
-
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning
本文提出了一种通过强化学习(GRPO)优化大型语言模型自我反思能力的方法,在函数调用和数学方程任务上显著提升性能(平均9.0%和16.0%),并展示小模型在训练后可超越未训练大模型。
-
SLOT: Sample-specific Language Model Optimization at Test-time
本文提出SLOT方法,通过测试时对每个输入提示优化一个轻量级样本特定参数向量δ,显著提升大型语言模型在推理任务上的性能,如Qwen2.5-7B在GSM8K上提升8.65%。
-
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models
本文提出了一种层交换方法,通过将语言专家模型的顶部和底部层与数学专家模型的中间层重组,实现零样本跨语言迁移,在低资源语言的数学推理任务上显著提升性能达10%。
-
General-Reasoner: Advancing LLM Reasoning Across All Domains
本文提出General-Reasoner,通过零强化学习结合跨领域高质量数据集和基于生成模型的验证器,显著提升大型语言模型在多领域推理任务上的性能,同时保持数学推理的有效性。
-
You Do Not Fully Utilize Transformer's Representation Capacity
本文提出Layer-Integrated Memory (LIMe),通过学习跨层路由机制整合之前所有层的Key-Value表示,显著缓解Transformer的表示崩塌问题,并在语言建模、推理任务和深层网络中实现更快收敛和更高准确率。