Tag: Supervised Learning

All the articles with the tag "Supervised Learning".

Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

Published: 30 May, 2025 at 11:15 AM

87.20 🤔

本文挑战了推理 LLMs 中更长思考链提升性能的假设，提出 *short-m@k* 推理方法，通过优先选择较短推理链实现高达 34.5% 的准确率提升和 40% 的计算量减少，并通过微调验证了短推理链训练的有效性。
Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective

Published: 28 May, 2025 at 11:20 AM

87.20 🤔

本文提出RaML框架，从元学习视角将LLM推理轨迹视为伪梯度更新，通过理论分析和实验验证了推理与优化的关联，并探索了训练策略和轨迹特性对推理能力的提升潜力。
Incentivizing Strong Reasoning from Weak Supervision

Published: 30 May, 2025 at 11:19 AM

87.07 🤔

本文提出弱到强推理（W2SR）范式，通过显著较弱教师模型生成的结构化链式思维轨迹对强学生模型进行监督微调，以低成本方式显著提升其推理能力，接近甚至超越昂贵的强化学习效果。
R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search

Published: 30 May, 2025 at 11:22 AM

86.90 🤔

R1-Compress通过块级压缩和块间搜索机制有效压缩长链式推理（Long-CoT），在减少约20% token使用量的同时保持了与基线接近的推理准确率（92.4% vs 93.0%）。
Boltzmann Classifier: A Thermodynamic-Inspired Approach to Supervised Learning

Published: 14 May, 2025 at 11:08 AM

86.86 🤔

The Boltzmann Classifier introduces a thermodynamically inspired supervised learning approach that uses an energy-based model derived from the Boltzmann distribution to estimate class probabilities, achieving competitive accuracy on benchmark datasets while offering interpretability and computational efficiency.

Tag: Supervised Learning

Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

Deciphering Trajectory-Aided LLM Reasoning: An Optimization Perspective

Incentivizing Strong Reasoning from Weak Supervision

R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search

Boltzmann Classifier: A Thermodynamic-Inspired Approach to Supervised Learning