Skip to content
Go back 2505.15134 arXiv logo

The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

Published:  at  11:08 AM
85.70 🤔

本文通过熵最小化提出三种无监督方法(EM-FT, EM-RL, EM-INF),显著提升了大型语言模型在数学、物理和编码推理任务上的表现,无需标注数据且在某些情况下超越了传统监督方法和前沿模型。

Large Language Model, Reinforcement Learning, Reasoning, Efficiency, Pre-training

Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng

University of Illinois Urbana-Champaign

Generated by grok-3

Background Problem

大型语言模型(LLMs)在预训练阶段已通过海量数据获得了强大的潜在推理能力,但如何在无需标注数据的情况下进一步提升其在数学、物理和编码等复杂推理任务上的表现仍是一个挑战。本文从熵最小化(Entropy Minimization, EM)的视角出发,基于模型高置信度输出更可能正确的假设,探索了通过减少模型输出分布的不确定性来增强推理能力的方法,旨在解决传统后训练方法对标注数据的依赖问题。

Method

本文提出了三种基于熵最小化的方法来提升LLMs的推理能力:

Experiment

实验在数学(Math-500, AMC, AIME, Minerva, Olympiad Bench)、编码(LeetCode, LiveCodeBench-v2)和科学任务(SciCode, UGPhysics)上展开,使用Qwen-2.5-7B/32B和Llama-3.1-8B作为基础模型,训练数据包括35K数学和25K编码无标注提示词,基线方法包括监督微调(SFT)、RLOO、GRPO和自一致性(Self-Consistency)。

Further Thoughts

熵最小化作为一种无监督方法,为挖掘预训练模型的潜在推理能力提供了一个新颖视角,但其对基础模型能力和任务分布的依赖性提示我们需要在更广泛的模型和任务上测试其鲁棒性。未来研究可以探索如何结合自适应熵阈值或任务特定调整机制来增强EM-INF的普适性。此外,熵最小化是否能与其他无监督方法(如自训练或对比学习)结合,以进一步减少对预训练能力的依赖,也是一个值得探索的方向。另一个有趣的联系是与领域适应(Domain Adaptation)的研究,熵最小化在领域适应中已被用作正则化手段,是否能借鉴其思想来解决LLMs在新任务上的分布偏移问题,或许能为跨领域推理提供新的解决方案。



Previous Post
A Unified Approach to Routing and Cascading for LLMs
Next Post
Analyzing Mitigation Strategies for Catastrophic Forgetting in End-to-End Training of Spoken Language Models