Skip to content
Go back 2504.06564 arXiv logo

Thinking Out Loud: Do Reasoning Models Know When They're Right?

Published:  at  11:51 AM
90.51 🤔

本文通过对比指令微调、监督微调和强化学习训练的大型推理模型,发现推理导向训练显著提升了推理任务中的准确性和校准能力,但在事实性任务中可能削弱小规模模型对知识边界的感知。

Large Language Model, Reinforcement Learning, Supervised Learning, Reasoning, Calibration, Human-AI Interaction

Qingcheng Zeng, Weihao Xuan, Leyang Cui, Rob Voigt

Northwestern University, The University of Tokyo, Westlake University

Generated by grok-3

Background Problem

大型推理模型(LRMs)近年来在复杂推理任务中表现出色,展现出类似人类自我反思的行为。然而,模型的自我反思能力如何与其他行为(如口述信心)相互作用仍未被充分探索。本文聚焦于通过分析模型表达的确定性(verbalized confidence)来研究LRMs的自我反思特性,核心问题是:推理模型是否具有更好的校准能力?即其改进的推理能力是否能带来更可靠的信心估计?此外,论文还探讨了推理导向训练是否会影响模型对自身知识边界的感知,尤其是在事实性任务中。

Method

本文采用了一种系统性的实证研究方法,核心思想是通过对比三种不同训练范式的模型来评估推理导向训练对口述信心校准的影响:

Experiment

实验在多个基准数据集上进行,包括数学(AIME 2024 & 2025)、事实性(SimpleQA, FreshQA)、科学推理(GPQA-Diamond, SuperGPQA)和一般推理(LiveBench-Reasoning),旨在评估模型在不同领域的表现:

Further Thoughts

本文揭示了推理导向训练在提升校准能力方面的潜力,但也暴露了小规模模型在事实性任务中的局限性,这让我思考是否可以通过混合训练策略(如结合事实性数据和推理数据的SFT,或在RL中引入知识边界感知目标)来缓解这一问题。此外,推理链长度与校准的关系值得进一步探索,例如是否可以通过限制生成长度或引入动态调整机制来优化校准表现。另一个有趣的方向是将本文的校准研究与其他领域(如AI安全性和可解释性)结合,探讨如何在高风险应用中利用口述信心来增强人机协作的可靠性,例如在医疗诊断或法律推理中,模型的校准能力和对知识边界的感知至关重要。最后,本文的发现与近期关于RLHF(强化学习与人类反馈)的研究有潜在联系,RLHF在对齐目标上的成功或许可以为推理模型的校准提供新的思路,尤其是在如何平衡推理能力和事实性准确性方面。



Previous Post
LiteWebAgent: The Open-Source Suite for VLM-Based Web-Agent Applications
Next Post
Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions