Tag: Efficiency

All the articles with the tag "Efficiency".

Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs

Published: 6 May, 2025 at 01:18 AM

89.54 😐

本文通过实证研究发现，大型语言模型在推理任务中存在"过度思考"简单问题和"思考不足"困难问题的现象，其推理长度与正确性呈非单调关系，且简单偏好更短回答可在保持准确率的同时显著减少生成长度。
Weight Ensembling Improves Reasoning in Language Models

Published: 6 May, 2025 at 01:27 AM

88.15 😐

本文发现监督微调导致推理模型多样性坍塌损害 Pass@K，并提出通过插值早期与后期 SFT 检查点（WiSE-FT）的方法，有效提升模型多样性，同时提高 Pass@1 和 Pass@K，进而改善测试时缩放和强化学习效果。
Param$Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost

Published: 4 May, 2025 at 04:30 PM

86.83 😐

本文提出Param∆方法，通过直接添加参数差值在零成本下实现后训练知识向新基模型的转移，达到与传统后训练相当的性能。
Towards Reasoning Ability of Small Language Models

Published: 4 May, 2025 at 04:26 PM

86.53 😐

本文通过系统基准测试72个SLMs，证明小型语言模型可以通过结构化训练和压缩技术实现与大型模型相当的推理能力，从而挑战了规模依赖的传统观点。
Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models?

Published: 7 May, 2025 at 09:33 AM

61.53 😐

本文通过对比详细、简化和无评分标准在四个大型语言模型上的自动作文评分表现，发现简化标准在大多数模型中能保持与详细标准相似的准确性并显著降低token使用量，但模型特异性和整体性能不足仍需关注。

Tag: Efficiency

Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs

Weight Ensembling Improves Reasoning in Language Models

Param$Δ$ for Direct Weight Mixing: Post-Train Large Language Model at Zero Cost

Towards Reasoning Ability of Small Language Models

Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models?