Tag: Efficiency

All the articles with the tag "Efficiency".

Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

Published: 2 Jun, 2025 at 11:31 AM

85.18 🤔

本文提出PURE框架，通过最小形式信用分配方法利用过程奖励改进大型语言模型的推理能力，实验显示其在数学推理任务上与可验证奖励方法性能相当，且结合少量地面真实信号可进一步提升准确率至53.3%。
Fine-tuning Quantized Neural Networks with Zeroth-order Optimization

Published: 25 May, 2025 at 11:24 AM

85.17 🤔

本文提出Quantized Zeroth-order Optimization (QZO)，通过扰动量化尺度参数并结合方向导数裁剪，在量化神经网络上实现零阶优化微调，将内存使用减少18倍以上，并在LLMs和Stable Diffusion上展示出显著的内存效率和一定的性能提升。
Scalable Complexity Control Facilitates Reasoning Ability of LLMs

Published: 3 Jun, 2025 at 11:29 AM

85.16 🤔

本文通过调整初始化率和权重衰减系数控制大语言模型复杂性，显著提升推理能力，尤其在数学任务上表现突出，并在扩展律上展现更优性能。
Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models

Published: 1 Jun, 2025 at 11:45 AM

85.12 🤔

本文提出残差对齐模型（RAM），通过重要性采样分离对齐模块，实现高效的序列级训练和令牌级解码，在多个对齐任务中显著提升性能并降低资源成本。
Concise Reasoning via Reinforcement Learning

Published: 17 May, 2025 at 11:21 PM

85.10 🤔

本文提出了一种两阶段强化学习训练策略，通过在极小数据集上分阶段优化推理能力和简洁性，显著减少大型语言模型的响应长度（最高54%），同时保持甚至提升准确性，并增强低采样强度下的鲁棒性。

Tag: Efficiency

Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization

Scalable Complexity Control Facilitates Reasoning Ability of LLMs

Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models

Concise Reasoning via Reinforcement Learning