Tag: Large Language Model

All the articles with the tag "Large Language Model".

Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL

Published: 6 May, 2025 at 11:18 PM

87.33 🤔

本文通过结合监督微调（SFT）、强化学习（RL）及细粒度奖励函数（如QATCH），显著提升了小型LLM在Text2SQL任务中的推理能力和性能，Think2SQL-7B模型在BIRD数据集上超越了400B+参数模型。
Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning

Published: 2 Jun, 2025 at 01:15 PM

87.30 🤔

本文提出LoRA-SB方法，通过基于全参数微调第一步梯度近似的初始化策略优化低秩微调，在参数量减少27-90倍的情况下，显著超越LoRA-XS并接近全参数微调性能。
FlashThink: An Early Exit Method For Efficient Reasoning

Published: 23 May, 2025 at 11:16 AM

87.28 🤔

FlashThink方法通过验证模型动态判断推理过程是否提前结束，在保持大型语言模型准确率的同时显著减少推理内容长度（平均效率提升约77%），并通过FT²微调进一步优化性能。
Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures

Published: 2 Jun, 2025 at 01:14 PM

87.28 🤔

本文提出 CoLM 方法，通过构建小批量核心集匹配大批量梯度，在内存需求减少 2 倍的情况下，使 LLM 微调性能优于 4 倍批大小的常规训练，同时提升收敛速度。
Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning

Published: 30 May, 2025 at 11:15 AM

87.20 🤔

本文挑战了推理 LLMs 中更长思考链提升性能的假设，提出 *short-m@k* 推理方法，通过优先选择较短推理链实现高达 34.5% 的准确率提升和 40% 的计算量减少，并通过微调验证了短推理链训练的有效性。

Tag: Large Language Model

Think2SQL: Reinforce LLM Reasoning Capabilities for Text2SQL

Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning

FlashThink: An Early Exit Method For Efficient Reasoning

Mini-batch Coresets for Memory-efficient Language Model Training on Data Mixtures

Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning