Tag: Fine-tuning

All the articles with the tag "Fine-tuning".

An Extra RMSNorm is All You Need for Fine Tuning to 1.58 Bits

Published: 17 May, 2025 at 11:01 AM

86.32 🤔

This paper demonstrates that fine-tuning large language models to 1.58-bit ternary weights using extra RMSNorm layers and a gradual quantization schedule achieves superior cross-entropy loss and preserves reasoning performance, enabling deployment on commodity hardware without relying on complex knowledge distillation.
RepCali: High Efficient Fine-tuning Via Representation Calibration in Latent Space for Pre-trained Language Models

Published: 31 May, 2025 at 11:34 AM

86.31 🤔

本文提出了一种名为RepCali的微调方法，通过在潜在空间中校准预训练语言模型编码器输出，显著提升了25个模型在8个下游任务上的性能，同时仅增加0-0.8%的参数。
Self-Interpretability: LLMs Can Describe Complex Internal Processes that Drive Their Decisions, and Improve with Training

Published: 30 May, 2025 at 11:15 AM

86.28 🤔

本文通过微调GPT-4o和GPT-4o-mini，展示了大型语言模型能够量化报告其内部决策过程（如属性权重），并通过内省训练显著提升报告准确性，且这种能力可泛化至原生偏好，为AI可解释性和安全性提供了新路径。
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy

Published: 3 Jun, 2025 at 11:29 AM

86.23 🤔

本文通过XReasoning基准揭示了大型推理模型在多语言推理中语言匹配与答案准确性之间的权衡，并通过提示破解和少样本后训练方法提高语言匹配率，但以牺牲准确性为代价，凸显了当前模型的局限性。
Context-Free Synthetic Data Mitigates Forgetting

Published: 23 May, 2025 at 11:15 AM

86.17 🤔

本文提出了一种上下文无关合成数据（CFS）方法，通过生成无条件样本并结合微调和预训练损失，缓解大型语言模型在数据不可知场景下的灾难性遗忘，实验在Olmo-1B和R1-Distill-Llama-8B模型上验证了其有效性。

Tag: Fine-tuning

An Extra RMSNorm is All You Need for Fine Tuning to 1.58 Bits

RepCali: High Efficient Fine-tuning Via Representation Calibration in Latent Space for Pre-trained Language Models

Self-Interpretability: LLMs Can Describe Complex Internal Processes that Drive Their Decisions, and Improve with Training

When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy

Context-Free Synthetic Data Mitigates Forgetting