Posts
All the articles I've posted.
-   
Shadow-FT: Tuning Instruct via Base
本文提出Shadow-FT框架,通过调优BASE模型并将权重更新直接移植到INSTRUCT模型,显著提升了大型语言模型在数学、编码和推理任务上的性能,同时不引入额外训练成本。
 -   
Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving
本文通过ZeroTIR框架利用强化学习训练基础大型语言模型自发执行Python代码解决数学问题,揭示了训练步数与代码使用频率、响应长度及任务准确率的正相关规律(Agent RL Scaling Law),并在数学基准上显著优于无工具基线。
 -   
Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization
本文提出了一种通过迭代训练和人类反馈将提示内部化到模型权重中的方法,使基于Llama-3.1-70B的AI代理在多任务基准测试ToolQA和OfficeBench上分别达到97.9%和90.3%的成功率,超越GPT-4o和DeepSeek-V3,同时显著提升推理效率。
 -   
CoLA: Collaborative Low-Rank Adaptation
CoLA通过提出灵活的LoRA架构和三种协作策略,结合扩展PiSSA初始化,显著提升了参数高效微调在多任务和数据稀缺场景下的性能和鲁棒性。
 -   
RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs
RaCT通过链式思维(CoT)提示和排序偏好优化(RPO)的两阶段训练框架,显著提升了大型语言模型在文本重排序任务中的性能,同时保留了其通用语言建模能力,在多个基准上超越基线模型。