Posts
All the articles I've posted.
-
Thinking Out Loud: Do Reasoning Models Know When They're Right?
本文通过对比指令微调、监督微调和强化学习训练的大型推理模型,发现推理导向训练显著提升了推理任务中的准确性和校准能力,但在事实性任务中可能削弱小规模模型对知识边界的感知。
-
Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions
本文通过对92个开源语言模型的元分析,提出了一种超越缩放定律的性能预测框架,揭示了数据组成(如代码比例15-25%)和架构决策对下游任务性能的显著影响,预测精度相对提升3-28%。
-
Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching
本文提出SELF-TUNING框架,通过自教策略(SELF-TEACHING)显著提升大型语言模型从新文档中获取知识的能力,并在记忆、提取和推理任务上取得优异表现,同时保持较好的知识保留能力。
-
RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning
本文提出RL-of-Thoughts (RLoT) 方法,通过强化学习训练轻量化导航模型,在推理时动态构建任务特定逻辑结构,显著提升大型语言模型在多领域推理任务中的表现,并展现出跨模型和任务的强迁移能力。
-
A Sliding Layer Merging Method for Efficient Depth-Wise Pruning in LLMs
本文提出滑动层合并(SLM)方法,通过基于CKA相似性动态合并大型语言模型的连续层,实现深度剪枝,在零样本任务和推理效率上显著优于现有方法,同时探索了深度与宽度剪枝结合的潜力。