Tag: Robustness
All the articles with the tag "Robustness".
-   
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs
本文提出了一种奖励增强数据集方法,通过对偏好对进行重新标记使大型语言模型条件化于奖励值学习响应质量全谱,显著提升了直接偏好优化(DPO)的性能并缓解了其遗忘高质被拒响应和无差别学习低质选中响应的局限性。
 -   
Towards Robust and Parameter-Efficient Knowledge Unlearning for LLMs
本文提出了低秩知识遗忘(LoKU)框架,包含反向铰链损失(IHL)和 Fisher 加权低秩适配器初始化(FILA),以实现鲁棒且参数高效的大语言模型知识遗忘,有效移除敏感信息同时保持模型原有能力。
 -   
MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness
本文提出MAC-Tuning方法,通过分步微调分离答案预测和置信度估计,提升LLMs在多问题设置下的知识边界意识,显著减少幻觉并改善性能。
 -   
Evidence of conceptual mastery in the application of rules by Large Language Models
本文通过心理实验证明大型语言模型在规则应用中表现出概念掌握能力,能够泛化到新情境并部分模仿人类对时间压力等语境的敏感性。
 -   
A closer look at how large language models trust humans: patterns and biases
本研究通过模拟实验首次揭示大型语言模型对人类的隐性信任模式,显示其类似于人类受可信度维度影响,但存在模型异质性和人口统计学偏差。