Tag: Human-AI Interaction
All the articles with the tag "Human-AI Interaction".
-
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models
本文提出元策略优化(MPO)框架,通过元奖励模型动态调整奖励模型的评估提示,显著提升了大语言模型在多种任务中的对齐性能,同时减少了奖励漏洞和手动提示工程的负担。
-
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy
本文通过XReasoning基准揭示了大型推理模型在多语言推理中语言匹配与答案准确性之间的权衡,并通过提示破解和少样本后训练方法提高语言匹配率,但以牺牲准确性为代价,凸显了当前模型的局限性。
-
Thinker: Learning to Think Fast and Slow
本文提出Thinker任务,通过将问答过程分解为快速思考、验证、慢速思考和总结四个阶段,利用强化学习针对性训练大型语言模型的直觉和推理能力,在数学推理基准上实现了显著性能提升。
-
Brittle Minds, Fixable Activations: Understanding Belief Representations in Language Models
本文通过探测和激活编辑实验,系统研究了语言模型内部信念表征的涌现、结构、鲁棒性和可增强性,发现表征随模型规模和微调改善,具有结构化特征但对提示变化脆弱,并可通过对比激活添加(CAA)显著提升ToM性能。
-
Interleaved Reasoning for Large Language Models via Reinforcement Learning
本文提出了一种交错推理范式,通过强化学习训练大型语言模型交替思考和回答,显著降低时间到首token(TTFT)超过80%,并在多个推理任务上提升准确率最高达19.3%。