本文提出StarPO框架和RAGEN系统,通过多轮轨迹级别强化学习训练LLM智能体,揭示了训练不稳定性(如Echo Trap)和推理能力不足的挑战,并通过StarPO-S改进稳定性和泛化性,但推理能力仍需细粒度奖励设计支持。
Reinforcement Learning, Large Language Model, Multi-Agent, Reasoning, Planning, Human-AI Interaction
Zihan Wang, Kangrui Wang, Qineng Wang, Pingyue Zhang, Linjie Li, Zhengyuan Yang, Kefan Yu, Minh Nhat Nguyen, Licheng Liu, Eli Gottlieb, Monica Lam, Yiping Lu, Kyunghyun Cho, Jiajun Wu, Li Fei-Fei, Lijuan Wang, Yejin Choi, Manling Li
Northwestern University, University of Washington, Stanford University, Microsoft, New York University, Singapore Management University, Imperial College London
Generated by grok-3
Background Problem
大型语言模型(LLM)作为交互式智能体在多轮交互环境中的训练面临独特挑战,包括长距离决策、跨轮次记忆保持以及对随机环境反馈的适应能力。与静态任务(如数学求解或代码生成)不同,智能体任务需要模型通过经验自我改进,尤其是在规划助手、机器人技术和教育智能体等领域。现有的强化学习(RL)方法主要针对单轮任务,而多轮智能体RL训练仍未被充分探索,存在训练不稳定性、复杂奖励信号设计以及跨提示或环境变化的泛化能力不足等问题。本文旨在通过系统性研究,回答如何设计有效的训练因素以使自我进化的LLM智能体稳定学习并具备推理能力。
Method
本文提出了StarPO(State-Thinking-Actions-Reward Policy Optimization),一个通用的强化学习框架,专注于多轮交互轨迹级别的智能体训练,与以往单步优化的方法不同,StarPO将整个轨迹(包括观察、推理痕迹、动作和反馈)作为优化单元,目标是最大化预期轨迹奖励,公式为: 其中为马尔可夫决策过程(MDP),为完整交互序列,为累计奖励。
具体实现上,StarPO在每个训练迭代中从初始状态生成轨迹,智能体在每一步输出包含推理的结构化动作(如
基于StarPO,作者开发了RAGEN系统,一个模块化的智能体训练和评估平台,支持结构化轨迹生成、自定义奖励函数和多轮随机环境集成,便于研究RL训练动态。
Experiment
实验在三个简化的符号化游戏环境中进行:Bandit(单轮、随机性,测试风险敏感推理)、Sokoban(多轮、确定性,测试不可逆规划)和Frozen Lake(多轮、随机性,测试长距离决策与随机适应)。使用Qwen-2.5(0.5B)模型在H100 GPU上训练200轮,每批次8个提示,每个提示16个轨迹,最多5轮交互。评估指标包括成功率、轨迹熵、组内奖励方差、响应长度和梯度范数。
结果显示:1)基础StarPO训练初期表现改善,但普遍出现性能崩溃,PPO比GRPO更稳定(例如在Bandit和Sokoban中PPO崩溃时间晚于GRPO),但在Frozen Lake中GRPO更稳定,可能因高随机性导致PPO的价值估计困难;2)发现’Echo Trap’现象,即模型陷入重复推理模式,导致奖励方差和熵下降,梯度尖峰;3)StarPO-S通过轨迹过滤等策略显著延迟崩溃并提升最终性能,尤其在PPO变体中,过滤25%低方差轨迹后训练效率提高;4)轨迹生成中,任务多样性(较少响应/提示)、适度动作预算(5-6次/轮)和高频更新(在线式每10次更新刷新)对泛化性和稳定性至关重要;5)推理能力在单轮Bandit任务中有所提升,但在多轮任务中逐渐衰退,若无细粒度奖励设计,模型倾向浅层策略或幻觉推理。
总体而言,实验设置覆盖了不同挑战,但结果表明方法改进虽有进展(如StarPO-S缓解崩溃),推理能力提升有限,且实验局限于简化环境和小模型,泛化性验证不足。
Further Thoughts
深入思考后,我认为本文提出的’Echo Trap’现象揭示了多轮RL中一个普遍且关键的问题:模型在奖励驱动下容易陷入局部最优的重复模式,这与人类学习中的’过度拟合’行为有异曲同工之妙。未来的研究可以探索是否能引入类似人类’元认知’的机制,让模型在训练中自我检测推理多样性并主动调整策略。此外,论文中提到的奖励设计不足以支持多轮任务中推理能力的问题,启发我联想到其他领域如游戏AI或机器人学中使用的’内在动机’(Intrinsic Motivation)奖励机制,或许可以通过奖励探索行为或中间推理步骤的质量,而非仅关注最终结果,来增强推理能力的涌现。
另一个值得关注的点是RAGEN系统目前仅在简化环境和小模型上测试,缺乏对大型模型或现实复杂任务(如Web导航或多模态交互)的验证。结合近期一些工作(如WebRL或Embodied Agent Interface),可以将RAGEN扩展到多模态输入和长上下文任务中,测试其在真实场景下的可扩展性。此外,StarPO-S中轨迹过滤比例(如25%)的选择似乎较为经验化,未来可以引入自适应机制,根据任务特性动态调整过滤策略,以提升方法的普适性。总之,本文为多轮RL智能体训练提供了重要起点,但其理论和实践上的局限性也为后续研究指明了方向。