Skip to content
Go back 2502.12486 arXiv logo

EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning

Published:  at  04:27 PM
60.29 🤔

本文提出EPO方法,通过强化学习优化一个专门的战略推理模型,辅助任意LLM代理在动态环境中实现长期目标对齐,提升战略推理能力。

Reinforcement Learning, Strategic Reasoning, Goal Alignment, Multi-Agent, Human-AI Interaction, Adaptive Systems

Xiaoqian Liu, Ke Wang, Yongbin Li, Yuchuan Wu, Wentao Ma, Aobo Kong, Fei Huang, Jianbin Jiao, Junge Zhang

University of Chinese Academy of Sciences, Tongyi Lab, Institute of Automation, Chinese Academy of Sciences

Generated by grok-3-mini-latest

Background Problem

大型语言模型(LLMs)在静态问题(如数学和编码)上表现出色,但在大语言模型中处理动态、真实世界场景(如商业谈判)的战略推理能力不足,这些场景需要处理不确定性、长期目标对齐和环境适应。现有方法包括迭代提示、模仿学习(IL)或强化学习(RL)训练,以及推理路径搜索,但它们面临适应性差、泛化能力弱和计算效率低的问题,本文的工作起点是提出一种方法来提升LLMs在动态交互环境中的战略推理能力。

Method

本文提出显式策略优化(EPO)方法,使用一个专门的语言模型(LLM^s)来提供实时策略,辅助另一个LLM代理(LLM^d)实现目标导向行为。具体实现包括:

Experiment

实验在社会和物理领域进行,包括SOTOPIA(社交对话)、WebShop(网页导航)和ALFWorld(具身任务)数据集。实验设置合理全面,使用零样本或一样本提示评估,指标包括目标完成度和平均奖励。结果显示EPO在保持LLM^d泛化能力的同时,通过RL优化LLM^s显著提升性能,如在SOTOPIA上超越基线方法,平均目标完成度提高;消融实验确认RL、过程奖励和自博弈组件的关键性;分析揭示了协作推理机制和新兴策略,实验结果与预期一致,证明了EPO在长期目标对齐和战略推理方面的有效性。

Further Thoughts

本文的EPO方法强调了战略推理模型的模块化设计,这可能扩展到多代理环境如Diplomacy游戏中,进一步提升LLMs在复杂社会互动中的表现;同时,结合更先进的奖励模型或值函数估计(如PPO算法)可能提高训练稳定性,并探索将EPO应用于真实世界AI代理,如自动谈判系统或游戏AI,以实现更强的泛化能力和人机协作潜力。



Previous Post
Streaming, Fast and Slow: Cognitive Load-Aware Streaming for Efficient LLM Serving
Next Post
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models