SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation

本文提出了 SmallPlan 框架，通过结合 LLM 指导的蒸馏、模拟环境反馈的 SFT 和 RL，训练轻量级的小型语言模型 (SLM) 进行高效的机器人高层路径规划，使其在资源受限的边缘设备上实现接近大型模型 (LLM) 的性能。

Reinforcement Learning, Supervised Learning, Path Planning, Robotics, Efficiency, Human-AI Interaction

Quang P. M. Pham, Khoi T. N. Nguyen, Nhi H. Doan, Cuong A. Pham, Kentaro Inui, Dezhen Song

MBZUAI - Mohamed bin Zayed University of Artificial Intelligence, VinUniversity

Generated by gemini-2.5-flash-preview-04-17

Background Problem

机器人路径规划，尤其是在大型动态环境中，仍然是一个重大挑战。大型语言模型 (LLM) 展现出强大的推理能力，但其高昂的计算成本和在动态场景中有限的适应性阻碍了在边缘设备上的实时部署。此外，大多数现有方法直接使用现成的 LLM 进行推理，缺乏针对特定环境或任务需求的微调能力，导致低效的重新规划和频繁产生不可执行的动作序列。尽管知识蒸馏在机器学习领域（包括 LLM 压缩）很流行，但其在机器人场景理解和路径规划中的应用尚未得到充分探索。

Method

SmallPlan 是一个新颖的、基于蒸馏的框架，利用 LLM 作为教师模型来指导轻量级 SLM 进行高层路径规划。

核心思想: 将 LLM 的推理和规划能力蒸馏到 SLM 中，同时利用模拟环境的实时反馈来增强 SLM 的适应性和效率。
感知到语言模型: 将机器人感知（如图像序列）转化为文本形式的分层场景图，该图紧凑地表示了完整的 3D 场景，包含房间和对象信息。使用 Chain-of-Thought 提示方法，LLM 和 SLM 基于场景图生成推理过程和建议的下一个动作。
LLM 指导的模拟反馈蒸馏:
- SFT (Supervised Fine-tuning): 在初始阶段，单独使用 SFT 对 SLM 进行微调，以稳定其输出格式，使其能够可靠地遵循提示并生成可解析的动作命令。使用标准交叉熵损失 ( $\\mathcal{L}\_S = -\\sum\_i y\_i \\log(\\hat{y}\_i)$ )，其中 $y_i$ 是教师 LLM 的输出 token（作为目标标签）， $\\hat{y}\_i$ 是 SLM 的预测概率。
- RL-interleaving-SFT: 随后，SLM 进入 SFT 和 RL 交替进行的微调阶段。使用 Proximal Policy Optimization (PPO) 算法进行强化学习。
- 定制奖励函数: 设计了一个定制的奖励函数 ( $r_{\\text{task}}$ $r_{t e x t t a s k}$ )，结合模拟环境的实时反馈来优化 SLM 的行为。奖励函数包括：
  - 任务成功奖励 ( $r_{\\text{success}}$ )：任务成功完成时获得。
  - 动作奖励 ( $r_{\\text{action}}$ $r_{t e x t a c t i o n}$ )：基于单个动作的执行结果，包含：
    - 动作成功 ( $r_{\\text{action, success}}$ )：动作在环境中可执行时奖励，否则惩罚。
    - 探索 ( $r_{\\text{explore}}$ )：鼓励探索新区域（基于视觉场景图中新发现的节点数量）。
    - 效率 ( $r_{\\text{efficiency}}$ )：惩罚移动距离过长，鼓励高效导航。
    - 格式遵循 ( $r_{\\text{formal}}$ )：输出格式不正确时施加惩罚。
- LoRA: 使用 Low-Rank Adaptation (LoRA) 技术进行高效微调，冻结原始模型权重，只训练少量额外参数。
推理: 微调后的 SLM 用于推理，生成高层动作序列。

Experiment

实验在 iGibson 模拟平台中使用 Fetch 机器人进行，环境基于 iGibson Challenge 数据集，包含 8 个训练场景和 7 个测试场景。每个测试场景进行 25 次随机化的运行（起始姿态、目标对象、对象分布），总计 175 个未见过的任务实例。

评估模型: Qwen-2.5-3B 和 Phi4-mini (SLMs)，与 GPT-4o (LLM) 进行比较。SLMs 使用 LoRA 和 4-bit 量化，推理内存小于 4GB。

评估指标: 任务成功率 (SR %)、路径长度加权成功率 (SPL %)、移动距离 (Dist.)、尝试次数 (Trials)、提出的动作次数 (Acts.)。

主要发现:

性能: 微调后的 SLM (SFT-only 和 RL-interleaving-SFT) 在路径规划任务上表现与 GPT-4o 具有竞争力。
SFT 的作用: SFT 有效地帮助 SLM 稳定输出格式，解决了预训练 SLM 可能出现的格式问题（如输出中文）。
RL 控制副作用: RL 通过定制奖励函数成功地控制了移动距离和尝试次数等副作用因素，实现了效率和成功率之间的权衡。RL 使得模型能够根据环境反馈提前终止任务，提高了资源效率。
泛化能力: 在未见过布局的场景中，RL-SFT 的泛化能力优于 SFT-only，表明 RL 学习的行为更具适应性。
SFT 预适应的重要性: 在 LoRA 设置下，先进行 SFT 预适应对于后续 RL 微调至关重要，提供了稳定的训练起点。
域外分析: 在文本逻辑推理游戏上的域外测试表明，微调后的 SLM 表现与预训练版本相当或更好，说明蒸馏可能提升了 SLM 的通用推理能力，且模型没有过度拟合路径规划任务。

Further Thoughts

SLM 选择与预训练数据: 论文提到 DeepSeek-R1-Distill-Qwen-1.5B 表现不佳，可能与语言不平衡有关。这提示在选择用于蒸馏的 SLM 时，其预训练数据的特性（如语言、领域、推理能力）对下游任务的微调效果有重要影响。未来的工作可以系统研究不同 SLM 架构和预训练数据对机器人任务蒸馏的影响。
SFT 与地面真值: 当前 SFT 仅依赖教师 LLM 输出作为标签。虽然 RL 弥补了模拟反馈，但探索如何将模拟环境的标量奖励信号更有效地融入 SFT 损失（例如通过某种形式的奖励加权、排序学习或将标量奖励转化为伪标签）可能是未来提升蒸馏效果的方向，尤其是在教师模型本身可能并非完美的场景下。
RL 算法选择: 论文选择了 PPO 因其奖励定制的灵活性，但提到了 DPO 等替代算法可能更高效。未来的工作可以探索如何修改 DPO 或其他新的离线 RL/偏好学习算法，使其也能灵活集成多目标奖励，以平衡训练效率和对机器人行为的精细控制。
场景表示与任务复杂度: 将场景图表示与语言模型结合进行规划是当前机器人领域的重要方向。SmallPlan 证明了这种方法可以通过蒸馏应用于资源受限的设备。未来的工作可以探索更丰富、更动态的场景表示（例如包含物理属性、对象状态变化、人机交互等）以及更复杂的任务（例如需要长期记忆、多智能体协作、学习新技能等），并研究如何将这些复杂性有效地蒸馏到 SLM 中。
真实世界部署: 尽管在模拟环境中取得了成功，但真实世界的感知不确定性、执行误差和环境动态性是巨大的挑战。未来的工作需要研究如何使 SmallPlan 在真实世界中鲁棒运行，例如通过集成更先进的感知模块、误差恢复机制或在线适应能力。