Skip to content
Go back 2505.00831 arXiv logo

SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation

Published:  at  11:15 PM
64.11 🤔

本文提出了 SmallPlan 框架,通过结合 LLM 指导的蒸馏、模拟环境反馈的 SFT 和 RL,训练轻量级的小型语言模型 (SLM) 进行高效的机器人高层路径规划,使其在资源受限的边缘设备上实现接近大型模型 (LLM) 的性能。

Reinforcement Learning, Supervised Learning, Path Planning, Robotics, Efficiency, Human-AI Interaction

Quang P. M. Pham, Khoi T. N. Nguyen, Nhi H. Doan, Cuong A. Pham, Kentaro Inui, Dezhen Song

MBZUAI - Mohamed bin Zayed University of Artificial Intelligence, VinUniversity

Generated by gemini-2.5-flash-preview-04-17

Background Problem

机器人路径规划,尤其是在大型动态环境中,仍然是一个重大挑战。大型语言模型 (LLM) 展现出强大的推理能力,但其高昂的计算成本和在动态场景中有限的适应性阻碍了在边缘设备上的实时部署。此外,大多数现有方法直接使用现成的 LLM 进行推理,缺乏针对特定环境或任务需求的微调能力,导致低效的重新规划和频繁产生不可执行的动作序列。尽管知识蒸馏在机器学习领域(包括 LLM 压缩)很流行,但其在机器人场景理解和路径规划中的应用尚未得到充分探索。

Method

SmallPlan 是一个新颖的、基于蒸馏的框架,利用 LLM 作为教师模型来指导轻量级 SLM 进行高层路径规划。

Experiment

实验在 iGibson 模拟平台中使用 Fetch 机器人进行,环境基于 iGibson Challenge 数据集,包含 8 个训练场景和 7 个测试场景。每个测试场景进行 25 次随机化的运行(起始姿态、目标对象、对象分布),总计 175 个未见过的任务实例。

评估模型: Qwen-2.5-3B 和 Phi4-mini (SLMs),与 GPT-4o (LLM) 进行比较。SLMs 使用 LoRA 和 4-bit 量化,推理内存小于 4GB。

评估指标: 任务成功率 (SR %)、路径长度加权成功率 (SPL %)、移动距离 (Dist.)、尝试次数 (Trials)、提出的动作次数 (Acts.)。

主要发现:

Further Thoughts

  1. SLM 选择与预训练数据: 论文提到 DeepSeek-R1-Distill-Qwen-1.5B 表现不佳,可能与语言不平衡有关。这提示在选择用于蒸馏的 SLM 时,其预训练数据的特性(如语言、领域、推理能力)对下游任务的微调效果有重要影响。未来的工作可以系统研究不同 SLM 架构和预训练数据对机器人任务蒸馏的影响。
  2. SFT 与地面真值: 当前 SFT 仅依赖教师 LLM 输出作为标签。虽然 RL 弥补了模拟反馈,但探索如何将模拟环境的标量奖励信号更有效地融入 SFT 损失(例如通过某种形式的奖励加权、排序学习或将标量奖励转化为伪标签)可能是未来提升蒸馏效果的方向,尤其是在教师模型本身可能并非完美的场景下。
  3. RL 算法选择: 论文选择了 PPO 因其奖励定制的灵活性,但提到了 DPO 等替代算法可能更高效。未来的工作可以探索如何修改 DPO 或其他新的离线 RL/偏好学习算法,使其也能灵活集成多目标奖励,以平衡训练效率和对机器人行为的精细控制。
  4. 场景表示与任务复杂度: 将场景图表示与语言模型结合进行规划是当前机器人领域的重要方向。SmallPlan 证明了这种方法可以通过蒸馏应用于资源受限的设备。未来的工作可以探索更丰富、更动态的场景表示(例如包含物理属性、对象状态变化、人机交互等)以及更复杂的任务(例如需要长期记忆、多智能体协作、学习新技能等),并研究如何将这些复杂性有效地蒸馏到 SLM 中。
  5. 真实世界部署: 尽管在模拟环境中取得了成功,但真实世界的感知不确定性、执行误差和环境动态性是巨大的挑战。未来的工作需要研究如何使 SmallPlan 在真实世界中鲁棒运行,例如通过集成更先进的感知模块、误差恢复机制或在线适应能力。


Previous Post
SAGE: A Framework of Precise Retrieval for RAG
Next Post
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs