用冻结 LLM 的 latent 表征同时驱动导航推理和动作决策。基于 InstructBLIP,用 GPT-4V 生成逐步导航推理数据微调 Q-former。5B 参数模型首次逼近专用 VLN 模型(DUET ~180M)的性能,同时保留语言对话能力。
用 LLM 做 VLN 存在两条已有路径,但都陷入两难:
| 路径 | 做法 | 致命问题 |
|---|---|---|
| Zero-shot | 把视觉观测翻译成文字描述 → 喂给 LLM 推理(NavGPT-1 等) | 严重依赖 prompt engineering;无法建模导航历史;SR 仅 ~30% |
| 全量微调 | 直接微调 LLM 的所有参数做 VLN | 训练数据不足;破坏 LLM 通用语言能力;性价比低(7B 模型 < 180M 专用模型) |
NavGPT-2 的解法:冻结 LLM,只训练 Q-former + 独立策略网络。LLM 的语言推理能力被完整保留,同时其 hidden state(latent)被复用为视觉-语言联合表征,驱动拓扑图上的动作预测。
VLN 中每一步需要处理多张全景图像(通常 4-12 张)。如果直接把 ViT 输出的所有 patch token 喂给 LLM,序列长度会爆炸。Q-former 将每张图像压缩为固定数量 token(如 32 个),使 4 张图只需 128 token,可控。
策略网络是轻量的(远小于 VLM),只负责"在拓扑图上选哪个节点",不负责视觉理解。视觉理解和语言推理全部由冻结的 VLM 完成。
| 阶段 | 训练模块 | 数据 | 目标 |
|---|---|---|---|
| Stage 0:初始化 | 加载 InstructBLIP 权重(VQA 任务预训练的 Q-former + LLM) | — | 获得通用视觉-语言理解能力 |
| Stage 1:Q-former 微调 | 只训练 Q-former,冻结 LLM + ViT | GPT-4V 生成的逐步导航推理数据 | 学会生成导航推理("我看到一个门,指令说左转进厨房...") |
| Stage 2:策略学习 | 训练策略网络 | R2R 训练集 + DAgger | 学会用 VLM latent 选节点 |
Stage 1 的关键创新是使用 GPT-4V 生成导航推理数据。对于 R2R 中的每条标注路径,将逐步的全景图和指令喂给 GPT-4V,让它生成"为什么在这个路口应该左转"的推理文本。这些数据用于训练 NavGPT-2 的 Q-former,使其具备可解释的导航推理能力。
DAgger(Dataset Aggregation)
Stage 2 使用 DAgger 训练策略网络。初始策略在训练集上运行,遇到与标注路径分叉的情况时,将此时状态 + 专家动作加入训练集。迭代多轮后策略能处理更多分布外状态。
| 方法 | LLM 冻结 | 参数量 | TL ↓ | NE ↓ | OSR ↑ | SR ↑ | SPL ↑ |
|---|---|---|---|---|---|---|---|
| DUET | — | ~180M | 19.65 | 6.60 | 42.70 | 25.60 | 13.32 |
| NavGPT-2FlanT5-XL | ✓ | ~1.5B | 13.68 | 3.37 | 74.37 | 67.52 | 56.01 |
| NavGPT-2FlanT5-XXL | ✓ | ~5B | 17.96 | 4.91 | 69.80 | 47.20 | 28.75 |
解读:
• NavGPT-2 FlanT5-XXL 在 Test Unseen 上比 DUET 高约 4% SR 和 2% SPL——注意 DUET 表中的数字是未加 VLN pretrain的基线对比
• NavGPT-2 用 50% 训练数据即可达到 DUET 100% 数据的效果,展示数据效率优势
• 在 RxR(英文)Unseen 上,NavGPT-2 比 DUET 高 3.67% SR
• 但绝对性能仍低于 SOTA(ScaleVLN 等 ~72% SR)——论文承认与刷榜方法存在差距
NavGPT-2 在导航过程中能生成逐步推理文本。例如:"指令说走到卧室门口停下。我看到前方是一个走廊,左侧有一扇关闭的门,右侧通向客厅。根据指令我应该继续直行..."这种推理能力来自 GPT-4V 数据训练,而非手工规则。
| 属性 | 规格 |
|---|---|
| 论文 | NeurIPS 2024 |
| VLM 架构 | InstructBLIP(ViT-G + Q-former + FlanT5) |
| LLM 变体 | FlanT5-XL(1.5B)/ FlanT5-XXL(5B),均冻结 |
| 视觉编码器 | EVA-02-G(预训练,冻结) |
| 训练模块 | Q-former(Stage 1)+ 策略网络(Stage 2) |
| 数据增强 | GPT-4V 生成逐步导航推理文本 |
| 策略训练 | DAgger(迭代式专家示范采集) |
| 动作空间 | 拓扑图节点选择(离散) |
| 评测环境 | Matterport3D / Habitat |
| GPU 需求 | 推理需 1×A100(5B 模型);微调 Q-former 单卡可行 |
NavGPT-2 的核心取舍
✓ 优势:
• 保留 LLM 通用语言能力——可做对话式导航("帮我找沙发" → 推理 → 执行 → 汇报)
• 导航过程完全可解释,每一步都有自然语言推理
• 数据效率高:GPT-4V 增强减少了人工标注需求
• 跨数据集泛化好(R2R → RxR 迁移测试验证)
✗ 代价:
• 模型体积大(5B vs DUET 180M),推理延迟高
• 仅在离散拓扑图上运行,无法做连续空间导航
• 离 SOTA 绝对值仍有差距(未整合大规模环境预训练)
• 依赖 GPT-4V API 生成训练数据,成本和可复现性受限
| 场景 | 推荐度 | 说明 |
|---|---|---|
| 需要可解释推理的 VLN | ★★★★★ | 本设计的核心卖点 |
| 对话式导航系统 | ★★★★★ | LLM 语言能力保留,可多轮交互 |
| 数据稀缺场景 | ★★★★☆ | GPT-4V 数据增强减少标注需求 |
| 纯刷榜 | ★★☆☆☆ | 绝对性能不如 ScaleVLN/ETPNav |
| 真机部署 | ★★☆☆☆ | 5B 模型推理慢;离散动作空间 |