NavGPT-2

Unleashing Navigational Reasoning Capability for Large Vision-Language Models
NeurIPS 2024 · Gengze Zhou, Yicong Hong, Zun Wang et al. · Adelaide + Adobe + Shanghai AI Lab + UCSC
arXiv · GitHub
← 返回 VLN 技术站

一句话概括

用冻结 LLM 的 latent 表征同时驱动导航推理动作决策。基于 InstructBLIP,用 GPT-4V 生成逐步导航推理数据微调 Q-former。5B 参数模型首次逼近专用 VLN 模型(DUET ~180M)的性能,同时保留语言对话能力。

核心问题:LLM 做 VLN 的两难

用 LLM 做 VLN 存在两条已有路径,但都陷入两难:

路径做法致命问题
Zero-shot 把视觉观测翻译成文字描述 → 喂给 LLM 推理(NavGPT-1 等) 严重依赖 prompt engineering;无法建模导航历史;SR 仅 ~30%
全量微调 直接微调 LLM 的所有参数做 VLN 训练数据不足;破坏 LLM 通用语言能力;性价比低(7B 模型 < 180M 专用模型)

NavGPT-2 的解法:冻结 LLM,只训练 Q-former + 独立策略网络。LLM 的语言推理能力被完整保留,同时其 hidden state(latent)被复用为视觉-语言联合表征,驱动拓扑图上的动作预测。

架构详解

组件 1:VLM(Vision-Language Model)

1
输入:多视角图像 + 语言指令 每个 viewpoint 有 36 张全景图,Agent 当前位置取其中若干张 + 历史观测
2
Q-former 提取 image token 借鉴 InstructBLIP 的 Q-former 架构。用一组可学习 query 从 ViT 视觉特征中提取固定数量的 image token(压缩冗余视觉信息)
3
LLM 处理(冻结) Image token + 指令 token → LLM(FlanT5-XL 1.5B 或 FlanT5-XXL 5B)→ 生成导航推理文字 + hidden state

关键设计:为什么用 Q-former?

VLN 中每一步需要处理多张全景图像(通常 4-12 张)。如果直接把 ViT 输出的所有 patch token 喂给 LLM,序列长度会爆炸。Q-former 将每张图像压缩为固定数量 token(如 32 个),使 4 张图只需 128 token,可控。

组件 2:Graph-based Navigation Policy

1
Node Embedding 每个拓扑图节点用 VLM latent(LLM 处理后的 hidden state)表示——天然携带视觉+语言语义
2
Cross-Modal Encoding 节点 embedding 与指令 embedding 做跨模态注意力,计算每个候选节点的匹配度
3
Global Action Prediction 在拓扑图全局范围内选择下一步节点(而非局部贪心)

策略网络是轻量的(远小于 VLM),只负责"在拓扑图上选哪个节点",不负责视觉理解。视觉理解和语言推理全部由冻结的 VLM 完成。

多阶段训练

阶段训练模块数据目标
Stage 0:初始化 加载 InstructBLIP 权重(VQA 任务预训练的 Q-former + LLM) 获得通用视觉-语言理解能力
Stage 1:Q-former 微调 只训练 Q-former,冻结 LLM + ViT GPT-4V 生成的逐步导航推理数据 学会生成导航推理("我看到一个门,指令说左转进厨房...")
Stage 2:策略学习 训练策略网络 R2R 训练集 + DAgger 学会用 VLM latent 选节点

GPT-4V 数据增强

Stage 1 的关键创新是使用 GPT-4V 生成导航推理数据。对于 R2R 中的每条标注路径,将逐步的全景图和指令喂给 GPT-4V,让它生成"为什么在这个路口应该左转"的推理文本。这些数据用于训练 NavGPT-2 的 Q-former,使其具备可解释的导航推理能力。

DAgger(Dataset Aggregation)

Stage 2 使用 DAgger 训练策略网络。初始策略在训练集上运行,遇到与标注路径分叉的情况时,将此时状态 + 专家动作加入训练集。迭代多轮后策略能处理更多分布外状态。

Benchmark 表现

R2R Val Unseen(核心对比)

方法LLM 冻结参数量TL ↓NE ↓OSR ↑SR ↑SPL ↑
DUET~180M19.656.6042.7025.6013.32
NavGPT-2FlanT5-XL~1.5B13.683.3774.3767.5256.01
NavGPT-2FlanT5-XXL~5B17.964.9169.8047.2028.75

解读:

• NavGPT-2 FlanT5-XXL 在 Test Unseen 上比 DUET 高约 4% SR 和 2% SPL——注意 DUET 表中的数字是未加 VLN pretrain的基线对比

• NavGPT-2 用 50% 训练数据即可达到 DUET 100% 数据的效果,展示数据效率优势

• 在 RxR(英文)Unseen 上,NavGPT-2 比 DUET 高 3.67% SR

• 但绝对性能仍低于 SOTA(ScaleVLN 等 ~72% SR)——论文承认与刷榜方法存在差距

可解释导航推理(核心卖点)

NavGPT-2 在导航过程中能生成逐步推理文本。例如:"指令说走到卧室门口停下。我看到前方是一个走廊,左侧有一扇关闭的门,右侧通向客厅。根据指令我应该继续直行..."这种推理能力来自 GPT-4V 数据训练,而非手工规则。

技术规格总览

属性规格
论文NeurIPS 2024
VLM 架构InstructBLIP(ViT-G + Q-former + FlanT5)
LLM 变体FlanT5-XL(1.5B)/ FlanT5-XXL(5B),均冻结
视觉编码器EVA-02-G(预训练,冻结)
训练模块Q-former(Stage 1)+ 策略网络(Stage 2)
数据增强GPT-4V 生成逐步导航推理文本
策略训练DAgger(迭代式专家示范采集)
动作空间拓扑图节点选择(离散)
评测环境Matterport3D / Habitat
GPU 需求推理需 1×A100(5B 模型);微调 Q-former 单卡可行

工程权衡分析

NavGPT-2 的核心取舍

✓ 优势:

• 保留 LLM 通用语言能力——可做对话式导航("帮我找沙发" → 推理 → 执行 → 汇报)

• 导航过程完全可解释,每一步都有自然语言推理

• 数据效率高:GPT-4V 增强减少了人工标注需求

• 跨数据集泛化好(R2R → RxR 迁移测试验证)

✗ 代价:

• 模型体积大(5B vs DUET 180M),推理延迟高

• 仅在离散拓扑图上运行,无法做连续空间导航

• 离 SOTA 绝对值仍有差距(未整合大规模环境预训练)

• 依赖 GPT-4V API 生成训练数据,成本和可复现性受限

适用场景

场景推荐度说明
需要可解释推理的 VLN★★★★★本设计的核心卖点
对话式导航系统★★★★★LLM 语言能力保留,可多轮交互
数据稀缺场景★★★★☆GPT-4V 数据增强减少标注需求
纯刷榜★★☆☆☆绝对性能不如 ScaleVLN/ETPNav
真机部署★★☆☆☆5B 模型推理慢;离散动作空间