| 属性 | NaVILA | NavGPT-2 | DUET |
|---|---|---|---|
| 发表 | RSS 2025 | NeurIPS 2024 | CVPR 2022 Oral |
| 团队 | NVIDIA + UCSD | Adelaide + Adobe | Inria + Meta AI |
| 技术路线 | VLA 端到端 | LLM 推理导航 | 图 Transformer |
| 参数量 | 7B+(VLM 部分) | 1.5B / 5B | ~180M |
| 硬件需求 | 多卡 A100 | 1×A100(推理) | 1×3090(训练) |
| 开源代码 | ✓(benchmark) | ✓(完整) | ✓(完整) |
| 维度 | NaVILA | NavGPT-2 | DUET |
|---|---|---|---|
| 视觉编码 | VILA vision encoder(端到端) | EVA-02-G(冻结) | Faster R-CNN 预提取 |
| 语言编码 | VLM 内置(LLM) | FlanT5(冻结) | LXMERT 文本编码器 |
| 推理方式 | VLM → 语言动作 | LLM hidden state → 图策略 | 图 Transformer 注意力 |
| 动作空间 | 连续(中间语言 → 关节) | 离散(拓扑图节点) | 离散(拓扑图节点) |
| 层次结构 | 两层(VLA + Locomotion) | 两层(VLM + Policy) | 单层(双尺度融合) |
| 历史建模 | 轨迹视频摘要 | VLM token 序列 | 拓扑图结构 |
注意:三者在 R2R 上的评测设置不完全一致(NaVILA 用 VLN-CE 连续环境,DUET 和 NavGPT-2 用离散 Matterport3D),下表仅供量级参考。
| 指标 (Test Unseen) | NaVILA * | NavGPT-2 (5B) | DUET | 当前 SOTA ** |
|---|---|---|---|---|
| SR ↑ | — | ~44 | 40.05 | ~75 |
| SPL ↑ | — | ~28 | 36.71 | ~67 |
* NaVILA 主要在 VLN-CE-Isaac 上评测,与离散 R2R 不直接可比。
** ScaleVLN (2023),在 DUET 基础上用合成环境数据扩增。
| 维度 | NaVILA | NavGPT-2 | DUET |
|---|---|---|---|
| R2R 性能 | N/A (VLN-CE) | ★★★★☆ | ★★★★☆ |
| REVERIE 性能 | — | — | ★★★★★ |
| 真机部署 | ★★★★★ | ★★☆☆☆ | ★☆☆☆☆ |
| 可解释性 | ★★★☆☆ | ★★★★★ | ★★☆☆☆ |
| 训练效率 | ★★☆☆☆ | ★★★☆☆ | ★★★★★ |
| 代码复现度 | ★★★☆☆ | ★★★★☆ | ★★★★★ |
| 数据效率 | ★★★☆☆ | ★★★★☆ | ★★★☆☆ |
| 社区影响力 | ★★★☆☆ (新) | ★★★☆☆ | ★★★★★ |
需要从语言指令直接到关节控制;需要 Sim-to-Real 迁移;机器人有 LiDAR + RGB 传感器。NaVILA 是唯一已验证真机部署的方案。
需要人类可理解的导航推理过程;需要多轮语言交互("你确定应该走这边?");标注数据有限但可用 GPT-4V 生成推理数据。NavGPT-2 的 LLM 语言能力是独有优势。
需要在 Matterport3D 上跑标准 benchmark;需要轻量模型快速迭代;作为后续研究(ScaleVLN、ETPNav 等)的基线。DUET 是 VLN 领域的事实标准基础设施。
实际部署可能需要:DUET 的拓扑图框架(长程规划)+ NavGPT-2 的 LLM 推理(可解释)+ NaVILA 的 locomotion policy(真机执行)。三者各有专长,组合使用可能比单独任一更强大。
VLN 技术演进脉络(2018-2025):
2018-2020:RNN 时代 → Seq2Seq, Speaker-Follower, RCM(单尺度局部推理)
2020-2021:图建模时代 → 引入拓扑图 + 图注意力(PREVALENT, HAMT 雏形)
2022:图 Transformer 成熟 → DUET(双尺度融合,CVPR Oral)
2023:数据规模扩展 → ScaleVLN, ETPNav(合成环境数据扩增)
2024:LLM 范式引入 → NavGPT-2(冻结 LLM + 可解释推理)
2025:真机端到端 → NaVILA(VLA → 关节控制,RSS)