三大 VLN 项目横向对比

NaVILA · NavGPT-2 · DUET — 技术架构、性能、选型全面对照
← 返回 VLN 技术站

基础属性对比

属性 NaVILA NavGPT-2 DUET
发表 RSS 2025 NeurIPS 2024 CVPR 2022 Oral
团队 NVIDIA + UCSD Adelaide + Adobe Inria + Meta AI
技术路线 VLA 端到端 LLM 推理导航 图 Transformer
参数量 7B+(VLM 部分) 1.5B / 5B ~180M
硬件需求 多卡 A100 1×A100(推理) 1×3090(训练)
开源代码 ✓(benchmark) ✓(完整) ✓(完整)

架构对比

维度 NaVILA NavGPT-2 DUET
视觉编码 VILA vision encoder(端到端) EVA-02-G(冻结) Faster R-CNN 预提取
语言编码 VLM 内置(LLM) FlanT5(冻结) LXMERT 文本编码器
推理方式 VLM → 语言动作 LLM hidden state → 图策略 图 Transformer 注意力
动作空间 连续(中间语言 → 关节) 离散(拓扑图节点) 离散(拓扑图节点)
层次结构 两层(VLA + Locomotion) 两层(VLM + Policy) 单层(双尺度融合)
历史建模 轨迹视频摘要 VLM token 序列 拓扑图结构

Benchmark 对比(R2R)

注意:三者在 R2R 上的评测设置不完全一致(NaVILA 用 VLN-CE 连续环境,DUET 和 NavGPT-2 用离散 Matterport3D),下表仅供量级参考。

指标 (Test Unseen) NaVILA * NavGPT-2 (5B) DUET 当前 SOTA **
SR ↑ ~44 40.05 ~75
SPL ↑ ~28 36.71 ~67

* NaVILA 主要在 VLN-CE-Isaac 上评测,与离散 R2R 不直接可比。
** ScaleVLN (2023),在 DUET 基础上用合成环境数据扩增。

核心维度评分

维度 NaVILA NavGPT-2 DUET
R2R 性能 N/A (VLN-CE) ★★★★☆ ★★★★☆
REVERIE 性能 ★★★★★
真机部署 ★★★★★ ★★☆☆☆ ★☆☆☆☆
可解释性 ★★★☆☆ ★★★★★ ★★☆☆☆
训练效率 ★★☆☆☆ ★★★☆☆ ★★★★★
代码复现度 ★★★☆☆ ★★★★☆ ★★★★★
数据效率 ★★★☆☆ ★★★★☆ ★★★☆☆
社区影响力 ★★★☆☆ (新) ★★★☆☆ ★★★★★

选型决策树

推荐 NaVILA

场景:四足/人形机器人室内导航

需要从语言指令直接到关节控制;需要 Sim-to-Real 迁移;机器人有 LiDAR + RGB 传感器。NaVILA 是唯一已验证真机部署的方案。

推荐 NavGPT-2

场景:可解释导航 / 对话式导航

需要人类可理解的导航推理过程;需要多轮语言交互("你确定应该走这边?");标注数据有限但可用 GPT-4V 生成推理数据。NavGPT-2 的 LLM 语言能力是独有优势。

推荐 DUET

场景:R2R/REVERIE 刷榜 / 快速原型 / 研究

需要在 Matterport3D 上跑标准 benchmark;需要轻量模型快速迭代;作为后续研究(ScaleVLN、ETPNav 等)的基线。DUET 是 VLN 领域的事实标准基础设施。

混合方案

场景:大规模生产级 VLN 系统

实际部署可能需要:DUET 的拓扑图框架(长程规划)+ NavGPT-2 的 LLM 推理(可解释)+ NaVILA 的 locomotion policy(真机执行)。三者各有专长,组合使用可能比单独任一更强大。

技术演进路线

VLN 技术演进脉络(2018-2025):

2018-2020:RNN 时代 → Seq2Seq, Speaker-Follower, RCM(单尺度局部推理)

2020-2021:图建模时代 → 引入拓扑图 + 图注意力(PREVALENT, HAMT 雏形)

2022:图 Transformer 成熟DUET(双尺度融合,CVPR Oral)

2023:数据规模扩展 → ScaleVLN, ETPNav(合成环境数据扩增)

2024:LLM 范式引入NavGPT-2(冻结 LLM + 可解释推理)

2025:真机端到端NaVILA(VLA → 关节控制,RSS)