三大 VLN 项目横向对比

NaVILA · NavGPT-2 · DUET — 技术架构、性能、选型全面对照

基础属性对比

属性	NaVILA	NavGPT-2	DUET
发表	RSS 2025	NeurIPS 2024	CVPR 2022 Oral
团队	NVIDIA + UCSD	Adelaide + Adobe	Inria + Meta AI
技术路线	VLA 端到端	LLM 推理导航	图 Transformer
参数量	7B+（VLM 部分）	1.5B / 5B	~180M
硬件需求	多卡 A100	1×A100（推理）	1×3090（训练）
开源代码	✓（benchmark）	✓（完整）	✓（完整）

维度	NaVILA	NavGPT-2	DUET
视觉编码	VILA vision encoder（端到端）	EVA-02-G（冻结）	Faster R-CNN 预提取
语言编码	VLM 内置（LLM）	FlanT5（冻结）	LXMERT 文本编码器
推理方式	VLM → 语言动作	LLM hidden state → 图策略	图 Transformer 注意力
动作空间	连续（中间语言 → 关节）	离散（拓扑图节点）	离散（拓扑图节点）
层次结构	两层（VLA + Locomotion）	两层（VLM + Policy）	单层（双尺度融合）
历史建模	轨迹视频摘要	VLM token 序列	拓扑图结构

注意：三者在 R2R 上的评测设置不完全一致（NaVILA 用 VLN-CE 连续环境，DUET 和 NavGPT-2 用离散 Matterport3D），下表仅供量级参考。

指标 (Test Unseen)	NaVILA *	NavGPT-2 (5B)	DUET	当前 SOTA **
SR ↑	—	~44	40.05	~75
SPL ↑	—	~28	36.71	~67

* NaVILA 主要在 VLN-CE-Isaac 上评测，与离散 R2R 不直接可比。
** ScaleVLN (2023)，在 DUET 基础上用合成环境数据扩增。

维度	NaVILA	NavGPT-2	DUET
R2R 性能	N/A (VLN-CE)	★★★★☆	★★★★☆
REVERIE 性能	—	—	★★★★★
真机部署	★★★★★	★★☆☆☆	★☆☆☆☆
可解释性	★★★☆☆	★★★★★	★★☆☆☆
训练效率	★★☆☆☆	★★★☆☆	★★★★★
代码复现度	★★★☆☆	★★★★☆	★★★★★
数据效率	★★★☆☆	★★★★☆	★★★☆☆
社区影响力	★★★☆☆ (新)	★★★☆☆	★★★★★

需要从语言指令直接到关节控制；需要 Sim-to-Real 迁移；机器人有 LiDAR + RGB 传感器。NaVILA 是唯一已验证真机部署的方案。

需要人类可理解的导航推理过程；需要多轮语言交互（"你确定应该走这边？"）；标注数据有限但可用 GPT-4V 生成推理数据。NavGPT-2 的 LLM 语言能力是独有优势。

需要在 Matterport3D 上跑标准 benchmark；需要轻量模型快速迭代；作为后续研究（ScaleVLN、ETPNav 等）的基线。DUET 是 VLN 领域的事实标准基础设施。

混合方案

实际部署可能需要：DUET 的拓扑图框架（长程规划）+ NavGPT-2 的 LLM 推理（可解释）+ NaVILA 的 locomotion policy（真机执行）。三者各有专长，组合使用可能比单独任一更强大。

VLN 技术演进脉络（2018-2025）：

2018-2020：RNN 时代 → Seq2Seq, Speaker-Follower, RCM（单尺度局部推理）

2020-2021：图建模时代 → 引入拓扑图 + 图注意力（PREVALENT, HAMT 雏形）

2022：图 Transformer 成熟 → DUET（双尺度融合，CVPR Oral）

2023：数据规模扩展 → ScaleVLN, ETPNav（合成环境数据扩增）

2024：LLM 范式引入 → NavGPT-2（冻结 LLM + 可解释推理）

2025：真机端到端 → NaVILA（VLA → 关节控制，RSS）