VLN 技术站

Vision-and-Language Navigation · 室内机器人导航开源项目深度解读

什么是 VLN？

Vision-and-Language Navigation（VLN）指智能体在未见过的 3D 环境中，根据自然语言指令（如"走出客厅，左转进厨房，停在冰箱旁边"），逐步导航到目标位置。每一步需要处理多视角图像、理解指令语义、在拓扑图上做出路径选择。

与 VLA（机械臂操作）不同，VLN 的核心挑战是长程空间推理：指令可能跨多个房间，智能体必须记住已走过的路径（历史观测），在探索与利用之间权衡，并在正确的时机停止。

VLN vs VLA 的本质区别

• VLA：固定位置 → 机械臂抓取/放置（"动手"）

• VLN：移动导航 → 室内场景寻路（"动脚"）

• 共同点：都接受视觉 + 语言输入，都追求端到端

• 融合趋势：NaVILA 用 VLA 范式做导航；π0 等 VLA 也能做 mobile manipulation

当前 VLN 领域存在三条主要技术路线，各有截然不同的架构假设和工程权衡：

路线	代表项目	核心思想	优势	局限
VLA 端到端	NaVILA (RSS 2025)	VLM 输出中间语言指令 → RL locomotion policy 执行低层关节控制	真机部署；Sim-to-Real 已验证	依赖高保真仿真器；训练成本高
LLM 推理导航	NavGPT-2 (2024)	冻结 LLM + Q-former 提取视觉 token → 拓扑图策略网络决策	保留语言推理能力；可解释	推理延迟高；动作空间受限
图 Transformer	DUET (CVPR 2022 Oral)	双尺度图 Transformer：局部细粒度 + 全局拓扑图推理	训练效率高；SOTA benchmark	离散动作空间；依赖预提取特征

R2R（Room-to-Room）是 VLN 最核心的 benchmark。所有主流论文都在此对比。以下是关键指标：

指标	全称	含义	方向
TL	Trajectory Length	实际走过的路径长度（米）	↓ 越短越好
NE	Navigation Error	最终位置距目标点的欧氏距离（米）	↓ 越小越好
OSR	Oracle Success Rate	路径中任一点距目标 ≤ 3m 的比例	↑ 越高越好
SR	Success Rate	最终停止点距目标 ≤ 3m 的比例	↑ 核心指标
SPL	Success weighted by Path Length	SR × (最短路径/实际路径)，兼顾成功与效率	↑ 综合指标
NDTW	Normalized Dynamic Time Warping	预测路径与标注路径的动态时间规整相似度	↑ 路径保真度

关键约定：Val Unseen = 验证集未见过的场景；Test Unseen = 测试集未见过的场景（最终排名依据）。Human 参考：SR=86%, SPL=76%。当前 SOTA（ScaleVLN 等）SR≈72-75%，SPL≈67%。

VLN 的基础设施层由数据集（提供场景和标注）和仿真器（渲染场景、执行动作）两部分组成。

仿真器选择策略：

• 发论文刷榜 → Habitat 3.0（VLN-CE 标准，社区最大）

• 真机部署 → IsaacLab（物理仿真保真度最高，Sim-to-Real gap 最小）

• 快速原型 → Matterport3D Simulator（离散动作，最简单）