Vision-and-Language Navigation(VLN)指智能体在未见过的 3D 环境中,根据自然语言指令(如"走出客厅,左转进厨房,停在冰箱旁边"),逐步导航到目标位置。每一步需要处理多视角图像、理解指令语义、在拓扑图上做出路径选择。
与 VLA(机械臂操作)不同,VLN 的核心挑战是长程空间推理:指令可能跨多个房间,智能体必须记住已走过的路径(历史观测),在探索与利用之间权衡,并在正确的时机停止。
VLN vs VLA 的本质区别
• VLA:固定位置 → 机械臂抓取/放置("动手")
• VLN:移动导航 → 室内场景寻路("动脚")
• 共同点:都接受 视觉 + 语言 输入,都追求端到端
• 融合趋势:NaVILA 用 VLA 范式做导航;π0 等 VLA 也能做 mobile manipulation
当前 VLN 领域存在三条主要技术路线,各有截然不同的架构假设和工程权衡:
| 路线 | 代表项目 | 核心思想 | 优势 | 局限 |
|---|---|---|---|---|
| VLA 端到端 | NaVILA (RSS 2025) | VLM 输出中间语言指令 → RL locomotion policy 执行低层关节控制 | 真机部署;Sim-to-Real 已验证 | 依赖高保真仿真器;训练成本高 |
| LLM 推理导航 | NavGPT-2 (2024) | 冻结 LLM + Q-former 提取视觉 token → 拓扑图策略网络决策 | 保留语言推理能力;可解释 | 推理延迟高;动作空间受限 |
| 图 Transformer | DUET (CVPR 2022 Oral) | 双尺度图 Transformer:局部细粒度 + 全局拓扑图推理 | 训练效率高;SOTA benchmark | 离散动作空间;依赖预提取特征 |
R2R(Room-to-Room)是 VLN 最核心的 benchmark。所有主流论文都在此对比。以下是关键指标:
| 指标 | 全称 | 含义 | 方向 |
|---|---|---|---|
| TL | Trajectory Length | 实际走过的路径长度(米) | ↓ 越短越好 |
| NE | Navigation Error | 最终位置距目标点的欧氏距离(米) | ↓ 越小越好 |
| OSR | Oracle Success Rate | 路径中任一点距目标 ≤ 3m 的比例 | ↑ 越高越好 |
| SR | Success Rate | 最终停止点距目标 ≤ 3m 的比例 | ↑ 核心指标 |
| SPL | Success weighted by Path Length | SR × (最短路径/实际路径),兼顾成功与效率 | ↑ 综合指标 |
| NDTW | Normalized Dynamic Time Warping | 预测路径与标注路径的动态时间规整相似度 | ↑ 路径保真度 |
VLN 的基础设施层由数据集(提供场景和标注)和仿真器(渲染场景、执行动作)两部分组成。
| 数据集 | 来源 | 场景数 | 指令类型 | 特点 |
|---|---|---|---|---|
| R2R | Matterport3D | 90 室内场景 | 逐步导航指令 | VLN 开山数据集,最通用 |
| RxR | Matterport3D | 90 室内场景 | 密集多语言指令 | 英/印地/泰 三语;路径更长更复杂 |
| REVERIE | Matterport3D | 90 室内场景 | 目标物体描述 | 只需找到目标物体,不需逐步指令 |
| SOON | SuperScenes | 90 场景变体 | 场景描述导航 | 开放性更强 |
| HM3D-OVON | Habitat-Matterport | 200 室内场景 | 开放词汇目标 | IROS 2024,更真实的家庭场景 |
| 仿真器 | 渲染引擎 | 动作空间 | 物理仿真 | 使用场景 |
|---|---|---|---|---|
| Matterport3D Simulator | Panoramic 渲染 | 离散 viewpoint 跳转 | 无 | R2R 原始评测 |
| Habitat 3.0 | Magnum(光栅化) | 连续 6-DoF 移动 | 基础碰撞 | VLN-CE;支持人形/轮式 |
| IsaacLab | PhysX 5(光线追踪) | 连续 + 低层关节 | 完整刚体动力学 | NaVILA 真机迁移训练 |
仿真器选择策略:
• 发论文刷榜 → Habitat 3.0(VLN-CE 标准,社区最大)
• 真机部署 → IsaacLab(物理仿真保真度最高,Sim-to-Real gap 最小)
• 快速原型 → Matterport3D Simulator(离散动作,最简单)