VLN 技术站

Vision-and-Language Navigation · 室内机器人导航开源项目深度解读

什么是 VLN?

Vision-and-Language Navigation(VLN)指智能体在未见过的 3D 环境中,根据自然语言指令(如"走出客厅,左转进厨房,停在冰箱旁边"),逐步导航到目标位置。每一步需要处理多视角图像、理解指令语义、在拓扑图上做出路径选择。

与 VLA(机械臂操作)不同,VLN 的核心挑战是长程空间推理:指令可能跨多个房间,智能体必须记住已走过的路径(历史观测),在探索与利用之间权衡,并在正确的时机停止。

VLN vs VLA 的本质区别

VLA:固定位置 → 机械臂抓取/放置("动手")

VLN:移动导航 → 室内场景寻路("动脚")

共同点:都接受 视觉 + 语言 输入,都追求端到端

融合趋势:NaVILA 用 VLA 范式做导航;π0 等 VLA 也能做 mobile manipulation

三大技术路线

当前 VLN 领域存在三条主要技术路线,各有截然不同的架构假设和工程权衡:

路线代表项目核心思想优势局限
VLA 端到端 NaVILA (RSS 2025) VLM 输出中间语言指令 → RL locomotion policy 执行低层关节控制 真机部署;Sim-to-Real 已验证 依赖高保真仿真器;训练成本高
LLM 推理导航 NavGPT-2 (2024) 冻结 LLM + Q-former 提取视觉 token → 拓扑图策略网络决策 保留语言推理能力;可解释 推理延迟高;动作空间受限
图 Transformer DUET (CVPR 2022 Oral) 双尺度图 Transformer:局部细粒度 + 全局拓扑图推理 训练效率高;SOTA benchmark 离散动作空间;依赖预提取特征

三大开源项目

NaVILA

VLA · 两层框架 · RSS 2025
NVIDIA + UCSD 出品。首个在真四足机器人(Unitree Go2)上验证的 VLN 系统。VLA 层输出中间语言动作(如"前进 75cm"),RL locomotion policy 转化为 12-DoF 关节位置控制。创新提出 VLN-CE-Isaac 高保真仿真基准。
VILA backbone IsaacLab Unitree Go2 Sim-to-Real 12-DoF 关节控制

NavGPT-2

LLM · 可解释推理 · NeurIPS 2024
阿德莱德大学 + Adobe + 上海AI Lab。基于 InstructBLIP 架构,用 GPT-4V 生成导航推理数据微调。VLM latent 同时驱动语言推理和拓扑图策略网络。首个用 5B 模型逼近 VLN 专用模型(DUET ~180M)性能的方案。
InstructBLIP FlanT5-XL/XXL Q-former GPT-4V 数据增强 DAgger

DUET

Graph Transformer · CVPR 2022 Oral
Inria + Meta AI(Cordelia Schmid 团队)。双尺度图 Transformer:局部分支做细粒度跨模态编码,全局分支在拓扑图上做长程规划。~180M 参数,ICCV 2021 Workshop REVERIE & SOON 双料冠军,R2R/REVERIE/SOON 三榜 SOTA。
LXMERT 预训练 拓扑图构建 动态融合 Matterport3D ~180M 参数
三项目横向对比 →

R2R Benchmark 评测指标

R2R(Room-to-Room)是 VLN 最核心的 benchmark。所有主流论文都在此对比。以下是关键指标:

指标全称含义方向
TLTrajectory Length实际走过的路径长度(米)↓ 越短越好
NENavigation Error最终位置距目标点的欧氏距离(米)↓ 越小越好
OSROracle Success Rate路径中任一点距目标 ≤ 3m 的比例↑ 越高越好
SRSuccess Rate最终停止点距目标 ≤ 3m 的比例↑ 核心指标
SPLSuccess weighted by Path LengthSR × (最短路径/实际路径),兼顾成功与效率↑ 综合指标
NDTWNormalized Dynamic Time Warping预测路径与标注路径的动态时间规整相似度↑ 路径保真度
关键约定:Val Unseen = 验证集未见过的场景;Test Unseen = 测试集未见过的场景(最终排名依据)。Human 参考:SR=86%, SPL=76%。当前 SOTA(ScaleVLN 等)SR≈72-75%,SPL≈67%。

数据集与仿真器

VLN 的基础设施层由数据集(提供场景和标注)和仿真器(渲染场景、执行动作)两部分组成。

核心数据集

数据集来源场景数指令类型特点
R2RMatterport3D90 室内场景逐步导航指令VLN 开山数据集,最通用
RxRMatterport3D90 室内场景密集多语言指令英/印地/泰 三语;路径更长更复杂
REVERIEMatterport3D90 室内场景目标物体描述只需找到目标物体,不需逐步指令
SOONSuperScenes90 场景变体场景描述导航开放性更强
HM3D-OVONHabitat-Matterport200 室内场景开放词汇目标IROS 2024,更真实的家庭场景

仿真器对比

仿真器渲染引擎动作空间物理仿真使用场景
Matterport3D SimulatorPanoramic 渲染离散 viewpoint 跳转R2R 原始评测
Habitat 3.0Magnum(光栅化)连续 6-DoF 移动基础碰撞VLN-CE;支持人形/轮式
IsaacLabPhysX 5(光线追踪)连续 + 低层关节完整刚体动力学NaVILA 真机迁移训练

仿真器选择策略:

• 发论文刷榜 → Habitat 3.0(VLN-CE 标准,社区最大)

• 真机部署 → IsaacLab(物理仿真保真度最高,Sim-to-Real gap 最小)

• 快速原型 → Matterport3D Simulator(离散动作,最简单)