NaVILA

Legged Robot Vision-Language-Action Model for Navigation
RSS 2025 · An-Chieh Cheng, Yandong Ji, Zhaojing Yang et al. · NVIDIA + UCSD + USC
Project Page · arXiv · GitHub
← 返回 VLN 技术站

一句话概括

首个在真实四足机器人(Unitree Go2)上完成 VLN 的 VLA 系统。两层架构:VLM 输出中间语言动作("前进 75cm"),RL locomotion policy 转化为 12-DoF 关节控制。不是"导航算法"——是一套从语言到关节的完整 pipeline。

为什么需要两层架构?

传统 VLN 方法假设动作空间是离散的 viewpoint 跳转或连续的 6-DoF 速度指令。但真四足机器人的底层控制是 q_d ∈ ℝ¹²(12 个关节的目标位置)。直接用 VLM 预测 12 个浮点数存在两个问题:

  1. 维度灾难:VLM 的 token 空间无法高效表达连续高维关节控制
  2. 训练数据缺失:不存在"语言指令 → 关节轨迹"的大规模标注数据

NaVILA 的核心 insight:解耦语义推理和运动控制。VLA 只需输出中间语言动作("turn right 30 degrees"),由经过 RL 训练的 locomotion policy 负责物理执行。这利用了一个关键事实——四足机器人的 locomotion 控制已有成熟的 RL 解决方案。

架构详解

Layer 1:VLA(Vision-Language-Action 模型)

1
输入处理 RGB 图像序列(历史帧 + 当前帧)+ 自然语言指令
2
VILA backbone(视觉编码器 + MLP projector + LLM) Vision encoder 处理图像 → MLP 投影到语言域 → 与 text token 一起送入 LLM
3
输出:中间语言动作 例如 "moving forward 75cm" / "turn right 30 degrees"

VILA backbone 采用三阶段训练:

阶段训练内容数据来源
Stage 1:对齐冻结 LLM 和 vision encoder,训练 connector图文对齐数据 (Liu et al. 2023)
Stage 2:交错预训练解冻 connector + LLM图文交错语料 (MC4, MMMU 等)
Stage 3:指令微调全模块微调(vision encoder + connector + LLM)导航指令数据 + EnvDrop 增强

Stage 3 的关键设计:轨迹视频摘要任务。从历史帧中均匀采样,要求模型用自然语言总结已走过的路径。这迫使 VLM 理解空间方位和运动历史,而非只看当前帧做单步决策。

Layer 2:Visual Locomotion Policy(RL 运动控制)

1
输入 VLA 输出的中间语言动作(转换为速度指令)+ LiDAR height map + 本体感知(关节角度、角速度等)
2
RL Policy(actor-critic) Critic 使用 privileged height scan(上帝视角地形);Actor 只用真实世界可得传感器
3
输出 q_d ∈ ℝ¹²:12 个关节的目标位置 → PD 控制器 → 电机扭矩

Go2 机器人规格

Unitree Go2 12-DoF(4 腿 × 3 关节:髋侧摆/髋前后/膝) LiDAR height map 本体感知(proprioception) Sim-to-Real(domain randomization)

为什么用 LiDAR height map 而非深度图?

论文发现,玻璃等透明障碍物在 depth camera(前向 RGB-D)中几乎不可见,但在 top-down LiDAR height map 中清晰可辨。这对室内导航至关重要——办公室和实验室大量使用玻璃隔断。

关键工程细节:Sim-to-Real Gap

RL locomotion policy 在 IsaacLab 中训练,通过 domain randomization(摩擦系数、质量分布、地形参数)迁移到真机。这是 NaVILA 能跑实物的根本原因——locomotion 层不依赖视觉语义,只依赖物理感知。

VLN-CE-Isaac:新仿真基准

NaVILA 的另一个核心贡献是提出 VLN-CE-Isaac——在 IsaacLab 中重建的高保真 VLN 评测环境。传统 Habitat-based VLN-CE 存在明显局限:

特性VLN-CE (Habitat)VLN-CE-Isaac
渲染引擎Magnum(光栅化)PhysX 5(光线追踪)
物理仿真基础碰撞检测完整刚体动力学
动作空间6-DoF 速度指令低层关节控制
场景真实度低多边形光线追踪级渲染
机器人类型抽象点智能体物理四足机器人

Benchmark 表现

VLN-CE Benchmarks

NaVILA 在标准 VLN-CE(Habitat)上显著超越此前方法。关键提升来自 VLM 对空间语义的理解——传统 RNN-based navigator 无法有效利用语言指令中的空间线索。

VLN-CE-Isaac Benchmark

在新提出的 IsaacLab 环境中,传统方法(如 waypoint-based planner)因物理碰撞频繁失败。NaVILA 的两层架构将碰撞避免完全交给 locomotion policy,VLA 只负责高层决策。

真机实验

在 Unitree Go2 上完成的室内导航实验包括:跨房间导航、绕过障碍物(含玻璃门)、上下楼梯。据作者所知,这是第一个端到端 VLN 系统在真四足机器人上的验证

技术规格总览

属性规格
论文RSS 2025(Robotics: Science and Systems XXI)
VLM backboneVILA(vision encoder + MLP projector + LLM)
训练阶段3-stage:对齐 → 交错预训练 → 指令微调
训练数据R2R + EnvDrop 增强 + 辅助导航数据集
机器人平台Unitree Go2(12-DoF 四足)
Locomotion 训练RL (actor-critic) in IsaacLab + domain randomization
传感器输入RGB(VLA)+ LiDAR height map + proprioception(locomotion)
动作输出中间语言 → 速度指令 → q_d ∈ ℝ¹² 关节位置
开源代码VLN-CE-Isaac benchmark 代码已开源
GPU 需求VLA 微调需多卡 A100;RL locomotion 单卡可训

工程权衡分析

NaVILA 的核心取舍

✓ 优势:

• 真机部署可行——Sim-to-Real gap 被两层架构隔离

• 语言指令空间天然可解释,便于人机交互

• locomotion policy 可独立升级,不影响高层推理

✗ 代价:

• 两层串联引入额外延迟(VLM 推理 + RL 执行)

• 中间语言动作粒度有限(无法表达精细运动)

• 需要训练两个独立系统,工程复杂度高

• VLM 推理成本高(7B+ 模型),实时性受限

适用场景

场景推荐度说明
四足机器人室内导航★★★★★本设计的目标场景
轮式机器人导航★★★☆☆VLA 层可复用,locomotion 层需替换
纯仿真 VLN 刷榜★★☆☆☆过重——DUET/ETPNav 更轻量高效
室外导航★★☆☆☆locomotion policy 需重训;场景泛化待验证