NaVILA

Legged Robot Vision-Language-Action Model for Navigation

RSS 2025 · An-Chieh Cheng, Yandong Ji, Zhaojing Yang et al. · NVIDIA + UCSD + USC
Project Page · arXiv · GitHub

一句话概括

首个在真实四足机器人（Unitree Go2）上完成 VLN 的 VLA 系统。两层架构：VLM 输出中间语言动作（"前进 75cm"），RL locomotion policy 转化为 12-DoF 关节控制。不是"导航算法"——是一套从语言到关节的完整 pipeline。

为什么需要两层架构？

传统 VLN 方法假设动作空间是离散的 viewpoint 跳转或连续的 6-DoF 速度指令。但真四足机器人的底层控制是 q_d ∈ ℝ¹²（12 个关节的目标位置）。直接用 VLM 预测 12 个浮点数存在两个问题：

维度灾难：VLM 的 token 空间无法高效表达连续高维关节控制
训练数据缺失：不存在"语言指令 → 关节轨迹"的大规模标注数据

NaVILA 的核心 insight：解耦语义推理和运动控制。VLA 只需输出中间语言动作（"turn right 30 degrees"），由经过 RL 训练的 locomotion policy 负责物理执行。这利用了一个关键事实——四足机器人的 locomotion 控制已有成熟的 RL 解决方案。

架构详解

Layer 1：VLA（Vision-Language-Action 模型）

输入处理 RGB 图像序列（历史帧 + 当前帧）+ 自然语言指令

↓

VILA backbone（视觉编码器 + MLP projector + LLM） Vision encoder 处理图像 → MLP 投影到语言域 → 与 text token 一起送入 LLM

↓

输出：中间语言动作 例如 "moving forward 75cm" / "turn right 30 degrees"

VILA backbone 采用三阶段训练：

阶段	训练内容	数据来源
Stage 1：对齐	冻结 LLM 和 vision encoder，训练 connector	图文对齐数据 (Liu et al. 2023)
Stage 2：交错预训练	解冻 connector + LLM	图文交错语料 (MC4, MMMU 等)
Stage 3：指令微调	全模块微调（vision encoder + connector + LLM）	导航指令数据 + EnvDrop 增强

Stage 3 的关键设计：轨迹视频摘要任务。从历史帧中均匀采样，要求模型用自然语言总结已走过的路径。这迫使 VLM 理解空间方位和运动历史，而非只看当前帧做单步决策。

Layer 2：Visual Locomotion Policy（RL 运动控制）

输入 VLA 输出的中间语言动作（转换为速度指令）+ LiDAR height map + 本体感知（关节角度、角速度等）

↓

RL Policy（actor-critic） Critic 使用 privileged height scan（上帝视角地形）；Actor 只用真实世界可得传感器

↓

输出 q_d ∈ ℝ¹²：12 个关节的目标位置 → PD 控制器 → 电机扭矩

Go2 机器人规格

Unitree Go2 12-DoF（4 腿 × 3 关节：髋侧摆/髋前后/膝） LiDAR height map 本体感知（proprioception） Sim-to-Real（domain randomization）

为什么用 LiDAR height map 而非深度图？

论文发现，玻璃等透明障碍物在 depth camera（前向 RGB-D）中几乎不可见，但在 top-down LiDAR height map 中清晰可辨。这对室内导航至关重要——办公室和实验室大量使用玻璃隔断。

关键工程细节：Sim-to-Real Gap

RL locomotion policy 在 IsaacLab 中训练，通过 domain randomization（摩擦系数、质量分布、地形参数）迁移到真机。这是 NaVILA 能跑实物的根本原因——locomotion 层不依赖视觉语义，只依赖物理感知。

VLN-CE-Isaac：新仿真基准

NaVILA 的另一个核心贡献是提出 VLN-CE-Isaac——在 IsaacLab 中重建的高保真 VLN 评测环境。传统 Habitat-based VLN-CE 存在明显局限：

特性	VLN-CE (Habitat)	VLN-CE-Isaac
渲染引擎	Magnum（光栅化）	PhysX 5（光线追踪）
物理仿真	基础碰撞检测	完整刚体动力学
动作空间	6-DoF 速度指令	低层关节控制
场景真实度	低多边形	光线追踪级渲染
机器人类型	抽象点智能体	物理四足机器人

Benchmark 表现

VLN-CE Benchmarks

NaVILA 在标准 VLN-CE（Habitat）上显著超越此前方法。关键提升来自 VLM 对空间语义的理解——传统 RNN-based navigator 无法有效利用语言指令中的空间线索。

VLN-CE-Isaac Benchmark

在新提出的 IsaacLab 环境中，传统方法（如 waypoint-based planner）因物理碰撞频繁失败。NaVILA 的两层架构将碰撞避免完全交给 locomotion policy，VLA 只负责高层决策。

真机实验

在 Unitree Go2 上完成的室内导航实验包括：跨房间导航、绕过障碍物（含玻璃门）、上下楼梯。据作者所知，这是第一个端到端 VLN 系统在真四足机器人上的验证。

技术规格总览

属性	规格
论文	RSS 2025（Robotics: Science and Systems XXI）
VLM backbone	VILA（vision encoder + MLP projector + LLM）
训练阶段	3-stage：对齐 → 交错预训练 → 指令微调
训练数据	R2R + EnvDrop 增强 + 辅助导航数据集
机器人平台	Unitree Go2（12-DoF 四足）
Locomotion 训练	RL (actor-critic) in IsaacLab + domain randomization
传感器输入	RGB（VLA）+ LiDAR height map + proprioception（locomotion）
动作输出	中间语言 → 速度指令 → `q_d ∈ ℝ¹²` 关节位置
开源代码	VLN-CE-Isaac benchmark 代码已开源
GPU 需求	VLA 微调需多卡 A100；RL locomotion 单卡可训

工程权衡分析

NaVILA 的核心取舍

✓ 优势：

• 真机部署可行——Sim-to-Real gap 被两层架构隔离

• 语言指令空间天然可解释，便于人机交互

• locomotion policy 可独立升级，不影响高层推理

✗ 代价：

• 两层串联引入额外延迟（VLM 推理 + RL 执行）

• 中间语言动作粒度有限（无法表达精细运动）

• 需要训练两个独立系统，工程复杂度高

• VLM 推理成本高（7B+ 模型），实时性受限

适用场景

场景	推荐度	说明
四足机器人室内导航	★★★★★	本设计的目标场景
轮式机器人导航	★★★☆☆	VLA 层可复用，locomotion 层需替换
纯仿真 VLN 刷榜	★★☆☆☆	过重——DUET/ETPNav 更轻量高效
室外导航	★★☆☆☆	locomotion policy 需重训；场景泛化待验证