首个在真实四足机器人(Unitree Go2)上完成 VLN 的 VLA 系统。两层架构:VLM 输出中间语言动作("前进 75cm"),RL locomotion policy 转化为 12-DoF 关节控制。不是"导航算法"——是一套从语言到关节的完整 pipeline。
传统 VLN 方法假设动作空间是离散的 viewpoint 跳转或连续的 6-DoF 速度指令。但真四足机器人的底层控制是 q_d ∈ ℝ¹²(12 个关节的目标位置)。直接用 VLM 预测 12 个浮点数存在两个问题:
NaVILA 的核心 insight:解耦语义推理和运动控制。VLA 只需输出中间语言动作("turn right 30 degrees"),由经过 RL 训练的 locomotion policy 负责物理执行。这利用了一个关键事实——四足机器人的 locomotion 控制已有成熟的 RL 解决方案。
"moving forward 75cm" / "turn right 30 degrees"
VILA backbone 采用三阶段训练:
| 阶段 | 训练内容 | 数据来源 |
|---|---|---|
| Stage 1:对齐 | 冻结 LLM 和 vision encoder,训练 connector | 图文对齐数据 (Liu et al. 2023) |
| Stage 2:交错预训练 | 解冻 connector + LLM | 图文交错语料 (MC4, MMMU 等) |
| Stage 3:指令微调 | 全模块微调(vision encoder + connector + LLM) | 导航指令数据 + EnvDrop 增强 |
Stage 3 的关键设计:轨迹视频摘要任务。从历史帧中均匀采样,要求模型用自然语言总结已走过的路径。这迫使 VLM 理解空间方位和运动历史,而非只看当前帧做单步决策。
q_d ∈ ℝ¹²:12 个关节的目标位置 → PD 控制器 → 电机扭矩
论文发现,玻璃等透明障碍物在 depth camera(前向 RGB-D)中几乎不可见,但在 top-down LiDAR height map 中清晰可辨。这对室内导航至关重要——办公室和实验室大量使用玻璃隔断。
关键工程细节:Sim-to-Real Gap
RL locomotion policy 在 IsaacLab 中训练,通过 domain randomization(摩擦系数、质量分布、地形参数)迁移到真机。这是 NaVILA 能跑实物的根本原因——locomotion 层不依赖视觉语义,只依赖物理感知。
NaVILA 的另一个核心贡献是提出 VLN-CE-Isaac——在 IsaacLab 中重建的高保真 VLN 评测环境。传统 Habitat-based VLN-CE 存在明显局限:
| 特性 | VLN-CE (Habitat) | VLN-CE-Isaac |
|---|---|---|
| 渲染引擎 | Magnum(光栅化) | PhysX 5(光线追踪) |
| 物理仿真 | 基础碰撞检测 | 完整刚体动力学 |
| 动作空间 | 6-DoF 速度指令 | 低层关节控制 |
| 场景真实度 | 低多边形 | 光线追踪级渲染 |
| 机器人类型 | 抽象点智能体 | 物理四足机器人 |
NaVILA 在标准 VLN-CE(Habitat)上显著超越此前方法。关键提升来自 VLM 对空间语义的理解——传统 RNN-based navigator 无法有效利用语言指令中的空间线索。
在新提出的 IsaacLab 环境中,传统方法(如 waypoint-based planner)因物理碰撞频繁失败。NaVILA 的两层架构将碰撞避免完全交给 locomotion policy,VLA 只负责高层决策。
在 Unitree Go2 上完成的室内导航实验包括:跨房间导航、绕过障碍物(含玻璃门)、上下楼梯。据作者所知,这是第一个端到端 VLN 系统在真四足机器人上的验证。
| 属性 | 规格 |
|---|---|
| 论文 | RSS 2025(Robotics: Science and Systems XXI) |
| VLM backbone | VILA(vision encoder + MLP projector + LLM) |
| 训练阶段 | 3-stage:对齐 → 交错预训练 → 指令微调 |
| 训练数据 | R2R + EnvDrop 增强 + 辅助导航数据集 |
| 机器人平台 | Unitree Go2(12-DoF 四足) |
| Locomotion 训练 | RL (actor-critic) in IsaacLab + domain randomization |
| 传感器输入 | RGB(VLA)+ LiDAR height map + proprioception(locomotion) |
| 动作输出 | 中间语言 → 速度指令 → q_d ∈ ℝ¹² 关节位置 |
| 开源代码 | VLN-CE-Isaac benchmark 代码已开源 |
| GPU 需求 | VLA 微调需多卡 A100;RL locomotion 单卡可训 |
NaVILA 的核心取舍
✓ 优势:
• 真机部署可行——Sim-to-Real gap 被两层架构隔离
• 语言指令空间天然可解释,便于人机交互
• locomotion policy 可独立升级,不影响高层推理
✗ 代价:
• 两层串联引入额外延迟(VLM 推理 + RL 执行)
• 中间语言动作粒度有限(无法表达精细运动)
• 需要训练两个独立系统,工程复杂度高
• VLM 推理成本高(7B+ 模型),实时性受限
| 场景 | 推荐度 | 说明 |
|---|---|---|
| 四足机器人室内导航 | ★★★★★ | 本设计的目标场景 |
| 轮式机器人导航 | ★★★☆☆ | VLA 层可复用,locomotion 层需替换 |
| 纯仿真 VLN 刷榜 | ★★☆☆☆ | 过重——DUET/ETPNav 更轻量高效 |
| 室外导航 | ★★☆☆☆ | locomotion policy 需重训;场景泛化待验证 |