Qwen发布RobotSuite三款具身AI模型:操控、世界建模与导航全面升级

0 阅读5分钟前沿

背景概述

随着机器人技术向通用化迈进,数据碎片化与硬件差异成为制约大模型落地的关键瓶颈。为解决这一痛点,阿里达摩院发布了 Qwen‑RobotSuite,由三款独立的基础模型组成,分别针对操作(Manipulation)、世界建模(World Modeling)和导航(Navigation)三大任务提供统一的视觉‑语言‑动作接口。

三大模型核心技术

1. RobotManip(VLA 操作模型)

  • 骨干:基于 Qwen3.5‑4B(Qwen‑VL)
  • 输出:连续机器人动作向量(80 维)
  • 统一对齐框架
    1. 规范化状态‑动作向量:采用 80 维向量并通过二进制掩码屏蔽无关维度,实现跨机械臂共享同一模型;
    2. 相机帧增量姿态:将末端执行器动作转化为相机坐标系的增量,保证视觉相似的动作在数值上接近;
    3. 上下文策略适配:通过最近执行历史自动识别具体机械臂,实现部署时无需参数更新的即时适配。
  • 数据规模:约 38,100 小时的开源与合成演示,涵盖 15 种机器人平台。
  • Benchmark:在 RoboChallenge Table30‑v1 中取得 23.9% 成功率,领先 3.2 倍;在 LIBERO‑Plus、RoboTwin‑C2R 等基准上均刷新 SOTA。

2. RobotWorld(语言驱动视频世界模型)

  • 骨干:冻结的 Qwen2.5‑VL 编码器 + 60 层双流 MMDiT(20B 参数)
  • 输入/输出:当前观测视频帧 + 文本指令 → 未来视频帧序列
  • 核心创新
    • 双流交互:理解流处理冻结视觉特征,生成流负责视频 VAE 潜码,层层交叉注意实现信息共享;
    • 语言即动作:使用大型语言模型将指令映射为物理可行的动作序列,实现跨形态(机械臂、双臂、人形)统一控制。
  • 训练数据:Embodied World Knowledge(EWK)数据集,约 8.6M 视频‑文本对,覆盖 200M 帧。
  • Benchmark:在 EWMBench、DreamGen Bench、WorldModelBench 三大评测中均夺冠,运动保真度提升 33%,物理一致性(牛顿、质量守恒、流体动力、重力)达 1.00。

3. RobotNav(可控导航模型)

  • 骨干:Qwen3‑VL,提供 2B/4B/8B 三档规模
  • 任务形式:统一为 Waypoint 轨迹预测(8 条 2D 位姿 + 朝向)
  • 可参数化接口
    • 任务模式:VLN、PointNav、ObjNav、Tracking 等多任务切换;
    • 观测控制:视觉 token 预算、时间衰减、摄像头权重等可调参数,实现不同场景的最优记忆策略。
  • 数据规模:15.6M 样本,85% 为导航轨迹,剩余为视觉‑语言推理。
  • Benchmark:VLN‑CE RxR(未见环境)成功率 76.5%,R2R 72.1%;EVT‑Bench 跟踪率 90%;NAVSIM 驾驶 PDMS 91.4。
  • Agentic 系统:上层使用 Qwen3.6‑Plus 规划器,通过自然语言动态切换 RobotNav 任务模式,实现长时程问答(EQA)等复杂交互,整体提升 10.8%‑15.4%。

实际落地与应用场景

  • RobotManip 可在少量示例下快速适配新机械臂,实现跨平台零样本技能迁移;
  • RobotWorld 作为合成数据引擎,为稀缺的真实机器人演示生成高保真视频,降低实验成本;
  • RobotNav 与上层规划器结合,可构建具备自主决策能力的移动机器人或自动驾驶系统。

结语

Qwen‑RobotSuite 通过统一的视觉‑语言‑动作接口、跨形态的数据对齐以及大规模预训练,展示了具身智能从感知行动的全链路突破。随着模型开源与 GitHub 仓库的上线,业界有望在机器人研发、仿真平台以及智能体系统中快速落地这些技术,进一步推动生成式 AI 向真实世界的渗透。

本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。