登錄
註冊
據午方 AI 消息,阿里巴巴大模型團隊正式披露了 Qwen-Robot Suite 機器人智能基礎模型套件,該套件旨在通過整合視覺語言模型與物理動作,賦予機器人在多任務處理及複雜場景下的泛化能力。套件核心由 Qwen-RobotNav、Qwen-RobotManip 及 Qwen-RobotWorld 三大基礎模型構成,分別對應導航、操控與世界模擬功能。
在導航領域,Qwen-RobotNav 經 1560 萬樣本訓練,通過參數化視覺注意力策略動態調整推理過程中的信息使用,已在 Yushu Go2 四足機器人上實現最佳性能應用。操控模型 Qwen-RobotManip 基於 Qwen3.5-4B 骨幹網絡構建,利用超 38,100 小時的多源數據訓練,在 LIBERO-Plus 評估中達成 91.4% 的成功率。世界模擬模型 Qwen-RobotWorld 則採用 60 層雙流 MMDiT 結構,深度融合語義表示與視頻隱含信息,在物理規律遵從性評估中表現優異。
此外,配套推出的 Qwen-RobotClaw 框架允許上層規劃系統將上述模型作爲物理工具執行多步驟操作。