3月13日,證券時報記者從大曉機器人獲悉,該公司已開源開悟世界模型3.0(Kairos 3.0)-4B系列具身原生世界模型。
Kairos 3.0-4B是全球首個可端側驅動具身智能本體控制的世界模型,也是行業內首個在THOR端側平臺達成 1:1.5(視頻生成時間:視頻時長)實時生成的具身世界模型。該模型部署于Jetson Thor T5000端側平臺,算力可達517 TFlops,不僅能在3D仿真環境中精準生成機械臂運動形態、完成運動軌跡的預測與規劃,更可依托THOR端側平臺實現機器人本體的真實驅動與作業執行,讓機器人真正從“會表演”走向“能干活”。
依托端側部署,該模型可直接輸出機器人從上肢到手指再到下肢的全方位控制指令,省去中間轉譯環節,讓機器人“想到即可做到”。
在家庭場景Demo中,機器人實現全流程自主作業:先有序整理桌面上的杯子與紙巾盒,規劃合適位置擺放物品,隨后自主進入洗衣機,撿拾衣服、打開洗衣機、完成衣物投放與清洗操作;接著穿過客廳進入廚房,開啟冰箱取出牛奶,打開壁櫥取出麥片,并打開抽屜取出碗與勺子,將麥片和牛奶倒入碗中,自主完成早餐制備。
當前,具身智能行業深陷數據稀缺且割裂的困境,傳統生成式模型僅側重視頻生成,缺乏對物理世界的深度認知,因此面臨長時序交互不足、部署算力成本高昂、狀態預測物理一致性差等行業瓶頸。
作為業內首個實現“多模態理解—生成—預測”一體化的開源具身原生世界模型,Kairos 3.0-4B并非在大語言或視覺模型后簡單附加運動接口,而是從架構底層為機器人在真實世界的運行進行設計,以自然界基本物理規律與因果規律為認知根基,構建起跨本體的統一世界理解框架,徹底打破傳統具身智能“行為模仿”的技術局限,將模型能力升級至“物理級深度理解”的維度。
Kairos 3.0-4B還在長時序視頻生成能力上實現突破。Kairos智能體可將用戶復雜交互指令進行層級化解析與結構化拆解,依托模型對序列間的時空演化、物理規則、場景動態及交互邏輯精細化預測,補全連續世界信息,并通過自我反思機制實現閉環迭代優化,最終生成長達7分鐘的具身動態交互視頻。
據悉,Kairos 3.0-4B還在行業內率先實現云側1:1實時推理,推理速度較Cosmos 2.5提升72倍,刷新全球具身世界模型性能紀錄。