越疆正式發布自研世界動作模型空弈DobotWAM具身大模型。在具身智能標準評測基準LIBERO上,空弈DobotWAM具身大模型分別完成LIBERO-Spatial、LIBERO-Object、LIBERO-Goal和LIBERO-10四個標準任務套件,覆蓋空間關系理解、物體泛化、目標指令理解以及長時序任務執行等關鍵能力維度,平均成功率達99.25%,領先于π0.5、π0、GR00T-N1.5、π0+FAST等公開模型,以及行業內已有數據公布的其他模型結果。
其中,空弈DobotWAM具身大模型在LIBERO-Object上實現100/100全部成功,在Spatial、Goal和LIBERO-10三個套件中均達到99/100。
此次LIBERO的表現,標志著越疆已躋身具身智能行業頭部。這并非偶然,而是源于公司近三年完成從協作機器人到具身智能的產品戰略升級。基于對機器人“身體”操作能力的深刻理解,空弈DobotWAM具身大模型形成了獨特的具身優勢。
具身智能的下一站,不是更好看的演示,而是真實可用的現場執行能力。過去,機器人演示多以預設軌跡的舞蹈、翻跟頭為主,好看卻離生產很遠;如今,越疆將焦點拉回插接、抓取、對準等高精度接觸作業,讓具身智能真正走向可用、可靠、可落地,引領行業向具備真實操作能力、可落地復用的方向前進。
機器人走向真實應用,真正的挑戰不再是“識別物體”,而是在動態、多變的開放場景中,理解空間關系、拆解任務目標、生成符合運動結構的動作,并在多步執行中始終保持全局一致。
近兩年,視覺—語言—動作模型成為具身智能動作生成的主流范式,在數據覆蓋充分、任務邊界清晰的場景下展現了較高效率。然而,過度依賴二維圖像模式或離線軌跡模仿,在面對空間擾動、物體變化、長流程任務和真實接觸反饋時,仍容易出現動作漂移、目標丟失,或局部動作正確而整體任務失敗的情況。這要求機器人模型必須超越單純的“模仿”,建立起對動作深層次結構的真正理解。

空弈DobotWAM的高成功率,源于其在感知、理解、控制與數據閉環上的系統性設計。模型在視覺—語言—動作建模的基礎上,進一步引入三維空間理解、機器人運動幾何約束和真實數據閉環機制,使機器人不僅學會“模仿動作”,更學會“理解動作為什么這樣做”。

其核心技術突破包含四個方面:
· 3D-Aware Spatial Representation:將3D空間信息引入視覺—語言—動作建模,使模型不只依賴2D圖像紋理和像素特征,能夠顯式感知物體位置、空間關系與操作目標之間的幾何結構,具備更強的泛化能力。
· Joint Dynamic Geometry Loss:將機器人關節動態信息與末端執行器幾何約束融入訓練loss,使模型從“模仿動作”升級為“理解真實動作結構”,從而減少軌跡漂移、姿態不連續和抓取失敗,提升長時序任務中的執行穩定性。
· Advanced VLM Task Decomposition:基于高級VLM backbone對復雜語言指令進行語義理解與任務拆解,將長流程操作分解為更清晰的階段目標和可執行子步驟,避免局部動作正確但全局任務失敗。
· High-Quality Data Flywheel + Real-Robot Recap:構建高質量數據飛輪,以Recap真機實驗為核心,閉環采集、訓練、評測與反饋,持續吸收成功、失敗及長尾場景的真實經驗,提升從仿真benchmark到真實環境執行的遷移能力。
這四項技術彼此耦合,使得空弈DobotWAM能夠更穩定地完成多物體、多階段、長時序的機器人操作任務,為具身智能的大規模落地提供了可復用的系統性框架。

以多場景任務分類抓取、插充電器和插筆帽三項典型任務為例。它們看似日常,實則是高精度接觸作業,要求模型不僅要識別目標物體的位置,還需理解插頭與插座、筆身與筆帽之間的空間關系,并連續完成對準、接近、插入和閉合等動作,直接考驗小目標定位與姿態估計、強幾何約束下的末端控制以及接觸過程中的穩定執行與誤差修正三項關鍵能力。
測試中,空弈DobotWAM大模型能夠基于視覺觀測完成目標定位,結合機器人自身狀態實時生成動作,使機械臂在真實環境中穩定完成抓取以及充電器插接流程。

在插筆帽任務中,模型準確判斷筆身與筆帽的相對位置及開口方向,完成軸線對齊和精細插入動作,全程保持姿態穩定。
三項任務的連續穩定完成,驗證了空弈DobotWAM在真實物理世界中從空間理解、姿態控制到接觸執行的完整閉環能力。
具身智能走向真實世界,不能只依賴更大的模型參數,也不能只依賴單次演示中的亮眼表現。真正能夠推動機器人規模化落地的,是一套同時具備空間理解、任務規劃、精準執行和持續進化能力的模型系統。
越疆空弈DobotWAM具身大模型正是沿著這一路徑邁出的關鍵一步。未來,越疆將繼續圍繞真實機器人場景推進空弈DobotWAM具身大模型的模型迭代,讓機器人從“能看懂、能行動”,進一步走向“能適應、能泛化、能長期可靠執行”。