自去年OpenAI與Figure AI分道揚鑣之后,外界便不斷猜測OpenAI有“開模打鐵”,打造自己機器人的計劃。如今,這一猜測獲得了官方的確認(rèn)。
6月1日,OpenAI CEO山姆·奧特曼在社交平臺發(fā)布招聘信息,宣告成立“OpenAI Robotics”團隊,正式進軍實體機器人領(lǐng)域。
奧特曼為團隊設(shè)定了清晰的路線圖:短期專注于開發(fā)能夠協(xié)助建筑和物理基礎(chǔ)設(shè)施領(lǐng)域技術(shù)工人的機器人;長期愿景則是讓每個人都擁有一個可以完成各種需求的個人機器人。
據(jù)悉,OpenAI全新機器人業(yè)務(wù)板塊由旗下“世界模擬研究項目”升級演化而來。此次團隊的掛帥者,卻是OpenAI研究副總裁、文生圖模型DALL·E和視頻生成模型Sora的核心開發(fā)者阿迪亞·拉梅什。
而這一人事布局也令外界好奇:按照阿迪亞·拉梅什的過往經(jīng)歷,依托Sora及VLA(視覺—語言—動作)大模型落地機器人具身智能,或是阿迪亞?拉梅什主攻的技術(shù)路線。但這一技術(shù)路徑,已經(jīng)受到業(yè)內(nèi)人士質(zhì)疑,并被認(rèn)為難以落地通用具身智能。
那么,OpenAI是否會開辟全新的世界模型研究——抑或是依然基于ChatGPT的技術(shù)模型,來闖蕩人形機器人行業(yè)?
起大早趕晚集
OpenAI的機器人籌謀始于2017年,甚至比絕大部分炙手可熱的人形機器人企業(yè)起步得早。
起初,OpenAI瞄準(zhǔn)的方向是靈巧手——其原型取名為Dactyl。2019年,OpenAI通過強化學(xué)習(xí)和“自動域隨機化”(ADR)技術(shù),訓(xùn)練出一個AI系統(tǒng),使Dactyl成功復(fù)原了魔方。
彼時,OpenAI啟發(fā)了行業(yè)從仿真環(huán)境訓(xùn)練并遷移能力到真實機器人的技術(shù)可行性。但是作為世界模型的創(chuàng)造者之一,OpenAI卻在此后全身心投入了大語言模型的迭代,該項目在2020年前后也被主動放棄。
OpenAI聯(lián)合創(chuàng)始人沃伊切赫·扎倫巴后來解釋,放棄具身智能,其根本原因在于數(shù)據(jù)瓶頸。機器人物理交互數(shù)據(jù)極其稀缺、采集成本高昂、迭代緩慢。相比之下,互聯(lián)網(wǎng)上的文本和圖像數(shù)據(jù)則海量且易于獲取。從通往通用人工智能(AGI)的效率路徑看,將資源集中于大語言模型(LLM)——也就是后來的ChatGPT,顯得更加英明。
當(dāng)然,OpenAI從未放棄在機器人領(lǐng)域的布局,但角色卻從親自下場變成了“投資人”。
2023年,OpenAI領(lǐng)投了人形機器人公司1X Technologies。2024年2月,OpenAI參與了Figure AI總額6.75億美元的B輪融資,并宣布為其人形機器人開發(fā)專屬的多模態(tài)AI模型。官宣合作后不到一個月時間,F(xiàn)igure 01機器人便在宣稱搭載了OpenAI具身智能的前提下,展示了部分自然語言交互與物體操作能力。
然而,后續(xù)OpenAI與Figure AI的決裂,卻折射出了機器人與大語言模型之間天然的“水土不服”。
2025年2月,F(xiàn)igure AI創(chuàng)始人布雷特·阿德考克正式宣布終止與OpenAI的合作,轉(zhuǎn)而自主研發(fā)端到端機器人AI模型。對此,阿德考克在采訪中解釋稱,由于OpenAI規(guī)模龐大、業(yè)務(wù)范圍廣泛,但為機器人等具體對象裝配AI并非其主要關(guān)注點。
“我們發(fā)現(xiàn),要想在現(xiàn)實世界中大規(guī)模解決具身智能問題,就必須垂直整合機器人AI——我們不能外包AI,理由和我們不能外包硬件一樣。”阿德考克表示。
不再“讓語言學(xué)家當(dāng)司機”
對于OpenAI與Figure AI的分手,外界還有另一種猜測。Figure AI其實并不看好基于大語言模型或其Transformer架構(gòu)在人形機器人上的可行性。
怎么理解這件事?如果你向大模型發(fā)送一組盲文圖片,而大模型能夠明白這張圖片確實屬于盲文,但它卻很難自主解答這個盲文的意思——因為大模型沒有真的看到盲文的點位,只是讀到“這似乎是一張盲文圖片”的一段話。
一款通用人形機器人無疑需要同時具備語言能力和動作能力。但在具身智能的架構(gòu)上,語言能力和動作能力卻有可能是一個南轅北轍的技術(shù)路線。
宇樹科技創(chuàng)始人、CEO王興興此前表示,VLA模型就像“讓一位語言學(xué)家去開車”——他雖然能讀懂交規(guī),卻很難瞬間判斷剎車距離或障礙物方位。
此外,斯坦福大學(xué)教授李飛飛指出,用語言模型理解物理世界有結(jié)構(gòu)性短板,空間理解、物理推理等難題從未真正解決。
當(dāng)然,按照奧特曼的說法,OpenAI世界模擬研究項目在過去一年中發(fā)展迅速,現(xiàn)演變?yōu)镺penAI Robotics。但團隊仍由Sora負(fù)責(zé)人來領(lǐng)銜,或暗示其仍然會沿用Transformer架構(gòu)來推進人形機器人具身智能。
然而,Meta前首席AI科學(xué)家楊立昆卻認(rèn)為,Sora生成的視頻存在大量物理規(guī)律上的錯誤,如物體突然消失、因果關(guān)系混亂。它學(xué)到的是“視頻數(shù)據(jù)的統(tǒng)計規(guī)律”,生成的是“看起來合理”的幻覺,而非真正符合物理的世界模擬,因此稱其為“世界幻覺生成器”更為準(zhǔn)確。
而即便隨著模型的升級,如今Sora已然不會生成那么“巔”的視頻,但按照大語言模型的訓(xùn)練量級,以及訓(xùn)練機器人需要的高質(zhì)量數(shù)據(jù)需求,用類似方式完成具身智能研究,幾乎是一場不可能完成的任務(wù)。
智元機器人合伙人、高級副總裁姚卯青指出,如果將大語言模型的訓(xùn)練過程和具身智能模型訓(xùn)練作對比,GPT-5大語言模型的訓(xùn)練量級約100萬億Tokens,約為100億小時量級,而當(dāng)前高質(zhì)量具身智能真機交互數(shù)據(jù)僅在50萬小時的量級。兩者可用數(shù)據(jù)之間存在數(shù)量級的“鴻溝”。難點在于數(shù)據(jù)獲取的差異。大語言模型可以“安靜地讀書”,從互聯(lián)網(wǎng)的海量文本、圖像、視頻中汲取一維或二維信息。而具身智能必須在三維開放世界中“摸爬滾打”,通過本體與環(huán)境的物理交互產(chǎn)生閉環(huán)數(shù)據(jù)。
現(xiàn)實的考量
事實上,就連OpenAI自身的技術(shù)報告也承認(rèn),Sora作為世界模擬器目前仍存在諸多局限。例如,它并不能準(zhǔn)確模擬許多基本相互作用的物理原理,比如玻璃破碎,其他交互,如吃東西,也并不總是能產(chǎn)生正確的物體狀態(tài)變化。這表明,從“生成逼真視頻”到“精確模擬物理世界以訓(xùn)練機器人”,仍有很長的路要走。
不過,從OpenAI此次的安排來看,開辟一條與ChatGPT和Transformer架構(gòu)差異極大的具身智能研發(fā)路徑,可能成為現(xiàn)實。
從OpenAI Robotics的招聘崗位設(shè)置也能看出這一思路。根據(jù)其官方招聘頁面,OpenAI崗位覆蓋硬件和軟件協(xié)同、仿真環(huán)境、仿真真實性,以及負(fù)責(zé)縮小“仿真到現(xiàn)實”差距的工程師。具體職位包括3D打印實驗室技術(shù)員、執(zhí)行器設(shè)計工程師、電氣工程師、機器人數(shù)據(jù)系統(tǒng)工程師、仿真工程師等。
短期目標(biāo)聚焦于建筑、基建等場景,似乎也是看中了這些場景任務(wù)相對結(jié)構(gòu)化、市場明確,且能避開與特斯拉Optimus、波士頓動力Atlas,以及眾多中國人形機器人廠商在通用人形機器人上的直接競爭。
值得注意的是,此次高調(diào)宣布機器人戰(zhàn)略還有一個不容忽視的背景。
據(jù)悉,OpenAI已于2026年5月22日秘密提交了IPO招股書草案,計劃最早于2026年9月上市。而在今年3月完成的最新一輪融資中,其估值已達(dá)到8520億美元。