在人工智能從“感知智能”向“具身智能”躍遷的關鍵窗口期,高質量數據已成為驅動人形機器人產業發展的戰略資源。近日,證券時報記者實地探訪了北京人形機器人創新中心具身智能機器人數據與訓練基地一期。

該數據基地建筑面積近5000平方米,覆蓋家居、商超、辦公、工業、醫藥、康養等領域30余個典型場景,建有約200平方米專業光學動作捕捉場地。數據基地擁有全國構型最豐富的機器人120多臺,配備頭環式、夾爪式采集設備,動捕服、動捕手套及遙操駕艙等專業裝備,具備真機遙操作、開放環境采集、動作捕捉采集等全棧式數據采集能力,同時已建立標準化項目管理體系,制定了數據采集、標注、質檢等系列規范,實現全流程質量可控。
北京人形機器人創新中心相關負責人向證券時報記者介紹,該基地一期建成僅有半年時間,已成為國內場景覆蓋最齊全、機器人構型最豐富、數據產能及質量最高的專業化數據采集平臺之一。

據悉,目前北京人形機器人創新中心已發布并開源的Robomind具身智能數據集,下載次數超200萬次,而數據基地對外市場化交付高質量實采數據也超過了數萬小時,數據下載量與交付能力均位居行業第一。
上述負責人表示,該數據基地服務客戶包括多家頭部具身智能企業及科研機構,應用場景覆蓋物流、商超、辦公、家居等多個領域。隨著通用機器人平臺“具身天工”在多種場景應用落地,該基地正向著“全球首個百萬小時高質量數據”的目標全速邁進,為人形機器人從實驗室走向千行百業筑牢數據基石。
人形機器人要真正走進千行百業,需要的不僅僅是幾百、幾千條“精修”數據,而是海量、多樣、高質量的數據“原料”。其中真機數據是機器人智能從虛擬走向現實的必經之路,真機數據能夠精準還原力覺反饋、觸覺信息、環境干擾等仿真難以復制的細節,這些被稱為“物理直覺”的關鍵信息只能通過真機采集的多模態數據來訓練。更重要的是,真機數據在真實環境中完整的任務閉環,一條簡單的“抓取—操作—放置”軌跡中蘊含了大量人類在復雜環境中的隱性決策,其數據價值密度遠高于其他類型的數據。
但從采集角度來說,對真機數據的采集仍然存在諸多挑戰,包括場景碎片化,機器人“方言”不通,數據質量參差不齊等。
基于對行業痛點的洞察,北京人形機器人創新中心前瞻布局專業化的數據采集基地。它將分散的場景集中復現,將多樣的機器人統一調度,將采集、標注、質檢全流程標準化。
此前,北京人形機器人創新中心已通過牽頭制定國內首個具身智能數據集行業標準《人工智能具身智能數據采集規范》,制定了標準化、專業化的采集流程規范,數據基地已為多家頭部企業及科研機構交付超過數萬小時高質量數據,整體數據合格率穩定在95%以上。
據介紹,在這里,每小時數據都經過嚴格把關,確保“出廠合格率”95%以上。同時,不同構型的機器人可以并行采集,規模化生產高質量數據,讓算法團隊不再為“數據荒”發愁。