6月8日,國家數據局印發《推進行業高質量數據集建設行動的實施方案》(下稱《方案》),圍繞行業高質量數據集供給、流通、應用全鏈條,部署強基擴容、標注攻堅、提質增效、應用賦能、管理服務、價值釋放六大專項行動,明確到2028年底建成一批覆蓋重點領域、經過應用驗證的行業高質量數據集,形成“場景牽引數據、數據驅動模型、模型賦能應用、應用創造價值”的產業閉環。北京社科院副研究員王鵬告訴記者,這一方案與近期上線試運行的國家數據集管理服務系統形成“政策+平臺”雙輪驅動,標志著我國高質量數據集建設從分散探索進入集約化、標準化、產業化發展的新階段。
在強基擴容行動上,《方案》聚焦科學研究、工業制造等19個重點領域,以及低空經濟、具身智能、智能駕駛、智慧海洋、生物制造等創新領域,加快推進行業高質量數據集建設。中國工業互聯網研究院院長魯春叢指出,一個典型的中等規模智能工廠,僅人、機、料、法、環等各類要素的連接點就多達1200到1500個。我國擁有超過600萬家制造業企業,這些連接點匯聚起來,每天都在產生著規模難以估量的、蘊含豐富工業機理的“數據洪流”。但目前對這些數據的開發利用尚處于初級階段,潛力遠未得到釋放。
《方案》明確,強化鏈主單位牽引帶動作用,支持鏈主單位以聯合體等形式推動產業鏈上下游協同共建和資源整合,持續擴大行業高質量數據集供給規模。“這項部署正是破解各行業數據潛力價值釋放不足的關鍵舉措。”王鵬表示。
數據標注是將知識和經驗注入到訓練數據的過程,是行業高質量數據集建設不可或缺的關鍵環節。在標注攻堅行動上,《方案》引導數據標注從“以人為主”向“人機協同、專家深度參與”的多層次標注模式轉變,推動數據標注向專業化、智能化躍升。這一部署直擊工業數據標注痛點,魯春叢調研發現,許多智能化改造項目中,數據匯聚、清洗、標注、治理等基礎性工作占據了絕大部分項目投入。
為建設滿足人工智能就緒(AI-Ready)的高質量數據集,降低訓練推理成本,《方案》提出,實施提質增效行動,發揮數據合成在數據集建設中的積極作用,利用模型、仿真系統等生成的數據,解決稀缺場景數據集構造難、真實場景數據采集成本高等問題。鼓勵各行業、各地方與國家標準聯動,推動重點行業領域高質量數據集標準研制。持續完善“數據質量驗證+模型應用反饋”的測評方法,加快建設覆蓋多行業、多場景、多模態的測評數據集,有效評估高質量數據集應用效果。
在應用賦能行動方面,《方案》要求,堅持“以模引數、用數賦模”,打造集“數據集生產加工和流通利用、支撐模型訓練應用”于一體的數據賦能工場,加速人工智能應用落地。推動形成“場景—數據—模型”協同發展的良性循環。發揮“人工智能+”場景牽引作用,推動數據供給和場景的精準匹配,以用促建,以實際需求吸引更多數據資源匯聚,推動行業高質量數據集有效供給和持續優化。
管理服務行動與價值釋放行動則為數據要素流通提供制度保障。《方案》明確落實數據持有權、使用權、經營權三權分置制度,建設“物理分散、邏輯集中”的國家數據集管理服務系統。清華大學法學院教授申衛星表示,數據產權結構性分置遵循“誰投入、誰貢獻、誰受益”的原則,持有權側重自主管控,使用權對應內部處理,經營權指向對外流通。將數據經營權與其他權利分離,有助于在保護各方權益的同時,為數據價值釋放預留空間。在價值釋放方面,《方案》提出探索以詞元(Token)為基礎的價值體系。創新商業模式,推動從基礎數據包銷售向API調用、全棧服務梯次躍升,探索詞元交易等新型交易模式,構建以詞元為基礎的可量化、可定價數據價值體系。同時鼓勵探索數據集質押融資、作價入股、資產證券化、數據信托、數據保險等多元資產化創新模式,拓寬數據價值轉化渠道。