近日,深圳河套學院Al訓練平臺項目團隊,聯合哈爾濱工業大學(深圳)、深圳市大數據研究院、華為有關團隊,依托深智城AI算力平臺,面向國產算力大模型訓練開展聯合攻關。依托昇騰910C國產AI算力集群,完成1.6萬億參數大模型DeepSeek-V4-Pro全參數后訓練。
公開信息顯示,后訓練是AI大模型訓練的關鍵階段,繼預訓練之后,通過監督微調(SFT)、基于人類反饋的強化學習(RLHF)等方法,對模型進行針對性優化,以提升其推理能力、任務性能和對齊性 。
據新華社報道,此前DeepSeek-V4-Pro已經在國產算力上進行了推理部署,根據團隊披露,在公開可查的范圍內,第三方機構首次在國產算力集群上完成DeepSeek-V4-Pro的全參數后訓練,印證了國產AI芯片可支撐世界級超大參數模型訓練工作。

萬億參數大模型是人工智能領域的主流前沿模型,在邏輯推理、數理計算、代碼編寫、長文本理解等方面表現突出。這類模型的全參數訓練,對硬件算力、集群穩定性、算法適配優化均有嚴苛要求。
長期以來,全球范圍內萬億級大模型訓練多采用海外高端算力產品,國內國產算力此前主要用于模型推理、小幅微調,難以完成全參數深度訓練,這也是行業發展中普遍面臨的技術難題。
如果把訓練一個萬億級參數的AI大模型比作解一道超級復雜的數學題,那么每一張計算卡就像一名解題員。他們不僅要分工明確、日夜不停地連軸轉,還不能有人偷懶、不能有人出錯,更不能有人掉隊。
這次訓練的DeepSeek-V4-Pro采用的是混合專家模型(MoE)架構,可以想象成一個龐大的“專家團”:平時回答問題只激活少數幾位專家,看似高效,但后訓練時,“專家們”之間的溝通量卻是普通模型的幾十倍。再加上動態切換的注意力機制,這對芯片算力的調度和顯存資源的管理提出了極其苛刻的要求。
簡單來說,以前的國產算力更多是讓大模型“能用”(即推理部署),就像給模型修了一條單行道,輸入一個問題,輸出一個答案。而這次的“全參數后訓練”,則是要讓模型學會自我反思和調整,相當于在單行道的基礎上,又增加了復雜的立交橋和多條反饋回路,計算量和通信量瞬間翻了好幾倍。
面對如此極限的挑戰,科研團隊在國產AI算力集群上實現了三大硬核突破:
一是“顯存拼圖”。萬億級大模型不可能只塞進一張卡,團隊設計了精密的分布式承載方案,把龐大的模型參數像拼圖一樣,精確地分配到千卡集群的每一張卡上,算力調度明明白白。
二是“負載均衡”。為了避免MoE模型中有的“專家”忙得夠嗆、有的卻在“閑逛”,團隊專門優化了調度策略,保證了每位“專家”分工合理,跨卡通信不再“堵車”。
三是“有人‘守夜’”。全參數后訓練最怕跑著跑著系統突然崩潰。本次訓練團隊搭建了完整的監控體系,全部實現可視可控,確保了長達1500多步的訓練過程中,沒有出現一次中斷或報錯。
本次探索是國產算力適配超大參數大模型過程中的一次重要進展,有助于提升國內AI產業鏈自主化水平,降低行業應用成本,為人工智能技術落地應用提供更多支撐。目前,項目已實現模型算力利用率(MFU)超過30%,關鍵訓練算子效率提升14%,各項指標均達到工業級運行標準。
從技術應用角度來看,調用已有模型開展業務推理,與從零完成模型全參數訓練分屬不同技術環節,二者在技術難度、硬件要求上存在明顯區別。本次試驗結果表明,國產AI算力已可承擔頂級大模型訓練任務,相關技術路徑具備可行性。
該AI訓練平臺項目以國產算力真實大模型訓練任務為牽引,探索“頂尖人才培養、基礎模型研發、國產生態建設”協同推進的新型訓練平臺機制。深圳河套學院相關負責人表示,本次探索依托真實工程攻關,幫助參訓人員吃透大模型訓練全鏈路,為國家人工智能戰略和國產算力生態建設培育具備實戰能力的高水平青年人才。