#DeepSeeK
突破!國產晶片完成兆參數模型“後訓練”!
據《南華早報》援引深圳市政府消息,一個由華為技術公司領銜的研究團隊近日聲稱,已使用至少1000顆華為昇騰910C AI晶片組成的叢集,完成了對DeepSeek V4-Pro(1.6兆參數)大語言模型的全參數後訓練。該團隊由華為與深圳環島人工智慧研究院、哈爾濱工業大學(深圳)及深圳巨量資料研究院共同組成。 這一成果標誌著中國本土AI加速器首次在處理訓練類工作負載方面取得實質進展。此前,受美國出口管制限制,中國AI企業在模型訓練環節一直最難脫離輝達硬體。昇騰910C是華為當前的旗艦AI晶片,採用雙die設計,在早期DeepSeek測試中其推理性能約為輝達H100的60%。 所謂的“全參數後訓練”是指在大模型完成海量預訓練(V4-Pro的預訓練語料超過32兆 tokens)之後,通過指令微調、安全對齊和特定任務資料對模型所有權重進行更新的階段。這不同於成本更高、計算量更龐大的預訓練。去年8月曾有報導稱,DeepSeek在R2模型訓練時甚至無法在昇騰晶片上完成一次成功的訓練運行,原因是性能不穩定、片間互聯慢以及華為CANN軟體棧的缺陷,最終只得退回使用輝達GPU進行訓練。今年4月發佈的DeepSeek-V4-Pro是首款從一開始就圍繞昇騰建構的模型。 需要注意的是,深圳方面的聲明未提供任何基準測試資料,未說明此次後訓練耗時多久、與在輝達硬體上執行相同任務相比效率如何,也未給出1000顆叢集的實際利用率。DeepSeek公司本身對此未予置評。