華為與科大訊飛聯合打造中國首個萬卡國產算力平台「飛星一號」

科大訊飛作為亞太地區赫赫有名的智慧語音和人工智慧企業,擁有語音及語言國家工程實驗室和認知智慧全國重點實驗室。面對業界百模大戰,誰可以快速部署高性能大模型訓練平台,快速訓練上線,誰就能先一步搶佔市場有利位置。

為此科大訊飛與華為聯合打造存、算、網全棧國產化的AI大模型解決方案,共同建設國內首個支持萬億參數大模型訓練的萬卡算力平台「飛星一號」。


華為AI資料湖解決方案,基於多套OceanStor專業儲存分級建設,依托智慧資料分級與多叢集故障隔離、高效資料治理的高效能存儲,為客戶提供TB級頻寬,端到端加速AI模型開發。


大模型建置中遇到了哪些問題?

星火認知大模型從大量資料和大規模知識持續演化,實現了從提出、規劃到解決問題的全流程閉環。人工智慧技術從感知理解世界的專用領域向生成創造世界的通用領域進行跨越式演進,這一過程產生了對資料儲存的新挑戰:

  • GPU利用率低:AI大模型訓練以多機多卡任務為主,故障頻率高,模型載入和斷點續訓CheckPoint讀寫時,對儲存系統IO和頻寬效能要求很高,千卡以上叢集平均每天故障1次,斷點恢復時間高達15分鐘+,每次損失數十萬。
  • 集群分散不可靠:多家儲存「煙囪式」建設,總容量幾十PB,切分成幾十個PB級的分散小集群,極大地增加了管理複雜度,並採用軟硬分離的方式建設存儲集群,降低了儲存叢集的可靠性同時也降低了頻寬能力。
  • 資料治理困難:AI訓練集的檔案數量有百億個,目前「煙囪式」儲存叢集的建置模式,形成多個資料孤島,資料需要人工遷移,效率低。同時無全局數據視覺能力,無法辨識冷熱數據與高價值數據,數據難以治理。


綜上可以看到大模型廠商對儲存的核心訴求是:

1、 高性能的收納底座,以便支撐多機多卡的AI群極致的訓練時長和盡可能快的斷點續訓能力,降低錯誤回滾率。

2、 統一的AI儲存資料湖管理能力,高效率可靠的資料治理能力。


優質儲存成為大模型時代的“黃金門票”

華為資料儲存與科大訊飛聯合打造中國首個萬卡算力平台AI資料湖儲存底座,針對通用AI大模型訓練,科大訊飛採用算、存分離架構,運算側追求更極致的算力釋放,儲存側部署多套華為OceanStor AI存儲,提供可靠且高效的數十PB可用容量。


AI資料湖方案架構圖


|  15min->1min ,斷點續訓恢復速度提升15倍,每日節省數十萬¥

斷點續訓恢復速度提升15倍:集群最大提供TB級大頻寬,縮短CheckPoint讀寫耗時,斷點續訓恢復時長從15min縮短到1min,速度提升15倍。


| 集群管理,99.999%高可靠

儲存叢集安全可靠:華為OceanStor AI儲存單叢集多Storage Pool的方案,管理面合一,資料面分離,透過資料面隔離避免AI叢集故障擴散;同時透過亞健康管理、大比例EC等進一步提升儲存可靠性,單集群可靠性達99.999%。


| 全生命週期管理TCO降低30%

資料治理成本低:統一資料湖管理,GFS全域檔案系統,無損多協定互通,免除資料孤島,資料全域視覺、可管,高效流動,跨域調度效率提升3倍,資料零拷貝,端到端加速AI模型開發;千億元資料秒級檢索,智慧辨識資料熱度,精準分級,實現儲存系統效能與容量均衡。

面向未來萬卡/十萬卡更大規模算力集群華為OceanStor AI存儲專為AI而生,與科大訊飛聯合打造中國首個萬卡算力平台AI數據湖存儲底座,借助海量數據和知識加速星火認知大模型持續進化,共建「讓機器能聽會說,能理解會思考,用AI建立美好世界」的美好願景!