對標H100!
國產GPU“核彈”參數曝光:
1000TFLOPS算力,性能直逼Blackwell?
摩爾線程AI旗艦級計算卡MTT S5000性能首次曝光,這是摩爾線程2024年推出的、專為大模型訓練、推理及高性能計算而設計的訓推一體全功能GPU智算卡。
摩爾線程在其官網中,首次公佈了S5000的硬體參數:支援FP8到FP64的全精度計算,其單卡AI算力(FP8)最高可達1 PFLOPS,視訊記憶體容量為80GB,視訊記憶體頻寬達到1.6TB/s,卡間互聯頻寬為784GB/s。業內人士表示,MTT S5000實測性能對標H100,在多模態大模型微調任務中,部分性能甚至超越H100。
在晶片架構層面,S5000採用第四代MUSA架構“平湖”,專為大規模AI訓練最佳化,依託MUSA全端軟體平台,原生適配PyTorch、Megatron-LM、vLLM及 SGLang等主流框架,讓使用者能夠以“零成本”完成程式碼遷移,相容國際主流CUDA生態。
在計算精度方面,S5000作為國內一批最早原生支援FP8精度的訓練GPU,配置了硬體級FP8 Tensor Core加速單元。相比傳統的BF16/FP16,FP8可將資料位寬減半,視訊記憶體頻寬壓力降低50%,理論計算吞吐量翻倍。其FP8引擎全面支援DeepSeek、Qwen等前沿架構,可提升30%以上訓練性能。
基於S5000建構的誇娥萬卡叢集已經落地,其浮點運算能力達到10Exa-Flops,在Dense模型訓練中MFU達60%,在MoE模型中維持在40%左右,有效訓練時間佔比超過90%,訓練線性擴展效率達95%。依託原生FP8能力,它能夠完整復現頂尖大模型的訓練流程,其中Flash Attention算力利用率超過95%,多項關鍵指標均達到國際主流水平。
在叢集通訊層面,S5000採用獨創的ACE技術,將複雜通訊任務從計算核心解除安裝,實現計算與通訊的零沖突平行,大幅提升模型算力利用率(MFU)。實測顯示,從64卡擴展至1024卡,系統保持90%以上的線性擴展效率,訓練速度隨算力增加幾乎同步倍增。
2026年1月,智源研究院基於S5000千卡叢集,完成了前沿具身大腦模型RoboBrain 2.5的端到端訓練與對齊驗證。結果顯示,與輝達H100叢集的訓練結果高度重合,訓練損失值(loss)差異僅為0.62%。
除了訓練,S5000在推理場景同樣表現優異。2025年12月,摩爾線程聯合矽基流動,基於S5000完成了對DeepSeek-V3 671B滿血版的深度適配與性能測試,實測單卡Prefill吞吐超4000 tokens/s,Decode吞吐超1000 tokens/s,這一成績刷新了國產GPU的推理紀錄。 (芯榜)