#DeepGEMM
2025/02/26
•
【DeepSeek】DeepSeek-R2曝5月前上線!第三彈DeepGEMM 300行程式碼暴擊專家最佳化核心
DeepSeek開源第三彈,是支援稠密和MoE模型的FP8計算庫——DeepGEMM,支援V3/R1訓推。僅憑300行程式碼,就超過了專家最佳化的核心。開發者驚嘆:DeepSeek有最好的GPU工程師,彷彿擁有某種編譯器黑魔法!更令人興奮的是,DeepSeek-R2有望在5月前提前發佈。 第三天,DeepSeek發佈了DeepGEMM。 這是一個支援稠密和MoE模型的FP8 GEMM(通用矩陣乘法)計算庫,可為V3/R1的訓練和推理提供強大支援。 僅用300行程式碼,DeepGEMM開源庫就能超越專家精心調優的矩陣計算核心,為AI訓練和推理帶來史詩級的性能提升!
2025/02/26
•
【DeepSeek】DeepSeek開源第三彈!極致榨乾GPU,FP8訓推秘籍公開
內建JIT編譯,像教學一樣幹淨! 智東西2月26日報導,剛剛,DeepSeek開源周第三彈發佈——DeepGEMM,一個支援密集和MoE GEMM的FP8 GEMM庫,為V3/R1訓練和推理提供動力。 ⚡ Hopper GPU上性能高達1350+ FP8 TFLOPS ✅ 沒有過多的依賴,像教學一樣幹淨