DeepSeek開源第三彈，是支援稠密和MoE模型的FP8計算庫——DeepGEMM，支援V3/R1訓推。僅憑300行程式碼，就超過了專家最佳化的核心。開發者驚嘆：DeepSeek有最好的GPU工程師，彷彿擁有某種編譯器黑魔法！更令人興奮的是，DeepSeek-R2有望在5月前提前發佈。

這是一個支援稠密和MoE模型的FP8 GEMM（通用矩陣乘法）計算庫，可為V3/R1的訓練和推理提供強大支援。

僅用300行程式碼，DeepGEMM開源庫就能超越專家精心調優的矩陣計算核心，為AI訓練和推理帶來史詩級的性能提升！

在Hopper GPU上實現高達1350+ FP8 TFLOPS的算力

極輕量級依賴，程式碼清晰易懂

核心邏輯僅約300行程式碼，卻在大多數矩陣規模下超越專家級最佳化核心

同時支援密集佈局和兩種MoE佈局

開發者驚嘆道：才300行程式碼，就能打敗專家最佳化的核心？！

要麼是DeepSeek真的破解了GPU運算的天機，要麼我們就是見證了有史以來最高級的編譯器黑科技。

總之，這個DeepGEMM聽起來簡直是數學界的超級英雄，比飛快的計算器還要快。

它改變了我們使用FP8 GEMM庫的方式，簡單、快速、開源。這就是AI計算的未來！

同時，外媒還曝出了另一個重磅消息：原計畫在5月初發佈的DeepSeek-R2，現在發佈時間將再次提前！

在DeepSeek-R2中，將實現更好的編碼，還能用英語以外的語言進行推理。

業內人士預測，DeepSeek-R2的發佈，將是AI行業的一個關鍵時刻。目前DeepSeek在建立高成本效益模型上的成功，已經打破了該領域少數主導玩家的壟斷。

DeepSeek開源兩天，前兩個項目爆火程度難以想像。FlashMLA已在GitHub斬獲近10k星標，DeepEP的星標已有5k。

DeepGEMM是一個專為清晰高效的FP8通用矩陣乘法（General Matrix Multiplications，GEMMs）設計的庫，它採用了DeepSeek-V3中提出的細粒度縮放技術。

該庫支援常規矩陣乘法和混合專家模型（Mix-of-Experts，MoE）分組矩陣乘法。DeepGEMM使用CUDA編寫，無需在安裝時進行編譯，而是通過輕量級即時編譯（Just-In-Time，JIT）模組在執行階段編譯所有核心。

目前，DeepGEMM僅支援NVIDIA Hopper張量核。為瞭解決FP8張量核在累加計算時的精度問題，該庫採用了基於CUDA核心的兩級累加（提升）技術。

雖然DeepGEMM借鑑了CUTLASS和CuTe的一些概念，但避免了過度依賴它們的範本或代數系統。

相反，該庫追求設計簡潔，僅包含一個核心核心函數，程式碼量僅約300行。這使其成為學習Hopper FP8矩陣乘法和最佳化技術的理想入門資源。

儘管採用輕量級設計，DeepGEMM在處理各種矩陣形狀時的性能都能夠達到甚至超越經專家調優的庫。

研究人員在配備NVCC 12.8的H800上測試了DeepSeek-V3/R1推理過程中，可能使用的所有矩陣形狀（包括預填充和解碼階段，但不包括張量平行計算）。

所有性能提升指標均與基於CUTLASS 3.6內部精心最佳化的實現進行對比計算得出。

DeepGEMM在某些矩陣形狀下的表現還不夠理想，如果你對此感興趣，可以提交最佳化相關的Pull Request（拉取請求）。

下表展示了不同矩陣維度（M、N、K）下DeepGEMM庫的性能資料，結果顯示在某些組態（如 M=128, N=2112, K=7168）下實現了高達 2.4 倍的加速，反映了DeepGEMM在最佳化GPU矩陣計算方面的效率和靈活性。

MoE模型的分組GEMM（使用連續儲存佈局）

MoE模型的分組GEMM（使用掩碼儲存佈局）

NVIDIA Hopper架構GPU（需支援sm_90a計算能力）

CUDA v12.3及以上版本（強烈建議使用v12.8或更新版本以獲得最佳性能）

CUTLASS v3.6或更高版本 （可通過Git子模組[submodule]方式克隆獲取）

下面程式碼是DeepGEMM項目的安裝和測試指南。

首先，通過命令克隆倉庫及其子模組。然後，建立第三方庫（CUTLASS和CuTe）的符號連結以便開發。接著，測試JIT編譯功能。最後，測試所有GEMM實現。

下面程式碼使用指令碼安裝Python包，會將包及其依賴項安裝到系統中以便在項目中使用。

接下來，在你的Python項目中匯入deep_gemm，就可以開始使用啦！

注意：下面用🐳標記的是，CUTLASS中未包含的技術。

遵循CUTLASS的設計，DeepGEMM中的核心採用執行緒束（warp）專用化技術，實現了資料移動、張量核心MMA（矩陣乘累加）指令和CUDA核心提升操作的重疊執行。下圖簡要說明了這個過程：

TMA執行緒主要負責資料載入（Data load）和任務分發（TMA issue），用黃色和藍色表示。數學執行緒則交替執行WGMA（Wavefront Matrix Multiply-Accumulate）計算（綠色）和資料提升（Promotion，黃色），展示了一種平行計算策略，其中資料載入與矩陣計算和最佳化操作協同工作，以提高效率和性能。

張量記憶體加速器（Tensor Memory Accelerator，TMA）是Hopper架構引入的新硬體特性，用於實現更快速的非同步資料移動。具體來說，在以下方面使用TMA：

LHS（左矩陣）、LHS縮放因子和RHS（右矩陣）的TMA載入

針對不同執行緒束組的暫存器數量精確控制

最大化指令重疊，如TMA 儲存與非TMA RHS 縮放因子載入的重疊🐳

所有非分組和分組核心使用同一調度器

採用光柵化技術提高L2快取重用率

DeepGEMM採用完全即時編譯（JIT）設計，無需在安裝時編譯。所有核心在執行階段通過輕量級JIT實現進行編譯。這種方法具有以下優勢：

GEMM（通用矩陣乘法）形狀、塊大小和流水線階段數被視為編譯時常數

能夠自動選擇塊大小、執行緒組數量、最優流水線階段和TMA（張量記憶體訪問）叢集大小

即使在不進行自動調優的情況下，也能確定性地選擇最優組態

完全展開MMA（矩陣乘加）流水線，為編譯器提供更多最佳化機會

這一特性對處理小規模矩陣運算尤為重要

詳細資訊請參考kernel檔案中的launch_k_iterations部分

總的來說，JIT顯著提升了小形狀的計算性能，這與Triton編譯器採用的方法類似。

對於某些形狀，採用2的冪次對齊的塊大小可能導致SM利用率不足。

例如，當M=256，N=7168時，傳統的塊大小分配BLOCK_M=128，BLOCK_N=128隻能利用 (256/128) * (7168/128) = 112個SM（總共132個）。

為解決這個問題，團隊為諸如112這樣的非對齊塊大小提供了支援，使得 (256/128) * (7168/112) = 128個SM能夠充分工作。將這種技術與細粒度縮放結合需要精心最佳化，但最終能帶來顯著的性能提升。

團隊發現CUTLASS FP8核心在NVCC 12.2和12.3版本之間存在性能差異。

通過比對編譯後的SASS程式碼，可以發現在一系列FADD指令中有一個位按交錯模式翻轉。

參考開源CUDA彙編器實現後，團隊確定這個位控制著讓出（yield）操作，可能用於增強執行緒束級平行性（推測是通過讓出當前執行緒束使其他執行緒束得以執行）。

為此，團隊開發了專門的指令碼來修改編譯後二進制中的FFMA指令。除了修改讓出位，還調整了重用位（當執行緒束被讓出時停用暫存器重用）。

這種最佳化通過創造更多MMA指令和提升類FFMA指令重疊的機會，顯著提高了細粒度縮放FP8 GEMM的性能（在某些情況下提升超過10%）。

內建JIT編譯，像教學一樣幹淨！

智東西2月26日報導，剛剛，DeepSeek開源周第三彈發佈——DeepGEMM，一個支援密集和MoE GEMM的FP8 GEMM庫，為V3/R1訓練和推理提供動力。

⚡ Hopper GPU上性能高達1350+ FP8 TFLOPS

✅ 沒有過多的依賴，像教學一樣幹淨

✅ 完全JIT即時編譯（安裝不用預編譯）

✅ 極簡設計：核心邏輯約為300行 - 在大多數矩陣大小上都優於專家調整的kernels

✅ 支援密集（Dense）佈局和兩種MoE佈局

眼尖的網友已經在項目貢獻者名單中捕捉到了一個“Liang”，並在DeepSeek推文評論區發問：“是梁文鋒（DeepSeek創始人）嗎？”

DeepGEMM是一個專為乾淨、高效的FP8通用矩陣乘法（GEMM）而設計的庫，具有細粒度擴展功能，如DeepSeek-V3中所述。它支援普通和混合專家（MoE）分組GEMM。該庫用CUDA編寫，在安裝過程中無需編譯，而是使用輕量級即時（JIT）模組在執行階段編譯所有kernel。

根據DeepSeek曬出的資料，普通GEMM（密集模型）中矩陣運算可提速多達2.7倍，分組GEMM（MoE模型）中連續性佈局、掩碼佈局下可提速多達1.2倍。

目前，DeepGEMM僅支援輝達Hopper Tensor Core。為瞭解決不精確的FP8 Tensor Core累積問題，它採用了CUDA核心兩級累積（提升）。

雖然它利用了CUTLASS和CuTe的一些概念，但它避免了對其範本或代數的過度依賴。相反，該庫的設計非常簡單，只有一個核心kernel函數，包含大約300行程式碼。這使其成為學習Hopper FP8矩陣乘法和最佳化技術的乾淨且易於訪問的資源。

儘管DeepGEMM設計輕量，但其性能卻與各種矩陣形狀的專家調整庫相當或超過後者。

DeepSeek在搭載NVCC 12.8的H800上測試了DeepSeek-V3/R1推理中可能使用的所有形狀（包括預填充和解碼，但沒有張量平行性）。所有加速指標都是與其基於CUTLASS 3.6的內部精心最佳化的實現進行比較計算的。

DeepGEMM在有些形狀上的表現並不是很好，因此DeepSeek歡迎開發者來最佳化PR。在普通GEMM（密集模型）中，矩陣運算最高提速達到2.7倍。

在分組GEMM（MoE模型）中，連續性佈局、掩碼佈局下速度可提升1.1倍~1.2倍。

DeepGEMM一發佈，DeepSeek的推文評論區好評如潮。有人為輝達股票發愁：

有人熱情誇讚新程式碼庫和DeepSeek工程師：

DeepSeek分享了清晰的上手指南，需要Hopper架構GPU、必須支援sm_90a，要求是Python 3.8、CUDA 12.3、PyTorch 2.1、CUTLASS 3.6或更新版本。DeepSeek強烈推薦CUDA 12.8或更高的版本以獲得最佳性能。

將deep_gemm匯入Python項目，就可以開始享用了。

這個程式碼庫僅包含GEMM kernel。它要求LHS擴展因子進行TMA對齊和轉置，並且僅支援NT格式（非轉置LHS和轉置RHS）。對於轉置或其他FP8轉換操作，需單獨實現或將它們融合到先前的kernel中。雖然該庫提供了一些簡單的PyTorch實用函數，但這些函數可能會導致性能下降。DeepSeek的主要重點是最佳化GEMM kernels本身。

除了kernel外，該程式碼庫還提供了一些實用函數和環境變數。

DeepSeek用🐳表示CUTLASS中排除的技術。按照CUTLASS設計，DeepGEMM中的核心經過了warp專門化，可實現重疊資料移動、張量核心MMA指令和CUDA核心提升。下圖是說明此過程的簡化圖：

張量記憶體加速器（TMA）是Hopper架構引入的一項新硬體功能，旨在實現更快、非同步的資料移動。具體來說，DeepSeek利用TMA來實現以下目的：

LHS、LHS擴展因子和RHS矩陣的TMA負載

針對不同的warpgroups定製的暫存器計數控制

儘可能重疊，例如重疊TMA儲存和非TMA RHS擴展因子載入🐳

一個調度程序適用於所有非分組和分組核心

DeepGEMM採用完全即時編譯（JIT）設計，安裝時無需編譯。所有核心均使用輕量級JIT實現在執行階段進行編譯。這種方法具有以下幾個優點：

GEMM形狀、塊大小和管道階段數被視為編譯時常數

自動選擇塊大小、warpgroups數量、最佳流程階段和TMA叢集大小

但如果沒有自動調整，最佳方案就會被確定地選擇

全面展開MMA流程，為編譯器提供更多最佳化機會

詳情請參閱launch_k_iterations kernel檔案

總體而言，JIT顯著提高了小形狀的性能，類似於Triton編譯器的方法。

對於某些形狀，與2的冪對齊的塊大小可能會導致SM未得到充分利用。例如，對於M=256, N=7168，典型的塊大小分配會BLOCK_M=128, BLOCK_N=128導致只有(256 / 128) * (7168 / 128) = 112132個SM得到利用。

為瞭解決這個問題，DeepSeek支援未對齊的塊大小（如 112），使(256 / 128) * (7168 / 112) = 128SM能夠在這種場景中工作。在細粒度擴展的同時實施此技術需要仔細最佳化，但最終可以提高性能。   (智東西)

彙整鉅亨號中所有使用「DeepGEMM」關鍵字，所發布的內容 (依照時間排序，最新在前，舊的在後)`