2月24日,DeepSeek啟動“開源周”,開源了首個程式碼庫FlashMLA。
據介紹,這是DeepSeek針對Hopper GPU最佳化的高效MLA解碼核心,專為處理可變長度序列而設計,現在已經投入生產使用。“在H800上能實現3000 GB/s的記憶體頻寬&580 TFLOPS的計算性能。”DeepSeek說。
簡單來說,FlashMLA 是一個能讓大語言模型在 H800這樣的GPU上跑得更快、更高效的最佳化方案,尤其適用於高性能AI任務。這一程式碼能夠加速大語言模型的解碼過程,從而提高模型的響應速度和吞吐量,這對於即時生成任務(如聊天機器人、文字生成等)尤為重要。
MLA (Multi-Layer Attention,多層注意力機制)是一種改進的注意力機制,旨在提高Transformer模型在處理長序列時的效率和性能。MLA通過多個頭(head)的平行計算,讓模型能夠同時關注文字中不同位置和不同語義層面的資訊,從而更全面、更深入地捕捉長距離依賴關係和複雜語義結構。