2月24日,DeepSeek啟動“開源周”,開源了首個程式碼庫FlashMLA。
據介紹,這是DeepSeek針對Hopper GPU最佳化的高效MLA解碼核心,專為處理可變長度序列而設計,現在已經投入生產使用。“在H800上能實現3000 GB/s的記憶體頻寬&580 TFLOPS的計算性能。”DeepSeek說。
簡單來說,FlashMLA 是一個能讓大語言模型在 H800這樣的GPU上跑得更快、更高效的最佳化方案,尤其適用於高性能AI任務。這一程式碼能夠加速大語言模型的解碼過程,從而提高模型的響應速度和吞吐量,這對於即時生成任務(如聊天機器人、文字生成等)尤為重要。
MLA (Multi-Layer Attention,多層注意力機制)是一種改進的注意力機制,旨在提高Transformer模型在處理長序列時的效率和性能。MLA通過多個頭(head)的平行計算,讓模型能夠同時關注文字中不同位置和不同語義層面的資訊,從而更全面、更深入地捕捉長距離依賴關係和複雜語義結構。
此前,有從業者解析DeepSeek架構時提到,MLA的本質是對KV(Key-Value,一種快取機制)的失真壓縮,提高儲存資訊,“該技術首次在DeepSeek-V2中引入,MLA是目前開源模型裡顯著減小KV 快取大小的最佳方法。”
DeepSeek開源這一程式碼有何影響?媒體用這一問題詢問了DeepSeek,它回答稱,這一程式碼就像給AI推理引擎裝上了一台“渦輪增壓器“,讓大模型在處理複雜任務時更快、更省資源,同時降低了技術門檻。FlashMLA的意義不單是技術最佳化,更是打破算力壟斷、加速AI普惠的關鍵一步。
具體來說,FlashMLA可以突破GPU算力瓶頸,降低成本。傳統解碼方法在處理不同長度的序列(如翻譯不同長度的句子)時,GPU的平行計算能力會被浪費,就像用卡車運小包裹,大部分空間閒置。而FlashMLA的改進是:通過動態調度和記憶體最佳化,讓Hopper GPU(如H100)的算力被“榨乾”,相同硬體下吞吐量顯著提升。這意味著企業可以用更少的GPU伺服器完成同樣的任務,直接降低推理成本。
另一方面,FlashMLA可以推動大模型落地應用。可變長度序列是現實場景中的常態(如聊天對話、文件生成),但傳統方法需要填充(Padding)到固定長度,導致計算冗餘。FlashMLA支援動態處理變長輸入,讓AI應用(如客服機器人、程式碼生成)響應更快、更流暢,使用者體驗提升,加速商業化落地。
此前高效解碼核心多由科技巨頭閉源壟斷(如CUDA最佳化庫),中小企業和研究者難以復現。FlashMLA開源後,開發者可免費獲得“工業級最佳化方案”,降低技術門檻,促進更多創新應用(如垂直領域小模型)的誕生。
"the whale is making waves!(鯨魚正在掀起波浪!)”有網友在DeepSeek的帖子下留言稱。(註:DeepSeek的企業LOGO是鯨魚)。
也有網友希望DeepSeek開源網頁搜尋(Web Search)相關的程式碼,並提到,“DeepSeek 是真正的OpenAI(開放人工智慧)”。
這僅僅是開始,上周2月21日DeepSeek宣佈,下周開始,會陸續開源5個程式碼庫,“以完全透明的方式分享我們微小但真誠的進展”。DeepSeek表示,這些線上服務中的基礎建構模組已經經過文件化、部署,並在生產環境中經過實戰檢驗。
DeepSeek在公告中稱自己是探索 AGI 的小公司,作為開源社區的一部分,每分享一行程式碼,都會成為加速AI行業發展的集體動力。同時,DeepSeek 稱,沒有高不可攀的象牙塔,只有純粹的車庫文化(不少美國著名企業從車庫裡誕生)和社區驅動的創新。 (中國經濟網)