【DeepSeek】讀懂開源周:一場技術普惠的嘉年華,極限提升大模型效率

在2025年開年,DeepSeek的發佈,在全社會造成了轟動。這是因為,DeepSeek通過一系列技術革新,大大降低了生成式AI的研發與使用成本,使得生成式AI有望在近期走入千家萬戶,從而幫助全社會提升工作效率。

2022年,OpenAI開發的ChatGPT被認為是具有革新意義的生成式AI工具,可以幫助使用者提升工作效率;在2025年,國產生成式AI——DeepSeek,被認為是比ChatGPT更優的生成式AI工具,在成本、能力和開放性方面均優於ChatGPT,並在一定程度上影響到了金融市場。社會上甚至出現了一種觀點,認為DeepSeek能夠賦予電腦情感等構成人格的要素,甚至得出電腦很快將統治甚至取代人類的結論。

事實上,稍有電腦與數學基礎的讀者,可以很容易地理解:無論是DeepSeek,還是其他生成式AI,對人類語言的“理解”與“生成”,實際上只是將其通過一定的演算法,轉化為一串數字(在電腦科學中可稱為“向量”),再經過一系列演算法轉化為輸出的內容。在這一過程中,電腦並不會擁有人類獨有的“情感”與“人格”等要素,只是解決了一個略微複雜的數學計算問題。

顯然,將人類語言轉化為“向量”,再生成輸出的內容,需要非常複雜的電腦演算法。如果完全由人類來編寫這一演算法,是不現實的。因此,工程師們將這些演算法簡化為一系列矩陣(所謂的“模型”與“參數”)的乘法,讓電腦使用暴力窮舉法嘗試這些矩陣的值(也就是“調參”或“訓練”,最終得到發佈的“模型”。在得到“模型”後,讓電腦基於這一“模型”和使用者的輸入,得到輸出的內容,就是所謂的“推理”。

目前,所有的生成式AI,都是基於Google在2017年發佈的論文《Attention is All You Need》實現的“Transformer”模型。Transformer模型孵化出了以ChatGPT為代表的一系列生產式AI,但其訓練與推理所需要的海量計算資源,令個人使用者和一般的企業使用者都難以接受。特別地,即使是經濟實力雄厚的大型政企使用者,也有可能受到複雜的外部環境影響,在採購組建高性能叢集的硬體時出現困難。這成為了使用生成式AI幫助全社會提升生產效率的重大障礙。

DeepSeek的出現改變了這一切。在過去的一周裡,DeepSeek為開發者公開發佈了一系列非常有價值的創新成果。那麼,它到底實現了那些關鍵創新呢?為了系統解讀DeepSeek開源周的貢獻與突破,騰訊科技聯合騰訊雲、鵝廠技術派,特別邀約騰訊雲技術專家方天戟在開源周進行到第二天的時候進行瞭解讀。而本文是方天戟基於直播內容,在DeepSeek開源周結束後又補充的開源周後半部分,進行的系統性整理與解讀,希望儘可能以通俗的語言呈現這些創新為業界帶來的價值與影響。

DeepSeek開源周 開源了那些重要內容?

DeepSeek選擇了2025年2月的最後一周作為“開源周”,公佈了FlashMLA(最佳化語句解析演算法),DeepEP(最佳化多機協作機制),DeepGEMM(提升矩陣乘法效率),DualPipe(壓榨電腦資源的手段),EPLB(實現生成不同領域內容)和3FS(高性能儲存)。同時,DeepSeek還公開了一些研發過程中的分析資料。

我們在文章開頭提到過,無論是DeepSeek,ChatGPT,還是其他的生成式AI,本質上都是讓電腦進行一系列矩陣運算。那麼,想提高生成式AI演算法的執行效率,就應當從三個方面著手:縮小矩陣規模,提高運算效率,減少等待時間。在過去精彩的一周裡,DeepSeek公佈的這些核心技術,都是聚焦在這三個方面。

1、FlashMLA:語言解析加速器

我們知道,生成式AI的輸入,一般是人類的自然語言。在Transformer模型中,將自然語言進行編碼與分析的機制,就是所謂“Attention”機制——先將每個詞編碼為512個數字組成的“向量”,再使用Q,K,V三個矩陣對每個詞和全文中其他所有詞,進行關聯分析。顯然,隨著輸入長度的增加,總的計算量會以平方律上升,同時,還需要消耗寶貴的GPU記憶體,用於保存整句話中每個詞的K和V矩陣。

FlashMLA針對這一問題的解決思路是,設法把K和V兩個矩陣壓縮,例如將矩陣中相對過於小的數,以及一部分為0的數去掉,來節約記憶體,減少計算工作量。進一步地,FlashMLA還針對Nvidia 的H800 GPU進行了最佳化,考慮到H800卡間通訊頻寬限制,減少了讀寫其他卡上資料的需求,避免了卡間通訊頻寬限制計算性能。

在FlashMLA加持下,H800單卡能發揮的FP8計算性能從300T FLOPS提升到了580T FLOPS,並且把記憶體頻寬壓榨到了理論極限的90%。那麼,如何進一步提升計算的性能呢?

2、DeepGEMM:跨時代的AI基石

幾乎所有的AI計算都離不開矩陣乘法。由於矩陣乘法可以分解為多組沒有相互依賴關係的重複計算,工程師們定義了GEMM(GEneral Matrix Multiply,通用矩陣乘法)算子,而Nvidia也在cuBLAS和NVBLAS這兩種數學庫中,基於自身的GPU實現了這一算子的平行運算。可以認為,GEMM是包括Transformer模型在內的所有AI演算法的基石,其重要程度堪比動力裝置對機械化與工業化體系的意義。

DeepSeek對GEMM做了革命性的最佳化。DeepSeek考慮到Nvidia Hopper系列GPU內部的Tensor Core(專用的矩陣運算電路)可以支援8-bit浮點數計算,但精度不如16-bit和32-bit浮點數,DeepGEMM將中間過程暫存為32-bit浮點數以提升精度,同時計算速度與8bit相差無幾。

值得注意的是,實現這一運算,需要繞開一切現有的開發庫,直接寫機器指令實現,其開源行為實際上對Nvidia的“護城河”——CUDA生態,發出了直接的挑戰。我們甚至可以認為,DeepGEMM的意義,就如同蒸汽機-內燃機-電動機的迭代驅動歷次工業革命那樣,會驅使生成式AI技術進入一個普惠大眾的時代,從而成為跨時代的AI基石。

3、EPLB和DualPipe:驅動工業革命的效率大師

社會科學工作者在分析美國崛起的原因時,往往提到20世紀初在美國出現的泰勒管理制度和福特生產流水線這兩個概念。在工業生產中,泰勒管理制能讓每個工作者充分發揮自己的專長,而福特生產流水線能避免人的工作時間浪費在等待中。EPLB和DualPipe在DeepSeek中起到的作用就類似於泰勒管理制度和福特生產流水線。

生成式AI的核心技術之一,是所謂“專家模型”。它的工作原理是,把電腦對自然語言理解的結果輸入到描述“專家模型“的矩陣,經過一系列矩陣乘法運算,得到生成的答案。為了讓專家模型在通訊能力受限的H800 GPU叢集上取得更好的效果,DeepSeek使用的是MoE模型,也就是使用多個專注於特定領域的小型專家模型來生成內容——這類似於醫院的不同科室,在初步識別患者的問題後讓最匹配的專家進行診療。

在醫院中,不同科室有可能會有分工合作,各科室的繁忙程度也可能會有較大差異。那麼,如果將密切合作的科室安排在同一樓層,同時,對繁忙的科室,多聘請一些專家坐診,就可以有效減少患者就診等待時間。EPLB在設計時,就借鑑了這一思路,將頻繁互動的幾個專家模型放在同一個GPU,從而減少卡間通訊,同時,如果發現某些專家模型呼叫量顯著多於其他專家模型,就多複製幾個這些專家模型來扛住並行的計算。

而DualPipe的作用則是,借鑑福特生產流水線的改進思路,在訓練這些專家模型時,儘量減少流水線各個環節的等待時間(所謂的“流水線氣泡”)。它的思路是,讓兩個任務進行交叉排布。當下一個計算任務在等待通訊任務結束的時候,讓電腦先執行其他的任務。具體而言,就是把訓練過程中,求解方程的環節(所謂的“前向計算”),和驗算反饋(所謂的“後向計算”)的環節,共用一條流水線。這樣,在求解方程環節的計算任務,等待通訊任務完成後才能繼續執行的期間,讓GPU進行驗算反饋環節的計算,反之亦然。

DeepSeek在AI大模型訓練與推理演算法的工程化工作中,引入EPLB和DualPipe,對業界的貢獻,可以類比為泰勒管理制度和福特生產流水線對工業生產的貢獻,實現了進一步地解放生產力和發展生產力。

4、DeepEP:邃密群科的破壁者

看過電影《橫空出世》的讀者們,一定會對“算盤打出原子彈”的情節記憶猶新。在缺乏大型電腦的制約下,中國的科技工作者們將複雜的核物理模擬計算,拆解為可分佈式平行計算的任務,動員了數以千計的工作人員,使用算盤完成了多輪模擬計算,最終支撐了原子彈的成功研發。

在多輪次的模擬計算中,一項重要的任務就是,將大家計算的結果收集彙總,作為下一輪計算的輸入。在AI模型的訓練演算法中,這一任務被稱為“AllReduce”。在DeepSeek開源DeepEP之前,這一任務需要依賴Nvidia開發的NCCL(Nvidia Collective Communications Library,輝達集合通訊庫)。

DeepEP實際上是對傳統的AllReduce做了深度的定製和最佳化。首先,由於DeepSeek手頭的GPU是通訊頻寬受限的H800,因此,DeepEP設法限制了對卡間通訊資源的消耗量,讓部分GPU作為中繼節點,進行合併處理後,再把合併後的計算結果傳輸到其他GPU,以避免不必要的通訊開銷。

考慮到GPU在執行方程求解的任務時,如果切換到AllReduce任務,需要重新將指令和資料載入到快取(Cache),DeepEP還增加了一項機制,讓GPU內的一些處理核心(SM,Streaming Multiprocessor)來專門處理這項任務,並動態調整承擔AllReduce任務的核心數量。

我們可以看出,DeepEP打破了三大壁壘:首先是GPU通訊的NVLink網(伺服器內部)和RDMA網(伺服器之間)的壁壘;其次是GPU內部SM分工的壁壘;最重要的一點是,DeepEP通過直接對硬體程式設計的方式,打破了Nvidia壟斷的集合通訊庫等技術壁壘

DeepEP與戈壁灘上算盤打出原子彈的科技工作者們一樣,是邃密群科的破壁者。

5、FS:懼滿溢,則思江海下百川

計算,網路和儲存,是構成電腦系統的三大基礎支柱。3FS的開源,也補上了DeepSeek所使用的大型分佈式系統的最後一塊拼圖。

以生成式AI為代表的機器學習演算法,實質上是海量的矩陣運算。在運算過程中需要經常保存草稿(也就是“Checkpoint”)。數千塊GPU卡平行保存Checkpoint資料的時候,對儲存子系統的性能提出了嚴峻的考驗。因此,業界出現了所謂的“平行高性能檔案系統”,利用多台伺服器分擔儲存資料的任務,也就是分佈式儲存。

分佈式系統需要解決的最重要問題之一,就是讓系統關鍵性能,可以隨伺服器數量的增長,而接近正比例增長,特別是需要避免多個平行任務阻塞在單點。特別地,為了保證關鍵資料不丟失,需要保證一份資料能夠寫入多份冗餘的儲存介質,且資料內容保持一致。

目前,業界有LustreFS等開放原始碼的平行檔案系統,但在性能、高可用與一致性等方面依然有較大的改進空間。DeepSeek研發的3FS(Fire-Flyer File System,螢火蟲檔案系統)基於軟硬體協同的思想,採用RDMA網路和SSD儲存盤實現了自己的高性能平行檔案系統。由於RDMA網路和SSD儲存盤本身就可以通過NVMe協議來協同工作,且RDMA網路可以繞過遠端CPU的中斷處理,直接讀取遠端SSD/記憶體中的資料,3FS能夠在180個儲存節點構成的叢集上,取得6.6TiB/s的吞吐性能,把平行檔案系統的吞吐量壓榨到了網路吞吐量理論值的80%以上,這是非常了不起的成就。這不禁讓我們想起來初唐政治家魏徵在《諫太宗十思疏》中的一句話:懼滿溢,則思江海下百川。——如果擔心儲存系統成為瓶頸,就要讓它像江海容納來自眾多河川的水一樣。

為什麼只有DeepSeek做到了?

對機器學習與數學有一定認知的讀者很容易理解,DeepSeek在這一周裡開放原始碼的幾項技術,並不是非常難以實現的。那麼,為什麼只有DeepSeek做到了這些呢?

從公開資訊可以得知:DeepSeek用於訓練的GPU是限制了GPU卡間通訊頻寬的H800,且數量只有2048張,比業界頭部的大型企業有數量級的差距。而部署DeepSeek推理模型所需要的GPU資源數量,可以精簡到消費級PC單機可運行的地步。DeepSeek所做的工作,就是將Transformer模型進行最佳化,減少浪費,使其能夠在受限的硬體資源上順利運行

由於DeepSeek手頭的GPU是通訊頻寬受限的版本,DeepSeek針對這一點的改進就是FlashMLA,EPLB和DeepEP。同時,在DeepGEMM和DualPipe的壓榨下,DeepSeek使用了2048張卡實現了萬卡叢集的訓練效果。最後,3FS進一步降低了訓練過程中的儲存開銷。

有人可能會問,DeepSeek團隊將付出了大量心血的成果,無保留地對全社會公開,這一利他行為的動機是什麼呢?我們不妨將視線轉向人文社科領域的書海尋求可能的答案。

馬克思在《關於費爾巴哈的提綱》中指出:“人的本質,是社會關係的總和。”在馬克思做出這一論斷後,又過了100多年,美國社會學家馬斯洛提出,人的需求的最高層次是自我實現的需要,次之的是尊重的需要。幾乎與馬斯洛同一時代,在風雲激盪的東半球,毛澤東主席也在《紀念白求恩》中寫道:“我們大家要學習他毫無自私自利之心的精神。從這點出發,就可以變為大有利於人民的人。一個人能力有大小,但只要有這點精神,就是一個高尚的人,一個純粹的人,一個有道德的人,一個脫離了低級趣味的人,一個有益於人民的人。”我們有理由相信,DeepSeek將自身的工作成果向全社會無償貢獻出來,說明這是一個脫離了短期利益得失和其他低級趣味的團隊,是為自我成就和尊重而努力奮鬥的團隊,是積極回饋社會的團隊。

DeepSeek站在Transformer的肩膀上,讓生成式AI技術得以普惠大眾,同時也將自行研發的技術開源回饋社會。如果這樣的正向循環得以持續,全社會能夠得到的,不僅是基於AI技術的生產力提升,還能夠通過這種價值觀的傳播,讓大家更好地為共同的目標團結奮鬥,讓世界的將來更加美好。 (騰訊科技)