過去兩周,DeepSeek已經成為了全球的熱點。尤其是在西方世界,這個來自於中國的生成式人工智慧系統引發了廣泛討論。
在發佈的前18天內,DeepSeek便實現了驚人的1600萬次下載,這一數字幾乎是競爭對手OpenAI的ChatGPT在同期下載量的兩倍,充分展示了其強大的市場吸引力和使用者基礎。
據市場分析公司Appfigures的權威資料,DeepSeek的應用程式於1月26日首次登頂蘋果App Store,並自此持續保持其全球領先的霸主地位。資料統計顯示,自今年初發佈以來,迅速攀升至140個國家的蘋果App Store下載排行榜首位,並在美國的Android Play Store中同樣佔據榜首位置。
作為一個中國的AI大模型,DeepSeek能夠獲得這個關注度,除了其出色的性能表現以外,其低訓練成本也是其吸引全球目光的關鍵。在今天的文章中,我們來看一下藏在DeepSeek背後的晶片和系統。
早在2024年8月,8 月,DeepSeek團隊發表了一篇論文,描述了它建立的一種新型負載平衡器,用於將其混合專家 (MoE:mixture of experts) 基礎模型的元素相互連接。
DeepSeek在文章中表示,對於混合專家 (MoE) 模型,專家負載( expert load)不均衡將導致路由崩潰(routing collapse)或計算開銷( computational overhead)增加。現有方法通常採用輔助損失( auxiliary loss )來促進負載平衡,但較大的輔助損失會在訓練中引入不可忽略的干擾梯度(interference gradients),從而損害模型性能。
為了在訓練過程中控制負載平衡但不產生不良梯度(undesired gradients ),DeepSeek團隊提出了無損平衡(Loss-Free Balancing),其特點是無輔助損失的(auxiliary-loss-free)負載平衡策略。
具體而言,在進行 top-K 路由決策(routing decision)之前,無損平衡將首先對每個專家的路由分數(routing scores)應用專家偏見(expert-wise bias )。通過根據每個專家的近期負載動態更新其偏見,無損平衡可以始終保持專家負載的均衡分佈。
此外,由於無損平衡不會產生任何干擾梯度,它還提升了從 MoE 訓練中獲得的模型性能的上限。DeepSeek團隊還在多達 3B 個參數、在多達 200B 個 token 上訓練的 MoE 模型上驗證了無損平衡的性能。實驗結果表明,與傳統的輔助丟包控制負載平衡策略相比,無損平衡策略既實現了更好的性能,也實現了更好的負載平衡。
在2024年年底發佈的報告《DeepSeek-V3 Technical Report》中,DeepSeek團隊對其DeepSeek-V3模型的技術架構進行了深入解讀,這為我們瞭解這家公司的技術有了更多參考。
他們在報告中直言,出於前瞻性的考慮,公司始終追求模型性能強、成本低。因此,在架構方面,DeepSeek-V3 仍然採用多頭潛在注意力(MLA:Multi-head Latent Attention) 進行高效推理和 DeepSeekMoE 以實現經濟高效的訓練。而為了實現高效訓練,DeepSeek團隊的解決方案支援 FP8 混合精度訓練,並對訓練框架進行了全面最佳化。在他們看來,低精度訓練已成為高效訓練的一種有前途的解決方案,其發展與硬體能力的進步密切相關。
通過對FP8計算和儲存的支援,DeepSeek團隊實現了加速訓練和減少GPU記憶體使用。在訓練框架方面,他們設計了DualPipe演算法來實現高效的流水線平行,該演算法具有更少的流水線氣泡,並通過計算-通訊重疊(overlap)隱藏了訓練過程中的大部分通訊。
DeepSeek團隊表示,這種重疊確保了隨著模型的進一步擴大,只要保持恆定的計算與通訊比率,公司仍然可以跨節點使用細粒度的專家(fine-grained experts),同時實現接近於零的全對全通訊開銷(all-to-all communication overhead)。
此外,DeepSeek團隊還開發了高效的跨節點全對全通訊核心,以充分利用InfiniBand(IB)和NVLink頻寬。公司還對記憶體佔用進行了精心最佳化,使得無需使用昂貴的張量平行即可訓練DeepSeek-V3。
在將這些努力結合起來,DeepSeek團隊實現了很高的訓練效率。
根據DeepSeek團隊在論文中強調,通過最佳化演算法、框架和硬體的協同設計實現的。在預訓練階段,每兆個 token 上訓練 DeepSeek-V3 隻需要 180K H800 GPU 小時,也就是說,在其擁有 2048 個 H800 GPU 的叢集上只需要 3.7 天。因此,公司的預訓練階段在不到兩個月的時間內完成,花費了 2664K GPU 小時。加上上下文長度擴展的 119K GPU 小時和後訓練的 5K GPU 小時,DeepSeek-V3 完整訓練僅花費 278.8 萬 GPU 小時。
假設 H800 GPU 的租賃價格為每小時 2 美元,則代表著其總訓練成本僅為 557.6 萬美元DeepSeek團隊還特意強調,上述成本僅包括 DeepSeek-V3 的官方訓練,不包括與架構、演算法或資料的先前研究和消融實驗相關的成本。作為對比,OpenAI 老闆 Sam Altman 表示,訓練 GPT-4 需要超過 1 億美元。
在1 月 20 日,DeepSeek 推出了 DeepSeek-R1 模型,該模型增加了兩個強化學習階段和兩個監督微調階段,以增強模型的推理能力。DeepSeek AI 對 R1 模型的收費比基礎 V3 模型高出 6.5 倍。隨後,DeepSeek發佈了Janus-Pro,這是其多模態模型 Janus 的更新版本。新模型改進了訓練策略、資料擴展和模型大小,增強了多模態理解和文字到圖像的生成。
至此,DeepSeek火爆全球。
在DeepSeek橫空出世之後,一些圍繞著其系統和技術研究框架的討論,也遍佈全網,具體到硬體方面。因為其極低的成本,這引致了整個AI晶片市場的震盪,早幾天輝達的大跌,正是這個擔憂的最直接的反映。
如上所述,DeepSeek 表示,用於訓練 V3 模型的叢集只有 256 個伺服器節點,每個節點有 8 個 H800 GPU 加速器,總共有 2,048 個 GPU。據nextplatform的分析師推測,這些GPU卡是 輝達H800 卡的 H800 SXM5 版本,其 FP64 浮點性能上限為 1 兆次浮點運算,其他方面與世界上大多數公司可以購買的 80 GB 版本的 H100 卡相同。
其中,節點內的八個 GPU 與 NVSwitch 互連,以在這些 GPU 記憶體之間建立共用記憶體域,並且節點具有多個 InfiniBand 卡(可能每個 GPU 一個)以建立到叢集中其他節點的高頻寬連結。
具體到H800,這是當初輝達因應美國的出口限制需求推出的GPU。當時的美國GPU出口禁令規定主要限制了算力和頻寬兩個方面。其中,算力上限為4800 TOPS,頻寬上限為600 GB/s。A800和H800的算力與原版相當,但頻寬有所降低。
如上所述,DeepSeek在訓練中使用的是H800 SXM版本。據瞭解,所謂SXM 架構,是一種高頻寬插座式解決方案,用於將 NVIDIA Tensor Core 加速器連接到其專有的 DGX 和 HGX 系統。對於每一代 NVIDIA Tensor Core GPU,DGX 系統 HGX 板都配有 SXM 插座類型,為其匹配的 GPU 子卡實現了高頻寬、電力輸送等功能。
資料顯示,專門的 HGX 系統板通過 NVLink 將 8 個 GPU 互連起來,實現了 GPU 之間的高頻寬。NVLink 的功能使 GPU 之間的資料流動速度極快,使它們能夠像單個 GPU 野獸一樣運行,無需通過 PCIe 或需要與 CPU 通訊來交換資料。NVIDIA DGX H800 連接了 8 個 SXM5 H800,通過 4 個 NVLink 交換晶片,每個 GPU的頻寬為 400 GB/s,總雙向頻寬超過 3.2 TB/s。每個 H800 SXM GPU 也通過 PCI Express 連接到 CPU,因此 8 個 GPU 中的任何一個計算的資料都可以轉發回 CPU。
過去幾年裡,大型企業對輝達DGX熱度大增,這是因為SXM GPU 更適合規模化部署。如上所說,八 個 H800 GPU 通過 NVLink 和 NVSwitch 互連技術完全互連。而在 DGX 和 HGX 中,8 個 SXM GPU 的連接方式與 PCIe 不同;每個 GPU 與 4 個 NVLink Switch 晶片相連,基本上使所有的 GPU 作為一個大 GPU 運行。這種可擴展性可以通過輝達 NVLink Switch 系統進一步擴展,以部署和連接 256 個 DGX H800,建立一個 GPU 加速的 AI 工廠。
基於這些GPU和系統,搞出這個成就,西方不少分析人士一面倒抨擊Deepseek團隊,但nextplatform的分析師表示,如果你仔細閱讀這篇 53 頁的論文,就會發現 DeepSeek 已經採取了各種巧妙的最佳化和方法來製作 V3 模型,他們也確實相信,這確實減少了效率低下的問題,並提高了 DeepSeek 在硬體上的訓練和推理性能。
他們認為, DeepSeek團隊訓練 V3 基礎模型改採用方法的關鍵創新是使用 Hopper GPU 上的 132 個流式多處理器 (SM) 中的 20 個,作為資料的通訊加速器和調度器,因為訓練運行會仔細檢查token並從參數深度集生成模型的權重,因此資料會在叢集中傳遞。據nextplatform推測,正如 V3 論文所述,這種“計算和通訊之間的重疊可以隱藏計算過程中的通訊延遲”,使用 SM 在不在同一節點的 GPU 之間建立實際上是 L3 快取控製器和資料聚合器的東西。
按照nextplatform對其論文的分享,DeepSeek 建立了自己的 GPU 虛擬 DPU,用於執行與 GPU 叢集中的全對全通訊相關的各種類似 SHARP 的處理。
如上文所述,DeepSeek團隊設計了 DualPipe 演算法以實現高效的流水線平行。對此,nextplatform指出,如果 DeepSeek 可以將這 2,048 個 GPU 上的計算效率提高到接近 100%,那麼叢集將開始認為它有 8,192 個 GPU(當然缺少一些 SM)運行效率不高,因為它們沒有 DualPipe。作為對比,OpenAI 的 GPT-4 基礎模型是在 8,000 個 Nvidia 的“Ampere”A100 GPU 上訓練的,相當於 4,000 個 H100(差不多)。
此外,包括輔助無損負載平衡、 FP8 低精度處理、將張量核心中中間結果的高精度矩陣數學運算提升到 CUDA 核心上的向量單元以保持更高精度的表象、在反向傳播期間重新計算所有 RMSNorm 操作和重新計算所有 MLA 向上投影等也都是DeepSeek的創新點之一。
知名半導體分析機構SemiAnalysis的Dylan Patel雖然對DeepSeek團隊所披露的成本有質疑。但他們也承認DeepSeek有過人之處。
SemiAnalysis表示,DeepSeek-R1 能夠取得與 OpenAI-o1 相當的成果,而 o1 在 9 月份才發佈。DeepSeek 為何能如此迅速地趕上?這主要是因為推理已經成為了是一種新的範式,與以前相比,現在推理的迭代速度更快,計算量更小,卻能獲得有意義的收益。作為對比,以前的模式依賴於預訓練,而預訓練的成本越來越高,也很難實現穩健的收益。
他們指出,新範式側重於通過合成資料生成和現有模型後訓練中的 RL 來實現推理能力,從而以更低的價格獲得更快的收益。較低的准入門檻加上簡單的最佳化,意味著 DeepSeek 能夠比以往更快地複製 o1 方法。
“R1 是一個非常優秀的模型,我們對此並無異議,而且這麼快就趕上了推理邊緣,客觀上令人印象深刻。”SemiAnalysis強調。他們總結說:
一方面,DeepSeek V3 以前所未有的規模採用了多token預測(MTP:Multi-Token Prediction)技術,這些附加的注意力模組(attention modules)可以預測下幾個token,而不是單個token。這提高了模型在訓練過程中的性能,並可在推理過程中捨棄。這是一個演算法創新的例子,它以較低的計算量提高了性能。還有一些額外的考慮因素,比如在訓練中提高 FP8 的精準性;
另一方面,DeepSeek v3 也是專家模型(experts model,)的混合體,它是由許多專門從事不同領域的其他小型模型組成的大型模型。混合專家模型面臨的一個難題是,如何確定將那個token交給那個子模型或 "專家"。DeepSeek 實施了一個 "門控網路"(gating network),以不影響模型性能的平衡方式將token路由到合適的專家。這意味著路由選擇非常高效,相對於模型的整體規模,每個token在訓練過程中只需改變少量參數。這不僅提高了訓練效率,還降低了推理成本;
再者,就 R1 而言,有了強大的基礎模型(v3),它將受益匪淺。部分原因在於強化學習(RL)。
強化學習有兩個重點:格式化(確保提供連貫的輸出)以及有用性和無害性(確保模型有
用)。在合成資料集上對模型進行微調時,推理能力出現了;
SemiAnalysis重申,MLA 是 DeepSeek 大幅降低推理成本的關鍵創新技術。原因在於,與標準注意力(standard attention)相比,MLA將每次查詢所需的KV快取量減少了約93.3%。KV 快取是轉換器模型中的一種記憶體機制,用於儲存代表對話上下文的資料,從而減少不必要的計算。
在文章開頭我們就提到,DeepSeek爆火以後,輝達用暴跌來回應。因為如果美國大型科技公司開始向 DeepSeek 學習,選擇更便宜的人工智慧解決方案,這可能會給 Nvidia 帶來壓力。
隨後,Nvidia 對 DeepSeek 的進展給予了積極評價。該公司在一份聲明中表示,DeepSeek 的進展很好地展示了 AI 模型的新操作方式。該公司表示,向使用者提供此類 AI 模型需要大量 Nvidia 晶片。
但著名投資人、方舟投資CEO“木頭姐”凱西·伍德在採訪中表示,DeepSeek證明了在AI領域成功並不需要那麼多錢,並且加速了成本崩潰。
Counterpoint Research 人工智慧首席分析師孫偉也表示,Nvidia 的拋售反映了人們對人工智慧發展的看法轉變。她進一步指出:“DeepSeek 的成功挑戰了人們認為更大的模型和更強大的計算能力能夠帶來更好性能的信念,對 Nvidia 由 GPU 驅動的增長戰略構成了威脅。”
SemiAnalysis強調,演算法改進的速度太快了,這對 Nvidia 和 GPU 來說也是不利的。
美媒《財富》更是預警道,DeepSeek 正在威脅輝達的 AI 主導地位。
如前文所說,DeepSeek 已採用性能更低、價格更便宜的晶片打造了其最新型號,這也給 Nvidia 帶來了壓力,一些人擔心其他大型科技公司可能會減少對 Nvidia 更先進產品的需求。
AvaTrade 首席市場分析師凱特·利曼 (Kate Leaman) 向《財富》雜誌表示:“投資者擔心 DeepSeek 與性能較弱的 AI 晶片配合使用的能力可能會損害輝達在 AI 硬體領域的主導地位,尤其是考慮到其估值嚴重依賴於 AI 需求。”
值得一提的是,根據tomshardware的報導,DeepSeek 的 AI 突破繞過了輝達的CUDA不成盒,而是使用了類似彙編的 PTX 程式設計,這從某種程度上加大了大家對輝達的擔憂。
據介紹,Nvidia 的 PTX(Parallel Thread Execution:平行執行緒執行)是 Nvidia 為其 GPU 設計的中間指令集架構。PTX 位於高級 GPU 程式語言(如 CUDA C/C++ 或其他語言前端)和低級機器程式碼(流式彙編或 SASS)之間。PTX 是一種接近金屬的 ISA,它將 GPU 公開為資料平行計算裝置,因此允許細粒度最佳化,例如暫存器分配和執行緒/warp 等級調整,這是 CUDA C/C++ 和其他語言無法實現的。一旦 PTX 進入 SASS,它就會針對特定一代的 Nvidia GPU 進行最佳化。
在訓練 V3 模型時,DeepSeek 重新組態了 Nvidia 的 H800 GPU:在 132 個流式多處理器中,它分配了 20 個用於伺服器到伺服器通訊,可能用於壓縮和解壓縮資料,以克服處理器的連接限制並加快交易速度。為了最大限度地提高性能,DeepSeek 還實施了高級管道演算法,可能是通過進行超精細的執行緒/warp 等級調整來實現的。
報導指出,這些修改遠遠超出了標準 CUDA 級開發的範圍,但維護起來卻非常困難。
不過,晨星策略師布萊恩·科萊洛 (Brian Colello) 直言,DeepSeek 的進入無疑給整個人工智慧生態系統增加了不確定性,但這並沒有改變這一運動背後的壓倒性勢頭。他在一份報告中寫道:“我們認為人工智慧 GPU 的需求仍然超過供應。因此,儘管更輕薄的機型可能能夠以相同數量的晶片實現更大的發展,但我們仍然認為科技公司將繼續購買所有他們能買到的 GPU,作為這場人工智慧‘淘金熱’的一部分。”
英特爾前首席執行官帕特·基辛格 (Pat Gelsinger) 等行業資深人士也認為,像人工智慧這樣的應用程式可以利用它們能夠訪問的所有計算能力。至於 DeepSeek 的突破,基辛格認為這是一種將人工智慧加入到大眾市場中大量廉價裝置中的方法。
SemiAnalysis在其報告中透露,自DeepSeek V3 和 R1 發佈以來,H100 的 AWS GPU 價格在許多地區都有所上漲。類似的 H200 也更難找到。“V3 推出後,H100 的價格暴漲,因為 GPU 的貨幣化率開始大大提高。以更低的價格獲得更多的智能意味著更多的需求。這與前幾個月低迷的 H100 現貨價格相比發生了重大轉變。”SemiAnalysis說,
所以,大家認為,DeepSeek將如何發展?輝達晶片,還能繼續獨霸天下嗎? (半導體行業觀察)