DeepSeek-V3:美國晶片封鎖的“意外”產物?



繼電動車、消費品之後,中國團隊又在AI領域上演了一出“成本屠夫”的好戲。

用兩個月、600萬美元,就能訓出一個能跟ChatGPT掰手腕的AI模型?Deepseek用實力演繹了“四兩撥千斤”是什麼意思。

幻方量化旗下的DeepSeek公司宣佈發佈全新系列模型DeepSeek-V3首個版本,並同步開源。他們僅用2048塊H800顯示卡、耗時兩個月,就訓出了一個6710億參數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了16,384塊更強的H100顯示卡,花了54天。Deepseek的訓練效率提升了11倍。

這事兒一出,連CNBC都坐不住了。在最新報導中,記者親自上手測試後驚呼:“這模型的能力完全能和OpenAI掰手腕”。



DeepSeek-V3在技術圈收穫的關注和討論,堪比遊戲界的《黑神話:悟空》,其影響力甚至讓OpenAI CEO奧特曼坐不住了,發推特暗戳戳說“複製總比創新容易”。而市場也開始擔心:要是人人都能用這麼低的成本訓練AI,那些靠賣顯示卡發財的“賣鏟人”可就要慌了,輝達股價甚至一度應聲下跌。

不過OpenAI另一位聯合創始人Karpathy表示,這並不意味著前沿LLM不需要大型 GPU 叢集,而是說明AI領域的資料和演算法還有很多黑科技等著被挖掘。

那麼,Deepseek是如何做到這種驚人的訓練效率的?答案就在他們獨特的技術方案中。



少即是多:DeepSeek-V3 高效 AI 訓練的新方法

DeepSeek-V3的訓練效率水平揭示了其巧妙的訓練方法——關鍵在於更聰明地工作,而非單純依賴更多硬體投入。

具體來看,Deepseek採用了由2048塊Nvidia H800 GPU組成的叢集,每塊GPU通過NVLink互連實現GPU間通訊,並通過InfiniBand互連實現節點間通訊。在這種組態下,GPU間通訊速度相當快,但節點間通訊則不然,因此最佳化是提升性能和效率的關鍵。DeepSeek實施了數十項最佳化技術以降低其 DeepSeek-v3 的計算需求,但幾項關鍵技術促成了其令人矚目的成果,包括:

MoE

不同於單一龐大的神經網路,DeepSeek-V3 採用了MoE架構(Mixture of Experts)。MoE的核心理念可以這樣理解:有一群各個領域的專家,共同協作解決問題。面對使用者的任務,系統會智能地識別出最適合的專家來處理,通過稀疏啟動機制大幅減少計算量。

MoE與密集模型(Dense Model)在訓練成本上存在顯著差異。儘管MoE模型通常包含更多的參數,但由於其稀疏啟動機制,每次僅啟動部分專家網路,從而在相同計算預算下實現更大的模型容量和更高的性能。這使得 MoE 模型在預訓練階段比同等規模的密集模型更高效,能夠以更低的計算成本達到相似或更優的性能。

DeepSeek-V3採用了多個小型專家的MoE結構設計,而非像Mixtral那樣使用少數大型專家。這一設計讓模型在總參數量達到671B的同時,實際執行階段只需啟動37B參數,大大提升了模型的稀疏性。


MLA

DeepSeek-V3的另外一個創新是多頭潛在注意力(Multi-head Latent Attention,簡稱 MLA),這是大型語言模型中常用注意力機制的增強版本。

MLA是De­e­p­S­e­ek獨創的結構,在DeepSeek-V2中提出,其核心概念可以這樣理解:在閱讀複雜內容時,我們的大腦不僅僅處理每個單詞,還會捕捉到其中的聯絡和暗示。MLA讓DeepSeek-V3能夠類似地同時關注不同部分的資訊,從而獲得更豐富的理解。這在連接資訊點時特別有用,比如解決複雜的數學問題或編寫程式碼。

FP8

Nvidia H800是專為中國市場定製的、性能較其原型Nvidia H100大幅削弱的版本。H800限制了叢集卡之間的互連速度:約400GB/s,而H100可達到高達900GB/s。

這種性能瓶頸,使得降低計算和通訊成為降低訓練成本的關鍵,DeepSeek 運用了 FP8 混合精度框架,實現了更快的計算速度和更低的記憶體佔用,同時不犧牲數值穩定性。關鍵操作如矩陣乘法以 FP8 進行,而敏感部分如嵌入層和歸一化層則保持較高精度(BF16 或 FP32)以確保準確性。這種方法在減少記憶體需求的同時保持了穩健的精準性,相對訓練損失誤差始終控制在 0.25%以內。

FP8精度的使用是DeepSeek-V3的重大創新,V3是第一個成功使用FP8混合精度訓練得到的開源大參數MoE模型。這意味著它所需的記憶體更少,並能顯著加快計算速度。

Du­a­l­p­i­pe

DeepSeek團隊開發的DualPipe演算法改進了流水線平行性能,通過計算和通訊階段的重疊設計,有效降低了跨節點專家平行帶來的通訊開銷。同時,他們最佳化了跨節點通訊核心,提高了頻寬利用率,減少了通訊所需的計算資源。DualPipe演算法顯著緩解了訓練瓶頸,尤其是MoE架構所需的跨節點專家平行性,這些最佳化使得團隊無需使用成本較高的張量平行技術就能完成V3的訓練。



算力利空?硬體限制催生軟體創新

在外界看來,DeepSeek在晶片性能較差、資金和GPU使用時間更少的情況下,依然能夠取得更好的表現。考慮到他們所面臨的 AI 硬體資源的限制,這一成就尤為值得關注。

2022年10月,為阻止中國成為人工智慧與計算領域的超級大國,美國對中國實施了廣泛的晶片出口限制:這是中美之間持續進行的“晶片戰爭”中的眾多打擊之一。

這些晶片限制的初衷,目的是想通過掐斷中國獲取頂尖硬體的管道來限制中國在AI領域的發展。為應對新規,並維持在中國市場的競爭力,輝達推出了針對中國市場的“定製版”H800晶片。

DeepSeek-V3的成功,可能預示著一個有趣的轉折:軟體創新正在突破硬體限制。如果他們的技術報告屬實,這或許意味著中國在晶片競爭中已經佔了上風。理論上受限制的晶片應該會限制他們的研發突破。但事實上,Deepseek在研究和產品方面都取得了重大進展,證明了另闢蹊徑的可能性。

正因為中國工程師拿不到最好的硬體,客觀上促進了中國工程師在演算法、架構、訓練策略等軟體層面的創新,“被迫”開發出新方法來充分利用手頭的資源,甚至突破了傳統所認為的極限。反而逼出了更多軟體層面的創新,而不是單純靠硬體堆砌。

這反倒讓美國限制中國的戰略變得很諷刺。如果軟體技術越來越強,那用什麼硬體可能都不重要了。

不過,DeepSeek V3在技術成就之外也引發了一些爭議,使用者發現該模型會在某些情況下聲稱自己是ChatGPT。

一種可能的解釋是,DeepSeek-V3的訓練資料集中可能混入了ChatGPT的生成內容,導致模型在學習過程中產生了混淆。另一種可能性是,DeepSeek在訓練過程中使用了GPT模型進行知識蒸餾,即利用GPT模型的輸出作為 “教師訊號”來指導DeepSeek-V3的學習。

一位大模型從業者告訴硅星人,“資料蒸餾對成本的影響不大,如果只是靠資料蒸餾,為什麼其他人沒做到呢?Deepseek一定是靠自己獨特的訓練和工程實踐方法。”

在壓力和限制之下,創新往往會以意想不到的方式湧現。中國工程師們正在用實際行動證明,即便面臨硬體限制,依然能在AI領域做出令人矚目的成果。這種由需求驅動的創新,很可能繼續帶來一些突破性的思路。

對於人工智慧行業而言,DeepSeek-V3 預示著大型語言模型開發方式可能迎來範式轉變。通過巧妙的工程設計和高效的訓練方法,前沿的人工智慧能力或許可以在不依賴龐大計算資源的情況下實現。隨著DeepSeek-V3的出現,市場變得更加多元化,為開發者、內容創作者乃至小型初創企業提供了更多選擇。

當然,如果未來OpenAI、Meta等公司利用更龐大的算力叢集訓練出性能更為卓越的模型,行業可能會再次掀起對超大規模預訓練的熱潮。

屆時,行業可能會重新回到算力軍備競賽的老路,AI領域的“賣鏟人”將繼續成為最大贏家。 (硅星人Pro)