【DeepSeek】“開源五連發”進行時,輝達隔空聯動,“特供晶片”或將面臨被限

DeepSeek"開源周"再次引發行業對算力的關注。

AI界“源神”DeepSeek本周正在將自己所積累的實戰技術乾貨一點點釋放給全球開發者,對AI模型和算力行業的下一步發展產生深刻影響。

第一天,DeepSeek率先開源了FlashMLA,這是一款基於NVIDIA Hopper GPU開發的高效MLA解碼核心,針對可變長度序列進行了最佳化,用於減少計算開銷,同時保持出色性能,目前已投入生產。

今天,DeepSeek推出DeepEP——第一個用於MoE模型訓練和推理的開EP通訊庫,在NVIDIA H800上完成測試,效果出色,能以最大限度地提高計算吞吐量、減少延遲。

業內預測,接下來幾天可能會陸續開源資料處理管道、AI訓練最佳化工具、機器學習模型等相關技術,讓行業對GPU算力的使用更加高效,便於開發者們搭建速度更快、性能更強、可擴展的AI模型。

但面對DeepSeek的異軍突起和出乎意料的全球影響力,開發DeepSeek模型所依託的NVIDIA中國“特供晶片”或將面臨被美國進一步限制的風險。

開發者們讚不絕口

DeepSeek連續開源推出“FlashMLA”和“DeepEP”之後,在開發者社區引起了積極響應,有網友預測,第五天可能將是一條以開源方式通往AGI的關鍵路徑。

而DeepSeek團隊通過開源這些技術細節,也正在有力反駁一些質疑者提出的“他們在訓練程序上撒謊”的說法。

已經測試上手的開發者們表示,FlashMLA具有很多好處:

1. 針對Hopper GPU進行性能最佳化FlashMLA專為NVIDIA的Hopper GPU(例如H800)而設計,這些GPU在尖端資料中心廣泛應用,以先進的Tensor Core和Transformer Engine而聞名。

該核心實現了卓越的性能指標:3000 GB/s記憶體頻寬(記憶體繫結性能),實現快速的資料訪問和傳輸;580 TFLOPS計算性能(計算繫結性能),為AI工作負載提供了更高的計算吞吐量。

2. FlashMLA針對可變長度序列進行了最佳化,這是自然語言處理(NLP)任務的一項關鍵功能,其中輸入資料(如句子或文件)的長度可能有很大差異。這種靈活性使其成為現實世界的AI應用的理想選擇,例如聊天機器人、翻譯系統和文字生成,其中序列並不統一。

3. 核心使用分頁的KV快取,塊大小為64,這提高了記憶體效率並減少瞭解碼期間的延遲。這對於LLM尤其有益,因為記憶體限制可能會成為性能的瓶頸。

4. FlashMLA支援BF16(Brain Float 16)精度,這是一種緊湊的數字格式,可平衡模型精度和計算效率。與FP32(32 位浮點)等更高精度的格式相比,BF16可減少記憶體使用量並加快計算速度,同時保持大多數AI任務所需的足夠精度。

這對於在資源受限的硬體上部署LLM或擴展到更大的模型尤其有用。

5. 支援更大規模的AI模型。通過利用快閃記憶體和最佳化資料傳輸,FlashMLA可以高效地推理超出GPU DRAM容量的大型語言模型。這意味著FlashMLA可以幫助在Hopper GPU上部署和運行大量AI模型,而無需昂貴的硬體升級。

當然最值得稱讚的是,這麼寶貴的技術經驗具備“開源可用性”,它是一種成熟且經過測試的解決方案,能夠投入實際部署,使全球開發人員和研究人員能夠訪問、修改和將這項技術整合到各自項目中做更多創新。

FlashMLA正在成為高效AI推理領域的領跑者,通過針對Hopper GPU進行最佳化,可以與FlashAttention、ThunderKittens等核心展開競爭。

而對於“DeepEP”,開發者們表示它就像一個先進的高速公路系統。想像一條繁忙的高速公路,其中汽車代表資料,城市象徵電腦元件,如果沒有精心規劃的道路和交通規則,擁堵和延誤將不可避免。

DeepEP的作用就像是一個先進“調度指揮官”,實現了目前最高通勤效率,怎麼做到的呢?

第一,最佳化全員溝通

在混合專家(MoE)模型中,每個專家都必須與其他所有專家交換資料,DeepEP使這一過程沒有瓶頸,就像給每輛車提供自己的高速車道一樣。

第二,支援節點內和節點間通訊

節點內通訊發生在單個電腦晶片內,就像車輛在城市內行駛一樣。

DeepEP利用NVIDIA的高速連接技術NVLink來加速這一過程,節點間通訊發生在不同的電腦或晶片之間,類似於城市間行駛的汽車;利用RDMA在機器之間直接傳輸資料,最大限度地減少延遲並最佳化性能。

第三,高吞吐量、低延遲GPU核心

GPU為AI模型提供動力,但其效率取決於其處理和交換資料的能力,DeepEP整合了專用GPU核心 ,可最大程度提高處理速度,將等待時間縮短至幾乎為零。

此外,DeepEP允許開發人員在GPU之間動態分配計算任務,無縫適應不同的硬體組態,通過最佳化各個層面的資料流,確保即使是最複雜、最分散的AI系統也能平穩高效地運行。

DeepEP被開發者們視為是MoE模型訓練和推理的新晉顛覆者,對接下來要開放原始碼的技術更加充滿期待。

輝達拋出“橄欖枝”

有趣的是,在DeepSeek開源周連發兩彈吸引廣大開發者注意的同時,輝達通過夢幻聯動的方式,展示了最強AI算力硬體和DeepSeek開源技術相結合所能實現的全新可能性。

今天,輝達緊跟DeepSeek節奏推出針對Blackwell架構的DeepSeek-R1最佳化方案,與僅僅四周前的輝達H100相比,該方案能使每生成一個token的成本降低至原來的二十分之一,但同時推理吞吐量提高了25倍。

此動態展現出了輝達對DeepSeek開源技術的極高重視。Blackwell架構是比DeepSeek開源周提到的NVIDIA Hopper GPU架構更先進的新一代架構,專為運行兆級參數的AI模型而設計。

利用Hopper架構的H100整合了800億個電晶體,而Blackwell架構GPU具有2080億個電晶體,整體AI性能比Hopper架構提高了5倍,在FP4精度下,推理性能可提高30倍左右。

對於DeepSeek,輝達可謂是愛恨交加。

幾周前,DeepSeek對美國科技股造成衝擊,一度讓輝達市值蒸發近6000億美元,規模創下美股史上最大,但隨著DeepSeek對全球AI開發者的賦能,更加廣泛的AI算力需求逐漸增長,為輝達帶來了潛在收益。

日前,黃仁勳也首次回應DeepSeek衝擊,稱讚其開源推理模型所帶來的能量“令人無比興奮”,但投資人“判斷錯誤”了,誤以為這對輝達算力市場是不利的,DeepSeek不僅不會終結AI計算需求,反而會擴大並加速市場對更高效AI模型的追求,從而推動整個行業的發展。

路透社獨家消息稱,隨著中國大範圍接入DeepSeek的AI模型,輝達的H20晶片訂單正呈現需求激增,例如百度和字節跳動等大廠加大了H20的訂單。此外,醫療和教育等行業的小型企業也在購買配備DeepSeek模型和H20晶片的AI伺服器。

由於美國的出口管制,H20是輝達專門面向中國市場推出的一款晶片,與其旗艦晶片H100相比,綜合算力降低了約80%,另外,DeepSeek訓練所使用的H800也是輝達對H100的調整版本,在資料傳輸和雙精度計算等方面均有所削弱,只是沒人能預料到DeepSeek會把算力運用的如此充分。

新一輪算力限制在醞釀

據路透社獨家報導,川普政府正在考慮對向中國出售的H20、H800等晶片實施新一輪限制,消息人士稱DeepSeek或是主要誘因。

川普政府就限制向中國出口這些晶片的討論還處於非常早期,白宮目前沒有回應置評,輝達則在一份聲明中表示:“已準備好與政府協商,以保障其在AI領域的持續發展”。

彭博社消息稱,川普政府正在制定更為嚴厲的美國半導體限制措施,並向主要盟友施壓來遏制中國AI崛起反超,相關政府官員最近會見了日本和荷蘭同行,討論限制東京電子有限公司、阿斯麥控股公司等工程師在中國維護半導體裝置的問題。

拜登和川普政府交接之前還頒發了一系列限制向中國出口人工智慧晶片的措施,其中比較受關注的是《人工智慧擴散框架》,該框架計畫於2025年5月開始實施,其中制定了適用於先進計算積體電路的出口、再出口和國內轉讓的三級許可框架,中國是被限制最嚴格的國家之一。

在各行業為DeepSeek的成就歡呼點贊紛紛接入的同時,破解算力限制風險衝刺世界最領先AI模型的步伐也要加快了,中美之間的AI競賽還遠未結束。 (頭部科技)