【DeepSeek】硬核發佈!

DeepSeek又有大動作!

開源周第三天,DeepSeek宣佈開源Optimized Parallelism Strategies(最佳化平行策略)。

Optimized Parallelism Strategies,該策略是為了提高計算效率、減少資源浪費並最大化系統性能而設計的平行計算方案。這些策略通過合理分配任務、協調資源利用和減少通訊開銷,實現在多核、分佈式或異構系統中的高效平行執行。

與此同時,輝達開源了首個在Blackwell架構上最佳化的DeepSeek-R1,實現了推理速度提升25倍,並且每token成本降低20倍的驚人成果。這一新模型的推出,標誌著輝達在人工智慧領域的又一次重大進展。

動作不斷

DeepSeek開源周第四天,今天早上,該公司再度開源最佳化平行策略,包括DualPipe、專家平行負載平衡器 (EPLB)、DeepSeek Infra 中的性能分析資料。最佳化平行策略需根據任務類型、資料規模、硬體環境靈活選擇,平衡計算、通訊和儲存開銷,最終實現高效、可擴展的平行計算。該策略是為了提高計算效率、減少資源浪費並最大化系統性能而設計的平行計算方案。

最近,DeepSeek硬核不斷。此前,該公司宣佈將DeepEP向公眾開放。在宣佈後的約20分鐘內,DeepEP已在 GitHub、微軟(MSFT.US)等平台上獲得超過1000個 Star收藏。

據悉,DeepEP是MoE模型訓練和推理的Expert Parallelism通訊基礎,可實現高效最佳化的全到全通訊,以支援包括FP8在內的低精度計算,適用於現代高性能計算。DeepEP還針對從NVLink到RDMA的非對稱頻寬轉發場景進行了深度最佳化,不僅提供高吞吐量,還支援流式多處理器數量控制,從而在訓練和推理任務中實現高吞吐量性能。

此外,2月26日,DeepSeek宣佈即日起在台北時間每日00:30至08:30的夜間空閒時段,大幅下調API呼叫價格,其中DeepSeek-V3降至原價的50%,DeepSeek-R1更是低至25%,降幅最高達75%。該公司稱,這一舉措旨在鼓勵使用者充分利用夜間時段,享受更經濟、更流暢的服務體驗。

輝達亦藉機突破

近日,輝達開源了首個在Blackwell架構上最佳化的DeepSeek-R1,實現了推理速度提升25倍,並且每token成本降低20倍的驚人成果。這一新模型的推出,標誌著輝達在人工智慧領域的又一次重大進展。

根據媒體報導,DeepSeek-R1的本地化部署已經引起廣泛關注,輝達也親自下場,開源了基於Blackwell架構的最佳化方案——DeepSeek-R1-FP4。這一新模型在推理吞吐量上達到了高達21,088 token每秒,與H100的844 token每秒相比,提升幅度高達25倍。同時,每token的成本也實現了20倍的降低。

輝達通過在Blackwell架構上應用TensorRT DeepSeek最佳化,讓具有FP4生產級精度的模型,在MMLU通用智能基準測試中達到了FP8 模型性能的99.8%。目前,輝達基於FP4最佳化的DeepSeek-R1檢查點已經在Hugging Face上開源,並且可以通過以下連結訪問模型地址:DeepSeek-R1-FP4。

在後訓練量化方面,該模型將Transformer模組內的線性算子的權重和啟動量化到了FP4,適用於TensorRT-LLM推理。這一最佳化使每個參數的位數從8位減少到4位,從而讓磁碟空間和GPU視訊記憶體的需求減少了約1.6倍。

使用TensorRT-LLM部署量化後的FP4權重檔案,能夠為給定的提示生成文字響應,這需要支援TensorRT-LLM的英達GPU(如 B200),並且需要8個GPU來實現tensor_parallel_size=8的張量平行。這段程式碼利用FP4量化、TensorRT引擎和平行計算,旨在實現高效、低成本的推理,適合生產環境或高吞吐量應用。

據報導,針對此次最佳化的成果,網友們表示驚嘆,稱「FP4 魔法讓 AI 未來依然敏銳!」有網友評論道,這次的最佳化使得美國供應商能夠以每百萬token 0.25美元的價格提供R1,並認為「還會有利潤」。

如今,DeepSeek的開源活動持續進行。周一,DeepSeek 開源了 FlashMLA,這是專為輝達Hopper GPU打造的高效MLA譯碼核心,特別針對變長序列進行了最佳化。周二則推出了DeepEP,這是一個為混合專家系統(MoE)和專家平行(EP)設計的通訊庫。周三開放原始碼的是 DeepGEMM,這是一個支援稠密和 MoE 模型的 FP8 GEMM 計算庫,為 V3/R1 的訓練和推理提供強大支援。

總體而言,無論是輝達開放原始碼的 DeepSeek-R1-FP4,還是 DeepSeek 開放原始碼的其他三個倉庫,都是通過對輝達 GPU 和叢集的最佳化,來推動 AI 模型的高效計算和部署。 (券商中國)