運算資源分配能力再上一層樓
隨著AI 模型規模的不斷擴大,從數十億參數到數萬億參數,高效的通訊將成為關鍵瓶頸。 DeepSeek 這次帶來的DeepEP ,主打低延遲內核,其支援FP8 的特性特別適合資源受限或即時性要求高的場景。
特別是在處理MoE 分派和組合的通訊模式上,DeepEP 針對高吞吐量和低延遲的GPU 內核,專門優化了MoE 模型中資料路由和輸出的整合過程。
優化之後的MoE 模型的通訊性能,支援低精度操作(如FP8),並提供了針對非對稱域頻寬轉送的核心。這使得在分散式GPU 環境中,MoE 模型的訓練和推理更加高效和可擴展,尤其是在多節點叢集中,能夠顯著降低通訊開銷並提高整體效能。
MoE “混合專家”,就是讓AI 模型裡匯集了不同的專家,負責不同的任務。更形像一點說,一個超大型AI 模型就像班級大掃除時的值日團隊,每個同學要幹的活不同,有人擦玻璃,有人掃地,有人搬桌子,等等等等。
但現實中總有人動作快,有人動作慢。桌子沒搬好,去幫忙拖地;玻璃先擦了,又會有灰塵落在地上。互相協調的過程不通暢,會導致效率低落。
為了解決這種協作卡頓的問題,就需要有一個高效率且智慧的分工計畫。就像班主任把值日生分成不同小組,讓擦玻璃快的同學專注擦玻璃,掃地的同學專注掃地,大家各司其職不互相拖後腿,並且及時觀察誰的活兒提前乾完了,誰的工作量超了。
這就是「專家小組分工」group-limited gating:不讓擦玻璃的同學被迫掃地,從根源減少人力資源浪費。
而在大模型裡,這就是不讓運算資源浪費。 DeepEP 能根據任務量動態調節GPU 的運算資源(SM 數量控制)。任務多的時候,就讓GPU 裡更多計算單元一起工作;任務少的時候自動減少功耗,既省電又不耽誤效率,特別適合需要快速處理海量資料的場景。
「降本增效」,是這次DeepEP 送出的一份大禮。
高速通道+無縫轉乘,數據秒達
除了資源分配,AI 模型裡的「專家」,也就是電腦裡的GPU 晶片,需要頻繁傳遞資料。資料傳遞慢會導致GPU 算完一波任務後「乾瞪眼」。
DeepEP 的跨域頻寬優化,相當於為GPU 配了專屬直升機送貨,把等待時間進一步壓縮,自然能榨出更多算力。
還是回到剛才班級大掃除的例子,普通的GPU 之間傳輸資料慢、互相等,就好像擦玻璃的同學需要水桶,但桶在掃地的同學手裡,只能等對方用完再傳,中間浪費時間。甚至要去隔壁班借,得穿過走廊、爬樓梯,還可能被其他班級的人堵住。
在資料傳輸上,也會出現類似的問題。而DeepEP 的內核,優化了非對稱域頻寬轉送(如NVLink 到RDMA),這使得它特別適合現代高效能運算(HPC)環境中的多節點分散式訓練。
同一伺服器內GPU 用NVLink,傳輸速度150GB/s,幾乎零等待。跨伺服器用RDMA 網絡,速度蹭蹭加快。還有無縫頻寬轉發,避免資料堆積或遺失。
如果說傳統的AI 訓練中,GPU 跑了10 小時,4 小時在等資料、等同步,實際工作時間只有6 小時。那麼DeepEP,能夠把等待時間壓縮到1 小時,GPU 幹活9 小時,相當於多了3 小時算力,真正「榨乾」每一塊GPU。
這對於許多應用場景,尤其是依賴MoE 架構的大型語言模型,都有非常大的價值。DeepEP 可以顯著提升這些模型的訓練和推理效率,適用於自然語言處理任務,如翻譯、摘要產生和問答系統。
在程式碼產生領域也有應用,DeepEP 的高效通訊可以加速這些模型的開發和部署,特別是在處理複雜程式設計任務時。
甚至在推薦系統中,MoE 可以讓不同專家處理不同使用者偏好,DeepEP 的最佳化可以提高系統在分散式環境中的效能,適用於電商平台或媒體串流服務。
「降本增效」的關鍵大招,DeepSeek都傾囊相授了,真· open ai。(APPSO)