在近年這波人工智慧熱潮背後,輝達成為當之無愧的大贏家。能獲得這樣的表現,一方面固然得益於大家熟知的GPU。除此以外,輝達早幾年斥資69億美元收購Mellanox所獲得的網路技術和產品加持,也是他們能走到今天的另一個可靠保障。財務資料顯示,2025年第三季度,輝達的網路收入同比增長162%至 82 億美元,遠超收購Mellanox所付出的代價。
由此可見,除了熟悉的算力和存力以外,網路也在人工智慧時代扮演越來越重要的角色。正因如此,過去幾年不少傳統巨頭和新貴都圍繞著AI資料中心的上述領域展開了激烈角逐。也有不少“大晶片”企業在激烈的競爭中紛紛折戟。
然而,總有些企業憑藉其優秀的團隊和拔尖的技術成功突圍,半導體行業觀察在四年前關注過的雲豹智能,就是其中一個典型。
如果將時鐘拔回2020年前後,我們發現,當時除了GPU和CPU以外,新興的晶片賽道DPU也非常熱門。從當時的產業現狀看來,這是發展的必然。
雖然當時大模型還沒有大紅大紫,但正如半導體行業觀察在當時的文章《二十年磨一劍,中國半導體迎來又一顆超新星》中所說,雲端運算的高速發展,人工智慧模型訓練參數越來越大,讓資料中心的系統規模越來越大且越來越複雜,各種晶片處理的任務越來越繁重,這時候就需要一個DPU分擔原本由CPU承擔的網路、解除安裝、安全、儲存等任務。
輝達創始人黃仁勳在2020年的GTC大會演講中也表示:“資料中心已成為新的計算單元。DPU 是現代化、安全且加速的資料中心的關鍵組成部分,它將 CPU、GPU 和 DPU 整合到一個完全可程式設計、支援 AI 的單一計算單元中,能夠提供前所未有的安全性和計算能力。”
現在回頭看,當時2021年的文章中寫的很多東西都一一應驗了。但對DPU而言,隨著ChatGPT在一年後橫空出世進而引爆全球“軍備競賽”後,DPU被賦予了更多的含義。
還是以輝達為例。如上所述,在2021年的時候,AI還沒正式上牌桌,雲端運算還是當時的主流。但隨後幾年,人工智慧推動系統急速擴張。於是,在摩爾定律放緩,Scaling Law大行其道的當下,所有人都在大力砸錢搞晶片、搞超節點、搞叢集。這就引出一個問題,如何讓分佈在不同機架、節點間的硬體系統表現得更像一個整體。
這時候,DPU又能扮演一個重要的角色。
資料顯示,在打造基於H100的AI Infra的時候,輝達就曾經使用其BlueField-3 DPU去做網路支撐。在發佈BlueField-4 的時候,輝達也直言,憑藉軟體定義加速技術,該產品在 AI 資料儲存、網路和安全領域實現全面賦能,將資料中心轉型為安全、智能的 AI 基礎設施,旨在加速每個 AI 工廠中的每項工作負載。
本土大模型新貴DeepSeek在新近一篇名為《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》的論文中頁對DPU的發展分享了他們的看法。
通讀全文,DeepSeek是希望從硬體架構和模型設計的雙重角度出發,探討如何實現大規模訓練和推理的成本效益。文中,他們還特別強調了DPU在AI基礎設施中的關鍵作用。他們在文中明確提出,整合通訊協處理器的DPU有望成為下一代AI硬體的重要構想。
“為了最大限度地提高線上推理的吞吐量,我們完全通過 NIC RDMA 執行 EP all-to-all通訊,從而避免 SM 資源爭用並提高計算效率。這凸顯了 RDMA 非同步通訊模型在計算和通訊重疊方面的優勢。”DeepSeek研究人員在論文中寫道。
換而言之,DPU正在通過解除安裝GPU的計算負擔、最佳化資料預處理、加速通訊和儲存任務,逐漸成為大模型訓練和推理的重要助力。這正如DPU之前需要解除安裝CPU的功能一樣。
可以肯定是,DPU在AI Infra中會越來越重要。但有一點我們需要注意的是,和GPU一樣,國內這個市場依然是輝達主導,國內網際網路廠商及營運商大多採用輝達的網路卡,其在國內中高端網路卡市場的份額更是超過80%。在通算CPU伺服器市場,目前國內大部分用的DPU網路卡也都是用美商的FPGA晶片。
在全球這種競爭態勢下,打造本土的DPU,就顯得尤為重要,我們看到,過去幾年雲豹智能也正在朝這個目標奮鬥。
筆者曾與雲豹智能創始人兼CEO蕭啟陽博士做過深入交流,在公司成立之初,蕭博士就信心十足,之所以有這樣的底氣,與他豐富且成功的過往經歷有著莫大的關係。
無論是從24歲獲取美國史丹佛博士學位、出任MIT教授,還是創立晶片公司,或是被巨頭博通以37億美元收購從而轉任職業經理人,蕭啟陽博士在大晶片、人工智慧、網路與分散式運算領域都有著深厚的造詣和顯著的成就,成為國內為數不多涉足過DPU的創始人。在招募行業各領域專家二度創業以後,蕭啟陽博士領導的雲豹智能也獲得了騰訊、中芯聚源、深創投、同創偉業、東方富海、基石資本、IDG資本等產業資本和頭部投資機構的認可,這使得他們在發展中如虎添翼。
在騰訊和中移動等客戶的應用場景支援下,雲豹智能一直在打磨升級產品,在這條賽道一騎絕塵。據瞭解,雲豹智能在成立兩年多後便一次性流片成功這種架構複雜的大晶片,不用修改一個電晶體就能讓客戶量產。作為一家初創企業能獲得這樣的成績,足以見證他們的實力。在發展期間,雲豹智能在DPU的可程式設計高性能網路處理技術、可程式設計低時延RDMA技術、DDP(Data Direct Path)資料直通技術和安全計算體系等多個關鍵領域掌握並引領著多項核心技術。
得益於這些積累,雲豹智能已成功量產國內首顆400Gbps 吞吐量的DPU晶片, 達到全球頂尖水平。該晶片擁有每秒處理幾百萬個封包的儲存能力,遠端直接存取資料(RDMA)的時延低至5微秒。與其他傳統DPU方案相比,性能效率可提升4倍,同時,該晶片還具有低功耗、低成本特性。
伴隨著這顆晶片的面世,雲豹智能讓中國有了可以與輝達掰手腕的DPU,也讓公司成為國內唯一能替代輝達網路卡的企業。
正因為表現如此出色,雲豹智能系列晶片產品獲得工信部的推薦,入選國家博物館在12月29日舉辦的中國製造“十四五”成就展。值得一提的是,雲豹智能是本次三大獲邀的晶片企業之一,也是唯一獲得這個殊榮的DPU廠商,這足以證明雲豹智能的影響力和在國產大晶片中的地位。
據我們獲悉,雲豹智能明年還會推出一款800Gbps的網路卡產品,對標輝達的CX8網路卡。
如文章開頭所說,除了DPU以外,GPU、NPU和CPU等大晶片也是過去幾年國內晶片產業的工作重點。雖然屢經波折,但無論那個賽道,都終於迎來了收穫季。無論是此前以海光、龍芯為代表的CPU,還是以寒武紀、摩爾線程、沐曦、天數智芯和壁仞為代表的GPU或AI算力晶片,都紛紛IPO,這除了證明國內在這些領域取得了突破性進展外,還為本土大晶片進一步增加了更多的籌碼。
正如四年前所關注,半導體行業觀察正在見證一顆超新星的崛起,雲豹智能,有望成為“中國DPU第一股”。 (半導體行業觀察)