算力重器DPU,火得猝不及防


自電腦問世以來,一直採用的馮諾依曼架構,該架構以運算和儲存為核心。其中CPU作為處理器單元,負責執行各種算術和邏輯計算。 RAM和硬碟則負責儲存數據,與CPU進行互動。

再後來圖形、3D設計等多媒體軟體的快速發展,要處理的工作量越來越大,也越來越複雜。為了幫CPU分擔壓力,專門進行影像和圖形處理工作的GPU應運而生。

如今,隨著數位經濟的蓬勃發展,特別是生成式人工智慧、大數據分析、自動駕駛、元宇宙等應用的快速普及與實施,全球各行各業對大規模算力的渴求呈現出急劇增長的態勢。這時候,DPU(資料處理單元)憑藉其卓越的性能和獨特優勢,逐步嶄露頭角,成為推動算力提升的關鍵技術之一。

輝達執行長黃仁勳曾在演講中表示:「 DPU 將成為未來運算的三大支柱之一,未來的資料中心標配是' CPU + DPU + GPU '。CPU 用於通用運算, GPU 用於加速運算, DPU 則進行資料處理。

那麼DPU的主要作用為何?相比CPU、GPU有哪些優勢?


01 DPU與CPU、GPU的主要差異

DPU的出現並非偶然,而是對日益增長的資料處理需求的有力回應。

從功能來看,CPU、GPU和DPU雖都屬於運算處理器,但各自長於不同功能。 CPU負責電腦系統的整體運行,是電腦的"大腦”,適用於各種廣泛的應用,但在處理大規模資料和特定運算任務時效能相對有限。

GPU是用於圖形運算任務的專用處理器,例如3D影像渲染或視訊處理等。對於大規模平行運算任務(如深度學習訓練)有一定優勢,但在一些特定任務上可能不是最佳選擇。

而DPU專門設計用於資料處理任務,具有高度最佳化的硬體結構,適用於特定領域的運算需求。其靈活性和高效能使其成為未來運算的重要組成部分。

從架構上看,CPU由幾個功能強大的處理核心組成,這些核心針對串行處理進行了最佳化,優勢在於按順序逐一執行任務。 GPU包含大量更簡單的核心,針對平行處理進行了最佳化,優勢在於同時處理大量任務。 DPU則由處理核心、硬體加速器元件和高效能網路介面組合而成,便於其處理以資料為中心的大規模任務。

再來看應用領域,CPU幾乎存在於一切運算設備當中,包括智慧型手機、電腦、伺服器等。 GPU常被用於遊戲PC裝置。

DPU則主要用於資料中心。 FPGA是DPU的核心技術之一,它具有在硬體層級上重新配置的能力,使其適用於多種運算任務。 DPU利用FPGA的靈活性,透過重新配置硬體來實現高效的資料處理。異質運算是DPU的另一個關鍵技術,它透過同時利用不同類型的處理單元來執行任務,以提高整體效能。異構運算中的處理單元可以包括CPU、GPU、FPGA等,它們共同協作完成運算任務。在兩大技術的加持下,DPU能夠充分發揮其效能優勢,為資料中心提供強大的運算能力支援。

事實上,DPU已經不是第一個為彌補CPU能力不足而備受關注的產品,多年前GPU的大熱也是為了彌補CPU在圖形處理能力方面的短板。換句話說,從CPU、GPU再到今天的DPU,科技變革背後體現的其實是時代的變化、使用者需求的變化。


02 DPU的應用正在走向多場景化

DPU 分擔的工作可以歸納為四個關鍵字,分別是虛擬化、網路、儲存、以及安全。

DPU透過將控制平面下放,從而實現主機業務與控制平面的完全隔離,從而提升了虛擬環境的安全性。 DPU的高效資料處理能力加速了虛擬機器間的通信,提高了虛擬化效能。

此外,儲存產業的革新演算法和實現,也可以在DPU 架構中,獨立於伺服器作業系統進行部署。 DPU 技術可協助儲存廠商實現真正的「算存分離」。

在網路與安全方面,隨著資料外洩和隱私外洩的事件頻傳,資料安全和隱私保護已成為一個備受關注的問題。 DPU可利用可程式硬體卸載和加速內聯安全服務,提供強大的零信任保護,有效隔離主機業務和控制平面,確保資料安全性。

具體到各場景的應用中,上文提到的資料中心只是DPU主要的應用領域之一。

除了資料中心,DPU同樣能夠「駕馭」眾多應用。在HPC和AI場景,DPU可提供超高頻寬、無損網路和高速儲存存取能力,可為HPC和AI提供業務所需的超高效能網路。網路、儲存與安全是DPU的主要應用。

在風起雲湧的邊緣運算領域,DPU的引進大有裨益。隨著業務增多,邊緣算力和頻寬需求大幅增加,但邊緣設施的規模和能力受限,CPU主要滿足核心業務的算力需求,對本不擅長的網路、儲存、安全等相關處理無暇顧及。導入DPU可大幅降低此類DPU對CPU的消耗,同時使用專用硬體提升處理效能,進而大幅提升邊緣運算的處理能力。

在智算場景下DPU也擁有廣闊的市場空間,DPU透過高效能網路及領域功能硬體卸載,為智算中心提供了大頻寬、高吞吐、低時延的基礎設施能力,從而消除了資料IO瓶頸,釋放了算力。這使得DPU成為智算中心基礎設施的必選項,大幅提升了計算叢集的算效比。

多元化的應用場景為DPU帶來了豐富的商業機遇,未來DPU可望進一步拓展至自動駕駛、人工智慧和元宇宙等領域。


03 DPU戰場百家爭鳴

隨著DPU 技術方案更加成熟、資料中心在全球加速落地,輝達、英特爾等廠商資料處理晶片DPU/IPU大規模量產,全球DPU 市場將在未來幾年迎來爆發式成長。

DPU 產業市場集中度較高。根據頭豹研究院數據,近年來國內DPU 市場中,國際三大巨頭輝達、博通、英特爾的市佔率分別達到55%、36%、9%。 Xilinx、Marvell、Pensando、Fungible、Amazon、Microsoft 等多家廠商在近2-5 年內也均有DPU 或相似架構產品生產,較國內相對較早。


輝達的資料中心“野心”

在上表列出的諸多公司中,輝達具有先發優勢。 2019年3月,輝達花費69億美元收購了以色列晶片公司Mellanox 。輝達將Mellanox 的ConnectX 系列高速網路卡技術與自己的現有技術結合,於2020年正式推出了兩款DPU 產品BlueField-2 DPU 和BlueField-2X DPU,正式拉開DPU 發展的序幕。

如今,輝達的BlueField 系列晶片已到達第三代,輝達 BlueField-3 DPU 是一款支援400Gb/s 速度的基礎設施運算平台,能夠線速處理軟體定義網路、儲存和網路安全任務。 BlueField-3 將強大的運算能力、高速網路和廣泛的可程式性集於一身,可為要求苛刻的工作負載提供軟體定義的硬體加速解決方案。從加速AI 到混合雲端和高效能運算,再到5G 無線網絡,BlueField-3 重新定義了各種可能性。

輝達的DPU主要作用是資料安全、網路安全與儲存卸載等。在輝達對DPU的佈局中也足以看到,它在數據中心這一應用領域的野心,也有人稱,輝達正“試圖利用DPU再一次複製此前GPU替代顯示加速卡成為通用顯示芯片的路徑”


英特爾推出IPU迎戰資料中心

英特爾在2021年6月新發表的IPU產品(可以被視為Intel版本的DPU),將FPGA與Xeon D系列處理器集成,成為了DPU賽道有力的競爭者。 IPU是具有強化的加速器和乙太網路連接的高階網路設備,它使用緊密耦合、專用的可程式核心加速和管理基礎架構功能。 2022 年的Vision 全球用戶大會期間,英特爾又公佈了IPU 發展藍圖,呈現近三年及未來即將問世的產品與平台。

在發展藍圖中,英特爾揭露3 款IPU 產品,分別對應ASIC、IPU 平台、SmartNIC,此外英特爾也揭露了兩條發展路線,一個是基於專屬ASIC 晶片的IPU,代號為Mount Evans;另一個則是基於FPGA 架構的兩種加速解決方案,代號為Oak Springs Canyon 的IPU 平台。

針對兩種IPU 應用特性的差異,英特爾也在此做出最新的詮釋。若是基於FPGA 架構而成的IPU,能更快供應市場需求,支援持續演化的網路標準,透過能重複進行的可程式化特性,以及安全的資料傳輸路徑,能夠彈性處理多種特定工作負載;如果是基於ASIC 架構而成的IPU,可提供最佳效能與功耗的搭配,可用於確保網路與儲存等任務領域的安全性。

發展藍圖顯示,英特爾的第二代IPU已於2022年推出,包括Mount Evans(英特爾首款ASIC IPU)和Oak Springs Canyon(英特爾第二代FPGA IPU),目前正在向谷歌及其它服務提供商出貨。第三代IPU代號為Mount Morgan和Hot Springs Canyon的400 GB IPU預計2023/2024年開始向客戶及合作夥伴出貨。下一代800GB IPU預計2025/2026年開始向客戶及合作夥伴出貨。

此外,賽靈思已經推出DPU處理器——Alveo SmartNIC產品組合。 DPU可以用作獨立的嵌入式處理器,但通常是被整合到SmartNIC。博通旗下有Stingray,Marvell則擁有OCTEON和ARMADA產品系列。

相較於CPU和GPU賽道,DPU毫無疑問是個嶄新的競技場。隨著網路流量指數上漲,DPU市場前景廣闊。在國際巨頭加緊佈局DPU業務的同時,國內晶片市場也頻傳好消息。


04 國內廠商各展所長

近年來,國家不斷推動數位經濟的快速發展。算力基礎設施是數位經濟發展的重要基礎,而算力和高效能網路已成為算力基礎設施的核心能力,尤其是在人工智慧和邊緣運算等需求的推動下,高效能網路和DPU已愈發重要。

工業及資訊化部、中央網信辦、教育部、國家衛生健康委、中國人民銀行、國務院國資委等六部門近日聯合印發《算力基礎設施高品質發展行動計畫》。該計畫具體規定了到2025年,算力基礎設施發展的主要目標、重點任務和保障措施等,並重點提出針對智慧運算、超級運算和邊緣運算等場景,進行DPU等技術升級與試點應用,實現算力中心網路高效能傳輸。這是國家層級的文件首次對未來3年的DPU發展指明了方向。

隨著DPU 產業的快速發展,國內也湧現了大批DPU 公司。


中科計算

中科等值基於自研敏捷異構KPU 晶片架構以及DPU 軟體開發平台HADOS,公司自主研發了業界首顆融合高效能網路與資料庫一體化加速功能的DPU晶片與標準加速卡系列產品,可廣泛應用於超低延遲網路、大數據處理、5G 邊緣運算、高速儲存等場景,協助算力成為數位時代的新生產力。

在DPU 產品的研發迭代方面,中科出數於2019 年流片了第一代DPU 晶片K1,第二代DPU 晶片K2 也於2022 年初成功投片,目前已開始第三代DPU 晶片K2 Pro 的研發工作。針對資料中心關鍵效能瓶頸與業務需求,中科測數也基於自研DPU晶片推出了RDMA加速卡、雲端原生網路加速卡等系列產品,支援超大規模網路算力互連,以支撐算力底座建設所必須的100G+超高頻寬和低時延,使更多的CPU/GPU算力真正服務於業務,為智算中心建設提供全套的性能更高和算力更好的解決方案。

國產化建設浪潮之下,中科下測也正全面擁抱國產化生態,並積極與國內產業鏈上下游廠商進行產品相容性認證。目前,中科確定已與國內6大CPU晶片、12家主流作業系統、9家主流資料庫廠商、8家頭部雲/雲原生廠商、17家TOP級伺服器廠商完成相容性適配。


芯啟源

芯啟源具有完全自主智慧財產權的DPU 晶片。芯啟源DPU 較傳統智慧網卡提供了更大的處理能力、更強的靈活性、可程式資料包處理、可擴展Chiplet結構等特性。採用NP-SoC 模式進行晶片設計,通用ARM 架構結合高度優化面向資料包的NP 晶片(RISC-V 核心)、多執行緒的處理模式,使其可以達到ASIC 固化晶片的資料處理能力,同時考慮到了全量可程式化、靈活可擴充的屬性,用於支援400Gbps 及以上的效能目標、低功率且具成本效益等。

芯啟源從2019年開始研發第一代FPGA智慧網卡,2020年開始推出第二代以NP-SoC架構為基礎的產品,逐步推向市場。如今,芯啟源推出了基於SoC-NP架構的DPU晶片智慧網卡,具有可編程性、可擴展性和高性能三個重要特點,已成熟量產出貨,商業落地,能夠適應於廣泛的應用場景,成為了真正意義上國內最早一批進入DPU領域的晶片公司。

據悉,芯啟源正在研發的新一代NFP-7000 DPU晶片,將對標Nvdia的BlueField-3,並以「通用型晶片+客製化軟體」的模式推動產業的網卡國產化。從設計目標來看,該款晶片的性能與功能,完全不亞於輝達的BlueField-3,同時,該晶片未來會根據不同場景需求來設定其能力範圍,這樣將大大降低晶片的成本,更符合國內晶片的多場景需求。


雲豹智能

目前雲豹智慧領先國內資料中心場景的國產DPU晶片方案。雲豹智慧DPU SoC 是國內第一顆通用可程式DPU 晶片,具備豐富的可程式化與完整的DPU 功能,支援不同雲端運算場景與資源統一管理,最佳化資料中心運算資源利用率。

雲豹DPU透過對各種高速網路、彈性儲存、安全服務及可靠運維及管控進行卸載、加速及隔離,為雲端、資料中心、人工智慧及邊緣運算等提供新一代運算平台。

目前雲豹智慧與頭部雲端運算大廠、電信業者及央企等進行深度合作,共同推動DPU產業落地。


大禹智芯

大禹智芯也擁有DPU設計研發及DPU大型商業化部署的成功經驗。大禹智芯Paratus系列DPU產品採用三條產品線並行的方式逐步向廣泛商用市場推出易用且好用的DPU產品:

Paratus 1.0作為大禹智芯DPU的第一條產品線產品,採用ARM SoC作為主處理單元,提供多個10Gbps/25Gbps的業務網絡接口,同時為了方便用戶管理,單獨設置了RJ45管理口。

Paratus 2.0作為大禹智芯DPU的第二個產品線產品,採用ARM SoC + FPGA的硬體架構,在Paratus 1.0產品基礎上,利用FPGA對可固化邏輯的資料包實現高效能轉發,提供多個10G /25G、100G的業務網路介面。

Paratus 3.0作為第三條產品線產品,將採用大禹智芯自研DPU晶片。該晶片將結合公司對DPU相關技術及未來應用場景的理解,和前兩條產品線(Paratus 1.0和Paratus 2.0)在實際場景部署中獲得的寶貴客戶回饋意見和經驗積累,形成高度整合的DPU產品。


阿里雲端CIPU

2022 年阿里雲高峰會上,阿里雲正式發表了雲端基礎架構處理器CIPU,CIPU 的前身是MoC 卡(Micro Server on a Card),MoC 卡是神龍架構的靈魂所在。 MoC 卡擁有獨立的I/O、儲存和處理單元,承擔了網路、儲存和裝置虛擬化的工作。

第一代和第二代MoC 卡解決了狹義上的運算虛擬化零開銷的問題,網路和儲存部分的虛擬化仍由軟體實現。第三代MoC 卡實現了部分網路轉送功能硬化,網路效能大幅提升。第四代MoC 卡實現了網路、儲存全硬體卸載,也支援了RDMA 能力。

除了上文列舉的幾家公司外,星雲智聯、銳文科技等多家優秀的國產廠商,均憑藉技術創新與產品定義的優勢,沿著差異化路線搶灘市場。不過,值得注意的是,目前國內DPU仍處於發展早期階段。對國內DPU企業來說,眼下最重要的事還是要先把實際產品做出來,並在應用場景中進行檢驗,畢竟DPU作為一個新興的技術領域,其產品的開發難度較高,且市場對其性能、穩定性和安全性等方面都有極高的要求。


05 DPU進入爆發期

根據賽迪顧問數據顯示,從2023年開始全球DPU市場規模將突破百億美元,並進入年增長率超50%的快車道。而中國DPU市場規模在2023年也將超300億元,呈現跳躍式成長,2025年國內市場規模將達565.9億元,五年複合成長率達170.60%。

目前,包括亞馬遜、阿里雲、華為在內的雲端運算龍頭都在發展符合自身要求的DPU產品線。

除資料中心以外,智慧駕駛、資料通訊、網路安全等也是DPU的下游應用領域。

此外,DPU與DOCA對於大模型和生成式AI而言,意義重大。根據Gartner,預計在2026 年,超過80%的企業將使用生成式AI應用程式介面(API)或模型,或在相關生產環境中部署支援生成式AI的應用程式。根據統計,這一比例在2023年還不到5%,這意味著在短短三年內,採用或創建生成式AI模型的企業數量預計將會增加16倍。

也就是說,未來3年是生成式AI爆發的窗口期,也是普及BlueField DPU和DOCA的機會期。 (半導體產業縱橫)