又一大算力AI晶片發佈!比B200快3倍,剛融資24億元

英特爾CEO陳立武是其董事長。

芯東西2月25日報導,2月24日,英特爾宣佈向美國AI晶片獨角獸SambaNova的超過3.5億美元,E輪戰略融資注資,具體金額未披露。

同時,SambaNova推出其第五代AI晶片SN50,號稱這是“唯一一款能夠提供智能體AI所需速度和吞吐量的晶片”,最高速度達同類晶片的5倍,經多芯互連可支援的單模型參數規模達10兆、上下文長度達1000萬個token

據SambaNova披露,與Blackwell B200 GPU相比,SN50的最大速度是其5倍,智能體推理的吞吐量是其3倍以上,這在Meta的Llama 3.3 70B等一系列模型上得到充分體現。

據外媒報導,在此之前,英特爾曾討論過以約16億美元收購SambaNova,但談判最終破裂。不過雙方均未回應過此事。

SambaNova由多位史丹佛大學教授在2017年創立,在2021年融資後估值達到50億美元。其董事長是英特爾CEO陳立武。英特爾曾多次投資SambaNova。

在最新公告中,SambaNova與英特爾宣佈達成了一項多年戰略合作計畫,旨在提供高性能、高性價比的AI推理解決方案,打造下一代異構AI資料中心,整合英特爾至強處理器、英特爾GPU、英特爾網路和儲存及SambaNova系統,以釋放數十億美元的推理市場機遇。

消息公佈後,英特爾在美東時間周二股價漲超5%。

01. 5倍算力、4倍網路頻寬,能支撐10兆參數大模型

SN50晶片基於SambaNova的可重構資料流單元(RDU)架構,超低延遲可提供即時響應,能支援數千個並行AI會話,並通過更高的硬體利用率降低了每個token的成本。

每塊晶片的算力提高到第四代SN40L的5倍,網路頻寬提高至4倍

SambaRack SN50將16塊SN50晶片組合在一起,可運行多達10兆個參數1000萬個token的超大模型。

互連的SambaRack可通過每秒數TB的互連速度連接多達256塊晶片,從而縮短首次token生成時間,並支援更大的批處理規模,因此可以部署具有更高吞吐量和響應速度的模型。

SambaRack的功耗平均僅需20kW,可在現有的風冷資料中心中運行。這為運行gpt-oss等模型的推理服務提供商帶來了總擁有成本(TCO)優勢,其節能效果是B200 GPU的8倍

SN50將於2026年下半年開始發貨。軟銀集團將成為首家在日本下一代AI資料中心部署SN50的客戶。

02. 基於資料流、三層記憶體架構,跑大模型時更快更高能效

SambaNova團隊認為,智能體需要智能、預測性和彈性的基礎架構,要實現可行智能體,硬體必須能夠即時適應突發性工作負載,在專家模型之間無延遲切換。

GPU擅長AI模型訓練,但AI推理是資料移動和記憶體最佳化方面的挑戰,需要不同的架構方法。

為了執行AI推理,GPU必須多次冗餘地呼叫片外記憶體,每次記憶體呼叫都會增加處理延遲並消耗能量,會導致高功耗問題。

在GPU上部署多個模型的標準方法是將模型載入到高頻寬記憶體(HBM)中,但GPU HBM資源稀缺且成本高昂。

當工作負載需要一個未載入的模型時,系統必須解除安裝當前模型並獲取新模型,這個過程通常以秒為單位。即便使用vLLM的1級睡眠模式,喚醒一個小型模型也需要0.1到0.8秒。

對於智能體所需的大型推理模型而言,這種喚醒時間會造成3到6秒的延遲。對於執行涉及5個不同模型的10步推理過程的AI智能體來說,這些延遲累積起來會達到30秒,導致即時智能體工作流程無法使用。

SambaNova的RDU正是為解決這一問題而設計的。

RDU將給定AI模型的計算圖對應到處理器上資料傳輸的最有效路徑。這種方法消除了冗餘的記憶體呼叫,可顯著降低延遲和功耗。

與受限於單卡HBM容量的GPU不同,SN50 RDU採用獨特的三層記憶體架構,結合了片上SRAM、海量HBM和超高速SRAM

這種分層結構使晶片能承載最大的模型,支援在毫秒級時間內運行和切換多個模型。

此外,借助SN50,輸入token可快取在記憶體中,從而減少預填充處理時間和請求的首token獲取時間(TTFT)。

結合這些優勢,其記憶體架構非常適合作為智能體的快取,能夠更高效地處理任務。

SambaNova還在SambaStack上推出了由RDU支援的可配置模型包,與傳統的GPU架構和vLLM等推理框架相比,這些模型包的切換速度更快。

03. 與英特爾聯手,加速推出AI雲平台

作為多年戰略合作的一部分,英特爾計畫對SambaNova進行戰略投資,以加速推出基於英特爾技術的AI雲平台。

此次合作預計將涵蓋三個關鍵領域:

(1)AI雲擴展:SambaNova正在擴展其垂直整合的AI雲平台,該平台基於英特爾至強處理器建構,並針對大語言模型和多模態模型進行了最佳化。該平台將提供低延遲、高吞吐量的AI服務,並由參考架構、部署藍圖以及與系統整合商和軟體供應商的合作關係提供支援。

(2)整合AI基礎設施:將SambaNova的系統與英特爾的CPU、加速器和網路技術相結合,為推理、程式碼生成、多模態應用和智能體工作流提供可擴展的、可用於生產的推理能力。

(3)市場推廣執行:通過英特爾的全球企業、雲和合作夥伴管道進行聯合銷售和聯合行銷,以加速AI生態系統的普及。

據英特爾披露,此次合作是對英特爾現有資料中心GPU投入的補充,並不會改變其在AI領域的競爭戰略,英特爾將繼續加大對GPU智慧財產權、架構、產品、軟體和系統的投資,並強化其從邊緣到雲端AI戰略路線圖。

04. 結語:AI推理市場迎來新組合

隨著AI推理蓬勃發展,科技公司們都在尋求更高速度和效率、更低企業級AI部署成本的AI硬體基礎設施方案。

許多雲端AI晶片創企都將自家產品的賣點放在了高能效上,既順應AI推理需求旺盛的趨勢,又能避開輝達強於AI訓練的鋒芒。

通過合作,SambaNova可以借助英特爾的全球影響力擴大其AI處理器的規模,英特爾也增強了在AI推理領域的綜合實力。這將為日趨多元化的AI推理市場提供一個有競爭力的選擇。 (芯東西)