#SambaNova
又一大算力AI晶片發佈!比B200快3倍,剛融資24億元
英特爾CEO陳立武是其董事長。芯東西2月25日報導,2月24日,英特爾宣佈向美國AI晶片獨角獸SambaNova的超過3.5億美元,E輪戰略融資注資,具體金額未披露。同時,SambaNova推出其第五代AI晶片SN50,號稱這是“唯一一款能夠提供智能體AI所需速度和吞吐量的晶片”,最高速度達同類晶片的5倍,經多芯互連可支援的單模型參數規模達10兆、上下文長度達1000萬個token。據SambaNova披露,與Blackwell B200 GPU相比,SN50的最大速度是其5倍,智能體推理的吞吐量是其3倍以上,這在Meta的Llama 3.3 70B等一系列模型上得到充分體現。據外媒報導,在此之前,英特爾曾討論過以約16億美元收購SambaNova,但談判最終破裂。不過雙方均未回應過此事。SambaNova由多位史丹佛大學教授在2017年創立,在2021年融資後估值達到50億美元。其董事長是英特爾CEO陳立武。英特爾曾多次投資SambaNova。在最新公告中,SambaNova與英特爾宣佈達成了一項多年戰略合作計畫,旨在提供高性能、高性價比的AI推理解決方案,打造下一代異構AI資料中心,整合英特爾至強處理器、英特爾GPU、英特爾網路和儲存及SambaNova系統,以釋放數十億美元的推理市場機遇。消息公佈後,英特爾在美東時間周二股價漲超5%。01. 5倍算力、4倍網路頻寬,能支撐10兆參數大模型SN50晶片基於SambaNova的可重構資料流單元(RDU)架構,超低延遲可提供即時響應,能支援數千個並行AI會話,並通過更高的硬體利用率降低了每個token的成本。每塊晶片的算力提高到第四代SN40L的5倍,網路頻寬提高至4倍。SambaRack SN50將16塊SN50晶片組合在一起,可運行多達10兆個參數、1000萬個token的超大模型。互連的SambaRack可通過每秒數TB的互連速度連接多達256塊晶片,從而縮短首次token生成時間,並支援更大的批處理規模,因此可以部署具有更高吞吐量和響應速度的模型。SambaRack的功耗平均僅需20kW,可在現有的風冷資料中心中運行。這為運行gpt-oss等模型的推理服務提供商帶來了總擁有成本(TCO)優勢,其節能效果是B200 GPU的8倍。SN50將於2026年下半年開始發貨。軟銀集團將成為首家在日本下一代AI資料中心部署SN50的客戶。02. 基於資料流、三層記憶體架構,跑大模型時更快更高能效SambaNova團隊認為,智能體需要智能、預測性和彈性的基礎架構,要實現可行智能體,硬體必須能夠即時適應突發性工作負載,在專家模型之間無延遲切換。GPU擅長AI模型訓練,但AI推理是資料移動和記憶體最佳化方面的挑戰,需要不同的架構方法。為了執行AI推理,GPU必須多次冗餘地呼叫片外記憶體,每次記憶體呼叫都會增加處理延遲並消耗能量,會導致高功耗問題。在GPU上部署多個模型的標準方法是將模型載入到高頻寬記憶體(HBM)中,但GPU HBM資源稀缺且成本高昂。當工作負載需要一個未載入的模型時,系統必須解除安裝當前模型並獲取新模型,這個過程通常以秒為單位。即便使用vLLM的1級睡眠模式,喚醒一個小型模型也需要0.1到0.8秒。對於智能體所需的大型推理模型而言,這種喚醒時間會造成3到6秒的延遲。對於執行涉及5個不同模型的10步推理過程的AI智能體來說,這些延遲累積起來會達到30秒,導致即時智能體工作流程無法使用。SambaNova的RDU正是為解決這一問題而設計的。RDU將給定AI模型的計算圖對應到處理器上資料傳輸的最有效路徑。這種方法消除了冗餘的記憶體呼叫,可顯著降低延遲和功耗。與受限於單卡HBM容量的GPU不同,SN50 RDU採用獨特的三層記憶體架構,結合了片上SRAM、海量HBM和超高速SRAM。這種分層結構使晶片能承載最大的模型,支援在毫秒級時間內運行和切換多個模型。此外,借助SN50,輸入token可快取在記憶體中,從而減少預填充處理時間和請求的首token獲取時間(TTFT)。結合這些優勢,其記憶體架構非常適合作為智能體的快取,能夠更高效地處理任務。SambaNova還在SambaStack上推出了由RDU支援的可配置模型包,與傳統的GPU架構和vLLM等推理框架相比,這些模型包的切換速度更快。03. 與英特爾聯手,加速推出AI雲平台作為多年戰略合作的一部分,英特爾計畫對SambaNova進行戰略投資,以加速推出基於英特爾技術的AI雲平台。此次合作預計將涵蓋三個關鍵領域:(1)AI雲擴展:SambaNova正在擴展其垂直整合的AI雲平台,該平台基於英特爾至強處理器建構,並針對大語言模型和多模態模型進行了最佳化。該平台將提供低延遲、高吞吐量的AI服務,並由參考架構、部署藍圖以及與系統整合商和軟體供應商的合作關係提供支援。(2)整合AI基礎設施:將SambaNova的系統與英特爾的CPU、加速器和網路技術相結合,為推理、程式碼生成、多模態應用和智能體工作流提供可擴展的、可用於生產的推理能力。(3)市場推廣執行:通過英特爾的全球企業、雲和合作夥伴管道進行聯合銷售和聯合行銷,以加速AI生態系統的普及。據英特爾披露,此次合作是對英特爾現有資料中心GPU投入的補充,並不會改變其在AI領域的競爭戰略,英特爾將繼續加大對GPU智慧財產權、架構、產品、軟體和系統的投資,並強化其從邊緣到雲端AI戰略路線圖。04. 結語:AI推理市場迎來新組合隨著AI推理蓬勃發展,科技公司們都在尋求更高速度和效率、更低企業級AI部署成本的AI硬體基礎設施方案。許多雲端AI晶片創企都將自家產品的賣點放在了高能效上,既順應AI推理需求旺盛的趨勢,又能避開輝達強於AI訓練的鋒芒。通過合作,SambaNova可以借助英特爾的全球影響力擴大其AI處理器的規模,英特爾也增強了在AI推理領域的綜合實力。這將為日趨多元化的AI推理市場提供一個有競爭力的選擇。 (芯東西)
又一位輝達"殺手"亮相:性能是H100數倍,成本僅1/10,支援兆參數模型!
8月27日消息,在近日召開的Hot Chips 2024大會上,美國AI晶片初創公司SambaNova首次詳細介紹了其新推出的全球首款面向兆參數規模的人工智慧(AI)模型的AI晶片系統——基於可重構資料流單元 (RDU) 的 AI 晶片 SN40L。 據介紹,基於SambaNova 的 SN40L 的8晶片系統,可以為 5 兆參數模型提供支援,單個系統節點上的序列長度可達 256k+。對比英偉的H100晶片,SN40L不僅推理性能達到了H100的3.1倍,在訓練性能也達到了H100的2倍,總擁有成本更是僅有其1/10。 SambaNova SN40L基於台積電5nm製程工藝,擁有1020億個電晶體(輝達H100為800億個電晶體),1040個自研的“Cerulean”架構的RDU計算核心,整體的算力達638TFLOPS(BF16),雖然這個算力不算太高,但是關鍵在於SN40L還擁有三層資料流儲存器,包括:520MB的片上SRAM記憶體(遠高於此前Groq推出的號稱推理速度是輝達GPU的10倍、功耗僅1/10的LPU所整合的230MB SRAM),整合的64GB的HBM記憶體,1.5TB的外部大容量記憶體。這也使得其能夠支援兆參數規模的大模型的訓練和推理。 SambaNova在推出基於8個SN40L晶片系統的同時,還推出了16個晶片的系統,將可獲得8GB片內SRAM、1TB HBM和24TB外部DDR記憶體,使得片上SRAM和整合的HBM記憶體之間的頻寬高達25.5TB/s,HBM和外部DDR記憶體之間的頻寬可達1600GB/s。高頻寬將會帶來明顯的低延時的優勢,比如運行Llama 3.1 8B模型,延時低於0.01s。