#SambaNova | 熱門關鍵字 | 鉅亨號

Intel公司股價一年時間漲了五倍還多，主要原因就是AI時代CPU的地位更加重要了，要跟GPU提升到1：1配比，不再是之前4到8個GPU才需要1個CPU的配角了。與此同時，AI時代的CPU也需要改變，Intel CEO陳立武日前在摩根大通的全球會議上也談到這方面的動向，指出CPU架構需要進行更多的架構變革，轉向專門建構的矽晶片。他還提到了一些比較具體的變化，加速器方面跟SambaNova合作實現，同時內部也有自己的AI計畫，要做到在某些領域跨越式發展從而帶來性能上的優勢。陳立武還提到在某些領域Intel已經落後了，再去追趕一些新事物就沒意義了，他認為要進入競爭不那麼激烈的領域，並且在性能、功耗、軟體等方面實現差異化。

2026/02/25

•

又一大算力AI晶片發佈！比B200快3倍，剛融資24億元

英特爾CEO陳立武是其董事長。芯東西2月25日報導，2月24日，英特爾宣佈向美國AI晶片獨角獸SambaNova的超過3.5億美元，E輪戰略融資注資，具體金額未披露。同時，SambaNova推出其第五代AI晶片SN50，號稱這是“唯一一款能夠提供智能體AI所需速度和吞吐量的晶片”，最高速度達同類晶片的5倍，經多芯互連可支援的單模型參數規模達10兆、上下文長度達1000萬個token。據SambaNova披露，與Blackwell B200 GPU相比，SN50的最大速度是其5倍，智能體推理的吞吐量是其3倍以上，這在Meta的Llama 3.3 70B等一系列模型上得到充分體現。據外媒報導，在此之前，英特爾曾討論過以約16億美元收購SambaNova，但談判最終破裂。不過雙方均未回應過此事。SambaNova由多位史丹佛大學教授在2017年創立，在2021年融資後估值達到50億美元。其董事長是英特爾CEO陳立武。英特爾曾多次投資SambaNova。在最新公告中，SambaNova與英特爾宣佈達成了一項多年戰略合作計畫，旨在提供高性能、高性價比的AI推理解決方案，打造下一代異構AI資料中心，整合英特爾至強處理器、英特爾GPU、英特爾網路和儲存及SambaNova系統，以釋放數十億美元的推理市場機遇。消息公佈後，英特爾在美東時間周二股價漲超5%。01. 5倍算力、4倍網路頻寬，能支撐10兆參數大模型SN50晶片基於SambaNova的可重構資料流單元（RDU）架構，超低延遲可提供即時響應，能支援數千個並行AI會話，並通過更高的硬體利用率降低了每個token的成本。每塊晶片的算力提高到第四代SN40L的5倍，網路頻寬提高至4倍。SambaRack SN50將16塊SN50晶片組合在一起，可運行多達10兆個參數、1000萬個token的超大模型。互連的SambaRack可通過每秒數TB的互連速度連接多達256塊晶片，從而縮短首次token生成時間，並支援更大的批處理規模，因此可以部署具有更高吞吐量和響應速度的模型。SambaRack的功耗平均僅需20kW，可在現有的風冷資料中心中運行。這為運行gpt-oss等模型的推理服務提供商帶來了總擁有成本（TCO）優勢，其節能效果是B200 GPU的8倍。SN50將於2026年下半年開始發貨。軟銀集團將成為首家在日本下一代AI資料中心部署SN50的客戶。02. 基於資料流、三層記憶體架構，跑大模型時更快更高能效SambaNova團隊認為，智能體需要智能、預測性和彈性的基礎架構，要實現可行智能體，硬體必須能夠即時適應突發性工作負載，在專家模型之間無延遲切換。GPU擅長AI模型訓練，但AI推理是資料移動和記憶體最佳化方面的挑戰，需要不同的架構方法。為了執行AI推理，GPU必須多次冗餘地呼叫片外記憶體，每次記憶體呼叫都會增加處理延遲並消耗能量，會導致高功耗問題。在GPU上部署多個模型的標準方法是將模型載入到高頻寬記憶體（HBM）中，但GPU HBM資源稀缺且成本高昂。當工作負載需要一個未載入的模型時，系統必須解除安裝當前模型並獲取新模型，這個過程通常以秒為單位。即便使用vLLM的1級睡眠模式，喚醒一個小型模型也需要0.1到0.8秒。對於智能體所需的大型推理模型而言，這種喚醒時間會造成3到6秒的延遲。對於執行涉及5個不同模型的10步推理過程的AI智能體來說，這些延遲累積起來會達到30秒，導致即時智能體工作流程無法使用。SambaNova的RDU正是為解決這一問題而設計的。RDU將給定AI模型的計算圖對應到處理器上資料傳輸的最有效路徑。這種方法消除了冗餘的記憶體呼叫，可顯著降低延遲和功耗。與受限於單卡HBM容量的GPU不同，SN50 RDU採用獨特的三層記憶體架構，結合了片上SRAM、海量HBM和超高速SRAM。這種分層結構使晶片能承載最大的模型，支援在毫秒級時間內運行和切換多個模型。此外，借助SN50，輸入token可快取在記憶體中，從而減少預填充處理時間和請求的首token獲取時間（TTFT）。結合這些優勢，其記憶體架構非常適合作為智能體的快取，能夠更高效地處理任務。SambaNova還在SambaStack上推出了由RDU支援的可配置模型包，與傳統的GPU架構和vLLM等推理框架相比，這些模型包的切換速度更快。03. 與英特爾聯手，加速推出AI雲平台作為多年戰略合作的一部分，英特爾計畫對SambaNova進行戰略投資，以加速推出基於英特爾技術的AI雲平台。此次合作預計將涵蓋三個關鍵領域：（1）AI雲擴展：SambaNova正在擴展其垂直整合的AI雲平台，該平台基於英特爾至強處理器建構，並針對大語言模型和多模態模型進行了最佳化。該平台將提供低延遲、高吞吐量的AI服務，並由參考架構、部署藍圖以及與系統整合商和軟體供應商的合作關係提供支援。（2）整合AI基礎設施：將SambaNova的系統與英特爾的CPU、加速器和網路技術相結合，為推理、程式碼生成、多模態應用和智能體工作流提供可擴展的、可用於生產的推理能力。（3）市場推廣執行：通過英特爾的全球企業、雲和合作夥伴管道進行聯合銷售和聯合行銷，以加速AI生態系統的普及。據英特爾披露，此次合作是對英特爾現有資料中心GPU投入的補充，並不會改變其在AI領域的競爭戰略，英特爾將繼續加大對GPU智慧財產權、架構、產品、軟體和系統的投資，並強化其從邊緣到雲端AI戰略路線圖。04. 結語：AI推理市場迎來新組合隨著AI推理蓬勃發展，科技公司們都在尋求更高速度和效率、更低企業級AI部署成本的AI硬體基礎設施方案。許多雲端AI晶片創企都將自家產品的賣點放在了高能效上，既順應AI推理需求旺盛的趨勢，又能避開輝達強於AI訓練的鋒芒。通過合作，SambaNova可以借助英特爾的全球影響力擴大其AI處理器的規模，英特爾也增強了在AI推理領域的綜合實力。這將為日趨多元化的AI推理市場提供一個有競爭力的選擇。 (芯東西)

2024/08/28

•

又一位輝達"殺手"亮相：性能是H100數倍，成本僅1/10，支援兆參數模型！

8月27日消息，在近日召開的Hot Chips 2024大會上，美國AI晶片初創公司SambaNova首次詳細介紹了其新推出的全球首款面向兆參數規模的人工智慧（AI）模型的AI晶片系統——基於可重構資料流單元 (RDU) 的 AI 晶片 SN40L。據介紹，基於SambaNova 的 SN40L 的8晶片系統，可以為 5 兆參數模型提供支援，單個系統節點上的序列長度可達 256k+。對比英偉的H100晶片，SN40L不僅推理性能達到了H100的3.1倍，在訓練性能也達到了H100的2倍，總擁有成本更是僅有其1/10。 SambaNova SN40L基於台積電5nm製程工藝，擁有1020億個電晶體（輝達H100為800億個電晶體），1040個自研的“Cerulean”架構的RDU計算核心，整體的算力達638TFLOPS（BF16），雖然這個算力不算太高，但是關鍵在於SN40L還擁有三層資料流儲存器，包括：520MB的片上SRAM記憶體（遠高於此前Groq推出的號稱推理速度是輝達GPU的10倍、功耗僅1/10的LPU所整合的230MB SRAM），整合的64GB的HBM記憶體，1.5TB的外部大容量記憶體。這也使得其能夠支援兆參數規模的大模型的訓練和推理。 SambaNova在推出基於8個SN40L晶片系統的同時，還推出了16個晶片的系統，將可獲得8GB片內SRAM、1TB HBM和24TB外部DDR記憶體，使得片上SRAM和整合的HBM記憶體之間的頻寬高達25.5TB/s，HBM和外部DDR記憶體之間的頻寬可達1600GB/s。高頻寬將會帶來明顯的低延時的優勢，比如運行Llama 3.1 8B模型，延時低於0.01s。