8月27日消息，在近日召開的Hot Chips 2024大會上，美國AI晶片初創公司SambaNova首次詳細介紹了其新推出的全球首款面向兆參數規模的人工智慧（AI）模型的AI晶片系統——基於可重構資料流單元 (RDU) 的 AI 晶片 SN40L。

據介紹，基於SambaNova 的 SN40L 的8晶片系統，可以為 5 兆參數模型提供支援，單個系統節點上的序列長度可達 256k+。對比英偉的H100晶片，SN40L不僅推理性能達到了H100的3.1倍，在訓練性能也達到了H100的2倍，總擁有成本更是僅有其1/10。

SambaNova SN40L基於台積電5nm製程工藝，擁有1020億個電晶體（輝達H100為800億個電晶體），1040個自研的“Cerulean”架構的RDU計算核心，整體的算力達638TFLOPS（BF16），雖然這個算力不算太高，但是關鍵在於SN40L還擁有三層資料流儲存器，包括：520MB的片上SRAM記憶體（遠高於此前Groq推出的號稱推理速度是輝達GPU的10倍、功耗僅1/10的LPU所整合的230MB SRAM），整合的64GB的HBM記憶體，1.5TB的外部大容量記憶體。這也使得其能夠支援兆參數規模的大模型的訓練和推理。

SambaNova在推出基於8個SN40L晶片系統的同時，還推出了16個晶片的系統，將可獲得8GB片內SRAM、1TB HBM和24TB外部DDR記憶體，使得片上SRAM和整合的HBM記憶體之間的頻寬高達25.5TB/s，HBM和外部DDR記憶體之間的頻寬可達1600GB/s。高頻寬將會帶來明顯的低延時的優勢，比如運行Llama 3.1 8B模型，延時低於0.01s。

下圖是SambaNova SN40L的內部結構，包括：計算單元（PCU）、儲存單元（PMU）、網狀開關（S）、片外儲存器和IO（AGCU）。

SN40L 內部的計算單元（PCU）的內部架構，它具有一系列靜態階段，而不是傳統的獲取/解碼等執行單元。PCU可以作為串流媒體單元（從左到右的資料）運行，藍色是交叉車道減少樹。在矩陣計算操作中，它可以用作收縮陣列。支援BF16、FP32、INT32、INT8等資料類型。

下圖是SN40L 的高級儲存單元框架圖。這些是可程式設計管理的暫存區，而不是傳統的快取。

SN40L 的網狀網路擁有三種物理網路，包括向量網路、標量網路和控制網路。

AGCU單元用於訪問片外儲存器(HBM和DDR )，而PCU用於訪問片內SRAM暫存區。

SN40L 的關鍵核心在於其可重構資料流架構，可重構資料流架構使其能夠通過編譯器對應最佳化各個神經網路層和核心的資源分配。

下面是一個例子，說明Softmax是如何被編譯器捕獲，然後對應到硬體的。

可以看到，將它對應到大語言模型（LLM）和生成式AI的Transformer模型，下面是對應。在解碼器內部，有許多不同的操作。

下圖是解碼器放大圖。每個方框內都是一個運算子。同時，通常可以運行多個運算子，並把資料保存在晶片上以便重用。

以下是SambaNova對運算子如何在GPU上融合的猜測，不過他們也指出這可能不精準。

在RDU中，整個解碼器是一個核心呼叫。編譯器負責這種對應。

回到Transformer的結構，下圖展示瞭解碼器的不同功能。可以看到，每個函數呼叫都有啟動開銷。

不是32個呼叫，而是寫成一個呼叫。

換句話說，這意味著呼叫開銷減少了，因為只有一個呼叫，而不是多個呼叫。結果，增加了晶片對資料做有用工作的時間。

SambaNova 首席執行官兼創始人 Rodrigo Liang 表示：“借助資料流，你可以不斷改進這些模型的對應，因為它是完全可重構的。因此，隨著軟體的改進，你獲得的收益不是增量的，而是相當可觀的，無論是在效率方面還是在性能方面。”

下面是SambaNova的16個SN40L晶片系統在Llama3.1 405B/70B/7B上的表現，在Llama 3.1 7B模型下，以完全的16bit精度運行，其每秒的Token生成數竟然高達1100個。這比此前Groq推出的基於LPU（號稱推理速度是輝達GPU的10倍，功耗僅1/10）的伺服器系統在Llama 3 8B上的最快基準測試結果每秒生成800個Token還要快。即使是在Llama3.1 405B模型上，以完全的16bit精度運行，16個SN40L晶片的系統每秒Token生成數也能夠高達114個。而在Llama 3.1 7B模型下，其每秒的Token生成數更是高達1100個。由於記憶體容量限制，與其最接近的競爭對手需要數百塊晶片來運行每個模型的單個實例，因為 GPU 提供的總吞吐量和記憶體容量相對較低。

SN40L在Llama 3.1 70B模型上進行批次推理和吞吐量縮放表現，隨著批次大小的變化，吞吐量接近理想規模。

據SambaNova 介紹，基於8個SN40L晶片的標準AI伺服器系統在運行80億參數的AI大模型時，速度達到了基於8張輝達H100加速卡的DGX H100系統的3.7倍（每生成20個Token所耗費的時間），而整個系統所佔用的空間也只有DGX H100的1/19，模型切換時間也僅有DGX H100系統的1/15。

在晶片推理性能方面，SN40L達到了輝達H100的3.1倍；在訓練性能方面，SN40L也達到了輝達H100的2倍。

總結來說，SambaNova 可以在8個SN40L晶片的系統上運行數百個大模型（在16個SN40L晶片的系統上可以同時運行多達 1000 個 Llama 3 7B大模型），同時還能夠保持很快的響應速度，擁有完全精度。更為關鍵的是，其總擁有成本比競爭對手低 10 倍（雖然未明確是那款競品晶片，但從前面的對比來看，應該說的是H100）。

“SN40L的速度展現了Dataflow的魅力，它加速了 SN40L 晶片上的資料移動，最大限度地減少了延遲，並最大限度地提高了處理吞吐量。它比 GPU 更勝一籌——結果就是即時 AI，”SambaNova Systems 聯合創始人、斯坦福大學知名電腦科學家 Kunle Olukotun 表示。

值得一提的是，在基於SN40L晶片的系統之上，SambaNova 還建構了自己的軟體堆疊，其中包括今年2月28日首次發佈的擁有1兆參數的Samba-1 模型，也稱為 Samba-CoE（專家組合），其使得企業能夠組合使用多個模型，也可以單獨使用，並根據公司資料對模型進行微調和訓練。

在芯智訊看來，SN40L相比目前的一些AI晶片來說，擁有著顯著的優勢，比如其可重構的資料流架構，可以調整硬體來滿足各類工作負載要求，使得其可以很好的處理圖像、視訊及文字等不同的資料類型，適合多模態AI應用。但是，相對於輝達的GPU可以靈活的處理各種模型來說，SN40L在靈活性上還是要略遜一籌，因為相關模型必須要經過專門的調整才能在其上面運行。而且，輝達強大的CUDA生態對於其來說也是一大挑戰。

不過，在AI模型參數越來越大，所需的晶片數量和資金成本越來越高的背景之下，SN40L在性能和成本上的優勢，以及可以輕鬆實現對於兆參數大模型的支援，因此也有著與輝達直接競爭的機會。或許正因為如此，SambaNova也獲得了資本的青睞，目前已經累計獲得了超過10億美元的融資。   (芯智訊)

彙整鉅亨號中所有使用「SN40L」關鍵字，所發布的內容 (依照時間排序，最新在前，舊的在後)`