#SN40L
又一位輝達"殺手"亮相:性能是H100數倍,成本僅1/10,支援兆參數模型!
8月27日消息,在近日召開的Hot Chips 2024大會上,美國AI晶片初創公司SambaNova首次詳細介紹了其新推出的全球首款面向兆參數規模的人工智慧(AI)模型的AI晶片系統——基於可重構資料流單元 (RDU) 的 AI 晶片 SN40L。 據介紹,基於SambaNova 的 SN40L 的8晶片系統,可以為 5 兆參數模型提供支援,單個系統節點上的序列長度可達 256k+。對比英偉的H100晶片,SN40L不僅推理性能達到了H100的3.1倍,在訓練性能也達到了H100的2倍,總擁有成本更是僅有其1/10。 SambaNova SN40L基於台積電5nm製程工藝,擁有1020億個電晶體(輝達H100為800億個電晶體),1040個自研的“Cerulean”架構的RDU計算核心,整體的算力達638TFLOPS(BF16),雖然這個算力不算太高,但是關鍵在於SN40L還擁有三層資料流儲存器,包括:520MB的片上SRAM記憶體(遠高於此前Groq推出的號稱推理速度是輝達GPU的10倍、功耗僅1/10的LPU所整合的230MB SRAM),整合的64GB的HBM記憶體,1.5TB的外部大容量記憶體。這也使得其能夠支援兆參數規模的大模型的訓練和推理。 SambaNova在推出基於8個SN40L晶片系統的同時,還推出了16個晶片的系統,將可獲得8GB片內SRAM、1TB HBM和24TB外部DDR記憶體,使得片上SRAM和整合的HBM記憶體之間的頻寬高達25.5TB/s,HBM和外部DDR記憶體之間的頻寬可達1600GB/s。高頻寬將會帶來明顯的低延時的優勢,比如運行Llama 3.1 8B模型,延時低於0.01s。