對於AI大模型訓練來說,大量平行資料處理要求大算力和高頻寬,算力決定了每秒處理資料的速度越快,而頻寬決定了每秒可訪問的資料,GPU負責提供算力,而儲存器負責提供頻寬。
如今的局面是,大家可以不用輝達的GPU,但絕對離不開海力士、三星或美光的HBM,輝達雖然有CUDA這條護城河,但也不能完全阻止使用者遷移向其他廠商,但HBM就不同了,不論是AMD還是英特爾,還是其他定製晶片,上面無一例外都嵌著密密麻麻的HBM。
但HBM並不是普通DRAM,它的價格早已到了一個令人咋舌的地步,在相同密度的情況下,HBM 的價格大約是DDR5的5倍,據瞭解,目前HBM成本在AI伺服器成本中佔比排名第三,約佔9%,單機平均售價高達18000美元。
即便是如此昂貴的HBM,依舊處於供不應求的狀態,還在不斷漲價。TrendForce在今年5月表示,2025年HBM定價談判已於2Q24開啟,但由於DRAM整體產能有限,供應商已初步漲價5~10%以管理產能限制,影響範圍涵蓋HBM2e、HBM3與HBM3e。
其指出,從各大AI方案商來看,HBM規格需求將明顯朝HBM3e轉移,12Hi堆疊產品預期將會增加,將帶動單顆晶片HBM容量提升,預估2024年HBM需求年增率將逼近200%,2025年則有望再翻一番。
掏的起錢的巨頭會繼續加價買更大容量的HBM,但對於中小型廠商來說,昂貴的HBM已經成為了它們踏上大模型之路後的最大阻礙。
誰會給昂貴的AI記憶體解圍呢?
“硅仙人”吉姆·凱勒(Jim Keller)曾不止一次批評了目前AI晶片的昂貴價格。
吉姆·凱勒是誰?他的職業生涯橫跨 DEC、AMD、SiByte、Broadcom、PA Semi、Apple、Tesla、Intel,從AMD的K8架構,到蘋果的A4和A5處理器,再到AMD的Zen架構,最後是特斯拉的FSD自動駕駛晶片,背後都有著這位大神的身影。
而在2021年,他離開了英特爾,加入了位於加拿大多倫多的AI晶片初創公司Tenstorrent,擔任這家公司的CTO,負責開發下一代AI晶片。
凱勒一直致力於解決人工智慧硬體成本高昂的問題,將其視為 Tenstorrent 等初創公司挑戰 輝達等巨頭的切入點。他曾提出,輝達在開發 Blackwell GPU 時,如果使用乙太網路互連技術,本可以節省 10 億美元。
“有很多市場沒有得到輝達的良好服務,”凱勒在接受日經亞洲採訪時表示,隨著 AI 在智慧型手機、電動汽車和雲服務中的應用不斷擴大,越來越多的公司在尋找更便宜的解決方案,他提到,“有很多小公司不願意支付 20000 美元購買市場上被認為是最佳選擇的輝達高端GPU。”
Tenstorrent正準備在今年年底出售其第二代多功能 AI 晶片。該公司表示,在某些領域,其能效和處理效率優於輝達的 AI GPU。據 Tenstorrent 稱,其 Galaxy 系統的效率是輝達AI 伺服器 DGX 的三倍,且成本降低了 33%。
凱勒表示,這一成就的原因之一是公司不使用高頻寬記憶體(HBM),這種先進的記憶體晶片能夠快速傳輸大量資料。HBM 是生成型 AI 晶片的重要元件,在輝達產品的成功中發揮了重要作用。
然而,HBM 也是 AI 晶片高能耗和高價格的罪魁禍首之一。“即使是使用 HBM 的人也在與其成本和設計時間作鬥爭,”凱勒說道,因此,他做出了不使用這項技術的技術決策。
在典型的 AI 晶片組中,GPU 每次執行過程時都會將資料傳送到記憶體。這需要 HBM 的高速資料傳輸能力。然而,Tenstorrent 特別設計了其晶片,大幅減少此類傳輸。凱勒表示,通過這種新方法,公司設計的晶片在某些 AI 開發領域可以替代 GPU 和 HBM。
他還表示,公司正在儘可能地設計其產品以實現“成本效益”。他補充說,許多其他公司也在尋找更好的記憶體解決方案,但他謹慎地承認,顛覆現有的龐大 HBM 產業需要數年時間。
凱勒預測,將會有更多新玩家出現,填補輝達未能服務的各種 AI 市場,而不是由某一家公司取代輝達。
值得一提的是,Tenstorrent首席CPU架構師此前也分享了類似的觀點,他強調該公司更務實、更經濟的精神使其系統設計比Nvidia更具成本效益,計算能力更強。
他表示:"客戶不需要支付保時捷或法拉利的價格來運行他們的生成式人工智慧模型,他們只需要性價比最高、運行速度最快的汽車。" Lien 預計,目前硬體價格昂貴的趨勢將逐漸消退,市場最終將趨於穩定。
對於吉姆·凱勒來說,過於昂貴的HBM似乎已經阻礙到了AI的發展,儘管大公司有雄厚的財力來承擔這一切,但小公司早就難以為繼,而他負責的Tenstorrent晶片,就是為瞭解決這一問題而來的。
2020年5月,Tenstorrent 推出了自己首款產品—— Grayskull,這是一款基於 GF 12nm 工藝,約 620 平方毫米的處理器,最初設計為推理加速器和主機。它包含 120 個定製核心,採用 2D 雙向網格結構,提供 368 TeraOPs 的 8 位計算能力,功耗僅為 65 瓦。每個定製核心都配備了資料控制的包管理引擎、包含 Tenstorrent 自訂 TENSIX 核心的包計算引擎,以及用於非標準操作(如條件語句)的五個 RISC 核心。該晶片側重於稀疏張量運算,將矩陣運算最佳化為壓縮封包,通過圖形編譯器和封包管理器實現計算步驟的流水線平行化。這也實現了動態圖形執行,與其他一些人工智慧晶片模型相比,它允許計算和資料非同步傳輸,而不是特定的計算/傳輸時間域。
今年3月,Tenstorrent開始銷售基於Grayskull的兩款開發板。Tenstorrent表示,Grayskull e75 和 e150是 Tenstorrent 的基礎、僅用於推理的 AI 圖形處理器,每個都採用 Tensix Cores 建構,包括一個計算單元、片上網路、本地快取和“小型 RISC-V”核心,從而在晶片中實現獨特高效的資料移動,專為尋求經濟高效、可定製的傳統 GPU 替代方案的冒險型 ML 開發人員而設計。
其中Grayskull e75是一款75瓦的PCIe Gen 4卡,售價為600美元,其擁有一顆1GHz的NPU晶片,整合了96顆Tensix核心和96MB的SRAM,該板還包含8GB的標準LPDDR4 DRAM,而Grayskull e150將時脈頻率提高到1.2GHz,核心數量增加到120個,片上記憶體相應增加到120MB,但片外DRAM仍為8GB的LPDDR4,其功耗提升至200瓦,售價800美元,
據瞭解,Tenstorrent Grayskull架構不同於其他資料中心AI加速器(GPU/NPU),排列的Tensix核心包含多個CPU,供計算單元使用,後者包括向量和矩陣引擎。這種結構化的顆粒方法可以增加數學單元的利用率,從而提高每瓦性能。每個Tensix核心還具有1MB的SRAM,提供了充足的片上記憶體總量,與其他大記憶體的NPU不同,Grayskull可以連接到外部記憶體。
當然最重要的還是,Grayskull使用標準DRAM而不是昂貴的HBM,僅這一項,就省去了一大半成本,這也符合吉姆·凱勒所提到的追求成本效益的目標。
軟體是NPU和其他處理器挑戰者的一個薄弱環節,也是Grayskull與競爭對手相比的一個強項。Tenstorrent為此提供兩種軟體流程:TT-Buda基於標準AI框架(如PyTorch和TensorFlow)將模型對應到Tenstorrent硬體上,而TT-Metalium則為開發人員提供直接的硬體訪問,並允許他們建立用於更高級框架的庫。在Grayskull架構的支援下,Metalium因提供類似電腦的程式設計模型而脫穎而出,並可能吸引擁有低級程式設計資源的客戶。
此外,從一開始,Tenstorrent就將功耗效率作為一個差異化因素,e75相對較低的75瓦,符合標準PCIe和OCP功率範圍,像這樣的設計可能是一個很好的伺服器附加板,用於推理領域。除了Grayskull晶片和板卡外,Tenstorrent還開始授權其高性能RISC-V CPU和Tensix核心,並與合作夥伴共同開發Chiplets。
當然,這只是一個開始,在吉姆·凱勒加盟後,Tenstorrent的野心開始變得更大。
今年7月,Tenstorrent推出了新一代Wormhole處理器,專為AI工作負載設計,承諾以低價提供不錯的性能。該公司目前提供兩種附加的PCIe卡,分別搭載一個或兩個Wormhole處理器,還有TT-LoudBox和TT-QuietBox工作站,專為軟體開發人員設計。此次發佈主要面向開發人員,而非那些將Wormhole板用於商業工作負載的使用者。
Tenstorrent首席執行官吉姆·凱勒表示:“讓更多產品進入開發者手中總是令人感到滿意的。發佈搭載Wormhole卡的開發系統有助於開發人員進行多晶片AI軟體的擴展和開發工作。除了此次發佈之外,我們也很高興第二代產品Blackhole的流片和啟動進展順利。”
每個Wormhole處理器配備72個Tensix核心(包含五個支援各種資料格式的RISC-V核心),擁有108MB的SRAM,以1GHz頻率提供262 FP8 TFLOPS的性能,功耗為160W。單晶片Wormhole n150卡配備12GB的GDDR6記憶體,頻寬為288GB/s。
Wormhole處理器提供靈活的可擴展性,以滿足各種工作負載的需求。在標準工作站設定中,四張Wormhole n300卡可以合併為一個單元,在軟體中顯示為一個統一的、廣泛的Tensix核心網路。該組態允許加速器處理相同的工作負載、分配給四個開發人員或同時運行多達八個不同的AI模型。這種可擴展性的一個關鍵特徵是它可以原生運行,無需虛擬化。在資料中心環境中,Wormhole處理器可以通過PCIe在一台機器內部擴展,也可以通過乙太網路在多台機器之間擴展。
從性能角度來看,Tenstorrent的單晶片Wormhole n150卡(72個Tensix核心,1GHz,108MB SRAM,12GB GDDR6,頻寬為288GB/s)在160W功耗下提供262 FP8 TFLOPS,而雙晶片Wormhole n300板(128個Tensix核心,1GHz,192MB SRAM,24GB GDDR6,頻寬為576GB/s)在300W功耗下可提供高達466 FP8 TFLOPS(根據Tom's Hardware的資料)。
與輝達的產品相比,輝達的A100不支援FP8,但支援INT8,峰值性能為624 TOPS(稀疏時為1,248 TOPS),而輝達的H100支援FP8,峰值性能高達1,670 TFLOPS(稀疏時為3,341 TFLOPS),這與Tenstorrent的Wormhole n300相比有很大差距。
不過價格又彌補了性能上的不足,Tenstorrent的Wormhole n150售價為999美元,而n300售價為1,399美元。相比之下,一張輝達H100卡的售價可能高達30,000美元。
除了板卡外,Tenstorrent還為開發者提供預裝四張n300卡的工作站,包括價格較低的基於Xeon的TT-LoudBox和高端的基於EPYC的TT-QuietBox。
不論是Grayskull還是Wormhole,都只是Tenstorrent路線圖裡的第一步,真正的重頭戲還在後面。
根據Tenstorrent披露的路線圖,第二代架構Blackhole 晶片有 140 個 Tensix 核心,以及更多的 DRAM 和更快的乙太網路,同時具備16 個 RISC-V 核心,獨立於 Tensix 核心,可以脫離x86 CPU來運行作業系統,其已在台積電 N6 上流片並進展順利。
而Tenstorrent 的第三代架構將基於晶片組,並將遷移到三星 SF4,其包括Quasar 和 Grendel ,將採用更新的 Tensix 核心,目的是將四個 Tensix 核心與共享的 L2 聚集在一起,以便更好地重用記憶體中已有的權重,它們預計將於 2025 年推出。
當然,路線圖中後續的三款晶片,都沒有採用HBM,而是選擇了GDDR6,Tenstorrent和吉姆·凱勒都有一個目標,那就是打破HBM這個昂貴的神話。
Tenstorrent並不是唯一一個想要用其他記憶體替代HBM的公司。
2024年2月,GoogleTPU第一代設計者Jonathan Ross所創立的Groq公司正式宣佈,其新一代LPU在多個公開測試中,以幾乎最低的價格,相比GPU推理速度翻倍,後續有三方測試結果表明,該晶片對大語言模型推理進行最佳化效果顯著,速度相較於輝達GPU提高了10倍。
根據知情人士透露,LPU的工作原理與GPU截然不同。它採用了時序指令集電腦(Temporal Instruction Set Computer)架構,這意味著它無需像使用高頻寬儲存器(HBM)的GPU那樣頻繁地從記憶體中載入資料。Groq選擇了SRAM,其速度比GPU所用的儲存器快約20倍,這一特點不僅有助於避免HBM短缺的問題,還能有效降低成本。
有從事人工智慧開發的使用者稱讚,Groq是追求低延遲產品的“遊戲規則改變者”,低延遲指的是從處理請求到獲得響應所需的時間。另一位使用者則表示,Groq的LPU在未來有望對GPU在人工智慧應用需求方面實現“革命性提升”,並認為它可能成為輝達A100和H100晶片的“高性能硬體”的有力替代品。
但Groq並非沒有缺點,其選擇SRAM的主要理由,是因為它只負責推理、不訓練,而推理所需要的儲存空間比訓練要小得多,所以Groq的單板卡只有230MB的記憶體,雖然SRAM確實要比DRAM快,但其價格很貴,容量較小,LPU乃至其他計算晶片,大量使用SRAM時需要有所權衡。
2012 年在加利福尼亞州聖何塞創立的NEO Semiconductor則是提出了自己的HBM替代方案,近日,該公司宣佈,自己開發出了帶有附加神經元電路的三維 DRAM,通過避免從高頻寬記憶體到 GPU 的資料傳輸,可以加速 AI 處理。
據瞭解,Neo 的3D DRAM 技術是其 3D X-AI 300 層、128 Gbit DRAM 晶片的基礎,每個晶片有 8,000 個神經元和 10 TBps 的 AI 處理能力。3D X-AI 晶片的容量和性能可以擴展 12 倍,最多可堆疊 12 個 3D X-AI 晶片,就像高頻寬記憶體 (HBM) 一樣,提供 192 GB (1,536 Gb) 的容量和 120 TBps 的處理吞吐量。
NEO Semiconductor 創始人兼首席執行官 Andy Hsu 在一份聲明中表示:“典型的 AI 晶片使用基於處理器的神經網路。這涉及結合高頻寬記憶體來模擬突觸以儲存權重資料,以及圖形處理單元 (GPU) 來模擬神經元以執行數學計算。性能受到 HBM 和 GPU 之間資料傳輸的限制,來回的資料傳輸會降低 AI 晶片的性能並增加功耗。”
3D X-AI 模擬人工神經網路 (ANN),包括用於儲存重量資料的突觸和用於處理資料的神經元,Neo 表示這使其非常適合加速下一代 AI 晶片和應用,Hsu 補充道:“帶有 3D X-AI 的 AI 晶片使用基於記憶體的神經網路。這些晶片具有神經網路功能,每個 3D X-AI 晶片中都有突觸和神經元。它們用於大幅減少執行 AI 操作時 GPU 和 HBM 之間資料傳輸的繁重工作量。我們的發明大大提高了 AI 晶片的性能和可持續性。”
此前,SK海力士和三星等NAND供應商已經嘗試過計算記憶體,但用例太小眾,不足以證明大規模生產是合理的,而Neo 希望 AI 處理能夠變得如此普及,從而遠遠超越這種小眾現象,其表示,3D X-AI 晶片可與標準 GPU 一起使用,可以以更低的成本提供更快的 AI 處理。
對於記憶體廠尤其是SK海力士來說,HBM是在堅持多年後獲得的一筆意外之財,事實上,就連行業領先了三十餘年的三星都出現了誤判,在AI浪潮來臨的前夜錯失了機會。
HBM因AI而興,在大模型中扮演著不可或缺的角色,這是毋庸置疑的,但HBM也在面臨著各種挑戰,尤其是更多具備成本優勢的方案在不斷湧現,如果HBM不能通過其他方式來降低成本,它未來的地位就恐怕有點危險了。 (半導體行業觀察)