輝達封死了ASIC的後路?

NVIDIA 計畫憑藉下一代 Feynman 晶片主導推理堆疊,因為該公司可以將 LPU 單元整合到架構中。

乍看之下,NVIDIA 就 Groq 的 LPU 單元達成的 IP 授權協議似乎只是小打小鬧,畢竟收購規模和涉及的營收數額都相當龐大。但實際上,NVIDIA 的目標是通過 LPU 在推理領域佔據領先地位,我們此前已對此進行了深入報導。至於 NVIDIA 將如何整合 LPU,目前已有多種方案;

不過,根據GPU 專家 AGF 的觀點,LPU 單元或許會通過台積電的混合鍵合技術堆疊在下一代 Feynman GPU 上。

輝達要堵死ASIC的道路

專家認為,該方案的實現方式可能類似於AMD在X3D CPU上的做法,即利用台積電的SoIC混合鍵合技術將3D V-Cache晶片整合到主計算晶片上。AGF指出,考慮到SRAM的擴展性有限,將SRAM整合到單晶片上可能並非Feynman GPU的正確選擇,因為採用先進工藝節點會浪費高端矽片,並大幅增加每片晶圓的成本。AGF認為,NVIDIA會將LPU單元堆疊到Feynman計算晶片上。

AGF表示,Groq LPU 模組將於 2028 年首次出現在 Feynman(Rubin 後世代)。

確定性、編譯器驅動的資料流,配合靜態低延遲調度和低批處理場景中的高模型浮點利用率(MFU),將在有利工作負載下為費曼帶來巨大的推理性能提升。

但單片晶片的 SRAM 縮放停滯非常嚴苛:位元單元面積從 N5(~0.021 μm²)到 N3E 幾乎沒有變化,甚至 N2 也只能達到~0.0175 μm²,密度為~38 Mb/mm²。這是一種非常昂貴的晶圓面積使用。

NVIDIA Feynman 在台積電 A16 上,配備背面供電+全 GAA 將面臨 SRAM 的門檻和成本物理。

那麼解決方案是什麼?

很簡單,就是製作分離的 SRAM 晶片,並將它們疊放在主計算晶片(也就是 AMD X3D)上。背面電源傳輸簡化了頂部的高密度混合粘結,使 3D 疊加垂直整合 SRAM 更實用,即避免前端布線的噩夢。

所以預計 Feynman 核心會在 A16 上混合邏輯/計算晶片,實現最大密度/孔徑+堆疊 SRAM,在更便宜/成熟的節點上實現極高封裝頻寬且不會帶來巨大密度損失。

這保留了 HBM 作為容量(訓練/預填充),而 SRAM 堆疊則修復低延遲解碼 MFU,這正是 Pouladian 的“作弊碼”。

這似乎讓廠商放棄了所有 ASIC 成功的機會....

現在看來,這種方案似乎合情合理。方案中,像A16(1.6nm)這樣的晶片將用於主Feynman晶片,其中包含計算模組(張量單元、控制邏輯等),而獨立的LPU晶片則包含大型SRAM儲存體。此外,為了將這些晶片連接起來,台積電的混合鍵合技術至關重要,因為它能夠實現寬介面,並且與封裝外儲存器相比,每位元能耗更低。更重要的是,由於A16採用背面供電設計,正面可以用於垂直SRAM連接,從而確保低延遲解碼響應。

然而,這種技術也存在一些問題,例如NVIDIA將如何應對散熱限制,因為在高計算密度的工藝流程中堆疊晶片本身就是一個挑戰。而且,對於專注於持續吞吐量的LPU來說,這可能會造成瓶頸。更重要的是,這種方法也會極大地增加執行層面的影響,因為LPU依賴於固定的執行順序,這自然會在確定性和靈活性之間造成衝突。

即使NVIDIA能夠解決硬體層面的限制,主要問題仍然在於CUDA在LPU式執行模式下的行為,因為它需要顯式的記憶體分配,而CUDA核心的設計初衷是面向硬體抽象。對於NVIDIA來說,將SRAM整合到AI架構中並非易事,因為這需要精湛的工程技術才能確保LPU-GPU環境得到充分最佳化。然而,如果NVIDIA想要在推理領域保持領先地位,這或許是它願意付出的代價。

Groq 的 LPU 架構是關鍵

過去幾個月,人工智慧行業的計算需求發生了翻天覆地的變化。像OpenAI、Meta、Google等公司在致力於訓練前沿模型的同時,也在尋求建構強大的推理堆疊,因為這才是大多數超大規模資料中心的主要盈利點。

Google發佈 Ironwood TPU 時,業界將其吹捧為專注於推理的利器,而這款 ASIC 晶片也被譽為輝達的替代品,這主要是因為當時有說法稱 Jensen 尚未推出一款在推理吞吐量方面佔據主導地位的解決方案。我們有 Rubin CPX,但我稍後會討論它。談到推理,計算需求會發生顯著變化,因為在訓練過程中,業界更看重吞吐量而非延遲和高運算強度,這也是為什麼現代加速器都配備了 HBM 和海量張量核心的原因。

由於超大規模資料中心正轉向推理,它們現在需要快速、可預測且前饋式的執行引擎,因為響應延遲是主要瓶頸。為了實現快速計算,NVIDIA 等公司針對大規模上下文推理(預填充和通用推理)等工作負載推出了 Rubin CPX,而 Google 則宣稱其 TPU 方案具有更高的能效。然而,在解碼方面,可供選擇的方案並不多。

解碼是指Transformer模型推理過程中的詞元生成階段,它作為人工智慧工作負載分類的關鍵環節,其重要性日益凸顯。解碼需要確定性和低延遲,而考慮到推理環境中使用HBM帶來的限制(延遲和功耗),Groq的獨特之處在於它使用了SRAM(靜態隨機存取儲存器)。既然我已經闡明了為什麼需要重新審視推理計算,現在是時候討論LPU了。

LPU是 Groq 前 CEO Jonathan Ross 的傑作,順便一提,他最近已加入 NVIDIA。Ross 因其在 Google TPU 方面的工作而聞名,因此我們可以肯定,NVIDIA 正在內部獲得一項重要的資產。LPU 是 Groq 針對推理類工作負載的解決方案,該公司區別於其他公司的關鍵在於其兩大核心優勢。首先是確定性執行和片上 SRAM 作為主要權重儲存。這是 Groq 通過確保可預測性來提升速度的方法。

Groq此前已展示了兩款領先的解決方案:GroqChip和基於合作夥伴的GroqCard。根據官方檔案披露的資訊,這些晶片配備230MB片上SRAM,片上記憶體頻寬高達80TB/s。SRAM的使用是LPU的關鍵優勢之一,因為它能顯著降低延遲。與HBM相比,考慮到DRAM訪問和記憶體控製器佇列帶來的延遲,SRAM的優勢顯而易見。片上SRAM使Groq能夠實現數十TB/s的內部頻寬,從而提供領先的吞吐量。

SRAM 還使 Groq 能夠提供一個節能平台,因為訪問 SRAM 所需的每位元能量顯著降低,並消除了 PHY 開銷。此外,在解碼過程中,LPU 顯著降低了每個令牌的能耗,考慮到解碼工作負載是記憶體密集型的,這一點至關重要。這是 LPU 的架構方面,雖然這看似重要,但這只是 LPU 性能的一部分。另一個關鍵因素是利用確定性周期,即通過編譯時調度來消除核心間的時間差異。

編譯時調度確保解碼流水線中不存在“延遲”,這是一個至關重要的因素,因為它能夠實現流水線的完美利用,從而相對於現代加速器實現更高的吞吐量。總而言之,LPU 完全專用於滿足超大規模資料中心所需的推理功能,但業界目前忽略了一個關鍵問題。LPU 是真實有效的推理硬體,但它們高度專業化,尚未成為主流的默認平台,而這正是 NVIDIA 的用武之地。

除了上述AGF的方法,將LPU整合到NVIDIA產品中的另一種方法是將其作為機架級推理系統(類似於Rubin CPX)的一部分,並搭配網路基礎設施。這樣一來,GPU可以處理預填充/長上下文資訊,而LPU則專注於解碼,這意味著在推理任務方面,NVIDIA已經解決了所有問題。這有望將LPU從實驗性選項轉變為標準推理方法,從而確保其在超大規模資料中心得到廣泛應用。

毫無疑問,這筆交易標誌著輝達在推進其產品組合方面取得的最大成就之一,因為所有跡象都表明,推理將是輝達接下來要討論的選項,而 LPU 將成為該公司在人工智慧工作負載領域戰略的核心部分。

為了規避反壟斷風險,選擇授權

在日勤,CNBC率先報導了這一消息,聲稱輝達將以200億美元的巨額交易“收購”Groq公司,這將是詹森·黃仁勳迄今為止最大的一筆收購。此消息在業內引發軒然大波,有人認為監管調查會阻礙這筆交易,也有人斷言Groq的末日已至。然而,隨後Groq在其官網上發佈官方聲明,稱已與輝達達成“非獨家許可協議”,授予這家人工智慧巨頭使用其推理技術的權利。

“我們計畫將 Groq 的低延遲處理器整合到 NVIDIA AI Factory 架構中,從而擴展該平台,使其能夠服務於更廣泛的 AI 推理和即時工作負載。雖然我們正在吸納優秀人才並購買 Groq 的智慧財產權許可,但我們不會收購 Groq 這家公司。”輝達首席執行長黃仁勳在一封內部郵件中表示

因此,在Groq發表聲明後,至少從表面上看,合併的說法不攻自破。現在看來,這一系列事件頗為耐人尋味,尤其是考慮到這筆交易距離被視為全面收購只差一步之遙,那就是官方披露中未提及此事。

這是輝達典型的“反向收購”策略。如果有人不知道這意味著什麼,這是微軟的慣用伎倆。早在2024年,這家科技巨頭就宣佈以6.53億美元收購Inflection,其中包括Mustafa Suleyman和Karén Simonya等人加入微軟,後者曾是微軟人工智慧戰略的先鋒。

反向收購是指一家公司從一家初創公司挖走關鍵人才,並保留“最基本的”公司架構,從而避免被認定為合併。現在看來,詹森似乎也採用了類似的策略來規避美國聯邦貿易委員會(FTC)的調查。他將與Groq的交易包裝成“非獨家許可協議”,從而使輝達實際上游離於《哈特-斯科特-羅迪諾反壟斷改進法案》(HSR法案)的管轄範圍之外。值得注意的是,Groq提到GroqCloud將繼續營運,但僅以“精簡架構”的形式存在。

事情的經過是這樣的:輝達斥資200億美元收購了Groq的人才和智慧財產權,並成功避開了監管調查,從而在短短幾天內就完成了交易。而談到他們現在擁有的硬體資源,這才是輝達收購Groq這筆交易中最引人注目的部分。 (EDA365電子論壇)