輝達下一個產品GB300,有什麼啟示?

針對上周五所謂“微軟砍單GB200”傳聞,今天賣方紛紛出來解釋:

MS:“供應鏈調查顯示銅纜連接器的問題已經通過機櫃重新設計解決了,首批GB200已經在最終測試階段,12月正常發貨。GB300的切換會在25H1設計完成後進行。” (大摩說的這個批次應該是改版前的批次)



JPM:“過去幾個月漏液問題一直是關鍵瓶頸,我們覺得到今天已經大部分得到解決。



大概可以判斷,這些組裝環節的“小問題”,不會讓量產時間推遲太多。但有個問題值得注意,就是GB200和GB300的量產時間相差也就6個月。星球更新過GB300的時間表、詳細指標。部分指標如下:



主要區別:

  1. HBM從8Hi到12Hi,因此每GPU的HBM容量從192GB提升到288GB
  2. 單卡功耗自然從1.2kW提升到1.4kW(Rubin會到1.8kW)。最神奇的是,通過所謂“power steering”,整個機櫃的能耗依然保持在132kW不變!(單位算力能耗又又又又降低了)
  3. 通過新的ultra架構,帶來單卡1.5倍的FP4性能提升
  4. 網路卡從CX7升級CX8。CX8直接優點就是支援更大連接埠量的交換機,2層網路組網規模更大,意味著單卡網路能耗成本降低
  5. GB200是每個compute tray2張GB200板卡,每GB200是1Grace CPU+2 GPU,而GB300是統一一張board,2Grace+4GPU,看似沒區別,但主要變化是增加了記憶體模組和GPU socket,讓組裝替換更為靈活
  6. 超級電容和BBU(之前星球已經多條帖子詳細介紹過)

看完你會發現,GB300相比GB200,看似成本項目變化不大, 但綜合性能、可維護性、定製靈活性等方面,都有明顯改善。又回到了老黃的“分段迭代法”,多個微小的進步一相乘,系統提升顯著。那麼問題就來了:

1. GB200和GB300的量產時間相差也就6個月,乍看起來,GB200顯得有點短命....

2. 但這不是問題,因為GB300說白了,就是GB200 ultra,或者叫GB200升級版。過去我們算GB200機櫃數量,現在可以將GB200+GB300合二為一看待,整體去算機櫃數量

3. 著急的客戶比如Elon Musk,價錢也要立即馬上就要GB200,沒問題。不著急的客戶,或者說本來訂單就很多、本來產能交付就排到了25H2的客戶,完全可以等25H2的GB300。這可以叫“切換”,但其實總需求沒變。

4. GB200的ramp up過程,相當於給GB300趟路了,諸多“小問題”解決後,GB300將是一個更為成熟的完整版本而GB300的成功量產, 才是真正的里程碑時刻,意味著NVL機櫃這種跨時代產品,真的被輝達“完全工程化實現”了。向上,繼續去衝擊288卡的1MW“怪獸”;向下,可以隨意模組化組裝GB300A、某地區閹割版GB30,遊刃有餘。大家可能會問了,會有GB30嗎?看目前的形勢,也不是沒可能。 (資訊平權)