輝達老黃,成了今年的聖誕老黃。
AI晶片大禮包剛剛曝光:
GPU新核彈B300,以及附帶CPU的超級晶片GB300。
高算力,在產品層面上相比B200在FLOPS上提高50%
大視訊記憶體,從192GB提升到288GB,也是提高了50%。
包含72塊GB300的“新一代計算單元”GB300 NVL72,更是被評價為“能讓OpenAI o1/o3推理大模型的思維鏈長度,在高batch size下達到10萬tokens的唯一方案”。
這與今年3月份“AI春晚”發佈的B200系列只隔了幾個月。
根據SemiAnalysis爆料,從第三季度開始,許多AI巨頭已經將訂單從B200轉移到了B300(只有微軟還在第四季度繼續購買了部分B200)。
有不少網友感嘆,更新速度實在太快了!
既是解決了此前傳聞中B200因設計缺陷被迫推遲的問題,又是對隔壁AMD MI300系列後續產品將在2025年提升視訊記憶體容量的回應。
既然都是Blackwell架構沒有跨代,B300的算力提高來自那裡呢?
根據這次爆料,主要有三部分:
除了更高FLOPS之外,B300系列的視訊記憶體也做了升級:
此外產品交付層面還有一個大變化:
GB200系列提供整個Bianca Board,也就包括兩顆GPU、一顆CPU、CPU的記憶體等所有元件都整合在一塊PCB版上。
GB300系列將只提供參考板(Reference Board),包括兩顆B300 GPU、一顆Grace CPU、HMC(Hybrid Memory Cube),LPCAMM記憶體模組等元件將由客戶自行採購。
這給供應鏈上的OEM和ODM製造商帶來了新的機會。
視訊記憶體的升級對OpenAI o1/o3一類的推理大模型至關重要,因為推理思維鏈長度會增加KVCache,影響batch size和延遲。
以一個GB300 NVL72“計算單元”為單位考慮時,它使72個GPU能夠以極低的延遲處理相同的問題,並共享視訊記憶體。
在此基礎上從GB200升級到GB300,還可以帶來許多好處:
為瞭解釋這些提升,SemiAnalysis舉了個更為直觀的例子。
下圖是在不同批處理大小下,使用H100和H200兩種GPU處理長序列時,Llama 3.1 405B在FP8精度下的處理速度。
輸入設定為1000個token、輸出19000個token,由此模擬OpenAI o1和o3模型中的思維鏈。
從H100升級到H200,有兩個顯著改進。
一是在所有可比較的batch size中,H200的記憶體頻寬更大(H200 4.8TB/s,H100 3.35TB/s),從而使得處理效率普遍提高了43%。
二是H200可運行更高的batch size,這使得其每秒可以生成的token數量增加了3倍,相應地,成本也減少了約3倍。
記憶體增加所帶來的效益遠不止表面上的這些。
眾所周知,推理模型響應時間一般更長,顯著縮短推理時間可以提高使用者體驗和使用頻率。
而且記憶體升級實現3倍性能提升,成本減少3倍,這一提升速度也遠超摩爾定律。
除此之外,SemiAnalysis還分析觀察到,能力更強和具有明顯差異化的模型能收取更高的溢價——
前沿模型毛利率超70%,而還在與開源模型競爭的次一級模型毛利率不足20%。
當然,輝達並不是唯一一家能增加記憶體的晶片公司,但奈何輝達還有殺手鐧NVLink。
輝達消費級顯示卡方面,RTX5090的PCB板也首次曝光了~
就在昨天,一張RTX 5090 PCB照片在網上瘋轉。
特點就是超超超大號。
結合此前爆料稱5090有可能會配備32GB大視訊記憶體,有望支援8K超高畫質遊戲,實現60fps的流暢遊戲體驗。
網友們直接坐不住。
關於5090的發佈時間,大夥兒猜測大概會是1月6日老黃CES演講的時候。 (量子位)