遙想2023年3月,輝達舉行了GTC 2023主題演講,輝達CEO黃仁勳不僅闡述了該公司在人工智慧時代的諸多成就和對未來發展願景的期待,同時也帶來Grace Hopper超級晶片、AI Foundations雲端服務、AI超級運算服務DGX Cloud、全球首個GPU加速量子運算系統等在內的多款重磅硬體新品。
而在台北時間2024年3月19日上午,輝達再次舉辦了一年一度的NVIDIA GTC主題演講,輝達CEO 黃仁勳透過這次演講,分享了新一代的AI突破,也讓各位觀眾見證了AI的又一次變革時刻。
穿著熟悉皮衣的黃仁勳自然是這場演講的主角,「世界上沒有哪一個會議有如此多樣化的研究人員,其中有大量的生命科學、醫療保健、零售、物流公司等等,」他說, “全球價值100 兆美元的公司都聚集在GTC。”
黃仁勳表示:「我們已經到了一個臨界點,我們需要一種新的運算方式......加速運算是一種巨大的提速。所有的合作夥伴都要求更高的功率和效率,那麼輝達能做些什麼呢?”
下一代AI平台—Blackwell
隨後登場的是Blackwell B200,一個更大的GPU,其命名來自於大衛·哈羅德·布萊克威爾他是一位專門研究博弈論和統計學的數學家,也是第一位入選美國國家科學院的黑人學者。
根據輝達介紹,B200的尺寸是「人工智慧超級晶片」Hopper 的兩倍,整合有2080 億個晶體管,其採用定制的兩掩模版極限N4P TSMC 製程製造,GPU 晶片透過10TBps 晶片到晶片鏈路連接成為單一GPU。這上面有兩個讓人好奇的重點:
首先,從技術上講,雖然他們使用的是新節點- TSMC 4NP - 但這只是用於GH100 GPU 的4N 節點的更高效能版本。這也讓輝達多年來第一次無法利用主要新節點的效能和密度優勢。這意味著Blackwell 的幾乎所有效率增益都必須來自架構效率,而該效率和橫向擴展的絕對規模的結合將帶來Blackwell 的整體效能增益。
其次,從字面上我們可以看到,這個全新旗艦將在單一封裝上配備兩個GPU 晶片。換而言之,NVIDIA 終於在他們的旗艦加速器實現了Chiplet化。雖然他們沒有透露單一晶片的尺寸,但我們被告知它們是「reticle-sized」的晶片,每個晶片的面積應該超過800mm2。GH100 晶片本身已經接近台積電的4 奈米掩模版極限,因此NVIDIA 在此方面的成長空間很小- 至少不能停留在單一晶片內。
黃仁勳指出:“人們認為我們製造GPU,但GPU的外觀和以前不一樣了。”
輝達表示,新的B200 GPU 透過其2,080 億個電晶體提供高達20 petaflops的FP4 效能,配備192GB HBM3e 內存,提供高達8 TB/s 的頻寬。
對於他們的首款多晶片晶片,NVIDIA 打算跳過尷尬的「一個晶片上有兩個加速器」階段,直接讓整個加速器像單一晶片一樣運作。據NVIDIA 稱,這兩個晶片作為「一個統一的CUDA GPU」運行,可提供完整的性能,毫不妥協。其關鍵在於晶片之間的高頻寬I/O 鏈路,NVIDIA 稱之為NV 高頻寬介面(NV-HBI:NV-High Bandwidth Interface ),並提供10TB/秒的頻寬。據推測,這是總計,這意味著晶片可以在每個方向上同時發送5TB/秒。
由於輝達迄今尚未詳細說明此連結的構建,所以我們不清楚NVIDIA 是否始終依賴晶圓上晶片(如CoWoS)還是使用基礎晶片策略(如AMD MI300),或者是否依賴在一個單獨的本地中介層上,僅用於連接兩個晶片(例如Apple 的UltraFusion)。不管怎樣,輝達這個方案比我們迄今為止看到的任何其他雙晶片橋接解決方案的頻寬都要大得多,這意味著有大量的引腳在發揮作用。
在B200 上,每個晶片與4 個HBM3E 記憶體堆疊配對,總共8 個堆疊,形成8192 位元的有效記憶體匯流排寬度。所有人工智慧加速器的限制因素之一是記憶體容量(也不要低估對頻寬的需求),因此能夠放置更多堆疊對於提高加速器的本地記憶體容量非常重要。
總的來說,B200 提供192GB 的HBM3E,即24GB/堆疊,與H200 的24GB/堆疊容量相同(並且比原來的16GB/堆疊H100 多出50% 的記憶體)。
據NVIDIA 稱,該晶片的HBM 記憶體總頻寬為8TB/秒,每個堆疊的頻寬為1TB/秒,即每個引腳的資料速率為8Gbps。正如我們之前所說,記憶體最終設計為每針9.2Gbps 或更高,但我們經常看到NVIDIA 在其伺服器加速器的時脈速度上表現得有點保守。不管怎樣,這幾乎是H100 記憶體頻寬的2.4 倍(或比H200 高出66%),因此NVIDIA 看到了頻寬的顯著增加。
最後,目前我們還沒有關於單一B200 加速器的TDP 的任何資訊。毫無疑問,它會很高——在後登納德世界中,你不可能將電晶體增加一倍以上,而不付出某種功率損失。NVIDIA 將同時銷售風冷DGX 系統和液冷NVL72 機架,因此B200 並不超出風冷範圍,但在NVIDIA 確認之前,我預計數量不會少。
整體而言,與集群層級的H100 相比,NVIDIA 的目標是將訓練效能提高4 倍,將推理效能提高30 倍,同時能源效率提高25 倍。我們將在此過程中介紹其背後的一些技術,並且更多有關NVIDIA 打算如何實現這一目標的資訊無疑將在主題演講中披露。
但這些目標最有趣的收穫是乾擾性能的提升。NVIDIA 目前在訓練領域佔據主導地位,但推理市場是一個更廣泛、競爭更激烈的市場。然而,一旦這些大型模型經過訓練,就需要更多的運算資源來執行它們,NVIDIA 不想被排除在外。但這意味著要找到一種方法,在競爭更加激烈的市場中取得(並保持)令人信服的領先地位,因此NVIDIA 的工作任務艱鉅。
與Hopper 系列一樣,Blackwell 也有「超級晶片」提供——兩個B200 GPU 和一個Nvidia Grace CPU,晶片間鏈路速度為900GBps。輝達表示,與Nvidia H100 GPU 相比,GB200 Superchip 在LLM 推理工作負載方面的效能提高了30 倍,並將成本和能耗降低了25 倍。
最後,也將推出HGX B100。它的基本概念與HGX B200 相同,配備x86 CPU 和8 個B100 GPU,只不過它設計為與現有HGX H100 基礎設施直接相容,並允許最快速地部署Blackwell GPU。每個GPU 的TDP 限制為700W,與H100 相同,吞吐量下降至FP4 的14 petaflops。
除了紙面性能的提升外,Blackwell還支援了第二代Transformer 引擎,它透過為每個神經元使用4 位而不是8 位,使計算、頻寬和模型大小加倍,而配備的第五代NVLink能夠為每個GPU 提供1.8TB/s 雙向吞吐量,確保多達576 個GPU 之間的無縫高速通訊。
輝達也公佈了由GB200驅動的GB200 NVL72,這是一個多節點、液冷、機架式系統,適用於計算最密集的工作負載。它結合了36個Grace Blackwell超級晶片,其中包括72個Blackwell GPU和36個Grace CPU,透過第五代NVLink互連。
新的NVLink 晶片具有1.8 TB/s 的全對全雙向頻寬,支援576 個GPU NVLink 域。它是在同一台積電4NP 節點上製造的500 億個電晶體晶片。該晶片還支援3.6 teraflops 的Sharp v4 片上網路運算,有助於高效處理更大的模型。
上一代支援高達100 GB/s 的HDR InfiniBand 頻寬,因此這是頻寬的巨大飛躍。與H100 多節點互連相比,新的NVSwitch 速度提高了18 倍。這應該能夠顯著改善更大的萬億參數模型人工智慧網路的擴展性。
與此相關的是,每個Blackwell GPU 都配備了18 個第五代NVLink 連線。這是H100 連結數量的十八倍。每個連結提供50 GB/s 的雙向頻寬,或每個連結100 GB/s
此外,GB200 NVL72還包括NVIDIA BlueField-3資料處理單元,可在超大規模人工智慧雲端中實現雲端網路加速、可組合儲存、零信任安全和GPU運算彈性。與相同數量的輝達H100 Tensor Core GPU相比,GB200 NVL72在LLM推理工作負載方面的效能最多可提升30倍,成本和能耗最多可降低25倍。
在演講中,亞馬遜、Google、Meta、微軟、甲骨文雲和OpenAI 等公司確認將在今年稍後部署Blackwell GPU。
「Blackwell 提供了巨大的效能飛躍,並將加快我們交付領先模型的能力。我們很高興繼續與Nvidia 合作增強AI 運算能力。」OpenAI 執行長Sam Altman 說道。
特斯拉和xAI 執行長馬斯克(Elon Musk) 補充道:“目前沒有什麼比Nvidia 的人工智慧硬體更好的了。”
下一代AI超算-DGX SuperPOD
在發布Blackwell GPU後,輝達還推出了下一代AI超級電腦——由NVIDIA GB200 Grace Blackwell 超級晶片提供支援的NVIDIA DGX SuperPOD,用於處理萬億參數模型,並具有持續的正常運行時間,以實現超大規模生成式AI 訓練和推理工作負載。
根據輝達介紹,新型DGX SuperPOD 採用新型高效液冷機架規模架構,採用NVIDIA DGX™ GB200 系統構建,可在FP4 精度下提供11.5 exaflops 的AI 超級運算能力和240 TB 的快速內存,可透過額外的機架擴展到更多。
每個DGX GB200 系統均配備36 個NVIDIA GB200 超級晶片,其中包括36 個NVIDIA Grace CPU 和72 個NVIDIA Blackwell GPU,透過第五代NVIDIA NVLink®連接為超級電腦。與NVIDIA H100 Tensor Core GPU 相比,GB200 Superchips 對於大型語言模型推理工作負載的效能提升高達30 倍。
NVIDIA 創辦人兼執行長黃仁勳表示:「NVIDIA DGX AI 超級電腦是AI 工業革命的工廠。」「新的DGX SuperPOD 結合了NVIDIA 加速運算、網路和軟體的最新進展,使每個公司、產業和國家都能完善和生成自己的人工智慧。”
新一代AI網路交換器——X800
輝達也在演講中發布了專為大規模人工智慧而設計的新一代網路交換器X800 系列。
輝達表示,NVIDIA Quantum-X800 InfiniBand和NVIDIA Spectrum-X800 Ethernet是全球首款能夠實現端到端800Gb/s 吞吐量的網路平台, 突破了運算和AI 工作負載網路效能的界限。它們配備的軟體可進一步加速各類資料中心中的人工智慧、雲端、資料處理和HPC 應用程序,包括那些採用新發布的基於NVIDIA Blackwell 架構的產品系列的資料中心。
具體而言,Quantum-X800 平台包括輝達Quantum Q3400交換器和輝達ConnectX-8 SuperNIC,共同實現了業界領先的800Gb/s端到端吞吐量。與上一代產品相比,頻寬容量提高了5 倍,利用輝達可擴展分級聚合和縮減協定(SHARPv4)進行的網內運算能力提高了9 倍,達到14.4Tflops。
Spectrum-X800平台為人工智慧雲端和企業基礎架構提供了最佳化的網路效能。利用SpectrumSN5600 800Gb/s交換器和輝達BlueField-3超級網卡,Spectrum-X800平台可提供對多租戶生成式人工智慧雲端和大型企業至關重要的進階功能集。
輝達網路高級副總裁Gilad Shainer 表示:「NVIDIA 網路對於我們AI 超級運算基礎設施的可擴展性至關重要。」「NVIDIA X800 交換器是端到端網路平台,使我們能夠實現對新AI 基礎設施至關重要的萬億參數規模的生成式AI。”
根據輝達透露,這兩款產品的目前客戶包括微軟Azure 和Oracle Cloud Infrastructure。
AI輔助光刻
在演講一開始,輝達就宣布,台積電和新思將使用輝達的計算光刻平台即去年宣布的cuLitho 投入生產,以加速製造並突破下一代先進半導體晶片的物理極限。
計算光刻是半導體製造過程中計算最密集的工作負載,每年在CPU 上消耗數百億小時。晶片的典型掩模組(其生產的關鍵步驟)可能需要3000 萬小時或更多小時的CPU 運算時間,因此需要在半導體代工廠內建立大型資料中心。
而輝達則稱,透過加速運算,350 個NVIDIA H100 系統現在可以取代40,000 個CPU 系統,加快生產時間,同時降低成本、空間和功耗。
自去年推出以來,cuLitho 為TSMC 的創新圖案化技術帶來了新的機會。在共享工作流程上進行的cuLitho 測試顯示,兩家公司共同將曲線流程速度和傳統曼哈頓式流程速度分別提升了45 倍和近60 倍。這兩個流程的不同點在於曲線流程的光掩模形狀為曲線,而曼哈頓式流程的光掩模形狀被限制為水平或垂直。
輝達表示,自己開發了應用生成式人工智慧的演算法,以進一步提升cuLitho平台的價值。在透過cuLitho 實現的加速流程的基礎上,新的生成式人工智慧工作流程可將速度提高2 倍。透過應用生成式人工智慧,可以創建近乎完美的反向掩膜或反向解決方案,以考慮光的衍射。然後透過傳統的嚴格物理方法得出最終光罩,從而將整個光學近似校正(OPC)流程的速度提高了兩倍。
目前,工廠製程的許多變更都需要對OPC 進行修改,從而增加了所需的運算量,並在工廠開發週期中造成了瓶頸。cuLitho 提供的加速運算和生成式人工智慧可減輕這些成本和瓶頸,使工廠能夠分配可用的運算能力和工程頻寬,在開發2 奈米及更先進的新技術時設計出更新穎的解決方案。
TSMC 執行長魏哲家博士表示:「透過與NVIDIA 一同將GPU 加速運算整合到TSMC 的工作流程中,我們大幅提升了效能、增加了吞吐量、縮短了周期時間並減少了功耗。TSMC 正在將NVIDIA cuLitho 投入生產中,利用這項計算光刻技術推動關鍵的半導體微縮環節。
Synopsys 總裁兼執行長Sassine Ghazi 表示:「二十多年來,Synopsys Proteus 光掩模合成軟體產品一直是經過生產驗證的首選加速計算光刻技術,而計算光刻是半導體製造中要求最嚴苛的工作負載。發展至先進的製造流程後,計算光刻的複雜性和計算成本都急劇增加。透過與TSMC 和NVIDIA 合作,我們開創了能夠運用加速計算的力量將週轉時間縮短若干數量級的先進技術,因此這項合作對於實現埃米級微縮至關重要。”
隨著EDA廠商新思將該技術整合到其軟體工具中,以及代工龍頭台積電的應用,計算光刻未來前景廣闊,可能會被更多晶片廠商所採用。
依舊遙遙領先
B200的推出,延續了H100之後輝達的GPU霸權,就目前來說,依舊沒有公司能夠撼動它的地位,這是它過去深耕十年應有的回報。
但你可以注意到一個小細節,輝達終於放棄了單體晶片設計,而是轉向多晶片設計,原因也很簡單,B200採用的是台積電改進版的N4P工藝,在晶體管密度上沒有大幅升級,而H100已經是全掩模版尺寸的晶片——它的晶片尺寸為814 mm2,理論最大值為858 mm2,在這樣的情況下,轉向雙晶片似乎並不難理解。
此外,輝達也不再滿足於銷售單一晶片,而是兜售一整個系統,也就是輝達B200 NVL72,包含600000 個零件,重1361 公斤的它,可能會成為AI企業的新寵兒。
可以說,輝達已經靠著B200牢牢吸住了AI產業下一年的金,依舊是這一領域中毫無爭議的王。(半導體產業觀察)