【輝達GTC大會】輝達新核彈B200發布,一台伺服器頂一個超算,萬億參數大模型30倍推理加速

AI春晚GTC開幕,皮衣老黃再次燃爆全場。

時隔兩年,輝達官宣新一代Blackwell架構,定位直指「新工業革命的引擎」 ,「把AI擴展到萬億參數」。


作為架構更新大年,本次大會亮點頗多:

  • 宣布GPU新核彈B200,超級晶片GB200
  • Blackwell架構新伺服器,一個機櫃頂一個超算
  • 推出AI推理微服務NIM,要做世界AI的入口
  • 新光刻技術cuLitho進駐台積電,改良產能。
    ……


8年時間,AI算力已成長1000倍。

老黃斷言「加速運算到達了臨界點,通用計算已經過時了」。

我們需要另一種方式來進行計算,這樣我們才能夠繼續擴展,這樣我們才能夠繼續降低計算成本,這樣我們才能夠繼續進行越來越多的計算。


老黃這次主題演講題目為《見證AI的變革時刻》,但不得不說,輝達才是最大的變革本革。

GPU的形態已徹底改變

我們需要更大的GPU,如果不能更大,就把更多GPU組合在一起,變成更大的虛擬GPU。

Blackwell新架構硬體產品線都圍繞著這句話展開。

透過晶片,與晶片間的連接技術,一步一步建構出大型AI超算集群。

4nm製程達到瓶頸,就把兩顆晶片合在一起,以10TB每秒的滿血頻寬互聯,組成B200 GPU,總計包含2,080億電晶體。

沒錯,B100型號被跳過了,直接發表的首個GPU就是B200。


兩台B200 GPU與Grace CPU結合就成為GB200超級晶片,透過900GB/s的超低功耗NVLink晶片間互連技術連接在一起。

兩個超級晶片裝到主機板上,成為一個Blackwell運算節點。


18個這樣的運算節點共有36CPU+72GPU,組成更大的「虛擬GPU」。

它們之間由今天宣布的NVIDIA Quantum-X800 InfiniBand和Spectrum™-X800乙太網路平台連接,可提供速度高達800Gb/s的網路。


在NVLink Switch支援下,最終成為「新一代運算單元」GB200 NVL72

像這樣的「計算單元」機櫃,FP8精度的訓練算力就高達720PFlops,直逼H100時代一個DGX SuperPod超級電腦集群(1000 PFlops)。


與相同數量的72個H100相比,GB200 NVL72對於大模型推理效能提升高達30倍成本和能耗降低高達25倍

把GB200 NVL72當作單一GPU使用,具有1.4EFlops的AI推理算力和30TB高速記憶體。


再用Quantum InfiniBand交換器連接,配合散熱系統組成新一代DGX SuperPod集群。

DGX GB200 SuperPod採用新型高效能液冷機架規模架構,標準配備可在FP4精度下提供11.5 Exaflops算力和240TB高速記憶體。

此外還支援增加額外的機架擴充性能。


最終成為包含32000 GPU的分散式超算叢集。

老黃直言,「輝達DGX AI超級計算機,就是AI工業革命的工廠」。

將提供無與倫比的規模、可靠性,具有智慧管理和全端彈性,以確保不斷的使用。


在演講中,老黃也特別提到2016年贈送OpenAI的DGX-1,那也是史上第一次8塊GPU連在一起組成一個超級電腦。


從此之後就開啟了訓練最大模型所需算力每6個月翻一倍的成長之路。


GPU新核彈GB200


過去,在90天內訓練一個1.8兆參數的MoE架構GPT模型,需要8,000個Hopper架構GPU,15兆瓦功率。


如今,同樣給90天時間,在Blackwell架構下只需要2000個GPU,以及1/4的能源消耗。


在標準的1750億參數GPT-3基準測試中,GB200的效能是H100的7倍,提供的訓練算力是H100的4倍。


Blackwell架構除了晶片本身外,還包含多項重大革新:

  • 第二代Transformer引擎

動態為神經網路中的每個神經元啟用FP6和FP4精確度支援。


  • 第五代NVLink高速互聯

為每個GPU 提供了1.8TB/s雙向吞吐量,確保多達576個GPU之間的無縫高速通訊。


  • Ras Engine(可靠性、可用性和可維護性引擎)

基於AI的預防性維護來運行診斷和預測可靠性問題。

  • Secure AI

先進的加密計算功能,在不影響性能的情況下保護AI模型和客戶數據,對於醫療保健和金融服務等隱私敏感行業至關重要。

  • 專用解壓縮引擎

支援最新格式,加速資料庫查詢,以提供資料分析和資料科學的最高效能。


在這些技術支援下,一個GB200 NVL72就最高支援27兆參數的模型

而GPT-4根據洩漏數據,也不過只有1.7兆參數。


輝達要做世界AI的入口


老黃官宣ai.nvidia.com頁面,要做世界AI的入口。

任何人都可以透過易於使用的使用者介面體驗各種AI模型和應用。

同時,企業使用這些服務在自己的平台上創建和部署自訂應用,同時保留對其智慧財產權的完全所有權和控制權。


這上面的應用都由輝達全新推出的AI推理微服務NIM支持,可對來自輝達及合作夥伴的數十個AI模型進行優化推理。


此外,輝達自己的開發套件、軟體庫和工具包都可以作為NVIDIA CUDA-X™微服務訪問,用於檢索增強生成(RAG)、護欄、數據處理、HPC 等。


例如透過這些微服務,可以輕鬆建構基於大模型和向量資料庫的ChatPDF產品,甚至智能體Agent應用。


NIM微服務定價非常直觀,“一個GPU一小時一美元”,或年付打五折,一個GPU一年4500美元。

從此,輝達NIM和CUDA做為中間樞紐,連接了百萬開發者與上億GPU晶片。

什麼概念?

老黃曬出AI界“最強朋友圈”,包括亞馬遜、迪士尼、三星等大型企業,都已成為輝達合作夥伴。


最後總結一下,與往年相比輝達2024年策略更聚焦AI,而且產品更有針對性。

例如第五代NVLink也刻意為MoE架構大模型優化通訊瓶頸。

新的晶片和軟體服務,都在不斷的強調推理算力,要進一步開啟AI應用部署市場。

當然身為算力之王,AI並不是輝達的全部。

這次大會上,也特別宣布了與蘋果在Vision Pro方面的合作,讓開發者在工業元宇宙裡搞空間運算。


先前推出的新微影技術cuLitho軟體庫也有了新進展,被台積電和新思科技採用,把觸手伸向更上游的晶片製造商。


當然也少不了生物醫療、工業元宇宙、機器人汽車的新成果。



以及佈局下一輪運算變革的前沿領域,輝達推出雲端量子電腦模擬微服務,讓全球​​科學家都能充分利用量子運算的力量,將自己的想法變成現。



One More Thing

去年GTC大會上,老黃與OpenAI首席科學家Ilya Sutskever的爐邊對談,仍為人津津樂道。

當時世界還沒完全從ChatGPT的震撼中清醒過來,OpenAI是整個產業絕對的主角。

如今Ilya不知蹤影,OpenAI的市場統治力也開始鬆脫。在這個節骨眼上,有資格與老黃對談的人換成了8位——

Transformer八子,開山論文《Attention is all you need》的八位作者。

他們已經悉數離開谷歌,其中一位加入OpenAI,另外7位投身AI創業,有模型層也有應用層,有toB也有toC。

這八位傳奇人物既像徵著大模型技術真正的起源,也代表著現在百花齊放的AI產業圖像。在這樣的格局中,OpenAI不過是其中一位玩家。

而就在兩天後,老黃將把他們聚齊,在自己的主場。


要論在整個AI界的影響力、號召力,在這一刻,無論是「鋼鐵人」馬斯克還是「奧特曼」Sam Altman,恐怕都比不過眼前這位「皮衣客」黃仁勳。(量子位元)

直播回放:
https://www.youtube.com/watch?v=Y2F8yisiS6E