【輝達GTC大會】老黃祭出新核彈B200!30倍H100單機可訓15個GPT-4模型,AI迎新摩爾時代



【導讀】就在剛剛,老黃又來打破摩爾定律了:輝達新核彈B200,一塊能頂5個H100,30倍推理加速,能訓萬億參數大模型!同時推出的AI推理微服務NIM,號稱讓全世界用上AI。

就在剛結束的GTC人工智慧大會上,輝達的新一代效能巨獸Backwell誕生了!


Blackwell B200 GPU,是如今世界上最強大的AI晶片,旨在「普惠兆參數的AI」。


本來,H100已經使輝達成為價值數萬億美元的公司,追趕了谷歌和亞馬遜,但現在,憑著Blackwell B200和GB200,輝達的領先優勢還要繼續領先。

老黃表示-「H100很好,但我們需要更大的GPU」!

新的B200 GPU,從2080億個電晶體中能提供高達20 petaflops的FP4效能。(H100僅4 petaflops)

而將兩台B200與單一Grace CPU結合的GB200,則可為LLM推理工作負載提供30倍的效能,同時大幅提高效率。

比起H100,GB200的成本和能耗降低了25倍!


Blackwell晶片和Hopper H100晶片的尺寸比較

這種額外的處理能力,就能讓AI公司訓練更大、更複雜的模型,甚至可以部署一個27兆參數的模型。

更大的參數,更多的數據,未來的AI模型,無疑會解鎖更多新功能,湧現出更多新的能力。

現在,老黃拿在手上的,或許是100億美元。



新一代性能巨獸,深夜重磅登場

憑藉H100成為全球市值第三大公司的輝達,今天再次推出了性能野獸-Blackwell B200 GPU和GB200「超級晶片」。


它以著名數學家David Blackwell(1919-2010)命名。他一生中對博弈論、機率論做出了重要的貢獻。


老黃表示,「30年來,我們一直在追求加速運算,目標是實現深度學習和AI等變革性突破。生成式AI已然成為我們這個時代的標誌性技術,而Blackwell將是推動這場新工業革命的引擎」。

「我們認為這是個完美的博弈機率」。

全新B200 GPU擁有2,080億個電晶體,採用台積電4NP製程節點,提供高達20 petaflops FP4的算力。

與H100相比,B200的電晶體數量是其(800億)2倍以上。而單一H100最多提供4 petaflops算力,直接實現了5倍性能提升。


而GB200是將2個Blackwell GPU和1個Grace CPU結合在一起,能夠為LLM推理工作負載提供30倍效能,同時還可以大幅提高效率。


值得一提的是,與H100相比,它的成本和能耗「最多可降低25倍」。

過去,訓練一個1.8兆參數的模型,需要8000個Hopper GPU和15MW的電力。


如今,2000個Blackwell GPU就能完成這項工作,耗電量僅4MW。

在GPT-3(1750億參數)大模型基準測試中,GB200的表現是H100的7倍,訓練速度是H100的4倍。


GB200由2個GPU、1個CPU、一個主機板組成

全新晶片其中一個關鍵改進是,採用了第二代Transformer引擎。

每個神經元使用4位(20 petaflops FP4)而不是8位,直接將算力、頻寬和模型參數規模提高了一倍。

同時,輝達也推出了第五代NVLink網路技術。

最新的NVLink迭代增強了數萬億參數AI模型的性能,提供了突破性的每GPU雙向吞吐量,促進了無縫高速通訊。


這也就是第二個關鍵區別,只有當你連接大量這些GPU時才會出現:新一代NVLink交換器可以讓576個GPU相互通信,雙向頻寬高達1.8TB/秒。

這就要求輝達打造一個全新的網路交換晶片,其中包含500億個電晶體和一些自己的板載運算:擁有3.6 teraflops FP8處理能力。

在此之前,由16個GPU組成的集群,有60%的時間用於相互通信,只有40%的時間用於實際計算。


Blackwell GPU增加了對FP4和FP6的支持

另外,Blackwell也配備了RAS引擎。

為了確保可靠性、可用性和可維護性,Blackwell GPU整合了專用引擎和基於AI的預防性維護功能,以最大限度地延長系統正常運作時間並最大限度地降低營運成本。

老黃表示,「過去8年,計算規模擴展已經增加了1000倍」。




網友:新的摩爾定律誕生了!

網友們紛紛驚嘆,Blackwell再一次改變了摩爾定律。

輝達資深科學家Jim Fan表示:Blackwell,城裡的新獸。

- DGX Grace-Blackwell GB200:單機架運算能力超過1 Exaflop。

- 從這個角度來看:老黃交付給OpenAI的第一台DGX是0.17 Petaflops。

- GPT-4-1.8T參數在2000張Blackwell上可在90天內完成訓練。

新摩爾定律誕生了。


賈揚清回憶道,「我記得在Meta,當我們在一小時內(2017年)訓練ImageNet時,總計算量約為1exaflop。這意味著有了新的DGX,理論上你可以在一秒鐘內訓練ImageNet」。


還有網友表示,「這簡直就是野獸,比H100強太多」。


另有網友戲稱,「老黃確認GPT-4是1.8兆參數」。


所以,GB200的成本是多少呢?輝達目前並未公佈。

先前據分析師估計,輝達基於Hopper的H100晶片,每顆的成本在25,000美元到40,000美元之間,整個系統的成本高達200,000美元。

而GB200的成本,只可能更高。


新超算可訓萬億參數大模型

當然,有了Blackwell超級晶片,當然還會有Blackwell組成的DGX超算。

這樣,公司就會大量購入這些GPU,並將它們封裝在更大的設計中。

GB200 NVL72是將36個Grace CPU和72個Blackwell GPU整合到一個液冷機櫃中,可實現總計720 petaflops的AI訓練性能,或是1,440 petaflops(1.4 exaflops)的推理性能。

它內部共有5000條獨立電纜,長度近兩英里。


它的背面效果如下圖所示。


機櫃中的每個機架包含兩個GB200晶片,或兩個NVLink交換器。共有18個GB200晶片托盤,9個NVLink交換器托盤有。

老黃現場表示,「一個GB200 NVL72機櫃可以訓練27兆參數的模型」。

先前傳言稱,GPT-4的參數規模達1.8萬億,相當於能訓練近15個這樣的模型。


與H100相比,對於大模型推理工作負載,GB200超級晶片提供高達30倍的效能提升。


那麼,由8個系統組合在一起的就是DGX GB200。

總共有288個Grace CPU、576個Blackwell GPU、240 TB記憶體和11.5 exaflop FP4計算。


此系統可擴展到數萬個GB200超級晶片,透過Quantum-X800 InfiniBand(最多144個連接)或Spectrum-X800ethernet(最多64個連接)與800Gbps網路連接在一起。


配備DGX GB200系統的全新DGX SuperPod採用統一的運算架構。

除了第五代NVIDIA NVLink,架構還包括NVIDIA Bluefield-3 DPU,並將支援Quantum-X800 InfiniBand網路。

這種架構可以為平台中的每個GPU提供高達每秒1,800 GB的頻寬。

除此之外,輝達也發布了統一的超算平台DGX B200,用於AI模型訓練、微調和推理。

它包括8個Blackwell GPU和2個第五代Intel Xeon處理器,包含FP4精確度功能,提供高達144 petaflops的AI效能、1.4TB的GPU記憶體和64TB/s的記憶體頻寬。

這使得萬億參數模型的即時推理速度,比上一代產品增加了15倍。

使用者還可以使用DGX B200系統建構DGX SuperPOD,創建人工智慧卓越中心,為運行多種不同工作的大型開發團隊提供動力。

目前,亞馬遜、Google、微軟已成為最新晶片超算的首批使用者。

亞馬遜網路服務,將建立一個擁有20,000 GB200晶片的伺服器叢集。



「不只是一個晶片,更是一個平台」

自從ChatGPT在2022年底掀起AI熱潮以來,輝達的股價已經上漲了五倍之多,總銷售額增加了兩倍多。

因為輝達的GPU對於訓練和部署大型AI模型至關重要,微軟、Meta等大公司都已紛紛豪擲數十億購買。

如今各大公司和軟體製造商還在爭先恐後地搶購Hopper H100等晶片呢,GB200就已經出了。

老黃表示,Blackwell不是晶片,而是一個平台的名稱。

從此,輝達不再是晶片供應商,更像是微軟、蘋果這樣的平台供應商,可以讓其他公司在平台上建立軟體。

輝達副總裁Manuvir Das表示,GPU是可銷售的商業產品,而軟體,是為了幫助人們用不同的方式使用GPU。

雖然輝達現在仍然出售GPU,但真正不同的是,輝達現在有了商業軟體業務。


新軟體NIM,代表輝達的推理微服務。

NIM使得在輝達的任何GPU上運行程式都變得更容易,即使是可能更適合部署但不適合構建AI的舊GPU。

也就是說,假如一名開發者有一個有趣的模型,希望向人們推廣,就可以把它放到NIM。輝達會確保它可以在所有的GPU上運行,這樣模型的受眾就大大擴展了。

NIM使得部署AI變得更容易,這就更加增加了客戶使用輝達晶片的黏性。

並且,與新AI模型的初始訓練相比,NIM的推理需要更少的算力。

這樣,想要運行自己AI模型的公司,就能運行自己的AI模型,而不是從OpenAI等公司購買對AI結果的存取權。


需要購買基於輝達伺服器的客戶,需要註冊Nvidia企業版,每個GPU每年需要花費4,500美元。

輝達將與微軟或Hugging Face等人工智慧公司合作,確保他們的人工智慧模型經過調整,可以在所有相容的輝達晶片上運行。

然後,使用NIM,開發者可以在自己的伺服器或基於雲端的輝達伺服器上,高效運行模型,而無需冗長的配置過程。

Das介紹說,在自己呼叫OpenAI的程式碼中,他只取代了一行程式碼,就指向了NIM。

另外,NIM軟體也將幫助AI在配備GPU的筆記型電腦上運行,而不是在雲端的伺服器上。


NIM支援跨多個領域的AI用例,包括LLMs、視覺語言模型(VLM)以及用於語音、影像、視訊、3D、藥物發現、醫學影像等的模型。

AI API就是未來的軟體。在未來,所有LLM都可以從雲端獲取,從雲端下載,運行它的工作站。


終極生成式AI模型

而現在,整個產業都已經為Blackwell準備好了。

2012年,將一隻小貓的圖片輸入,AlexNet識別後輸出“cat”,讓世界所有人為之震驚,並高呼這改變了一切。


而現在從三個字“cat”輸出10 million 像素成為了可能。僅花了10年時間,我們就可以辨識文字、圖像、影片。

萬物皆可數位化。


網友表示,老黃向我們展示了GenAI的終極遊戲:多模態輸入-多模態輸出。

「這是我們總有一天都會使用的最終模型。它可以獲得任何模態並產生任何模態。同時,它還能在沒有每個部件的情況下工作」。


數位化的目的是讓所有的目標都能成為機器學習的目標,讓它們都能被AI生成。

例如,數位孿生地球,可以很好地幫助我們了解全球氣象氣候的變化。


將基因、蛋白質、胺基酸數位化,可以讓人類去理解生命的力量。


在大會接近尾聲時,活動迎來了一個小高潮:WALL-E機器人也登台表演了。


而生成式AI的未來應用不僅於此。

現在,有了世界最強的處理器Blackwell,新一輪科技革命即將開啟。(新智元)


參考資料:

https://youtu.be/Y2F8yisiS6E?list=TLGGFIbdOwQMZx4xODAzMjAyNA