【GTC大會】最全總結!黃仁勳140分鐘演講看這三個問題就夠了;新品B300Ultra和Rubin期貨;CUDA庫成重頭戲、Groot成MVP



今年GTC大會,老黃的主題演講聊了很長時間,一個人撐起了相當於一部電影那吒2的時長,近140分鐘。用黃仁勳開場自己的話說:“沒有指令碼,沒有提詞器,卻有很多令人難以置信的事情要跟大家談。”

先說整體感受,老黃這次科普密度極大,可以說是最為賣力的一次演講。


開場靈魂拷問:推動AI發展的三個問題

跟去年不同的是,黃教主這次沒有上來就開大,而是在簡單介紹了感知AI、生成AI、代理AI、物理AI之後,拋出了一個靈魂拷問:究竟是什麼推動了每一波、每一階段人工智慧的發展?



老黃也沒沒賣關子,他認為,這涉及三個基本問題。

第一個是,如何解決資料問題?這很重要,因為人工智慧是一種資料驅動的電腦科學方法,它需要資料來學習,需要數字型驗來獲取知識。

第二個問題是,如何在沒有人工干預的情況下解決訓練問題?人工干預從根本上來說是具有挑戰性的,因為我們的時間有限,而我們希望人工智慧能夠以超越人類的速度學習,以超越即時的速度學習,並且能夠以人類無法跟上的規模進行學習。第二個問題是,如何訓練模型?

第三個問題是,如何實現規模化?如何找到一種演算法,使得無論提供多少資源,都能實現規模化的增長?

可以說接下來的一些列的演講內容,全都是從這三個問題為經緯來展開的。


CUDA為何繞不開?

黃仁勳:CUDA加速庫是AI時代的SQL



就像我們需要一個AI框架來建立人工智慧並加速AI框架一樣,你需要物理、生物、各種不同量子物理等計算科學的庫和框架。輝達為此開發了CUDA加速庫,為這些科學領域的加速框架。

所以第一個庫是令人驚嘆的。比如大家熟知的全球下載量第一的Python庫:NumPy(去年下載量達到4億次),輝達早已做出了CUDA加速版:cuPy Numeric。cuPy Numeric是NumPy的零改動加速替代品,呼叫速度將會更快。

第二個被老黃安利的是cuLitho庫,這是一個計算光刻庫。在過去的四年裡,輝達已經將整個光刻計算過程整合進來。“光刻是晶片製造的第二個工廠。一個工廠用於製造晶圓,還有一個工廠用於製造晶圓的製造資訊。每個擁有工廠的行業和公司未來都將有兩個工廠:一個用於生產產品,一個用於數學計算,人工智慧。汽車工廠、汽車人工智慧工廠、智能音箱工廠、智能音箱人工智慧工廠……所以cuLitho是我們的計算光刻庫,得到了TSMC、三星、ASML等合作夥伴以及Synopsys、Mentor等公司的大力支援。”

黃仁勳補充道,光刻領域已經到了臨界點,再過五年,每一片掩膜、每一次光刻都將通過Nvidia CUDA進行處理。訊號處理是我們非常擅長的領域。一旦我們做到這一點,我們就可以在其基礎上加入AI,也就是我們所說的AI RAN(無線接入網路)。下一代無線網路將深度嵌入人工智慧。

黃仁勳甚至對這項技術期望很大:

為什麼我們會被資訊理論的極限所限制?因為我們只能獲取有限的資訊頻譜。但如果加入AI,進行數值或數學最佳化,情況就不一樣了。

幾乎每個行業都使用這種技術,無論是規劃航班座位、庫存和客戶、工人和工廠、司機和乘客等,我們總是面臨多種約束條件、大量變數,而你需要最佳化的是時間、利潤、服務質量、資源使用等等。Nvidia在我們的供應鏈管理中也使用了這種技術。

Co-Opt是一個令人驚嘆的庫。它將原本需要數小時的工作縮短到幾秒鐘。這非常重要,因為它使我們能夠探索更大的空間。宣佈將開源Co-Opt。

此外,還有很多加速計算的CUDA庫。比如還有用於張量收縮的Co-Equivariance和cuTENSOR,用於基因測序和基因分析的Parabricks,以及全球領先的醫學成像庫Monai,用於高解析度局部天氣預測的Earth2,以及用於對CAE(電腦輔助工程)的cuDSS等。

值得注意的是,用於量子計算的cuQuantum庫,黃仁勳透露,輝達正在與生態系統中的幾乎每個人合作,幫助他們研究量子架構、量子演算法,或者建構經典加速的量子異構架構。

CUDA這個事實上的AI技術堆疊,已經通過這些加速庫被整合到生態系統的不同部分,包括軟體和基礎設施,這也造就了今天大模型領域難以繞開輝達的深層原因。

老黃將CUDA庫比喻成上個IT時代的SQL——

“服務提供商(CSP)喜歡我們的前沿技術,也喜歡我們完整的解決方案,因為正如我之前解釋的,加速計算不僅僅是晶片,甚至不僅僅是晶片和庫,而是晶片、程式設計模型以及在其之上的一整套軟體。整個堆疊極其複雜,每一個層級、每一個庫都相當於SQL。SQL,正如你們所知,是儲存計算領域的一場大革命,由IBM推動。SQL只是一個庫,想像一下我剛剛給你們展示的那些庫,而在人工智慧領域,還有更多。所以這個堆疊是複雜的。”


輝達十年前就開始了自動駕駛的合作

發佈汽車安全系統:Halos



最早採用人工智慧的行業之一是自動駕駛汽車。從老黃看到AlexNet的那一刻,就已經決定輝達全力以赴地開發自動駕駛汽車。“所以,我們已經研究自動駕駛汽車超過十年了。”

黃仁勳甚至把跟自動駕駛汽車具體的合作內容說了個遍。

輝達開發的技術被幾乎所有自動駕駛汽車公司使用。它可能用於資料中心,例如,特斯拉在資料中心使用了大量的Nvidia GPU;也可能用於汽車本身。Waymo和Wave在資料中心和汽車中都使用了Nvidia的電腦。有時也可能只用於汽車,雖然這種情況比較少見,或者他們使用了我們所有的軟體。

此外,輝達與汽車行業的合作方式取決於後者的需求。“我們建構了三種電腦:訓練電腦、模擬電腦和自動駕駛汽車電腦,以及所有在其之上的軟體棧、模型和演算法,就像我在前面提到的其他行業一樣。”

黃仁勳講到這裡,丟出了一個合作的消息——通用汽車(GM)選擇與Nvidia合作,共同打造他們未來的自動駕駛汽車車隊。

此外,老黃還重點花了一些時間介紹了自己非常自豪但外界卻很少關注的領域發佈:汽車安全系統“Halo”。安全需要從晶片到系統的技術,包括系統軟體、演算法、方法論,從多樣性到確保多樣性、監控和透明性、可解釋性,所有這些不同的理念都必須深深融入到系統和軟體開發的每一個環節中。

“我們是世界上第一家對每一行程式碼進行安全評估的公司,700萬行程式碼經過第三方評估,以確保其設計能夠保證多樣性、透明性和可解釋性。我們還申請了超過1000項專利。”

老黃還在這一part展示了如何訓練一個靠譜的自動駕駛大模型的過程,感興趣的朋友不妨一看:

Nvidia正在通過Omniverse和Cosmos加速自動駕駛汽車(AV)的AI開發。Cosmos的預測和推理能力支援端到端可訓練的AI優先AV系統,採用新的開發方法,如模型蒸餾、閉環訓練和合成資料生成。

首先是模型蒸餾,將策略模型適應為Cosmos的策略模型。將駕駛知識從一個較慢但更智能的教師模型轉移到一個更小、更快的學生模型,以便在汽車中進行推理。教師的策略模型展示了最佳軌跡,隨後學生模型通過迭代學習,直到其表現幾乎與教師模型相當。

蒸餾過程啟動了策略模型,但複雜場景需要進一步調整。閉環訓練能夠對策略模型進行微調。

日誌資料被轉化為3D場景,用於在基於物理的模擬中進行駕駛閉環,使用Omniverse神經重建。這些場景的變體被建立出來,以測試模型的軌跡生成能力。Cosmos行為評估器隨後可以對生成的駕駛行為進行評分,以衡量模型性能。新生成的場景及其評估建立了一個大型資料集,用於閉環訓練,幫助AV更穩健地應對複雜場景。

最後,3D合成資料生成增強了AV對多樣化環境的適應性。從日誌資料中,Omniverse通過融合地圖和圖像建構詳細的4D駕駛環境,並生成現實世界的數字孿生,包括分割以指導Cosmos對每個像素進行分類。Cosmos隨後通過生成精準且多樣化的場景來擴展訓練資料,彌合模擬與現實之間的差距。Omniverse和Cosmos使AV能夠學習、適應並智能駕駛,推動更安全的出行。



AI超級電腦:坦承向上擴展已達到了極限

現在需要向外擴展

關於資料中心,黃仁勳點讚了Hadoop的工作。“Hadoop是一個革命性的想法,它使超大規模資料中心能夠使用現成的電腦解決巨大的問題。”

但緊接著老黃就道出了問題——我們試圖解決的問題如此複雜,如果按照那種方式擴展,成本將過高,能源消耗也會過大,深度學習將永遠不會發生。因此,我們必須先向上擴展。



上一代系統架構被稱為HGX,它徹底改變了我們所知的計算,徹底改變了人工智慧。

黃仁勳展示道,這是2個Blackwell GPU在一個Blackwell封裝中,兩個,下面有8個這樣的封裝,它們連接到我們稱之為NVLink 8的系統,然後連接到一個CPU機架,上面有兩個CPU,通過PCI Express連接,然後通過InfiniBand連接多個這樣的系統,形成一台人工智慧超級電腦。

這就是過去的方式,這就是我們開始的方式。



這就是我們在向外擴展之前能夠向上擴展的極限,但我們還想進一步向上擴展。

黃仁勳表示,此前宣佈的Ranger將這個系統進一步向上擴展了4倍,所以我們有了NVLink 32,但這個系統太大了,所以我們必須做一些相當了不起的事情,重新設計NVLink的工作方式以及向上擴展的方式。

因此,我們首先要做的是,需要把嵌入在這個系統主機板上的NVLink交換機與NVLIink系統分離出來。分離出來的NVLink交換機被放在機箱的中心。通過將18個這樣的交換機,分佈在9個不同的機架中。而計算部分則放在另一處,通過液體冷卻的方式,我們可以將所有這些計算節點壓縮到一個機架中。這是整個行業的重大變化。

展示中的NVLink交換機是世界上性能最高的交換機,它使得每個GPU都能夠以全頻寬同時與其他每個GPU通訊。

據黃仁勳透露,這樣一台機架,包含60萬個零部件,這相當於20輛車的零部件,全部整合到一台超級電腦中。而這正是輝達的實現的一個目標——

整合的NVLink轉變為分離的NVLink,從風冷轉變為液冷,從每台電腦大約6萬個元件轉變為每個機架60萬個元件。120千瓦,完全液冷。

所有這些難題,輝達全部搞定了。

那為什麼要花如此大的力氣做這樣的機器?

黃仁勳揭示了現下AI大模型在實際應用中,廠商們所面臨的二維困境:一方面希望大模型儘可能多的生成token(收入按token計費),另一方面,又希望儘可能更快地完成,因為如果你回答問題的時間過長,客戶就不會再回來了。因此,你的令牌速率很重要。

而事實上,解決生產環境下最好的答案是:你應該擁有大量的浮點運算能力、大量的頻寬、大量的記憶體,還有最好的架構、最高的能效。你必須有一個程式設計模型,讓你能夠在所有這些極其複雜的裝置上運行軟體,以便實現這一切。

這裡,老黃展示一個部署滿血版Deepseek R1的例子。

你可以使用張量平行:你可以將模型的一層在多個GPU上運行;你可以將流水線的一部分切片,稱之為流水線平行,並將其放在多個GPU上;你可以將不同的專家放在不同的GPU上,我們稱之為專家平行。流水線平行、張量平行和專家平行的組合,其組合數量是驚人的。

你有時也會針對極低的延遲進行最佳化。有時你會嘗試針對吞吐量進行最佳化。因此,你需要進行一些飛行中的批處理,許多不同的批處理和工作聚合技術。因此,這些人工智慧工廠的作業系統極其複雜。

那麼,有一個觀察結果,擁有像NvLink72這樣的同構架構是一件非常棒的事情,因為每一個GPU都能做到我剛才描述的所有事情。



一方面,模型廠商希望自家的token速率儘可能快,這樣就能製造出真正聰明的人工智慧,而如果有了聰明的人工智慧,人們會為其支付更多的錢。但另一方面,人工智慧越聰明,你在從volume上就越難盈利。



在以Llama3和DeepSeek R1模型對比的演示中,後者輸出了20倍的token數量和150倍的計算性能。



黃仁勳還提出了一個重要的觀點,未來每一個資料中心都將是功率受限的,你的收入也將是功率受限的。你可以根據你擁有的功率來計算你的收入。基於這一點,你必須確保你擁有儘可能高效的計算架構。



所以,企業老闆們實質上是要在最大吞吐量和人工智慧的質量、最聰明的人工智慧、最多的產出之間找到帕累托最優。

黃仁勳指出,在等功率的情況下,Blackwell遠遠優於Hopper。

“這不是等晶片,也不是等電晶體,而是等功率,這是終極的摩爾定律。我們能在一個資料中心中獲得的功耗是有限的,所以在等功率的情況下,Blackwell是Hopper的25倍,這太不可思議了,這就是有趣的部分。”

圖中右上方,可以看到有成千上萬的組態點,黃仁勳解釋道,這代表著我們可以將資料中心組態成不同的方式。我們可以平行化和分割工作,並以許多不同的方式分配工作,而我們找到了最佳化的答案,這就是帕累托前沿。每一種組態,因為顏色的不同,都顯示了不同的組態,這就是為什麼這張圖片非常清楚地表明,你想要一個儘可能可程式設計的架構,儘可能同質化、可互換,因為工作負載在整個前沿的變化是如此劇烈。


Blackwell Ultra & Rubin 晶片

氣氛已經鋪墊足了,黃仁勳終於開始帶貨了!相信大家最為期待的還是新款GPU和晶片的發佈。

今年下半年,我們將輕鬆過渡到升級版。所以,我們有Blackwell Ultra Nv Link 72,它的浮點運算性能是原來的1.5倍,增加了新的注意力指令,記憶體增加了一半。所有這些記憶體都適用於像Kv快取這樣的東西,網路頻寬增加了兩倍。既然我們有了相同的架構,我們就可以順利地過渡到這個新版本,這被稱為Blackwell Ultra。”

至於為什麼又不是現貨?

黃仁勳解釋道,建造AI工廠和AI基礎設施,這需要多年的規劃。“這可不是買筆記型電腦,這不是隨意的支出,這是我們必須提前規劃的支出。因此,我們必須提前規劃土地和電力供應,準備好我們的資本支出,組建工程團隊,並提前兩三年進行佈局,這也是我提前兩三年向你們展示路線圖的原因。”

所以,我們計畫在未來幾年內推出多個產品。明年推出的產品是以一位天文學家的名字命名的,她的孫輩們今天也來到了現場,她的名字是Vera·Rubin(薇拉·魯賓),她發現了暗物質。



Vera·Rubin,因為它的CPU性能是上一代Grace的兩倍,記憶體更多,頻寬更大,而它卻只是一個小小的50瓦CPU,這真的很令人驚嘆。

Rubin主打一個全新。採用了全新的14✖️GB300、全新的網路NV Link144、全新的記憶體HBM 4e。用老黃的話說,基本上除了機箱,其他一切都是全新的。

不過Rubin的發佈,得明年下半年推出。


One more thing

正如往期大會,黃仁勳總是喜歡在演講最後用機器人壓軸。這一次老黃用GROOT N1來結束了這場演講,憨態可掬的步伐和表情,也賺足了現場的掌聲。



Isaac GR00T N1,號稱全球首個開放原始碼的、完全可定製的人形機器人基礎模型。它採用雙系統架構,靈感來自人類思考模式,包括快速思考的動作模型(System 1)和慢速思考的決策模型(System 2)。

據悉,GR00T N1 現已上市,是輝達將預訓練並行布給全球機器人開發人員的一系列完全可定製模型中的第一個。Groot N1 是輝達 Project Groot 的演進版本,該公司在去年的 GTC 大會上推出了該項目。Project Groot 面向工業用例,但 Groot N1 將重點擴大到各種不同外形的人形機器人。



黃仁勳最後表示:“通用機器人時代已經到來。借助 NVIDIA Isaac GR00T N1 以及新的資料生成和機器人學習框架,世界各地的機器人開發人員將開拓 AI 時代的下一個前沿。”

最後,天亮了,小編看了下輝達的市值:

只能說輿情向好,但市值還是小跌了。 (51CTO技術堆疊)