黃仁勳的最新演講,值得全球人工智慧從業者聆聽

輝達公司作為全球人工智慧產業的基石,其創辦人黃仁勳的演講值得全行業聆聽。


1

時代定調:兩大「平台轉移」與AI的重塑之力

拉斯維加斯,新年快樂!歡迎來到CES。

大約每十到十五年,電腦產業就會經歷一次重置。平台會發生一次根本性的轉變,從大型主機到個人電腦,再到網路、雲端運算、行動裝置。每一次,應用生態都會瞄準一個新的平台,這就是所謂的「平台轉移」。每次,你都要為新的運算平台編寫新的應用程式。但這一次,事實上,有兩個平台轉移在同時發生。

當我們邁向人工智慧時代時,應用程式將建構在AI之上。起初,人們認為AI本身就是應用,事實也確實如此。但未來,你將要在AI之上建立應用程式。除此之外,軟體的運作方式和開發方式也發生了根本性改變。

電腦工業的整個基礎技術堆疊正在被重新發明。你不再「編程」軟體,而是「訓練」軟體;你不再在CPU上運行它,而是在GPU上運行它。過去的應用程式是預先錄製、預先編譯並在你的裝置上運行的,而現在的應用程式能夠理解上下文,每一次、每一個像素、每一個token都是從零開始生成的。由於加速運算,由於人工智慧,計算已經被徹底重塑。那個「五層蛋糕」(指技術棧)的每一層如今都在重新發明。

這意味著,過去十年累積的價值約十億美元的電腦基礎設施,現在正被現代化改造,以適應這種新的計算方式。每年有數千億甚至上兆美元的創投正在湧入,用於現代化改造和發明這個新世界。


這也意味著,一個百兆美元規模的產業,其研發預算中有幾個百分點正在轉向人工智慧。人們問錢從那裡來?這就是來源。從傳統AI到現代AI的現代化改造,研發預算從經典方法轉向現在的人工智慧方法,海量投資正湧入這個行業,這解釋了為什麼我們如此忙碌。

過去這一年也不例外。 2025年是不可思議的一年。看起來似乎所有事情都在同一時間發生,事實上可能也是如此。第一件事當然是擴展定律(Scaling Laws)。 2015年,我認為第一個真正會產生影響的模型BERT出現了,它確實帶來了巨大影響。

2017年,Transformer架構問世。直到五年後的2022年,「ChatGPT時刻」才發生,它喚醒了世界對人工智慧可能性的認識。那之後一年發生了一件非常重要的事。 ChatGPT的第一個推理模型o1面世,「測驗時縮放」這個概念也隨之產生。

我們不僅預訓練讓模型學習,還在後訓練階段透過強化學習讓它學習新的技能。現在我們還有了測試時縮放,這本質上是「思考」的另一種說法,包括即時進行思考。人工智慧的每個階段都需要龐大的計算量,而計算定律仍在持續擴展,大語言模型持續變得更好。



2

開源革命:前沿模型與智能體普及

同時,另一個突破發生了,這個突破發生在2024年:智能體系統開始出現。到2025年,它開始普及,擴散到幾乎每個角落。具備推理能力、能找到資訊、進行研究、使用工具、規劃未來、模擬結果的智能體模型,突然開始解決非常重要的問題。我最喜歡的智能體模型之一叫做Cursor,它徹底改變了輝達內部的軟體開發方式。智能體系統將真正從這裡起飛。

當然,還有其他類型的AI。我們知道大語言模型並不是唯一的資訊類型。宇宙中凡有資訊之處、凡有結構之處,我們都能教一種語言模型去理解那種訊息,理解其表徵,並將其轉化為一種AI。其中最重要的一種是物理AI,也就是能夠理解自然定律的AI。當然,物理AI也涉及AI與世界互動。但世界本身蘊含著被編碼的訊息,這就是「AI物理」。在物理AI的脈絡下,你有與物理世界互動的AI,也有理解物理定律物理AI。

最後,去年發生的最重要事情之一是開源模型的進步。我們現在可以知道,當開源、當開放創新、當全世界每個產業、每家公司的創新同時被啟動時,AI將無所不在。同時,開源模型在2025年真正起飛了。

事實上,去年我們看到了DeepSeek R1的進步,這是第一個開源推理系統。它讓世界大吃一驚,現在世界各地有各種不同類型的開源模型系統。開源模型已經達到了前沿水平,雖然仍落後前沿模型大約六個月,但每六個月就有新模型出現,而且這些模型越來越聰明。


正因為如此,你可以看到開源模型的下載量呈現爆炸性成長,因為新創公司、大公司、研究員、學生,幾乎每個國家都想參與AI革命。

智能——數位形式的智能——怎麼可能拋下任何人呢?因此,開源模型去年真的徹底改變了人工智慧,而整個產業將因此重塑。

其實我們對此早有預感。你可能聽說過,幾年前,我們開始建造和營運自己的AI超級電腦——DGX Cloud。很多人問,你們要進軍雲端運算業務嗎?答案是否定的。我們建造這些DGX超級電腦是供自己使用的。結果是,我們有數十億美元的超算在運行,以便開發我們的開源模型。

它開始吸引全球各行各業的關注,因為我們在眾多不同領域進行著前沿的AI模型工作:我們在蛋白質、數位生物學(La Proteina)方面的工作,用於合成和生成蛋白質;OpenFold 3,用於理解蛋白質結構;EVO 2,用於理解和生成多種蛋白質;以及開源的細胞表徵模型的開端。

Earth-2 AI,理解物理定律的AI;我們在ForecastNet方面的工作;我們在Cordiff方面的工作,真的徹底改變了人們進行天氣預報的方式。 Nemotron,我們現在正在那裡進行開創性的工作。第一個混合Transformer SSM模型,速度快得驚人,因此可以進行長時間思考,或者快速思考(不那麼長時間)並產生非常非常聰明的答案。你們可以期待,我們在不久的將來發布Nemotron 3的其他版本。


Cosmos,一個前沿的開放世界基礎模型,理解世界如何運作。 Groot,一個人形機器人系統,涉及關節控制、移動性、運動。這些模型,這些技術現在正在被集成,並且在每一種情況下,都對世界開源。今天,我們也將談談Alpamayo,我們在自動駕駛汽車方面所做的工作。

我們不僅開源模型,還開源用於訓練這些模型的數據,因為只有這樣,你才能真正信任模型的產生過程。我們開源所有模型,我們幫助你基於它們進行衍生開發。我們有一整套庫,稱為NeMo庫:物理NeMo庫、Clara NeMo庫、BioNeMo庫。每一個都是AI的生命周期管理系統,讓你能夠處理資料、產生資料、訓練模型、建立模型、評估模型、為模型設定防護欄,一直到部署模型。每一個函式庫都極為複雜,而且全部開源。


因此,在這個平台之上,輝達也是一個前沿AI模型構建者,我們以一種非常特殊的方式構建:我們完全以開放的方式構建,以便讓每家公司、每個行業、每個國家都能成為這場AI革命的一部分。

這些模型不僅具備前沿能力、是開源的,它們還在各類排行榜上名列前茅。我們有理解多模態文件(即PDF)的重要模型。世界上最有價值的內容都儲存在PDF中,但需要人工智慧來發現裡面有什麼、解讀內容並幫助你閱讀。

因此,我們的PDF檢索器、PDF解析器是世界級的。我們的語音辨識模型絕對是世界級的。我們的檢索模型,本質上是現代AI時代的搜尋、語意搜尋、AI搜尋、資料庫引擎,也是世界一流的。所以我們經常佔據榜首。

這一切都是為了服務你建構AI智能體的能力。這真是一個開創性的發展領域。當ChatGPT剛出現時,人們認為其產生的結果很有趣,但幻覺也很嚴重。產生幻覺的原因在於,它可以記住過去的一切,但無法記住未來和當下的一切。所以它需要基於研究來「接地氣」。

在回答問題之前,它必須進行基礎研究。能夠推理是否需要研究、是否需要使用工具、如何將問題分解成更多步驟。 ChatGPT能夠將這些步驟組合成一個序列,來完成它從未做過、從未被訓練過的事情。這就是推理的魔力所在。我們可以遇到從未見過的情況,並將其分解成我們過去經歷過、知道如何處理的情況、知識或規則。


因此,AI模型現在具備的推理能力極為強大。智能體的推理能力為所有這些不同的應用打開了大門。我們不再需要在第一天就訓練AI模型知道一切,就像我們不需要在第一天就知道一切一樣。我們應該能夠在任何情況下,推理出如何解決某個問題。大語言模型現在已經實現了根本的飛躍。

使用強化學習、思維鏈、搜尋、規劃等不同技術和強化學習的能力,使我們具備了這種基本能力,現在也完全開源了。

但真正了不起的是,另一個突破發生了,我第一次看到它是在Perplexity(AI搜尋公司)那裡。我第一次意識到他們同時使用多個模型。我認為這完全是天才之舉。 AI在推理鏈的任何環節,能調用世界上所有優秀的AI來解決它想解決的問題。這就是為什麼AI本質上是多模態的,它們理解語音、圖像、文字、視訊、3D圖形、蛋白質。

它也是「多模型」的,這意味著它們應該能夠使用最適合任務的任何模型。因此,它本質上是「多雲」的,因為這些AI模型位於所有這些不同的地方。它還是「混合雲」的,因為如果你是一家企業公司,或者你建立了一個機器人或任何設備,有時它在邊緣,有時在無線基地台,有時在企業內部,或者是在醫院等需要即時處理數據的地方。換言之,由於未來的應用建構在AI之上,這就是未來應用的基本架構。


這個基本框架,這種能夠完成我所描述的、具備多模型能力的智能體AI的基本結構,現在已經大大推動了各類AI新創公司的發展。

透過我們開源的模型和工具,現在你也可以輕鬆自訂自己的AI,教導它那些獨一無二的技能。這正是我們開發Nemotron、NeMo等開源模型的目標。你只需要在AI前面加上一個智慧路由管理器,它會根據你的指令,自動選擇最適合的模型來解決問題。

這樣的架構帶來什麼?你得到的AI既能完全按你的需求定制,可以教它公司特有的技能,這些可能正是你的核心優勢,而且你也有對應的數據和專業知識去訓練它;同時,它又能始終保持技術領先,隨時用上最新的能力。

簡單來說,你的AI既能高度個人化,又能即開即用,始終保持在前沿。

為此,我們做了一個最簡單的範例框架,叫“AI Route Blueprint”,已經整合到全球多家企業的SaaS平台中,效果很不錯。

這是不是很不可思議?使用語言模型。使用預先訓練好的、專有的、前沿的語言模型,與定制的語言模型結合到一個智能體框架、一個推理框架中,允許你訪問工具和文件,甚至可能連接到其他智能體。這基本上就是AI應用或現代應用的基本架構,而我們創建這些應用的能力非常快。

請注意,即使你給它從未見過的應用程序信息,或者以一種並非完全如你所想的結構呈現,它仍然能進行推理,並盡最大努力通過數據和信息去嘗試理解如何解決問題。這就是人工智慧。

這個基本框架現在正在被整合,而我剛才描述的一切,我們有幸與一些世界領先的企業平台公司合作。例如Palantir,他們整個AI和資料處理平台正在集成,並由輝達加速。還有世界領先的客戶服務和員工服務平台ServiceNow、全球頂級的雲端資料平台Snowflake。 CodeRabbit,我們在輝達內部廣泛使用。 CrowdStrike,正在創建AI來偵測和發現AI威脅。 NetApp,他們的資料平台現在上面有輝達的語意AI,以及智慧體系統,用於客戶服務。

但重要的是:這不僅是你現在開發應用程式的方式,它也將成為你平台的使用者介面。所以,無論是Palantir、ServiceNow或Snowflake,以及我們正在合作的許多其他公司,智能體系統就是介面。它不再是在方格里輸入訊息的Excel,也許也不再只是命令列。現在,所有這些多模態資訊互動都成為可能。你與平台互動的方式變得更加簡單,就像你在與人互動一樣。因此,企業AI正被智能體系統徹底改變。




3

物理AI突圍:教會機器理解與互動真實世界

下一件事是物理AI。這是你們聽我談論了好幾年的領域。事實上,我們已經為此工作了八年。問題是:如何將電腦內透過螢幕和揚聲器與你互動的智能體,變成能與世界互動的智能體?這意味著它能理解世界運作的常識:物體恆存性(我移開視線再回來,物體還在那裡)、因果關係(我推它,它會倒下)。

它理解摩擦力、重力以及慣性,知道一輛重型卡車在路上行駛需要更多時間才能停下,一個球會繼續滾動。這些想法對小孩來說都是常識,但對AI來說完全是未知的。因此,我們必須創建一個系統,讓AI能夠學習物理世界的常識、學習其規律,當然也能從數據中學習。而數據相當稀缺。並且需要能夠評估AI是否有效,這意味著它必須在環境中進行模擬。如果AI沒有能力模擬物理世界對其動作的回饋,它怎麼知道自己執行的動作是否符合預期?


這個基本系統需要三台電腦:一台是我們熟知的、輝達製造的用於訓練AI模型的電腦;第二台是用於推理模型的電腦。推理模型本質上是在汽車、機器人、工廠或任何邊緣地方運行的機器人計算機;但必須有另一台為模擬設計的計算機,因為模擬是輝達幾乎所有事情的核心,這是我們最得心應手的地方。模擬確實是我們所做的一切物理AI工作的基礎。

所以我們有三台計算機,以及運行在這些計算機上、讓它們變得有用的多個技術棧和函式庫。Omniverse是我們的數位孿生、以實體為基礎的類比世界。 Cosmos是我們的基礎模型,不是語言基礎模型,而是世界基礎模型,也與語言對齊。你可以問“球怎麼樣了?”,它會告訴你球正在街上滾動。當然,還有機器人模型,我們有兩個:一個叫Groot,另一個叫Alpamayo。


對於實體AI,我們必須做的最重要的事情之一就是創建資料來訓練AI。這些數據從何而來?不像語言那樣,因為我們創造了一堆被認為是「真實情況」的文本,AI可以從中學習。我們如何教導AI物理世界的「真實情況」?儘管有大量的視頻,但遠遠不足以捕捉我們需要的交互的多樣性和類型。

因此,一些偉大的頭腦聚集在一起,將原本用於計算的資源轉化為數據。現在,利用以物理定律為基礎和條件、以真實情況為基礎和條件的合成數據生成技術,我們可以選擇性地、巧妙地生成數據,然後用來訓練AI。例如,我們可以利用Cosmos基礎模型,產生基於物理、物理上合理的環繞視頻,AI現在可以從中學習。

我知道這很不可思議。 Cosmos是世界領先的基礎模型、世界基礎模型。它已被下載數百萬次,在世界各地使用,讓世界為這個物理AI的新時代做好準備。我們自己也在使用它,用它來創建我們的自動駕駛汽車系統,用於場景生成和評估。透過電腦模擬,我們能夠有效地行駛數十億、數兆公里。

今天,我們宣布推出Alpamayo,世界上首個會思考、會推理的自動駕駛汽車AI。 Alpamayo是端到端訓練的,從相機輸入到驅動輸出。訓練資料包括它自己行駛的大量里程、人類駕駛示範,以及由Cosmos產生的大量里程。除此之外,還有數十萬個非常仔細標記的例子,以便我們教導汽車如何駕駛。

Alpamayo獨特之處在於。它不僅接收感測器輸入並驅動方向盤、煞車和加速器,還會推理它即將採取什麼行動。它會告訴你它將採取什麼行動,採取該行動的原因,當然還有軌跡。所有這些都直接耦合,並透過人類訓練資料和Cosmos生成資料的巨大組合進行專門訓練。結果非常不可思議。

不僅汽車能像你期望的那樣駕駛,而且駕駛得非常自然,因為它直接從人類示範中學習。但在每一個場景中,當它遇到某個場景時,它會進行推理,告訴你它將做什麼,並推理它為什麼要做。這之所以如此重要,是因為駕駛的「長尾」問題。

我們不可能簡單地收集世界上每個國家、每種情況、所有人口可能遇到的所有可能的場景。然而,每個場景如果被分解成一系列較小的場景,很可能都是相當常見的、你能理解的。因此,這些長尾場景將被分解成汽車知道如何處理的相當常見的情況,它只需要進行推理。

我們八年前就開始研發自動駕駛汽車了。原因在於我們很早就意識到,深度學習和人工智慧將徹底重塑整個運算技術堆疊。如果我們想要理解如何引領自己、如何指引產業走向這個新未來,就必須精通建構整個技術堆疊。




4

運算躍進:Rubin平台與全端晶片的終極重構

正如我之前提到的,AI是一個「五層蛋糕」。最底層是土地、電力和外殼。在機器人領域,最底層就是汽車本身。往上一層是晶片:GPU、網路晶片、CPU等等。再往上是基礎設施層。在實體AI這個具體案例中,基礎設施就是Omniverse和Cosmos。然後在上層是模型層。我剛剛展示的模型就屬於這一層,這個模型叫做Alpamayo。今天,Alpamayo正式開源了。

我們設想有一天,道路上的十億輛汽車都將自動駕駛。你可以選擇租用別人經營的自動駕駛計程車,也可以擁有自己的車讓它為你駕駛,或選擇自己駕駛。但每一輛車都將具備自動駕駛能力。每一輛車都將由AI驅動。所以在這個案例中,模型層是Alpamayo,而應用層之上就是梅賽德斯-奔馳汽車。

總而言之,這個技術堆疊是輝達首次嘗試建立的完整技術堆疊。我們一直為此努力,非常高興輝達的首款自動駕駛汽車將於第一季在美國上路,然後歐洲是第二季度,亞洲可能是第三、第四季。強大之處在於,我們將持續以Alpamayo的後續版本進行更新。

毫無疑問,在我看來,這將成為最大的機器人產業之一。它教會了我們大量關於如何幫助世界其他地區建立機器人系統的深刻理解。透過自己建造整個基礎設施,我們知道了機器人系統需要什麼樣的晶片。

在這個具體案例中,是下一代雙Thor處理器。這些處理器專為機器人系統設計,具備最高等級的安全能力。梅賽德斯-奔馳CLA剛剛被NCAP評為世界上最安全的汽車。

據我所知,這是唯一一個每一行程式碼、晶片、系統都經過安全認證的系統。整個模型系統基於此,感測器是多樣且冗餘的,自動駕駛汽車技術堆疊也是如此。 Alpamayo技術堆疊是端到端訓練的,擁有驚人的技能。然而,除非無限期地駕駛,否則沒人知道它是否絕對安全。

因此,我們透過另一個軟體技術堆疊、一個完整的自動駕駛技術堆疊來為其設定防護欄。那個完整的技術堆疊被建構為完全可追溯的。我們花了大約五年(實際上是六、七年)來建造那個第二技術棧。這兩個軟體技術堆疊相互映照。

然後我們利用Alpamayo進行策略和安全評估。如果是一個我不太自信的情況,安全策略評估器決定我們將退回到一個更簡單、更安全的防護欄系統,那麼就回到經典的自動駕駛技術堆疊。這是世界上唯一同時運行這兩個自動駕駛技術堆疊的汽車。所有安全系統都應該具備多樣性和冗餘性。

我們的願景是,有朝一日每一輛汽車、每一輛卡車都將是自動駕駛的。我們一直朝著那個未來努力。這整個技術棧是垂直整合的。當然,在梅賽德斯-奔馳的案例中,我們一起建立了整個技術棧,我們將部署汽車、營運技術棧,只要我們還存在,就會維護這個技術棧。

然而,就像我們公司所做的其他一切一樣,我們建立整個技術棧,但整個技術堆疊對生態系統開放。與我們合作建造L4級和自動駕駛計程車的生態系統正在擴展,無處不在。我完全相信,這已經是我們的一項龐大業務,因為客戶用它來訓練、處理訓練數據,以及訓練他們的模型。在某些案例中,一些公司用它來產生合成數據。有些公司基本上只製造汽車內部的電腦和晶片,有些公司與我們進行全端合作,有些則合作部分環節。

整個系統現在是開放的。這將成為第一個大規模、主流的AI物理AI市場。從非自動駕駛汽車到自動駕駛汽車的轉折點,很可能就在此時開始,並在未來十年內發生。我相當確信,世界上很大比例的汽車將是自動駕駛或高度自動駕駛的。但是,我剛才描述的這個基本技術(使用三台電腦、利用合成資料產生和模擬),適用於所有形式的機器人系統。可能只是一個關節、一個機械手臂,可能是移動機器人,也可能是完整的人形機器人。所以,下一個旅程將是機器人。這些機器人將會有各種不同的尺寸。


這些機器人身上有微型Jetson計算機,它們是在Omniverse裡面訓練出來的。機器人模擬器叫Isaac Sim和Isaac Lab。 我們有很多建造機器人的朋友,包括New Robot、AG Bot、LG、卡特彼勒(他們有史上最大的機器人)、Serve Robot、Agility、波士頓動力、Franka以及Universal Robots等。

舉例來說,Cadence將CUDA-X整合到他們所有的模擬器和解算器中。他們將使用輝達的實體AI來進行不同的實體裝置和工廠模擬。 AI物理學正被整合到這些系統中。所以,無論是電子設計自動化還是系統設計自動化,以及未來的機器人系統,我們將擁有基本上與創造你們相同的技術,現在將徹底革新這些設計技術堆疊。

在晶片設計領域,Synopsys和Cadence是完全不可或缺的。 Synopsys在邏輯設計和IP領域領先,而Cadence在實體設計、佈局佈線、模擬和驗證方面領先。 Cadence在模擬和驗證方面做得非常出色。他們兩家都正在進入系統設計和系統模擬的領域。所以未來,我們將在Cadence和Synopsys內部設計晶片,並在這些工具內部模擬一切。

西門子也在做同樣的事情。我們將把CUDA-X物理AI、智能體AI、NeMo、Nemotron深度整合到西門子的世界。原因如下:首先,我們設計晶片,未來這一切都將由輝達加速。我們將有智能體晶片設計師和系統設計師與我們合作,他們幫助我們進行設計,就像我們今天有智能體軟體工程師幫助我們的軟體工程師編碼一樣。

然後我們必須能夠製造機器人。我們必須建造生產它們的工廠、設計組裝它們的生產線。而這些製造工廠本質上將是巨型機器人。所以,機器人將在電腦中被設計,在電腦中被製造,在電腦中被測試和評估。我們現在創造的技術已經達到了足夠成熟和強大的水平,可以反過來幫助他們徹底革新它們所在的行業。

放眼全球的模型格局,毫無疑問,OpenAI是當今領先的token生成器。今天,OpenAI產生的token數量遠遠超過其他任何模型。第二大群體,可能就是開源模型了。我猜隨著時間的推移,因為有這麼多的公司、如此多的研究人員、如此多不同類型的領域和模態,開源模型將成為規模最大的群體。


過程中,離不開Rubin。這個平台的誕生,是為了應對我們面臨的一個根本性挑戰:AI所需的運算量正在飆升,對輝達GPU的需求也在飆升。這種飆升是因為模型每年都在以10倍、一個數量級的規模增長。更不用說,o1模型的引入是AI的一個轉折點。推理不再是一次給出答案,現在是一個思考過程。為了教導AI如何思考,強化學習和極為大量的計算被引入了後訓練階段。它不再是監督式微調(也稱為模仿學習或監督訓練),現在有了強化學習,本質上是電腦透過自我嘗試不同迭代來學習如何執行任務。結果,用於預訓練、後訓練、測試時縮放的計算量爆炸性增長。

現在,我們進行的每一次推理,都可能產生2個token而不是1個,你可以看到AI在「思考」。它思考得越久,通常能給出更好的答案。因此,測試時縮放導致產生的token數量每年增加5倍。


同時,AI的競賽正在激烈進行中。每個人都在試圖達到下一個水平,登上新的前沿。而每當他們到達新的前沿,上一代AI生成token的成本就開始下降,降幅大約是10倍。每年下降10倍這件事實際上說明了不同的情況:它表明競賽如此激烈,每個人都在努力達到下一個水平,並且確實有人正在達到那個水平。

因此,所有這一切本質上都是一個計算問題。你計算得越快,就能越早達到下一個等級和前沿。所有這些事情都在同時發生,所以我們決定,必須每年都推進計算技術的水平,一年都不能落後。

我們一年半前出貨GB200。目前,我們正在進行GB300的大規模生產。如果Rubin想要在今年及時推出,它現在就必須已經投入生產。所以今天,我可以告訴你們:Rubin已進入全面生產階段。

我們也推出了基於Rubin架構的新一代運算叢集DGX SuperPOD,包含1152個GPU,分佈在16個機架中,每個機架有72個Rubin GPU。

我們設計了六種不同的晶片。首先,我們公司內部有一個原則:每一代新平台不應該有超過一兩個晶片發生變動。但問題來了:我們知道摩爾定律已經基本放緩,因此我們每年能獲得的晶體管數量,不可能跟上模型每年10倍的增長速度,不可能跟上每年生成的token數量5倍的增長,也不可能跟上令牌成本如此激進的下降速度。

如果產業要繼續前進,要跟上這樣的速度是不可能的。除非我們採用激進的極致協同設計,基本上就是在所有晶片、整個技術堆疊上同時進行創新。為此,我們決定,在這一代平台上重新設計每一個晶片。

首先是Vera CPU。在一個受功率約束的世界裡,它的性能是上一代的兩倍,每瓦性能是世界上其他最先進CPU的兩倍。它的數據速率是瘋狂的,專為處理超級電腦而設計。 Grace曾是一款出色的CPU,而Vera則將單線程效能、記憶體容量和所有方面都顯著提升了。這是一次巨大的飛躍。


Vera CPU連接到Rubin GPU!這是一個巨大的晶片,有88個CPU核心,這些核心設計為支援多線程。但Vera的多線程特性設計得讓176個線程中的每一個都能獲得其完整的效能,所以本質上就像有176個核心,但只有88個物理核心。這些核心採用了一種稱為空間多線程的技術設計,效能驚人。

其次是Rubin GPU。它的浮點性能是Blackwell的5倍,但電晶體數量只有Blackwell的1.6倍。這多少說明了當今半導體物理的層次。如果我們不進行協同設計,不在整個系統的每個晶片層面進行極致的協同設計,我們怎麼可能實現這種性能水平?

第三,我們做的一件偉大的發明叫做NVFP4 Tensor Core。我們晶片中的Transformer引擎不僅僅是我們放入資料通路的某種4位元浮點數,它是一個完整的處理器單元,懂得如何動態、自適應地調整其精度和結構,以處理Transformer的不同層次,從而在可以損失精度的地方實現更高的吞吐量,在需要的時候恢復到最高的可能精度。這種動態調整能力無法透過軟體實現,因為它運行得太快了。所以必須在處理器內部自適應地完成。這就是NVFP4的意義。

我們已經發表了關於NVFP4的論文。它所達到的吞吐量和精度保持水平是完全不可思議的。這是開創性的工作。未來產業希望我們將這種格式和結構定為業界標準,我一點也不會感到驚訝。這完全是革命性的。這就是為什麼我們能夠在電晶體數量僅增加1.6倍的情況下,實現如此巨大的效能飛躍。

第四,我們革新了整個HGX機殼。這個節點以前有43條電纜,現在0條;6條水管,現在0條。以前組裝這個要兩小時,現在只要五分鐘,而且100%液冷。

第五,將這些連接到頂層機架交換器、處理東西向流量的,叫做Spectrum-X網卡。這是世界上毫無疑問最好的網路卡。 Mellanox的演算法、晶片設計、所有互連、其上運行的所有軟體堆疊、RDMA,絕對是無與倫比的世界最佳。現在它還具有可編程的RDMA和資料路徑加速器功能,讓我們的合作夥伴(如AI實驗室)可以創建自己的演算法來決定如何在系統中移動資料。


第六,ConnectX-9和Vera CPU是協同設計的。眾所周知,ConnectX-8和Spectrum-X徹底改變了用於人工智慧的乙太網路技術。 AI的乙太網路流量密集得多,要求更低的延遲,流量的瞬時激增是傳統乙太網路從未見過的。所以我們創建了Spectrum-X,即AI乙太網路。兩年前我們宣布了Spectrum-X。今天,輝達已成為全球有史以來最大的網路公司。


它非常成功,在各種設施中廣泛使用,並席捲整個AI領域。其效能令人難以置信,尤其是當你擁有一個200兆瓦的資料中心,或一個千兆瓦的資料中心(價值數百億美元,一個千兆瓦資料中心大約500億美元)時。如果網路效能能讓你額外獲得10%的收益——以Spectrum-X為例,實現25%更高的吞吐量並不罕見——僅是10%的提升,就價值50億美元。等於網路成本完全免費了。這就是為什麼每個人都在使用Spectrum-X的原因。

第七,現在,我們發明了一種新型的資料處理方式,它的處理器叫做BlueField-4,允許我們管理一個非常龐大的資料中心,隔離其不同部分,以便不同使用者可以使用不同部分,確保所有資源在需要時都可以虛擬化。這樣,你就能卸載許多虛擬化軟體、安全軟體以及南北向流量的網路軟體。所以,BlueField-4是每個計算節點的標準配置。

第八是NVLink-6交換器。每個機架交換器裡面有四個晶片,每顆晶片都有史上最快的SerDes。世界才剛達到200Gb/s,而這是每秒400Gb/s的交換器。這之所以如此重要,是因為它能讓每個GPU都能同時與其他所有GPU進行通訊。這個位於機架背板上的交換機,使我們能夠以相當於全球互聯網數據總量兩倍的速度移動數據。全球網路的橫斷面頻寬大約是每秒100太字節,而這個是每秒240太字節,讓每個GPU都能同時與其他所有GPU協同工作。

後面是NVLink脊柱,基本上是兩英里長的銅纜。銅是我們所知的最佳導體。這些都是屏蔽銅纜、結構銅纜,是運算系統中有史以來使用最多的。我們的SerDes以每秒400Gb的速率驅動這些銅纜從機架頂部一直到機架底部。這裡面總共有長3200公尺、5000根銅纜,這使得NVLink脊椎成為可能。這項革新真正開啟了我們的HGX系統,我們決定創建一個產業標準系統,讓整個生態系統、我們所有的供應鏈都能基於這些組件進行標準化。構成這些HGX系統的組件大約有8萬個。

如果我們每年都改變它,那將是巨大的浪費。從富士康到廣達、緯創,再到惠普、戴爾、聯想,所有主要的電腦製造商都知道如何建構這些系統。所以,儘管性能高得多,而且非常重要的一點是,功耗是前代的兩倍,Vera Rubin的功耗是Grace Blackwell的兩倍——但我們仍然能將Vera Rubin塞進這個框架裡,這本身就是一個奇蹟。

進入系統的空氣流量大致相同。更重要的是,進入的水溫相同,45攝氏度。在攝氏45度下,資料中心不需要冷水機。我們基本上是用熱水來冷卻這台超級計算機,效率高得令人難以置信。

所以,這是新的機架:電晶體數量是1.7倍,但峰值推理性能是5倍,峰值訓練性能是3.5倍。它們透過頂部的Spectrum-X連接起來。

這是世界上第一款採用台積電新製程製造的晶片,這個新製程是我們共同創新的,叫做CoWoS,是一種矽光子整合製程技術。這使我們能夠將矽光子直接整合到晶片上。這裡有512個端口,每個端口200Gb/s。這就是新的乙太網路AI交換器-Spectrum-X乙太網路交換器。

幾年前我們推出了Spectrum-X,以便徹底改變網路連接的方式。乙太網路確實易於管理,每個人都有乙太網路技術棧,世界上每個資料中心都知道如何處理乙太網路。而當時我們使用的另一種技術叫做InfiniBand,用於超級電腦。 InfiniBand延遲非常低,但它的軟體堆疊和整個可管理性對使用乙太網路的人來說非常陌生。所以我們決定首次進入乙太網路交換器市場。 Spectrum-X一推出就大獲成功,使我們成為世界上最大的網路公司。




5

生態閉環:從基礎設施到產業滲透的全端佈局

但就像我之前說的,AI已經重塑了整個運算技術堆疊的每一層。同理可證,當AI開始在世界各地的企業部署時,它也必將重塑儲存的方式。 AI不使用SQL,AI使用語意資訊。當AI被使用時,它會創造一種暫時的知識、暫時的記憶,叫做KV快取(鍵值快取)。但本質上,KV快取就是AI的工作記憶體。 AI的工作記憶體儲存在HBM記憶體中。


對於產生的每一個token,GPU都會讀入整個模型、整個工作內存,產生一個token,然後將這個token存回KV快取。下一次它再做同樣的事情時,它會再次讀入整個內存,流經GPU,生成另一個token。它就這樣重複進行。顯然,如果你長時間與AI對話,這個記憶體——這個上下文記憶體——將會急劇增長。更不用說模型本身在成長,我們與AI互動的輪次在增加。我們甚至希望這個AI能伴隨我們一生,記住我們與它進行過的每一次對話,對吧?我要求它研究的每一個連結……當然,共享超級電腦的用戶數量也會持續增長。

因此,這個最初能放進HBM的上下文內存,現在已經不夠大了。去年,我們創建了Grace Blackwell的快速​​上下文內存,這就是為什麼我們將Grace直接連接到Hopper,直接連接到Blackwell,以擴展上下文內存。但即使那樣也不夠。所以,下一個解決方案當然是走網路。但是,如果有大量AI同時在運行,那個網路將不再夠快。

所以答案很明確:需要一種不同的方法。因此,我們引入了BlueField-4,以便我們能夠在機架內擁有一個非常快速的KV快取上下文記憶體儲存。這是一種全新的儲存系統類別。業界對此感到非常興奮,因為這是幾乎所有今天進行大量token生成的人的痛點。 AI實驗室、雲端服務供應商,他們真的受困於KV快取移動所導致的網路流量。

因此,我們創建一個新平台、一個新處理器來運行整個Dynamo KV快取/上下文記憶體管理系統,並將其放在非常靠近機架其他部分的地方,這完全是革命性的。

每個這樣的機架後面有四個BlueField-4。每個BlueField-4後面都有150太字節的上下文記憶體。分攤到每個GPU上,每個GPU將獲得額外的16太字節記憶體。現在,在這個節點內部,每個GPU原本大約有1太字節記憶體。現在有了這個位於同一東西向流量上、數據速率完全相同(每秒200Gb)的支撐存儲,橫跨整個計算節點的網絡結構,你將獲得額外的16太字節內存。

Vera Rubin有幾個方面真的非常不可思議。第一點我剛才提到:整個系統的能源效率是前代的兩倍。雖然功耗是前代的兩倍,能耗也是兩倍,但運算能力是數倍於此。進入系統的液體溫度仍然是攝氏45度。這使我們能節省全球資料中心約6%的電力,這是一件大事。

第二件大事:整個系統現在支援機密運算,意味著所有資料在傳輸中、靜態時和運算過程中都是加密的,每個匯流排現在都是加密的-每個PCIe、每個NVLink、每個HBM…CPU與記憶體、CPU與GPU之間、GPU與GPU之間,一切現在都是加密的。所以它是機密計算安全的。這讓公司可以放心,即使他們的模型由別人部署,也永遠不會被任何人看到。

這個特定係統不僅能效極高,還有另一個不可思議之處。由於AI工作負載的特性,它會在瞬間激增。這個叫做「全歸約」的計算層所使用的電流量、能量同時飆升,常常會突然激增25%。現在,我們在整個系統中實現了功率平滑,這樣你就不需要過度配置25%的容量,或者如果你過度配置了,你也不必讓那25%的能源被浪費或閒置。現在,你可以用滿整個功率預算,而不需要過度配置。

最後,當然是性能。讓我們看看它的性能。這些都是建立AI超級電腦的人會喜歡的圖表。這需要……需要這裡的每一個晶片、每個系統的完全重新設計,並重寫整個軟體棧,才使其成為可能。



我們做的事情其實圍繞著三個核心環節:

第一是訓練速度。訓練AI模型越快,就能越早把下一代前沿模型推向世界。這直接決定技術領先性、上市時間和定價權。例如綠色部分代表一個10兆參數模型(我們稱為DeepSeek++),需要基於100兆token進行訓練。在同樣的訓練周期(例如一個月)裡,用Rubin平台只需四分之一的系統數量就能完成──在同樣的時間裡,你能訓練更大、更先進的模型。

第二是資料中心效率。數據中心是AI的“工廠”,投資巨大。一個千兆瓦級資料中心可能需要500億美元投入,而電力是硬性限制。如果你的運算架構每瓦效能更高,同樣的電力就能產生更多算力,直接轉換為資料中心的產出與效益。布萊克韋爾平台相比前代實現了約10倍的能源效率提升,而魯賓將在此基礎上再次提升近10倍。

第三是推理成本。也就是實際產生每個token的成本。 Rubin平台將這項成本降低到原來的約十分之一。

這就是我們推動整個產業走向下一個前沿的方式——讓訓練更快、能效更高、推理更經濟,從而支撐AI持續向更大規模、更高水準發展。

如大家所見,今天的輝達早已不僅是晶片公司。我們建構的是完整的全端AI體系-從晶片、系統、基礎設施,到模型和應用。我們的使命是打造完整的技術堆疊,讓在座的每一位都能在此基礎上,為世界創造令人驚嘆的AI應用。(礦石商業評論)