穿皮衣的他,還是那麼自信。
輝達這家公司,正在經歷一種很矛盾的時刻。它看起來像是所有泡沫敘事裡最危險的那一個,畢竟市值已經衝到史無前例的高度,股價每一次波動都能牽動市場。但它同時像所有AI 概念股裡最強的那一個,一個季度營收、淨利數百億美元,毛利率能達到70%。
這也解釋了為什麼在拉斯維加斯CES 上,輝達的任何消息仍然吸睛,其CEO 兼創始人黃仁勳演講開頭就稱,“我們有15 公斤的內容要塞進今天這場演講裡,會場裡坐著3000 人,外面的庭院裡還有2000 人在看,四樓按理說該去逛展的人又在線,1000萬人在全球數百000萬人上了數百”。
但他很快就把話題拉回稱,電腦產業每10 到15 年就會重置一次,從大型主機到PC、從PC 到網路、從網路到雲端、從雲端到行動。每一次平台遷移,都會逼世界寫「新應用」。但他緊接著說,這次不一樣,因為現在是:
「兩次平台遷移同時發生」。
01
智能體,使用者的新「介面」
那兩次平台遷移?第一次遷移大家已經聽到起繭,就是AI 來了,應用要建在AI 之上。人們起初以為AI 本身就是應用,他承認沒錯,AI 的確是應用,但真正的變化是,你會在AI 上面再建應用。第二次遷移更隱密也更殘酷,因為軟體的開發方式、運作方式、甚至整個產業的「技術堆疊」正被重新發明。
黃仁勳稱,那些規模動輒100 兆美元的傳統產業,會把研發預算裡「幾個百分點」整體轉向AI。錢不是憑空冒出來的,它來自整個世界把研發從「經典方法」搬到「AI 方法」,來自舊世界的預算向新世界的遷移,這就是為什麼你會覺得這行業突然忙到離譜。
他也把過去十年的AI 歷史重新串了一遍。 2015 年BERT 讓語言模型第一次「有用」,2017 年Transformer 奠定了基礎,2022 年ChatGPT 讓世界第一次直觀感受到AI 的力量。
但他認為真正關鍵的拐點發生在一年後,第一個o1 推理模型出現了,讓模型在推理時真的「思考」。緊接著,2024 年Agentic AI 這個新物種開始出現,2025 年它迅速蔓延。
這類系統不只是生成文本,它能查資料、用工具、規劃步驟、模擬未來、拆解問題。它可以做「從未被明確訓練過」的事情。這種能力,正在透過開源模型,向整個世界擴散。
圖片來源:輝達
過去一年,真正讓黃仁勳感到「興奮」的,不是某一家閉源模式的進步,正是開源模式的集體躍遷。
黃仁勳稱,開放模型現在離前沿模型大約「落後六個月」,但每過六個月就會冒出更聰明的新模型,所以下載量爆炸,因為創業公司想參與,大公司想參與,研究者想參與,學生想參與,幾乎每個國家都想參與。
很多人誤解輝達,說它只是“賣GPU”,而黃仁勳在CES 台上反覆強調一件事,即輝達正在成為一個前沿開源模型構建者,而且是完全開放的那種。
圖片來源:輝達
他在CES 演講上一口氣報了一堆輝達開源模型的工作,從混合Transformer-SSM 的Nemotron,世界模型Cosmos,到人形機器人Groot,黃仁勳稱這些模型全部開放。連自動駕駛領域的Alpamayo,不僅開源模型,還開源訓練資料。
黃仁勳認為,未來的AI 不只是多模態,而是「多模型」。最聰明的系統,應該在不同任務中呼叫最適合的模型,最真實的系統,天然是多雲、混合雲、邊緣運算的。
圖片來源:輝達
這意味著什麼?意味著AI 應用的本質,其實是一套調度與推理的架構。一個能判斷意圖、選擇模型、呼叫工具、組合結果的智能體。
黃仁勳認為,這種智能體正在成為新的「使用者介面」,不再是Excel,不再是表單,不再是命令列。
02
物理AI 的真正到來
如果說Agentic AI 改變了軟體,那麼實體AI,正在改變現實。
黃仁勳在台上花了極長時間講一件事,讓AI 理解世界的常識,比語言困難得多。物體恆存、因果關係、慣性、摩擦、重力,對人類幼兒來說是直覺,對AI 來說卻完全陌生。而現實世界的數據,永遠不夠。
圖片來源:輝達
他說要做physical AI,需要「三台電腦」:訓練模型的、在車/機器人/工廠邊緣推理的、以及用於模擬的。 Omniverse 是數位孿生模擬世界,Cosmos 是世界基礎模型,機器人模型則有Groot 和他接下來要講的Alpamayo。
訓練資料從那裡來?語言模型有大量文本,物理世界的真實視頻很多,但遠遠不夠覆蓋多樣交互。於是他們現在準備要做的是,用符合物理定律的合成資料生成,選擇性地製造訓練樣本。
例如,交通模擬器輸出本來不夠豐富,他們把它餵給Cosmos,讓它生成物理可信的環視視頻,拿來訓練。 Cosmos 還能從單張圖生成逼真視頻,從3D 場景描述生成連貫運動,從感測器日誌生成環視視頻,從場景提示把「邊緣案例」製造出來。還能閉環仿真,動作一做,世界響應,Cosmos 再推理下一步。
黃仁勳甚至說「physical AI 的ChatGPT 時刻快到了」。
他在台上宣布了Alpamayo,稱之為「世界第一個會思考、會推理的自動駕駛AI」。它端到端從攝影機到執行器,既學了大量真實里程的「人類示範」,也學了Cosmos 生成的里程,再加上「幾十萬」極其仔細的標註樣本。
圖片來源:輝達
關鍵是它不只輸出方向盤和煞車油門,還會告訴你它將採取什麼動作、為什麼這樣做、軌跡是什麼。因為駕駛的長尾案例幾乎不可能窮舉採集,但長尾可以拆成很多更普通的子情境,讓車用推理去組合應對。
黃仁勳稱,它能說清楚自己要做什麼,為什麼這麼做,接下來會發生什麼事。這也是安全的前提。
他解釋他們八年前就開始做自動駕駛,是因為很早就判斷深度學習會重做整個運算堆疊。如果要引導產業走向未來,必須親手把整個棧做一遍。他搬離「AI 是五層蛋糕」:最底層是能源和殼,在機器人裡例如車;上一層是晶片、網路;再上一層是基礎設施如Omniverse、Cosmos;再上是模型如Alpamayo;最上層是應用,例如賓士。
Alpamayo 宣布「今天開源」,這套工程規模巨大,黃仁勳說他們的AV 團隊「幾千人」,而賓士五年前就與他們合作。他預測,未來可能會有十億輛車自動駕駛,「每一輛車都會有會思考的能力,每一輛車都會由AI 驅動」。他還給出時間表:第一批在Q1 上路,Q2 去歐洲,之後再去亞洲,Q3、Q4 逐步鋪開,而且會持續更新Alpamayo 的新版本。
黃仁勳把自動駕駛定義為physical AI 的第一個「大規模主流市場」,並斷言「拐點就在現在這段時間」,未來十年世界上很大比例的車會高度自動化。更重要的是,這套「三台電腦+ 合成資料+ 模擬」的方法會遷移到所有機器人,包括機械手臂、移動機器人、甚至全人形。
圖片來源:輝達
03
Vera Rubin 的硬體秀
講完產業,黃仁勳最後把話題拉回硬件,介紹Vera Rubin。
圖片來源:輝達
他花了幾十秒講Vera Rubin 的命名來源。 Vera Rubin 這個名字本來是是20 世紀的天文學家,她觀察到星系邊緣的旋轉速度與中心差不多,這按牛頓物理學說不通,除非存在看不見的物質——暗物質。輝達把下一代運算平台命名為Vera Rubin,因為他們面臨的「看不見的東西」也在膨脹:運算需求。
黃仁勳描述了算力需求的瘋狂,模型規模每年10 倍增長,o1 之後推理變成“思考過程”,後訓練引入強化學習,計算量暴增;test-time scaling 讓每次推理token 量再漲5 倍;而且每次沖到新前沿,上一代token 成本會以每年10 倍速度下跌,這反過來說明競爭極其激烈,這反過來說明競賽
圖片來源:輝達
他說因此輝達必須「每年推進一次計算的state-of-the-art,一年都不能落下」。他們已經在出貨GB200,在全規模量產GB300,而Vera Rubin「今天可以告訴你,已經全面投產」。
Vera Rubin 的系統是一套「六芯協同」的架構,Vera 是定制CPU,性能翻倍;Vera 與Rubin GPU 從一開始就雙向一致性共享數據,更快更低延遲;一塊計算板上有17000 個組件;每塊板可以做到100 PFLOPS 的AI 倍算力,是上一代的五倍算力。
網路側ConnectX-9 為每GPU 提供1.6 Tbps 的橫向頻寬;BlueField-4 DPU 把儲存與安全卸載出去;運算托盤被重新設計到「沒有線、沒有水管、沒有風扇」的型態;第六代NVLink 交換把18 個節點連成一體,再擴充工作通道、200G、共封裝光學,把成千上萬機櫃組成「AI 工廠」。
圖片來源:輝達
黃仁勳也提到現實的產業難題。輝達內部原本有規則,新一代產品最多換一兩個晶片,別把供應鏈折騰死。可摩爾定律放緩後,電晶體成長跟不上模型十倍、token 五倍、成本十倍下滑的速度,你不做「co-design(協同設計)」就不可能追上,所以這一代不得不把每一顆晶片都重新設計。
Rubin GPU 浮點效能是Blackwell 的5 倍,但電晶體只有1.6 倍,這意味著單靠製程堆電晶體已經到天花板了,必須靠架構與系統級協同設計才能搞出效能。
另外,輝達也宣布推出針對AI 情境記憶的儲存平台。模型每生成一個token,都要讀模型、讀上下文、寫回cache,對話越長,上下文越大。黃仁勳稱,你希望AI 記住「一生的所有對話」,HBM 裝不下了,Grace 直連GPU 做「快速上下文記憶體」也不夠了,繼續往外走到數據中心存儲又會被網絡堵死。
於是他們做了「機櫃內的超高速KV cache 儲存」,由BlueField 跑整套上下文管理系統,把它放得離GPU 極近。
圖片來源:輝達
在一個節點裡,每GPU 本來大約1TB,而透過這套機櫃內存儲,每GPU 還能多拿到16TB 的上下文空間;每塊BlueField 後面掛著150TB 級別的上下文存儲,走同一套東西向高速織網,這不是“再加點盤”,而是“新增一類存儲平台”。
圖片來源:輝達
黃仁勳也提到了新硬體的三種系統級能力。第一,45 攝氏度水就能冷卻,整體能源效率提升巨大,他稱這能省掉全球資料中心約6% 的電力;第二,機密計算,傳輸中、靜止時、運算中都加密,PCIe、NVLink、CPU-GPU 互聯全部加密,讓企業敢把模型交給電流跑;供電預算,現在透過電力平滑能把預算用滿,不必浪費。
在他們模擬的10 兆參數、100 兆token 訓練任務裡,Rubin 的吞吐高到只需要Blackwell 四分之一的系統規模就能在同樣一個月窗口裡訓練完畢。
圖片來源:輝達
Rubin 相對Hopper 的提升、相對Blackwell 的再提升,被他形容成一輪接一輪的數量級躍遷,而token 成本又能再降一個數量級,這就是他們所謂“把所有人推到下一前沿”的方式。
黃仁勳認為,輝達今天不是只做晶片,而是做從晶片、基礎設施、模型到應用的「全端」,而AI 正在重做全世界的計算棧,他們的工作是把整套棧造出來,讓所有人去造應用。
圖片來源:輝達
在CES 這種偏消費性電子的舞台上,輝達佔據高光位置,可以說它也是一種情緒資產。樂觀時,它是AI 的石油,悲觀時,有人直接說它像2000 年的思科。市場不只在乎它賺了多少錢,還在乎「AI 還會不會繼續燒錢」。它的波動甚至開始影響指數本身,因為它太大了,大到一個公司的漲跌可以改變整個市場的體感溫度。
當一家公司同時掌握科技敘事、產業鏈重要位置、以及金融市場注意力時,它就會變成圖騰。圖騰的好處是信仰帶來溢價,壞處是溢價意味著你不能犯錯。
所以問題來了,輝達會不會掉下去?當然可能。任何站在山頂的公司都可能犯錯,尤其當它大到一定程度,成長本身就變成一種負擔。
但同樣必須承認的是,輝達也正在用盡一切辦法降低這些風險。
其目前主要策略仍是努力把自己從賣晶片變成賣生態。當硬體、網路、調度、軟體工具鏈都握在手中時,輝達就不再只領先競爭對手一代GPU,而是領先系統複雜度。
目標至少是,讓對手即便追上算力,也很難追上生態摩擦成本。(極客公園)