在 2025 年微軟 Build 大會上,NVIDIA CEO 黃仁勳與微軟 CEO Satya Nadella 進行了一場12分鐘的對話,表面是合作發佈,實質則是對未來算力結構、部署節奏與平台協同的一次“規則級”公開編排。
以下是這場對話中的關鍵資訊摘要:
GPU 架構進入“年更時代” —— 黃仁勳強調,GPU 架構不再是每四年一更新,而是“每年部署一點,每次提升近 10 倍”。微軟將這一滾動替換節奏稱為 Fleet Physics(好像還不是官方術語)。
這些內容匯聚在一起,揭示了一個明確趨勢:
我們正在進入一個由平台定義部署節奏、由協同架構決定效率的新算力時代。
GB200 的意義不在於“快”,而在於快得有組織、協同、可冷卻。它重構了 CPU+GPU 的結合方式:
NVLink-C2C 實現 Grace CPU 與 Blackwell GPU 間的快取一致性(coherent memory)
GB200 不是顯示卡產品,而是 AI 工廠中的算力構件,承擔的是“節點內協同”的中樞角色。
Jensen 強調兩年內 Hopper 性能提升 40 倍,很多人以為是硬體,但他實際上說的是軟體最佳化。比如:
Speculative decoding:通過預測 token 多種可能路徑,提前計算下一步,降低延遲
這些最佳化不靠新硬體,而是推理編譯器、調度引擎和執行階段策略的迭代。說明一個趨勢:
架構之爭已轉為推理棧之爭,控制最佳化路徑的人,才真正掌握算力效率
我對這場對話的幾條觀察:
摩爾定律還在,但不再均等分配紅利
Grace Blackwell 的 40 倍提升確實是技術壯舉,但它並不意味著所有人都能享受到它的提速。
它的目標客戶是:部署大模型的超級平台。
普通使用者只會通過“平台使用權”間接獲得體驗,而不是直接擁有它。
這是典型的“基礎設施複利”:進步存在,但收益分配更集中。
黃仁勳反覆強調 CUDA 架構的向後相容。你可以說它封閉,也可以說它提供了系統的穩定性和技術的可預期性。
這其實是平台型長期主義:
你被繫結,但你也能省下大量適配與遷移成本
這對開發者而言,是妥協,也是保障。
為什麼不一次性更新?因為應用的擴散、模型的成熟、預算的釋放,都不是線性的。
“每年迭代一點”其實是微軟的節奏策略,幫助客戶用分期式投資方式,平滑獲取算力增長,同時也利於 GPU 庫存和生命週期管理。
所以我認為,Fleet Physics 不只是物理模型,更像一種“計算資源的時間型金融產品”。
在這場對話中,黃仁勳輕描淡寫地提到:“我們也在加速資料處理、轉碼、推薦系統。”
這句話意味著:NVIDIA 不再把自己當“AI GPU 廠”,而是要成為計算架構定義者。
你可以說,他們正在把“能被 GPU 加速的任務”,變成“必須被 GPU 執行的任務”。
Azure 並不是簡單地部署 NVIDIA 的卡,而是通過:
Azure Container Service
將不同代際 GPU 統一調度,讓最小代價匹配最高利用率。
這不是一個部署平台,而是全球最大規模的異構算力資產管理方。
從這個意義上講,它不是“合作夥伴”,而是規則制定者之一。
在此之前,NVIDIA 與微軟已有多年合作基礎。從最初將 NVIDIA AI Enterprise 軟體部署在 Azure 平台上,到將 CUDA、TensorRT 等工具整合進 Azure Machine Learning,再到在醫療、自動駕駛、工業製造等場景中聯合推動 AI 應用落地,雙方關係逐步從工具層整合邁向服務協同。
2022 年雙方宣佈共建 AI 超算,2023 年將 Omniverse Cloud 引入 Azure,2024 年在 Azure、Microsoft 365 中整合 NVIDIA 的生成式 AI 技術。
但 2025 年的這一次,標誌著合作模式發生了本質變化:從“互補工具提供者”升級為“算力生態共同建構者”。
本次合作不再侷限於技術對接,而是圍繞 Grace Blackwell 架構在 Azure 上的深度部署、GPU 微服務(NIM)與 Azure AI Foundry 的融合,以及按需計費、分層加速的“訂閱式算力模型”進行全面協同。
微軟不再只是 GPU 的雲端使用者,而是全球最大規模異構算力資產的調度者;NVIDIA 也不再只是提供晶片的廠商,而是將架構、軟體棧、執行階段生態作為整體系統輸出。
這場對話只有12分鐘,它句句在塑造標準、安排節奏。我們無法對抗它的推力,但我們必須看清它的結構。
從 GPU 到算力工廠,從 CUDA 到推理引擎,他們真正建構的不是“更快的系統”,而是一個更穩定、可預測的訂閱式計算模型。
買卡,是一次性支出;租算力,是可持續的現金流。
而 NVIDIA 和微軟,已分別成為這套模型的產出方與分發方。 (豬哥XX記)