黃仁勳與納德拉的這場對話，其實在重寫計算秩序

2025/05/30

•

在 2025 年微軟 Build 大會上，NVIDIA CEO 黃仁勳與微軟 CEO Satya Nadella 進行了一場12分鐘的對話，表面是合作發佈，實質則是對未來算力結構、部署節奏與平台協同的一次“規則級”公開編排。

以下是這場對話中的關鍵資訊摘要：

GPU 架構進入“年更時代” —— 黃仁勳強調，GPU 架構不再是每四年一更新，而是“每年部署一點，每次提升近 10 倍”。微軟將這一滾動替換節奏稱為 Fleet Physics（好像還不是官方術語）。

Grace Blackwell 架構正式落地 —— 搭載 FP4（4-bit floating point）張量核心、液冷系統，並通過 NVLink-C2C（Chip-to-Chip）高速互聯技術，將 Grace CPU 與 Blackwell GPU 實現快取記憶體一致協同。這一平台也成為 Agentic AI 的核心支撐架構，Microsoft Discovery 平台已將 GB200 系統投入實際科學研究應用。
性能提升高達 40 倍 —— 黃仁勳表示，Grace Blackwell 相較兩年前的 Hopper 架構，在大模型推理中實現了 40 倍性能提升。
老架構也能被“軟體再生” —— Hopper 架構通過 in-flight batching、speculative decoding 等演算法層最佳化，獲得大幅推理效率提升，證明架構長期主義策略生效。
GPU 不再是 AI 專用 —— NVIDIA 正將 GPU 擴展至資料處理、視訊轉碼、圖像建模、推薦系統等非 AI 工作負載，進一步推動“通用加速計算”轉型。
微軟 Azure 的角色升級 —— 不只是 GPU 承載平台，更是通過容器化部署和推理棧調度機制，實現異構機群統一編排與資源最大化復用。

這些內容匯聚在一起，揭示了一個明確趨勢：

我們正在進入一個由平台定義部署節奏、由協同架構決定效率的新算力時代。

架構革命：不是更強，而是更整合

GB200 的意義不在於“快”，而在於快得有組織、協同、可冷卻。它重構了 CPU+GPU 的結合方式：

NVLink-C2C 實現 Grace CPU 與 Blackwell GPU 間的快取一致性（coherent memory）

FP4 精度用於降低功耗、提升模型訓練效率
全液冷部署提升熱預算，支撐高密度資料中心運行

GB200 不是顯示卡產品，而是 AI 工廠中的算力構件，承擔的是“節點內協同”的中樞角色。

推理不是模型的事，是“時間調度”的藝術

Jensen 強調兩年內 Hopper 性能提升 40 倍，很多人以為是硬體，但他實際上說的是軟體最佳化。比如：

Speculative decoding：通過預測 token 多種可能路徑，提前計算下一步，降低延遲

In-flight batching：動態聚合請求，最大化 GPU 使用率，尤其適用於線上服務推理

這些最佳化不靠新硬體，而是推理編譯器、調度引擎和執行階段策略的迭代。說明一個趨勢：

架構之爭已轉為推理棧之爭，控制最佳化路徑的人，才真正掌握算力效率

我對這場對話的幾條觀察：

摩爾定律還在，但不再均等分配紅利

Grace Blackwell 的 40 倍提升確實是技術壯舉，但它並不意味著所有人都能享受到它的提速。

它的目標客戶是：部署大模型的超級平台。
普通使用者只會通過“平台使用權”間接獲得體驗，而不是直接擁有它。

這是典型的“基礎設施複利”：進步存在，但收益分配更集中。

CUDA 是“生態閉環”，也是“長期承諾”

黃仁勳反覆強調 CUDA 架構的向後相容。你可以說它封閉，也可以說它提供了系統的穩定性和技術的可預期性。

這其實是平台型長期主義：

你被繫結，但你也能省下大量適配與遷移成本

它是“鎖”，也是“護欄”

這對開發者而言，是妥協，也是保障。

“Fleet Physics”本質上是一種算力調度的金融模型

為什麼不一次性更新？因為應用的擴散、模型的成熟、預算的釋放，都不是線性的。

“每年迭代一點”其實是微軟的節奏策略，幫助客戶用分期式投資方式，平滑獲取算力增長，同時也利於 GPU 庫存和生命週期管理。

所以我認為，Fleet Physics 不只是物理模型，更像一種“計算資源的時間型金融產品”。

GPU 要吃下的不只是 AI，而是整個計算任務定義權

在這場對話中，黃仁勳輕描淡寫地提到：“我們也在加速資料處理、轉碼、推薦系統。”

這句話意味著：NVIDIA 不再把自己當“AI GPU 廠”，而是要成為計算架構定義者。

你可以說，他們正在把“能被 GPU 加速的任務”，變成“必須被 GPU 執行的任務”。

微軟不是附屬協作方，而是“算力資產的管理銀行”

Azure 並不是簡單地部署 NVIDIA 的卡，而是通過：

Azure Container Service

ONNX Runtime
Triton Inference Server
分層模型推理路由機制

將不同代際 GPU 統一調度，讓最小代價匹配最高利用率。

這不是一個部署平台，而是全球最大規模的異構算力資產管理方。
從這個意義上講，它不是“合作夥伴”，而是規則制定者之一。

寫在最後

在此之前，NVIDIA 與微軟已有多年合作基礎。從最初將 NVIDIA AI Enterprise 軟體部署在 Azure 平台上，到將 CUDA、TensorRT 等工具整合進 Azure Machine Learning，再到在醫療、自動駕駛、工業製造等場景中聯合推動 AI 應用落地，雙方關係逐步從工具層整合邁向服務協同。

2022 年雙方宣佈共建 AI 超算，2023 年將 Omniverse Cloud 引入 Azure，2024 年在 Azure、Microsoft 365 中整合 NVIDIA 的生成式 AI 技術。

但 2025 年的這一次，標誌著合作模式發生了本質變化：從“互補工具提供者”升級為“算力生態共同建構者”。

本次合作不再侷限於技術對接，而是圍繞 Grace Blackwell 架構在 Azure 上的深度部署、GPU 微服務（NIM）與 Azure AI Foundry 的融合，以及按需計費、分層加速的“訂閱式算力模型”進行全面協同。

微軟不再只是 GPU 的雲端使用者，而是全球最大規模異構算力資產的調度者；NVIDIA 也不再只是提供晶片的廠商，而是將架構、軟體棧、執行階段生態作為整體系統輸出。

這場對話只有12分鐘，它句句在塑造標準、安排節奏。我們無法對抗它的推力，但我們必須看清它的結構。

從 GPU 到算力工廠，從 CUDA 到推理引擎，他們真正建構的不是“更快的系統”，而是一個更穩定、可預測的訂閱式計算模型。

買卡，是一次性支出；租算力，是可持續的現金流。

而 NVIDIA 和微軟，已分別成為這套模型的產出方與分發方。 (豬哥XX記)