專訪黃仁勳(下):雇一個年薪10萬美金的 AI agent，比雇50萬美金年薪的員工划算太多了

2025/05/30

•

“老黃現在真是忙啊，這幾天各種演講不斷，最近一個多月更是穿梭於大陸、美國和台灣之間，還說要在台北市新建Nvidia海外總部。而美國政府剛剛同阿聯和沙烏地阿拉伯簽下了AI+綠色能源的大單子，未來會在中東建設規模龐大的資料中心，這普遍被認為是要繼續擠壓中國公司能拿到的Nvidia顯示卡，以及打壓包括華為在內的中國企業在中東地區的影響力，進一步遏制中國的AI產業在國際上的競爭力。值此之際，老黃的重要性愈發凸顯。而從本次訪談其實可以看出，老黃的心裡其實門兒清：打壓中國，其實反而幫了中國，還順帶削弱了美國百年來一直倡導的自由競爭的氛圍，更重要的是：減少了輝達的利潤😊”

以下為本次訪談的主題目錄，本篇只包含後三部分。

1、Arab AI and the Chip Diffusion Rule（阿拉伯AI產業與晶片擴散規則）

2、Nvidia and China（Nvidia 與中國）

3、AI GDP Growth（AI 驅動 GDP 增長）

4、Dynamo and Full-Stack Nvidia（Dynamo 與 Nvidia 全端方案）

5、Enterprise AI and Pragmatism（企業級AI 與務實主義）

6、Whither Gaming（遊戲業務何去何從）

下篇技術術語較多，我把部分英文原文附在後面方便理解。

訪談綜述：本次訪談，首先聚焦於政治層面的新難題，Nvidia上周與沙烏地阿拉伯、阿聯達成的合作、對中國 H20 晶片禁售，以及為何美國在晶片管制上的做法會威脅到美國，乃至 Nvidia的長期優勢。

老黃還闡述了 AI 將在近期推動 GDP 增長、甚至可能縮小貿易逆差的理由。

最近老黃有兩場演講，本月的 Computex 主題演講、以及上月 GTC 的演講。兩場演講迥然不同，原因或許在於受眾不同。

今天在台灣的聽眾，是本地 OEM、元件廠商及其企業客戶，而上月則是美國的超大型雲服務商。但關鍵是要明白，Nvidia 想同時向兩類客戶銷售。

為此，我們討論了為何“Nvidia全端解決方案full-stack Nvidia solution”能最大化效用，包括 Dynamo如何提升推理性能，以及 Nvidia的軟硬體架構為何能讓客戶按需選配。

最後，也是順理成章的，我們談到了遊戲業務。

（註：由於我已多次精譯Ben Thompson的文章，我將從本次訪談開始，親切地稱呼他為阿笨，也由於他實在太喜歡用複雜長難句解釋概念了，有一些直男般的鐵憨憨，不過既然他看透問題直擊本質的能力太強，讀透這種刻意的複雜長難又是十分值得的。）

四、Dynamo 與 Nvidia 全端

阿笨：咱們聊聊 GTC 大會吧，那是我最愛的一場主題演講，多年來我每一場都追著看。演講裡有滿滿的 “黃教授Professor Jensen” 的味道，你解釋了資料中心的瓶頸，然後又說為什麼Nvidia就是答案。

我把那場演講理解成某種“反ASIC宣言anti-ASIC message”，一方面，你亮出路線圖roadmap，好像在說“你們儘管來追Try to keep up with this”，另一方面，你引入了“延遲-頻寬latency versus bandwidth”的帕累托曲線，說明了正因為GPU可程式設計，同一套 GPU就可以覆蓋整條曲線，而真正會去造ASIC的反而是那些 hyperscalers（超大規模雲服務商）。

我這樣理解對嗎？

老黃：你的理解沒問題，但我當時的主要意圖並不完全如此，我只是想幫大家弄清楚，該怎麼建一座新的資料中心。問題在於，資料中心的能耗就是那點兒：100 兆瓦就是 100 兆瓦，250 兆瓦就是 250 兆瓦。

把資料中心當成工廠，你的首要任務就是讓“單位能耗吞吐overall throughput-per-watt”最高，而這吞吐最終體現在了token 輸出，既有“免費 token”這種低成本輸出，也有使用者願意付費的高品質token，比如一月一千美元、甚至一萬美元。

阿笨：你之前還提到“十萬美元的AI agent”？（前面老黃說的是：hire a robot for $100,000 a year）

老黃：對，如果讓我雇一名年薪 10 萬美元的 AI agent？我會毫不猶豫。畢竟我們天天雇的真人，成本遠高於此，要是能用 10 萬美元把一位 50 萬美元年薪的員工“強化amplify”一下，那可太值了。

這座“工廠”產出的 token 質量，千差萬別，既要滿足免費場景，也得輸出高品質內容，因此必須覆蓋整條帕累托曲線。若只針對某一種場景設計晶片或系統，必然閒置浪費。

問題是，如何讓同一套系統既能跑“免費token”，又能隨時切到高品質token 模式？

架構一旦切得太碎，負載workload在不同單元間的遷移，就會困難。所以大家如果仔細想想就知道了，一台系統若專攻“高token速率 high token rate”，整體吞吐往往很低low overall throughput，但如果追求極高吞吐，就常常互動性較差low interactivity，單使用者每秒 token不夠 tokens-per-second per user is low。

只沿著X 軸或 Y 軸去做，都比較容易，填滿整塊區域才難。這正是我們的創新所在，它是多重要素的協同加成：

Blackwell 架構、FP4 和NVLink 72 的高速互連；

對高頻寬記憶體及其容量HBM memory and its capacity 之間的平衡配比；
對浮點運算能力與視訊記憶體容量/頻寬floating-point and the memory capacity and bandwidth之間的平衡配比；
Dynamo 解耦流生態（解耦式流式推理服務生態與硬體系統disaggregated streaming serving ecosystem, hardware system）

阿笨：我正想聊聊Dynamo，今天發佈會沒提，但我覺得它太有意思了。

老黃：極其重要。

阿笨：給我們展開講講，我記得你稱它為“資料中心的作業系統operating system for data centers”。

老黃：核心就是，Transformer 的推理流程分為多個階段，各階段可按使用者需求、具體模型、上下文情境，進行差異化處理。於是，我們把大語言模型的計算流程拆分了。

第一階段是pre-fill，就是上下文處理，先想想你接下來會問我什麼。

比如來到這裡，我會先想想以前和笨笨你聊過什麼，比如你是偏好那種深度的、對話式的播客風格。這樣一來，當我們直接開始深入談論行業和技術時，完全不會感到不自在。

阿笨：對，你現在可不是在給晚間新聞錄個十秒快訊什麼的。

老黃：沒錯，我知道你能聽懂，所以我不會有對牛彈琴的感覺，所以我們聊這些很自在。

當聊天機器人答覆使用者時，它需要這類上下文記憶，甚至得讀幾份 PDF，這就是pre-fill階段，這個階段對浮點運算量的需求極高very floating-point intensive。

接下來是 Decode，這一階段真正負責“生成思考”，它要推理即將輸出的內容、預測下一個 token，於是整條思維鏈會產生更多 token，再回寫到上下文中，進而觸發更多 token 的生成。

就這樣一步步推理，可能還要檢索額外資料。當代的 AI，尤其對於代理式AI agentic AI、推理式AI reasoning AI而言，decode 階段需要密集的浮點運算和極高的頻寬，在任何情形下都是如此，有時需求高得離譜，但未來還會更高。

阿笨：它會波動。

老黃：對，視具體情況而定。

阿笨： decode 階段，不需要高精度浮點運算。

老黃：對，如果是 one-shot 推理，而且 KV 快取已經很強，那麼對浮點運算的需求並不高。

不過，一旦你給模型載入大量上下文，就必須投入更多浮點算力。

Dynamo 會把整個推理流程徹底解耦，再把負載在資料中心內進行智能分配，精細計量各處理器的工作量，這可不是件簡單的事。

阿笨：這也解釋了你說的，把整座資料中心當一塊 GPU，Dynamo 就是那個把它當單晶片調度的軟體。

老黃：對，Dynamo 本質上就是AI 工廠的作業系統。

阿笨：展望未來，這些“思考模型”“推理模型”的應用——你的預測一向以精準著稱——你覺得它們主要用於代理式工作流嗎？

缺點是，得等它想完，人們得等待結果？或許，可以平行跑一堆代理來彌補？

又或者，它們更重要的價值在於：生成訓練資料？從而提升 one-shot 效果，這可以成為更常見的互動形式？

老黃：這得看成本。

我預測推理模型會成為默認基準baseline，因為處理速度會快得驚人。比如，啟用 Grace-Blackwell 後，速度能提升 40 倍，再往下一代，再快 40 倍，而模型本身也在不斷進化。

所以，從現在算起五年內，代理式模型agentic models整體提速 10 萬倍，在我看來完全合理。

阿笨：這就是計算性能的發展歷史the history of computing。

老黃：沒錯，它剛剛思考了“山一樣多的內容”，只是你沒看到罷了，如今，連“慢思考”都快極了even slow thinking is fast。

阿笨：那本書，《思考，快與慢》……若讓AI來讀，它一秒就能讀完，書名可要被“打臉”了。

老黃：哈哈，的確如此。

五、企業級 AI 與務實主義

阿笨： 回到政治話題，簡單提一下。

你談到每瓦性能（performance-per-watt）時，是否這更多是美國中心的思維？在美國，我們很難新建電力設施，電力成了最大瓶頸，但是比如像海灣國家，能源更加容易獲取，電力也更容易建設。

而在中國，如果電力不是最大限制因素，那麼很多 Nvidia 解決的問題，其實都能被解決。是不是這也是為什麼 GTC 會選擇在美國舉辦的原因之一？這是不是傳遞給美國的一個資訊？

老黃： 哦，我沒這麼想過。我認為不管怎麼說，工廠的規模總是有限的。即使你所在的國家有更多能源，但你的資料中心並不一定有。因此，我認為“每瓦性能”始終很重要。

阿笨： 這始終很重要，但重要性可能會有所不同。

老黃：對，沒錯。但問題在於，如果你一開始就知道自己選的架構只有別人一半的性能，你也許會說，那我就多買一倍土地，多拉一倍電力，從頭按兩倍規模建。

可真把所有因素加在一起，問題就來了。打個比方，給1 GW(a gigawatt)機房配套的話，簡單估算，光是機房外殼、供電、土地、維運等基礎設施，就要 300 億美元；再加上計算、網路、儲存，可能得500 億美元。

現在，因為效能低下，你得建兩座同樣的機房，光那300 億就得翻倍變 600 億，這時你就得找到“極其便宜的計算資源”，才能把帳算平。所以在 AI 工廠的世界裡我常說，如果某套架構性能不行，有時即便“免費”，也不夠便宜。

阿笨：但如果是唯一的選擇，你就會努力讓它發揮作用。

老黃：對，沒錯。

阿笨：那我們來對比一下當下的情況。

你今天說過幾次，“如果你買我所有東西我很開心，但我也很高興你買我任何東西”。之前我沒完全明白，直到現在我才意識到，這聽起來像是一場企業級的主題演講，當然這是我自己的理解，不是你的說法，我感覺到了務實主義，你現在聽起來像是個企業軟體公司的 CEO，非常務實。

在你的話語體系裡，如果客戶要建一座完整的 AI 工廠，全用 Nvidia 當然最好，但很多客戶只會買其中一部分。對這些客戶來說，也許你希望他們全買，但只要買了那怕一點，未來大機率也會一直跟你買。

所以，從戰略上看，他們也是很重要的基本盤，對嗎？

老黃：滿足客戶需求，本來就是聰明做法。如果你看 Nvidia 的市場策略，我們一直是以完全整合的方式建構產品，軟體必須與硬體緊密結合。

但我們也有足夠的紀律性，可以將軟體與硬體解耦，你可以選擇不使用我們的軟體，你完全可以選擇不使用。如果你看我們設計系統的方式，我們實際上已經以一種足夠有紀律的方式解耦了系統，所以如果你想更換某些部分，也是可以的。

目前，Grace Blackwell 在全球不同的雲平台中，都在被整合和部署，所有這些平台基於我們的標準，雖然它們各有不同，但我們能適應它們。

我認為這就是 Nvidia 商業模式的真正挑戰，它與我們想要成為計算平台公司（computing platform company）的目標，是相輔相成的。最重要的是，如果 Nvidia 的棧（計算棧compute stack）被採用，那當然太好了。但如果我的網路棧networking stack被採用，我同樣非常高興。

事實上我對我們網路棧的看法，與對計算棧的看法一樣強烈。如果這兩個棧都被採用，那簡直是不可思議。

阿笨：好吧，很多人提到你們的 NVLink Fusion，你可以只買 NVLink，也可以與 ASIC 整合，這與我理解的 GTC 資訊正好相反，但我理解了你此刻的立場。

畢竟，誰是客戶誰說了算？

老黃：我依然深信，Nvidia 正在建構一個更好的系統，我完全相信這一點。如果我不相信這一點，那顯然我們做錯了什麼事，得趕緊找出原因並糾正。

所以我完全相信，Nvidia 是全球最大規模的加速計算公司，我們是全球最大規模的 AI 計算公司。沒有那家 36000 到 38000 人的公司，能像我們一樣專注於這一件事。

如果有一個 14 人的小團隊，能夠做得比我們更好，那我得承認，我的內心一定很痛苦，所以我們會繼續努力做得更好。

阿笨：然而，你也相信規模，而獲得規模的一種好方法，就是根據客戶需求去銷售產品，無論客戶想要什麼方式。

老黃：對，完全正確，確實如此。我有我的偏好，但我們想確保我們能夠按照客戶的需求去服務每個客戶。

六、遊戲何去何從

阿笨： 接著這個話題聊下去，也許是相關的。

我問了我一個朋友，他的兒子堅持讓我問這個問題。有些遊戲圈的人認為，雖然你今天的主題演講中只有10%講的是 GeForce，但對我們依然很重要。

是不是還可以認為，GeForce對我們依然重要，因為這是一切的基礎，我們做的還是 GPU？或者，我應該怎麼告訴我朋友的兒子，關於 Nvidia和遊戲的事？

老黃： 你看，我真希望我說過——沒有 GeForce，RTX PRO 做不出來，沒有 GeForce，就沒有 Omniverse，任何我們看到的視訊裡的像素都離不開 GeForce，機器人也做不出來，沒有 GeForce，Newton 也無法實現。

所以，GeForce 本身在 GTC 上不那麼突出，是因為 GTC 更側重高性能計算、企業級應用和 AI 等領域。

我們為遊戲開發者舉辦了單獨的大會，所以每次在 GTC 演講時，我總覺得有些產品發佈並不那麼核心，雖然在 GTC 的聽眾群體中，可能不完全適合，但他們也明白，GeForce在我們做的一切工作中扮演著至關重要的角色。

阿笨： 是不是有些遊戲玩家，至今還沒有完全意識到，GeForce 現在遠遠不止是圖形渲染引擎這麼簡單？

老黃：（笑） 對，沒錯。正如我今天說的，我們只渲染 1/10 的像素，這個數字非常令人震驚。假設我給你一個拼圖，只給你 1/10 的拼塊，其他的拼塊我根本不給你，你必須自己把它拼出來。

阿笨： 我有個新角度，可以將遊戲與其他業務聯絡起來。你剛才說過，你很有紀律性地保持各個領域的分離，且能夠將它們分開管理，軟體也能處理好這些。

這聽起來有點像 Windows 上的驅動問題，老實說，這就是你們的一項核心技能。

老黃： 是的，驅動程式太低級了，涉及的內容太多，暫存器registers太多，而““驅動抽象driver abstraction”實際上是一次革命，微軟在這方面發揮了重要作用。如果沒有驅動的概念concept of a driver，Windows 就不會有今天的地位。它創造了一個 API 抽象層abstraction of an API，而在硬體下面可以有較大的變化。

我們現在的驅動程式是開放原始碼的，坦白說，我並沒有看到很多人對此做出貢獻。原因很簡單：一旦我推出了新的 GPU，上一個驅動的工作幾乎就被拋棄了。

所以，沒有像 Nvidia 這樣龐大的工程師團隊，別人很難做這件事。但如果我們為每一款 GPU 最佳化每個驅動程式，並與之配套，就能創造出一個完美的隔離層isolation layer，一個抽象層an abstraction layer，無論是 CUDA 還是 DirectX，開發者都可以在其之上進行開發。

阿笨： 這就是我給我朋友兒子的答案，我在前面不得不問你關於政府的事，你也為你的觀點提供了很好的、充滿熱情的辯護，但當我問到關於遊戲驅動的問題時，你的眼睛真的亮了起來。

老黃： 哦，真的嗎？

阿笨： 所以我覺得一切都很好。

老黃： great，其實我真的很喜歡 GeForce。

阿笨： 這就是面對面交流的好處，老黃，非常感謝你。 (一個胖子的世界)