專訪黃仁勳(下):雇一個年薪10萬美金的 AI agent,比雇50萬美金年薪的員工划算太多了

“老黃現在真是忙啊,這幾天各種演講不斷,最近一個多月更是穿梭於大陸、美國和台 灣 之間,還說要在台 北市新建Nvidia海外總部。而美國政府剛剛同阿聯和沙烏地阿拉伯簽下了AI+綠色能源的大單子,未來會在中東建設規模龐大的資料中心,這普遍被認為是要繼續擠壓中國公司能拿到的Nvidia顯示卡,以及打壓包括華 為在內的中國企業在中東地區的影響力,進一步遏制中國的AI產業在國際上的競爭力。值此之際,老黃的重要性愈發凸顯。而從本次訪談其實可以看出,老黃的心裡其實門兒清:打壓中國,其實反而幫了中國,還順帶削弱了美國百年來一直倡導的自由競爭的氛圍,更重要的是:減少了輝達的利潤😊”

以下為本次訪談的主題目錄,本篇只包含後三部分。

1、Arab AI and the Chip Diffusion Rule(阿拉伯AI產業與晶片擴散規則)

2、Nvidia and China(Nvidia 與中國)

3、AI GDP Growth(AI 驅動 GDP 增長)

4、Dynamo and Full-Stack Nvidia(Dynamo 與 Nvidia 全端方案)

5、Enterprise AI and Pragmatism(企業級AI 與務實主義)

6、Whither Gaming(遊戲業務何去何從)


下篇技術術語較多,我把部分英文原文附在後面方便理解。

訪談綜述:本次訪談,首先聚焦於政治層面的新難題,Nvidia上周與沙烏地阿拉伯、阿聯達成的合作、對中國 H20 晶片禁售,以及為何美國在晶片管制上的做法會威脅到美國,乃至 Nvidia的長期優勢。

老黃還闡述了 AI 將在近期推動 GDP 增長、甚至可能縮小貿易逆差的理由。

最近老黃有兩場演講,本月的 Computex 主題演講、以及上月 GTC 的演講。兩場演講迥然不同,原因或許在於受眾不同。

今天在台 灣的聽眾,是本地 OEM、元件廠商及其企業客戶,而上月則是美國的超大型雲服務商。但關鍵是要明白,Nvidia 想同時向兩類客戶銷售。

為此,我們討論了為何“Nvidia全端解決方案full-stack Nvidia solution”能最大化效用,包括 Dynamo如何提升推理性能,以及 Nvidia的軟硬體架構為何能讓客戶按需選配。

最後,也是順理成章的,我們談到了遊戲業務。

(註:由於我已多次精譯Ben Thompson的文章,我將從本次訪談開始,親切地稱呼他為阿笨,也由於他實在太喜歡用複雜長難句解釋概念了,有一些直男般的鐵憨憨,不過既然他看透問題直擊本質的能力太強,讀透這種刻意的複雜長難又是十分值得的。)

四、Dynamo 與 Nvidia 全端

阿笨: 咱們聊聊 GTC 大會吧,那是我最愛的一場主題演講,多年來我每一場都追著看。演講裡有滿滿的 “黃教授Professor Jensen” 的味道,你解釋了資料中心的瓶頸,然後又說為什麼Nvidia就是答案。

我把那場演講理解成某種“反ASIC宣言anti-ASIC message”,一方面,你亮出路線圖roadmap,好像在說“你們儘管來追Try to keep up with this”,另一方面,你引入了“延遲-頻寬latency versus bandwidth”的帕累托曲線,說明了正因為GPU可程式設計,同一套 GPU就可以覆蓋整條曲線,而真正會去造ASIC的反而是那些 hyperscalers(超大規模雲服務商)。

我這樣理解對嗎?

老黃: 你的理解沒問題,但我當時的主要意圖並不完全如此,我只是想幫大家弄清楚,該怎麼建一座新的資料中心。問題在於,資料中心的能耗就是那點兒:100 兆瓦就是 100 兆瓦,250 兆瓦就是 250 兆瓦。

把資料中心當成工廠,你的首要任務就是讓“單位能耗吞吐overall throughput-per-watt”最高,而這吞吐最終體現在了token 輸出,既有“免費 token”這種低成本輸出,也有使用者願意付費的高品質token,比如一月一千美元、甚至一萬美元。

阿笨: 你之前還提到“十萬美元的AI agent”?(前面老黃說的是:hire a robot for $100,000 a year)

老黃: 對,如果讓我雇一名年薪 10 萬美元的 AI agent?我會毫不猶豫。畢竟我們天天雇的真人,成本遠高於此,要是能用 10 萬美元把一位 50 萬美元年薪的員工“強化amplify”一下,那可太值了。

這座“工廠”產出的 token 質量,千差萬別,既要滿足免費場景,也得輸出高品質內容,因此必須覆蓋整條帕累托曲線。若只針對某一種場景設計晶片或系統,必然閒置浪費。

問題是,如何讓同一套系統既能跑“免費token”,又能隨時切到高品質token 模式?

架構一旦切得太碎,負載workload在不同單元間的遷移,就會困難。所以大家如果仔細想想就知道了,一台系統若專攻“高token速率 high token rate”,整體吞吐往往很低low overall throughput,但如果追求極高吞吐,就常常互動性較差low interactivity,單使用者每秒 token不夠 tokens-per-second per user is low。

只沿著X 軸或 Y 軸去做,都比較容易,填滿整塊區域才難。這正是我們的創新所在,它是多重要素的協同加成:

Blackwell 架構、FP4 和NVLink 72 的高速互連 ;

  • 對高頻寬記憶體及其容量HBM memory and its capacity 之間的平衡配比;
  • 對浮點運算能力與視訊記憶體容量/頻寬floating-point and the memory capacity and bandwidth之間的平衡配比;
  • Dynamo 解耦流生態(解耦式流式推理服務生態與硬體系統disaggregated streaming serving ecosystem, hardware system)

阿笨: 我正想聊聊Dynamo,今天發佈會沒提,但我覺得它太有意思了。

老黃: 極其重要。

阿笨: 給我們展開講講,我記得你稱它為“資料中心的作業系統operating system for data centers”。

老黃: 核心就是,Transformer 的推理流程分為多個階段,各階段可按使用者需求、具體模型、上下文情境,進行差異化處理。於是,我們把大語言模型的計算流程拆分了。

第一階段是pre-fill,就是上下文處理,先想想你接下來會問我什麼。

比如來到這裡,我會先想想以前和笨笨你聊過什麼,比如你是偏好那種深度的、對話式的播客風格。這樣一來,當我們直接開始深入談論行業和技術時,完全不會感到不自在。

阿笨: 對,你現在可不是在給晚間新聞錄個十秒快訊什麼的。

老黃: 沒錯,我知道你能聽懂,所以我不會有對牛彈琴的感覺,所以我們聊這些很自在。

當聊天機器人答覆使用者時,它需要這類上下文記憶,甚至得讀幾份 PDF,這就是pre-fill階段,這個階段對浮點運算量的需求極高very floating-point intensive。

接下來是 Decode,這一階段真正負責“生成思考”,它要推理即將輸出的內容、預測下一個 token,於是整條思維鏈會產生更多 token,再回寫到上下文中,進而觸發更多 token 的生成。

就這樣一步步推理,可能還要檢索額外資料。當代的 AI,尤其對於代理式AI agentic AI、推理式AI reasoning AI而言,decode 階段需要密集的浮點運算和極高的頻寬,在任何情形下都是如此,有時需求高得離譜,但未來還會更高。

阿笨: 它會波動。

老黃: 對,視具體情況而定。

阿笨: decode 階段,不需要高精度浮點運算。

老黃: 對,如果是 one-shot 推理,而且 KV 快取已經很強,那麼對浮點運算的需求並不高。

不過,一旦你給模型載入大量上下文,就必須投入更多浮點算力。

Dynamo 會把整個推理流程徹底解耦,再把負載在資料中心內進行智能分配,精細計量各處理器的工作量,這可不是件簡單的事。

阿笨: 這也解釋了你說的,把整座資料中心當一塊 GPU,Dynamo 就是那個把它當單晶片調度的軟體。

老黃: 對,Dynamo 本質上就是AI 工廠的作業系統。

阿笨: 展望未來,這些“思考模型”“推理模型”的應用——你的預測一向以精準著稱——你覺得它們主要用於代理式工作流嗎?

缺點是,得等它想完,人們得等待結果?或許,可以平行跑一堆代理來彌補?

又或者,它們更重要的價值在於:生成訓練資料?從而提升 one-shot 效果,這可以成為更常見的互動形式?

老黃: 這得看成本。

我預測推理模型會成為默認基準baseline,因為處理速度會快得驚人。比如,啟用 Grace-Blackwell 後,速度能提升 40 倍,再往下一代,再快 40 倍,而模型本身也在不斷進化。

所以,從現在算起五年內,代理式模型agentic models整體提速 10 萬倍,在我看來完全合理。

阿笨: 這就是計算性能的發展歷史the history of computing。

老黃: 沒錯,它剛剛思考了“山一樣多的內容”,只是你沒看到罷了,如今,連“慢思考”都快極了even slow thinking is fast。

阿笨: 那本書,《思考,快與慢》……若讓AI來讀,它一秒就能讀完,書名可要被“打臉”了。

老黃: 哈哈,的確如此。

五、企業級 AI 與務實主義

阿笨: 回到政治話題,簡單提一下。

你談到每瓦性能(performance-per-watt)時,是否這更多是美國中心的思維?在美國,我們很難新建電力設施,電力成了最大瓶頸,但是比如像海灣國家,能源更加容易獲取,電力也更容易建設。

而在中國,如果電力不是最大限制因素,那麼很多 Nvidia 解決的問題,其實都能被解決。是不是這也是為什麼 GTC 會選擇在美國舉辦的原因之一?這是不是傳遞給美國的一個資訊?

老黃: 哦,我沒這麼想過。我認為不管怎麼說,工廠的規模總是有限的。即使你所在的國家有更多能源,但你的資料中心並不一定有。因此,我認為“每瓦性能”始終很重要。

阿笨: 這始終很重要,但重要性可能會有所不同。

老黃: 對,沒錯。但問題在於,如果你一開始就知道自己選的架構只有別人一半的性能,你也許會說,那我就多買一倍土地,多拉一倍電力,從頭按兩倍規模建。

可真把所有因素加在一起,問題就來了。打個比方,給1 GW(a gigawatt)機房配套的話,簡單估算,光是機房外殼、供電、土地、維運等基礎設施,就要 300 億美元;再加上計算、網路、儲存,可能得500 億美元。

現在,因為效能低下,你得建兩座同樣的機房,光那300 億就得翻倍變 600 億,這時你就得找到“極其便宜的計算資源”,才能把帳算平。所以在 AI 工廠的世界裡我常說,如果某套架構性能不行,有時即便“免費”,也不夠便宜。

阿笨:但 如果是唯一的選擇,你就會努力讓它發揮作用。

老黃: 對,沒錯。

阿笨: 那我們來對比一下當下的情況。

你今天說過幾次,“如果你買我所有東西我很開心,但我也很高興你買我任何東西”。之前我沒完全明白,直到現在我才意識到,這聽起來像是一場企業級的主題演講,當然這是我自己的理解,不是你的說法,我感覺到了務實主義,你現在聽起來像是個企業軟體公司的 CEO,非常務實。

在你的話語體系裡,如果客戶要建一座完整的 AI 工廠,全用 Nvidia 當然最好,但很多客戶只會買其中一部分。對這些客戶來說,也許你希望他們全買,但只要買了那怕一點,未來大機率也會一直跟你買。

所以,從戰略上看,他們也是很重要的基本盤,對嗎?

老黃:滿足客戶需求,本來就是聰明做法。如果你看 Nvidia 的市場策略,我們一直是以完全整合的方式建構產品,軟體必須與硬體緊密結合。

但我們也有足夠的紀律性,可以將軟體與硬體解耦,你可以選擇不使用我們的軟體,你完全可以選擇不使用。如果你看我們設計系統的方式,我們實際上已經以一種足夠有紀律的方式解耦了系統,所以如果你想更換某些部分,也是可以的。

目前,Grace Blackwell 在全球不同的雲平台中,都在被整合和部署,所有這些平台基於我們的標準,雖然它們各有不同,但我們能適應它們。

我認為這就是 Nvidia 商業模式的真正挑戰,它與我們想要成為計算平台公司(computing platform company)的目標,是相輔相成的。最重要的是,如果 Nvidia 的棧(計算棧compute stack)被採用,那當然太好了。但如果我的網路棧networking stack被採用,我同樣非常高興。

事實上我對我們網路棧的看法,與對計算棧的看法一樣強烈。如果這兩個棧都被採用,那簡直是不可思議。

阿笨: 好吧,很多人提到你們的 NVLink Fusion,你可以只買 NVLink,也可以與 ASIC 整合,這與我理解的 GTC 資訊正好相反,但我理解了你此刻的立場。

畢竟,誰是客戶誰說了算?

老黃: 我依然深信,Nvidia 正在建構一個更好的系統,我完全相信這一點。如果我不相信這一點,那顯然我們做錯了什麼事,得趕緊找出原因並糾正。

所以我完全相信,Nvidia 是全球最大規模的加速計算公司,我們是全球最大規模的 AI 計算公司。沒有那家 36000 到 38000 人的公司,能像我們一樣專注於這一件事。

如果有一個 14 人的小團隊,能夠做得比我們更好,那我得承認,我的內心一定很痛苦,所以我們會繼續努力做得更好。

阿笨:然而,你也相信規模,而獲得規模的一種好方法,就是根據客戶需求去銷售產品,無論客戶想要什麼方式。

老黃: 對,完全正確,確實如此。我有我的偏好,但我們想確保我們能夠按照客戶的需求去服務每個客戶。

六、遊戲何去何從

阿笨: 接著這個話題聊下去,也許是相關的。

我問了我一個朋友,他的兒子堅持讓我問這個問題。有些遊戲圈的人認為,雖然你今天的主題演講中只有10%講的是 GeForce,但對我們依然很重要。

是不是還可以認為,GeForce對我們依然重要,因為這是一切的基礎,我們做的還是 GPU?或者,我應該怎麼告訴我朋友的兒子,關於 Nvidia和遊戲的事?

老黃: 你看,我真希望我說過——沒有 GeForce,RTX PRO 做不出來,沒有 GeForce,就沒有 Omniverse,任何我們看到的視訊裡的像素都離不開 GeForce,機器人也做不出來,沒有 GeForce,Newton 也無法實現。

所以,GeForce 本身在 GTC 上不那麼突出,是因為 GTC 更側重高性能計算、企業級應用和 AI 等領域。

我們為遊戲開發者舉辦了單獨的大會,所以每次在 GTC 演講時,我總覺得有些產品發佈並不那麼核心,雖然在 GTC 的聽眾群體中,可能不完全適合,但他們也明白,GeForce在我們做的一切工作中扮演著至關重要的角色。

阿笨: 是不是有些遊戲玩家,至今還沒有完全意識到,GeForce 現在遠遠不止是圖形渲染引擎這麼簡單?

老黃:(笑) 對,沒錯。正如我今天說的,我們只渲染 1/10 的像素,這個數字非常令人震驚。假設我給你一個拼圖,只給你 1/10 的拼塊,其他的拼塊我根本不給你,你必須自己把它拼出來。

阿笨: 我有個新角度,可以將遊戲與其他業務聯絡起來。你剛才說過,你很有紀律性地保持各個領域的分離,且能夠將它們分開管理,軟體也能處理好這些。

這聽起來有點像 Windows 上的驅動問題,老實說,這就是你們的一項核心技能。

老黃: 是的,驅動程式太低級了,涉及的內容太多,暫存器registers太多,而““驅動抽象driver abstraction”實際上是一次革命,微軟在這方面發揮了重要作用。如果沒有驅動的概念concept of a driver,Windows 就不會有今天的地位。它創造了一個 API 抽象層abstraction of an API,而在硬體下面可以有較大的變化。

我們現在的驅動程式是開放原始碼的,坦白說,我並沒有看到很多人對此做出貢獻。原因很簡單:一旦我推出了新的 GPU,上一個驅動的工作幾乎就被拋棄了。

所以,沒有像 Nvidia 這樣龐大的工程師團隊,別人很難做這件事。但如果我們為每一款 GPU 最佳化每個驅動程式,並與之配套,就能創造出一個完美的隔離層isolation layer,一個抽象層an abstraction layer,無論是 CUDA 還是 DirectX,開發者都可以在其之上進行開發。

阿笨: 這就是我給我朋友兒子的答案,我在前面不得不問你關於政府的事,你也為你的觀點提供了很好的、充滿熱情的辯護,但當我問到關於遊戲驅動的問題時,你的眼睛真的亮了起來。

老黃: 哦,真的嗎?

阿笨: 所以我覺得一切都很好。

老黃: great,其實我真的很喜歡 GeForce。

阿笨: 這就是面對面交流的好處,老黃,非常感謝你。 (一個胖子的世界)