【GTC大會】黃仁勳的Token經濟學:推理、雲與軟硬一體化

Key Points

  • 從快思到慢想:計算範式變了,晶片的架構也需要改變;
  • 黃仁勳給出了每兩年更換一代架構的晶片戰略,但他更重要的戰略是關於AI的;
  • AMD爭奪終端,輝達押注雲端;
  • AI晶片本身的護城河其實沒有那麼深,尤其推理晶片。

「一個Hopper晶片可以為每個使用者每秒產生大約100個token,一個兆瓦級資料中心每秒可以產生10萬個token。」黃仁勳說,如果進行超級批次處理,那麼一個AI工廠每秒可以產生的token量可以達到大約250萬個。

「ChatGPT的成本大約是每百萬個token 10美元,250萬乘以10,那就是每秒25萬美元。」他繼續說,一年大約有3000萬秒,乘起來就是上兆,「這就是兆瓦級資料中心的收入,這就是你的目標。」

當地時間3月18日,黃仁勳在由輝達舉辦的年度GTC(GPU Technology Conference)大會上進行了一場長達兩個半小時的演講。和此前歷次在GTC、台北Comuptex電腦節以及不久前舉辦的CES大會上的發言不同,黃仁勳在此次GTC大會上做的最多的事情之一就是算帳。

黃仁勳說,DeepSeek火了之後,4大雲廠商反而買了更多輝達晶片,而不是更少。

今年1月底DeepSeek大火之後,由於訓練和推理成本的數量級式下降,市場有聲音認為市場不再需要那麼多輝達晶片了,輝達股價因此從153美元/股的高點一路下跌到104美元/股。大概出於試圖扭轉市場對輝達未來看法的緣由,3月18日的演講中,黃仁勳鉚足了勁建構和推銷他的「token經濟學」。

「去年,幾乎全世界都錯了。」他斷言說,「AI的計算需求事實上是加速的,其規模化定律(scaling law)具有強勁韌性。」

根據他的演算法,「模型推理需要的算力消耗比我們當下以為的還要多100倍。」

輝達已經是目前全球最大的AI晶片公司。根據Jon Peddie Research資料,截至2024年三季度,輝達在全球AI晶片市場份額高達90%;與此同時,以AI晶片為主的資料中心業務也是輝達收入和利潤的最大貢獻者,佔比高達88%。

這家公司還能如何成長?黃仁勳的每次公開演講都在回答這個問題,這次也不例外,但外界買不買帳是另外一回事。

從快思到慢想:計算範式變了,晶片的架構也需要改變

發表會一開始,黃仁勳就點出了去年DeepSeek推出後業界對於「AI計算需求即將斷崖式下滑」的判斷不僅是錯的,而且錯得離譜。他給出的理由不是傑文斯悖論中提到的「效率提升反而令資源消耗激增」,而是計算範式的轉換本身帶來的——大模型正在從GPT那樣的直覺式「快思考」模式,轉向OpenAI o1和DeepSeek R1這樣通過建構逐步推導的思維鏈進行推理的「慢想」模式。

黃仁勳認為,模型思考範式的切換,會同時為模型訓練和推理市場帶來計算量上的大幅成長。首先,當大模型公司們意識到將「預訓練」好的基礎模型(例如GPT)再使用強化學習方法進行「後訓練」之後,就能得到具有多步驟思考能力的推理模型,模型訓練的需求就會再次獲得一撥算力增長;其次,也更重要的是,推理模型的多步甚至反思過程,會比直接給出答案量多一點——也想消耗更多速度。

「為了保持模型的反應速度和互動性,避免使用者因等待其思考而失去耐心,我們現在還需要計算速度提高10倍。」黃仁勳說,如此一來,token消耗量增加10倍,計算速度也提升10倍,總計算量「輕鬆地就能達到百倍」。

黃仁勳說,資料中心AI市場會成長到1億美元的規模。

黃仁勳稱,輝達在過去每個新計算時代到來的拐點時刻都及時推出了符合市場需求的晶片。 2022年ChatGPT大火之年,輝達推出了AI晶片的第一個系列Hopper系列,2024年,o1推理模型誕生之前,輝達也推出了新的Blackwell系列。相較於Hopper架構,Blackwell系列晶片的架構更適合「推理」-它新增了對FP4(4位元浮點運算,數字越高,計算精度越高)資料格式的支援,同時加大了記憶體。

以2024年3月推出的B200(Blackwell系列的第一款晶片​​)為例,它首度支援FP4精確度的計算。低精度計算對於目前流行的MoE(混合專家模型)架構是必要的,有利於降低訓練和推理的成本與效率。 DeepSeek的R1模型就是一種MoE架構,並且採用以FP8為主的低計算精度訓練與推理。因為推理時只需要呼叫整個模型中的少量「專家」,而不用動用整個模型的所有參數,且只需要進行8位浮點運算,不像此前主流模型那樣動輒需要計算到FP16或FP32的精度,DeepSeek R1能以大約只有OpenAI o1模型3%的價格提供推理服務。

GPU中記憶體的大小對非推理模型影響不大,但對推理模型至關重要。推理模型的多步驟推理意味著更大快取,如果快取過多,模型推理速度就會下降,這給使用者造成的直接體驗就是,模型要花很長一段時間才能想好怎麼回答問題,而使用者耐心是有限的。為瞭解決快取爆炸問題,DeepSeek曾找到一種對快取資料進行聯合壓縮的方法,從而大幅減少推理期間的記憶使用。由於這項創新,DeepSeek的第二代基礎模型V2的生成吞吐量達到了上一代模型(V1)最大生成吞吐量的5.76倍。

當然,DeepSeek的一系列模型是使用輝達的最低階AI晶片A100訓練的,其記憶體和頻寬都有限(A100記憶體只有40GB,頻寬最高2.5TB/s ),快取壓縮是沒有辦法的辦法。 2024年推出第一代Blackwell系列晶片B200時,輝達新增了對FP4計算精度的支援,還將記憶體空間增加到了192GB,直接通過升級硬體解決這一問題。

3月18日的GTC大會上,輝達進一步發表了B200晶片的升級版B300,記憶體從B200的192GB進一步增加到288GB,同時,其FP4計算性能也比B200提高了50%。

相較於Hopper系列晶片,Blackwell系列晶片為推理產生的快取提供了更大記憶體和頻寬。

在B300之後,黃仁勳公佈了輝達在AI晶片方向的整個路線圖。路線圖顯示,在2022年和2023年推出的基於Hopper架構的系列晶片、2024年和2025年推出基於Blackwell架構系列晶片之後,輝達還將在2026年和2027年發布Rubin新架構和系列AI晶片,再之後是Feynman架構及相應晶片。 Rubin和Feynman分別以天文學家Vera Rubin和理論物理學家Richard Feynman(費曼)的名字命名。

這意味著,輝達將每兩年更新一代晶片架構。這種更新早就不再單純為了算力,例如從第一代Hopper晶片到第二代Blackwell晶片,晶片加工採用的都是4nm工藝,儘管晶體管數量有增多,但晶片的性能增長越來越多來自架構的合理性而非算力本身的堆疊。以H100和B200為例,單片H100上有800億個晶體管,B200增加到2080億個,只增加了1.6倍。但性能上,B200的計算性能差不多是H100的5倍——這種效率更多來自於對不斷進化的演算法的適配。

「晶片要解決的不光是計算問題,還是I/O(開或關,即與資源分配、通訊有關的問題)問題。」CUDA之父巴克(Ian Buck)曾表示。以越來越多被使用的MoE混合專家模型為例,這種架構將模型分解成一群擅長不同任務的專家,誰擅長什麼,就將相應訓練和推理任務分配給誰。如此一來,不同專家間的平行計算和通訊就變得重要。為了找出類似GPT-4這樣的MoE模型訓練時最合適的平行組態,輝達曾進行過大量實驗,以探索建構硬體和切割模型的正確組合。

AMD爭奪終端,輝達押注雲端

從Blackwell架構開始,輝達的晶片業務就越來越偏向雲端AI計算了。這種傾向一方面體現在輝達對於自家晶片適配模型演算法迭代的及時性追求上:2024年3月發佈Blackwell系列的第一款晶片B200時,推理模型尚未問世,OpenAI直到當年9月才推出其首款推理模型o1。 B300的發布意味著輝達只花了幾個月時間,就準備好了一款更好適配新類型模型的晶片。如果根據美國半導體諮詢機構SemiAnalysis的報導,B300即將推出的消息早在去年12月就出現了,意味著市面上首款推理模型o1出現3個月後,輝達的適配晶片就差不多就緒。

另一方面,輝達對於雲端AI晶片的專注力也體現在其對雲端即資料中心業務的重視程度。不管是Hopper還是Blackwell,以及之後的Rubin和Feynman,這一系列晶片都是為資料中心準備的,只有那裡的伺服器才能運行如此算力規模的晶片,用以模型訓練或雲端推理。

數據中心業務成為輝達最大的賺錢機器。

而與此同時,AMD正花大力氣想要搶佔的,是每個人可以拿在手裡、放在家裡桌面的小型裝置裡的終端AI晶片。就在輝達GTC大會召開的前一天,AMD在北京召開了「AMD AI PC」為主題的創新峰會,AMD董事會主席兼CEO蘇姿丰親自站台,推廣公司旗下多個AIPC處理器,包括銳龍AI Max系列、銳龍AI 300系列、銳龍9000HX系列等,宣佈很快搭載這些新品的AIPC將很快搭載這些新品的AIPC將很快搭載這些新品的AIPC將很快搭載這些新品。聯想、華碩、微軟、宏碁等PC廠商都參加了AMD的這次峰會。

雲端資料中心業務對於輝達的生意的確越來越重要。截至2025年1月26日的2025財年,輝達實現總收入1305億美元,其中以AI晶片為主要產品的數據中心業務收入達到1152億美元,規模差不多是遊戲及AIPC為代表的終端業務的10倍,在總收入中佔比高達88%。

雲端業務的強勁增勢從截至2023年1月的2023財年就開始了。 2022財年,輝達收入的主要貢獻者還是遊戲機中的GPU,2023財年,雲端與終端的力量就反轉了。到了2025財年,這種力量差異累積到10倍的高度。

不能說輝達已經放棄了終端市場,「GPU雲有其自身的要求,但令我非常興奮的一個領域是邊緣計算。」黃仁勳在演講中說,不過對於把人工智慧部署到終端,他給出的例子主要是汽車和機器人,而不是PC。

對於PC,輝達給出的方案是超級電腦-DGX,一台完整的個人電腦,有DGX Spark和DGX Station兩種款式。其中DGX Station搭載了輝達當天發表的B300晶片的組合版GB300,大小和Mac Mini相當,售價3000美元。輝達稱,這兩款電腦將於今年稍晚從惠普、戴爾、聯想、華碩等OEM廠商發貨,對象為研究人員、資料科學家、AI開發者和學生。這款超級電腦最早在今年1月的CES上出現過,當時輝達給它的定位是「全球最小的個人AI超級電腦」。

與AMD力爭將其AI晶片植入各大電腦品牌廠商的PC裝置中不同,輝達的這個電腦項目看起來不像是為與既有終端裝置廠商達成合作、用輝達晶片「賦能」它們而推出的,反而更像是為了挑戰甚至顛覆它們而存在。「我們需要新一代的電腦。」黃仁勳說。

AI戰略先於晶片戰略,但資本市場並沒那麼買帳

在整場演講中,黃仁勳所談論的東西讓他看起來不像只是一家晶片公司的CEO,而更像是整個人工智慧行業的意見領袖:不止關注晶片本身的架構演化,更想要引領人工智慧行業的未來方向。

去年的GTC上,黃仁勳就顯示了他要對產業上游──模型層甚至應用層的興趣。當時,他發布了可以讓開發者基於輝達晶片開發和部署生成式AI助理的NIM(NVIDIA Inference Microservice)服務,以及可以充當機器人大腦的基礎模型Project GR00T。

今年的GTC大會上,他進一步發表了GR00T N1模型,號稱全球首個開放原始碼的、可訂製的人形機器人基礎模型,採用分層架構,包括一個動作模型和一個決策模型。能夠處理抓取、移動物體以及在雙臂之間轉移物品等簡單動作,也能執行需要多步驟推理的複雜任務。演講會場,黃仁勳還讓搭載了GR00T N1模型的機器人——Blue(星球大戰中的機器人角色)出來走了幾圈,並跟它互動了幾句。

載入了GR00T N1模型的機器人—Blue。

此外,他還宣佈輝達正在與DeepMind、迪士尼合作研究一個物理引擎,名為Newton(牛頓),目標是讓機器人像人類那樣理解摩擦力、慣性、因果關係和物體恆存性。這一模型未來也要開源。

這些在模型層的開源投資,意味著輝達並非真的想要把業務拓展到軟件層,而是想要建立一種生態。就像CUDA之於輝達的GPU一樣,一個夠水準的基礎模型(例如DeepSeek)所能建構的軟件生態,對於輝達想要拓展的機器人晶片、自動駕駛晶片,同樣重要。在演算法尚未收斂階段,這是讓其晶片能夠及時適配演算法演進最有效的方式。

與DeepMind、迪士尼合作研究一個實體引擎Newton(牛頓)。

黃仁勳大談了AI,不過,他的投資人更在意的還是晶片。整場大會中,黃仁勳一次也沒有提到自動駕駛晶片Thor。這款晶片早在2022秋季的GTC大會上就發佈了,支援L4級自動駕駛,原本計畫2024年年中量產,迄今仍未有進一步消息。小鵬、蔚來等汽車廠商等不及Thor的量產而在最新車型中採用了自研晶片。

除了雲端資料中心,輝達在遊戲與AIPC、自動駕駛方面的業績已經多年不增長了。

3月18日的演講開始前,輝達股價下跌近1%,演講結束後,跌幅擴大至3.4%。

AI晶片本身的護城河其實沒有那麼深,尤其推理晶片

不少中國晶片廠商已經看到了AI推理帶來的計算範式變化和市場機會,並已推出產品分食相應的資料中心市場。

一位國產晶片行業從業者告訴第一財經“新皮層”,2017年,輝達在晶片設計中推出tensor core,從科學計算、圖形渲染等方向逐步轉向AI的路徑驗證成功後,中國的AI晶片廠商們就隨之成立了。 2018年9月,阿里巴巴成立了獨立的晶片公司平頭哥。 2019年,華為宣佈推出以AI市場為導向的升騰系列晶片。燧原科技、壁仞科技、摩爾執行緒等初創公司緊跟著成立了。它們研發的GPU產品主要針對AI市場。晶片的研發周期通常為2至3年。 2024年DeepSeek推出時,這些公司基本上都已擁有成熟的AI晶片產品。 DeepSeek模型發表後,持續有國產晶片廠商宣稱自研晶片適配DeepSeek模型。

這些國產GPU公司的AI晶片暫時還難以與輝達的Hopper、Blackwell等產品同台競爭,但出於晶片禁運等地緣政治風險,不少國產AI晶片也在從中國市場獲得訂單。 「以前可能是象徵性地簽署戰略合作協議,現在產業上下游合作更加緊密,有的晶片公司員工開始住在客戶公司裡連夜偵錯,提升晶片性能。」上述國產晶片從業者對「新皮層」說,在DeepSeek出現之後,國內產業上下游開始真正看到了雙方的價值。

一位輝達的中國區代理商表示,今年是她第二次參加GTC大會。黃仁勳的演講上午十點開始,她排隊近2小時,卡點在9:50幸運進場——超過時間即使有票也無法進入了。這位代理商對「新皮層」稱,與今年的演講相比,去年黃仁勳演講時提到的技術、產品和整個CUDA生態理念讓她更加震撼。她認為,AI推理市場「未來會出現幾分天下的情況,輝達的優先性更高,但中國內地市場的特點是應用足夠細分、需求足夠多,國產晶片廠商很快能知道客戶需要什麼,能及時調優獲得反饋,相比美國、歐洲,這是中國市場的優點。」

CUDA生態作為輝達的護城河當然仍然存在,不過它不再是牢不可破。上述輝達代理商和國產晶片研發者都對「新皮層」稱,華為晟騰也像輝達那樣從晶片底層開始建構了整個infra軟體生態。DeepSeek在2月底連續一開放原始碼的多項infra軟體,既讓輝達的CUDA軟體生態更豐富了,也讓外界看到輝達的晶片架構沒有那麼難被琢磨清楚,CUDA對於晶片與模型開發者之間的繫結關係被減弱。

另一位晶片產業人士則對「新皮層」稱:「前兩年晶片生態的錨點在CUDA上,但現在的錨點變得更底層(即晶片架構本身),在這個層級,升騰和輝達晶片(面對的挑戰)是一樣的。」

另外,前述晶片產業人士告訴「新皮質」,在AI訓練場景下,由於需要採用強化學習、混合專家架構等方式去偵錯演算法,國產晶片「堆數量」不能解決根本問題,與輝達的差距可能會拉大。但在AI推理場景下,由於模型演算法已固定,硬體性能的不足可以通過增加晶片數量解決,“用雙卡甚至多卡彌補差距”。 (新皮層NewNewThing)


最近長文
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題