短短一年時間,兩次大會,台上的“AI教主”黃仁勳依舊穿著熟悉的皮衣,卻多了些磕絆,少了些從容。
上一次GTC大會,正是輝達如日中天的時候。各國科技公司對生成式AI進行不計回報的瘋狂投入,將輝達一步步推上神壇,一度成為全世界市值最大的公司。
但今年以來,輝達的股價持續震盪。1月27日美股收盤,單日跌幅超過17%,創下公司歷史上單日下跌最多的紀錄;截至3月10日,遠期市盈率從1月的45倍回落至28倍,低於五年均值37.6倍。
市盈率的回落,背後是一個殘酷的現實:市場沒那麼看好輝達的未來了,AI樹立起來的“算力信仰”正在動搖。
因此,在一年一度、被譽為“科技春晚”的GTC大會上,老黃的使命變了——不再是讓人們看到輝達又搞出了多麼牛逼的產品,而是讓人們重新相信他們真的需要這些產品。
站在輝達的視角來看,這是一屆需要打起精神來直面諸多挑戰的GTC大會。
將輝達晶片捧上神壇的AI算力市場正發生變化。Deepseek的開源以及長思維鏈技術路線,讓生成式AI廠商的關注點從堆量訓練走向推理,而逐漸滲透的ASIC架構晶片,其在AI推理場景中展現出的成本、能效優勢,對輝達在AI算力市場的份額構成直接威脅。
輝達內部也面臨壓力。原計畫去年第三季度量產、第四季度發貨的Blackwell系列晶片,因設計缺陷問題,推遲至2025年第一季度才開始批次出貨,間接導致2025財年第四季度的毛利率下降,且預計下個季度會進一步收縮。
在期待或懷疑之中,台北時間3月19日凌晨1點12分,輝達創始人黃仁勳穿著熟悉的黑色皮衣姍姍來遲,一上來就開始講述從生成式AI到代理式AI(Agentic AI)、Physical AI的變革,這背後意味著巨大的算力需求。
今年年初,Deepseek-R1模型的高效和開源,曾一度讓市場判斷,大多企業將不再需要輝達昂貴的GPU來做大參數模型的預訓練。這也被認為是輝達股價受重挫的直接原因。
2月下旬,黃仁勳談到Deepseek時說:“這是一項卓越的創新,但更為重要的是,它開源了一個世界級的推理AI模型。幾乎每一位AI開發者都在應用R1或思維鏈以及像R1這樣的強化學習技術來提升其模型的性能。”
GTC 2025上,黃仁勳仍然看好推理AI,巧妙地選擇用長思維鏈(CoT)推理需要消耗的tokens來做比較。他向傳統大語言模型(LLM)和推理模型提出了同一個問題:300人的婚禮上如何安排座位。LLM消耗439 tokens快速得出了一個錯誤答案,而推理模型消耗8559 tokens,經過較長時間的思考得出了一個得體的答案。
黃仁勳想說明的是,諸如Deepseek-R1這類推理模型,意味著更高的tokens消耗和更高的算力需求,只是這種算力需求從訓練環節後置到了推理環節。
在黃仁勳看來,推理模型也不是AI的終點,當下我們所處的Agentic AI,AI要處理更多更複雜的任務,有大量的應用將會出現,帶來算力需求的又一次爆發;而到了未來的Physical AI階段,AI甚至會復刻物理世界,那代表了將會有無限的tokens需要被處理。
結論是,用預訓練放緩來判斷AI的未來,或者輝達的未來,就有點短視了。黃仁勳給了一個簡單粗暴的預判:“未來所需要的算力將是過去的100倍。”
那各大AI廠商要如何面對未來的AI新範式呢?沒錯,還是要買輝達晶片,輝達的護城河就在於無處不在——硬體上Blackwell系列晶片涵蓋了從預訓練、後訓練到推理的整個AI市場,跨越雲端到本地再到企業環境;軟體上,CUDA仍然是繞不過去的高牆,黃仁勳強調說:“CUDA現在無處不在,它存在於每個雲中,每個資料中心,可以從世界上的每家電腦公司買到,幾乎無處不在。”在他口中,CUDA已不再是一個單純的開發工具,而是成了“AI時代的英語”。
對於老黃的新故事,資本市場給出的反應是遲疑。演講結束後,輝達股價沒有提振,反而一路向下,截至收盤,下跌3.43%。
動搖輝達“算力信仰”的,一度被認為是Deepseek創造出的效率神話。
Deepseek的天才工程師們,用自己的聰明繞過了輝達晶片的一些限制,用演算法和軟體能力挖掘出了更多的性能,從而節省了大量成本。
現在,輝達大開方便之門,推出了自己的官方版本的“後門”——Nvidia Dynamo。
這是輝達在推理領域建構的新CUDA,專為推理、訓練和跨整個資料中心加速而建構的開放原始碼軟體。在現有Hopper架構上,Dynamo可讓標準Llama模型性能翻倍。而對於DeepSeek等專門的推理模型,NVIDIA Dynamo的智能推理最佳化還能將每個GPU生成的token數量提升30倍以上。
當然,為了推銷最新的Blackwell系列晶片,Dynamo在Blackwell上的效果更好。在同等功耗下,Blackwell的性能比Hopper高出4-5倍。在推理模型的測試裡,Blackwell的性能大約是Hopper的40倍。
目前,Blackwell系列晶片,GB200和B200已全面投產。這些產品採用台積電4nm工藝製造,擁有高達2080億個電晶體。黃仁勳透露,2024年,美國前四大雲服務提供商(CSPs)購買了130萬塊Hopper架構晶片,2025年又購買了360萬Blackwell架構晶片。
為了讓Blackwell像蘋果全家桶那樣深入到每個場景,針對不同類型的客戶,小到個人工作站,大到資料中心叢集,輝達推出了可以運行2000億參數模型的AI PC產品DGX Spark,為“AI推理時代”專門定製的Blackwell Ultra NVL72機櫃,和基於Blackwell Ultra、即插即用的DGX Super POD AI超算工廠等一系列產品,涵蓋了AI時代大部分主流場景。
當然,作為“秀實力”的傳統環節,黃仁勳公佈了新一代AI晶片Rubin,以“證實暗物質存在”的女性科學先驅薇拉・魯賓(Vera Rubin)命名。據介紹,Rubin系列晶片的性能可達Hopper的900倍,而Blackwell是Hopper的68倍。Vera Rubin NVL144將於2026年下半年推出,Rubin Ultra NVL576將於2027年下半年推出。
不管是Blackwell全家桶,還是像CUDA一樣只能運行在輝達GPU上的Dynamo,都是輝達在硬體和軟體層面上進一步挖深自己的護城河,在空間上做到無處不在,在時間上做到別人無法短時間內追上,輝達就能繼續維持“AI領導者”的地位。
賣鏟子以外,輝達也在講一些新的故事。本屆GTC,輝達將主辦首屆“量子日(Quantum Day)”,黃仁勳將參加與量子計算行業業內人士的小組討論。但主題演講現場,黃仁勳並未提及相關細節。
頗為戲劇化的是,兩個月前的CES展會期間,黃仁勳說:“如果你說15年內就能製造出非常有用的量子電腦,那可能有點早。如果你說30年,那可能已經晚了。如果你說20年,我想我們很多人都會相信。”該言論直接導致了美國量子計算概念股崩盤式下跌。
長期來看,似乎輝達的領先地位還能保持很久,但短期並非沒有隱憂。
截至今年1月底的2025財年第四季度業績報告顯示,報告期內,輝達資料中心收入為356億美元,同比增長93%,較上季度環比增長16%,貢獻了輝達91%以上的營收,這個數字在去年同期和前年同期大約為80%與60%左右。這主要得益於Blackwell系列晶片,其在第四財季實現了110億美元的銷售額,創下了公司歷史上產品最快的增長速度。
但Blackwell系列晶片量產初期的成本也給輝達帶去了不小的壓力。截至今年1月底的2025財年第四季度,輝達毛利率為73%,較上季度下降3個百分點,而根據最新的業績指引,下季度輝達的毛利率可能會進一步收縮至70.6%。
更大的威脅來自ASIC架構以及在這之下大力投入自研晶片的巨頭客戶們。
與廣義上的GPU相比,ASIC架構晶片可以專為特定推理任務而定製,且整體電晶體利用率更高,在特定任務上更高效、成本更低,對於中小公司來說是性價比很高的選擇。
同時,在輝達GPU以高昂的價格一家獨大之時,亞馬遜、Google、微軟等輝達大客戶們正奮力推進自研晶片流程,或是從輝達的競爭對手AMD手中購買晶片。
根據智能湧現2024年中報導,用掉了世界上1/4算力的Google,“可能年底就不對外採購晶片了”。過去Google自研TPU更多基於成本考慮,比如擔心輝達隨意漲價,或者供應不夠穩定,如今Google的造芯策略更為激進——“幾乎是不計代價和成本投入”。而微軟已經採購上萬片AMD的產品,特斯拉、Midjourney、美國國家實驗室、韓國電信也都已批次提貨。
不過,CUDA暫時還能擋一擋這些激烈的攻勢,那怕亞馬遜的Trainium晶片能將成本壓到GPU的1/3,但開發者需要為每一款ASIC重寫程式碼的現實,依然讓多數企業望而卻步。
另一大潛在的風險是地緣政治變化帶來的挑戰,面對中國這個全球第二大GPU市場,輝達無法售賣最新的晶片,大洋彼岸的對手們正在抓緊機會蠶食輝達的市場,目前輝達也沒有太好的解決辦法來應對。
光靠“算力老仙,法力無邊”,已經沒法不管不顧地向前猛衝了。擺在黃仁勳面前的問題是,如何平衡短期毛利率壓力與長期增長敘事。只有讓現在的投資者賺到錢,輝達才能有更廣闊的未來。 (芯師爺)