#Groq
【GTC 2026】黃仁勳105分鐘對話實錄:兆美元這麼賺!談中國、H200、養蝦、Groq,炮轟DLSS 5批評者
到2027年,輝達有望收穫1.25兆美元訂單。智東西3月17日聖何塞現場報導,在昨日發表GTC主題演講後,今天,輝達創始人兼CEO黃仁勳與智東西等全球媒體進行了長達近2小時的深度交流,連續回答32問,並透露面向中國市場的H200 GPU重啟生產,已收到許多訂單。黃仁勳對昨日輝達GTC演講中的重磅發佈做了許多補充解讀,包括解釋說昨天撂出的重磅預言“到2027年收穫1兆美元訂單”,僅僅包含Blackwell和Vera Rubin兩條產品線,還沒算上獨立CPU、Groq、儲存及網路裝置。和全球媒體溝通過程中,黃仁勳也展示了自己頗有“活人感”的幾個側面。當知名汽車媒體Motor Trend在現場宣佈黃仁勳為年度人物時,他顯得十分開心,不僅揚言要“站在這裡直到再多拿幾個獎”,還幽默地向全場“懺悔”,笑稱自己其實已經兩年沒摸過方向盤,全靠自動駕駛代步,言語間難掩驕傲與笑意。而當採訪突然被一陣突兀的手機鈴聲打斷時,他毫不客氣地中斷了回答,當場“抓包”並拋出自己的鐵律:“開會時所有手機必須靜音,不振動、不響鈴,徹底靜音,這點輝達人人都知道。”他甚至在台上靜靜等候對方處理完畢,半開玩笑半認真地說到:“我在等你呢。”將他對身邊一切的絕對掌控感與不加掩飾的真性情,展露得淋漓盡致。以下是黃仁勳GTC採訪的核心內容:1、200億美元收購Groq:Groq之於輝達,就如同Mellanox之於輝達。Groq的LPU並非為了替代現有產品,與Vera Rubin結合後才能應對新興的推理細分市場。2、Vera CPU:這些CPU與傳統x86 CPU截然不同,未必適用於所有場景,其核心價值在於用10億美元的CPU,支撐500億美元的GPU跑滿性能。3、儲存晶片:輝達目前擁有資料中心中唯一一個同時針對HBM、LPDDR、SRAM三種儲存技術進行最佳化的架構,他們還在與每一家記憶體廠商合作。4、AI不會殺死SaaS:以EDA軟體為例,AI並非從零開始憑空生成電晶體,輝達工程師也不是像在用Nano Banana生圖一樣設計晶片,而是一層一層地精確建構。5、AI安全:用科幻小說式的AI敘事去恐嚇所有人是一種傲慢和自大。AI智能體系統像“白細胞”一樣參與網路安全,當入侵者來襲時可以立即響應並蜂擁而至,展開反擊。6、OpenClaw爆火:OpenClaw是後推理時代AI的轉折點,“市場對一個精心設計的開源智能體系統,存在著真正且長期被壓抑的迫切需求”。7、H200進入中國:“輝達已獲得向中國眾多客戶銷售H200的許可證,也已經收到了來自眾多客戶的採購訂單,正處於恢復生產的過程之中。”8、1兆美元營收:此前預測的至2027年1兆美元營收,僅僅包含了Blackwell和Vera Rubin兩條產品線。如果加上獨立CPU、Groq、儲存以及網路裝置,規模可能會達到1.25兆美元。9、投資背後邏輯:輝達只向那些他們相信會成功的公司提供融資,瞄準的是“下一個Google”、“下一個Meta”、“下一個亞馬遜”。其本質是在投資生態,這是極佳的投資標的。10、如何理解輝達:輝達40%的業務任何雲服務商都無法獨立覆蓋,剩下60%是雲業務,其中40%~50%的需求由輝達創造,比如沒有輝達甲骨文就沒法服務OpenAI,最後才是雲服務商自身的需求。11、DLSS 5爭議:對DLSS 5的批評完全錯誤,開發者依然可以對生成效果進行微調。一切主動權都在開發者手中。輝達在創造的是技術,而非藝術。12、機器人:推理能力的突破和VLA(視覺-語言-動作)模型的應用,已經給機器人的認知問題提供解決方案。剩下的主要是工程最佳化,未來三年內機器人技術將迎來重大突破。13、自動駕駛:輝達自動駕駛業務目前約佔總營收的1%,但輝達最初做的幾乎每一件事,比如CUDA、可程式設計著色器、光追都耗費了大量資金,卻毫無回報,甚至引來不少質疑。必須堅信自己所相信的,然後決定是否值得繼續追求。14、AI時代的職場與人類未來:AI不會導致大規模失業,人類反而會更忙。關於人類,唯一可以確定的是:我們如今允許自己打開想像力去解決的問題,比四年前多出了百萬倍。15、黃仁勳分享“人生三訣”:別被開除,別無聊,別死。對人如此,對公司也一樣。以下是採訪的完整實錄:Q1:輝達花了創紀錄的200億美元收購了Groq,這是你們歷史上最大的一筆交易。因為Groq的LPU解決了你們GPU在規模化即時推理上的問題。這是否意味著業內已經認識到AI的重心已經從訓練轉向推理了?黃仁勳:首先,你面前站著的是“推理之王”。我可以這麼說,(因為)有人曾封我為“推理之王”。2025年,我們決定將巨額資源投入到推理領域。在2024年底2025年初,我們推出了NVLink 72系統,推出了NVFP4(輝達Blackwell GPU架構引入的4位浮點格式),在此之前還推出了Dynamo(輝達的開源、低延遲、模組化推理框架)。Dynamo幾乎提前兩年詮釋了我昨天才公佈的完整戰略。在那之前,我們就已經知道推理在NVLink 72上表現完美,這就是NVLink 72如此重要的原因。35倍的性能提升,成本只有原來的1/50。或者說每瓦性能提升了50倍,成本只有原來的1/35。因此,我們目前是成本最低的token生產商,也是AI工廠中吞吐量最高的token生產商。這一切,都歸功於NVFP4、NVLink 72與Dynamo的協同作用。隨著市場持續演進,我昨天提出的核心概念之一就是:並非每個token都是等價的——每個token可能由小型模型、較大模型或超大型模型生成,對應的輸入上下文長度也從極短到極長不等。在每個細分領域,AI都在變得越來越智能。AI發展初期,ChatGPT只有一個服務層級——免費檔,隨後推出了每月20美元的付費檔,o1和o3問世後,又新增了更高的服務層級。這些層級本質上就是產品的細分市場在不斷擴大,催生了差異化需求。現在有開發者在使用AI智能體,比如Claude Code和Codex,它們極具實用價值,由此形成了又一個新的服務層級。這和輝達當年只有RIVA 128一款產品的起步階段並無二致。如今我們擁有RTX 5090、5080、5070、5060……各類產品一應俱全。就如同iPhone現在擁有眾多不同版本,覆蓋不同層級——因為客戶群體各異,需求不同,價格定位也不同。我們一直在沿著這一產品譜系全面拓展佈局。就目前token的主流消耗場景而言,現有的Grace Blackwell以及即將到來的Vera Rubin,其性能都無可匹敵,Groq的加入不會改變這一格局。然而,我們判斷一個新興細分市場正在形成——該市場要求模型同時滿足三個條件:模型體量大、上下文長度長,以及推理延遲極低,也就是響應速度極快。Groq可以兌現上述三項承諾中的一項,但無法同時滿足全部三項。將Vera Rubin與Groq結合,我們便能同時實現這三項承諾,由此開闢出一個新的細分市場:大模型+長上下文+超快token生成速率。這正是我們所設想的市場細分方向,也是引入Groq的戰略意圖。我依然認為,在一座算力工廠的配置中,75%仍將是純Vera Rubin部署;另有25%將是Vera Rubin與Groq的組合部署。Vera Rubin仍將是核心。它實在太強了——我們自己都不知道如何超越Vera Rubin,否則我們早就造出能勝過它的產品了。Grace Blackwell是當下的推理之王;明日,Vera Rubin將接過這一王冠。不久的將來,Grace Blackwell終將成為歷史,而Vera Rubin,乃至未來更新的版本,將登頂推理算力之巔。我希望Groq之於輝達,就如同Mellanox之於輝達一樣,是一次架構層面的重要補充。我們建構的不是一塊GPU,而是一座AI工廠。Q2:輝達越來越多地被要求為客戶的資料中心建設提供融資支援。請問這類融資安排的具體形式是怎樣的?輝達又將如何管理其中的風險?黃仁勳:我們只向那些我們相信會成功的公司提供融資。我們投資了CoreWeave、Nscale和Nebius,我認為我們完全可以承認,這些都是全壘打等級的投資。我們之所以有把握認定這些是必勝之局,是因為我們已經看到了流向它們的業務。從很多層面來說,我們掌握著先手資訊。我們通過幫助它們更快、更大規模地擴張來投資整個生態系統。由於我們清晰地看到了它們面前的業務與機遇,風險實際上極低。這對於流向它們的算力需求來說,也是一種極大的服務價值。如大家所知,其中一些客戶就是Meta、Azure、Anthropic等巨頭。我們並非在為所有龐大的市場需求尋找產能,而是通過相關投資切實幫助到每一方。因此,我們以“超級助推器”的角色參與其中。即便沒有我們,他們也能完成融資,但這對我們而言是融入整個生態系統的絕佳方式,坦率地說,迄今為止也是一項非常出色的投資。Q3:隨著OpenClaw和NemoClaw的推出,那類問題是您個人最期待這些工具幫助大家解決的,或者是以前難以實現的任務?黃仁勳:我最期待的是,自動駕駛汽車無需積累數十億英里的訓練里程就能實現安全行駛。如今,我們擁有具備推理能力的AI,使汽車能夠對某一特定場景進行真正意義上的推理,並將其分解為一系列相對平常的子場景。一個複雜的駕駛場景,其實往往是你曾經經歷過的情況的變體,只是把某個球換成了別的物體,把一隻貓換成了一條狗,把一個行人換成了一位騎行者。本質上都是同類場景的分解重組。採用同一推理技術的智能汽車,將帶動機器人技術在未來幾年內實現超高速演進。由於推理系統的突破,物理AI將迎來令人驚嘆的加速發展。具備推理能力的蛋白質生成技術將能夠生成更多基於物理結構的蛋白質,這些蛋白質更具現實可行性、更易於合成,毒性也更低。因為AI能夠對所有這些特性進行推理。這在短短幾年前還是完全不可能實現的。我認為,o1,即OpenAI o1,是推理系統發展史上真正的重要拐點,OpenAI在這一領域的工作理應獲得高度的認可。OpenClaw是後推理時代AI的轉折點。如果說ChatGPT將生成式AI帶給了世界,那o1則將推理系統帶給了世界。Claude Code長期以來主要面向企業級應用,因此大多數人尚未真正體驗過智能體系統——除了我們這些身處軟體開發行業的人。我們正在盡情享受這項技術帶來的紅利,公司所有的軟體工程師如今都有智能體協同工作。但這種體驗僅限於企業內部,侷限於科技行業,尚未向大眾開放。突然之間,OpenClaw橫空出世。我們終於擁有了一個真正架構精良的開源智能體系統。它面臨的唯一挑戰是安全性——安全並非唯一的難題,但確實是一個極其嚴峻的問題。安全、治理、隱私,以及所有與規範化智能體系統相關的特性,都是亟待解決的關鍵議題。我們可以與Peter(OpenClaw創始人)合作,將這些功能整合進OpenClaw。同時,我們還通過一系列執行階段和參考設計來完善OpenClaw,使其即使採用開放模型,也能幫助企業實現極致性能。我們稱之為NemoClaw。NemoClaw本質上就是OpenClaw,外加大量深度整合的輝達技術——基本上是一份經過輝達最佳化、專為企業級場景打磨的OpenClaw藍圖。如今只需一行程式碼、一鍵安裝,每個人都能獲得一個強大的智能引擎。我認為這完全是革命性的突破。回過頭來看,OpenClaw在短短幾周內就成為史上最受歡迎的開放原始碼專案之一,而Linux可是花了30年才達到今天的地位——這是一項非常非凡的成就。它表明全球對此抱有極大的興趣,也揭示了對一個精心設計的開源智能體系統存在著真正潛在且長期被壓抑的迫切需求。現在,每個人都可以制定自己的智能體戰略了。這意義重大,我感到非常興奮。Q4:昨天DLSS 5發佈了,遊戲社區中有些相當強烈的反對聲音,認為這項技術讓許多遊戲看起來更糟糕、千篇一律,或者只能在視訊中觀看。你對這種批評怎麼看?黃仁勳:首先,他們完全錯了。原因在於,我已經詳細解釋過了,DLSS 5將幾何形狀、紋理等遊戲元素的可控性與生成式AI相結合。開發者依然可以對生成式AI進行微調,使其符合自身的藝術風格。一切主動權都在開發者手中。我們創造的是技術,而非藝術。DLSS 5以幾何體資訊為控制基礎,以遊戲的真實渲染結果(Ground Truth)為條件約束,在其上疊加並增強了生成式能力,但並不影響藝術家的控制權。它不是幀等級的後處理,而是幾何等級的生成控制。生成的所有內容遊戲開發者都可以微調。我們展示這項技術,是為了讓開發者看看它能做什麼。如果開發者想讓它變成卡通風格、色調分離,或者玻璃質感,或者任何風格,都能做出來。這些都直接由遊戲開發者控制。這與純粹的生成式AI截然不同。這是內容受控的生成式AI。這正是我們將其命名為神經渲染的原因。Q5:您談到了Groq,並表示不會出現市場蠶食效應。但既然我們擁有了這些新產品,是否會形成不同的收入流,讓我們對那個“1兆美元+”的數字有更清晰的瞭解?第二個問題是關於股票回購的。黃仁勳:這1兆美元,是我們目前基於2027年前的採購訂單所能看見,並對之充滿信心的數字,且僅涵蓋Blackwell和Vera Rubin兩條產品線。問題在於,為何我只納入這兩項。儘管輝達現在還銷售獨立CPU,那將是一項數十億美元規模的業務。Groq自身業務可能翻倍,因此,對於一個1GW的資料中心,Groq可將輝達的整體收益提升約25%。因此,從理論上說,非實際數字,僅為理論推演,這1兆美元有望達到1.25兆美元。我同樣未將儲存系統納入計算。如大家所知,KV Cache的規模已極為龐大,AI使用儲存系統的速度遠超人類,因此儲存系統的性能必須大幅提升。這正是我們推進STX儲存機架等項目的原因所在,一切都是為了徹底重構面向AI的儲存系統。戴爾展示了整合輝達全套技術的AI資料平台,整個儲存行業都將跟隨我們的方向演進。為什麼我只使用Blackwell和Vera Rubin的營收資料?原因非常簡單:去年在GTC上,我曾預測Blackwell加Vera Rubin到2026年的規模為5000億美元。若將1兆的口徑調整為包含CPU、Groq和儲存,則無法與此前的5000億美元作橫向對比。然而,這對外界理解這1兆美元製造了混亂——因為輝達今天已提供遠比以前更多的產品,大家不禁會問:這是否意味著Blackwell加Vera Rubin不到1兆?恰恰相反,實際數字只會更高。1兆美元,僅僅代表Blackwell加Vera Rubin,僅統計至2027年。不含獨立CPU,不含Groq,不含儲存,不含BlueField DPU,不含Vera Rubin Ultra,不含Feynman,不含Feynman Next,一律不包含,僅限Blackwell加Vera Rubin。而距離2027年底還有21個月,這意味著最終數字大機率將超過1兆美元。好的,第二個問題,我們顯然正在產生規模極為龐大的自由現金流。與此同時,輝達的增長也非常之快,增速本身在加快,而不僅僅是絕對數字在增長。上個季度是我們有史以來營收規模最大的季度,同時我要強調,增速也仍在加快。因為我前面所闡述的一切業務,這種雙重增長得以實現,我們將產生大量現金流。這些現金首先是支撐業務增長的必要資本。我們有大量供應商和合作夥伴,採購、產能保障、庫存鎖定,這一切都需要資金,這是第一優先順序的資本用途。第二,我們投資生態系統。生態系統是極佳的投資標的,坦率說,我認為這就是計算產業的未來。我們正在投資“下一個Google”、“下一個Meta”、“下一個亞馬遜”。圍繞CUDA建構的生態系統是我們的第二項核心工作,即便如此仍能保留充裕的自由現金流。我們在上次會議中表示,計畫在本財年通過回購和分紅的方式向股東返還50%的自由現金流。也就是說,2026財年的股東回報將達到自由現金流的50%。去年的自由現金流規模不及今年,分配比例大約是40%左右。今年,在更大的基數之上,我們將進一步提高分配比例。因此,答案是——這將會是一個非常可觀的數字。關於具體的收入流,我認為這並不是我們的運作方式。原因在於:NVLink交換機只搭配輝達的計算產品使用,Spectrum-X也是專門針對特定場景設計的,總體而言有其內在邏輯,但我可以換一個維度來拆解。我在主題演講中已經談到這一點。大多數人忘記了,輝達的業務遠比一家晶片公司多元化得多。原因在於我們是全端公司,能夠幫助各方在任何地點建構AI工廠。戴爾之所以表現得如此出色,是因為他們對此立場清晰、態度坦誠,輝達AI工廠正在全球各地加速落地建設,增速持續加快。我們也在不同國家的園區建設AI工廠。除非你能交付完整的AI工廠,否則這些客戶不會購買晶片,他們沒有軟體能力,你必須是一家全端公司才能服務他們。▲輝達在採訪現場展示全系列產品因此,我們約40%的業務,無論是企業、工業、物理AI、自動駕駛、機器人,還是各地區的NCP部署,或者主權AI,這些場景,任何雲服務商都無法獨立覆蓋。這些客戶購買的不是晶片,而是平台。我們40%的業務規模相當可觀,且完全不屬於雲業務。第二部分是雲業務。其中一部分是我們直接銷售給雲服務商的,但另一部分,他們對我們來說本質上相當於戴爾的角色,也就是說,終端客戶是通過雲平台使用我們的產品。我們為他們帶來了客戶,因為這些客戶是CUDA開發者。舉個例子,如果沒有輝達,OCI(Oracle雲基礎設施)如何能服務OpenAI?OpenAI的整個技術堆疊都建構於此。正是我們將OpenAI引入了OCI。類似的例子還有很多,如果不是因為Anthropic今年將全面建構於輝達之上,我們又怎能將Anthropic引入Azure?這將形成一個極其龐大的生態基礎。能理解嗎?因此,我們在CSP(雲服務提供商)中的很大一部分業務,實際上是由輝達主動創造的。所有CSP對此心知肚明。我們與他們建立了深度的行銷合作關係和業務合作關係,由輝達為他們引流客戶。我昨天展示了大量案例。我們40%的業務,純晶片公司無法服務,雲服務商也無法獨立服務。剩餘60%的業務中,大約40%~50%實際上是輝達主動創造的業務,其餘才是雲服務商自身的內部消耗需求。Q6:我們是不是已經迎來拐點,到達了機器人領域的ChatGPT時刻?請問在您看來,人類與能力出眾的機器人之間,最難攻克的未解難題是什麼?黃仁勳:如果你只是列出當今機器人存在的問題,那清單會相當長,但它們都只是工程問題。事實上,你能看到它們四處走動。(突然有手機鈴聲響起,黃仁勳回答被打斷)黃仁勳:是誰的手機?我沒有太多忌諱,但有一條——開會時所有手機必須靜音。每一位輝達員工都清楚這一點:不振動、不響鈴,徹底靜音。我在等你呢。(等了一會兒後繼續)這些機器人已經開始能夠完成一些任務。一旦一項技術的可行性得到驗證,最佳化往往不超過五年。因此我非常確信,三年之內,你將看到能力極為出色的機器人。由於我們已同步攻克了認知AI,也就是AI認知領域的OpenClaw。OpenClaw在機器人內部運行,這一設想已經相當顯而易見。此外還有VLA(視覺-語言-動作)模型,負責控制機器人的運動與關節協調。儘管仍有諸多挑戰,但系統一與系統二的AI問題,正在被即時解決。因此,我認為三年內,你將見證真正意義上的重大突破。Q7:正如您所說,1兆美元是完全可能實現的,同時也對製造產能提出了巨大需求。結合台積電、三星等廠商的現狀,您如何看待未來五年全球半導體製造產能的前景?黃仁勳:我們將需要大量的製造產能,且不會大量使用ASIC專用晶片。我們是目前資料中心中唯一一個同時針對三種儲存技術進行最佳化的架構:HBM、LPDDR、SRAM。目前,其他資料中心CPU均採用DDR記憶體,但其頻寬能效相當低下。輝達率先在Grace CPU中引入了LPDDR4,這是一次革命性的突破。我認為再過幾年,業界都將跟進。大家現在都意識到這是一個多麼正確的決策。Vera CPU採用LPDDR5,Rosa CPU採用LPDDR6。我們現在擁有完善的LPDDR技術路線圖。AI運行需要大量記憶體,它必須依靠短期記憶、工作記憶和長期記憶來思考。因此,記憶體是AI體系中極其重要的組成部分。當然,互連同樣關鍵。我們在縱向擴展(Scale-up)和橫向擴展(Scale-out)兩個維度同步推進,系統規模持續擴大,需要大量產能支撐。世界仍在學習這樣一個概念:傳統意義上,電腦主要用於資料錄入和資料檢索。大家注意,人類通過鍵盤輸入。這是使用電腦的舊方式。未來,電腦實際上是一台“製造機”:一個token生產系統,而當前全球專用於token生產的電腦規模極為有限。之所以如此有限,是因為迄今為止我們出貨的大多數系統仍被用於訓練。如今,推理的拐點已經到來,OpenClaw橫空出世,智能體系統正在各處廣泛應用。用於推理的token生產規模才剛剛起步。我們究竟需要多少算力投資?我認為需要數兆美元量級的產能。因此,我認為晶圓代工廠將會極度繁忙。我們很榮幸與台積電合作,毫無疑問,這是世界上最頂尖的代工廠。我們還與三星合作。由於我們對記憶體的消耗量極大,我們與每一家記憶體廠商合作,並將與每一家連接器廠商、每一家矽光子公司攜手共進。Q8:AI的應用場景可以說不計其數,我們甚至還未能全部預見。但有一個話題直到最近才真正引發深入討論:我們不希望AI做什麼?我很好奇——在您看來,有那些領域是AI不應進入的,甚至是永遠不應涉足的?黃仁勳:自主能力總會有一個範圍。我的電飯煲在某種程度上是自主的,今天的無人機在某種程度上也是自主的。面對這些事物的範圍,我們需對所追求的功能本身保持更多審慎與反思。AI不應該違法。AI不應該承諾提供它沒有的功能。例如,如果一輛車說它能以65英里每小時的速度安全駕駛,我們希望它不會在50英里時就爆炸。這些都是人類在長期實踐中總結出的極具常識性的準則。至於其他方面,我認為我們應當持續學習,對自己的認知邊界保持更多謙遜。用科幻小說式的AI敘事去恐嚇所有人,在我看來是一種傲慢,過於自大了。我更傾向於在探索中前行,而非以恐懼驅動他人。提醒人們是一回事。嚇唬人們是完全不同的事。在劇院裡有些話不能說,在飛機上也有些話不能說。人類的判斷力會告訴我們,"提醒"與"恐嚇"之間存在本質區別。我有我自己的觀點,但最終分析下來,我們需要AI為我們做很多偉大的事情。例如,我們需要AI智能體系統參與網路安全。我們希望企業被“白細胞”所守護,以防有入侵者。網路安全智能體可以立即響應並蜂擁而至,攻擊入侵者,就像白細胞一樣。任何其他分析AI和網路安全的方式對我來說都不合邏輯,因為未來,網路安全威脅的演變越來越快,我需要超高速的AI智能體來保護我。我認為這是一個完美的例子,沒有人不想要白細胞。白細胞本質上是攻擊性細胞,它們主動出擊,那是好事。讓我們保持安全。Q9:我們正在進入一個3D模擬世界。我剛剛體驗了輝達的模擬器演示,你認為這個3D模擬世界未來幾年會如何發展?黃仁勳:剛才那位朋友問了我一個相反的問題:DLSS 5是用生成式AI來增強3D圖形的,而你看到的另一個例子——Cosmos——則是用電腦圖形去控制生成式AI。歸根結底,一切都在於“控制”。我們希望AI是“有根基”的。我們提出“檢索增強生成”(RAG,Retrieval Augmented Generation)的一個重要原因,就是要讓生成建立在真實基礎之上:你提供一些文字或資料,AI再基於這些真實資訊去生成內容。昨天我也提到,在AI的世界裡,我們是否需要記錄系統?是否需要SQL?答案是:絕對需要。因為SQL所代表的,是記錄系統,是我們業務中最真實、最可靠的資料基礎。而這些真實基礎,正是用來“約束”和“支撐”生成的。否則,生成出來的就只是幻覺。你剛才看到的那個虛擬駕駛體驗之所以真實,是因為我們用3D條件對它進行了約束——用各種必要的條件去“錨定”它,從而實現高保真的體驗。在這種框架下,你可以生成任何內容,而且可以用文字、圖像、3D等多種方式去控制它,其餘的部分則由AI生成。所以未來的發展方向,要麼是完全結構化的生成,要麼是由真實世界資料來控制的生成。這就是未來。你會不會在你的眼鏡裡體驗到這樣的東西?答案當然是會的。在眼鏡已經能看到真實世界的存在。如果我再用生成式AI去增強這個基礎,就可以創造出更豐富的體驗。Q10:您展示了Vera獨立機架的部署形態。隨著AI需求的持續增長,這些CPU的適用場景越來越清晰。您是否認為它們最終將承擔x86架構在資料中心中傳統承擔的角色?這是否是一個數十億美元等級的市場機會?黃仁勳:這些CPU是為資料密集型工作負載而設計的。它們針對的是高單線程性能需求,同時也面向電力受限的資料中心環境。在這種場景下,它們的每瓦性能可以實現2倍提升。目前市場上沒有其他CPU能做到這一點——除了Vera和Grace。在電力受限的資料中心中,實際上,所有採用輝達產品的資料中心基本都是電力受限的,因為一旦你擁有兆瓦級的電力,你會希望儘可能把電力用在GPU上,而不是浪費在CPU上。原因很簡單:GPU在生成token、創造價值,而CPU並不是主要的價值生產者。因此,如果可以,你會希望把絕大部分電力預算分配給GPU。當然,我們仍然需要CPU,但我們要讓它們極其節能。這也是為什麼我們使用LPDDR記憶體。同時,我們的CPU在單線程性能、頻寬效率方面都處於全球領先水平,頻寬甚至達其他方案的三倍。之所以把頻寬做得這麼高,是因為我們需要處理海量資料的移動。因此,我們設計了Vera、Grace等CPU,它們是專門為AI時代打造的。它們適用於所有場景嗎?未必。比如“每美元性能”可能不是最優,但那並不是我們要解決的問題。舉個例子,在過去十年的超大規模資料中心中,CPU設計的核心目標是最大化每顆晶片的核心數量。因為在雲端運算模式下,使用者是按“核心數”租用資源的。所以,對於雲廠商來說,“每美元核心數最多”的CPU就是贏家。但AI不一樣。AI關注的是“完成多少工作”,而不是“有多少核心”。如果你有價值500億美元的GPU在那裡運行,你絕不會讓它們因為CPU處理不過來而閒置,這些CPU可能就價值10億美元。你需要的是讓CPU盡快完成任務,讓500億美元GPU持續高效運轉。所以,我們的最佳化方向完全不同。我們打造出了一種截然不同的CPU架構。我們始終從“要完成什麼工作”出發來設計系統。一旦這一判斷最終變成顯示,我們就建構出最合適的整體系統。無論是Vera、Rubin,還是儲存、CPU、網路、甚至整個機架,都是圍繞我昨天提到的那類工作負載來設計的,也就是智能體。事實上,OpenClaw就是一個很好的例子。在資料中心中運行OpenClaw,配合Vera Rubin整套系統,是非常理想的組合。所以,我想這應該回答了你的問題。Q11:看起來Feynman將採用某種3D堆疊工藝。請問您能否介紹一下主Die、IO Die)以及先進封裝技術的規劃方向?供應鏈穩健性是否也在你們的考量之內?黃仁勳:供應鏈的彈性、多樣性總是影響我們的業務,因為我們規模很大。然而,如果我告訴你,那明年參加GTC還有什麼意義?到時候就只剩你和我,兩個人。Q12:你昨天介紹了LPU的整合,OpenClaw的出現似乎真的讓您眼前一亮。OpenClaw如何改變了你的日常生活?如何改變了輝達的戰略?黃仁勳:當OpenClaw出現,我們意識到世界終於擁有了一個開源智能體——我們現在幾乎可以將其當作一個行業標準。我們希望儘可能多地向這個開放原始碼專案貢獻能力,避免世界因此分裂成太多互不相容的分支項目。如果我們能將這個主項目打磨得足夠優秀,全球每家公司都能以此為起點,建構自己的智能體戰略。OpenClaw之所以意義重大,關鍵就在於它是開放原始碼的。它已經非常強大,工程質量相當成熟。我們將在未來30年間持續為其注入能力,就像我們持續向Linux和Kubernetes貢獻程式碼一樣。試想一下,全世界都有了一個可以共同貢獻的平台。想像OpenClaw未來將變得多麼強大。OpenClaw只需一行命令就能安裝。安裝完成後,你告訴它你想讓它成為什麼。比如你說:我希望你學習這個新工具。它便去閱讀使用手冊,可能是Skill文件,然後上網搜尋它需要學習的內容,自行摸索如何使用。你給它一個最終目標:我想設計一個廚房,我的廚房現在是這個樣子,這是我希望它未來呈現的效果。去下載相關軟體,去學習這些應用,找到使用它們的方式。如果需要訂閱某個服務,只要不超過這個金額,你有我的授權去訂閱。然後幫我設計廚房,找到合適的家具,給我幾個家具示例和報價,幫我做平面佈局,渲染給我看。我剛剛這通指令,就是給了它一個它能夠完成的項目,然後它便獨立出發,學習、呼叫工具,反覆嘗試。它生成第一版廚房設計,與你給它的參考圖片進行比對,然後判斷:“差得有點遠,繼續改。”於是一遍又一遍,直到完成後返回給你。第一次完成後,你給它一些額外指導,它再次回來。完成後,它便學會了這項技能——它學會了如何做室內設計。於是,它將自己的學習成果總結成一份技能文件,存入記憶。下次你說“幫我設計客廳”,它便回想起:“原來設計房間是這麼回事。”它會表現得更好。你再次給它指導,它再次更新自己的技能文件。下一次你說我要設計臥室“,你能看到,它完全是在執行同樣的過程:拆解任務,呼叫工具,運用記憶。這真的相當了不起。輝達如今的運轉速度比以往任何時候都快,但這是因為我們越來越多地使用AI,工作完成得更快了。所有項目的推進速度都在提升,這都是好事。說實話,我感覺自己越來越忙了。我今天與輝達的工作體驗是:它讓我比以往任何時候都更忙——比六個月前更忙。原因就在於工作成果反饋得更快了,項目數量也增長得更快了。我認為這是所有人共同的體驗。很多人說AI來了,我們會失去工作。恰恰相反。事實是:PC讓我們更忙了,網際網路讓我們更忙了,移動裝置讓我們更忙了。AI將以超快的速度完成任務。你寫一份規格說明、一份架構文件、一份產品定義,交給智能體,30分鐘後,它又回到你的案頭了。過去,你寫完產品規格說明,團隊拿去工作一個月。那個月裡,你在做別的事情,生活節奏相當從容。如今,那一個月已經壓縮成了30分鐘,你隨時都在關鍵路徑上。這位朋友的工作並沒有消失,只是感覺更忙了。我的判斷是:AI將使我們以如此之快的速度推進工作,以至於我們最終會承擔更多的工作量。Q13:在AI算力市場中,Vera Rubin帶來的需求有多少是新增量,又有多少是超大規模雲服務商對Blackwell的升級替換?黃仁勳:這個問題的答案,最終取決於我們所處的產品設計周期與建設周期的那個階段。這就好比iPhone 3發佈時,iPhone 3的銷量中有多少蠶食了iPhone 1的市場,又有多少是新增銷售?事實上,iPhone 3銷量的99.9%都是新增銷售。iPhone 4發佈時同樣如此,99.9%是新增,而非替換。直到大約十年之後,這種格局才開始發生變化。一項技術擴散到全世界,大約需要十年左右。如今大約每四年就會迎來一輪新的資本支出周期。我的判斷是:我們目前處於輝達推理拐點的第一年,這是十年來推理領域真正意義上的第一個拐點年。十年之後,市場可能趨於飽和。而Vera Rubin是拐點的第二年,新增需求的比例同樣會達到99%。Q14:請問您能否更新一下輝達在中國資料中心業務的信心水平,以及這些出色的產品未來能否在中國市場重新建立有實質意義的存在?黃仁勳:我能夠回答的是:我們已經獲得了向中國眾多客戶銷售H200的許可證,也已經收到了來自眾多客戶的採購訂單,目前正處於恢復生產的過程之中。這對大家來說是新消息,與兩周前的情況已有所不同,這是我們當前的實際狀態,供應鏈也正在重新啟動。大家很快就會開始聽到相關消息。其次,我認為川普總統的意圖是:美國應當在獲取輝達最先進技術方面保持領導地位,但他同時也希望我們能夠在全球範圍內參與競爭,而不是不必要地拱手相讓那些市場。綜合我剛才說的三點——H200許可證、客戶採購訂單,以及他所表明的相當直接的意圖,我有充分理由相信他的立場始終如一。Q15:我很想進一步瞭解您在開源模型方面的願景。我個人認為開源AI是現有體系的重要補充。請問輝達推進開放原始碼的驅動力,究竟更多來自生態系統擴張、客戶基礎延伸,還是戰略層面的考量?Nemotron的路線圖是否會長期堅持下去?黃仁勳:我們已經發佈了GR00T 1、GR00T 2,Cosmos 1和2也已發佈,Nemotron 1、2、3均已推出,Nemotron 4我們已啟動聯合開發。之所以要對模型進行編號,是因為你有持續推進的意圖。就像CUDA,我們現在已經到了CUDA 13。這本身就回答了這個問題——我們絕對有意願持續推進前沿附近的基礎模型研發。我們未必要做到絕對前沿。那並非我們的使命。我們的使命有幾個層面:我們希望為世界打造可信賴的開源模型,以輝達的體量和能力,確保每年穩定迭代,讓所有人都知道,你們可以信賴我們。說到做到。另一個原因是:我們自己在開發模型的過程中,可以針對新一代晶片和系統架構對模型架構進行深度最佳化。這是其他團隊未必能做到的。舉個例子,如果沒有TensorRT-LLM,我們就無法探索NVLink 72的性能極限;如果沒有Dynamo,我們就無法探索解耦推理的邊界,也就不會有後來收購Groq團隊的決策。擁有自己的軟體團隊,保持工業級、前沿水準的軟體能力,使我們能夠在整個系統層面持續創新,軟體與硬體相互成就,形成正循環。我們對開源模型生態系統的投入是堅定的。Q16:輝達自動駕駛業務目前約佔公司總營收的1%。您認為,決定自動駕駛業務能否對輝達財務業績產生實質性影響,最關鍵的挑戰是什麼?黃仁勳:這個問題對我來說意義特別深刻。輝達的CUDA業務曾經佔總營收的0%,卻佔據了我們90%的成本。任何理性的人都會放棄,但如果我們真的放棄了,在座各位今天就不會出現在這個房間裡。25年前,我們首次推出可程式設計著色器時,沒有人知道如何使用,沒有人願意為此付費,沒有任何評測機構認為這是個好主意。如果我們當時放棄了,可程式設計著色就不會有今天。8年前,我宣佈推出RTX光線追蹤時,所有人都認為這是個笑話,說光線追蹤一塌糊塗。如果我們沒有RTX,今天的全場景路徑追蹤電腦圖形學也不會有今天。事實證明,我們最初做的幾乎每一件事,都耗費了大量資金,卻毫無回報,甚至引來不少質疑。因此,你必須堅信自己所相信的,然後決定是否值得繼續追求。10年前,我開始投入自動駕駛。最初的團隊只有我和另外一個人。我們踏上了這段探索之旅,試圖弄清楚自動駕駛的技術難題究竟是什麼。如今,我們有數千人在從事自動駕駛相關工作。你說它只佔1%,但請記住,輝達的自動駕駛業務實際上涵蓋三台電腦:訓練系統、合成資料生成與模擬系統,以及自動駕駛車載系統本身。只有最後一部分被我們歸類為自動駕駛業務,但因為我們深耕這個領域,整體業務規模遠比大家認為的要大。特斯拉購買輝達系統用於訓練,Wayve以及全球每一家正在研發自動駕駛的公司,無論是卡車、面包車、乘用車還是無人計程車,都在向我們採購這三台電腦中的一台或全部。這個規模相當可觀。但即便業務規模為零,我也會繼續推進。為什麼我如此確信自動駕駛一定會實現?因為我完全相信,自動駕駛在技術層面已經是一個被解決的問題。我們花了10年才走到這一步,但它確實已經被解決了,剩下的只是工程層面的持續打磨。10年之後的某一天,全球每天1兆英里的行駛里程將實現100%或接近100%的自動駕駛。今天,這一數字之所以有限,唯一的約束就是司機座位上的人,也就是駕駛仍需要人的參與。如果沒有這個約束,全球每天的行駛里程一定會大幅增長。假設每天有2兆英里,再乘以每英里若干美元,這將是一個數兆美元量級的市場。大多數數兆美元量級的市場,在某個時間點都是從零開始的。所以我完全接受它現在還在零附近,我的信念不會改變。Q17:在您看來,歐洲成為優質AI合作夥伴最有力的訊號是什麼?黃仁勳:歐洲許多國家,德國、瑞典以及英國的部分地區,曾是上一次工業革命的發源地。事實上,有三個國家引領了全球機電一體化的發展,這是技術與機械工藝、工業化的深度融合。機電一體化在德國、瑞典、日本都非常強大;美國曾經也很強,但我們將製造業外包得太多了。然後,下一場工業革命來了——IT和軟體革命,這對製造業來說非常陌生。製造業的文化是嚴格的、一步一步的,每一件產品在發貨之前必須完美,因為它可能傷害到人。而軟體的運作方式是叢集式的,你必須在它還沒有完善之前就發佈,因為如果你不發佈,它永遠不會被修復。這不只是技術上的差異,而是深層的文化差異。正是這種文化差異,導致美國在IT革命中全面主導,而德國卻被落在了後面。但希望來了。OpenClaw不需要你去程式設計,它只需要你告訴它該做什麼。你可以跨越IT革命,直接跳躍到AI革命。這正是我每天對德國、日本、韓國、瑞典所說的話:這是你們的機會,讓過去成為過去。這已經不再重要了——因為正如大家所知,軟體工程師已經不需要再寫程式碼了。對德國來說,這應該是最令人振奮的消息;對日本來說,同樣如此。直接擁抱AI,然後將AI技術與你們世界級的機電一體化工業能力深度融合。你們將一躍成為全球機器人產業的領導者。我是你們最堅定的擁躉。Q18:隨著推理需求的興起,大量初創公司和成熟企業湧現,試圖解決速度、記憶體、功耗等各種瓶頸。其中有些公司公佈的token效率資料,與輝達產品的表現形成了直接競爭。這與GPU早期時代的競爭格局似乎大不相同,被認真對待的競爭者明顯更多。我們如何確信輝達的推理方案是最快、最優的?如果Groq加Vera Rubin成為主流推理解決方案,輝達又將如何維持這種領先優勢?黃仁勳:我建議大家參考兩到三個基準測試,直接看客觀事實。第一是MLPerf,這是行業內最嚴格的基準測試。大家去看看輝達在其中的位置,我們在MLPerf推理和MLPerf訓練兩個榜單上全線第一,而且大多數參與者根本無法完成全部測試項目。第二是SemiAnalysis,這可能是目前覆蓋最全面的推理分析,涵蓋你能想到的每一個維度,結果同樣是輝達。如果允許我引用別人的話,“推理之王”,我就是喜歡這個稱號的感覺。那條冠軍腰帶也很漂亮,通常你得到的是玻璃獎盃,不知道放那裡好,但一條冠軍腰帶,這種感覺蠻好的。這就能清楚地告訴你我們在推理領域的位置。第三是Artificial Analysis,涵蓋了所有API推理服務公司,對每一家推理服務商進行全面評測。你會發現輝達在整個榜單頂端,而且輝達是該榜單覆蓋的約20項服務中唯一一個全系列上榜的解決方案。事實已經說明,我們在推理領域非常、非常強。我們理應獲得這份認可。我們的推理之所以如此出色,不只是因為我們的浮點運算能力強,而是因為我們進行了極致的協同設計。推理是一個巨大的電腦科學問題,是一個巨大的電腦系統工程問題,涵蓋CPU、GPU、縱向擴展交換機、橫向擴展網路技術、記憶體技術、儲存技術——所有這一切必須協同運作才能做好推理,而我們比任何人都做得更好。Q19:請問輝達與台積電在共封裝光學(CPO)方面的合作進展如何?另外,美國商務部長曾希望將台灣40%的晶片產能遷移至美國,這在現實中是否可行?黃仁勳:首先,我們與台積電共同發明了CoUP,這是一種將電子器件與矽光子引擎直接整合在同一塊晶片上的技術。我們為整條供應鏈申請了約100項專利,並將我們的全部技術開放授權給整個供應鏈,以便各方能夠協同打造矽光子CPO(共封裝光學)技術——讓電子與光子在同一個封裝中融合。目前,我們佔據了台積電COUP工藝產能的絕大多數。Spectrum-X的量產爬坡已經啟動,未來還將持續擴大規模。關於40%這個目標——在當前及近期來看非常難以實現,因為需求仍在持續高速增長。台積電正在盡全力在美國亞利桑那州及周邊建立新產能,整條供應鏈也在美國本土佈局。然而,新晶圓廠和新工廠還在建設的同時,全球整體需求的增速之快,使得在近期內實現40%這一目標將極具挑戰。Q20:您向Nebius投資了20億美元,同時也投資了Lumentum和Coherent。請問您在做這些投資時的思路是什麼?黃仁勳:我們始終在思考兩個方向:上游供應鏈和下游合作夥伴。你必須想像輝達的技術與全球解決方案的完整整合路徑,一直延伸到終端使用者側——有人在消耗token,有人在使用OpenClaw,有人在使用ChatGPT、Anthropic,有人在使用Runway、Black Forest Labs……你必須把這條鏈路想通到底。向上看,未來2~5年,我的上游供應鏈需求是什麼,我現在應該為此做那些準備?向下看,我需要怎樣的下游產能——土地、電力、廠房,或者開發者生態——未來1~5年我需要什麼?當你向上看,你會發現我們正在隨Spectrum-6大規模引入矽光子技術,並將在未來幾年把矽光子加入到NVLink的縱向擴展技術中。這意味著我們所需的矽光子產能,將遠超今天全球現有水平。因此我們與供應鏈合作,提前幫助他們建立產能。有時我們提前付款,有時只是給出預測,有時如果某項技術產能極度緊缺但需求巨大,我們可能會選擇直接投資該公司,同時提供預付款、預測以及其他支援。Coherent和Lumentum就是這樣的思路,這屬於我們上游供應鏈的戰略佈局。而Nebius則是下游合作夥伴的投資。上游一個方向,下游另一個方向。我始終沿著整個技術與製造的生命周期進行全域掃描,持續為公司的增長做好準備。Q21:資料對於世界模型極為重要,遊戲能產生大量資料。請問遊戲玩家資料和雲遊戲資料,對於世界模型訓練是否真正有價值,甚至能夠超越遊戲本身的應用範疇?黃仁勳:在一定程度上是的。但需要注意,大多數遊戲並不嚴格遵守物理法則。比如在《堡壘之夜》中,角色的奔跑動作與其體型所能支撐的速度並不匹配,是一種半跑半飛的狀態。因此,在訓練希望基於物理規律的基礎模型時,必須小心過濾掉這類不符合物理規律的觀測資料。遊戲中的角色可以從山頂跳下,遊戲與現實中樹木搖曳、海浪起伏的方式完全不同。如果條件允許,你應當回歸真實基準資料。當然,你也可以使用遙運算元據,或者使用模擬資料——這正是Newton的用武之地。Newton和Isaac Lab運行在3D圖形環境中,但其動畫是完全基於物理模擬的,碰撞遵循物理原理,關節運動遵循逆運動學。因此,Newton和Isaac Lab中的所有屬性都嚴格遵守物理規律,可以將其與真實世界的可觀測資料結合起來,共同訓練世界模型。一旦世界模型達到足夠的能力水平,你甚至可以反過來。用3D圖形控制世界模型來生成新的合成資料。這就形成了一個飛輪:最初我們使用真實視訊資料,然後用3D模擬資料加以增強,幫助我們建構出世界基礎模型,再用遙操作或3D模擬來控制它,進一步放大合成資料的生成規模。這個飛輪正在啟動。這有點像:你必須先積累足夠的知識,理解事物的運作規律,然後才能想像未來的各種可能場景。我們訓練了自己的世界基礎模型,現在能夠生成各種未來的可能性。而這些對未來的合理推演,本身就成為了我們的學習素材——我們將它們轉化為訓練資料的真實基準。就我個人而言,在思考輝達的戰略和行業走勢時,我其實生活在一個完全由腦中模擬建構的未來裡。我會定期校驗這個模擬是否與現實保持一致,持續重新評估。如果我的假設、我的模擬與現實始終保持連貫,說明我對未來的判斷正在成真,我便堅守這個願景,始終如一。Q22:輝達在Spectrum X上採用了CPO。這項技術會擴展到整個網路產品組合中嗎?大規模生產的關鍵挑戰是什麼?另外,這會加深與台灣CPO供應鏈的合作嗎?黃仁勳:我從後往前回答。我們與台灣CPO供應鏈合作非常緊密。當然,這個供應鏈始於台積電的晶片製程工藝,每一個環節,包括組裝和封裝,都極其複雜。Spectrum 6取得了巨大成功。事實上,Spectrum 3也是巨大成功。Spectrum 4是我們的第一款乙太網路交換機。當時所有人都認為我們很難打入乙太網路領域,但我們完全專注於AI乙太網路,徹底重構了乙太網路技術,以支援AI特有的流量類型和計算模式。Spectrum 4、5、6都是巨大的成功。我們現在已經是全球最大的網路公司了。這實際上是NVLink和Spectrum的完美結合,都是本壘打等級的成功。Q23:去年底,Allen Institute的一位知名研究員曾警告,AI算力擴展的可用槓桿——包括資料、精度等——大約還有兩年就會耗盡。您之前提到Blackwell引入了MX資料格式,Vera Rubin又有所推進,請問輝達手中還有那些擴展維度尚未動用?黃仁勳:NVFP4不只是改變了浮點數的精度,而是徹底重構了整個張量核心引擎(Tensor Core Engine)的結構。NVFP4本身就是一套張量核心引擎,而不僅僅是一個數值格式。它的處理結構是動態的——動態上採樣、動態下採樣,從而在儘可能節省能耗、提升計算量的同時,保留最終計算結果的精度。這套動態調整機制,正是張量核心引擎之美所在。整個行業在FP8上的普及才剛剛穩固,我們已經在推動向NVFP4的遷移了。再往後,FP1這類格式確實有些奇特,精度擴展的空間大概也快到頭了。所以你最初的判斷並非沒有道理。但輝達有一個重要優勢:極致的協同設計。過去十年,我們的計算效率提升了約100萬倍,而摩爾定律在同期只貢獻了約100倍。摩爾定律鼎盛時期的預測是十年100倍,而我們做到了100萬倍。我們不只是靠精度的提升。單靠精度,每年大約只有2倍的提升空間。我們的速度遠超精度擴展所能解釋的範圍,未來也將如此。我們還有很多旋鈕可以撥動。每一年,我都會向大家展示新的旋鈕。去年,我們展示了NVLink 72,在功耗大致相當的前提下,性能提升了35倍。這就是架構的力量,這正是極致協同設計如此重要的原因。也許可以給大家一個小提示:未來不只是關於大模型層面的最佳化,未來是關於智能體系統。智能體系統使整個問題空間再次大幅擴展。而當問題空間擴展,你就有更大的機會去尋找那個質的飛躍。Q24:隨著智能體工作流的興起,許多人認為新思科技、Cadence這類傳統軟體平台將被取代。請問您如何看待AI與這些軟體公司之間的關係?黃仁勳:請轉告散戶投資者,他們的判斷完全錯了。這甚至不是我需要保護的業務,但是非對錯還是要講清楚。舉個例子,新思科技、Cadence,以及所有設計工具,它們業務規模的上限,取決於有多少工程師坐在那裡使用。工程師數量有多少,工具就能賣出多少許可證。就像管道工多了,管道工具就賣得多;木匠多了,木工工具就賣得多。但未來,我們將擁有大量AI智能體工程師。這些智能體工程師會做什麼?憑空生成電晶體嗎?不,它們會使用和人類工程師一樣的工具,因為工作完成後,必須把結果放回人類可以理解的結構化資料中。如果我無法理解、無法控制輸出結果,這就回到了我們反覆提到的可控性問題。SQL會因為智能體的出現而消亡嗎?不會,SQL恰恰是我們業務真實基準的存放地。當智能體完成工作,請把結果放回SQL,這樣我隨時都可以去查詢。同理,當智能體完成晶片設計,它會使用新思科技和Cadence的工具,設計結果最終也會回歸到這些工具的檔案系統和資料結構中,這才是設計的真實基準。如果我需要精確復現設計,不是“大概能用”,而是“必須精確可用”,AI深度學習可以生成大致可行的設計,但我不能接受“大致可行”,我需要“完全精確”,而這正需要新思科技的工具來保證一致性。正因為有了智能體,我們需要授權的新思科技工具數量很可能會爆炸式增長,而不是減少。有些人有個奇怪的想法,認為AI可以從零開始憑空生成電晶體,他們以為輝達工程師每天就像在用Nano Banana生圖一樣設計晶片。這裡沒有貶低Nano Banana的意思,但晶片設計必須一層一層地精確建構,因為它必須是可驗證的、可理解的、可重複的、可控的——不能依賴機率。Q25:請問你去年最大的挑戰是什麼,今年最大的風險又是什麼?黃仁勳:我的工作可太難了。就一條嗎?我的人生哲學非常簡單:別被開除,別無聊,別死。在這三者之間,儘量保持平衡。這對輝達同樣適用:不要被客戶開除,不要無聊到公司停止創造價值,不要倒閉,然後待在這三者的中間地帶。這就是人生秘訣,去年如此,今年亦然——你可以說是黃仁勳的“人生三訣”。這三條聽起來簡單,但每一條都是極高風險的。Q26:在中東戰爭和全球地緣政治動盪的背景下,輝達如何看待在台灣方面的風險?黃仁勳:首先,我們在以色列有6000個家庭,我非常擔心他們。我知道他們自己也很擔憂,但我們公司仍在非常努力地營運,員工們依然在非常努力地工作。儘管如此,這絲毫不減輕我們對他們的牽掛。我對以色列的承諾是百分之百的——我們會長期在那裡,員工得到我們百分之百的支援。對台灣同樣如此。我們在那裡有數千名員工,他們深耕於此已經很長時間。我們整條供應鏈都在那裡,與我們合作的數百家公司中,不乏全球最重要的企業。我唯一的希望,是大家都能攜手合作,保持和平,著眼大局,保持冷靜,不斷提升自身韌性。我百分之百相信,我們將繼續依靠和倚重以色列的出色產業;我同樣百分之百確信,整個世界將在很長很長一段時間內繼續依賴台灣。Q27:如果您的願景得以實現,十年後輝達會是什麼面貌?黃仁勳:我們會非常忙碌。希望屆時輝達擁有約75000名員工,規模儘可能精簡,同時足以支撐使命。這75000名員工將與750萬個AI智能體協同工作,智能體全天候不間斷運轉。希望我們的員工不需要跟上智能體的節奏,我很確定他們也跟不上。這就是未來。我們將解決一些真正了不起的問題。我們今天正在努力解決的那些事情,十年前沒有人會想像這是可解的。機器人基本上已經是一個被解決的問題;自動駕駛汽車基本上也是一個被解決的問題;藥物研發,我們正在像對待工程問題一樣對待它。延長人類壽命——這一切現在都完全處於可能性的範圍之內。十年前,沒有人會想像這些是可實現的。而十年後,最好的思維工具之一,就是認識到不可能其實相當實際可行——任何看似需要數百萬倍能量、成本或時間的事,都可以被壓縮數十億倍。距離會縮短,一切將因機器人變得更輕盈,事情會完成得更快,能源消耗也將大幅降低。在我剛畢業的那個年代,我們今天談論的一切,連科幻小說裡都沒有出現過。我們現在談論的這些事情,本身就已是非凡壯舉。關於人類,我唯一可以確定的是:我們如今允許自己打開想像力去解決的問題,比四年前多出了百萬倍。那麼再過十年,當我們意識到還能解決那些問題時,會是什麼景象?那些問題我們甚至還沒開始想像。因此,我非常確信,未來還有無數等待我們去解決的偉大問題。我甚至嫉妒那些四十年後還在世的人。Q28:Vera Rubin整體系統,主要是為瞭解決當前的技術瓶頸,還是在重塑AI的商業模式?黃仁勳:我們建構的每一套系統,都能讓當前的問題和工作負載得到數倍的提升,同時也總會開闢出一片新的問題空間——那些我們今天還無法解決的問題的新視野。昨天我展示圖表時,有一個規律我每次都會呈現:我們既向上推——對於任何給定的工作負載,我們持續提升吞吐量和性能;也向右推,AI變得更聰明,能力邊界不斷擴展,出現新的可能性。舉個例子:今天使用ChatGPT或任何AI,你大約能獲得每秒20個token的生成速度。而我展示的圖表是每秒1000個、乃至2000個token。想像一下——你按下回車,答案以快100倍的速度返回。未來,當你還在輸入的時候,AI已經在思考了;等你按下回車,它已經完成了。不論是幫我寫一個網站程序,還是幫我設計一個廚房——按下回車,完成。這就是未來。每一年,我們提升吞吐量,我們擴展可能性的邊界。Q29:您說AI讓我們所有人都更忙了,但同時您又預測物理AI和機器人將承擔今天工人從事的體力勞動。這兩件事如何能同時成立?未來會不會出現大規模失業?黃仁勳:首先,全球目前有數千萬製造業崗位的缺口。大家知道嗎?我們的卡車司機短缺數百萬。製造業工人短缺數千萬。就業率很高,但很多公司仍然招不到足夠的勞動力,大多數公司都面臨勞動力短缺的問題。機器人將填補這個缺口。這是第一層。填補缺口的結果,是所有國家的經濟都將增長。而經濟增長時,大多數公司往往會僱用更多人,用來管理更多機器人,管理更多智能體,推動業務增長,發現新問題、解決新問題,嵌入新技術,發明新產品、新服務。這很可能就是未來的軌跡。我之所以這樣判斷,是因為:如果我取今天這個點,再取100年前那個點,連成一條直線——就業崗位數量一直在增長,各國經濟一直在增長,我們所有人都比以往任何時候都更忙。你上一次坐在門廊的搖椅上,喝著一杯檸檬水,看夕陽西下,是什麼時候?那個畫面是100年前的事了,不是嗎?我們比以往任何時候都更忙。這條趨勢線大機率還會延續。我們都將有穩定的工作。當然,每一種職業都會發生變化,有些工作會消失,有些工作是全新的。就像過去人們用馬來耕地、代步,而現在一匹良馬價值500萬美元。世界在變,AI會改變這一切,但我相當確信,這將是一個更美好的世界。Q30:昨天的公告中提到了現代、日產、比亞迪、吉利與輝達的合作。對於比亞迪和吉利而言,L4等級的自動駕駛功能落地,在中國的監管環境下究竟如何運作?黃仁勳:這是這樣運作的:在中國,比亞迪、吉利、小鵬、理想都是我們的合作夥伴和客戶,它們發展得很好,也將繼續發展得很好。我們與它們共同基於DRIVE Hyperion實現了感測器和計算架構的標準化。當它們的汽車進入歐洲市場,某些國家可能無法接受它們的軟體棧。這時,輝達的軟體棧就可以直接啟用。而在中國,它們使用自己的軟體棧完全沒有問題。在歐洲或亞洲的某些地區,如果當地軟體棧不適用或不被接受,我們的軟體棧就可以替代上去。中國政府的規定適用於中國,但並不適用於德國。比如,如果比亞迪想在德國以自動駕駛模式營運、接入Uber,它完全可以使用DRIVE OS來實現。這就是雙贏的方案。我們只是想讓所有人都滿意。(現場,全球規模最大的汽車媒體Motor Trend宣佈授予黃仁勳“年度人物”)黃仁勳:真的嗎?太棒了,謝謝。我要站在這裡,直到再多拿幾個獎。不過我需要懺悔一下,我已經兩年沒有自己開車了,我現在是被自動駕駛接送的。我得了“推理之王金腰帶”、“Motor Trend年度人物獎”,太棒了。Q31:CUDA在2006年發佈,市場過了很多年才真正理解它的價值;NVLink 2014年推出,NVLink 72 去年才被廣泛認可。請問您認為輝達現有產品中,那一個是市場目前尚未充分理解、但五到十年後將被證明極為重要的?黃仁勳:我會說Alpamayo是其中之一,Cosmos是其中之一,Omniverse絕對是其中之一,Dynamo已經被人們理解但尚未被充分重視,它對AI工廠整個生態的深遠影響,毋庸置疑。還有一個概念:如何在AI工廠的語境下思考性能這個問題?這是一個非常新的概念,我還需要多次反覆講解。但終有一天,全球每一位CEO都會懂它,每一個董事會都會理解它,每一家公司都會用它來估算自己未來的營收,它將成為工廠營運流程和企業戰略規劃的核心組成部分。這個概念對未來的產業極為關鍵,但目前理解還不夠深,我需要再講上17遍,沒關係,已經有足夠多的人理解了,但還有很多工作要做。Q32:你曾說過,希望大家經歷大量的痛苦和磨難。請問在一個相對完美的世界裡,您會推薦人們去經歷什麼樣的苦難,才能走到您今天的位置?黃仁勳:首先,那番話是對一群大學生說的。在座各位已經是研究生以上了,應該好好享受生活了。苦難嘛……你看,每當你學習一件新事物,都伴隨著相當程度的痛苦;每當你做超出舒適區的事情,都會如此;每當你站在台上做主題演講,知道所有人都在評判你,而你也知道自己可能不會像自己期望的那樣完美——這其中始終有一份焦慮與痛苦。備戰任何事情都需要大量的投入,苦難無處不在,這毋庸置疑。這正是追求卓越不可或缺的一部分,是追求成為最好的自己不可或缺的一部分。只要你感到自己在全力追求成為最好的自己,竭盡所能,把一切都留在場上,那麼苦難一定已經發生了。 (智東西)
【GTC 2026】黃仁勳祭出終極AI推理神器!
黃仁勳介紹稱,LPX與Vera Rubin平台結合後,推理吞吐量/功耗比將能提升35倍。在GTC 2026主題演講上,一款名為輝達Groq 3 LPU的全新晶片正式亮相。台北時間周二凌晨,輝達正式推出Vera Rubin平台,包括Groq 3 LPU(簡稱LPU)在內,共計搭載了七款晶片,分別為Vera CPU、Rubin GPU、NVLink 6交換機、ConnectX-9超級網路卡、BlueField-4 DPU和Spectrum-6乙太網路交換機。據悉,輝達將建構包含256個LPU的Groq 3 LPX機架,提供128GB(每個LPU整合500MB的SRAM)的SRAM和40 PB/s的推理加速頻寬,並通過每個機架640 TB/s的專用擴展介面將這些晶片連接起來。這款機架將與Vera Rubin NVL72、Vera CPU等另外四款機架一同構成完整的AI超級電腦平台Vera Rubin。輝達表示,Groq 3 LPX 是Vera Rubin的推理加速器,旨在滿足智能體系統對低延遲和大上下文的需求。Vera Rubin和LPX通過協同設計的架構,將Rubin GPU和LPU的卓越性能完美結合,使其呈現極低延遲與超大吞吐量的特點。黃仁勳介紹稱,LPX與Vera Rubin平台結合後,推理吞吐量/功耗比將能提升35倍。LPU晶片將由三星代工,預計機架將於今年下半年開始出貨。就在昨日,分析師郭明錤發文稱,在輝達投資Groq之後,LPU的出貨量預測已大幅上調。預計2026至2027年的總出貨量將達到400萬至500萬顆。新架構機櫃預計於今年第四季度開始量產,2026年與2027年機櫃出貨量分別約為300至500個,以及15000至20000個。在他看來,LPU需求增長快速增長主要來自外部因素。一方面,LPU與輝達生態系(如CUDA)高度整合,大幅降低應用開發與部署門檻。另一方面,如今業內超低延遲推理需求快速增加,包括AI智能體(AI Agents)以及正在興起的即時處理(Real-Time)、終端使用者(Consumer-Facing)與物理AI(Physical-AI)等類型應用。值得一提的是,黃仁勳在主題演講上也強調,AI已完成從感知智能到生成智能,再到物理智能和智能體智能的關鍵躍遷。財通證券指出,大模型在推理過程中會存在延遲,延遲與使用者體驗感精密掛鉤,大模型推理過程中的延遲主要在Decode階段,核心瓶頸在於記憶體頻寬。LPU具備更快的記憶體頻寬,可縮短大模型推理過程中的延遲。同時,基於LPU的大模型不僅具有更快的推理速度,還可以提供更具性價比的價格,可進一步提高使用者體驗感。該機構表示,目前Tokens的消耗量大幅增長,帶動推理晶片市場規模的高增長。LPU有望在推理晶片市場中逐步滲透,具有高成長性的市場空間。看好LPU的高成長性及LPU以機櫃出貨時帶來的PCB機會,建議關注:智微智能(參股元川微)、星宸科技(多輪增資元川微)、滬電股份(輝達PCB供應商)、勝宏科技(輝達PCB供應商)、深南電路。 (科創板日報)
【GTC 2026】黃仁勳要把AI“送上天”!
台北時間3月17日凌晨,輝達GTC 2026大會在聖何塞拉開帷幕。身穿標誌性皮衣的黃仁勳再次登上舞台,帶來了一場超過兩小時的“全端AI”盛宴。從全新的硬體平台Vera Rubin,到改變遊戲規則的DLSS 5,再到進軍太空的算力模組,輝達正在用一場發佈會,描繪從地面到宇宙、從訓練到推理、從虛擬到物理世界的完整AI藍圖。本文為你劃重點,一文看懂所有重磅發佈。宏大的新藍圖:兆美元營收與“代幣工廠”新概念黃仁勳在演講開場就拋出一個驚人的預測:到2027年,市場對Blackwell和Vera Rubin系統的訂單需求將帶來至少1兆美元的營收,這個數字較去年的預測直接翻了一番。輝達的底氣,來自AI算力需求的指數級增長。黃仁勳指出:AI正在從“模型訓練時代”加速邁入“模型推理時代”。過去,人們關注的是訓練一個模型需要多少算力;而現在,當模型被部署到實際應用中,每一次對話、每一張圖片生成、每一段視訊合成,都需要消耗大量的推理算力。這些推理任務產生的“輸出”——黃仁勳將其命名為 “智能代幣”(Intelligent Tokens)——將成為未來數字經濟的基本單位。“每一個Token都是一次智能的生產,就像工廠裡生產出的零件。”黃仁勳解釋道。基於這個邏輯,未來的資料中心將不再是簡單的計算中心,而是一座座 “代幣工廠”。企業的競爭力將不再取決於擁有多少台伺服器,而取決於生產這些智能代幣的成本與效率。因此,一個新的核心指標誕生了:每瓦特產生的Token數。這不僅考驗晶片的絕對性能,更考驗整個計算系統的能效比和吞吐量。這意味著輝達正在將AI算力從“奢侈品”推向“大眾商品”。當算力像電力一樣可以被量化、被定價,整個產業的商業模式都將被重塑。硬體核彈:從Vera Rubin到太空資料中心如果說去年的Blackwell是輝達投下的“AI超級晶片”,那麼今年的Vera Rubin,則是一座完整的、可落地的 “AI工廠平台”。1.Vera Rubin AI工廠平台:從晶片到系統的全面革新Vera Rubin並非單一的產品名稱,而是一個由多個元件構成的完整平台,包括:lVera CPU:這是輝達自主研發的新一代中央處理器,專為AI工作負載最佳化。與上一代Grace CPU相比,Vera在核心數量、記憶體頻寬和互連速度上都有大幅提升,能夠更高效地為GPU“喂料”,消除資料搬運的瓶頸。lRubin GPU:作為平台的“心臟”,Rubin GPU採用先進的製程工藝和全新的架構設計,其AI算力預計將達到H100的數十倍。黃仁勳沒有透露具體參數,但強調Rubin GPU將全面支援下一代AI模型,包括兆參數等級的多模態模型。l第六代NVLink:隨著GPU數量的增加,晶片間的通訊成為新的瓶頸。第六代NVLink將GPU之間的互聯頻寬推至新高,使得數百塊Rubin GPU可以像一個巨大的“虛擬GPU”一樣協同工作,大幅提升大規模平行計算的效率。lCPO交換機:為瞭解決傳統銅纜傳輸在高速下的訊號衰減和功耗問題,輝達推出了整合共封裝光學(Co-packaged optics,CPO) 技術的交換機。這種交換機將光學引擎與交換晶片封裝在一起,用光訊號替代電訊號進行資料傳輸,不僅頻寬更高、延遲更低,而且功耗大幅下降。這是建構下一代超大規模AI叢集的關鍵技術。整個Vera Rubin平台採用全液冷設計,不僅提升了散熱效率,還使得資料中心的安裝密度和維運效率得到革命性提升。黃仁勳將其比喻為“AI工廠的流水線”,客戶只需將平台接入電力網路和資料來源,即可快速啟動AI生產。2. 與Groq深度合作:LPU推理架構帶來35倍速度提升大模型推理的速度和成本,一直是制約AI應用普及的關鍵因素。為此,輝達與明星初創公司Groq達成深度合作,將後者的LPU(語言處理單元) 架構正式納入自己的產品矩陣。Groq 3 LPU是專為順序計算(如大語言模型推理)設計的晶片,與GPU的平行計算形成完美互補。本次發佈的Groq 3 LPX機架整合了256個LPU,可以與Rubin GPU協同工作,通過一種名為 “解耦推理” 的技術,將大模型推理過程中的“預填充”(Prefill,處理輸入提示)和“解碼”(Decoding,逐字生成輸出)兩個階段分開處理。GPU負責高並行的預填充階段,而LPU則專注於低延遲的解碼階段,從而將整個推理流程的Token生成速度提升35倍。這意味著,未來使用者在使用AI助手時,將幾乎感受不到延遲,實現真正的即時對話。這套系統預計在今年下半年出貨,將首先面向需要極低延遲的雲服務商和大型企業。3. Rubin Ultra與下一代Feynman架構:未來已來在演講中,黃仁勳還罕見地展示了更遠期的路線圖。用於未來Rubin Ultra平台的Kyber機架首次亮相,它可以連接多達144塊Rubin Ultra GPU,建構一個超大規模的AI計算單元。Rubin Ultra將採用更先進的封裝技術,將多個晶片組合成一個巨大的邏輯晶片,進一步突破單晶片的物理極限。黃仁勳預告了下一代架構——Feynman架構GPU。它將採用3D堆疊晶片和定製化的HBM(高頻寬記憶體)技術,標誌著輝達已經將研發目光投向了2030年。。4. Space-1太空資料中心模組:AI的觸角伸向宇宙如果說地面上的AI工廠已經足夠震撼,那麼輝達發佈的Space-1 Vera Rubin模組,則將AI的疆域拓展到了太空。這是一個為極端太空環境設計的、具備抗輻射能力的AI計算模組,可以部署在衛星或空間站上。它的意義在於:未來的衛星不再僅僅是一個“訊號中繼站”,而可以成為一個在軌運行的“智能節點”。衛星可以直接處理拍攝的圖像、分析感測器資料,甚至即時做出決策,而無需將海量原始資料傳回地面。這將徹底改變遙感、通訊、科學探測等領域的遊戲規則。例如,一顆氣象衛星可以即時識別颱風路徑並直接發佈預警,而不必等待地面處理。黃仁勳將其稱為“建構從太空到地面的完整算力架構”的第一步,預示著AI基礎設施競賽已經擴展到地球軌道。軟體與應用:從遊戲到企業的全面革新硬體之外,輝達的軟體生態也迎來重磅更新。1、DLSS 5:圖形領域的“GPT時刻”黃仁勳將DLSS 5稱為圖形領域的“GPT時刻”。它不再僅僅是超解析度和補幀,而是通過生成式AI模型即時渲染整個遊戲畫面,為玩家帶來前所未有的電影級畫質飛躍。該技術預計今年秋季上線,遊戲顯示卡的競爭將徹底進入AI驅動的新時代。2、NemoClaw“一鍵養蝦”平台這並非真的養蝦,而是面向企業級AI代理的部署平台 NemoClaw。它允許企業一鍵安全部署AI代理,補齊了安全、隱私等企業級能力,讓AI員工真正走進公司流程。3、“Nemotron聯盟”與開放模型輝達宣佈與Mistral AI等全球頂尖實驗室合作,共同開發開放的先進基礎模型,並行布開源智能體軟體套件,建構一個更開放的AI生態。物理AI:自動駕駛與機器人走進現實AI正在走出螢幕,開始與物理世界互動。本次GTC,自動駕駛和機器人領域的進展尤為引人注目。1. 自動駕駛:中國車企全面擁抱,Uber車隊明年上路比亞迪、日產、吉利、現代汽車宣佈加入輝達“robotaxi ready”平台,這意味著這些品牌將採用輝達的全端解決方案來開發自動駕駛計程車。更引人注目的是,Uber也計畫從明年起部署基於輝達Drive AV軟體的自動駕駛車隊,共享出行與自動駕駛的結合即將迎來大規模落地。黃仁勳在現場表示:“自動駕駛可能是第一個價值數兆美元的機器人產業,而輝達正在為這個產業提供從訓練到部署的完整計算基礎設施。”2. 機器人:與迪士尼合作的“雪寶”驚豔亮相在演講的最後,一個特別的嘉賓登上了舞台——由輝達與迪士尼合作開發的機器人 “雪寶”(Olaf)。這個可愛的機器人不僅能夠行走、揮手,還能與黃仁勳進行簡單的對話互動,展示了其在物理世界中的靈活互動能力。這背後是輝達在機器人領域的長期投入:從用於訓練的Isaac Sim模擬平台,到部署在機器人身上的Jetson Thor計算模組,再到驅動其“大腦”的AI模型。雪寶的出現,是輝達“物理AI”戰略的一個縮影:讓AI不僅能在虛擬世界中回答問題,更能在現實世界中完成任務。結語:AI的“工業革命”已經到來三年前,黃仁勳在GTC上喊出“AI的iPhone時刻”已經到來;今天,他用一場近三小時的演講,描繪了那個時刻之後更宏大的圖景——AI的“工業革命”。從兆美元的算力工廠,到太空中的智能節點,再到可以互動的機器人夥伴,輝達正在建構一個前所未有的AI基礎設施帝國。這場革命的核心邏輯已經清晰:算力不再是稀缺資源,而是像電力一樣的基礎設施;效率將成為企業的核心競爭力;而AI將從“回答問題”進化到“執行任務”,全面滲透進人類社會的每一個角落。黃仁勳在演講結尾說:“計算成本正在急劇下降,創新速度正在指數級上升。現在,是開始建構未來的最好時機。” (TechWeb)
美股 輝達GTC 大會重磅前瞻!下周資金將瘋狂湧向這三個類股!
下周一,全球AI圈最重要的一場大會,就要開始!3月16日到19日,輝達將在加州聖何塞召開GTC 2026。但這一次,如果你還只是盯著黃仁勳會不會再發佈一張更強的GPU,那你可能看錯了方向。因為對於資本市場來說,留給重新定價的時間窗口,其實已經不多了。華爾街眼裡,這次大會真正的份量,早就不是‘顯示卡參數提升了多少’。真正的博弈點在於,輝達能不能利用這四天,完成一次身份的跨越:從一家‘賣晶片’的硬體公司,正式轉變為一家‘定義 AI 基礎設施規則’的平台公司。從各大投行最新的前瞻報告來看,市場現在盯著的重點是輝達會不會在GTC上強化這幾件更關鍵的事:推理工作負載分解Token的成本和ROI網路互聯的重要性抬升以及下一代專用架構路徑。這意味著什麼?這意味著,從下周一到下周四,市場看的表面上是一場技術大會,實際上在交易的,可能是2026年AI美股下一階段的主線歸屬。如果輝達能把這個新敘事講通,那麼接下來被重估的,將不僅僅是輝達自己的股價。整條 AI 產業鏈的價值分配邏輯,都可能發生結構性的變化。錢會從那裡流出來?又會瘋狂湧入那個被低估的類股?那些公司可能會因為邏輯證偽而被拋棄?如果你想看懂下周資金真正的動向,今天你一定要耐心看到最後。本次GTC 要傳遞的核心資訊輝達這次 GTC 要傳遞的核心資訊是什麼呢?一句話總結:這次 GTC 不是來秀新品的,而是要重新定義整個 AI 基礎設施的遊戲規則。過去幾年,市場對輝達的理解非常簡單:誰的晶片算力最強,誰就是 AI 領域的王者。但瑞銀最新的報告帶來了一個重要訊號:單一處理器主導性能的時代要結束了。從這次 GTC 開始,輝達要做的,是把重點從“單晶片”轉向“系統級最佳化”。簡單來說,過去大家比的是誰的發動機更強,現在輝達要告訴你,真正的競爭力不光是發動機的馬力,而是整輛車的協同配合。黃仁勳的目標,不再是單個 GPU 多快,而是如何通過 “極限協同設計”,把晶片、網路、記憶體、軟體等部分整合成一個高效、標準化的 “AI 工廠”。這背後其實反映了一個本質變化:大家不再只關心算力峰值,而是關注系統能不能大規模落地,能不能算清楚功耗和成本的回報率(ROI)。就好像你不再只是關注車的發動機有多牛,還開始看油耗、保養成本,以及它帶來的經濟效益。輝達正是通過系統級的協同設計,把晶片、網路、記憶體和軟體打包成一個完整的解決方案,讓整個 AI 系統運行得更高效、更可持續。系統級統治力的背後是什麼?那既然我們已經進入了“系統時代”,接下來的問題是:輝達靠什麼支撐它的系統級統治力?在瑞銀的報告中,最大的預期差是:工作負載分解。這幾個字意味著,AI 系統的任務不再依賴一個“全能戰士”悶頭干,而是要根據不同的任務需求進行精細化分工。過去,市場對 AI 硬體的理解非常簡單:模型越大,需要越強的 GPU。但大家忽略了一個關鍵細節:AI 的不同任務有不同的需求。比如,訓練大模型需要“蠻力”,而推理(即我們調取 AI 時的過程)更注重“反應速度”;有些場景需要高吞吐量,而有些場景則要求極低的延遲。如果用最強、最貴的 GPU 去做所有任務,就像是讓一輛超級跑車去城市裡送外賣,雖然車速很快,但效率不高,成本也很大。瑞銀的報告提到,輝達正在從“單晶片性能”,轉向“系統級性價比”。黃仁勳通過“分解”和“極限協同設計”,把計算、網路和記憶體重新安排,給每個任務分配最合適的資源,從而最佳化整個系統。那很多人可能會問:把原本大一統的 GPU 任務拆了,難道不是在削弱自己的護城河?恰恰相反。這其實是在 強化輝達的“絕對控制權”。一旦 AI 系統變得 異構化,任務開始拆分,架構變得複雜,誰來決定任務的分配?誰來管理資料如何流動?誰掌握了這些“任務分配權”,誰就能主導 AI 時代的利潤。輝達現在的動作,實際上是在往 軟體棧和系統層 進行深度佈局,釋放出一個訊號:一旦華爾街接受了“工作負載分解”的邏輯,原本盯著 GPU 出貨量的估值模型將會被推翻。被忽視的王者——網路與互聯既然“工作負載”被拆解了,任務不再由一顆晶片單打獨鬥,那接下來的問題就非常現實:當晶片足夠多、足夠強的時候,最先卡脖子的會是什麼?摩根大通在報告中給出了答案:網路與互聯。邏輯其實很簡單:過去我們盯著 GPU 這台“發動機”猛不猛;但當 AI 進入成千上萬顆晶片協同的“機架時代”,真正決定效率的,已經不是單張卡跑多快,而是資料搬運的速度和延遲。一句話總結:GPU 決定算力上限,而網路和互聯,決定了你能不能觸達到那個上限。這就像你建了座頂級工廠,裝置全是世界一流,但如果傳送帶太慢、大門太窄,你空有頂級裝置,產量照樣上不去。現在的 AI 基礎設施,就面臨這種“工廠大塞車”。其實,這種從“算力”轉向“互聯”的趨勢,我們美股投資網的老朋友一定不陌生。我們早就提醒過:當算力達到飽和時,投資網路基礎設施是最具長期回報的機會。年初至今,我們提前佈局的“光電轉換”賽道已經全面爆發:我們在年初《美股2026年必買10隻股【中集】不為人知的潛力公司 》深度調研並提示的 GLW,當時價格僅 85 美元,本周二已經到了 139.36 美元,漲幅高達 64%。言歸正傳,黃仁勳現在瘋狂強化網路敘事,是因為他看準了一點:控制網路,就是控制整套系統的“調度權”。 一旦你用了輝達的通訊協議,你未來的擴展和遷移成本,就全部鎖死在他的生態裡了。這也解釋了為什麼華爾街現在的目光,已經穿過 GPU,直接盯上了最底層的光互連和矽光技術。花旗報告特別提到一個細節:今年的 GTC 和全球光通訊大會(OFC)幾乎是同期舉行,這絕非巧合!華爾街現在關注的焦點是:1.6T 光模組能否跑通,矽光技術是否成熟。如果說“工作負載分解”是推動 AI 系統重構的原因,那麼網路與互聯則決定了這個重構將會在那些領域首先釋放財富機會。一旦市場接受了這一邏輯,重新定價的將不僅僅是 GPU,更多的關注將集中在那些決定資料流動速度的交換機、光模組和互連技術上。記憶體之戰與代幣經濟學如果說網路解決了資料“怎麼走”的難題,那麼AI基礎設施最後的堡壘,便只剩下資料“存那兒”與“怎麼取”。瑞銀表示:輝達正引入類似Groq的架構,利用片上SRAM(靜態隨機存取儲存器)來實現超低延遲推理。那這是否意味著HBM(高頻寬記憶體)的末日將至?畢竟,在大眾的直覺裡,新技術的出現往往伴隨著舊技術的淘汰。當黃仁勳定為特定任務配備這種“極速工作台”時,投資者本能地擔心:這會不會切走HBM這塊最大的蛋糕?然而,這種“非此即彼”的擔憂,恰恰誤讀了輝達的真正意圖。深入剖析會發現,這並非一場你死我活的替代戰,而是一次精密的“工作負載分解”。SRAM雖快,快到幾乎零延遲,但它受限於晶片面積,容量天花板極低,根本無法承載千億參數模型的訓練與大規模通用推理;這就好比你手邊的辦公桌再順手,也塞不下整個圖書館的藏書。而HBM雖在延遲上略遜一籌,卻是維持AI系統規模的唯一“大動脈”,沒有它,大模型連跑都跑不起來。因此,輝達的策略絕非“二選一”,而是極致的“整合互補”:將最昂貴、最快的SRAM用於對延遲極度敏感的專用推理,打造極致體驗;同時讓耗時耗力的大規模訓練繼續深植於HBM的護城河中。這種架構設計的終極目的,是為瞭解決AI落地的最大痛點——如何在保證性能的前提下,把算力成本打下來。這就自然引出了本次 GTC 市場最關注的一道數學題:代幣經濟學Tokenomics。華爾街對 AI 最大的疑慮,已經不只是資本開支有多大,而是每一輪新增投入最終能不能轉化成更低的單位 token 成本和更高的商業回報。輝達近幾個月的官方表述也在持續轉向這一點:無論是 Blackwell 還是 Rubin,核心賣點都不再只是峰值性能,而是 cost per token、吞吐/每兆瓦,以及整套 AI 基礎設施的經濟可行性。技術上,這背後依賴的正是更複雜的記憶體層級與資料流最佳化——包括片上 SRAM/L1、L2、HBM 以及系統級互連的協同——把不同負載放到最合適的資源上處理,從而降低 token 生成成本、提升整個平台的 ROI。這套邏輯直接指向了一個被市場嚴重低估的財務事實。花旗在報告中給出了一個推演:得益於這種系統級的效率最佳化,預計輝達2028財年的每股收益(EPS)將達到15美元。按目前股價計算,這意味著輝達的遠期市盈率(PE)僅為12倍。試想一下,在一個兆規模的賽道里,核心霸主的市盈率竟然只有12倍?這在財務視角下極具吸引力,但也暴露了一個巨大的預期差:市場還在用傳統的“硬體製造商”眼光給輝達定價,卻尚未完全意識到它作為“系統定義者”的盈利爆發力。當我們將技術架構的互補性與商業模式的升維串聯起來,最終的圖景變得異常清晰:SRAM是製造市場興奮的“情緒點”,負責解決速度焦慮;HBM才是真正源源不斷的“利潤池”,負責鎖定長期規模;而Tokenomics則是連接兩者的橋樑,它用實實在在的ROI資料,打消了華爾街對AI泡沫的顧慮。瑞銀的資料證實了這一點:儘管SRAM概念火熱,但投行對美光等廠商的HBM收入預測卻在2028年飆升至270億美元,且短缺預期延續至數年之後。這說明在主流資本視野中,SRAM並未將HBM踢出盈利模型,反而通過分層架構進一步固化了HBM作為主存核心的地位。歸根結底,這場關於記憶體技術的博弈,實則是輝達重構AI價值鏈的“陽謀”。通過引入SRAM解決延遲痛點,通過Tokenomics說服客戶買單並重塑估值邏輯,再通過HBM鎖定長期利潤,輝達成功地將原本單純的硬體買賣,進化成了AI時代不可或缺的“系統入場稅”。無論未來的推理場景如何千變萬化,只要這套“SRAM提速、HBM擴容、Tokenomics算帳”的混合架構成為行業標準,那麼無論技術風向吹向那一邊,最大的贏家始終只有那個制定規則的莊家。輝達下一代產品路線圖該怎麼看?既然工作負載分解和記憶體分層已成定局,投資者面臨的最後一個問題是:輝達下一代產品路線圖該怎麼看?很多人被Kyber、Rubin Ultra、Feynman這些代號所迷惑,以為它們只是更強的GPU,但如果只盯著晶片,你就錯過了輝達真正的戰略佈局。過去,市場看重單卡算力;但進入下一階段,決勝點在於:一個機架能容納多少計算、頻寬、記憶體,同時如何處理功耗、散熱和互聯。Rubin Ultra最關鍵的地方,不是“Ultra”這個字,而是它代表了輝達推動系統密度到極限,四大維度你同時提升,迫使競爭對手在系統級能力上追趕,形成輝達的深厚護城河。最終,輝達不再單純發佈新品,而是在推動 “基礎設施標準化、系統化、平台化”。對投資者是明白輝達的估值邏輯正在從“賣最好的晶片”轉向“賣唯一的 AI 系統”。產業鏈的投資機會也將外溢到網路架構、光互連、CPO、矽光等領域。 (美股投資網)
全球算力格局震盪,“高階TPU”崛起!
非GPU時代大幕拉開。頭圖由AI生成芯東西3月2日消息,近日,多家外媒報導,非GPU晶片應用迎來爆發期,前有Meta傳已與Google簽署數十億美元合作,大規模租用TPU訓練模型;後有OpenAI被曝計畫匯入輝達基於Groq技術的AI推理晶片。這些重磅合作正是全球AI算力格局加速重構的縮影。2026年伊始,摩根大通的一份產能報告流出:Google計畫在2027年部署600-700萬顆TPU,大部分將供給Anthropic、OpenAI、Meta以及蘋果等外部客戶。無獨有偶,2月13日,OpenAI上線GPT-5.3-Codex-Spark。這款模型選擇了一家特殊的晶片廠商來承接推理任務——Cerebras,一個以“晶圓級晶片”挑戰輝達的“叛逆者”。這是OpenAI首次在主力模型上大規模採用非GPU晶片完成部署,背後原因在於Cerebras帶來的更低延遲與更低能耗,為即時程式設計帶來接近即時的響應體驗。僅僅半年之前,全球AI產業的目光還牢牢鎖定在輝達的財報和產能分配上,人們爭相與這家算力巨擘結成利益同盟。如今,全球頭號AI玩家們紛紛重新規劃未來幾年的晶片訂單。IDC預測,到2028年,中國非GPU伺服器市場規模佔比將接近50%;高盛投資研究部的模型顯示,全球AI伺服器中非GPU晶片出貨佔比,將從2024年的36%增長至2027年的45%。▲全球AI晶片中GPU架構和非GPU架構比例(資料來源:高盛全球投資研究部,芯東西製圖)面對日益清晰的算力變局,一個更深層的轉折正在發生:AI的競爭焦點正從單純的算力規模,深刻轉向對能效比與延遲的極致追求。這一轉折,將GPU推向尷尬境地:由於每次計算都需要在外部視訊記憶體和計算單元之間頻繁往返搬運資料,這種冗長的傳輸路徑讓GPU始終受困於高能耗和高延遲的先天缺陷。路透社爆料,OpenAI已多次表示對輝達晶片的“不滿”——響應速度未達預期,在程式碼生成產品Codex上感受尤為明顯。壓力迫使輝達這條“巨龍”尋求改變。2025年底,輝達不惜以近三倍溢價拿下Groq核心技術與團隊。這家公司的創始人Jonathan Ross正是GoogleTPU核心設計者。被稱為“TPU之父”的他,創立Groq的初衷就是要打造一款超越GoogleTPU的AI晶片。最終,輝達以200億美元的天價,買下了這把“高階TPU”之劍。去GPU化的趨勢仍在繼續。沒有人願意把未來十年的基礎設施押注在一個能耗大、延遲高、系統封閉的技術上。但這場算力變局的核心懸念尚未解開:TPU能否真正扛起對抗GPU的大旗?那個讓輝達不惜押下重注的Groq,又藏著怎樣的技術底牌?01.從自用到商用:GoogleTPU擾動全球算力格局一直以來,GoogleTPU都作為其內部的核心算力支撐,專供自家大模型訓練與推理使用。而去年至今,Google策略發生重大轉變,被曝要正式將TPU推向商用市場。巨額訂單迅速湧向Google。博通CEO透露,AI明星公司Anthropic下單了總額210億美元(約1486億元人民幣)的訂單,採購基於GoogleTPU建構的AI算力系統;與此同時,Meta被曝已與Google達成數十億美元的AI晶片交易。此外,潛在客戶還包括蘋果,以及已與SpaceX合併的xAI等,TPU市場規模持續擴大。這背後是雙重機遇的疊加。一方面,大模型進入規模化落地階段,全球算力需求爆發、成本壓力加劇,單一依賴GPU的架構瓶頸日益凸顯。另一方面,GoogleTPU的性能已具備與頂級GPU分庭抗禮的實力——2025年推出的第七代TPU,是Google迄今為止性能最高、可擴展性最強的AI晶片:單晶片峰值算力4614 TFLOPS(FP8精度),最大叢集9216顆晶片、總算力達42.5 EFLOPS。TPU v7在同等算力輸出下功耗僅為輝達B200的40%至50%。更為關鍵的是,依託自研光電路交換機(OCS)技術,其萬卡級叢集可實現近乎線性的加速比,顯著降低了傳統GPU叢集在萬卡規模下的通訊效率損耗。▲Google TPU v5e、v5p、v6、v7晶片關鍵性能對比(圖片來源:SemiAnalysis)GoogleTPU崛起還有更為直接的例證:在TPU上訓練的Gemini 3,在多個權威基準測試中位居榜首,為業界頂尖模型之一。此外,對於大模型公司而言,算力成本是繞不開的難題。“每美元產生的Token數”正取代峰值算力,成為衡量晶片商業價值的標尺。TPU憑藉AI專用架構帶來的2-4倍能效優勢,以及萬卡叢集近乎線性的擴展能力,將大模型推理的綜合成本相比GPU拉低50%以上——這正是Anthropic、Meta們用訂單投票的根本邏輯。因此,當下大多大模型企業會選擇採購TPU+GPU多元算力來緩解成本壓力。去年11月,半導體研究機構SemiAnalysis對比大模型公司的採購成本後發現:與OpenAI相比,同時使用TPU與GPU的Anthropic,在與輝達談判時擁有更強的議價權。這一事實表明:未來頭部AI公司,大機率都會轉向“多晶片平行”路線,以降低對單一架構的依賴、提升成本競爭力。▲OpenAI與Anthropic購買算力的成本對比(圖片來源:SemiAnalysis)綜上,GoogleTPU的性能跨越式提升、頂尖大模型的規模化驗證、頭部AI公司的主動佈局,這三重因素共同印證,TPU已從過去的全球算力產業補充路線,正式升級為全球算力競爭中的主流路線。這不僅打破了長期由輝達絕對主導的AI晶片格局,也為國內外算力晶片打開了全新發展窗口。02.不止於TPU:十年磨一劍,“TPU之父”探索更高階的可能然而,GoogleTPU的成功並非終點。國內外一批聚焦TPU晶片的創新企業快速崛起,它們擺脫復刻GoogleTPU的發展模式,逐步走出了一條差異化、多元化平行的發展之路。這其中的代表玩家,就是被輝達高價收購的AI晶片創企Groq。這家公司的創始人,被稱為“TPU之父”的Jonathan Ross,創立Groq的初衷就是要打造一款超越GoogleTPU的AI晶片。行業資深專家表示,二者的不同之處與晶片架構密切相關。GoogleTPU採用“固定架構+叢集擴展”的設計思路:其晶片內部搭載相對固定的計算單元,依託二維資料流模式開展固定化的算力運算;在晶片間互聯層面,則通過建構3D Torus拓撲結構,實現多晶片間的高效資料流傳輸與協同計算。▲GoogleTPU架構(圖片來源:Google官網)與GoogleTPU晶片的固定資料流不同,Groq的TSP(Tensor Streaming Processor)晶片是一種“軟體定義硬體”(Software Defined Hardware)的新型資料流處理器。“通過建構可重構的軟硬體系統,使其在保持可程式設計性的同時,達到接近ASIC的極致性能。”美國DARPA“電子復興計畫”(ERI)高度看好“軟體定義硬體”技術,並將其作為國家級戰略佈局的核心方向之一。這也是Groq被稱之為“高階TPU”的原因。通過晶片內功能切片化微架構的底層設計,結合軟體層面的靈活配置能力,TSP可根據不同任務場景和計算需求實現計算邏輯與資料流路徑對應。同時,該晶片依託大容量片上SRAM及靜態調度機制,在顯著提升資料訪存效率的同時還能有效降低資料搬運能耗,實現計算效率的提升。二者的性能表現對比,Groq的優勢也已經得到資料驗證。公開資訊顯示,在相同推理任務中,Groq晶片的首token延遲比GoogleTPU v7晶片降低20%~50%,每token成本降低10%~30%。架構選擇的背後,折射出整個產業對計算效率瓶頸的重新審視。電腦體系結構泰斗、圖靈獎獲得者David Patterson教授在最新研究中指出,大模型每次生成都繞不開資料搬運,而搬運能耗遠高於計算本身,未來的核心命題是“讓資料離計算更近”。為此,他提出了幾個AI晶片的演進方向:近記憶體處理、3D堆疊、低延遲互連。這些均指向同一個目標——用架構創新降低資料移動的能耗與延遲。David Patterson的洞察將AI規模化的競爭拉回最樸素的物理層面,誰能用更低的能耗、更低的延遲跑通下一代模型,誰就能在未來十年的算力牌桌上佔得先機。03.“高階TPU”含金量還在上升:三大創新將架構優勢發揮至極相比於Groq所強調的確定性資料流能力,國內的清微智能、海外的Cerebras等晶片企業在高效的多維度資料流動態配置及先進整合方式上,還在持續提升“高階TPU”的含金量。主要表現為如下幾個方面:其一,通過3D Chiplet技術建構三維立體資料流架構。依託“計算核心+3D DRAM芯粒”的組合,清微智能在“垂直+水平”兩個維度上形成高效資料流計算模式,核心目標是突破傳統二維資料流架構的效率侷限。具體而言,三維資料流計算架構可依據計算任務核心需求以及資料特性,在水平維度與垂直維度上實現資料流的靈活調度,最大化縮短資料傳輸路徑、提升資料流周轉效率,顯著降低資料搬運過程中的延遲與能耗,最終實現計算效率的進一步提升。其二,是依託算力網格技術建構靈活資料流計算範式。該技術可突破傳統固定組網的擴展性與語義適配瓶頸,通過靈活組網及Scale up與Scale out協同,能根據AI任務特性,即時下發資料流的動態配置資訊,實現在多種互聯拓撲結構間靈活切換和精準調度,降低互聯延遲,充分釋放資料流架構算力。其三,通過前沿的晶圓級晶片技術,將資料流架構的優勢發揮到極致。具體而言,晶圓級晶片技術將資料流架構思想從晶片內部擴展至整片晶圓尺度,在整片晶圓高密度整合大量計算核心,極大縮短計算核心間的互聯距離,實現數量級的互聯頻寬提升與通訊延遲的降低,從而將資料流架構的算力規模與計算效能發揮到極致,是資料流計算架構的理想物理載體。以Cerebras晶圓級晶片為例。實測資料顯示,Cerebras CS 3系統在推理性能上較輝達旗艦DGX B200 Blackwell GPU快21倍,成本與功耗均降低 1/3,在算力、成本、能效上展現出顯著的綜合優勢。▲Cerebras CS-3 vs輝達GPU:大模型推理速度對比(圖片來源:Cerebras官網)04.結語:AI算力規則正在重構當GoogleTPU走出圍牆、OpenAI擁抱晶圓級晶片、輝達天價收編Groq,這些訊號均指向同一個方向:TPU已變成巨頭們真金白銀押注的主戰場。算力世界的單極時代,正在被多元架構終結。決定下一代AI天花板的,不再是算力堆砌的軍備競賽,而是能耗、延遲、確定性共同構成的AI能力新指標。對於國產晶片而言,這場變局既是機遇也是挑戰。跟隨者只能瓜分殘羹,唯有走出自己的底層創新之路,才有資格參與下一輪全球算力洗牌。 (芯東西)
頻寬戰爭前夜,“中國版Groq”浮出水面
在AI算力賽道,輝達憑藉Hopper、Blackwell、Rubin等架構GPU,早已在AI訓練領域建立起了難以撼動的技術壁壘與行業地位。但隨著即時AI場景需求爆發,傳統GPU在面對低批處理、高頻互動推理任務中的延遲短板愈發凸顯。為破解這一痛點,輝達重磅出擊,斥資200億美元收購Groq核心技術,搶跑AI推理市場。這一金額不僅創下輝達歷史最大手筆交易、刷新了推理晶片領域的估值紀錄,更鮮明地昭示著輝達從“算力霸主”向“推理之王”轉型的意志。緊隨這一動作,據技術博主AGF消息進一步披露,輝達計畫在2028年推出新一代Feynman架構GPU——採用台積電A16先進製程與SoIC 3D堆疊技術,核心目的正是為了在GPU內部深度整合Groq那套專為推理加速而生的LPU(語言處理單元),相當於給GPU加裝了一個專門處理語言類推理任務的專屬引擎,直指AI推理性能中長期存在的“頻寬牆”與“延遲瓶頸”。這些動作表明:AI行業的競爭正從單純的算力比拚,轉向對單位面積頻寬的極致追求——這與輝達此前“大模型推理90%的延遲源於資料搬運,導致算力利用率常低於30%”的結論不謀而合。無獨有偶,AMD通過3D V-Cache持續驗證儲存靠近計算的效能邏輯;d-Matrix、SambaNova等明星AI推理晶片公司,更是聚焦流式執行與片上頻寬建構核心競爭力,用實際行動印證這一行業共識。頻寬戰爭打響,誰是“中國版Groq”?回看中國市場,AI浪潮推動下,國產大模型多點突破、強勢崛起,本土AI晶片企業集體爆發並密集衝擊IPO,資本熱度居高不下。然而,當輝達選擇通過Feynman架構來補齊推理短板時,就意味著誰能率先解決“頻寬牆”問題,誰就握住了下一輪周期的入場券。在這一背景下,國內賽道湧現出前瞻性佈局者。近日,半導體行業觀察注意到,一家源於北京大學物理學院的AI晶片公司——寒序科技(ICY Technology),宣佈完成數千萬元人民幣新一輪融資。這家企業以“超高頻寬推理晶片”為核心產品,被業內視為中國大陸少有的在技術路線層面正面對標Groq的前沿技術團隊。“中國版Groq”的名號,初見端倪。實際上,寒序科技的技術披露並非偶然,而是源於在內部保密原則下的長期的低調深耕。早在2024年9月與2025年11月,寒序科技就已聯合北京大學物理學院、電腦學院、積體電路學院,以及澳門大學模擬與混合訊號積體電路全國重點實驗室,先後承擔、主持兩項北京市科技計畫項目。他們前瞻性地鎖定0.1TB/mm²/s超大頻寬流式推理晶片研發,在省部級重大研發任務中,在北京市科學技術委員會的指導下,在任務書中全面對標Groq的技術路線與頻寬指標。這意味著,當Groq因LPU爆紅被視為“推理新範式”時,中國科研與產業團隊已在國內同步推進一條差異化的實現路徑。據瞭解,寒序科技採用“雙線佈局”建構核心競爭力:一方面,已發佈SpinPU-M系列磁機率計算晶片,推出1024位元全連接伊辛退火求解硬體,覆蓋組合最佳化與量子啟髮式計算市場;另一方面,本輪融資的核心看點——SpinPU-E磁邏輯計算晶片系列,直指大模型推理解碼(Decode)階段加速,以片上MRAM(磁性隨機儲存器)為核心介質,建構超高頻寬磁性流式處理架構。能看到,寒序科技並未跟隨主流GPU的片外DRAM/HBM或Groq的存算一體SRAM方案,而是選擇了片上MRAM這條更底層、更物理本征、更具長期想像力的技術路線。眾所周知,當前主流的AI計算範式面臨多重困境:採用HBM的GPU方案,頻寬受限於昂貴的2.5D/3D先進封裝,核心儲存器件HBM產能被海外巨頭壟斷且面臨出口管制;採用SRAM的Groq方案,則因SRAM單元面積大、成本高,單晶片儲存容量有限,難以規模部署千億參數大模型。面對這些行業普遍的困局,寒序科技源自北大物理學院,從凝聚態物理的角度,從第一性原理進行思考,利用本征功耗更低、速度更快的“電子自旋翻轉”,代替“電子電荷運動”來進行儲存與計算。而這種底層邏輯的革新,正是源於MRAM技術帶來的核心優勢。它兼具SRAM的高速、DRAM的高密度與快閃記憶體的非易失性等優勢,其直立結構的磁性隧道結,通過垂直微型化和CMOS工藝相容性,能夠大幅降低對複雜封裝的依賴,在成本、功耗和可靠性上具有顯著優勢。與SRAM方案相比,MRAM技術的差異化優勢十分突出:儲存密度領先:主流AI推理架構深度依賴片上SRAM以換取高速,但SRAM正面臨嚴峻的微縮困境。傳統SRAM每個儲存單元由6個電晶體(6T)組成,儲存密度低,儲存容量小,儲存典型的DeepSeek-R1-671B大語言模型可能需要數千片Groq LPU晶片,且5nm以下節點尺寸幾乎停止縮減;而MRAM天然採用1T1M(1個電晶體+1個磁隧道結)結構,單個MTJ可以執行SRAM 6個電晶體的儲存功能,同等晶片面積和工藝節點下,儲存密度是SRAM的5-6倍。工藝成本更低:MRAM的物理結構優勢,使其在國產工藝製程即便落後一代的情況下,性能指標也能對標甚至超越採用先進製程的SRAM方案。這意味著MRAM無需追逐極先進製程,大幅降低流片與量產成本(單片成本可降至原來的十分之一以下),同時保障了供應鏈自主可控。非易失性與高能效:MRAM斷電後資料不丟失,無需像SRAM/DRAM那樣持續刷新,待機功耗接近零,具備快速啟動、低待機功耗、高耐用性等優勢;同時避免了SRAM的漏電流損耗,為邊緣端和雲端的大規模部署提供極佳能效優勢,大幅降低運行成本。通過自研的磁性存算一體流式架構,寒序科技將MRAM的器件優勢轉化為晶片級系統性能。據悉,SpinPU-E晶片架構的目標是將訪存頻寬密度提升至0.1-0.3TB/mm²·s,不僅能比肩以“快”成名的Groq LPU(0.11 TB/mm²·s),更是輝達H100(0.002-0.003 TB/mm²·s)的數十倍。據瞭解,輝達GPU的架構最初面向大規模訓練與圖形渲染場景設計,強調峰值算力與吞吐能力,並通過多級快取、動態調度和共享儲存來適配高度平行但相對粗粒度的工作負載。在大模型推理的Decode階段,GPU性能瓶頸主要來自對外部儲存(HBM)和複雜記憶體層級的高度依賴。該計算過程呈現出強序列性、小批次和頻寬主導等特徵,與GPU設計初衷明顯錯配。在實際執行中,GPU仍需要通過多級快取和共享儲存來訪問,資料到達計算單元的時間並不固定,不同計算單元之間也需要反覆等待和協調。這使得訪存延遲和執行順序經常波動,矩陣加乘單元很難按照固定節拍持續運行,算力難以穩定發揮。而寒序科技採用確定性的“磁性流式處理(MSA)架構”,將大規模MRAM Banks緊鄰矩陣加乘單元部署,並圍繞推理資料流建構多級流水執行路徑,使權重和中間啟動在局部高頻寬範圍內按固定順序流動。通過在硬體層面同時約束儲存位置、訪存頻寬、通訊路徑與執行節拍,該架構在Decode階段顯著降低了延遲抖動與外部儲存訪問依賴,實現更高的頻寬與更快、更穩定的推理性能。值得關注的是,MSA架構並非簡單的存內計算概念,而是圍繞推理場景,對資料流組織、儲存-計算耦合方式以及執行節拍進行重新設計,在保證超高頻寬的同時,顯著降低對先進製程與複雜封裝的依賴。有業內人士指出,這一路線與NVIDIA在Feynman架構中所釋放的訊號高度一致:未來推理性能的競爭核心,不再是算力規模,而是單位面積頻寬與執行範式。走出北大實驗室的秘密武器——“天時地利人和”SpinPU-E展現出的性能優勢,並非偶然的技術選擇,而是核心團隊跨學科積澱、全鏈條技術把控與前瞻性路線佈局的成果。據報導,寒序科技是國內首個有能力跑通從物理、材料、器件到異質整合、晶片設計、演算法的交叉團隊,核心成員源自北京大學物理學院應用磁學中心——國內磁學研究的頂尖高地,擁有近70年的磁學積澱,核心成員橫跨凝聚態物理、電子科學、電腦技術、人工智慧等多領域:首席執行長朱欣岳兼具凝聚態物理、人工智慧演算法與積體電路的交叉背景,曾主導多模態AI演算法開發、多顆高性能專用晶片研發,帶領團隊完成四輪市場化財務融資與產品化;首席科學家羅昭初作為MIT TR35入選者,曾於清華大學、蘇黎世聯邦理工學院完成自旋電子學、磁性計算的科研工作,深耕微納磁電子學與磁儲存/計算,擁有深厚的學術積累與Nature、Science正刊成果,團隊歷經多次流片驗證,既保有前沿技術探索的銳氣,又具備工程化落地的能力。相比純粹的架構創新,寒序科技這種“材料-器件-晶片-系統-演算法”的全鏈條視野和全端攻關能力,讓MRAM技術得以從底層原理到上層系統實現協同最佳化與突破,而非僅停留在邏輯和架構層面的修補。這也是寒序科技被視為精準踩中2030年行業時間軸的前瞻性下注的核心原因。這種對行業趨勢的精準踩點,不僅體現在技術路線的選擇上,或許也蘊含在對商業化路徑的思考中。回溯Groq的成長軌跡來看,其業務從核心的GroqChip LPU推理晶片起步,逐步延伸至加速卡、伺服器系統、資料中心叢集,最終建構了雲服務平台,形成了“晶片-硬體-系統-雲服務”的全端佈局。沿著Groq被驗證的商業邏輯向前推演,寒序科技大概也會沿著相似的路徑開展自己的業務版圖——以SpinPU-E磁邏輯晶片為起點,向上建構硬體產品矩陣,最終通過雲服務觸達更廣泛市場的全端路徑,以建構更強的技術壁壘和產業競爭力。更關鍵的是,這條路徑並非簡單的模式復刻,而是基於本土產業現狀的創新破局——當行業苦於HBM成本高企、SRAM微縮放緩之時,寒序科技沒有陷入“算力堆砌”的內卷,而是利用MRAM磁性計算新範式,在中國本土成熟供應鏈基礎上,築起了一座對標全球頂尖推理性能的頻寬高地。這種從底層物理原理出發的差異化競爭策略,或許正是其作為“中國版Groq”浮出水面的核心底氣。MRAM開啟新型儲存“黃金時代”破局“頻寬封鎖”寒序科技對MRAM技術的探索並非孤例,背後是一場從“備選”走向“必選”的新型儲存技術浪潮。尤其是在全球半導體產業的演進與地緣政治激盪背景下,為MRAM在內的新型儲存鋪就了一條通往AI算力核心舞台的“黃金賽道”。2024年12月,美國商務部工業與安全域(BIS)發佈新出口管制規則,明確限制向中國出口記憶體頻寬密度超過2GB/s/mm²的尖端儲存器。這一封鎖點,直指AI推理晶片的命門——頻寬。目前,輝達、AMD等巨頭極度依賴HBM,而HBM產能幾乎被SK海力士、三星、美光等海外儲存原廠壟斷,且受限於複雜的2.5D/3D先進封裝。同時,Groq所代表的SRAM路線價格極高(Groq 230MB片上SRAM記憶體的單卡售價2萬美金),在先進製程微縮上也已近極限。在此背景下,MRAM路線的戰略價值陡增。它不僅在物理特性上具備跨代超越SRAM的潛力,更重要的是,它能基於國產28nm/22nm等成熟製程實現超高頻寬,徹底規避對尖端工藝和海外HBM供應鏈的依賴。這不僅是技術路線的“備選”,更是中國半導體產業在算力領域破除卡脖子困境、實現差異化突圍的“必選”。有業內專家表示,這一戰略意義迫切需要國家有關部門給予更高重視與政策傾斜。MRAM不僅是單一儲存技術的革新,更能帶動磁性材料、磁電子器件、存算一體架構等全產業鏈突破,有望徹底改變國內在HBM領域的落後局面和SRAM對先進製程的依賴,為AI算力產業打造自主可控的“第二曲線”。全球共振,商業化拐點已至?當前,產業界正在用實際行動表明,MRAM不再只是實驗室裡的美好構想,而是憑藉獨特優勢正成為全球半導體產業佈局的重點。其中,晶圓代工龍頭與晶片大廠均在積極佈局:台積電、三星、英特爾、SK海力士、IMEC等憑藉其先進的技術研發和大規模生產製造能力,已明確將嵌入式MRAM推進到22nm、16nm甚至更先進節點,持續提升MRAM的性能和整合度。恩智浦與台積電合作推出16nm FinFET車規級eMRAM,應用於其S32系列高端MCU,實現寫入速度比傳統快閃記憶體快10-15倍、耐久性超百萬次;瑞薩電子也推出了基於22nm工藝的STT-MRAM技術,瞄準汽車MCU市場;GlobalFoundries、Everspin在12nm和22nm工藝上緊密合作,將MRAM納入工業級和車規級量產方案;Avalanche與聯電攜手合作推出22nm STT-MRAM,在工業級和航天級市場擁有深厚積澱。據LexisNexis資料統計,2004-2013年間,MRAM市場的專利申請量保持穩定,每年約有300至400項專利申請。需要注意的是,圖表末尾的下降並不代表興趣的下降,而是專利申請和公開之間的時間存在滯後。這些頭部廠商的集體行動,清晰印證著MRAM正從“備選技術”升級為“主流方案”,在汽車電子、邊緣AI、高端計算等領域的商業化落地進入爆發前夜。回看國內市場,本土半導體廠商同樣敏銳捕捉到了新型儲存技術的發展機遇,積極佈局相關領域。RRAM領域湧現出昕原半導體、銘芯啟睿、燕芯微等玩家;MRAM賽道,寒序科技、致真儲存、馳拓科技、凌存科技、亙存科技等紛紛嶄露頭角,為國內MRAM的發展奠定了產業基礎。相對於RRAM基於電子電荷遷移,是一種統計物理範疇下的阻變器件;MRAM的存取機理是基於自旋的確定性兩態翻轉,更加可控、精準,大規模製造下器件一致性、器件壽命極限都更有優勢與潛力。兩者均被台積電等半導體巨頭作為下一代面向AI的儲存技術重點押注。具體來看,本土MRAM廠商各有側重,多數主要集中於儲存、加密、嵌入式控制等傳統領域,例如:致真儲存專注於磁性隧道結(MTJ)的核心器件研發與製造工藝,掌握從材料研發到器件製造的全鏈路技術,擁有國內唯一的8英吋磁儲存晶片專用後道微納加工工藝中試線。近期與北京航空航天大學聯合攻關,研製出全球首顆8Mb容量自旋軌道力矩磁隨機儲存器晶片(SOT-MRAM),實現SOT-MRAM容量規模化突破。馳拓科技專注於MRAM儲存晶片的技術研發與生產製造,建有12英吋MRAM量產中試線,是國內首家實現MRAM量產的企業。近期成功突破垂直磁化體系技術瓶頸,儲存器件TMR關鍵指標比肩國際頭部代工廠量產的STT-MRAM。凌存科技專注於儲存模組開發,致力於將MRAM技術從核心器件層面推向終端應用,成功開發了世界首款高速、高密度、低功耗的儲存器MeRAM原型機及基於MeRAM的真隨機數發生器晶片,產品廣泛應用於車載電子、高性能運算、安全等領域。寒序科技則獨闢蹊徑,與多數國內MRAM企業不同,其以MRAM為核心介質建構計算晶片,將MRAM的物理優勢轉化為算力與頻寬優勢,開闢了“磁性計算”這一全新賽道,致力於從計算層面引領國內MRAM技術從利基低毛利領域向高端市場跨越,成為國內MRAM技術從儲存替代向計算革新跨越的關鍵力量,舉起大旗與國內磁學領域全面擁抱合作,力爭一同搶佔全球“磁計算”的戰略高地。綜合來看,從器件、裝置、製造到系統應用,國內產業鏈的前期佈局已具備支撐本土MRAM技術產業化與生態發展的基礎。尤其是寒序科技的差異化定位,進一步填補了國內MRAM從儲存到計算的關鍵空白,為後續誕生更多行業廠商提供了土壤和必然性。生態共建:國產MRAM的“磁計算”革命根據市場研究機構Precedence Research資料顯示,2024年全球MRAM市場規模估計為42.2億美元,預計從2025年的57.6億美元增長到2034年的約847.7億美元,復合年增長率高達34.99%。雖然前景廣闊,但MRAM的大規模爆發和商業化落地仍需產業合力,需要產業鏈上下游凝聚共識,共同建構生態。結合國際經驗和國內產業的發展現狀來看,更深度的產業合作與資源傾斜或許是推動MRAM技術發展的有力舉措。例如,國家有關部門可以給予MRAM技術更多重視,加大資金與政策支援,積極推動MRAM這一有希望在頻寬領域實現“變道超車”的關鍵技術。同時,借鑑台積電、三星、GlobalFoundries等頭部廠商對MRAM的關注與投入力度,國內代工廠或許也應加強對MRAM的工藝研發與資源投入,積極與國內廠商共同開展技術研發與工藝最佳化,爭取儘早打通“設計-製造-封測”的本土化鏈路,形成協同創新的合力,降低MRAM晶片的流片成本與量產門檻。還有一點不可忽視。輝達收購 Groq核心技術,計畫在Feynman架構中整合LPU單元的案例,充分證明了“通用算力+專用引擎”的協同優勢和行業趨勢。這一案例極具啟示價值。筆者認為,在未來提升AI推理效率的行業共識下,國內AI晶片廠商應抓住這一變革機遇,加強與在新型介質與架構上具備底層創新能力的團隊的合作力度,打造兼具通用算力與專用推理性能的新技術路徑,快速補強技術短板,建構差異化競爭力。產業界正釋放清晰訊號:以MRAM為代表的新型儲存,已成為後摩爾時代的核心焦點。地緣政治的戰略訴求、國際大廠的技術押注、國內產業鏈的長期積澱,再加上寒序科技的差異化突破,多重力量共振之下,MRAM正逐漸邁入產業化的“黃金時代”,有望成為中國AI晶片產業實現換道超車的關鍵抓手。五年後,誰將主導下一代推理晶片?當摩爾線程、沐曦、天數、壁仞等國產AI晶片公司接連叩響資本市場的大門,一個時代的答卷已然清晰。它們的密集上市,標誌著中國在基於傳統GPU架構的算力競賽中,完成了從無到有的突圍,進入了國產替代的收穫期。如果說上一代AI晶片的競爭是“算力競賽”,那麼下一代的分水嶺將是“誰能率先跨過頻寬牆”。在這個關鍵轉折點上,兩條路徑清晰呈現:一條是Groq選擇的極致SRAM片上整合路徑,用極高成本將頻寬推向極限,並因此獲得了行業霸主輝達以數百億美元估值的戰略整合;另一條,則是以MRAM為代表的新型儲存介質路線,為突破頻寬瓶頸提供了一種更具根本性,也更符合長期成本與供應鏈安全需求的方案。數年後,當AI推理進入“頻寬決勝”的新時代,晶片市場或許不再僅有算力的巨獸,主導市場的佼佼者還將屬於那些能夠率先在“頻寬戰爭”中沉澱出護城河的先行者。正如Groq在矽谷用SRAM驚豔了世界,行業演進的邏輯暗示:“中國版Groq”的出現也將不再是懸念。在這個征程中,中國半導體產業各方也都在積極擁抱AI,拓展產品品類,謀劃新的增長曲線。而寒序科技正依託MRAM磁性計算的新範式,給出“中國版”的實現路徑——並且,這條路,他們早在多年前,就已開始默默鋪設。 (半導體行業觀察)
輝達,築起新高牆
日前,輝達一下子解密了六顆晶片,引起了全球轟動。但其實早在去年年底,就有一則重磅消息在AI晶片圈炸響:推理晶片初創公司 Groq 宣佈,已與輝達達成一項“非獨家許可協議”。公告只有寥寥數語,但隨之而來的資訊卻迅速改變了這筆交易的份量——Groq 創始人兼 CEO Jonathan Ross、總裁 Sunny Madra 以及多名核心成員,將一併加入輝達,參與授權技術的推進與規模化。如果只看形式,這並不是一次收購;如果只看結果,它卻幾乎具備了收購的全部要素。技術被許可,團隊被吸納,關鍵人物離場,Groq 雖然名義上繼續營運,但其最具決定性的資產——技術路線與靈魂人物——已然轉移。這是一種典型的“收購式招聘”,也是輝達近年來愈發嫻熟的一種操作方式:在不觸碰監管紅線的前提下,把潛在威脅納入自己的體系之中。更重要的是,這一步發生在一個極其敏感的時間點。AI 晶片的競爭,正在從“訓練為王”轉向“推理決勝”。輝達的 GPU 依舊牢牢統治著訓練市場,但在推理端,AMD、定製 ASIC、雲廠商自研晶片正在快速逼近,成本與供應鏈多元化成為大客戶最現實的訴求。Groq 的 LPU 正是為推理而生,主打極致低延遲和性能確定性,其創始人 Jonathan Ross 更被視為Google TPU 背後的關鍵推手——這不是一家可以被忽視的公司。因此,與其說輝達“買”下了 Groq,不如說它在競爭真正白熱化之前,提前拆掉了一段可能威脅自身根基的城梯。回看歷史,從 Mellanox 到未遂的 Arm,再到今天的 Groq,輝達並非只是在擴張版圖,而是在一磚一瓦地加高自己的防禦體系。輝達在乎的,似乎已不再是某一筆交易的得失,而是如何在訓練、推理、網路、軟體與生態的多條戰線上,同時構築起一道幾乎無法繞開的“城牆”。算力,並不是焦慮根源輝達與 Groq 達成交易,這件事本身的重要性,並不在於它是否會推出一款“非 GPU 的 AI 晶片”,而在於它暴露了輝達真正的焦慮來源。今天的輝達,幾乎已經在訓練算力層面取得了事實上的統治地位,但 AI 產業的重心正在悄然移動——從“誰能堆更多 FLOPS”,轉向“誰能更高效、更確定性地交付推理結果”。Groq 的價值並不在算力規模,而在系統哲學。它強調確定性延遲、強調編譯器對執行路徑的絕對控制、強調“推理不是硬體問題,而是系統問題”。這套思路,與 GPU 世界中長期存在的動態調度、非確定性執行形成鮮明對比。Groq 的創始人 Jonathan Ross 是 Google 第一代 TPU 的首席架構師。他在 2016 年離開 Google 後,試圖打造一個比 TPU 更快、更可控的“通用 AI 處理器”。Groq 的核心技術是自研的 LPU(Language Processing Unit)架構,這種架構拋棄了傳統的亂序執行和動態調度機制,採用靜態調度、資料路徑固定、執行流程可預測的“確定性設計”(deterministic design)。晶片內部採用 SRAM 技術,而非輝達 GPU 依賴的片外 HBM 視訊記憶體,這讓 Groq 在某些場景下實現了極致的低延遲。Groq 最初也曾試圖進入訓練市場,但很快發現這是一條死路:訓練市場的競爭邏輯是“大生態+大資本+大客戶”。Groq 的架構對主流 AI 框架(如 PyTorch、TensorFlow)的相容性有限,也缺乏成熟的編譯工具鏈,使得訓練任務的遷移成本極高。從 2023 年下半年開始,Groq 明確轉向推理即服務(Inference-as-a-Service)方向。2024 年,Groq 展示了其系統運行 Llama 2-70B 模型時,實現每秒超過 300 個 Token 的生成速度,遠超主流 GPU 系統。這一優勢讓 Groq 迅速吸引到一批對延遲敏感的垂直行業使用者,如金融交易系統、軍事資訊處理、語音/視訊同步字幕生成。Groq 將產品定位從“AI 晶片”擴展為“AI 處理平台”,通過 GroqCloud 平台向開發者提供 API 存取權,與 LangChain、LlamaIndex 等生態整合。正是這種“異類”,恰恰點中了輝達的軟肋。隨著大模型進入規模化落地階段,越來越多客戶開始關心延遲、能效、TCO 和系統複雜度,而不再只是顯示卡型號。推理正在走向碎片化:雲廠商自研 ASIC(AWS 的 Trainium 和 Inferentia、Google TPU、Microsoft Maia)、CPU+加速器混合部署、邊緣側異構系統層出不窮。如果輝達只停留在“賣最強 GPU”,它在推理端的話語權,遲早會被系統層慢慢侵蝕。對於輝達和黃仁勳而言,Groq 的意義並不是“補一塊晶片”,而是補一塊輝達尚未完全掌控的系統能力:對執行路徑的強約束、對延遲的可預測性、以及編譯器主導的算力使用方式。換句話說,如果說 GPU 是輝達的地基,那麼 Groq 代表的,是它試圖插入系統頂層的一根“控制梁”。對“叢集控制權”的長期執念而在與Groq達成交易之前,輝達其實早已悄然埋下了一條新的主線。很多人習慣從作業系統的角度理解算力生態,認為誰控制了 Linux 發行版、誰控制了核心,誰就掌握了計算世界的話語權。但在 AI 時代,這種邏輯已經開始失效。輝達對此看得非常清楚:真正重要的,不是節點上的作業系統,而是節點之上的叢集控制方式。這正是輝達在 2022 年 1 月收購 Bright Computing 的根本原因。當時這筆交易的金額未公開,但 Bright Computing 已完成兩輪融資,共籌集 1650 萬美元,其叢集管理工具 BCM 在全球擁有超過 700 家使用者。Bright Cluster Manager 並不是一個時髦的新工具,它誕生於傳統 HPC 世界,最初用於管理高度複雜、對穩定性和可預測性要求極高的超級計算系統。正因為如此,它並不追逐某一種特定技術潮流,而是長期圍繞“如何在大規模叢集中統一部署、監控、修復和調度”這個核心問題演進。BCM 最初是為管理傳統高性能計算(HPC)系統而設計的,但多年來,為了將其打造成為一款通用叢集控製器,BCM 也進行了適配,以支援 Hadoop、Spark、OpenStack、Kubernetes 和 VMware ESX 等對控制要求極高的分佈式系統。在被輝達收購併更名為 Base Command Manager 之後,這套工具被完整納入 AI Enterprise 軟體堆疊,成為輝達 AI 系統的“底層控制平面”。通過許可證模式,輝達不再只是交付硬體,而是開始按 GPU、按年份出售“系統能力”——AI Enterprise 許可證包含輝達捆綁並支援在其 GPU 加速系統上的庫、框架和其他工具,每個 GPU 每年的費用為 4500 美元。這一步的意義極其關鍵:它意味著輝達正式把“叢集管理”變成了自己的商業資產,而不是留給客戶或第三方去解決。輝達還設定了一個精妙的商業策略:對於每個節點包含 8 個 GPU 以內的叢集,提供免費的 BCM 許可證,但不提供任何技術支援,且“隨時可能被撤銷”。這意味著企業如果想要穩定的生產環境,就必須購買 AI Enterprise 許可證。免費版本不是慷慨,而是一種“試用即繫結”的策略。更重要的是,Base Command Manager 並不是孤立存在的。在其之上,輝達疊加了 Mission Control,用於自動部署所謂的“AI 工廠”:框架、工具、模型、容器運行環境、健康檢查和功耗最佳化一體化。Mission Control 包含 Run:ai 實現的 Kubernetes,用於編排容器;還包含 Docker,用於在容器內運行計算;此外,它還可以虛擬化 GPU,以提供更精細的計算粒度。Mission Control 會對系統進行健康檢查,並根據系統上運行的工作負載最佳化功耗。這套體系的目標並不是讓客戶擁有更多選擇,而是讓客戶在默認情況下就運行在輝達定義的最優路徑上。當然,這裡繞不開輝達在2024年對Run.ai的收購,Run.ai的核心價值不是又一個Kubernetes外掛,而是實現了GPU資源的抽象化管理:多租戶、彈性調度、優先順序控制、GPU虛擬化。在Run.ai的系統中,一個物理GPU可以被切分成多個虛擬實例,讓不同使用者、不同任務按需使用,同時保證隔離性和性能。為什麼輝達提前拿下了 Run:ai?因為調度權如果不在自己手裡,CUDA 生態的優勢就會被“平台化”稀釋。雲廠商可以通過調度層,讓客戶感知不到底層是誰的 GPU,甚至可以在調度中插入自研晶片作為替代選項。但就高性能計算(HPC)和人工智慧(AI)工作負載的裸機工作負載管理而言,輝達仍然需要一款工具。事實證明,BCM 正是執行這些健康檢查的工具,而解決問題的操作則通過 Slurm 工作負載管理器完成。輝達並沒有強行要求所有客戶拋棄既有體系,而是非常務實地接受了一個現實:在大量從 HPC 演進而來的 AI 叢集中,Slurm 依然是事實標準。許多高性能計算和人工智慧機構不想學習新東西——比如 Run:ai——而是想繼續使用 Slurm。對於那些最初以高性能計算中心起家的混合型人工智慧/高性能計算中心來說,這種情況可能尤為突出。這就為下一步的關鍵收購埋下了伏筆。開源不是放棄控制2025 年 12 月,輝達補上了這道牆的最後一塊磚:收購了 SchedMD,獲得了 Slurm 工作負載管理器背後的核心團隊和技術支援權。Slurm 項目始於 2001 年,由勞倫斯·利弗莫爾國家實驗室、Linux Network(已被 SGI 收購)、惠普以及 Groupe Bull(已被 Atos 收購併成立 Eviden)合作開發。據稱,Slurm 的設計靈感來源於超級電腦互連裝置製造商 Quadrics 開發的 RMS 叢集檔案總管。2010 年,該項目的兩位創始人 Morris Jette 和 Danny Auble 創立了 SchedMD,旨在為 Slurm 提供技術支援,從而為工作負載管理器的進一步開發提供資金。Slurm 最重要的優勢在於,過去十年中,在 Top500 超級電腦排行榜上出現的電腦中,約有 60% 使用 Slurm 作為其工作負載管理器,而不是 IBM/Platform Computing 的負載共享工具(LSF)、Altair 的可攜式批處理系統(PBS)、Adaptive Computing 的 Maui 和 Moab 以及 Sun/Univa Grid Engine。所有這些工作負載管理器/作業調度器都會將一組具有特定計算能力需求的工作負載進行“俄羅斯方塊”式的調度,最終使它們按照既定的優先順序順序高效運行。Slurm 過去十多年裡成為超級計算領域的事實標準,並不是因為它最激進,而是因為它足夠穩定、足夠中立,也足夠適配不斷變化的硬體環境。SchedMD 已向全球數百家 HPC 中心、雲建構商、超大規模資料中心和企業銷售了 Slurm 工作負載管理器的支援服務。過去十年,輝達和 SchedMD 一直在合作開發 Slurm。在輝達收購 Bright Computing 之前,BCM 支援不同的工作負載管理器,但隨著 Slurm 逐漸成為高性能計算中心乃至人工智慧領域工作負載管理的實際標準,它被選為 Bright Cluster Manager 的默認工作負載管理器,並在過去幾年中一直是輝達 Base Command Manager 的默認工作負載管理器。對輝達而言,真正危險的並不是 Slurm 開源,而是如果 Slurm 的演進方向、支援能力和企業級整合權掌握在自己控制之外,那麼整個 Base Command Manager 和 Mission Control 體系,都會留下一個無法掌控的“底座”。通過收購 SchedMD,輝達並沒有否定 Slurm 的開源屬性,反而在公開表態中反覆強調其“廠商中立性”。輝達表示,它將“繼續開發和分發 Slurm,使其成為開源、廠商中立的軟體,使其在各種硬體和軟體環境下都能被更廣泛的 HPC 和 AI 社區廣泛使用和支援”。但需要看清的是:開源並不等於沒有權力結構。誰來維護主幹程式碼、誰來提供企業級支援、誰來決定新特性的優先順序,這些問題,比許可證本身重要得多。輝達已同意為 SchedMD 的現有客戶提供支援,據推測,他們將通過聘用 SchedMD 的員工來實現這一點。但即便 Slurm 開源,也不意味著輝達會為開源版本的程式碼提供支援,或者將 Slurm 的所有未來功能都開源。輝達擁有大量專有驅動程式、框架和演算法,這個模式很可能會延續到 Slurm 身上。輝達顯然希望做到兩點:一方面,保持 Slurm 在 CPU、非輝達加速器等環境中的廣泛適用性,避免引發社區反彈;另一方面,把 Slurm 的商業支援、系統整合和 AI 方向演進,與自己的 AI Enterprise 體系深度繫結。這是一種極其典型的“高階控制”:不通過封閉程式碼來壟斷,而通過系統複雜度和服務整合來設立門檻。目前尚不清楚的是,Run:ai 和 Slurm 的功能將如何與 Base Command Manager 整合,從而為高性能計算(HPC)和人工智慧(AI)叢集提供一個自上而下的叢集和工作負載管理工具——而且不僅限於 AI 叢集,還要考慮到許多叢集中可能存在一些僅使用 CPU 的機器以及非輝達加速器。如果輝達試圖以任何方式限制它,其他人可以獲取 Slurm 程式碼(該程式碼以 GNU GPL v2.0 許可證提供),進行 fork 並繼續開發。但現實是,fork 程式碼容易,建立支援能力難。當所有人都在用同一套開源工具,但只有輝達能提供最優的整合方案時,開源本身就成了輝達生態的擴展。2024 年 10 月,輝達停止單獨銷售 Bright Cluster Manager,而僅將其作為 AI Enterprise Stack 的一部分提供。目前尚不清楚 AI Enterprise 的價格是高於還是低於之前單獨購買 Bright Cluster Manager 的許可,也不清楚有多少客戶曾在純 CPU 系統或其他類型的加速器上使用過這款早期工具。但這個動作的訊號意義很明確:輝達正在把所有系統元件打包成一個不可分割的整體。也正是在這裡,Run:ai、Slurm 和 Base Command Manager 的關係變得微妙而關鍵。前者代表雲原生和容器化世界,後者代表 HPC 傳統,而輝達的目標,是讓這兩套體系在自己的框架內完成融合,而不是彼此競爭。新的城牆,已經成型把Groq、Bright Computing、Run:ai 和 SchedMD 放在同一條時間線上看,輝達近幾年的收購邏輯就變得異常清晰:它正在系統性地收回 AI 計算體系中的“非硬體控制權”。GPU 仍然是輝達最鋒利的武器,但已經不再是唯一的壁壘。真正的新城牆,建立在三個層面之上:第一層:對叢集資源的調度權。從 Mellanox 的網路互聯技術,到 Bright Computing 的叢集管理,再到 SchedMD 的工作負載調度,輝達控制了算力如何連接、如何分配、如何排隊執行的完整鏈條。這不是簡單的硬體整合,而是把網路從“外設”變成了“AI 系統的一部分”。第二層:對工作負載執行路徑的定義權。Run:ai 提供的 GPU 虛擬化和資源抽象,Mission Control 提供的自動化部署和健康檢查,Slurm 提供的作業調度——這些工具共同定義了“任務應該怎麼跑、跑在那裡、用多少資源”。當執行路徑被輝達定義時,即使客戶理論上可以使用其他硬體,在實踐中也會發現遷移成本高得難以承受。第三層:對企業級支援與系統複雜度的掌控權。輝達通過 AI Enterprise 許可證模式,把所有這些工具打包成一個商業服務。客戶購買的不是單個元件,而是一整套“系統整合能力”。開放原始碼可以 fork,但企業級支援、最佳化經驗、最佳實踐,都掌握在輝達手中。一旦這三層疊加完成,客戶即便理論上“可以選擇別的硬體”,在實踐中也會發現遷移成本高得難以承受。從賣晶片到賣生態,輝達的商業模式已經發生質變。過去的輝達,GPU 是產品,賣出去就完成了交易。現在的輝達,GPU 是生態入口,是使用者進入輝達系統的第一步。收購的真實邏輯不是規模併購,而是精準補洞:在 AI 計算的完整鏈條中,那一環還沒有被控制?這也是為什麼說,輝達正在建構的已經不是傳統意義上的護城河,而是一座生態城牆。它不靠封鎖入口,而是通過系統整合,讓離開變得不再理性。在 AI 進入基礎設施階段之後,這種能力,或許比任何一代 GPU,都更加持久。從 Groq 到 SchedMD,從推理架構到工作負載管理,從硬體到系統,輝達用幾年時間完成了一次商業史上罕見的“生態圍城”。這座城牆的高度,已經不是用技術指標可以衡量的,而是用遷移成本、學習曲線、生態粘性來定義的。當所有人還在討論“誰能挑戰輝達的 GPU”時,輝達已經在思考:如何讓“挑戰”這件事本身變得不再可能。 (半導體行業觀察)