#AI路線圖
決戰1.8nm!英特爾AI路線圖公佈,兩大AI GPU將發
全面AI戰略詳盡揭露。智東西10月10日報導,重整旗鼓的英特爾,剛剛放出醞釀已久的重頭戲——AI PC處理器Panther Lake、伺服器處理器Clearwater Forest,以及最新的全面AI戰略和AI執行路線圖。在英特爾技術巡禮活動上,英特爾首席技術及人工智慧長、資深副總裁Sachin Katti在開幕演講中公佈英特爾年度可預測GPU節奏,透露正在全力研發一款針對AI推理最佳化的GPU。這款GPU擁有增強型記憶體架構、超大容量的儲存空間,適用於企業級推理等場景。英特爾全新AI執行路線圖如下:(1)交付Agentic AI基礎設施:提供差異化的系統級方案,包括至強伺服器CPU、Gaudi AI晶片、Arc GPU、AI PC;建構開放的AI軟體堆疊,提供零摩擦AI部署的交鑰匙服務。(2)擴展Agentic AI解決方案:研發推理增強型GPU,打造開放的開發者生態系統,以擴充整個AI市場。(3)擴展技術與基礎設施:研發下一代推理最佳化GPU和Shore產品線,為Agentic AI和訓練工作負載量身定製;突破頻寬瓶頸。新一代英特爾Gaudi旗艦AI晶片(代號Jaguar Shores)專為AI訓練設計、面向機架級部署,同樣採用Intel 18A節點,並採用SK海力士的HBM4記憶體。根據先前曝光訊息,Jaguar Shores封裝尺寸為92.5mm x 92.5mm,有4個不同的tile和8個HBM site,配置相當有競爭力。這也令人格外期待英特爾能否趕上跟明年的輝達Rubin GPU、AMD MI400 GPU正面掰手腕。Sachin Katti說,英特爾正在全力以赴,全面深化對AI領域的佈局,並將其貫穿全線產品組合,此前宣佈與輝達的合作關係正是英特爾全新AI戰略的重要訊號。技術巡洋艦旗艦,英特爾高級副總裁兼代工服務總經理Kevin O'Buckley揭露了支援AI需求的最新封裝路線圖:至2026年,>20 EMIB、>8x Retile size、封裝尺寸約120 x 120、>12 HBM;至2028年,>38 EMIB、>12x Retile size、封裝尺寸120 x 180、>24 HBM。自從陳立武接任CEO以來,英特爾一直處在全球科技圈輿論的中心。這個凝聚了矽谷精神的老牌晶片巨頭,手握CPU和先進晶片製造兩張王牌,卻在生成式AI的時代巨浪中被掩住光芒。如今在華人企業領袖的掌舵中,英特爾正從內部重塑工程創新文化,並開始向外部釋放訊號:一個嶄新的英特爾正蓄勢待發。隨著Intel 18A晶片量產,英特爾成為全球首家在美國生產最先進晶片的企業,在美國科技業佔據重要的戰略地位。英特爾採用Intel 18A的新一代晶片產品,不僅承載著證明英特爾在客戶端、伺服器、AI運算領域技術和產品領導力的重任,還將是能否為潛在代工客戶注入信心的關鍵敲門磚。本文將詳解英特爾的全新AI戰略,橫向對比英特爾在先進製程賽道的最新站位,並透過拆解Panther Lake的技術細節來呈現英特爾對端側Agentic AI的策略。01. AI這場仗,英特爾要怎麼打?英特爾已將AI視作策略優先,想重新定義從AI PC到邊緣再到資料中心部署的堆疊的每一層,並以開放的異質策略來交付系統、軟體和GPU。根據其判斷,推理和智能體(Agent/Agentic AI)是當今AI領域成長最為迅猛的細分市場,token將持續呈現爆發式成長,未來Agentic AI需要異質基礎設施來提供每美元的能源效率和效能。對此,英特爾認為需要打造一個統一軟體棧,遮蔽掉異質基礎設施的複雜性,提供零摩擦的部署方式,讓應用能輕鬆上線,並自動識別最佳部署方案,與底層架構無縫協同。這個系統的元件不一定來自英特爾,而是可以相容於多種供應商,形成靈活多樣的生態系統。英特爾想建立一個開放的AI軟體堆疊,專門用於跨硬體編排多agent,提供一站式軟體來簡化AI部署和規模化。其核心目標是,絕不改變開發者的原有習慣,讓開發者可以從自己熟悉的工具著手,不需要調整既定工作方式。無論底層硬體如何更新迭代,所依賴的軟體抽象層始終保持不變,無需任何變更即可順暢運作。根據英特爾測算,在運行Llama 8B FP16/Llama 70B FP16時,Gaudi3搭配B200異構系統的每TCO性能,是B200同構系統的1.7倍。英特爾認為自身的端到端優勢涵蓋製造、晶片、系統、軟體,並已佈局電晶體、光子學、先進封裝、邏輯擴展及堆疊等前沿技術,同時積極推動記憶體技術創新。02. 用PC晶片做“機器人大腦”目前英特爾已提供廣泛的AI解決方案,包括至強、資料中心AI晶片、酷睿、Arc GPU、IPU等產品線。這些產品的AI應用場景,已經涵蓋從雲端資料中心、AI PC、邊緣運算,還有方興未艾的機器人平台。最新揭露的新一代伺服器CPU Clearwater Forest,技術細節可參考《1.8nm工程、288核心!英特爾CPU大招擠爆牙膏,豪賭3D封裝》報導。全新AI PC晶片英特爾酷睿Ultra系列3處理器(代號Panther Lake),則是承載了英特爾Agentic AI雄心的關鍵硬體產品。和上一代相比,Panther Lake可以說是全方位的升級:CPU tile首用Intel 18A過程(上一代為台積電N3P)綜合AI算力提升到180TOPSCPU單執行緒效能提升10%以上,多執行緒效能提升50%以上GPU圖形效能提升50%以上NPU面積縮小,算力達50TOPS(上一代是48TOPS)IPU專注AI功能,最佳化AGR效能融合了Lunar Lake的高能源效率和Arrow Lake的高性能採用業界領先的無線技術Wi-Fi 7 R2有更豐富的記憶體選項與功耗管理方案Panther Lake和Clearwater Forest都已揭露技術細節,正式發表上市則要等到明年。Panther Lake瞄準的不只PC客戶,還有方興未艾的邊緣運算和實體AI市場。除了AI效能比Arrow Lake-H提升80%外,Panther Lake還具備時序協同運算能力,並提供專為嚴苛工業環境設計的擴展溫度版本。面向機器人領域,英特爾打造了機器人參考開發板。在Demo環節,英特爾展示了為機器人等邊緣運算平台設計的Panther Lake模組,PCB板上有4個嵌入DRAM的記憶體插槽。還有由英特爾酷睿Ultra處理器驅動的宇樹機器人Demo。英特爾全新機器人AI套件是一個開發工具包,與英特爾酷睿處理器完全整合,提供主流機器人模型、多樣的參考應用、串流分析管線、先進AI演算法、視覺語言模型優化,以加速機器人開發和部署。透過這套硬體與軟體組合,開發者能更快建構機器人創新應用。英特爾將在2026年1月CES 2026展會上正式發表Panther Lake,屆時將揭露完整規格、效能指標及其他產品資訊。03. Intel 18A:英特爾邁入艾米時代的首張王牌即將發表的新一代AI PC晶片、伺服器CPU、雲端AI晶片的一大關鍵升級,都是英特爾挺進2nm時代的首個流程節點——Intel 18A(1.8nm級)在英特爾技術巡禮活動期間,智東西等媒體參觀了正在生產Intel 18A晶片的英特爾亞利桑那州Fab 52工廠。▲英特爾CEO陳立武在亞利桑那州工廠外捧起Panther Lake CPU tile的晶圓作為第一個在美國開發製造的2nm級節點,這個製程節點不僅是英特爾代工的力作,還賭上了美國晶片製造的自尊心。三星、台積電的2nm製程也是採用GAA電晶體技術、今年量產、明年上市。相較於上一代Intel 3,Intel 18A的每瓦性能預計提升15%,晶片密度預計提升30%。這主要得益於Intel 18A的兩大殺手鐧:RibbonFET電晶體和PowerVia背面供電。RibbonFET是英特爾十多年來的第一個新型電晶體架構,屬於全環繞閘極(GAA)架構,攻克了漏電難題,能在實現晶體管進一步微縮的同時減少漏電問題發生,從而提高晶體管密度、能效、最小電壓(Vmin)操作和靜電性能,還實現了更高的靈活性,可根據特定單元需求定製特性。PowerVia背面供電解決了傳統設計中混合訊號線和電源線會爭奪空間資源、造成擁塞的問題,將電源線移到晶體管背面,與訊號佈線分離,這樣可以實現更穩定的電源供應,有效減少IR壓降,提高高頻訊號的抗噪能力和穩定性,這項創新技術可將單元利用率和密度提升10%,將從封裝到電晶體產生的IR drop功率損耗降低30%。正面設計的簡化,抵消了背面供電設計帶來的額外成本。這意味著英特爾成為業界首家在大規模量產節點上結合全閘極環繞與背面供電的公司。根據先前通報,台積電計畫於2026年在其N16節點引進背面供電技術,三星可能要在2027年首用背面供電技術。英特爾稱Intel 18A的良率已達到15年來最優水準。先進封裝方面,Clearwater Forest採用Foveros Direct 3D封裝與EMIB 2.5D封裝技術,Panther Lake採用了Foveros-S封裝技術。Panther Lake由不同製程所生產的多種模組組成:計算tile(Intel 18A)圖形tile(Intel 3/台積電N3E)平台控製器tile(台積電N6)基礎tile(Intel 1227.1)填充tile(用來維護整塊晶片的完整性)04. AI引擎提供180TOPS算力,NPU縮面積注重高能源效率在端側晶片設計中,英特爾的AI加速策略是「異構」。根據英特爾分享,Panther Lake是專為Agentic AI設計的客戶端SoC,總共AI算力有180TOPS。這沿襲了英特爾的XPU思路,讓CPU、GPU、NPU協同提供AI加速支援:CPU,10TOPS,速度快,適合跑輕量級AIGPU,120TOPS,頻寬高,適合跑遊戲、創作類AI任務NPU,50TOPS,能源效率高,適合跑AI助手其中,AI加速專用單元NPU的職責非常明確,就是專精於高能效,所以要縮小晶片面積,追求更緊湊的設計來優化功耗。所以單從AI算力來看,NPU 5相比Lunar Lake裡的NPU 4,在提升幅度上比較克制,但是跟前三代NPU以及Arrow Lake-H裡的NPU 3.5對比,提升還是很可觀的。NPU 1,0.5TOPSNPU 2,7TOPSNPU 3,11.5TOPSNPU 4,48TOPSNPU 5,50TOPS具體來看英特爾NPU 5架構。英特爾認為上一代NPU4的設計不夠高效,因此在NPU 5進一步縮小面積,並簡化了後端功能,透過MAC陣列規模翻倍,把單位面積性能提升40%。這跟高通新款AI PC處理器的策略不太一樣。高通的設計重點也是Agentic AI,但做法是做大NPU面積,把單NPU算力做到80TOPS,來降低首個token生成的時延和更好支援多任務並發處理,並率先實現對INT2精度的支援。資料格式方面,NPU 5升級為支援FP8精度。相較於FP16,達到相似的效能表現,FP8可將每瓦效能提升50%以上。例如跑Stable Diffusion文生圖模型,用NPU 5+FP8精度可以將能耗從108J降到70J左右,GPU一直到最後階段才被用到,用於影像合成。NPU 5還能並行處理不同類型的乘法運算。資料轉換器可將不同資料格式有效率地轉換。目前英特爾已將自訂的內部資料庫或內部結構統一轉換為標準的FP32格式,作為常規的計算數據,實際上是以FP32、FP16等形式儲存中間結果,這使得其他IP模組能夠讀取中間計算結果。另一項創新是可程式啟動函數。英特爾NPU過去只支援一種較線性的啟動函數,現在可全面相容於多種可程式啟動方式,輕鬆實現Sigmoid、Tanh等常見啟動函數。以前當需要支援Sigmoid這類熱門啟動函數時,相關運算還得在DSP上模擬實作。現在這些都可以直接交由神經計算引擎完成,並且採用了一張包含256 step的尋找表來精確還原Sigmoid曲線的形狀,可以想像成把原本平滑的Sigmoid曲線巧妙分割成多個小塊,從而確保極高計算精度。一旦使用可程式尋找表來實現啟動函數,處理工作便從著色器和DSP轉移到了神經計算引擎上,此時性能會大幅提升。在微基準測試中,面積經最佳化設計的NPU 5,在多種不同資料格式下效能均相比NPU4有所提升。除了硬體外,英特爾也把加速AI的功夫下在軟體優化上,建構了從底層到高層的完整生態體系。Agentic AI部署流程是建構模型-量化-效能評估-運行。英特爾提供有量化工具NNCF、評估工具Vtune性能分析器、OpenVINO軟體棧,也支援ONNX Runtime及其他工具。這些都能無縫運作在CPU、GPU、NPU上。英特爾已將超300個模型進行預轉換和預量化,並開放到Hugging Face上。05. GPU XMX引擎撐起AI運算主力,提供120TOPS算力從算力佔比來看,GPU毫無疑問是英特爾客戶端晶片AI引擎的主力。Panther Lake可擴展架構的核心元素是第二代可擴展Fabric,使英特爾可以在下一代CPU中混合搭配各種IP及其分區。其中,運算單元與GPU tile分離,透過高速互連能像統一系統一樣高效協同運作與通訊。Panther Lake的GPU tile採用全新Xe3架構。其12 Xe3配置也是英特爾迄今打造的效能最強整合GPU。12 Xe3配置有96個XMX引擎、16MB L2緩存(翻倍)、2條幾何管線。相較於上一代,Panther Lake實現圖形效能提升50%,每瓦效能提升40%。Xe3架構裡升級了向量引擎、後端處理功能和光線追蹤單元,有8個512-bit向量引擎、8個2048-bit XMX引擎,L1快取容量提高33%。向量引擎實現了利用率提升,線程數量增加25%,並採用可變暫存器分配技術。XMX是專門處理矩陣乘法的高效能AI核心引擎,是複雜模型在本地GPU上高效運作的關鍵。英特爾展示了Panther Lake在一些微基準測試上的效能提升表現。06. CPU提供10TOPS AI算力,執行緒調度器提高混合運算能效Panther Lake中CPU tile提供了10TOPS的AI算力。相較於上一代Lunar Lake和Arrow Lake,其同等功耗下單執行緒效能提升10%、多執行緒效能提升50%以上。英特爾在Demo區展示了Panther Lake與Arrow Lake和Lunar Lake的低功耗島對比,在演示期間,Panther Lake的功耗比主打高能源效率的Lunar Lake還要低。Panther Lake延用混合運算架構,有三種CPU核心:P核心(效能核心)、E核心(能源效率)、LP-E核心(提升能源效率)。Panther Lake CPU包含Cougar Cove P核心、Darkmont E核心和Darkmont LP-E核心。Cougar Cove P核心重點關注3個方向:記憶體消歧、TLB增強功能、分支預測,使複雜工作負載運行得更快更可靠。Cougar Cove P核架構中,新核心的前端設計層次與Lion Cove基本相同。解碼單元保留8位元寬,MSROM、uOP Cache、分配單元都沒變,分別為4位元寬、12位元寬、8位元寬。E核心方面,相較於Crestmont,Darkmont的IPC提升了17%。Darkmont E核心基於上一代Skymont E核構建,擁有26個調度連接埠,向量吞吐量、L2頻寬更高,並且納碼性能有所提升(該性能最初在Crestmont 架構中引入)。Darkmont也進行了記憶體消歧、分支預測更新,也提供了更高能效和增強反應能力的動態預取控制,透過精準控制預取策略的層次,靈活實現動態效能。另外英特爾E核心是唯一支援Nanocode的架構,可以實現更高的指令覆蓋率。 Nanocode位於硬體和底層軟體之間,用於將高階機器指令分解成更細粒度的硬體控制訊號,增強處理器的並行性和效率,節省延遲、頻寬和麵積。Panther Lake的快取和記憶體子系統都進行了升級。L3緩存環引入了8個E核,因此更大的18 MB L3緩存可供P核和E核使用。 LP-E核的L2快取也翻倍至4MB。其SoC tile內還有一個額外的記憶體側快取和控製器。快取配備了專用電源軌,使快取頻率可以超過3.5GHz。記憶體側快取的8MB片上快取可減少DRAM存取量和功耗,改善延遲和頻寬,提升核心IPC和降低功耗,並為I/O引擎提供快取。Panther Lake利用執行緒控製器(Thread Director)來調度混合核心,在執行多執行緒操作時實現資源高效利用。執行緒控製器會先從LP-E核心開始,如果超出容量,就把工作轉移到E核心;如果E核容量不足,就把工作轉移到P核心。跑遊戲時,GPU的使用率會拉到100%,這時執行緒控製器一開始就先呼叫P核,以最大限度地提高效能,然後再擴展到E核。英特爾稱這種設計帶來的結果是比Lunar Lake還要低的功耗,換言之有助於實現更長續航。07. 三種配置、統一封裝、更大內存Panther Lake共有3個不同配置,分別是8核心、16核心、16核心+12 Xe。三款產品用的是一個封裝,以便客戶做產品設計。Panther Lake有三種配置,設計成統一封裝:8核心(4P+4LP-E)+ 4 Xe316核心(4P+8E+4LP-E)+ 4 Xe316核心(4P+8E+4LP-E)+12 Xe3三種配置的NPU、IPU、媒體和顯示引擎是一樣的,LPDDR5x、DDR5頻寬以及PCIe通道數不同,12 Xe3配置將記憶體支援升級到9600MT/s LPDDR5x。圖形tile的製造工藝有所不同。 4 Xe3配置的圖形tile採用英特爾自家Intel 3,12 Xe3配置的圖形tile採用台積電N3E。16核心CPU+12 Xe3配置額外擴展了8條PCIe 5.0通道,增強了對高性能設備的連接能力。與Lunar Lake和Arrow Lake 相比,Panther Lake實現了更高的靈活性,8核心配置可取代Lunar Lake晶片,16核心配置可取代Arrow Lake-H晶片。本地AI計算離不開更快、更大記憶體的支援。 Panther Lake支援DDR5/LPDDR5,速度更快,容量更大;LPDDR5最大支援9600MT/s,容量達96GB;DDR5速度提升到7200MT/s,容量達128GB。Panther Lake沒有沿用Lunar Lake的記憶體封裝(MoP),而是轉用PCB記憶體設計,不依賴專用的預配置記憶體類型。升級後的影像處理單元IPU 7.5,具備AI光學降噪、AI局部色調對應等功能,可增強暗光環境下的影像清晰度,呈現更清晰自然的視訊效果。這些AI功能便由CPU+GPU+NPU組成的AI引擎提供支援。英特爾在Demo區展示了Smart Power HDR,可根據內容動態調整電壓,在HDR模式下為SDR內容大幅降低功耗。Panther Lake也增加了兩個重要的無線連線升級,分別是Wi-Fi 7 R2和藍牙LE音訊解決方案。08. 結語:踏入Agentic時代,英特爾走向新生英特爾亟需展現自身的產業領導力。在資料中心領域,它要證明大規模x86 CPU部署能做到更省電。在PC領域,它要證明酷睿處理器在效能、續航力、記憶體、價格等方面的競爭力,以及是跑Agentic AI應用的最佳選擇。在晶片製造領域,它更代表了美國先進製造的一面旗幟,要證明英特爾依然站在全球半導體製程技術創新峰頂,還要證明美國本土具備大規模生產前沿晶片製程的能力。以上種種,在Panther Lake和Clearwater Forest問世前,都留了懸念。如今,在面對Agentic時代,英特爾正在講出一個更宏大、開放、更包容的故事。這個故事裡有與其新晉大股東輝達的聯手,有與一眾美國晶片設計巨頭在代工上合作的潛在可能,有與晶片代工競對台積電的合作。背負著美國晶片製造尊嚴的英特爾,每一步,都需走得格外謹慎。 (智東西)
輝達的「算力信仰」保衛戰
短短一年時間,兩次大會,台上的“AI教主”黃仁勳依舊穿著熟悉的皮衣,卻多了些磕絆,少了些從容。上一次GTC大會,正是輝達如日中天的時候。各國科技公司對生成式AI進行不計回報的瘋狂投入,將輝達一步步推上神壇,一度成為全世界市值最大的公司。但今年以來,輝達的股價持續震盪。1月27日美股收盤,單日跌幅超過17%,創下公司歷史上單日下跌最多的紀錄;截至3月10日,遠期市盈率從1月的45倍回落至28倍,低於五年均值37.6倍。市盈率的回落,背後是一個殘酷的現實:市場沒那麼看好輝達的未來了,AI樹立起來的“算力信仰”正在動搖。因此,在一年一度、被譽為“科技春晚”的GTC大會上,老黃的使命變了——不再是讓人們看到輝達又搞出了多麼牛逼的產品,而是讓人們重新相信他們真的需要這些產品。黃仁勳的AI路線圖站在輝達的視角來看,這是一屆需要打起精神來直面諸多挑戰的GTC大會。將輝達晶片捧上神壇的AI算力市場正發生變化。Deepseek的開源以及長思維鏈技術路線,讓生成式AI廠商的關注點從堆量訓練走向推理,而逐漸滲透的ASIC架構晶片,其在AI推理場景中展現出的成本、能效優勢,對輝達在AI算力市場的份額構成直接威脅。輝達內部也面臨壓力。原計畫去年第三季度量產、第四季度發貨的Blackwell系列晶片,因設計缺陷問題,推遲至2025年第一季度才開始批次出貨,間接導致2025財年第四季度的毛利率下降,且預計下個季度會進一步收縮。在期待或懷疑之中,台北時間3月19日凌晨1點12分,輝達創始人黃仁勳穿著熟悉的黑色皮衣姍姍來遲,一上來就開始講述從生成式AI到代理式AI(Agentic AI)、Physical AI的變革,這背後意味著巨大的算力需求。今年年初,Deepseek-R1模型的高效和開源,曾一度讓市場判斷,大多企業將不再需要輝達昂貴的GPU來做大參數模型的預訓練。這也被認為是輝達股價受重挫的直接原因。2月下旬,黃仁勳談到Deepseek時說:“這是一項卓越的創新,但更為重要的是,它開源了一個世界級的推理AI模型。幾乎每一位AI開發者都在應用R1或思維鏈以及像R1這樣的強化學習技術來提升其模型的性能。”GTC 2025上,黃仁勳仍然看好推理AI,巧妙地選擇用長思維鏈(CoT)推理需要消耗的tokens來做比較。他向傳統大語言模型(LLM)和推理模型提出了同一個問題:300人的婚禮上如何安排座位。LLM消耗439 tokens快速得出了一個錯誤答案,而推理模型消耗8559 tokens,經過較長時間的思考得出了一個得體的答案。● 圖源:直播截圖黃仁勳想說明的是,諸如Deepseek-R1這類推理模型,意味著更高的tokens消耗和更高的算力需求,只是這種算力需求從訓練環節後置到了推理環節。在黃仁勳看來,推理模型也不是AI的終點,當下我們所處的Agentic AI,AI要處理更多更複雜的任務,有大量的應用將會出現,帶來算力需求的又一次爆發;而到了未來的Physical AI階段,AI甚至會復刻物理世界,那代表了將會有無限的tokens需要被處理。結論是,用預訓練放緩來判斷AI的未來,或者輝達的未來,就有點短視了。黃仁勳給了一個簡單粗暴的預判:“未來所需要的算力將是過去的100倍。”那各大AI廠商要如何面對未來的AI新範式呢?沒錯,還是要買輝達晶片,輝達的護城河就在於無處不在——硬體上Blackwell系列晶片涵蓋了從預訓練、後訓練到推理的整個AI市場,跨越雲端到本地再到企業環境;軟體上,CUDA仍然是繞不過去的高牆,黃仁勳強調說:“CUDA現在無處不在,它存在於每個雲中,每個資料中心,可以從世界上的每家電腦公司買到,幾乎無處不在。”在他口中,CUDA已不再是一個單純的開發工具,而是成了“AI時代的英語”。對於老黃的新故事,資本市場給出的反應是遲疑。演講結束後,輝達股價沒有提振,反而一路向下,截至收盤,下跌3.43%。輝達把護城河又往深挖了挖動搖輝達“算力信仰”的,一度被認為是Deepseek創造出的效率神話。Deepseek的天才工程師們,用自己的聰明繞過了輝達晶片的一些限制,用演算法和軟體能力挖掘出了更多的性能,從而節省了大量成本。現在,輝達大開方便之門,推出了自己的官方版本的“後門”——Nvidia Dynamo。這是輝達在推理領域建構的新CUDA,專為推理、訓練和跨整個資料中心加速而建構的開放原始碼軟體。在現有Hopper架構上,Dynamo可讓標準Llama模型性能翻倍。而對於DeepSeek等專門的推理模型,NVIDIA Dynamo的智能推理最佳化還能將每個GPU生成的token數量提升30倍以上。當然,為了推銷最新的Blackwell系列晶片,Dynamo在Blackwell上的效果更好。在同等功耗下,Blackwell的性能比Hopper高出4-5倍。在推理模型的測試裡,Blackwell的性能大約是Hopper的40倍。目前,Blackwell系列晶片,GB200和B200已全面投產。這些產品採用台積電4nm工藝製造,擁有高達2080億個電晶體。黃仁勳透露,2024年,美國前四大雲服務提供商(CSPs)購買了130萬塊Hopper架構晶片,2025年又購買了360萬Blackwell架構晶片。為了讓Blackwell像蘋果全家桶那樣深入到每個場景,針對不同類型的客戶,小到個人工作站,大到資料中心叢集,輝達推出了可以運行2000億參數模型的AI PC產品DGX Spark,為“AI推理時代”專門定製的Blackwell Ultra NVL72機櫃,和基於Blackwell Ultra、即插即用的DGX Super POD AI超算工廠等一系列產品,涵蓋了AI時代大部分主流場景。● 2024台北電腦展開幕,輝達CEO黃仁勳(中)與富士康董事長劉揚偉(右)做手勢慶祝。圖源:視覺中國當然,作為“秀實力”的傳統環節,黃仁勳公佈了新一代AI晶片Rubin,以“證實暗物質存在”的女性科學先驅薇拉・魯賓(Vera Rubin)命名。據介紹,Rubin系列晶片的性能可達Hopper的900倍,而Blackwell是Hopper的68倍。Vera Rubin NVL144將於2026年下半年推出,Rubin Ultra NVL576將於2027年下半年推出。不管是Blackwell全家桶,還是像CUDA一樣只能運行在輝達GPU上的Dynamo,都是輝達在硬體和軟體層面上進一步挖深自己的護城河,在空間上做到無處不在,在時間上做到別人無法短時間內追上,輝達就能繼續維持“AI領導者”的地位。賣鏟子以外,輝達也在講一些新的故事。本屆GTC,輝達將主辦首屆“量子日(Quantum Day)”,黃仁勳將參加與量子計算行業業內人士的小組討論。但主題演講現場,黃仁勳並未提及相關細節。頗為戲劇化的是,兩個月前的CES展會期間,黃仁勳說:“如果你說15年內就能製造出非常有用的量子電腦,那可能有點早。如果你說30年,那可能已經晚了。如果你說20年,我想我們很多人都會相信。”該言論直接導致了美國量子計算概念股崩盤式下跌。窮追猛打的競爭者們長期來看,似乎輝達的領先地位還能保持很久,但短期並非沒有隱憂。截至今年1月底的2025財年第四季度業績報告顯示,報告期內,輝達資料中心收入為356億美元,同比增長93%,較上季度環比增長16%,貢獻了輝達91%以上的營收,這個數字在去年同期和前年同期大約為80%與60%左右。這主要得益於Blackwell系列晶片,其在第四財季實現了110億美元的銷售額,創下了公司歷史上產品最快的增長速度。但Blackwell系列晶片量產初期的成本也給輝達帶去了不小的壓力。截至今年1月底的2025財年第四季度,輝達毛利率為73%,較上季度下降3個百分點,而根據最新的業績指引,下季度輝達的毛利率可能會進一步收縮至70.6%。● 美國加州聖荷西,SAP中心。圖源:視覺中國更大的威脅來自ASIC架構以及在這之下大力投入自研晶片的巨頭客戶們。與廣義上的GPU相比,ASIC架構晶片可以專為特定推理任務而定製,且整體電晶體利用率更高,在特定任務上更高效、成本更低,對於中小公司來說是性價比很高的選擇。同時,在輝達GPU以高昂的價格一家獨大之時,亞馬遜、Google、微軟等輝達大客戶們正奮力推進自研晶片流程,或是從輝達的競爭對手AMD手中購買晶片。根據智能湧現2024年中報導,用掉了世界上1/4算力的Google,“可能年底就不對外採購晶片了”。過去Google自研TPU更多基於成本考慮,比如擔心輝達隨意漲價,或者供應不夠穩定,如今Google的造芯策略更為激進——“幾乎是不計代價和成本投入”。而微軟已經採購上萬片AMD的產品,特斯拉、Midjourney、美國國家實驗室、韓國電信也都已批次提貨。不過,CUDA暫時還能擋一擋這些激烈的攻勢,那怕亞馬遜的Trainium晶片能將成本壓到GPU的1/3,但開發者需要為每一款ASIC重寫程式碼的現實,依然讓多數企業望而卻步。另一大潛在的風險是地緣政治變化帶來的挑戰,面對中國這個全球第二大GPU市場,輝達無法售賣最新的晶片,大洋彼岸的對手們正在抓緊機會蠶食輝達的市場,目前輝達也沒有太好的解決辦法來應對。光靠“算力老仙,法力無邊”,已經沒法不管不顧地向前猛衝了。擺在黃仁勳面前的問題是,如何平衡短期毛利率壓力與長期增長敘事。只有讓現在的投資者賺到錢,輝達才能有更廣闊的未來。 (芯師爺)