#GPU
大摩:中國AI GPU縮小與美國的差距(上篇)
大中華區半導體中國AI GPU:不斷縮小與美國的差距高昂的人工智慧資本支出(Capex)和持續的政策支援,催化了中國AI GPU生態系統的發展。在本篇深度研報中,我們引入了一個分析框架,以評估該行業的商業價值、競爭力及整合路徑。AI技術的迅速擴張正推動中國向更高品質的增長模式轉型。去年,我們在藍皮書報告《中國人工智慧:沉睡的巨龍甦醒》(China – AI: The Sleeping Giant Awakens)中,探討了中國AI的發展現狀及其邁向2030年及以後的發展軌跡。在本報告中,我們將聚焦中國AI基礎設施的核心——作為該技術基石的AI晶片——並評估不斷演變的需求前景、晶圓代工供應瓶頸以及塑造該行業的競爭格局。國產AI GPU供應取得重大進展: 在很長一段時間內,中國AI技術的普及並非受制於電力、資料或工程人才,而是受制於美國出口管制下無法獲取先進的AI晶片。中國自2020年起開始研發本土AI GPU,當時獲取海外先進製程技術的管道已十分有限。隨著管控趨嚴,這一窗口在2022年基本關閉,這重塑了(但並未阻斷)中國AI晶片產業的發展處理程序。過去12個月裡,中國在緩解裝置和晶圓代工瓶頸方面取得了有意義的進展。在政策支援下,我們預計到2028年左右,國內的晶圓代工產能和晶片供應將足以滿足國家的核心主權需求。從政策支援邁向商業化可行: 政策支援可以加速產業的早期發展,但長期價值取決於商業競爭力。中國AI GPU供應商必須展現出極具吸引力的經濟效益,才能在2028年之後維持增長。我們的分析表明,在較低的晶片價格、更廉價的電力成本以及不斷完善的基礎設施支撐下,中國AI資料中心的總擁有成本(TCO)有望具備競爭力。對於推理工作負載(inference workloads)而言,單位Token的成本比峰值性能更為重要,這進一步強化了國產替代方案的競爭力。行業與個股影響: 中國的國產化戰略——即通過擴大晶片、晶圓廠和裝置的規模來彌補製程上的劣勢——正持續見效。在樂觀情形(bull case)下,我們假設國產GPU將擴展至訓練工作負載領域,並可能獲得海外採用;在悲觀情形(bear case)下,我們假設產品差異化減弱,從而導致商品化(同質化)和行業整合。雖然我們不對AI GPU個股做出直接評級,但我們對中國AI半導體供應鏈保持建設性(樂觀)態度,包括中芯國際(晶圓代工)、北方華創(裝置)和 ASMPT(先進封裝),並看好AI晶片投資有助於鞏固其戰略地位的中國網際網路平台。關於後者的更多細節,請參閱 Gary Yu 撰寫的中國網際網路報告。關於中國AI GPU的六大核心圖表中國AI GPU:建構本土化的AI計算生態系統致首席資訊官(CIO)的資訊: 中國正通過系統級創新和以成本驅動的推理經濟性(inference economics),迅速縮小與美國在AI算力領域的差距。這一發展軌跡有望使國產AI GPU的自給率達到約76%,並在未來十年內對全球AI半導體的競爭格局產生深遠的重塑作用。致首席執行長(CEO)的資訊: 儘管美國晶片製造商在矽晶圓前沿技術上仍保持領先地位,但中國正加速轉向成本更低、針對推理最佳化的國產AI晶片。這將對全球AI的經濟性帶來中期的競爭壓力,而非在短期內實現技術層面的並駕齊驅。AI技術的快速擴張正推動中國向高品質經濟模式轉型。在去年的藍皮書報告《中國人工智慧:沉睡的巨龍甦醒》(China – AI: The Sleeping Giant Awakens)中,我們探討了中國AI的發展現狀及其邁向2030年及以後的發展軌跡。在本報告中,我們再次回歸AI主題,重點剖析中國AI基礎設施的基石——即支撐該技術的AI晶片——並對需求前景、晶圓代工供應以及競爭格局進行評估。我們分析了中國AI GPU的關鍵需求驅動因素及國內供應鏈的商業可行性,同時評估了本土生產晶片的性能與潛在商業價值。此外,我們還考察了中國全境與AI相關的資本支出(Capex)規模、本土晶圓代工供應的動態,以及塑造該行業的政策支援力度。最後,我們引入了一個框架,用於評估國產AI GPU晶片(即輝達的本土替代方案)的商業價值,並為投資者梳理了如何在長期內評估該行業及相關個股標的的路徑。行業展望:需求強勁、供給改善及同質化風險上升受制於晶圓代工產能的瓶頸,中國AI GPU在2026年和2027年的營收仍將維持“供給主導”的格局。在雲服務提供商(CSP)強勁的商業需求以及不斷增長的主權和政府主導的AI投資支撐下,該市場已進入高速增長階段。基於雲端資本支出(Capex)趨勢及隱含的AI半導體消耗量,我們預計2026年中國AI GPU的總潛在市場規模(TAM)約為500億美元,到2030年將增長至約670億美元。隨著國內晶圓廠產能的擴張和本土裝置能力的提升,國產AI GPU的供應正在快速追趕。我們預計到2027年,本土供應規模有望達到約300億美元,足以覆蓋中國算力總需求的一半以上。鑑於產能限制依然存在,我們預計到2027年之前,該市場將在很大程度上維持供給驅動的特徵。中國的基礎設施優勢縮小了表面上的技術差距在我們的基準情形(base case)下,輝達(NVIDIA)在大規模AI預訓練領域繼續佔據主導地位。中國主要的雲服務提供商處理預訓練工作負載時,依然依賴部署在海外資料中心的輝達伺服器機架。相比之下,國產AI GPU在中國國內的推理工作負載(inference workloads)中正獲得越來越高的市場認可度,因為在這些應用場景中,更低的延遲、資料本地化要求以及成本效益顯得更為重要。中國AI GPU能否充分縮小性能差距以勝任預訓練任務——並最終在出口市場贏得客戶——仍是一個關鍵的長期議題。我們的分析表明,儘管中國在晶片層面仍略落後於美國,但在系統硬體層面已具備廣泛競爭力,並在基礎設施和政策層面擁有優勢。因此,國產AI GPU在推理工作負載方面已經具備競爭力。需要強調的是,僅基於製程節點(process node)的比較會誇大實際的性能差距。當以“每瓦特每美元性能(performance per watt per dollar)”為基準進行評估時,這種差距會大幅縮小,特別是考慮到中國相對較低的利潤率要求和較低的能源成本。這種成本優勢顯著提升了國產替代方案的商業可行性。我們在下文中提供了一個基於此背景的輝達與沐曦(MetaX)GPU的對比案例研究。為了評估這一不斷演變的行業格局,我們引入了一個聚焦於中國AI GPU生態系統商業價值的分析框架。該市場目前有超過10家上市及非上市供應商,涵蓋獨立第三方供應商、內部專屬設計公司(captive design houses)以及國資背景企業。我們對中美AI計算生態系統進行了對比,並從設計能力、系統級性能、晶圓代工產能獲取、戰略合作夥伴關係、政府支援及商業戰略等維度對各供應商進行了評估。我們還應用了我們的全球AI半導體估值框架,為市值、晶圓代工產能隱含營收以及估值倍數提供了參考基準(圖表59)。關於百度崑崙和阿里平頭哥等內部專屬設計公司如何為母公司估值貢獻增量,請參閱我們的中國網際網路分析師 Gary Yu 的相關報告(連結)。聚焦商業價值分析近期的行業動態凸顯了中國AI GPU格局演變的迅速程度,並印證了為何商業價值與技術能力同等重要。幾家領先的中國網際網路平台正在轉向定製化或“合規(within spec)”的推理晶片,這些晶片通常通過設計服務模式並在海外先進的晶圓代工節點上生產。例如,據路透社報導,字節跳動正通過中國設計服務公司芯原股份(VeriSilicon),利用三星的4奈米製程生產其AI推理ASIC晶片。儘管這些解決方案通常針對偏低端的推理工作負載,但仍加劇了獨立GPU供應商面臨的競爭壓力。與此同時,政策訊號表明,可能會允許少量進口輝達的H200晶片,同時可能要求配套支援國產替代方案。這種做法強化了“雙軌制”戰略,而非實施全面替代。同步地,中國主要的大語言模型(LLM)供應商已開始提高Token價格,這改善了AI工作負載的商業化變現能力,並對整個生態系統中AI GPU的長期商業經濟效益形成了支撐。展望未來,行業結構引發了對產品同質化(commoditization)風險的擔憂。包括雲服務提供商和電信營運商在內的大客戶有強烈的動機去扶持至少一家具有國資背景的GPU供應商(如華為),而領先的CSP同時也支援自身內部的或關聯的設計公司(如百度崑崙、阿里平頭哥)。這種動態擠壓了獨立第三方供應商的潛在市場空間,並增加了其規模化發展的難度。隨著晶圓代工產能可能從2027年起擴張,加上AI GPU設計日益成熟,產品的差異化將變得更加困難。因此,我們認為隨著時間的推移,行業利潤率存在下降的風險,且未來兩到三年內行業整合的可能性日益增加。關於中國AI GPU類股的核心爭議上述結論建立在三個相互關聯的核心爭議之上,這些爭議塑造了中國AI GPU生態系統的未來前景。在接下來的部分中,我們將詳細探討這些爭議,以揭示中國AI GPU市場的發展脈絡、國產替代方案在那些領域已具備競爭力,以及那些結構性制約因素依然存在。核心爭議 #1:中國能否大規模供應具備競爭力的AI GPU?第一個爭議聚焦於供給端——即中國能否生產出具備足夠競爭力且能實現規模化量產的AI GPU。中國受益於系統級的工程優勢、基礎設施的快速鋪建以及強有力的政策支援,但在先進晶片設計和前沿製造工藝方面仍面臨挑戰。我們將評估這些優勢與限制因素如何相互交織,本土供需如何演變,以及這將如何影響國產AI GPU的長期競爭力。核心爭議 #2:需求端:中國AI GPU市場的潛在規模有多大?該爭議聚焦於需求端。中國AI GPU市場反映了雙重需求:一是由雲服務提供商和AI應用主導的商業化普及需求,二是與主權戰略優先順序掛鉤的政策驅動需求。我們分析了這些驅動因素的相對權重、政策持續支援國產AI晶片的底層邏輯,以及它們如何轉化為實際的市場規模。通過對本土AI晶片需求的情景分析(基於Gary Yu的預測),我們估算了中國AI GPU市場的潛在規模和增長軌跡。核心爭議 #3:如何評估中國AI GPU的商業價值?該爭議從估值和投資的視角審視該行業。中國AI GPU生態系統包括獨立供應商、國資背景企業,以及隸屬於大型網際網路平台的內部設計公司。我們將這些企業置於全球AI GPU和ASIC的背景下進行定位,勾勒出評估相對市場地位的定性標準,並應用統一的估值框架以幫助投資者權衡整個類股的投資機遇與風險。類股估值——高經營槓桿下的高市銷率(P/S)倍數儘管收入基數小得多且處於盈利的更早期階段,中國AI半導體設計公司的市銷率(P/S)倍數仍顯著高於全球可比同業。寒武紀(688256.SS,未覆蓋): 目前其2026年預期市銷率(P/S)約為32倍,市盈率(P/E)約為96倍;相比之下,其2026年晶圓代工產能隱含營收約為22億美元,市場一致預期營收約為21億美元。儘管其銷售倍數低於部分國內同行,但在經過增長調整後,相對於輝達仍享有明顯的估值溢價,這反映了市場對國內AI市場快速實現國產替代的預期。海光資訊(688041.SS,未覆蓋): 其2026年預期P/S約為94倍,P/E約為1118倍,隱含晶圓代工產能營收約為9億美元。這表明在本土化供應鏈結構下,市場對其捕獲CPU/GPU相關周邊需求抱有極高的期望。沐曦(MetaX,688802.SS,未覆蓋)與摩爾線程(Moore Threads,688795.SS,未覆蓋): 兩者的2026年預期P/S分別約為60倍和139倍,而隱含營收分別僅為約5億美元和3億美元,且尚未實現實質性盈利。在香港上市的壁仞科技(Biren,6082.HK,未覆蓋)和天數智芯(Iluvatar CoreX,9903.HK,未覆蓋): 其2026年預期P/S分別約為37倍和62倍,同樣基於較為有限的隱含營收(約2億至3億美元)。(估算來源請參見圖表11。)類股估值——非上市企業我們綜合使用定性評分卡和定量指標(包括營收規模、市場份額和晶片性能),來評估中國非上市AI GPU供應商的潛在市值。1. 崑崙芯 (Kunlunxin)崑崙芯已將銷售擴展至外部客戶,如中國移動、騰訊及其他的國有企業(SOEs)。我們預估其2025年營收為60億元人民幣(約50%來自外部),並預計在近期新GPU發佈的支撐下,2026年營收將在70億至130億元人民幣之間,代表其在國內GPU行業中佔據高單位數百分比的市場份額(相比之下,華為佔63%,寒武紀佔11%,平頭哥佔高單位數百分比)。我們對崑崙芯的估值為200億至610億美元:提議的分拆與上市是管理層釋放股東價值計畫的一部分,但隨著近期AI晶片的首次公開募股(IPOs),近期的市場情緒有所走強。基於2026年預期市銷率(P/S)20至33倍(較A股上市的寒武紀有0%至40%的折價),我們對崑崙芯的估值為200億至610億美元,假設控股公司(holdco)折價30%,這轉化為百度(BIDU)約60%股權的價值為80億至260億美元。將百度的中端分類加總(SOTP)估值修訂為215美元(原為220美元);高端估值為330美元:我們的215美元中端SOTP估值,將崑崙芯估值為45美元/股(26倍 企業價值/銷售額(EV/S)),AI雲基礎設施(不含崑崙芯)估值為45美元/股(5倍 EV/S),行銷業務估值為44美元/股(6倍 企業價值/息稅前利潤(EV/EBIT));我們330美元的高端SOTP估值,將崑崙芯估值為73美元/股(33倍 EV/S),AI雲基礎設施(不含崑崙芯)估值為62美元/股(7倍 EV/S),文心大模型(Ernie LLM)估值為38美元/股(30倍 EV/S),行銷業務估值為54美元/股(7倍 EV/EBIT)。2. 平頭哥 (T-Head)我們預估其2026年營收為140億至260億元人民幣,其中約一半來自AI GPU晶片,其餘來自CPU。我們預計平頭哥將在2026年至2030年間躋身國內第一梯隊GPU供應商,佔據高單位數百分比的市場份額(與崑崙芯類似),相比之下,華為為63%,寒武紀為11%。我們對平頭哥的估值為280億至860億美元:鑑於平頭哥一直以來保持低調、公開披露有限,且長期專注於內部供應,此次潛在的分拆令人感到意外。我們預計分拆後外部銷售將會加速增長。在需求端和供給端,支援依然強勁:阿里雲繼續驅動龐大的訓練與推理需求,並不斷增加產能供應。基於20至33倍的市銷率(P/S)(較寒武紀有0%至40%的折價),並應用於140億至260億元人民幣的營收區間(CPU + GPU),我們得出了280億至860億美元的估值區間。假設控股公司(holdco)折價30%,這轉化為阿里巴巴(BABA)分類加總(SOTP)估值中的12至36美元/股。我們對關鍵行業風險的情景分析我們概述了中國國內AI晶片市場的三個情景,這些情景由出口管制、國內製造的進展以及替代激勵機制之間的相互作用所驅動。基準情形——在持續受限下取得漸進式進展 先進AI晶片的海外流片(tape out)依然受限,限制了獲取前沿晶圓代工服務的管道。中芯國際繼續擴張國內產能,但在美國出口管制下,獲取關鍵晶圓製造裝置的管道受限,制約了先進製程節點的進展。輝達H200對中國的出口依然有限,無論是因為美國法規,還是中國方面的採購和政策考量。在此背景下,政府對國內計算基礎設施的持續支援推動了對本土生產的AI加速器的需求,並在性能差距持續存在的情況下,支撐了國內供應商的銷量增長。樂觀情形——國內能力加速提升與替代加速 國內AI晶片供應狀況實質性改善。通過替代性安排,或中芯國際在良率和製程穩定性上取得有意義的突破,獲取前沿晶圓代工服務(如台積電或三星)的管道得到改善;同時,本土裝置供應商的進展緩解了關鍵的製造瓶頸。對美國先進AI加速器出口的持續限制強化了對國產解決方案的需求,並促使生態系統在設計、製造和系統整合方面更快地走向成熟。悲觀情形——國內供應疲軟與替代壓力減輕 對晶圓製造裝置的限制進一步收緊,實質性地制約了先進製程節點的產能擴張,並推遲了製程改進。與此同時,對輝達H200的出口管制放鬆,或中國重新獲得更先進AI加速器的管道,從而降低了國產替代的緊迫性。對EDA(電子設計自動化)工具的額外限制制約了本土設計公司的架構升級,並進一步削弱了國產AI加速器產品的競爭力。關鍵爭議#1:中國能否大規模供應具備競爭力的AI GPU?市場觀點: 在比較中美AI晶片時,全球投資者往往只關注晶圓工藝——例如,台積電4奈米的輝達GPU與中芯國際12奈米的沐曦(MetaX)GPU的對比。基於此,他們通常得出結論,認為中國的AI晶片無法與之競爭。我們的觀點: “每瓦每美元性能”的評估框架顯著縮小了這一差距,特別是因為能耗(瓦特)因素在中國的權重較低。在我們對沐曦與輝達的案例研究中,按每瓦每美元性能衡量,沐曦C600的表現與輝達A100相當。隨著沐曦推出C700,我們認為它能夠在AI推理領域與輝達的H200相抗衡。然而,從長遠來看,我們認為市場對中國在某些裝置瓶頸上取得突破的預期過於樂觀。例如,我們認為在未來五年內,中國晶圓廠將繼續依賴阿斯麥(ASML)的DUV光刻機進行多重曝光(multiple patterning),這與部分市場預期(即中國能夠研發自有光刻裝置)截然相反。需監測的指標: 1)先進製程節點的晶圓月產能(wpm)及良率提升情況;2)叢集規模的穩定性改善;3)本土軟體及類CUDA生態系統的進展。我們可能出錯的地方(潛在風險): 1)良率提升進展慢於預期;2)裝置瓶頸持續的時間更長;3)軟體生態系統的規模化擴展比最初預期的更為複雜。大規模晶片製造面臨的障礙為了評估中國能否大規模供應具備競爭力的AI GPU並切實滿足市場需求,我們從AI半導體價值鏈的供給側——特別是晶圓代工產能——開始分析。在這一層面上,規模擴張不僅取決於名義產能的增加,還取決於關鍵上游要素的可用性與成熟度。因此,一系列供應瓶頸繼續影響著整個AI GPU價值鏈的最終產出。這些限制在晶圓前道裝置(WFE)和電子設計自動化(EDA)領域表現得最為明顯。在中芯國際產能擴張的背景下,幾個關鍵的半導體裝置瓶頸——例如外延裝置——目前已基本能由北方華創(Naura)、中微公司(AMEC)和新凱來(SiCarrier)等本土WFE供應商解決。然而,我們看到在光刻和檢測工具方面仍存在持續的限制。在光刻機方面,中國在2025年進口了大量阿斯麥(ASML)DUV系統,以防範未來潛在的限制。同時,我們的行業調研表明,中芯國際先進製程晶圓廠(特別是中芯南方)在科磊(KLA)檢測和量測工具方面的受限,推高了裝置利用率並導致檢測步驟減少,晶圓廠僅能專注於最關鍵的層級。雖然這種方法保障了產能產出(吞吐量),但可能以犧牲良率為代價,這進一步凸顯了國內先進製程製造所面臨的結構性挑戰。EDA是中國擴大先進製程產能的另一個關鍵制約因素。2025年,中國最大的EDA供應商華大九天(Empyrean Technology)按營收計算僅佔全球約1-2%的市場份額。迄今為止,華大九天尚未提供全流程數字IC EDA套件,更不用說支援先進製程節點GPU設計的工具了。相比之下,楷登電子(Cadence)、新思科技(Synopsys)和西門子EDA(Siemens EDA)在2025年合計佔據了全球80%以上的市場份額。美國政府對華實施了嚴格的EDA軟體出口管制,特別針對全環繞柵極(GAA)電晶體架構所需的工具。這些限制旨在阻礙中國開發先進的3奈米和2奈米晶片,而這些晶片對於高性能計算和AI至關重要。如果本土EDA能力無法迎頭趕上,且現行出口管制維持不變,本土AI晶片設計公司將很難向3奈米和2奈米節點遷移。中芯國際的擴張轉移了——但並未消除——晶片供應瓶頸儘管晶圓前道裝置(WFE)的限制構成了中國先進製程雄心的上游制約因素,但其下游影響日益顯現在晶圓代工層面。工具可用性、工藝成熟度以及產能吞吐量的侷限,實際上已將中國的先進製程產能集中於一家佔據主導地位的供應商。這種動態將供應瓶頸從裝置獲取轉移到了晶圓代工的執行與產能分配上。因此,中芯國際(SMIC)已成為擴大本土AI GPU生產規模的實質性“咽喉”所在。根據我們的行業調研,幾家本土AI晶片供應商已將製造環節遷回中國大陸,試圖在本土先進製程節點(如N+2的7奈米和N+1的12奈米)上流片AI加速器,以利用本土產能並緩解外部限制。目前,中國的先進製程產能仍高度集中在中芯南方,該公司已通過使用DUV光刻機進行多重曝光,將工藝技術延伸至N+2,並有可能延伸至N+3(約5奈米)。我們預計,中芯國際的N+2晶圓月產能(wpm)在2025年約為2.2萬片,2026年(預期)約為4萬片,2027年(預期)約為5.1萬片。然而,考慮到同樣嚴重依賴N+2級節點的智慧型手機和汽車SoC(系統級晶片)的持續需求,我們預計這些產能不會完全分配給本土AI處理器的生產。面對這些制約因素,一些AI GPU供應商選擇在N+1節點上製造加速器。我們認為,這一選擇反映了在產能可用性、流片成功率、製造穩定性以及成本控制方面所做出的務實妥協。相較於更先進的節點,N+1提供了更好的良率特徵和更成熟的供應鏈,從而在工藝受限的情況下仍能實現量產。然而,基於N+1節點的產品在計算密度和能效方面仍處於結構性劣勢,使其更適合AI推理及其他對功耗和成本敏感的工作負載,而非大規模訓練。應對晶圓工藝制約的戰略性舉措如上所述,中芯國際的產能擴張只能部分緩解中國的晶圓工藝瓶頸。在獲取先進製程節點受到結構性制約的情況下,本土AI晶片供應商和雲服務提供商(CSP)日益將焦點從直接縮小工藝差距,轉向通過系統級和架構層面的戰略來彌補單裸片(per die)性能較弱的劣勢。儘管中芯國際在N+2節點上取得了實質性進展,但與在4奈米或3奈米節點上製造的海外加速器相比,國產AI加速器在計算性能和能效方面仍處於結構性劣勢。我們認為,即使7奈米工藝得到廣泛應用,也無法在晶圓層面完全消除這一差距。鑑於能源供應在中國並不構成硬性約束,戰略重心已轉向提高絕對計算密度和系統級性能,而非每瓦能效。我們將中國AI晶片供應商和CSP當前的主流應對策略歸納為三大類:1)“如果單個計算裸片不夠強大,就把更多裸片封裝進同一塊晶片中。”由於製造技術和晶片設計的侷限性,國產AI加速器的計算能力仍大幅低於輝達及部分海外ASIC解決方案。在某些情況下,隨著獲取海外先進製程節點的管道受限,計算性能甚至出現了下降。例如,據報導,昇騰(Ascend)950PR的計算性能比其上一代產品910C低約38%。在此背景下,供應商採用了先進封裝和多裸片配置,以在單個封裝內擴展算力。這種方法在不需要獲取更先進製程節點的情況下,部分抵消了單裸片性能較弱的問題。雖然它未能完全消除與海外領先產品的差距,但已切實提升了絕對計算性能。2)“如果單塊晶片不夠強大,就建構更大的機架和叢集。”在系統層面,我們觀察到本土AI晶片供應商和CSP正越來越多地採用縱向擴展(scale-up)架構,這從輝達的NVL72設計中汲取了靈感。傳統的AI伺服器配置通常在每台伺服器中部署4或8個加速器,多節點擴展嚴重依賴伺服器間的網路連線,這可能會引入通訊瓶頸。NVL72標誌著一種轉變,即在單一系統內實現72個加速器的全互聯(all-to-all interconnect),從而顯著提升了GPU到GPU的頻寬和機架級性能。中國企業正在推行類似的縱向擴展戰略,包括華為的CloudMatrix 384、阿里巴巴基於PPU的機架解決方案,以及字節跳動的單機架256加速器設計,旨在克服單晶片的侷限性,提升機架級性能。3)“如果一家晶圓廠產能不足,就擴大製造產能。”第三項應對策略的核心是在現有工藝制約下擴大產能。中國的先進邏輯晶圓代工廠繼續進行激進的投資。中芯國際在2023年、2024年和2025年的資本支出分別達到了約75億美元、73億美元和81億美元,佔其營收的比例大幅提升。在2025年下半年,中國還加速了DUV光刻裝置的採購,從荷蘭的進口量同比急劇上升。我們認為,這些裝置的交付支撐了中期內先進製程產能的擴張,但不太可能消除與海外晶圓廠之間根本的工藝差距。網路與機架級設計彌補了晶圓工藝制約 即便在7奈米工藝上取得了進展,中國在晶圓層面縮小AI算力差距的能力依然受到結構性制約。因此,性能差異化的焦點已日益從單晶片算力轉向系統級架構,特別是網路互聯和機架級設計。面對晶圓工藝的制約,中國在系統級設計方面取得了切實的進展,特別是在光網路和伺服器機架架構方面。在去年的上海世界人工智慧大會(WAIC)(參見我們的報告《上海WAIC主要啟示》)上,我們觀察到了華為昇騰(Ascend)CloudMatrix 384的原型機,它展示了國內企業如何通過激進的縱向擴展(scale-up)和光互聯設計,來彌補單晶片算力較弱的問題。展望未來,在下一代昇騰平台(Atlas 950)中,華為聲稱其SuperPod架構最高可擴展至8,192顆晶片。在處理器層面,昇騰950PR和升級後的950DT預計將實現高達2TB/s的AI處理器間互聯頻寬,紙面資料超過了輝達NVLink第五代(Gen5)1.8TB/s的規格。單從原始規格來看,華為的互聯頻寬目前已超越NVLink Gen5。更均衡的算網配比(compute to networking ratios)。 我們觀察到海外AI晶片(例如輝達的Blackwell系列)的原始算力出現了急劇增長,但網路性能並未實現相應的階躍式提升。我們認為,這種分化很大程度上受制於電互連的物理極限,而光互連雖然前景廣闊,但尚未在大規模應用中證明具備足夠的穩定性。因此,在實際部署中,基於輝達的最先進系統可能會面臨算力未被充分利用的時期,空閒周期正日益成為軟體和調度層面的挑戰,而非純粹的硬體制約。相比之下,國內AI平台在網路能力方面實現了快速提升。雖然絕對計算性能仍落後於全球前沿水平,但從算網配比的角度來看,系統配置顯得更為均衡。在橫向擴展(scale-out)和以推理為主的重度部署場景中,儘管單晶片性能較弱,這種均衡性可能會減少系統層面的結構性低效。核心爭議 #2:需求端:中國AI GPU市場的潛在規模有多大?市場觀點:市場共識預期,領先的雲服務提供商(CSP,如阿里巴巴、騰訊、字節跳動)將繼續增加與AI相關的資本支出(Capex),以支援模型訓練和推理部署。在這一觀點下,政府的政策支援是本土AI GPU普及的主要驅動力。我們的觀點:我們採用情景分析法,將圍繞供需和地緣的風險納入對中國AI GPU市場的預測中。我們預計,到2030年總潛在市場規模將達到670億美元,其增長更多由推理而非訓練驅動,並將佔到屆時雲端總資本支出的約51%。我們預計國產AI晶片營收將從2024年的60億美元增長至2030年的510億美元(復合年增長率達42%),自給率將從33%提升至76%。除了政策支援外,我們認為本土AI晶片的商業價值是更為持久和可持續的需求驅動力。需要監測的指標:1) CSP雲端資本支出增長;2) 月度Token吞吐量增長;3) 國產AI晶片的平均售價(ASP)趨勢及分配訊號。我們可能判斷有誤之處:1) 地緣政治降溫使得獲取美國先進GPU的管道得以改善;2) AI商業化變現表現不及預期,導致資本支出增長慢於預期。中國AI晶片需求要評估中國AI GPU需求的持久性與規模,區分其潛在驅動因素至關重要。在我們看來,對國產AI晶片的需求取決於兩股力量:一是對技術自立自強的結構性推動;二是在消費者和企業端應用場景中,AI部署所帶來的日益重要的商業回報。應對美國晶片限制的自立自強。 中國將AI視為事關國家與經濟安全的戰略性領域。。。這段不展開了。如下圖所示,中國本土的AI晶片設計公司與先進製程晶圓代工供應商形成了一種共生關係。一方面,國產AI加速器供應商需要獲取產能並實現製程節點迭代,因為AI晶片通常需要經歷兩到三代製程的演進才能達到具備競爭力的性能。另一方面,本土先進製程晶圓代廠需要錨定客戶(anchor customers)及規模效應,以支撐其持續的投資。商業回報作為中國AI晶片市場的第二大主要驅動力。 儘管自立自強催化了早期的投資,但持續的AI相關資本支出最終需要可證明的商業回報,尤其是隨著支出規模的擴大以及利用率成為核心制約因素。因此,中國的AI發展路徑日益強調具有成本效益的創新以及能夠帶來可衡量商業回報的應用。中國主要的科技公司正步入正軌,有望在2026年將與AI相關的資本支出同比增長38%,達到5970億元人民幣,這反映了在廣告、消費者端(2C)及企業端(2B)應用場景中已被證明的商業化變現潛力。在我們看來,消費者端和企業端應用中由AI驅動的提升所帶來的總回報可能是巨大的。在扣除折舊、電力和伺服器租賃成本後,預計到2028年有望實現盈虧平衡,到2030年利潤率可能達到約50%(更多細節請見此處)。在政策支援與商業回報改善的雙重驅動下,中國AI GPU的需求集中在少數大型買家群體手中,其資本支出(Capex)決策最終決定了可觸達市場的規模。第一類群體由中國的雲服務提供商(CSP)構成——包括字節跳動、阿里巴巴和騰訊——這些企業採購AI晶片,既用於訓練自身專有模型並運行推理,也用於為外部雲客戶部署AI基礎設施。第二類群體包括中國的電信營運商、國有企業及地方政府——即所謂的“主權AI買家”——其需求主要由國家AI基礎設施建設、資料主權以及公共部門的應用驅動。AI初創企業(如DeepSeek、MiniMax)及汽車整車廠(如小鵬、小米)同樣採購AI晶片,儘管目前的採購量仍低於前兩類群體。我們預測,到2030年,中國AI晶片的總潛在市場規模(TAM)將達到670億美元,這意味著2024至2030年間的復合年增長率(CAGR)將達到23%。我們的估算基於主要CSP、電信營運商、政府與國企買家以及其他AI相關企業的雲端運算資本支出總額。我們預計,到2030年,中國雲端運算資本支出總額將達到1300億美元,其中AI GPU將佔據670億美元,約佔雲端運算總資本支出的51%。我們的預測基於以下幾項假設:1. CSP海外資料中心佔比下降。我們估計,2025年中國CSP雲端運算資本支出中約有40%投向了海外資料中心,用於大語言模型的預訓練,這反映了國內獲取先進GPU受限的現狀。我們預計,從2026年(預期)起,在本土AI晶片性能提升與供應增加,以及算力需求向推理端轉移的共同推動下,這一比例將降至30%左右。2. 伺服器支出佔比保持在雲端運算總資本支出的90%左右。3. AI加速伺服器佔伺服器總量的比例,將從2025年(預期)的75%上升至2030年(預期)的85%。4. AI加速器元件價值佔AI加速伺服器總價值的80%。基於上述假設,我們預測中國AI晶片的總潛在市場規模(TAM)將從2024年的190億美元增長至2030年的670億美元,2024至2030年間的復合年增長率(CAGR)將達到23%。本土化勢將支撐需求隨著中國AI GPU市場規模不斷擴大,關鍵問題不僅在於需求能變得多大,還在於這些需求最終流向何方。我們認為,持續的地緣政治風險將AI晶片需求鎖定在本土,使本土化成為中國AI GPU市場的結構性特徵,而非對出口管制的暫時性應對。減少對美國技術的依賴: 儘管在單晶片層面,中國的AI晶片仍落後美國約1.5至2代,但系統級性能差距正在持續縮小,這進一步強化了AI基礎設施部署本土化的動力。我們預計,在未來四年內,受晶片封裝(中國本土的2.5D和3D封裝)、架構縱向擴展(光網路)以及軟硬體協同最佳化的驅動,而非單純依靠工藝節點微縮,這一差距將縮小至約1代。中國還在減少供華晶片對台積電(TSMC)的依賴,轉而採用中芯國際(SMIC)的N+2和N+3節點,以及三星部分符合規格的設計。儘管在韓國儲存晶片(HBM)、歐洲光刻裝置(DUV)以及美國檢測裝置(KLA明場檢測)等方面仍存在一定的依賴,但我們最新的行業調研表明,本土在其中一些領域正在取得進展。在大多數地區,商業和主權買家對AI晶片的需求,既可以通過美國供應商滿足,也可以通過台積電代工的定製設計來滿足。然而,自2023年10月以來,美國工業和安全域(BIS)的規定限制了美國供應商向中國出售晶片技術的發展水平。這些限制包括對14奈米FinFET裝置、3奈米GAA EDA工具的限制,以及對性能密度和總性能等性能指標的限制。美國當局在2025年初進一步收緊了這些管制。來自外國晶片供應商的激烈競爭意味著,中國需要政策支援以推動本土AI GPU的發展。本土晶圓廠也需要具備競爭力的AI晶片供應商來實現規模化、提高良率並降低成本。因此,在規模擴張階段,政府的支援錨定了供應的形成與國內需求,包括鼓勵本土化應用,以及協調如中芯國際7奈米生產等稀缺的先進製程產能。基準情形綜合我們的供需分析,我們勾勒出中國AI晶片自給率的基準情形發展軌跡。我們預計中國的AI晶片自給率將從2024年的33%上升至2030年(預期)的76%。我們預計先進製程產能的擴張和晶片性能的持續提升將推動本土AI晶片營收的增長。我們的核心假設如下:先進製程產能顯著擴張。 在強勁的資本支出投資以及矽鍺(SiGe)外延等本土裝置技術突破的支撐下,我們預計中國的先進製程晶圓月產能(wpm)將從2025年的8千片增至2028年的4.2萬片,並於2030年達到5萬片。生產良率顯著提升。 在更優質的檢測工具和不斷積累的操作經驗驅動下,我們預計中國AI晶片的生產良率將從2025年的約20%提升至2030年的約50%。產能分配依然由政策驅動。由於先進製程產能具備稀缺性,其分配很大程度上由政府機構決定。我們認為華為獲得的分配額度最高,其次是寒武紀(Cambricon)和海光(Hygon),而二線和三線AI晶片設計公司各自獲得的產能可能不到總產能的10%。海外晶圓廠供應“合規(within spec)”晶片。 我們預計三星等海外晶圓廠將為崑崙芯和字節跳動等本土設計公司流片符合規格要求的AI晶片。基於這些假設,我們預計中國本土AI晶片營收將從2024年的60億美元增至2030年(預期)的510億美元,2024至2030年的復合年增長率(CAGR)達到42%,同時我們預計AI晶片自給率將從2024年的33%提升至2030年(預期)的76%。我們在出口管制、本土製造進展以及替代激勵機制的相互作用驅動下,概述了中國本土AI晶片前景面臨的三種情景。關鍵爭議#3:我們該如何評估中國AI GPU的商業價值?市場觀點: 市場共識將政策驅動的替代視為本土AI GPU應用的主要驅動力。在這種觀點下,供應商的估值通常錨定於從輝達手中奪取市場份額的假設,以及對市場結構分散化的預期。我們的觀點: 我們認為,AI晶片的商業價值最終將決定各家供應商的長期營收和市值。儘管政府支援和雲服務提供商(CSP)的內部自研戰略依然重要,但我們預計市場領導地位將由產品競爭力和執行力來塑造。因此,我們結合定性因素(包括晶圓代工獲取能力、客戶關係、政策支援和技術方向)以及定量指標(如TPS(每秒生成Token數)、每瓦性能和每瓦每美元性能)來評估供應商。我們還密切監控不斷湧現的新發佈的晶片規格。隨著時間的推移,我們預計中國AI GPU市場將趨於整合,隨著產品差異化縮小和規模經濟佔據主導,利潤率壓力將會增加。需監測的指標: 1)新晶片規格;2)向主要客戶(如CSP)的出貨量爬坡情況;3)平均售價(ASP)趨勢及毛利率軌跡。我們可能出錯的地方(潛在風險): 1)本土AI GPU供應商未能獲得先進製程晶圓代工廠的產能;2)CSP採用國產AI晶片的意願低於預期;3)AI計算範式的顛覆性轉變(例如,模型架構或工作負載特徵的根本性改變)降低了基於TPS的性能比較的相關性。識別長期贏家的分析框架潛在的贏家能夠將系統級競爭力轉化為大規模的商業應用。在實踐中,供應商需要具備四大特質:(1)具備競爭力的推理經濟效益;(2)可靠的先進製程節點產能獲取管道;(3)深厚的CSP合作關係;(4)與政策導向保持一致。如果供應商缺失其中一項或多項特質,即使他們發佈了強悍的規格資料,也很難維持其市場份額和利潤率。我們採用雙層分析框架:第一層 —— 定量的推理經濟效益我們側重於驅動大規模應用的、以推理為核心的指標,包括單Token成本和總擁有成本(TCO)、TPS(每秒Token數),以及每瓦和每美元性能。我們認為,要維持領導地位,必須在這兩個層面上都具備實力。第二層 —— 定性的市場定位我們評估獲取先進製程產能的管道、CSP合作關係的深度、政策契合度,以及技術路線圖的可信度。聚焦推理端:本土供應商持續追趕持續存在的生態系統與工藝制約因素,限制了國產加速器在先進基礎模型大規模訓練領域的定位。因此,我們預計近期的部署將集中在大語言模型(LLM)推理而非訓練上。這一重心與需求趨勢相符。DeepSeek、Doubao和Qwen(通義千問)等國產基礎模型,已將每日Token消耗量推高至10兆以上,驅動了推理需求的結構性上升。與此同時,輝達的A100以及部分已安裝的H100和H800越來越多地用於服務訓練工作負載。因此,我們預計中國的推理算力——儘管目前仍以輝達H20為基本盤——隨著時間的推移將更加依賴國產加速器。為了比較各家供應商的推理競爭力,我們採用每秒生成Token數(TPS)這一指標。TPS反映了硬體能力(計算吞吐量、記憶體頻寬、互連)以及軟體和模型的假設。我們以DeepSeek R1作為國產大語言模型的代表,以反映真實的推理部署場景。輝達在2025年第一季度公佈了其H200在DeepSeek R1推理下的官方TPS資料。在採用相同的Token長度和資料格式假設下,我們獨立推算的估計值與輝達公佈的結果基本一致,這印證了我們建模方法的可靠性。(Port Selected)
🎯AI算力暴增10倍!真正賺翻的不是GPU,而是這4家公司!Line@連結:https://lin.ee/mua8YUP🎯如果你以為AI只是ChatGPT寫寫文章、機器人跳舞那你可能完全看錯戰場真正的AI戰爭,其實只有兩個字:速度想像一下AI晶片就像一顆法拉利引擎而整個系統能不能跑得動關鍵不是引擎,而是車架在半導體世界裡這個車架就是:IC載板現在問題來了AI晶片越做越大、算力越來越狂傳統電路板根本,載不動這些怪獸級晶片於是,一場新的產業大行情正在發生:載板市場,從供過於求→直接翻轉成供不應求而台股,正好有四個最大贏家第一個:3037欣興AI載板盟主。NVIDIA Blackwell、CSP自研AI晶片很多都躺在欣興的載板上更誇張的是客戶為了搶產能直接簽3~7年長約,還先付錢電子業很少看到這種事意思只有一個:未來幾年訂單已經排滿第二個:4958臻鼎-KY很多人還停留在「蘋果供應鏈」但現在它的AI營收占比已經從8%衝到70%而且公司直接砸下1000億資本支出企業只有在一種情況會這樣做:訂單多到不敢不擴產第三個:8046南電它不是現在最紅的但可能是獲利彈性最大的一個關鍵原因只有一個:材料缺貨T-glass短缺讓載板廠有機會直接調漲價格法人圈預估:ABF與BT載板 ASP可能年增20~30%第四個:3189景碩很多人只盯GPU但AI真正吃算力的是:HBM記憶體而景碩正好卡在這個位置ABF吃AI晶片BT吃DDR5記憶體雙引擎一起推結論很簡單:AI時代不是只看GPU真正的關鍵是能不能「載得動」GPU而載板產業正在進入一場新的軍備競賽🔴接下來我們會在粉絲團持續幫大家鎖定+追蹤,若還不知道該如何操作?那建議你務必要鎖定江江在Line @,將有更進一步的訊息給大家了解。https://lin.ee/mua8YUP🔴想了解還未起漲的市場主流,同步了解大盤多空轉折點及學習預測技術分析,江江YT節目都會持續追蹤+預告。https://reurl.cc/02drMk********************************************************有持股問題或想要飆股→請加入Line:https://lin.ee/mua8YUP江江的Youtube【點股成金】解盤:https://reurl.cc/02drMk*********************************************************(本公司所推薦分析之個別有價證券 無不當之財務利益關係以往之績效不保證未來獲利 投資人應獨立判斷 審慎評估並自負投資風險)
AI性能暴增35倍!輝達發佈全新LPU,GPU不再是唯一主角!
當地時間3月16日,輝達GTC 2026正式美國加州聖何塞召開。輝達創始人兼首席執行長黃仁勳身披標誌性皮衣登場,在長達兩個半小時的主題演講中,勾勒出這家算力巨頭從“晶片公司”向“AI基礎設施工廠”全面蛻變的宏偉藍圖。面對市場對業績持續性的高度關注,黃仁勳給出了極為強勁的預期:到2027年,輝達新一代AI晶片的累計營收將正式跨入1兆美元時代。這一數字是他去年預測的兩倍。本次演講的一大重點,當屬備受期待的Vera Rubin AI工廠平台。與以往發佈單晶片不同,黃仁勳此次展示的是一個包含7款全新晶片的“全家桶”系統。他強調:“過去提到Hopper,我會舉起一塊晶片,那很可愛。但提到Vera Rubin,大家想到的是整個系統。”這一系統級平台的核心元件包括:Vera CPU:全球首款專為“AI智能體時代”與“強化學習”設計的處理器。它搭載88個自研“Olympus”核心,性能較傳統CPU快50%,能效提升達2倍。黃仁勳將其比作智能體系統背後的“指揮與調度中心”,負責管理海量並行任務。Rubin GPU:與Vera CPU通過NVLink-C2C技術實現1.8TB/s的驚人互聯頻寬,共同構成強大的算力核心。NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及帶同包光學器件的Spectrum-X可擴展交換機:構成了一套完整的超高速互聯、網路與資料處理基礎,確保資料在AI工廠內高效流轉。黃仁勳展示了基於這些元件建構的Vera Rubin NVL72機架,它整合了72顆Rubin GPU和36顆Vera CPU。相比上代Blackwell平台,訓練大型混合專家模型所需GPU數量僅為其四分之一,推理吞吐量/瓦特提升高達10倍。他驕傲地宣稱,通過極致的軟硬體協同設計,在短短兩年內,輝達將1GW資料中心內的Token生成速率提升了350倍。特別值得重點介紹的是,黃仁勳展示Vera Rubin平台的“全家桶”時,還推出了一款看似小巧卻極具戰略意義的晶片——Groq 3語言處理單元(LPU)。這款源自輝達去年12月以約200億美元收購Groq核心技術資產的晶片,被黃仁勳定位為Rubin GPU的“推理協處理器”,成為了Vera Rubin平台的又一基石。黃仁勳解釋了引入LPU的戰略考量時指出:在AI智能體時代,推理需求正加速分化。面對需要極高互動性、超短響應時間的任務,傳統GPU架構存在性能冗餘。為此,輝達引入了專注於“極致低延遲Token生成”的LPU架構。本文將深入解析Groq 3 LPU的技術細節、混合推理架構以及它對AI推理市場的深遠影響。一、技術顛覆:打造150TB/s的SRAM怪獸Groq 3 LPU最引人注目的特點,在於其徹底顛覆了傳統AI加速器的記憶體架構。1、500MB片上SRAM:頻寬的極致追求與大多數依賴HBM(高頻寬記憶體)作為工作記憶體層的AI加速器不同,每個Groq 3 LPU晶片整合了500MB的片上SRAM(靜態隨機存取儲存器)。這種記憶體此前主要用於CPU和GPU的超快取記憶體,從未在AI加速器中擔當主角。這500MB SRAM看似“微不足道”——與每個Rubin GPU上容量高達288GB的HBM4相比,僅為其1/500。但SRAM的關鍵優勢在於頻寬:這塊SRAM可提供高達150TB/s的頻寬,而HBM4的頻寬僅為22TB/s。這意味著,對於頻寬極度敏感的AI解碼操作,Groq 3 LPU的頻寬是傳統HBM的近7倍。輝達超大規模計算副總裁Ian Buck對此解釋道:“讓我們對比一下這兩種處理器:GPU擁有288GB記憶體,但頻寬是22TB/s;LPU只有1/500的容量,但頻寬達到了驚人的150TB/s。對於需要極致低延遲的token生成任務,LPU的頻寬優勢無可替代。”基於此晶片的Groq 3 LPX機架配備256顆LPU,提供128GB片上SRAM和640TB/s總頻寬。黃仁勳描繪了GPU與LPU協同工作的未來圖景:Vera Rubin負責需要海量計算的“預填充”階段,而Groq LPU則負責對延遲極度敏感的“解碼”階段。在這種混合架構下,系統的推理吞吐量與功耗比最高可提升35倍。他建議企業客戶,若工作負載包含大量高價值的Token生成需求,應將25%的資料中心規模配置給Groq。據悉,由三星代工的Groq LP30晶片已進入量產,預計今年第三季度出貨。2、三星代工:黃仁勳現場致謝在GTC主題演講中,黃仁勳特別提到三星電子,感謝其為輝達加快生產Groq 3 LPU晶片。這是輝達首次公開確認三星晶圓代工部門參與下一代AI晶片生產。“三星為輝達生產Groq 3 LPU晶片,並正在加快生產速度,我非常感謝三星。”黃仁勳在演講中表示。他進一步透露,該晶片將於2026年第三季度正式出貨。這一合作標誌著三星與輝達的夥伴關係從儲存領域(HBM)正式擴展到晶圓代工領域。三星電子當天在GTC大會現場展出了第七代HBM產品“HBM4E”和垂直堆疊晶片“核心裸片”,積極宣傳其在儲存和代工領域的雙重合作。3、技術代價:容量與成本的博弈SRAM的優勢背後是殘酷的工程權衡。SRAM的生產成本遠高於DRAM,且佔用更大的晶片面積。這導致單個Groq 3 LPU僅能提供500MB記憶體,遠不足以獨立運行兆參數等級的超大AI模型。輝達的解決方案是:用數量彌補容量。公司將256顆Groq 3 LPU整合到一個Groq 3 LPX機架中,提供128GB的片上SRAM和40 PB/s的推理加速頻寬。該機架採用液冷設計,通過每個機架640TB/s的專用擴展介面將晶片互聯。Ian Buck坦承這種設計的侷限性:“你需要很多晶片才能獲得那種性能。從每晶片的token吞吐量(經濟性)來看,LPU其實相當低。”二、混合架構:GPU+LPU如何協同工作?既然LPU有容量短板,輝達為何要大費周章將其納入Rubin平台?答案在於推理任務的分工協作。1、預填充階段 vs. 解碼階段大語言模型的推理過程可分為兩個階段:預填充階段:處理輸入提示(prompt),平行計算所有輸入token,生成中間狀態。這一階段需要強大的浮點運算能力和大容量記憶體來儲存鍵值快取。解碼階段:逐個生成輸出token,每一步都依賴於之前生成的token。這一階段對延遲極度敏感,且受記憶體頻寬限制嚴重。輝達的策略是:讓Rubin GPU負責預填充階段,讓Groq LPU負責解碼階段。具體來說,在輝達新引入的Dynamo軟體框架協調下:Rubin GPU利用其288GB HBM4和強大的浮點運算能力,處理複雜的注意力機制(Attention)計算和數學運算,儲存大型鍵值快取Groq LPU利用其150TB/s的超高頻寬,處理前饋神經網路(FFN)層計算,實現極低延遲的逐token生成2、智能體間通訊:從100 token/s到1500 token/s隨著AI從單一大模型走向多智能體系統(multi-agent systems),推理延遲的要求發生了根本性變化。Ian Buck描繪了這樣的未來場景:在多智能體系統中,AI代理越來越多地與其他AI進行互動,而非與查看聊天窗口的人類交流。對人類而言看似合理的每秒100 token生成速率,對AI代理來說卻如同蝸牛爬行。Buck表示:“Rubin GPU和Groq LPU的組合將人工智慧代理間通訊的吞吐量從每秒100個token提升到每秒1500個token甚至更高。”3、35倍性能提升:資料背後的工程奇蹟根據輝達官方基準測試,當運行達到1兆參數規模的大語言模型時,Rubin GPU與Groq LPU組合相比上代方案,推理吞吐量每瓦特提升高達35倍。具體到成本層面,輝達強調,這一組合方案運行超大AI模型時,每百萬token的成本為45美元,每秒token處理量達到500。輝達聲稱,這將使超大AI模型服務的創收機會增加10倍。三、戰略意義:輝達為何需要LPU?1、填補推理市場的短板分析認為,“通過結合Rubin GPU和Groq LPX,輝達終於進入了推理市場——一個它從未成為第一的市場。”長期以來,輝達的GPU在訓練市場佔據絕對主導,但在低延遲推理領域,面臨著Cerebras、Groq(收購前)等挑戰者的競爭。Cerebras的晶圓級引擎同樣整合了大量SRAM,為先進模型提供低延遲推理,甚至吸引了OpenAI等大客戶。收購Groq技術並將其整合到Rubin平台,是輝達對競爭者的直接回應。正如Ian Buck所說,公司希望“通過這兩種處理器的結合,走向多智能體未來”。2、生態系統相容:無需修改CUDA對於現有輝達客戶而言,引入Groq LPU的一個重要優勢是軟體相容性。Groq 3 LPX機架與Rubin平台的結合“無需修改現有的NVIDIA CUDA軟體生態系統”。這意味著,企業客戶可以在不重寫程式碼的前提下,通過增加LPU機架來顯著提升推理性能。3、競爭格局:誰將受益?Tom's Hardware分析指出,Groq 3 LPU的加入可能降低Rubin CPX推理加速器的作用。Buck暗示,公司目前專注於將Groq 3 LPX機架與Rubin整合,因為兩者都旨在提供相似的推理性能增強,而LPU不需要每個Rubin CPX模組所需的大量GDDR7記憶體。在客戶層面,PCMag預測,最大的AI公司——包括OpenAI、Anthropic、Meta——將成為這項技術的首批採用者。這意味著,未來你的聊天機器人查詢或圖像生成請求,可能正由Rubin GPU和Groq LPU協同處理。四、小結:推理時代的新範式Groq 3 LPU的發佈,標誌著輝達對AI計算的理解進入新階段。當行業還在爭論“記憶體容量vs記憶體頻寬”孰輕孰重時,輝達給出了一個務實答案:全都要,但分工協作。Rubin GPU負責需要大容量記憶體和複雜計算的預填充階段,Groq LPU負責需要極致低延遲的解碼階段。兩者通過NVLink和Spectrum-X高速互聯,在Dynamo軟體框架的調度下,如同一台電腦般協同工作。對於企業客戶而言,黃仁勳的建議很明確:如果你的工作負載包含大量需要高互動性的token生成任務,應考慮將資料中心的一部分規模配置給Groq LPU。在智能體AI成為行業下一個“拐點”的當下,這種混合架構可能是保持競爭力的關鍵。而對於三星而言,拿下Groq 3 LPU的代工訂單,標誌著其在AI晶片供應鏈中的地位從“儲存供應商”升級為“全面製造夥伴”。正如黃仁勳所言:“謝謝三星。”這句話背後,是AI算力生態日益複雜的分工與合作。 (芯智訊)
手機巨頭接連漲價,儲存瘋漲下的破局之道在那?
一場由儲存晶片供需失衡引發的手機漲價潮,正快速蔓延到整個手機行業。3月16日上午,vivo宣佈,自3月18日起,將對包含子品牌iQOO在內的部分機型上調價格。近期行業動作頻頻。早在今年2月,三星發佈Galaxy S26系列時,相比上一代已漲價1000元。緊隨其後,OPPO和一加宣佈對部分已開售機型漲價;榮耀Magic V6雖然守住了8999元的起售價,但16GB高記憶體版本也漲價近千元。小米高管更是早就預警記憶體危機。雷軍近期直言,記憶體漲價讓小米手機和相關業務的壓力很大,正想各種辦法消化成本壓力。盧偉冰則表示,對記憶體漲價的判斷是將持續到2027年底,這在以前的歷史上從來沒有過,整個消費電子行業都將受很大影響。從手機到電腦、遊戲機甚至儲存卡,只要是涉及儲存晶片的電子產品,幾乎都有一定程度價格上浮。而面對洶湧而來的漲價潮,vivo、OPPO等手機廠商提前公示調價資訊的做法,為使用者提供了決策緩衝期,也給行業提供了一定的參考與趨勢判斷。儲存晶片的瘋漲,幾乎可以用價格曲線失控來形容。過去一年間,手機、電腦核心元器件DRAM(運行記憶體)和NAND快閃記憶體的採購成本普遍上漲超過80%,部分LPDDR5X移動記憶體的漲幅甚至突破了120%。市場調研機構IDC的資料顯示,記憶體佔智慧型手機成本的比例已從過去的10%-15%猛增到20%以上,中低端機型逼近30%,部分千元機甚至已陷入負毛利區間。AI對儲存的爆發式需求增長,是這場記憶體危機的“蝴蝶翅膀”。過去兩年,隨著大模型訓練和推理需求迅速增長,全球科技公司開始大規模建設AI資料中心。支撐這些算力基礎設施運行的,不僅是GPU,還有大量HBM(高頻寬記憶體)。與普通DRAM不同,HBM需要更複雜的堆疊封裝技術,其製造過程中對晶圓的消耗量是普通DRAM的3至4倍,而其利潤是普通消費級記憶體晶片的數十倍甚至上百倍。在利潤驅使下,三星、SK海力士、美光等國際儲存巨頭紛紛將產能向HBM等領域傾斜。觀察者網最近從國際半導體組織SEMI瞭解到,2026年全球HBM市場規模將增長高達60%。而從供需來看,HBM的缺口仍然有50%-60%,三星、SK海力士和美光正在將70%的新增及可調配產能傾斜至HBM。令行業倍感焦慮的是,新建儲存工廠從宣佈建設到正式投產至少需要兩年時間,最快可能也要到2027年下半年才能釋放有效產能。這意味著,在未來相當長一段時間內,手機廠商仍將面臨儲存成本高位波動的壓力。市場調研機構Counterpoint預計,2026年第二季度,移動級LPDDR4/5的價格將達到2025年第三季度水平的近三倍,手機行業全面且持續的漲價已在所難免。以vivo在售的X300和X300 Pro為例,全系標配了LPDDR5X Ultra頂規運存,記憶體成本原本就是當前在售旗艦中的最高水平,因此本次極大機率會同步進行價格調整。更值得關注的是後續機型,根據行業趨勢預測,受頂規記憶體成本持續上漲影響,即將發佈的vivo X300s起售價極有可能突破5000元大關。而對於被稱為“影像機皇”的vivo X300 Ultra而言,成本壓力可能更為顯著。結合已曝出的雙2億像素超高規格配置,以及電影級視訊能力,預計其最高記憶體版本的發佈價或許會突破萬元(不含增距鏡配件)。主動提價顯然並非手機廠商的意願,更像是成本翻倍後的無奈之舉,也是上游成本傳導的必然結果。但站在更宏觀的視角看,這場記憶體危機對國產手機而言,也是挑戰和機遇並存。在過去那種“性價比”至上的紅海競爭中,廠商們往往陷入參數內卷和價格廝殺的泥潭,微薄的利潤空間難以支撐真正的技術突破。而這一次,儲存瘋漲帶來的成本重壓,雖然會淘汰一批抗風險能力弱的選手,卻也在倒逼有實力的廠商加速轉型,從單純的價格競爭,轉向創新實力與品牌能力的深層較量。歷經多年發展,頭部手機廠商早已建構了各自的護城河。比如華為在晶片設計、系統生態等領域建構了極深的垂直整合能力和供應鏈掌控力、小米在“人車家”全生態上同時發力、vivo則在影像賽道深耕使用者場景……這種由“規模擴張”向“價值導向”的轉變,是行業邁向高品質發展的關鍵。當成本普漲不可避免,驅動使用者買單的最大動力將不再是“誰更便宜”,而是“誰更懂我的需求”,而這恰恰是強者展示功力的契機。這個時候手機廠商唯有堅守使用者導向,鍛造創新能力,才能為使用者創造更多價值,這對有實力的手機廠商反而是機遇。對於消費者而言,面對洶湧的漲價浪潮,購買策略也很關鍵。2026年手機廠商可能出現多輪調價,當前仍處於相對難得的“低價”窗口期。對於計畫換機的使用者,儘早購買或許比等待降價更為理性。上游成本仍在攀升,下游終端價格易漲難跌,早入手不僅能規避後續的漲價風險,也能更早享受技術進步帶來的體驗升級。歸根結底,這次記憶體危機對整個手機行業更像是一次壓力測試,它宣告了廉價硬體時代的漸行漸遠,但也打開了邁向高水平競爭的更大空間。國產手機將在這場極限測試中得到淬煉,積累更多穿越周期的韌性,未來有望為消費者帶來更多有價值的產品。 (觀察者網)
【GTC 2026】輝達號稱將實現10年一百萬倍的路徑光追性能
相比 GTX 10……在最近舉行的 GDC2026 全球遊戲開發者大會上,輝達副總裁 John Spitzer 開啟了一場震撼圖形界的演講。他正式宣佈,輝達未來的 GPU 架構(或許為 2027 年推出的 Rubin)將實現相對於 10 年前 Pascal 架構GTX 10 系列高達 1,000,000 倍的路徑追蹤性能飛躍。這一驚人數字的背後,並非依靠矽片性能的暴力增長,而是依靠演算法創新與 AI 技術的深度融合。Spitzer 在演講中坦言:“摩爾定律已經死了。”他認為,在人類有生之年,單純依靠半導體工藝實現 100 倍的算力提升已無可能。回顧過去十年,從 GTX 10 系列的軟體模擬光追,到如今擁有第四代 RT Core、第三代 Tensor Core 以及 DLSS 4.5 的 Blackwell 顯示卡,路徑追蹤性能已經實現了 10,000 倍的增長。這就是我們於 2016 年 4 月推出的 GTX 10 系列 (Pascal) 產品,幾乎正好是 10 年前。 如果你看看今天只有一個軟體 RT 核心的性能,我們有第四代 RT 核心,我們有第三代 Tensor 核心,我們有 DLSS 4.5,它能夠推斷渲染的 24 個像素中的 23 個。——輝達副總裁 John Spitzer其中,DLSS 4.5 已經能夠做到在每 24 個像素中僅原生渲染 1 個,其餘 23 個像素全部由 AI 推理生成。這種“ multiplicative(乘法級)”的增長模式,將是輝達衝擊百萬倍性能目標的關鍵。為了讓遊戲畫面達到電影級的真實感,輝達還展示了兩項全新的光追黑科技:ReSTIR 演算法和 RTX Mega Geometry。前者被譽為目前最精準的光線傳輸模擬技術,能夠完美處理複雜的鏡面反射與全域照明;後者則將在《巫師 4》中首發,配合不透明微型貼圖(OMOs)技術,能高效處理海量植被搖曳時的光影遮擋細節。本月晚些時候,輝達將上線 DLSS 4.5 的“MFG 6X”動態模式。GDC 會場現場演示中,該模式能生成多達 6 倍的補幀,且在不同解析度間切換時絲滑順暢,毫無頓挫感。隨著《生化危機:安魂曲》、《控制:共振》以及《巫師 4》等一大批路徑追蹤大作的定檔,輝達正在向業界證明:原生渲染的時代正在落幕,AI 神經渲染將接過接力棒。正如 Spitzer 所言,路徑追蹤已成為衡量現代遊戲渲染水平的金標準。個人認為圖形學的歷史,其實就是一部“視覺欺騙”的進化史,從最早的貼圖到後來的延遲渲染,再到現在的 DLSS 神經渲染,電腦從來沒有真正試圖去“還原物理世界”,而是在嘗試用最少的算力,騙過人類的眼睛。所以,只要能夠完全解決/最佳化掉拖影、延遲等問題,是什麼渲染方式,有在乎的必要嗎? (AMP實驗室)
🎯廣達、鴻海、緯創營收噴發股價卻不動?因為你盯錯重點了!Line@連結:https://lin.ee/mua8YUP🎯很多人最近都在問我一個問題:為什麼AI伺服器營收狂飆,股價卻不太動?答案其實很殘酷。AI最大瓶頸,已經不是算力,而是「資料傳輸」想像一下AI伺服器就像一間超大廚房GPU是廚師資料是食材如果食材送不進來你找再多廚師都沒用現在全球AI資料中心遇到的,就是這個問題GPU算力爆衝但網路頻寬追不上所以最近市場開始瘋狂討論一個新關鍵字:CPO(共封裝光學)這不是新題材這是AI下一個基礎建設台股其實早就排好隊了:3081聯亞:磊晶雷射3163波若威:光纖配線4979華星光:光模組6442光聖:雲端客戶供應鏈3363上詮:FAU光耦合但還有爆發斜率的,很多人還沒發現。那就是:4977眾達-KY、2455全新💎先講4977眾達:如果說博通是CPO的王者那眾達就是他的「禁衛軍」兩家公司合作的51.2T CPO架構直接把資料中心功耗砍掉65%這是什麼概念?像Google、OpenAI一年電費幾十億美元省電=省幾十億而CPO有一個最恐怖的結構:ELSFP外部雷射一台設備可能需要32顆雷射1→32的營收槓桿這就是為什麼法人圈已經在看:2026量產、2027大爆發💎再講2455全新:如果眾達是「燈泡組裝」那全新就是做「燈絲材料」以前市場只把它當手機PA廠現在完全不是全新的AI光電子毛利率直接超過50%兩個關鍵武器:1. 1.6T檢光器(PD)已打進美系大廠供應鏈2026 出貨放量2.高功率CW Laser磊晶AI資料中心需要超強光源市場預估2028年全球需要7000萬顆雷射頭所以公司最近在做一件事:狂買MOCVD機台產能62台→67台還在找第三廠製造業只有一種情況會這樣做:訂單多到爆🔴接下來我們會在粉絲團持續幫大家鎖定+追蹤,若還不知道該如何操作?那建議你務必要鎖定江江在Line @,將有更進一步的訊息給大家了解。https://lin.ee/mua8YUP🔴想了解還未起漲的市場主流,同步了解大盤多空轉折點及學習預測技術分析,江江YT節目都會持續追蹤+預告。https://reurl.cc/02drMk********************************************************有持股問題或想要飆股→請加入Line:https://lin.ee/mua8YUP江江的Youtube【點股成金】解盤:https://reurl.cc/02drMk*********************************************************(本公司所推薦分析之個別有價證券 無不當之財務利益關係以往之績效不保證未來獲利 投資人應獨立判斷 審慎評估並自負投資風險)
Meta 公佈四代自研 AI 晶片計畫,擬於 2027 年底前完成部署
事件概覽Meta Platforms 於 2026-03-11 公佈其最新晶片路線圖,計畫在 2027 年底前部署四款自研 AI 晶片——MTIA 300、MTIA 400(Iris)、MTIA 450(Arke)與 MTIA 500(Astrid)。這一動作標誌著 Meta 正以更激進節奏建構 自有 AI 算力體系,以應對持續增長的 AI 推理與內容推薦需求,並降低對 Nvidia GPU 的依賴。公司確認 MTIA 300 已投入使用,MTIA 400 即將進入資料中心;450 與 500 則被納入 2027 年量產計畫。Meta 工程副總裁 Yee Jiun Song 表示,四款晶片均在 平行開發,以應對過去數月 “工作負載快速演進”。與此同時,Meta 仍維持與 Nvidia、AMD 的長期採購協議,以確保訓練算力供應。公司近期取消的 Olympus 訓練晶片項目 顯示高端訓練 ASIC 仍具難度,而 2025 年宣佈的 Rivos 收購 則為 MTIA 團隊擴充了超過 400 名工程師,支撐多代產品同時推進。這一路線圖若如期落地,Meta 有望提升 推薦系統與生成式 AI 推理負載中的自研 ASIC 佔比;若受制於技術、產能或供應鏈限制,則可能繼續延長外購 GPU 周期,壓縮自研投資的回報空間。相關事件時間線事件分析Meta 強化自研路線的核心驅動力Meta 押注自研 ASIC 的關鍵動因在於 控制 AI 基礎設施成本 與 降低對 Nvidia 的結構性依賴。隨著生成式 AI 擴張推高訓練與推理需求,GPU 供應緊張與高成本成為限制因素。MTIA 系列以 內部工作負載最佳化 為導向,重點覆蓋內容推薦與推理任務,來獲得更高 能效比 與 穩定供給能力。兩條技術路徑:自研 ASIC 與外購 GPU 平行Meta 明確採取 “自研推理 + 外購訓練” 的雙軌模型。- 自研晶片負責高頻推理任務,提升 單位算力成本效率;- Nvidia/AMD GPU 繼續承擔大模型訓練與通用計算。這一架構使 Meta 在保持靈活性的同時,以 ASIC 節約 OPEX 並降低高端 GPU 的長期佔比。供應鏈與執行風險高度集中MTIA 系列依賴 台積電先進製程與封裝產能,而 2nm/3nm 產能將被蘋果、Nvidia 等客戶大量佔用,Meta 存在排隊風險。同時,依託 RISC-V 的架構選擇雖帶來定製空間,但其軟體生態仍弱於 CUDA,意味著 Meta 需投入更多編譯器與工具鏈最佳化,增加執行複雜度。組織整合與產品節奏的挑戰Rivos 團隊加入後,Meta 具備了 “四代平行開發” 能力,但也面對跨團隊文化整合與技術路線統一的壓力。MTIA 450/500 能否按期量產,將決定 Meta 能否在 2027 年後實現 ASIC 佔比提升 與 GPU 採購規模回落。資本支出壓力與 AI 業務不確定性Meta 預計未來兩年維持高強度 AI CAPEX。然而 ASIC 高度專用,一旦 工作負載變化(例如模型架構演變),MTIA 系列可能出現適配不足的風險。缺乏面向外部銷售的商業化路徑,也意味著其 ROI 只能來自內部成本最佳化。 (InfraNative)
GPU時代落幕?矽谷巨頭集體「叛逃」,輝達1500億瘋狂自救
去GPU化的浪潮,已經攔不住了!OpenAI嫌輝達太慢,Anthropic砸1486億投奔TPU,老黃被迫200億天價收購「叛徒」自救。如今,算力軍備賽正式進入能效為王的新時代:誰先卡住「每焦耳每微秒」的極限,誰或許就是下一個十年的霸主。再過兩周,黃仁勳將站上GTC 2026的舞台。他提前放了話:「我們準備了幾款世界上前所未見的全新晶片。」底氣來自一份炸裂的成績單——輝達2026財年年收入2159億美元,淨利潤翻倍,資料中心業務三年翻了13倍。在財報電話會上,CFO直接甩出一個數字:客戶已經部署了9吉瓦的Blackwell基礎設施!但詭異的一幕出現了。財報發佈當晚,輝達盤後一度漲超4%。隨後股價悄然轉跌,次日直接低開低走,收跌5.46%,一夜蒸發數千億美元市值。華爾街不是看不懂數字,是看懂了趨勢。前有Anthropic甩出210億美元訂單,全面採購基於GoogleTPU的算力系統;後有Meta跟Google簽下數十億美元晶片大單,大規模租用TPU訓練模型。為了給程式設計帶來接近即時的響應體驗,OpenAI更是歷史上首次將主力級產品GPT-5.3-Codex-Spark,部署在了更低延遲與更低能耗的非GPU晶片Cerebras上。輝達最大的幾個客戶,正在集體分散籌碼。全球AI晶片中GPU架構和非GPU架構比例(資料來源:高盛全球投資研究部)根據摩根大通的產能報告,Google計畫在2027年部署600至700萬顆TPU,大部分供給Anthropic、OpenAI、Meta和蘋果等外部客戶。高盛投資研究部的模型顯示,全球AI伺服器中非GPU晶片出貨佔比,將從2024年的36%升至2027年的45%。類似的,IDC也預測,到2028年,中國非GPU伺服器市場規模佔比將逼近50%。GPU的致命短板一個更深層的轉折正在發生:AI的競爭焦點,正從單純的算力規模,轉向對能效比與延遲的極致追求。過去拼誰卡多、誰叢集大。現在拼的是,同樣花一塊錢,誰能吐出更多Token。「每美元產生的Token數」正在取代峰值算力,成為衡量晶片商業價值的核心指標。究其原因在於,GPU的架構決定了,每次計算時資料都要在外部視訊記憶體和計算單元之間來回搬運。路徑長、次數多,能耗就高、延遲就大。堆更多卡解決不了這個問題。路透社爆料,OpenAI已多次表達對輝達晶片的「不滿」——響應速度沒達預期,在程式碼生成產品Codex上感受尤為明顯。壓力迫使輝達這條「巨龍」尋求改變。圖靈獎得主David Patterson教授在最新研究中指出,大模型每次token生成都繞不開資料搬運,而搬運能耗遠高於計算本身。未來的核心命題是「讓資料離計算更近」。為此,他給出了三個AI晶片的演進方向:近記憶體處理、3D堆疊、低延遲互連。實際上,這些都指向同一件事——用架構創新降低資料搬運的能耗和延遲。換句話說就是,誰能用更低的能耗、更低的延遲跑通下一代模型,誰就能在未來十年的算力牌桌上佔得先機。GoogleTPU殺向商用市場一直以來,GoogleTPU專供自家大模型訓練和推理,外人用不到。去年開始,Google把TPU推向了商用。訂單隨即湧入。博通CEO透露,Anthropic下了210億美元的大單;Meta簽下數十億美元TPU租賃協議;潛在客戶還包括蘋果和已與SpaceX合併的xAI。原因不難理解。大模型進入規模化落地階段,算力需求爆發、成本壓力加劇,單一依賴GPU的瓶頸越來越明顯。而GoogleTPU的性能,已經具備與頂級GPU分庭抗禮的實力。2025年推出的第七代TPU,是Google迄今為止性能最高、可擴展性最強的AI晶片——單晶片峰值算力4614 TFLOPS(FP8精度),最大叢集9216顆晶片、總算力達42.5 EFLOPS。劃重點:TPU v7在同等算力輸出下功耗僅為輝達B200的40%至50%。不僅如此,Google自研的光電路交換機(OCS)技術,還讓萬卡級叢集實現近乎線性的加速比。相比之下,傳統GPU叢集規模越大,通訊損耗越嚴重;而TPU叢集基本不吃這個虧。Google TPU v5e、v5p、v6、v7晶片關鍵性能對比GoogleTPU崛起還有更為直接的例證:在TPU上訓練的Gemini 3,在多個權威基準測試中位居榜首,為業界頂尖模型之一。回到成本帳上。TPU憑藉AI專用架構帶來的2-4倍能效優勢,將大模型推理的綜合成本相比GPU拉低50%以上。而這正是Anthropic、Meta們用訂單投票的根本邏輯。當下,大多數大模型企業已經在用TPU+GPU的組合來緩解成本壓力。去年11月,半導體研究機構SemiAnalysis對比大模型公司的採購成本後發現:與OpenAI相比,同時使用TPU與GPU的Anthropic,在與輝達談判時擁有更強的議價權。手裡有TPU,就多了一張跟老黃討價還價的牌。未來頭部AI公司大機率都會走「多晶片平行」路線。OpenAI與Anthropic購買算力的成本對比性能跨越式提升,頂尖大模型規模化驗證,頭部公司主動佈局——TPU已從算力產業的補充路線,升級為主流路線。輝達一家獨大的格局,正在被改寫。十年磨一劍「TPU之父」要造下一代AI晶片2025年底,輝達斥資200億美元,拿下AI晶片創企Groq的核心技術和團隊。這是輝達史上最大的一筆交易,溢價近三倍。Groq創始人Jonathan Ross,被稱為「TPU之父」,GoogleTPU的核心設計者之一。離開Google後,他創立Groq的目標很明確:做一顆超越GoogleTPU的晶片。兩者的差異在架構。GoogleTPU走的是「固定架構+叢集擴展」路線。其中,晶片內部搭載固定計算單元,依託二維資料流運算;晶片間通過3D Torus拓撲實現高效互聯。架構穩定,但靈活性有限。GoogleTPU架構Groq的TSP(Tensor Streaming Processor)則是一種「軟體定義硬體」的資料流處理器。其核心理念是,通過建構可重構的軟硬體系統,在保持可程式設計性的同時,達到接近ASIC的極致性能。具體來說,晶片內部做了功能切片化微架構設計,配合軟體層的靈活配置,可根據不同任務即時調整計算邏輯和資料流路徑。同時,依託大容量片上SRAM及靜態調度機制,顯著提升了資料訪存效率並降低搬運能耗。美國DARPA「電子復興計畫」(ERI)高度看好「軟體定義硬體」方向,將其列為國家級戰略核心。這也是Groq被稱為「高階TPU」的原因。資料顯示,在相同推理任務中,Groq晶片首token延遲比GoogleTPU v7降低20%至50%,每token成本降低10%至30%。這場晶片革命,才剛開始加速Groq被收編,但「高階TPU」的進化沒停。國內清微智能、海外Cerebras等公司正在高效資料流動態配置和先進整合方式上持續突破。1. 通過3D Chiplet技術建構三維立體資料流架構。具體來說,「計算核心+3D DRAM芯粒」的組合在垂直與水平兩個維度上形成了高效的資料流計算模式,突破了傳統二維架構的效率侷限。三維架構可以依據計算任務的需求和資料特性,在兩個維度上靈活調度資料流,最大化縮短傳輸路徑,降低搬運過程中的延遲與能耗,從而進一步提升整體計算效率。2. 依託算力網格技術建構靈活資料流計算範式。傳統固定組網存在擴展性和語義適配瓶頸。而算力網格技術則可以通過靈活組網,實現Scale up與Scale out的協同。根據AI任務特性,系統能即時下發資料流的動態配置資訊,在多種互聯拓撲結構間靈活切換、精準調度。最終降低互聯延遲,充分釋放資料流架構的算力。3. 通過前沿的晶圓級晶片技術,將資料流架構的優勢發揮到極致。這項技術將資料流架構從晶片尺度擴展到整片晶圓。在整張晶圓上高密度整合大量計算核心,計算核心間的互聯距離被極大縮短。帶來的結果是,互聯頻寬實現數量級提升,通訊延遲大幅降低。資料流架構的算力規模與計算效能由此被推到極致。這也是為什麼晶圓級晶片被視為資料流計算架構的理想物理載體。以Cerebras為例。資料顯示,Cerebras CS 3系統推理性能比輝達旗艦DGX B200快21倍,成本與功耗均降低三分之一,在算力、成本、能效上展現出顯著的綜合優勢。在實測中,OpenAI的Codex-Spark跑出了每秒超1000 token的生成速度,讓程式碼編寫第一次有了即時互動的體驗。Cerebras CS-3 vs輝達GPU:大模型推理速度對比GPU獨霸的時代,回不去了GoogleTPU走出圍牆,OpenAI擁抱晶圓級晶片,輝達天價收編Groq。這些訊號均指向同一個方向:算力世界的單極格局正在鬆動。定義下一代AI上限的,不再是單純的算力規模,而是能耗、延遲、確定性共同構成的AI新標尺。對於國產晶片而言,這是窗口,也是分水嶺。簡單復刻只能分得殘羹,唯有在底層架構上走出自己的創新之路,才有資格進入下一輪博弈。 (新智元)