#GPU很
【GTC 2026】CPO爆發前夜,回顧矽光40年
2026年的加州聖何塞,NVIDIA GTC 大會的聚光燈下,黃仁勳(Jensen Huang)再次向全球亮出了擁抱光學的技術風向——基於光電共封裝(CPO)技術的 Spectrum-X正在全面生產。然而,在這個被矽光技術照亮的“高光時刻”背後,支撐起今天這場百萬級 GPU 互連大爆炸的底層基石,曾經歷過一段長達四十年的漫長蟄伏。如果我們將歷史的指針撥回20世紀末,你會發現,今天在 GTC 大會上被萬眾矚目的“光電同芯”願景,在當年僅僅是一場極具前瞻性卻又備受冷落的科學空想。那是一個被摩爾定律和廉價銅線絕對統治的時代,矽光空有一身“屠龍之術”,卻找不到屬於自己的戰場。這是一段關於折射率、載流子與人類算力飢渴症交織的科技史。它講述了一束不被需要的“微光”,如何從實驗室的冷板凳出發,熬過產業的凜冬,最終在AI時代的前夜,蛻變為重塑整個資訊社會的終極基礎設施。讓我們重回1980年代,去看看那個不合時宜的“早產兒”,是如何一步步走到黃仁勳懷中成為“寵兒”的。1980年代末——矽光概念初誕生,但世界沒有在等待它在20世紀最後二十年的技術版圖中,資訊世界呈現出一種奇特的“二元對立”:以矽(Si)為核心的半導體工藝統治著運算,而以磷化銦(InP)等III-V族材料為核心的化合物半導體則統治著通訊。元素周期表三族和五族兩者像兩條平行線,在各自的領域高速狂奔。在當時的工程界看來,嘗試讓“不發光”的矽去處理光子訊號,無異於一種離經叛道的空想。然而,正是這種不合時宜的構想,在一些先驅的實驗室中被悄然勾勒出了矽光子學的雛形。矽光子學的物理根基,最早是由被譽為“矽光之父”的理查德·索雷夫(Richard Soref)在1980年代中期確立的。Richard Soref索雷夫在矽光子學界的地位始於他從20世紀80年代中期到90年代初發表的一系列論文。“早期,我提出並繪製了典型的器件密集型光電積體電路的示意圖,有些人稱之為EPIC(電子-光子積體電路)。我知道晶圓級的E+P將是兩種技術的完美結合。”他的早期研究確立了矽作為光子積體電路(PIC)可行平台的地位,索雷夫還指出矽也擁有完善的製造基礎設施。他關於該主題的第一篇論文於1985年發表在《電子快報》上,題為“單晶矽:一種用於1.3和1.6微米整合光器件的新材料”。由於矽晶體的對稱性,它缺乏像鈮酸鋰那樣顯著的線性電光效應(Pockels Effect),這意味著無法通過簡單的電場直接改變矽的折射率來調製光。1987年,索雷夫發表了具有里程碑意義的論文,定量推匯出了載流子濃度變化與矽折射率及吸收係數之間的關係,即電漿體色散效應”(Plasma Dispersion Effect)。這一發現為矽光器件提供了一套物理上的“基本法”,證明了通過電學手段操控矽中光子的可能性,使矽調製器的誕生成為理論上的現實。他談到最初關於矽光子學的一系列論文時說:“我詳細闡述了一種新的、主要採用單片技術的方案,其中在室溫下工作的片上波導調製器、開關、光電探測器和雷射二極體與各種‘無源’分路器、合路器、濾波器、偏振器等互連在一起——所有這些都協同工作。”索雷夫說,在他發明矽光子學之前,他知道市面上有一些半導體器件可以滿足光纖收發器晶片的雷射發射和探測功能,但他覺得這些器件笨重、奇特且昂貴。“當我意識到矽在1550奈米光纖通訊波長下具有很高的透明度時,我設想了一種更優雅、更簡單、更經濟的晶片,如果我能設計出低損耗的波導將所有元件連接起來,它就能完美地實現這一目標。”在這之後,矽光領域研究的火種傳到了英國薩裡大學的格雷厄姆·裡德(Graham Reed)手中。裡德教授及其團隊在實驗室內開始了艱苦的“煉金術”,他們率先研製出低損耗的矽波導,並驗證了基礎光學電路在矽片上的可行性。(Graham Reed在2025年發表了首個耗盡型調製器的設計方案,該方案現已成為行業標準,此外他還設計了具有里程碑意義的高速調製器。裡德目前是六個國際會議委員會的成員,已在矽光子學領域發表了約500篇期刊和會議論文,並在重要的國際會議上發表了170多場特邀演講。)Graham Reed在測試光子電路與此同時,1990年萊斯特·坎漢姆(Leigh Canham)關於“多孔矽發光”的發現。Leigh Canham 發現多孔矽能夠在室溫下發射可見光,這一發現打破了長期以來“矽不能發光”的傳統認知。矽作為間接帶隙半導體,其電子與空穴復合通常不產生光發射,因此在光電子器件中一直依賴 III-V 族材料如砷化鎵。然而,Canham 通過電化學蝕刻製備的多孔矽顯示出強烈的光致發光現象,表明矽同樣可以作為光源材料使用,這為矽光電子學的發展提供了基礎。Leigh Canham 手持一塊多孔矽晶片,在紫外光照射下發出橙色光芒這一發現,像一劑強心針刺激了學術界,引發了人們對“矽基全光整合”的巨大幻想!雖然多孔矽最終因其不穩定的物理特性未能走向商業,但它在客觀上打破了矽不能作為光學載體的認知壁壘,促使更多的資源向這一前沿領域傾斜。然而,1990年代的矽光技術更像是一個“早產兒”,它降臨在一個尚未準備好迎接它的世界裡。在那個時代,半導體產業的統治邏輯依然是極致的摩爾定律——通過縮小電晶體尺寸來搾取處理器的頻率。當時奔騰處理器的頻率尚在數百兆赫茲徘徊,傳統的銅線互連在電路板上遊刃有餘,訊號傳輸的物理瓶頸尚未顯現。與此同時,以電信營運商為主導的光通訊市場依然沉浸在長距離、低損耗的宏大敘事中,昂貴但性能卓越的III-V族離散器件足以支撐起當時的全球骨幹網。對於那時的工業界而言,矽光子學既沒有迫切的應用場景,也缺乏成熟的生態支撐。1990年代——矽光找到了“應許之地”但依然比不過一根銅線在矽光技術史的敘事中,1990年代不僅是一個時間跨度,更是一次從物理理論向材料平台演進的“範式轉移”。這一時期,矽光子學開始擺脫實驗室裡的零散研究,正式確立了以SOI(絕緣體上矽)為核心的工藝路徑,而一批兼具科學家洞見與工程野心的先驅,開始嘗試在這片“不毛之地”上建立工業秩序。1990年代後期,矽光子學終於找到了它的“應許之地”:SOI(絕緣體上矽)工藝的走向成熟。在此之前,理查德·索雷夫(Richard Soref)雖然在理論上推匯出了矽的載流子色散效應,但如何在粗糙的晶圓上精準地操縱光子依然是工程夢魘。格雷厄姆·裡德(Graham Reed)教授在薩裡大學的實驗室裡率先意識到,SOI結構不僅是電子工業為了減少寄生電容的利器,更是為光子量身定製的“精巧牢籠”。通過在頂層矽與底部矽襯底之間嵌入一層數百奈米厚的二氧化矽埋層,工程師們利用矽與二氧化矽之間巨大的折射率差,將光線通過全反射原理死死鎖在微米級的導芯中。這種高折射率對比度(High Index Contrast)帶來的革命性後果是,光子器件實現了從毫米級到亞微米級的“維度塌縮”,使得在指甲蓋大小的晶片上整合複雜的光學功能變為了物理可能。這一時期的技術突破,離不開從實驗室走向工業界的“造風者”。時間回退到1988年,裡德的學生、也是矽光產業化的關鍵旗手安德魯·瑞克曼(Andrew Rickman)創立了全球首家矽光公司——Bookham Technology。瑞克曼不僅承襲了學術界的物理洞察,更引入了半導體製造的標準化思維。在1990年代後期,瑞克曼推出的 ASOC(Active Silicon Optical Circuit)平台取得了初步成功。ASOC是矽光產業化的核心技術之一。該平台通過利用 CMOS 工藝線,能夠像生產電腦晶片一樣批次製造光調製器、波導和其他光子元件,實現矽光積體電路的標準化和規模化生產。這種方法不僅提高了生產效率,還保證了器件的可重複性和可靠性,使得矽光技術能夠從學術概念走向實際工程應用。ASOC 平台也為後續高速光調製器、整合光波導、光互連和光通訊晶片的產業化提供了技術基礎。然而,儘管有Soref的理論護航、Reed的實驗驗證以及Rickman的商業試水,當時的矽光技術依然面臨著深刻的“需求缺位”與“生態圍剿”。那是一個屬於電信骨幹網的時代,通訊的戰場在數千公里的深海和跨洲陸纜,以磷化銦(InP)為代表的三五族半導體憑藉天然的發光效率統治著長途通訊市場。對於當時的廠商而言,矽光方案雖然有著宏大的整合前景,但在發光功率和傳輸損耗上仍無法與成熟的化合物半導體抗衡。更具諷刺意味的是,當時PC內部的銅線互連尚能輕鬆應對兆赫茲等級的訊號傳輸,資料中心的概念還未誕生,人類對頻寬的渴求遠未觸及電訊號的物理極限。1990年代末的矽光子學,更像是一場“被提前預告的未來”。它在SOI平台上完成了物理形態的重塑,證明了光子可以像電子一樣被“整合”和“操控”,但它所瞄準的戰場——那個由雲端運算和超大規模互連定義的數字時代——還在十年後的地平線下。那時的矽光子學,正如同瑞克曼在Bookham在商業化前期所經歷的掙扎一樣,在銅線的統治力與光纖的昂貴壁壘之間,孤獨地打磨著那把名為“整合”的利劍,靜默地等待著電學互連徹底走向死胡同的那一天。二十一世紀的第一個十年——摩爾定律的“牆”與矽光的“斯普特尼克時刻”跨入21世紀,資訊產業的敘事邏輯發生了一場隱秘而劇烈的裂變。曾經在1990年代無往不利的摩爾定律,在這一時期撞上了一堵冰冷的“功耗牆”:處理器的時脈頻率在達到3GHz左右後便陷入了停滯,熱量的堆積讓電子訊號在銅線中的穿行變得步履維艱。與此同時,Web 2.0時代的降臨引爆了資料流量的指數級增長,資料中心內部那如同迷宮般的電纜互連,正迅速演變為整個計算系統的頻寬瓶頸。世界終於開始意識到,光子整合不再是實驗室裡的“盆景”,而是打破電學極限的一台破壁機。2004年,矽光子學迎來了一個足以被載入史冊的“斯普特尼克時刻”。(因競爭對手在關鍵科技或軍事領域取得突破,導致自身突然意識到落後從而產生巨大危機感與急迫感的特定時刻)在英特爾(Intel)光子學技術實驗室總監馬里奧·帕尼西亞(Mario Paniccia)的帶領下,科研團隊在《Nature》雜誌上宣佈,他們利用MOS電容結構,研製出了世界上首個頻寬突破1Gbps的矽基光調製器。Mario Paniccia這一成果的震撼之處不在於速度本身,而在於它精巧地利用了電場誘導的載流子積累(Carrier Accumulation)來改變折射率,從而實現了對光波相位的高速調控。帕尼西亞向物理界證明,即使沒有昂貴的鈮酸鋰晶體,單憑成熟的CMOS工藝,矽也能像電子開關一樣,精準而快速地“剪斷”或“連接”光束。自此,矽光從學術界的邊緣孤島,正式進入了晶片巨頭的戰略版圖。然而,矽光的版圖上依然缺失著最後、也是最難的一塊拼圖:光源。矽作為間接帶隙材料,其自發輻射效率極低,這一物理詛咒讓矽基雷射器成了領域內的“聖盃”。2006年,一場材料學上的“異質聯姻”化解了這個僵局。加州大學聖塔芭芭拉分校(UCSB)的約翰·鮑爾斯(John Bowers)教授與英特爾團隊合作,通過一種極富創造性的低溫電漿體驅動晶圓鍵合(Wafer Bonding)技術,將能發光的磷化銦(InP)材料像貼瓷磚一樣,在原子級尺度上緊密地結合在SOI襯底上。John Bowers這種混合整合矽基雷射器(Hybrid Silicon Laser)的誕生,標誌著矽光子學完成了從“被動器件”向“主動發射”的跨越。鮑爾斯展示了一種務實而優雅的折中方案:既然無法從基因上改變矽,那就通過特殊的表面活性處理克服晶格失配(Lattice Mismatch),讓矽成為承載複雜光路的“地盤”,而讓III-V族材料作為外來的能量引擎,在同一個矽平台上實現光電共存。在這一技術長征的側翼,商業化的火種也開始在南加州點燃。2001年,由凱里·岡恩(Cary Gunn)等人創立的 Luxtera 公司成立(全球首家無晶圓廠半導體公司)。他們率先意識到,矽光技術的真正威力並不在於單個器件的極限性能,而在於單片整合(Monolithic Integration)所能釋放的系統級潛力。過去,光調製器、光電探測器和 CMOS 驅動電路通常分開製造,再通過手工或有限自動化方式組裝在光模組中,這不僅增加了成本,也限制了性能一致性與產能規模。Luxtera 大膽嘗試了“光電同芯”的理念,在同一塊 SOI(矽上絕緣體)矽片上同時製造高性能光調製器、光電二極體以及複雜的 CMOS 驅動電路,實現了光子器件與電子電路的完美融合。在技術實現上,這一突破面臨多重挑戰。光調製器和光電探測器需要精細控制矽波導的厚度、摻雜濃度和折射率分佈,以實現高效率光訊號傳輸和調製;而 CMOS 電路則要求高摻雜區、電容匹配和互連層設計,工藝溫度和材料選擇與光子器件存在潛在衝突。Luxtera 通過精密工藝設計與多層摻雜調控,使光子器件與 CMOS 電路能夠共存而互不干擾。SOI 平台在其中起到了關鍵作用:其高折射率對比的矽層實現了光的強束縛和低損耗傳輸,同時下方的絕緣襯底支援 CMOS 電路佈局。這種單片整合方案不僅解決了技術難題,也帶來了巨大的規模化生產優勢。傳統光模組依賴手工組裝,良率低、成本高,而 Luxtera 的方法能夠利用成熟的 8 英吋甚至 12 英吋矽晶圓產線批次生產光子–電子整合晶片,保證器件性能一致性,同時顯著降低成本。這使得光模組的價格與電子晶片接近,為大規模資料中心光互連和高速光通訊提供了經濟可行的解決方案。此外,單片整合在系統級上也帶來了顯著優勢:它節省了封裝空間,減少了光路和電路之間的介面損耗,提高了訊號頻寬與穩定性。Luxtera 的嘗試充分證明了矽光技術不僅是一門物理實驗,更是一門極致的成本藝術,通過將光子器件性能潛力與 CMOS 工藝規模化優勢結合,實現了性能、產量與成本的三重最佳化,使傳統手工組裝光模組在競爭力上幾乎無法望其項背。到2000年代末,科學家在矽片上馴服了光子,更重要的是,他們確立了“以電的標準做光”的工業哲學。此時的矽光,已經褪去了實驗室的基礎研究外衣,正蓄勢待發,準備迎接即將到來的、由雲端運算和超大規模資料中心定義的瘋狂十年。2010年代:雲端運算的無底洞與矽光的“黃金爆發期”進入2010年代,矽光子學終於等來了那個它在荒野中苦盼了二十年的“完美風暴”——超大規模資料中心(Hyperscale Data Center)的崛起。隨著亞馬遜AWS、微軟Azure和Google雲的瘋狂擴張,網際網路流量的形態發生了根本性逆轉:曾經主導網路的“南北向流量”(使用者與伺服器之間)逐漸讓位於“東西向流量”(資料中心內部伺服器與伺服器之間)。在一個擁有數十萬台伺服器的機櫃叢林中,每天都有海量的資料需要跨越幾十米到兩公里的距離進行互動。在這個距離區間,傳統的銅線(DAC)在100G速率下面臨嚴重的訊號衰減,傳輸距離被死死限制在幾米以內;而長途電信網中大顯神威的傳統三五族離散光模組,又因為需要大量人工耦合與組裝,成本高昂,根本無法滿足資料中心動輒數以百萬計的採購需求。世界不僅需要光,更需要“廉價、海量、高度一致”的光。這正是矽光子學與生俱來的宿命。此時,曾經在2000年代埋下的技術種子,終於迎來了狂飆突進的商業收割期。2016年前後,英特爾(Intel)祭出了籌備十餘年的殺手鐧——100G PSM4(及其系列)矽光模組。通過將自家的混合整合矽基雷射器與高性能調製器完美打包,英特爾首次向業界證明,矽光不僅能做demo,更能在300毫米(12英吋)的晶圓流水線上,像生產CPU一樣被成千上萬地“復刻”出來。這種規模效應帶來了成本的斷崖式下跌,直接擊穿了資料中心全面引入光互連的價格底線。在那幾年裡,英特爾的矽光模組出貨量以百萬隻計,成為了主導資料中心100G迭代浪潮的絕對霸主。馬里奧·帕尼西亞等人在新世紀初的預言,終於化作了伺服器機架上閃爍的訊號燈。在電子半導體領域大獲成功的“代工廠(Foundry)+ 無晶圓廠(Fabless)”模式,被成功移植到了矽光領域。台積電(TSMC)、格芯(GlobalFoundries)以及Tower Semiconductor等頂級代工廠,開始向業界提供標準化的矽光工藝設計套件(PDK)。這意味著,光子晶片的設計者不再需要自己擁有一座造價百億美元的晶圓廠,只需要像寫程式碼一樣呼叫PDK中的標準光子器件庫,就能將設計圖紙轉化為實實在在的矽光晶片。這一“技術平權”運動催生了一大批耀眼的矽光新星,例如將矽光與相干通訊(Coherent)結合、專攻資料中心互連(DCI)的 Acacia Communications,它們將複雜的數字訊號處理(DSP)與矽光引擎結合,把原本需要一個冰櫃大小的相干光端機,縮小到了一個插拔模組的尺寸。在這一時期,傳統網路裝置巨頭的焦慮與貪婪,更是成為了矽光加冕的終極背書。意識到“得矽光者得天下”的思科(Cisco),揮舞著支票簿開啟了瘋狂的掃貨模式:2012年斥資收購矽光先驅Lightwire,隨後又在2018年以26億美元的驚人天價,將當年堅持“單片整合”路線的矽光元老 Luxtera 收入囊中。這些巨額併購不僅是資本市場的狂歡,更是產業底層的共識——當交換機晶片的吞吐量向著12.8T、25.6T無情攀升時,傳統的插拔式光模組註定會在面板密度和功耗上走向絕路(未來的某個時間)。2010年代末的矽光史,還曾留下過一個名為板載光學(On-Board Optics, OBO)的中間形態。以微軟(Microsoft)主導的COBO(板載光學聯盟)為代表,業界的先驅者們曾試圖推行一種折中方案:將光收發元件從擁擠的前面板拆下,直接“鋪”在交換機主機板上,通過中繼電纜連接到ASIC晶片。從邏輯上看,OBO的設計極具誘惑力。它既縮短了電訊號在PCB上的傳輸距離,降低了功耗,又巧妙地避開了CPO所需的高難度異質封裝技術,維持了供應鏈的獨立性。然而,這一構想在商業實踐中卻遭遇了尷尬的“夾擊”。對於普通的雲端運算廠商而言,插拔式模組通過不斷最佳化DSP演算法和材料工藝,頑強地將100G甚至400G的傳輸壽命延長到了極限,使得OBO的性能優勢顯得並不緊迫;而對於追求極致頻寬的AI算力巨頭而言,OBO節省的那點電學路徑又顯得“隔靴搔癢”,無法徹底解決51.2T時代後的散熱難題。最終,OBO在產業史中扮演了一個悲情的過渡角色。它雖然未能在市場上形成統治地位,但它在工程上驗證了“光電解耦”的可行性,並迫使整個產業鏈開始思考如何處理主機板上的高密度光纖管理。然而,技術的車輪從未停止碾壓。當時間推演至這十年的尾聲,隨著AI大模型概念的暗流湧動,算力網路對I/O頻寬的渴求正在醞釀一場比“雲端運算”更加暴烈的革命,而矽光,即將被迫褪去剛剛穿習慣的“插拔式光模組”外衣,走向它在1990年代就被設想過的終極形態——請看下一段。2020年代至今:AI算力的狂飆與“光電共封裝(CPO)”的終極圖景2020年代,一場由生成式人工智慧(Generative AI)和大語言模型引發的算力革命,以前所未有的暴烈姿態席捲了全球科技界。如果說2010年代的雲端運算資料中心是一個個龐大的“算力無底洞”,那麼如今由數萬張GPU交織而成的智算中心,則是一個個貪婪吞噬資料的“算力黑洞”。在訓練千億參數模型的過程中,數以千計的GPU需要時刻保持同步與參數互動,這種被稱為“全互聯(All-to-All)”的極致通訊模式,讓頻寬的需求不再是按年線性增長,而是以月為單位呈指數級爆炸。800G的速率剛剛商用,1.6T乃至3.2T的呼聲便已響徹矽谷。在這一刻,傳統的物理法則再次逼近了它的極限邊界。在這個算力狂飆的時代,曾經在2010年代立下汗馬功勞的“插拔式矽光模組”遭遇了它的宿命危機。當交換機的總吞吐量向著51.2T甚至更高無情攀升時,一個致命的物理瓶頸暴露無遺:從交換機核心ASIC晶片到機箱前面板的光模組之間,仍然存在著十幾釐米長的銅線PCB走線。在極高頻的電訊號面前,這段曾經微不足道的銅線變成了一片泥濘的沼澤,訊號衰減極其嚴重,不得不依賴大量高功耗的數字訊號處理晶片(DSP)來“搶救”訊號質量。結果是,光模組自身的功耗甚至開始逼近交換晶片本身,整個網路裝置變成了一頭難以散熱的“功耗巨獸”。在這堵全新的“功耗牆”面前,業界痛苦地意識到:光與電的距離,必須被無限拉近。於是,矽光子學迎來了自誕生以來最激進的一次形態剝離與重構——CPO(光電共封裝,Co-Packaged Optics) 時代的全面降臨。這一革新不僅是封裝工藝的升級,更意味著整個資料中心互連系統架構的徹底顛覆。在傳統交換機架構中,高速光模組通過長達數十釐米的 PCB 走線連接 ASIC 晶片,導致訊號在高速 I/O 上產生嚴重衰減,同時功耗高、板面熱量密集,限制了連接埠密度和頻寬擴展。而 CPO 通過將 矽光引擎(Optical Engine)直接封裝在交換機 ASIC 晶片所在的同一塊基板上,實現了光電器件與電子處理器的極限物理靠近,從根本上降低了高速電訊號的傳輸距離,從十幾釐米降至幾毫米。在這種架構下,高頻訊號的 PCB 線路損耗幾乎被消除,使 I/O 功耗降低了約 50%,同時減少了電磁干擾和訊號抖動。光模組不再是可插拔的獨立器件,而是作為 ASIC 的 緊密整合元件 出現在晶片旁邊,這使得光纖與晶片之間的延遲和功耗大幅降低。CPO 中的矽光引擎通常包括調製器、探測器、雷射器介面及必要的光路耦合結構,它們通過高密度微焊或矽基互連技術與 ASIC 電路相連,實現電光轉換的極致效率。工程上,CPO 對封裝和熱設計提出了前所未有的挑戰:需要精確控制晶片間的光學對準、管理高密度光電元件產生的熱量,並確保大規模製造的可靠性。同時,這種設計要求 ASIC 的物理引腳佈局、功率分佈以及 PCB 電源網路都必須重新規劃,以適應光電共封裝的緊湊架構。CPO 的成功意味著連接埠密度、頻寬效率和能效的革命性提升,為 800G、 1.6T 甚至更高的的資料中心高速互連提供了現實可行的工業化方案。總之,在 CPO 架構下,光纖不再是插在裝置外部的“附屬品”,而是直接“長”在晶片旁邊,與 ASIC 電路共同構成資料中心核心互連的高效引擎。更令人心潮澎湃的戰場,正在向計算晶片的最深處蔓延。過去,矽光技術主要聚焦於資料中心交換機或伺服器之間的高速互連,它的使命是替代銅線,實現遠距離、高頻寬、低功耗的資料傳輸。而如今,以 Ayar Labs 為代表的創新企業正在將矽光技術推向計算核心本身,致力於打造 “光學 I/O(Optical I/O)” 架構,將光互連直接嵌入到 GPU、CPU 或 AI 加速晶片的封裝內部。在傳統馮·諾依曼架構下,處理器與高頻寬記憶體(HBM)之間依賴數以千計的微型銅柱(micro-bump)和 PCB 走線進行電訊號傳輸,這種互連不僅受限於線長和電容/阻抗效應,還導致訊號延遲、功耗和熱量顯著增加。光學 I/O 的理念是讓光子直接承擔 GPU 與 GPU、GPU 與 HBM、甚至晶片與晶片之間的資料搬運。電訊號在離開計算核心的瞬間就被轉換為光子,通過矽光波導或光纖以光速在計算叢集中傳輸,隨後在目標封裝內重新轉換為電訊號,實現零延遲、低功耗的高速資料交換。但在技術上,光學 I/O 仍要依賴幾個關鍵創新:矽光整合:在晶片封裝或矽 interposer 上整合調製器、光波導、探測器以及光纖耦合介面,實現超高密度的光子通道。光電轉換器件微型化:調製器和探測器必須在亞毫米等級封裝,同時支援每秒數百 Gb 或 Tb 的光訊號頻寬。熱管理與功耗最佳化:光學器件在計算核心附近工作,必須設計精密的散熱系統,避免影響晶片性能。系統級協議與同步:光學 I/O 需要與 GPU/CPU 的時鐘、快取控制和記憶體控製器緊密配合,確保資料一致性和低延遲。雖然仍有關鍵技術的缺位,光學I/O的應用前景仍然令人振奮:在 AI 超算、分佈式 GPU 叢集或高性能計算(HPC)系統中,光學 I/O 可以大幅度降低 晶片間互連延遲,提升 頻寬密度,同時將系統功耗顯著下降。這意味著,未來的計算系統不再受制於銅線的物理極限,資料在晶片內部和晶片之間的傳輸將以光速完成。結語在2026年3月19日,GTC2026結束之後的今天,這段長達近四十年的科技史形成了一次首尾呼應。1980年代理查德·索雷夫在圖紙上推匯出的電漿體色散公式,1990年代安德魯·瑞克曼試圖在同一枚晶片上融合光與電的孤傲夢想,曾經在漫長的歲月裡被視為不合時宜的先知之語。然而今天,當人工智慧的巨浪試圖突破矽基電子的物理桎梏時,正是當年那些沉澱在微米級SOI波導裡的光,再次帶給人類邁向通用人工智慧(AGI)的希望。算力世界已迫不及待地向矽光子學敞開懷抱,而同行的,還有蓄勢待發的量子計算。那麼,下一個十年,矽光的進化將會如何澎湃,掀起怎樣的算力風暴? (半導體行業觀察)
黃仁勳最新訪談:我們已經實現了 AGI,領導力、心理學、生命、意識、死亡和人性
黃仁勳最新一期 Lex Fridman 播客,2.5 小時深度對話,覆蓋了從晶片設計到人類意識的幾乎所有話題。概要1. CUDA 差點毀了 NVIDIA。 當年把 CUDA 塞進 GeForce 的決定,讓公司成本暴漲 50%,市值從七八十億美元直接跌到 15 億美元。黃仁勳扛了十年才緩過來,但正是這步棋奠定了今天 CUDA 的統治地位。2. 60 個直接匯報,不搞一對一。 黃仁勳的管理團隊超過 60 人,涵蓋 GPU、CPU、光學、記憶體等各領域專家。所有問題都是群體推理,沒有一對一談話,因為 NVIDIA 本質上就是在做「極致協同設計」。3. 四層 Scaling Law。 預訓練、後訓練、測試時推理、Agentic,四層 scaling law 環環相扣。黃仁勳認為,智能的擴展最終只取決於一件事:算力。4. OpenClaw 是 token 的 iPhone。 黃仁勳多次稱 OpenClaw 為「token 的 iPhone」,認為它對 agentic 系統的意義,就像 ChatGPT 之於生成式 AI。5. 「我認為我們已經實現了 AGI。」 按照「建立一家價值 10 億美元以上公司」的標準,黃仁勳認為 AGI 已經到來。當然,讓 10 萬個 Agent 來造一個 NVIDIA,成功率是零。6. 程式設計師會變多。 程式設計的定義正在改變。從 3000 萬程式設計師變成 10 億,因為未來每個木匠、會計、農民都能用自然語言「程式設計」。7. NVIDIA 不搶份額,創造市場。 黃仁勳說 NVIDIA 的挑戰在於「沒有人可以搶份額」,幾乎所有增長都來自全新的市場。8. 與台積電三十年沒簽過合同。 黃仁勳曾被張忠謀邀請擔任台積電 CEO,他婉拒了。三十年來雙方做了數百億美元的生意,沒有一紙合同,全憑信任。9. 智能是大宗商品,人性才是超能力。 黃仁勳團隊裡 60 個人都比他聰明,但他坐在中間協調所有人。他的觀點是:別讓「智能的商品化」帶來焦慮,該被抬高的詞是「humanity」。10. 希望死在崗位上。 黃仁勳不信「接班人計畫」,他的方式是每一天都在把知識、判斷、經驗傳遞給身邊每一個人。下為訪談對話全文:CUDA 賭命Lex:CUDA 最終成了一個極其輝煌的決定。但當時做這個決定的時候,是什麼樣的?黃仁勳:那可能是我做過的最接近「存亡級威脅」的戰略決策了。CUDA 擴大了我們能加速的應用範圍,但問題來了:怎麼吸引開發者?開發者來一個平台,跟技術炫不炫酷沒關係,關鍵是裝機量大。裝機量才是定義一個架構的關鍵,其他都是次要的。沒有那個架構比 x86 挨過更多罵,但它活下來了。同時期那些漂亮的 RISC 架構,反而大多失敗了。我們當時的想法是:GeForce 已經每年賣幾百萬塊了,乾脆把 CUDA 裝進每一塊 GeForce,不管使用者用不用。同時去大學裡推,寫書,開課,培育生態。問題是,CUDA 大幅增加了 GPU 成本。我們當時毛利率只有 35%,成本一下漲了 50%,利潤全被吃掉了。公司市值從七八十億跌到了 15 億。在那個區間裡……扛了很長一段時間,靠著 GeForce 一點一點爬回來。我常說,NVIDIA 是 GeForce 蓋起來的房子。正是 GeForce 把 CUDA 送到了每一個研究者、科學家、學生手裡。Lex:那種存亡時刻,你是怎麼做出這種決定的?黃仁勳:說到底還是好奇心驅動。到了某個時刻,我的推理系統會如此清晰地告訴我「這件事一定會發生」。一旦我在腦海中堅信了,你知道的,你會去 manifest 一個未來,那個未來如此有說服力,不可能不發生。中間會有大量痛苦,但你得相信你所相信的。而我在領導上從不搞那種「年底大改革」。不搞一次性大裁員、大重組、新 logo 什麼的。我學到一樣新東西,會立刻開始跟身邊的人分享。一步一步地塑造每個人的認知體系。等到我真的宣佈「我們要 all in 深度學習」的那一天,其實所有人心裡都在想:你怎麼現在才說。極致協同設計Lex:你把 NVIDIA 推入了一個新時代,從單晶片設計到了整機櫃設計。什麼是極致協同設計(extreme co-design),最難的部分是什麼?黃仁勳:問題已經裝不進一台機器了。你加了 1 萬台電腦,但你希望它快 100 萬倍。這時候你得重構演算法、切分流水線、切分資料、切分模型。一切都會成為瓶頸。這就是 Amdahl 定律的問題:如果計算只佔總工作量的 50%,你就算把計算加速一百萬倍,總體也只快了兩倍。所以我們得把所有技術都用上,CPU、GPU、網路、交換機、電力、冷卻……否則就只能線性擴展,或者靠已經放緩的摩爾定律。Lex:你的團隊有多大?黃仁勳:我的直接匯報有 60 多人。群體推理 vs 傳統管理Lex:那怎麼溝通?黃仁勳:我不搞一對一。我們把一個問題拿出來,所有人一起攻。因為我們在做極致協同設計,公司本身也是在做極致協同設計。就算在討論冷卻方案,做網路的人、做記憶體的人、做電力的人也在旁邊聽著。誰想退出就退出,但如果有人應該參與卻沒參與,我會把他揪過來。Lex:Vera Rubin 的 Pod 是怎樣的規模?黃仁勳:7 種晶片,5 種機架,40 個機架,1.2 千兆個電晶體,將近 2 萬顆 NVIDIA Die,1100 多顆 Rubin GPU,60 exaflops,10 PB/s 的頻寬。這只是一個 Pod。我們大概每周要產出 200 個這樣的 Pod。Lex:這麼複雜,簡潔還是你追求的目標嗎?黃仁勳:我最常說的一句話是:複雜度要剛好夠用,同時儘可能簡單。四層 ScalingLex:你還相信 Scaling Law 嗎?黃仁勳:相信,而且現在有更多 scaling law 了。Lex:你列了四個:預訓練、後訓練、測試時推理、Agentic。你最擔心那個瓶頸?黃仁勳:回頭看看大家以為的瓶頸吧。預訓練階段,Ilya Sutskever 說了句「資料用完了」之類的話,行業慌了,覺得 AI 到頭了。當然這是錯的。我們會繼續擴大訓練資料量,大量資料將是合成的。很多人不理解合成資料,但其實我們教彼此用的大多數資料本來就是「合成的」,它又不是從自然界長出來的,都是人創造的。AI 現在能拿真實資料,增強它,合成生成海量新資料。所以訓練的瓶頸不再是資料,變成了算力。然後是測試時推理。我還記得當時有人說「推理嘛,簡單的,推理晶片可以做得又小又便宜,不用 NVIDIA 那種大傢伙。」這個想法一直讓我覺得不合邏輯。推理就是思考,思考比閱讀難得多。預訓練本質是記憶和泛化,就是在讀。而推理是在想,在做推理、規劃、搜尋、分解問題……怎麼可能……計算量小呢?然後是 Agentic 層。一個 Agent 可以呼叫工具、查資料庫、做研究,最重要的是,它可以生成一大批子 Agent。擴展 NVIDIA 靠招更多員工,比擴展我自己容易多了。所以下一個 scaling law 就是 Agentic Scaling,本質上就是「AI 乘以 AI」。這四層循環下來,智能的擴展最終歸結為一件事:算力。四層 AI Scaling Law 循環OpenClaw 的 iPhone 時刻Lex:從去年 12 月起,人們好像突然覺醒了,Claude Code、Codex、OpenClaw,是不是有什麼特別的事情在發生?黃仁勳:OpenClaw 對 agentic 系統的意義,就像 ChatGPT 之於生成式 AI。它之所以火,是因為普通使用者也能用到了。OpenClaw 就是 token 的 iPhone。它是歷史上增長最快的應用。直線上升。Lex:我得承認,來的路上在機場,我……公開對著筆記型電腦說話程式設計了。挺尷尬的,因為我在假裝跟一個人類同事對話。黃仁勳:未來更可能的情況是,你的 AI 一直在煩你。因為它幹活太快了,一直跟你匯報「搞定了,下一步呢?」以後跟你聊天最多的人,應該就是你的 Claw,或者說你的🦞了。Agent 的安全邊界Lex:安全問題呢?這麼強大的技術,怎麼確保使用者資料安全?黃仁勳:我們立刻派了一批安全專家過去,搞了一個叫 OpenShell 的東西,已經整合進 OpenClaw 了。我們還發佈了 NemoClaw。核心原則是這樣的:agentic 系統有三種能力,訪問敏感資訊、執行程式碼、對外通訊。我們保證任何時刻最多開放其中兩種,但絕不同時開三種。在這兩種能力之內,再加上企業級的存取控制和策略引擎。這樣既能讓 Agent 幹活,又不至於失控。從加速器到計算平台Lex:NVIDIA 是怎麼從一個 GPU 加速器公司,一步步變成計算平台公司的?黃仁勳:加速器的問題在於,應用領域太窄。市場規模決定了你的研發能力,研發能力又決定了你在計算領域能產生多大影響。所以我們得擴大射程,但又不能丟掉專業化。這兩個詞之間有天然的張力:越通用,越不專業;越專業,越不通用。我們得在中間找到一條極窄的路。第一步,我們發明了可程式設計像素著色器。這是走向可程式設計性的第一步。第二步,我們在著色器裡放了 IEEE 相容的 FP32。這一步意義重大,因為之前在 CPU 上跑科學計算的人突然發現:這個 GPU 算力巨大,而且現在符合 IEEE 標準了,我的程式碼可以遷過來。然後是在 FP32 上面放 C 語言,我們叫 Cg。Cg 一路演進到了 CUDA。每一步都是在擴大計算的「光圈」,同時保住最核心的加速能力。一步一步走了十幾年。電力與供應鏈Lex:AI 擴展最大的瓶頸是什麼?黃仁勳:電力是個問題。但也是我們拚命搞極致協同設計的原因,我們要讓每秒每瓦產出的 token 數每年提升一個數量級。過去 10 年摩爾定律讓算力提升了 100 倍,我們提升了 100 萬倍。有一件事我特別想借你的平台呼籲一下。我們的電網,是按最壞情況設計的。 但 99% 的時間都不會出現最壞情況,電網通常只跑到峰值的 60%。剩下的容量就那麼閒著。我想做的是,跟電力公司簽一種新的協議:平時用它們的閒置容量,極端天氣時資料中心自動降功耗。我們可以把工作負載轉移到別的地方,或者讓電腦跑慢一點,少用能源,服務質量降一點點而已。Lex:什麼阻礙了這件事?黃仁勳:三方的問題。終端客戶要求資料中心永遠線上。資料中心營運商的合同談判人員在簽六個九的 SLA,CEO 可能根本不知道。然後電力公司也只提供一種承諾等級。如果三方都調整一下……電網裡就有大量現成的閒置電力可以用,這才是最唾手可得的資源。Lex:供應鏈呢?ASML 的 EUV、台積電的 CoWoS 封裝、SK 海力士的 HBM,這些瓶頸讓你睡不著覺嗎?黃仁勳:我一直在處理。我飛到每一家供應商那裡,跟 CEO 們解釋我們的增長邏輯。幾年前,我說服了幾家 DRAM 公司的 CEO 投資 HBM,當時 HBM 還只用在極少數超算上,聽起來瘋狂得很。又說服他們把手機用的低功耗記憶體適配到超算上。他們都創了 45 年公司歷史的營收記錄。這也是我工作的一部分,去塑造和啟發整個上下游。Lex:你擔心嗎?黃仁勳:不擔心。Lex:為什麼?黃仁勳:因為我告訴了他們我需要什麼,他們理解了,他們告訴我他們會做什麼,我相信他們會做到。馬斯克與 ColossusLex:你怎麼看馬斯克和 xAI 在孟菲斯用 4 個月建成 Colossus 超算這件事?黃仁勳:馬斯克在很多領域都有很深的涉獵,同時他又是一個出色的系統思考者。他質疑一切:第一,這件事有必要嗎?第二,必須這樣做嗎?第三,必須花這麼長時間嗎?他把一切壓縮到不能再少的最低必要量,同時保留了產品所需的全部能力。極度的極簡主義,系統等級的極簡。而且他會親自到現場。有問題,他就去了。「讓我看看問題在那。」當你親自展示出那種緊迫感,所有人都會跟著緊迫起來。Lex:我見過他那些會議。他會跟工程師一起蹲在地上,研究怎麼把線纜插進機架……黃仁勳:對。在 NVIDIA 我們有一個類似的方法論,叫「光速」。這不只是關於速度,它是我對「物理極限在那」的簡稱。每件事我們都要拿來跟光速對比。記憶體速度、算力、功耗、成本、時間、人力、製造周期。先搞清楚物理極限,再去做工程。我不喜歡「持續改進」的思路。別跟我說「現在要 74 天,我們能縮到 72 天」。我寧願從零開始問:「憑第一性原理,最快幾天能搞定?」答案可能是 6 天。剩下的 68 天可能都有道理,是各種妥協和成本最佳化。但至少你知道差距在那。知道了 6 天是可能的,從 74 到 6 的對話就會有效得多。中國是建設者國度Lex:你最近去了中國。中國過去十年是怎麼建立起這麼多世界級科技公司的?黃仁勳:全球大約一半的 AI 研究者是華人,大部分仍在中國。他們的科技行業恰好趕上了移動雲時代,他們的貢獻方式是軟體。這個國家的孩子數學和科學教育極好,對現代軟體相當熟悉。中國不是一個單一經濟體。各省各市的市長們互相競爭,所以才有這麼多電動車公司、這麼多 AI 公司。競爭極其激烈,活下來的都了不起。另外,他們的社會文化是家人第一、朋友第二、公司第三。工程師們的兄弟在那家公司、同學在這家公司,知識傳播極快。他們本質上一直是 open source 的。所以他們對開源社區貢獻大,完全合理,因為他們心想:「我們有什麼好藏的?」這是當今世界創新最快的國家。Lex:而且在中國,做工程師是件挺酷的事。黃仁勳:他們是一個建設者國度。我們國家的領導人都相當出色,但大多是律師。他們的國家是從貧困中建設起來的,所以領導人大多是傑出的工程師。開源與 NemotronLex:NVIDIA 發佈了開放原始碼的 Nemotron 3 Super,120 億參數的 MoE 模型。你對開放原始碼的願景是什麼?黃仁勳:要做好 AI 計算公司,我們必須理解 AI 模型是怎麼演進的。Nemotron 3 有個特別的地方:它不只是純 Transformer,還融合了 SSM(狀態空間模型)。我們很早就在做條件 GAN、漸進式 GAN,一步步走到了擴散模型。在模型架構上做基礎研究,能讓我們看清未來的計算系統該怎麼設計。這也是極致協同設計的一部分。開源有三個層面的原因。第一,我們確實需要世界級的模型作為產品,這些應該是專有的。但同時,我們也希望 AI 擴散到每一個行業、每一個國家、每一個研究者和學生手裡。如果一切都是閉源的,研究和創新就很難在上面展開了。第二,NVIDIA 有規模、有技能、也有動力去持續做這件事。我們能啟動每一個行業加入 AI 革命。第三,AI 遠不只是語言。這些 AI 會使用工具、呼叫子模型,而那些子模型可能是訓練在生物學、化學、物理學、流體力學上的。我們不造車,但我們要確保每家車企都能用上最好的模型。我們不做藥物發現,但我想確保禮來(Eli Lilly)能擁有世界最好的生物 AI 系統。Lex:而且你們是真正的開源,權重、資料、方法全部公開。黃仁勳:對,模型開源,權重開源,資料開源,連怎麼做的都開源了。這一點確實應該被更多人知道。台積電:信任Lex:你跟台積電的關係是什麼樣的?黃仁勳:對台積電最大的誤解是:覺得他們只有技術。好像有人做出了一個一樣好的電晶體,台積電就完了。他們真正了不起的地方,是那套製造管理系統。協調全球幾百家公司動態變化的需求,晶圓啟動、停止、緊急追加,客戶在變、產能在變,整個世界在不斷變化,而他們始終保持高吞吐、高良率、低成本、交付準時。然後是文化。他們同時做到了兩件通常矛盾的事:頂尖的技術前沿和頂尖的客戶服務。最後是信任。三十年,幾百億美元的生意,沒有合同。 這份信任了不起。Lex:2013 年張忠謀邀請你去當台積電 CEO?黃仁勳:是真的。我深感榮幸。張忠謀是我見過的最受尊敬的高管之一,也是我的好朋友。但 NVIDIA 的工作太重要了,我在心中已經看到了 NVIDIA 會變成什麼樣。這是我的責任,唯獨我的責任。所以我婉拒了。不是因為那個機會不夠好。那是一個不可思議的機會。但我沒辦法接受。NVIDIA 的護城河Lex:NVIDIA 最大的護城河是什麼?黃仁勳:CUDA 的裝機量。這是我們最重要的資產。CUDA 不是三個人做成功的,是 43000 人做成功的,加上幾百萬信任我們的開發者。他們把自己的軟體棧建在了 CUDA 上。從開發者的角度想:如果我支援 CUDA,明天它就會快 10 倍,平均只要等半年。而且我的程式碼能跑在幾億台裝置上,每個雲、每個行業、每個國家。我 100% 信任 NVIDIA 會一直維護和改進 CUDA。你把這些加在一起,如果我是開發者,我會 CUDA first。太空裡的 GPULex:你怎麼看在太空建資料中心這個想法?黃仁勳:NVIDIA 的 GPU 其實已經在太空了。我當時知道的時候還挺意外的,本來想高調宣佈一下,給 GPU 穿個小宇航服什麼的。那些衛星上有高解析度成像系統,在持續掃描地球,要做到釐米級的即時遙感。這些資料量是 PB 等級的,沒法全傳回地球。所以 AI 必須在邊緣端就地處理,把不需要的、沒變化的全扔掉,只留關鍵資訊。如果放在極地軌道,24 小時都有太陽能。但太空裡沒有傳導、沒有對流,散熱只能靠輻射。好在太空足夠大,搞幾個巨大的散熱板就行了。Lex:這個想法離落地有多遠?5 年?10 年?黃仁勳:我比較務實。我先去抓眼前最大的機會,同時派工程師去研究太空的問題:怎麼應對輻射?怎麼處理性能退化?怎麼做冗餘和容錯?怎麼讓電腦在太空裡不會壞,只是變慢?但眼下我最想做的事,還是把電網裡那些閒置的電力先用起來。那才是最唾手可得的。Token 工廠Lex:NVIDIA 可能價值 10 兆美元嗎?黃仁勳:讓我解釋一下為什麼 NVIDIA 的增長幾乎是必然的。計算經歷了一次本質變化。過去的電腦本質是一個「倉庫」,我們預先錄製內容,存成檔案,然後用檢索系統找出來。現在 AI 電腦是「工廠」,它即時理解上下文,即時生成 token。倉庫 vs 工廠:計算範式轉變倉庫不怎麼賺錢,工廠的產出直接跟收入掛鉤。而且這個工廠生產的商品,token,正在分層,就像 iPhone 一樣:有免費的 token、有中檔 token、有高級 token。有人願意為每百萬 token 付 1000 美元,這不是「會不會」的問題,只是「什麼時候」的問題。NVIDIA 面臨的挑戰在於想像力。我沒有人可以搶份額。幾乎我們說的所有增長都來自一個尚不存在的市場。外界確實不太容易想像。但我有的是時間,我會持續推理、持續講述,每一次 GTC 都會讓它變得更加真實。遊戲與 DLSS 5Lex:DLSS 5 引起了一些爭議。玩家們擔心遊戲會變成 AI slop(AI 氾濫內容)。你怎麼看?黃仁勳:說實話,我也不喜歡 AI slop。AI 生成的內容越來越多,看起來越來越像,都挺漂亮,但缺少個性。我理解玩家的感受。但 DLSS 5 做的事情不一樣。它是 3D 引導的、地面真實資料約束的。藝術家決定了幾何形狀,我們百分百忠於每一幀的幾何結構。它受紋理約束,受藝術家意圖約束。增強,但不改變。而且因為系統是開放的,你可以訓練自己的模型,未來甚至可以用 prompt 來控制風格:「我要卡通渲染風格」,「我要這種畫風」。所有這些都是為藝術家提供的工具,他們可以選擇用或者不用。玩家們可能以為我們是在遊戲出廠後強行做後處理。但實際上 DLSS 是跟藝術家整合的,是給創作者的 AI 工具。Lex:你覺得史上最偉大的遊戲是那個?黃仁勳:Doom。從文化影響力和行業意義來說,Doom 把 PC 從一個辦公自動化工具變成了一個遊戲裝置,這個轉變的意義太大了。從遊戲技術的角度,我會說 Virtua Fighter。Lex:我個人特別喜歡《上古捲軸:天際》,雖然是很久以前的遊戲了,但一直有人出 Mod……黃仁勳:我們做了 RTX Mod,這是一個 modding 工具,能讓社區把最新的渲染技術注入到老遊戲裡。而且別忘了,GeForce 到今天仍然是我們排名第一的行銷手段。人們在十幾歲的時候就通過玩遊戲認識了 NVIDIA。後來上了大學,開始用 CUDA,再後來用 Blender、用 Autodesk。AGI 已來?Lex:用一個定義來問:一個 AI 系統,能夠建立、發展並營運一家價值超過 10 億美元的科技公司。離這個 AGI 有多遠?黃仁勳:我認為已經實現了。Lex:什麼?黃仁勳:你說的是 10 億美元,而且沒說要永遠經營下去。完全有可能一個 Claude 建立了一個 Web 服務,某個小應用,幾十億人用了一下,每人 50 美分,然後很快就倒閉了。網際網路時代那些爆款網站,大多數都沒有比今天 OpenClaw 能生成的東西更複雜。Lex:你這話會讓很多人激動的。黃仁勳:你去中國看看,已經有一大幫人在教自己的 Claude 去找工作、做活、賺錢了。我不意外某個數字網紅、某個 Tamagotchi 養成類應用突然爆火幾個月然後消失。但讓 10 萬個 Agent 來造一個 NVIDIA……成功率是零。程式設計師會更多Lex:你覺得程式設計師數量會增加還是減少?黃仁勳:會增加。程式設計的定義變了。今天的程式設計就是寫規格說明。多少人能做到「告訴電腦去造什麼」?我覺得我們剛從 3000 萬擴大到了 10 億。未來每一個木匠都是程式設計師。而一個有 AI 的木匠,同時也是建築師。 他能給客戶提供的價值翻了幾倍。每個會計同時也是財務分析師和理財顧問。所有職業都被拉高了。Lex:放射科醫生的例子呢?黃仁勳:AI 研究者最早說會消失的職業就是放射科醫生。電腦視覺確實在 2019、2020 年就超越了人類。但放射科醫生數量反而增加了,現在全球還短缺。因為你搞清楚了,放射科醫生的「目的」是診斷疾病、幫助病人,而不是「看片子」這個任務本身。AI 讓看片子變快了,所以能看更多片子,診斷更多病人,醫院賺更多錢,需要更多放射科醫生。你的工作的目的和你用來做這份工作的工具,是相關的,但不是同一件事。NVIDIA 的軟體工程師也一樣。我要他們解決問題,不在乎他們寫了多少行程式碼。別怕,就去用Lex:很多人對自己的工作有焦慮。黃仁勳:我對焦慮的處理方式,剛才其實已經講過了:分解問題,想清楚那些能做,做了就不焦慮了。如果今天要招一個新畢業生,兩個人選,一個不懂 AI,一個精通 AI,我選後者。木匠、電工、農民、藥劑師,都應該去用 AI,看看它能怎麼提升你的工作。Lex:而且你可以直接問 AI:「我不知道怎麼用 AI。」黃仁勳:對,這就是 AI 最厲害的地方。你沒法走到 Excel 面前說「我不會用 Excel」。你完了。但 AI 會說:「好的,讓我來教你。」領導力與痛苦Lex:你說過你的成功來自比任何人都能吃苦。你怎麼應對這麼大的壓力?黃仁勳:我完全意識到 NVIDIA 的成功對美國的重要性。我們貢獻了大量稅收,建立了技術領先地位,這關乎國家安全的方方面面。我也知道有很多普通投資者,老師、警察,因為買了 NVIDIA 的股票成了百萬富翁。我的應對方式就是分解。發生了什麼?變了什麼?什麼難?我能做什麼?把大問題拆成小塊,然後一個一個解決,或者分配給能解決的人。凡是讓我擔心的事,我都會告訴一個能做點什麼的人。 說出來了,負擔就分攤了。然後就是遺忘。你得學會忘記。不能什麼都記著、什麼都扛著。分解問題、分享負擔、然後忘掉它。這跟頂級運動員一樣。上一分已經過去了,只關心下一分。Lex:你說過如果提前知道有多難就不會創辦 NVIDIA,但……黃仁勳:所有值得做的事情應該都是這樣。有一種超能力叫「孩子心態」。我面對幾乎所有事情的第一反應是:能有多難?沒有人做過,規模巨大,要花幾千億美元。你就這麼想:「能有多難呢?」你不要提前模擬所有的挫折和羞辱。你應該帶著「一切都會順順利利」的心態走進新體驗。等挫折真的來了,它們會讓你意外,但你得有韌性,得能忘掉,得繼續走。只要我對未來的假設沒變,我對輸出的判斷就不會變。那就繼續走。智能與人性Lex:你覺得人類意識中有什麼是晶片永遠無法複製的嗎?黃仁勳:我不確定晶片會不會緊張。AI 可以識別和理解情緒,但我的晶片不會「感受」到那些東西。而那些感受,焦慮、興奮、恐懼,深刻地影響著人的表現。兩個拿到完全相同資訊的人,可能產生截然不同的結果,並非某個演算法不同,純粹是因為「感覺不同」。Lex:那你怎麼看智能這個詞?黃仁勳:智能這個詞被抬得太高了。我身邊 60 個人,每一個在各自領域都比我聰明,他們學歷更高、學校更好、研究更深。但我坐在他們中間,協調所有人。你得問自己:一個洗碗工……憑什麼坐在一群超人類專家的中間?智能是功能性的東西。人性不是。人性是一個大得多的詞。我們的社會把太多東西塞進了「智能」這一個詞裡。但人的一生遠不止一個詞。我的經歷表明,在智能曲線上比身邊所有人都低,並不妨礙你成為最成功的那個。別讓智能的民主化、商品化給你帶來焦慮。你應該受到鼓舞。死在崗位上Lex:你想過自己的死亡嗎?黃仁勳:我真的不想死。我有很好的家庭,很好的生活,還有極其重要的工作。這不是「一生一次」的經歷,因為那暗示很多人都經歷過。這是「人類歷史一次」的經歷。我不相信接班人計畫。這並非因為我覺得自己不朽。如果你真擔心接班,那你現在該做什麼?答案是:每時每刻都在傳遞知識。任何學到的東西,在我桌上停留不超過一秒。我還沒完全消化完,就已經在指給別人看了。我希望的結局是,死在崗位上,最好是瞬間的,沒有漫長的痛苦。Lex:什麼給你希望?黃仁勳:我一直對人類的善良、慷慨和同理心有極大的信心。有時候比應有的還多,偶爾被佔便宜,但這從沒改變過我。期待疾病的終結,是合理的。期待污染大幅減少,是合理的。期待以光速旅行,也是合理的。不是遠距離,是短距離。怎麼實現?我很快就會把一個人形機器人送上太空飛船。它會在飛行途中不斷改進。等時機到了,我的意識,我的收件箱裡的一切,我說過的一切,我做過的一切,都已經上傳到網上了。到時候以光速發過去,追上我的機器人。Lex:這真精彩。理解生物機器,你覺得還要多久?黃仁勳:就在眼前了。大概五年。Lex:然後是人類大腦,理論物理……黃仁勳:解釋意識。那個就太酷了。 (AGI Hunt)
大摩:中國AI GPU縮小與美國的差距(上篇)
大中華區半導體中國AI GPU:不斷縮小與美國的差距高昂的人工智慧資本支出(Capex)和持續的政策支援,催化了中國AI GPU生態系統的發展。在本篇深度研報中,我們引入了一個分析框架,以評估該行業的商業價值、競爭力及整合路徑。AI技術的迅速擴張正推動中國向更高品質的增長模式轉型。去年,我們在藍皮書報告《中國人工智慧:沉睡的巨龍甦醒》(China – AI: The Sleeping Giant Awakens)中,探討了中國AI的發展現狀及其邁向2030年及以後的發展軌跡。在本報告中,我們將聚焦中國AI基礎設施的核心——作為該技術基石的AI晶片——並評估不斷演變的需求前景、晶圓代工供應瓶頸以及塑造該行業的競爭格局。國產AI GPU供應取得重大進展: 在很長一段時間內,中國AI技術的普及並非受制於電力、資料或工程人才,而是受制於美國出口管制下無法獲取先進的AI晶片。中國自2020年起開始研發本土AI GPU,當時獲取海外先進製程技術的管道已十分有限。隨著管控趨嚴,這一窗口在2022年基本關閉,這重塑了(但並未阻斷)中國AI晶片產業的發展處理程序。過去12個月裡,中國在緩解裝置和晶圓代工瓶頸方面取得了有意義的進展。在政策支援下,我們預計到2028年左右,國內的晶圓代工產能和晶片供應將足以滿足國家的核心主權需求。從政策支援邁向商業化可行: 政策支援可以加速產業的早期發展,但長期價值取決於商業競爭力。中國AI GPU供應商必須展現出極具吸引力的經濟效益,才能在2028年之後維持增長。我們的分析表明,在較低的晶片價格、更廉價的電力成本以及不斷完善的基礎設施支撐下,中國AI資料中心的總擁有成本(TCO)有望具備競爭力。對於推理工作負載(inference workloads)而言,單位Token的成本比峰值性能更為重要,這進一步強化了國產替代方案的競爭力。行業與個股影響: 中國的國產化戰略——即通過擴大晶片、晶圓廠和裝置的規模來彌補製程上的劣勢——正持續見效。在樂觀情形(bull case)下,我們假設國產GPU將擴展至訓練工作負載領域,並可能獲得海外採用;在悲觀情形(bear case)下,我們假設產品差異化減弱,從而導致商品化(同質化)和行業整合。雖然我們不對AI GPU個股做出直接評級,但我們對中國AI半導體供應鏈保持建設性(樂觀)態度,包括中芯國際(晶圓代工)、北方華創(裝置)和 ASMPT(先進封裝),並看好AI晶片投資有助於鞏固其戰略地位的中國網際網路平台。關於後者的更多細節,請參閱 Gary Yu 撰寫的中國網際網路報告。關於中國AI GPU的六大核心圖表中國AI GPU:建構本土化的AI計算生態系統致首席資訊官(CIO)的資訊: 中國正通過系統級創新和以成本驅動的推理經濟性(inference economics),迅速縮小與美國在AI算力領域的差距。這一發展軌跡有望使國產AI GPU的自給率達到約76%,並在未來十年內對全球AI半導體的競爭格局產生深遠的重塑作用。致首席執行長(CEO)的資訊: 儘管美國晶片製造商在矽晶圓前沿技術上仍保持領先地位,但中國正加速轉向成本更低、針對推理最佳化的國產AI晶片。這將對全球AI的經濟性帶來中期的競爭壓力,而非在短期內實現技術層面的並駕齊驅。AI技術的快速擴張正推動中國向高品質經濟模式轉型。在去年的藍皮書報告《中國人工智慧:沉睡的巨龍甦醒》(China – AI: The Sleeping Giant Awakens)中,我們探討了中國AI的發展現狀及其邁向2030年及以後的發展軌跡。在本報告中,我們再次回歸AI主題,重點剖析中國AI基礎設施的基石——即支撐該技術的AI晶片——並對需求前景、晶圓代工供應以及競爭格局進行評估。我們分析了中國AI GPU的關鍵需求驅動因素及國內供應鏈的商業可行性,同時評估了本土生產晶片的性能與潛在商業價值。此外,我們還考察了中國全境與AI相關的資本支出(Capex)規模、本土晶圓代工供應的動態,以及塑造該行業的政策支援力度。最後,我們引入了一個框架,用於評估國產AI GPU晶片(即輝達的本土替代方案)的商業價值,並為投資者梳理了如何在長期內評估該行業及相關個股標的的路徑。行業展望:需求強勁、供給改善及同質化風險上升受制於晶圓代工產能的瓶頸,中國AI GPU在2026年和2027年的營收仍將維持“供給主導”的格局。在雲服務提供商(CSP)強勁的商業需求以及不斷增長的主權和政府主導的AI投資支撐下,該市場已進入高速增長階段。基於雲端資本支出(Capex)趨勢及隱含的AI半導體消耗量,我們預計2026年中國AI GPU的總潛在市場規模(TAM)約為500億美元,到2030年將增長至約670億美元。隨著國內晶圓廠產能的擴張和本土裝置能力的提升,國產AI GPU的供應正在快速追趕。我們預計到2027年,本土供應規模有望達到約300億美元,足以覆蓋中國算力總需求的一半以上。鑑於產能限制依然存在,我們預計到2027年之前,該市場將在很大程度上維持供給驅動的特徵。中國的基礎設施優勢縮小了表面上的技術差距在我們的基準情形(base case)下,輝達(NVIDIA)在大規模AI預訓練領域繼續佔據主導地位。中國主要的雲服務提供商處理預訓練工作負載時,依然依賴部署在海外資料中心的輝達伺服器機架。相比之下,國產AI GPU在中國國內的推理工作負載(inference workloads)中正獲得越來越高的市場認可度,因為在這些應用場景中,更低的延遲、資料本地化要求以及成本效益顯得更為重要。中國AI GPU能否充分縮小性能差距以勝任預訓練任務——並最終在出口市場贏得客戶——仍是一個關鍵的長期議題。我們的分析表明,儘管中國在晶片層面仍略落後於美國,但在系統硬體層面已具備廣泛競爭力,並在基礎設施和政策層面擁有優勢。因此,國產AI GPU在推理工作負載方面已經具備競爭力。需要強調的是,僅基於製程節點(process node)的比較會誇大實際的性能差距。當以“每瓦特每美元性能(performance per watt per dollar)”為基準進行評估時,這種差距會大幅縮小,特別是考慮到中國相對較低的利潤率要求和較低的能源成本。這種成本優勢顯著提升了國產替代方案的商業可行性。我們在下文中提供了一個基於此背景的輝達與沐曦(MetaX)GPU的對比案例研究。為了評估這一不斷演變的行業格局,我們引入了一個聚焦於中國AI GPU生態系統商業價值的分析框架。該市場目前有超過10家上市及非上市供應商,涵蓋獨立第三方供應商、內部專屬設計公司(captive design houses)以及國資背景企業。我們對中美AI計算生態系統進行了對比,並從設計能力、系統級性能、晶圓代工產能獲取、戰略合作夥伴關係、政府支援及商業戰略等維度對各供應商進行了評估。我們還應用了我們的全球AI半導體估值框架,為市值、晶圓代工產能隱含營收以及估值倍數提供了參考基準(圖表59)。關於百度崑崙和阿里平頭哥等內部專屬設計公司如何為母公司估值貢獻增量,請參閱我們的中國網際網路分析師 Gary Yu 的相關報告(連結)。聚焦商業價值分析近期的行業動態凸顯了中國AI GPU格局演變的迅速程度,並印證了為何商業價值與技術能力同等重要。幾家領先的中國網際網路平台正在轉向定製化或“合規(within spec)”的推理晶片,這些晶片通常通過設計服務模式並在海外先進的晶圓代工節點上生產。例如,據路透社報導,字節跳動正通過中國設計服務公司芯原股份(VeriSilicon),利用三星的4奈米製程生產其AI推理ASIC晶片。儘管這些解決方案通常針對偏低端的推理工作負載,但仍加劇了獨立GPU供應商面臨的競爭壓力。與此同時,政策訊號表明,可能會允許少量進口輝達的H200晶片,同時可能要求配套支援國產替代方案。這種做法強化了“雙軌制”戰略,而非實施全面替代。同步地,中國主要的大語言模型(LLM)供應商已開始提高Token價格,這改善了AI工作負載的商業化變現能力,並對整個生態系統中AI GPU的長期商業經濟效益形成了支撐。展望未來,行業結構引發了對產品同質化(commoditization)風險的擔憂。包括雲服務提供商和電信營運商在內的大客戶有強烈的動機去扶持至少一家具有國資背景的GPU供應商(如華為),而領先的CSP同時也支援自身內部的或關聯的設計公司(如百度崑崙、阿里平頭哥)。這種動態擠壓了獨立第三方供應商的潛在市場空間,並增加了其規模化發展的難度。隨著晶圓代工產能可能從2027年起擴張,加上AI GPU設計日益成熟,產品的差異化將變得更加困難。因此,我們認為隨著時間的推移,行業利潤率存在下降的風險,且未來兩到三年內行業整合的可能性日益增加。關於中國AI GPU類股的核心爭議上述結論建立在三個相互關聯的核心爭議之上,這些爭議塑造了中國AI GPU生態系統的未來前景。在接下來的部分中,我們將詳細探討這些爭議,以揭示中國AI GPU市場的發展脈絡、國產替代方案在那些領域已具備競爭力,以及那些結構性制約因素依然存在。核心爭議 #1:中國能否大規模供應具備競爭力的AI GPU?第一個爭議聚焦於供給端——即中國能否生產出具備足夠競爭力且能實現規模化量產的AI GPU。中國受益於系統級的工程優勢、基礎設施的快速鋪建以及強有力的政策支援,但在先進晶片設計和前沿製造工藝方面仍面臨挑戰。我們將評估這些優勢與限制因素如何相互交織,本土供需如何演變,以及這將如何影響國產AI GPU的長期競爭力。核心爭議 #2:需求端:中國AI GPU市場的潛在規模有多大?該爭議聚焦於需求端。中國AI GPU市場反映了雙重需求:一是由雲服務提供商和AI應用主導的商業化普及需求,二是與主權戰略優先順序掛鉤的政策驅動需求。我們分析了這些驅動因素的相對權重、政策持續支援國產AI晶片的底層邏輯,以及它們如何轉化為實際的市場規模。通過對本土AI晶片需求的情景分析(基於Gary Yu的預測),我們估算了中國AI GPU市場的潛在規模和增長軌跡。核心爭議 #3:如何評估中國AI GPU的商業價值?該爭議從估值和投資的視角審視該行業。中國AI GPU生態系統包括獨立供應商、國資背景企業,以及隸屬於大型網際網路平台的內部設計公司。我們將這些企業置於全球AI GPU和ASIC的背景下進行定位,勾勒出評估相對市場地位的定性標準,並應用統一的估值框架以幫助投資者權衡整個類股的投資機遇與風險。類股估值——高經營槓桿下的高市銷率(P/S)倍數儘管收入基數小得多且處於盈利的更早期階段,中國AI半導體設計公司的市銷率(P/S)倍數仍顯著高於全球可比同業。寒武紀(688256.SS,未覆蓋): 目前其2026年預期市銷率(P/S)約為32倍,市盈率(P/E)約為96倍;相比之下,其2026年晶圓代工產能隱含營收約為22億美元,市場一致預期營收約為21億美元。儘管其銷售倍數低於部分國內同行,但在經過增長調整後,相對於輝達仍享有明顯的估值溢價,這反映了市場對國內AI市場快速實現國產替代的預期。海光資訊(688041.SS,未覆蓋): 其2026年預期P/S約為94倍,P/E約為1118倍,隱含晶圓代工產能營收約為9億美元。這表明在本土化供應鏈結構下,市場對其捕獲CPU/GPU相關周邊需求抱有極高的期望。沐曦(MetaX,688802.SS,未覆蓋)與摩爾線程(Moore Threads,688795.SS,未覆蓋): 兩者的2026年預期P/S分別約為60倍和139倍,而隱含營收分別僅為約5億美元和3億美元,且尚未實現實質性盈利。在香港上市的壁仞科技(Biren,6082.HK,未覆蓋)和天數智芯(Iluvatar CoreX,9903.HK,未覆蓋): 其2026年預期P/S分別約為37倍和62倍,同樣基於較為有限的隱含營收(約2億至3億美元)。(估算來源請參見圖表11。)類股估值——非上市企業我們綜合使用定性評分卡和定量指標(包括營收規模、市場份額和晶片性能),來評估中國非上市AI GPU供應商的潛在市值。1. 崑崙芯 (Kunlunxin)崑崙芯已將銷售擴展至外部客戶,如中國移動、騰訊及其他的國有企業(SOEs)。我們預估其2025年營收為60億元人民幣(約50%來自外部),並預計在近期新GPU發佈的支撐下,2026年營收將在70億至130億元人民幣之間,代表其在國內GPU行業中佔據高單位數百分比的市場份額(相比之下,華為佔63%,寒武紀佔11%,平頭哥佔高單位數百分比)。我們對崑崙芯的估值為200億至610億美元:提議的分拆與上市是管理層釋放股東價值計畫的一部分,但隨著近期AI晶片的首次公開募股(IPOs),近期的市場情緒有所走強。基於2026年預期市銷率(P/S)20至33倍(較A股上市的寒武紀有0%至40%的折價),我們對崑崙芯的估值為200億至610億美元,假設控股公司(holdco)折價30%,這轉化為百度(BIDU)約60%股權的價值為80億至260億美元。將百度的中端分類加總(SOTP)估值修訂為215美元(原為220美元);高端估值為330美元:我們的215美元中端SOTP估值,將崑崙芯估值為45美元/股(26倍 企業價值/銷售額(EV/S)),AI雲基礎設施(不含崑崙芯)估值為45美元/股(5倍 EV/S),行銷業務估值為44美元/股(6倍 企業價值/息稅前利潤(EV/EBIT));我們330美元的高端SOTP估值,將崑崙芯估值為73美元/股(33倍 EV/S),AI雲基礎設施(不含崑崙芯)估值為62美元/股(7倍 EV/S),文心大模型(Ernie LLM)估值為38美元/股(30倍 EV/S),行銷業務估值為54美元/股(7倍 EV/EBIT)。2. 平頭哥 (T-Head)我們預估其2026年營收為140億至260億元人民幣,其中約一半來自AI GPU晶片,其餘來自CPU。我們預計平頭哥將在2026年至2030年間躋身國內第一梯隊GPU供應商,佔據高單位數百分比的市場份額(與崑崙芯類似),相比之下,華為為63%,寒武紀為11%。我們對平頭哥的估值為280億至860億美元:鑑於平頭哥一直以來保持低調、公開披露有限,且長期專注於內部供應,此次潛在的分拆令人感到意外。我們預計分拆後外部銷售將會加速增長。在需求端和供給端,支援依然強勁:阿里雲繼續驅動龐大的訓練與推理需求,並不斷增加產能供應。基於20至33倍的市銷率(P/S)(較寒武紀有0%至40%的折價),並應用於140億至260億元人民幣的營收區間(CPU + GPU),我們得出了280億至860億美元的估值區間。假設控股公司(holdco)折價30%,這轉化為阿里巴巴(BABA)分類加總(SOTP)估值中的12至36美元/股。我們對關鍵行業風險的情景分析我們概述了中國國內AI晶片市場的三個情景,這些情景由出口管制、國內製造的進展以及替代激勵機制之間的相互作用所驅動。基準情形——在持續受限下取得漸進式進展 先進AI晶片的海外流片(tape out)依然受限,限制了獲取前沿晶圓代工服務的管道。中芯國際繼續擴張國內產能,但在美國出口管制下,獲取關鍵晶圓製造裝置的管道受限,制約了先進製程節點的進展。輝達H200對中國的出口依然有限,無論是因為美國法規,還是中國方面的採購和政策考量。在此背景下,政府對國內計算基礎設施的持續支援推動了對本土生產的AI加速器的需求,並在性能差距持續存在的情況下,支撐了國內供應商的銷量增長。樂觀情形——國內能力加速提升與替代加速 國內AI晶片供應狀況實質性改善。通過替代性安排,或中芯國際在良率和製程穩定性上取得有意義的突破,獲取前沿晶圓代工服務(如台積電或三星)的管道得到改善;同時,本土裝置供應商的進展緩解了關鍵的製造瓶頸。對美國先進AI加速器出口的持續限制強化了對國產解決方案的需求,並促使生態系統在設計、製造和系統整合方面更快地走向成熟。悲觀情形——國內供應疲軟與替代壓力減輕 對晶圓製造裝置的限制進一步收緊,實質性地制約了先進製程節點的產能擴張,並推遲了製程改進。與此同時,對輝達H200的出口管制放鬆,或中國重新獲得更先進AI加速器的管道,從而降低了國產替代的緊迫性。對EDA(電子設計自動化)工具的額外限制制約了本土設計公司的架構升級,並進一步削弱了國產AI加速器產品的競爭力。關鍵爭議#1:中國能否大規模供應具備競爭力的AI GPU?市場觀點: 在比較中美AI晶片時,全球投資者往往只關注晶圓工藝——例如,台積電4奈米的輝達GPU與中芯國際12奈米的沐曦(MetaX)GPU的對比。基於此,他們通常得出結論,認為中國的AI晶片無法與之競爭。我們的觀點: “每瓦每美元性能”的評估框架顯著縮小了這一差距,特別是因為能耗(瓦特)因素在中國的權重較低。在我們對沐曦與輝達的案例研究中,按每瓦每美元性能衡量,沐曦C600的表現與輝達A100相當。隨著沐曦推出C700,我們認為它能夠在AI推理領域與輝達的H200相抗衡。然而,從長遠來看,我們認為市場對中國在某些裝置瓶頸上取得突破的預期過於樂觀。例如,我們認為在未來五年內,中國晶圓廠將繼續依賴阿斯麥(ASML)的DUV光刻機進行多重曝光(multiple patterning),這與部分市場預期(即中國能夠研發自有光刻裝置)截然相反。需監測的指標: 1)先進製程節點的晶圓月產能(wpm)及良率提升情況;2)叢集規模的穩定性改善;3)本土軟體及類CUDA生態系統的進展。我們可能出錯的地方(潛在風險): 1)良率提升進展慢於預期;2)裝置瓶頸持續的時間更長;3)軟體生態系統的規模化擴展比最初預期的更為複雜。大規模晶片製造面臨的障礙為了評估中國能否大規模供應具備競爭力的AI GPU並切實滿足市場需求,我們從AI半導體價值鏈的供給側——特別是晶圓代工產能——開始分析。在這一層面上,規模擴張不僅取決於名義產能的增加,還取決於關鍵上游要素的可用性與成熟度。因此,一系列供應瓶頸繼續影響著整個AI GPU價值鏈的最終產出。這些限制在晶圓前道裝置(WFE)和電子設計自動化(EDA)領域表現得最為明顯。在中芯國際產能擴張的背景下,幾個關鍵的半導體裝置瓶頸——例如外延裝置——目前已基本能由北方華創(Naura)、中微公司(AMEC)和新凱來(SiCarrier)等本土WFE供應商解決。然而,我們看到在光刻和檢測工具方面仍存在持續的限制。在光刻機方面,中國在2025年進口了大量阿斯麥(ASML)DUV系統,以防範未來潛在的限制。同時,我們的行業調研表明,中芯國際先進製程晶圓廠(特別是中芯南方)在科磊(KLA)檢測和量測工具方面的受限,推高了裝置利用率並導致檢測步驟減少,晶圓廠僅能專注於最關鍵的層級。雖然這種方法保障了產能產出(吞吐量),但可能以犧牲良率為代價,這進一步凸顯了國內先進製程製造所面臨的結構性挑戰。EDA是中國擴大先進製程產能的另一個關鍵制約因素。2025年,中國最大的EDA供應商華大九天(Empyrean Technology)按營收計算僅佔全球約1-2%的市場份額。迄今為止,華大九天尚未提供全流程數字IC EDA套件,更不用說支援先進製程節點GPU設計的工具了。相比之下,楷登電子(Cadence)、新思科技(Synopsys)和西門子EDA(Siemens EDA)在2025年合計佔據了全球80%以上的市場份額。美國政府對華實施了嚴格的EDA軟體出口管制,特別針對全環繞柵極(GAA)電晶體架構所需的工具。這些限制旨在阻礙中國開發先進的3奈米和2奈米晶片,而這些晶片對於高性能計算和AI至關重要。如果本土EDA能力無法迎頭趕上,且現行出口管制維持不變,本土AI晶片設計公司將很難向3奈米和2奈米節點遷移。中芯國際的擴張轉移了——但並未消除——晶片供應瓶頸儘管晶圓前道裝置(WFE)的限制構成了中國先進製程雄心的上游制約因素,但其下游影響日益顯現在晶圓代工層面。工具可用性、工藝成熟度以及產能吞吐量的侷限,實際上已將中國的先進製程產能集中於一家佔據主導地位的供應商。這種動態將供應瓶頸從裝置獲取轉移到了晶圓代工的執行與產能分配上。因此,中芯國際(SMIC)已成為擴大本土AI GPU生產規模的實質性“咽喉”所在。根據我們的行業調研,幾家本土AI晶片供應商已將製造環節遷回中國大陸,試圖在本土先進製程節點(如N+2的7奈米和N+1的12奈米)上流片AI加速器,以利用本土產能並緩解外部限制。目前,中國的先進製程產能仍高度集中在中芯南方,該公司已通過使用DUV光刻機進行多重曝光,將工藝技術延伸至N+2,並有可能延伸至N+3(約5奈米)。我們預計,中芯國際的N+2晶圓月產能(wpm)在2025年約為2.2萬片,2026年(預期)約為4萬片,2027年(預期)約為5.1萬片。然而,考慮到同樣嚴重依賴N+2級節點的智慧型手機和汽車SoC(系統級晶片)的持續需求,我們預計這些產能不會完全分配給本土AI處理器的生產。面對這些制約因素,一些AI GPU供應商選擇在N+1節點上製造加速器。我們認為,這一選擇反映了在產能可用性、流片成功率、製造穩定性以及成本控制方面所做出的務實妥協。相較於更先進的節點,N+1提供了更好的良率特徵和更成熟的供應鏈,從而在工藝受限的情況下仍能實現量產。然而,基於N+1節點的產品在計算密度和能效方面仍處於結構性劣勢,使其更適合AI推理及其他對功耗和成本敏感的工作負載,而非大規模訓練。應對晶圓工藝制約的戰略性舉措如上所述,中芯國際的產能擴張只能部分緩解中國的晶圓工藝瓶頸。在獲取先進製程節點受到結構性制約的情況下,本土AI晶片供應商和雲服務提供商(CSP)日益將焦點從直接縮小工藝差距,轉向通過系統級和架構層面的戰略來彌補單裸片(per die)性能較弱的劣勢。儘管中芯國際在N+2節點上取得了實質性進展,但與在4奈米或3奈米節點上製造的海外加速器相比,國產AI加速器在計算性能和能效方面仍處於結構性劣勢。我們認為,即使7奈米工藝得到廣泛應用,也無法在晶圓層面完全消除這一差距。鑑於能源供應在中國並不構成硬性約束,戰略重心已轉向提高絕對計算密度和系統級性能,而非每瓦能效。我們將中國AI晶片供應商和CSP當前的主流應對策略歸納為三大類:1)“如果單個計算裸片不夠強大,就把更多裸片封裝進同一塊晶片中。”由於製造技術和晶片設計的侷限性,國產AI加速器的計算能力仍大幅低於輝達及部分海外ASIC解決方案。在某些情況下,隨著獲取海外先進製程節點的管道受限,計算性能甚至出現了下降。例如,據報導,昇騰(Ascend)950PR的計算性能比其上一代產品910C低約38%。在此背景下,供應商採用了先進封裝和多裸片配置,以在單個封裝內擴展算力。這種方法在不需要獲取更先進製程節點的情況下,部分抵消了單裸片性能較弱的問題。雖然它未能完全消除與海外領先產品的差距,但已切實提升了絕對計算性能。2)“如果單塊晶片不夠強大,就建構更大的機架和叢集。”在系統層面,我們觀察到本土AI晶片供應商和CSP正越來越多地採用縱向擴展(scale-up)架構,這從輝達的NVL72設計中汲取了靈感。傳統的AI伺服器配置通常在每台伺服器中部署4或8個加速器,多節點擴展嚴重依賴伺服器間的網路連線,這可能會引入通訊瓶頸。NVL72標誌著一種轉變,即在單一系統內實現72個加速器的全互聯(all-to-all interconnect),從而顯著提升了GPU到GPU的頻寬和機架級性能。中國企業正在推行類似的縱向擴展戰略,包括華為的CloudMatrix 384、阿里巴巴基於PPU的機架解決方案,以及字節跳動的單機架256加速器設計,旨在克服單晶片的侷限性,提升機架級性能。3)“如果一家晶圓廠產能不足,就擴大製造產能。”第三項應對策略的核心是在現有工藝制約下擴大產能。中國的先進邏輯晶圓代工廠繼續進行激進的投資。中芯國際在2023年、2024年和2025年的資本支出分別達到了約75億美元、73億美元和81億美元,佔其營收的比例大幅提升。在2025年下半年,中國還加速了DUV光刻裝置的採購,從荷蘭的進口量同比急劇上升。我們認為,這些裝置的交付支撐了中期內先進製程產能的擴張,但不太可能消除與海外晶圓廠之間根本的工藝差距。網路與機架級設計彌補了晶圓工藝制約 即便在7奈米工藝上取得了進展,中國在晶圓層面縮小AI算力差距的能力依然受到結構性制約。因此,性能差異化的焦點已日益從單晶片算力轉向系統級架構,特別是網路互聯和機架級設計。面對晶圓工藝的制約,中國在系統級設計方面取得了切實的進展,特別是在光網路和伺服器機架架構方面。在去年的上海世界人工智慧大會(WAIC)(參見我們的報告《上海WAIC主要啟示》)上,我們觀察到了華為昇騰(Ascend)CloudMatrix 384的原型機,它展示了國內企業如何通過激進的縱向擴展(scale-up)和光互聯設計,來彌補單晶片算力較弱的問題。展望未來,在下一代昇騰平台(Atlas 950)中,華為聲稱其SuperPod架構最高可擴展至8,192顆晶片。在處理器層面,昇騰950PR和升級後的950DT預計將實現高達2TB/s的AI處理器間互聯頻寬,紙面資料超過了輝達NVLink第五代(Gen5)1.8TB/s的規格。單從原始規格來看,華為的互聯頻寬目前已超越NVLink Gen5。更均衡的算網配比(compute to networking ratios)。 我們觀察到海外AI晶片(例如輝達的Blackwell系列)的原始算力出現了急劇增長,但網路性能並未實現相應的階躍式提升。我們認為,這種分化很大程度上受制於電互連的物理極限,而光互連雖然前景廣闊,但尚未在大規模應用中證明具備足夠的穩定性。因此,在實際部署中,基於輝達的最先進系統可能會面臨算力未被充分利用的時期,空閒周期正日益成為軟體和調度層面的挑戰,而非純粹的硬體制約。相比之下,國內AI平台在網路能力方面實現了快速提升。雖然絕對計算性能仍落後於全球前沿水平,但從算網配比的角度來看,系統配置顯得更為均衡。在橫向擴展(scale-out)和以推理為主的重度部署場景中,儘管單晶片性能較弱,這種均衡性可能會減少系統層面的結構性低效。核心爭議 #2:需求端:中國AI GPU市場的潛在規模有多大?市場觀點:市場共識預期,領先的雲服務提供商(CSP,如阿里巴巴、騰訊、字節跳動)將繼續增加與AI相關的資本支出(Capex),以支援模型訓練和推理部署。在這一觀點下,政府的政策支援是本土AI GPU普及的主要驅動力。我們的觀點:我們採用情景分析法,將圍繞供需和地緣的風險納入對中國AI GPU市場的預測中。我們預計,到2030年總潛在市場規模將達到670億美元,其增長更多由推理而非訓練驅動,並將佔到屆時雲端總資本支出的約51%。我們預計國產AI晶片營收將從2024年的60億美元增長至2030年的510億美元(復合年增長率達42%),自給率將從33%提升至76%。除了政策支援外,我們認為本土AI晶片的商業價值是更為持久和可持續的需求驅動力。需要監測的指標:1) CSP雲端資本支出增長;2) 月度Token吞吐量增長;3) 國產AI晶片的平均售價(ASP)趨勢及分配訊號。我們可能判斷有誤之處:1) 地緣政治降溫使得獲取美國先進GPU的管道得以改善;2) AI商業化變現表現不及預期,導致資本支出增長慢於預期。中國AI晶片需求要評估中國AI GPU需求的持久性與規模,區分其潛在驅動因素至關重要。在我們看來,對國產AI晶片的需求取決於兩股力量:一是對技術自立自強的結構性推動;二是在消費者和企業端應用場景中,AI部署所帶來的日益重要的商業回報。應對美國晶片限制的自立自強。 中國將AI視為事關國家與經濟安全的戰略性領域。。。這段不展開了。如下圖所示,中國本土的AI晶片設計公司與先進製程晶圓代工供應商形成了一種共生關係。一方面,國產AI加速器供應商需要獲取產能並實現製程節點迭代,因為AI晶片通常需要經歷兩到三代製程的演進才能達到具備競爭力的性能。另一方面,本土先進製程晶圓代廠需要錨定客戶(anchor customers)及規模效應,以支撐其持續的投資。商業回報作為中國AI晶片市場的第二大主要驅動力。 儘管自立自強催化了早期的投資,但持續的AI相關資本支出最終需要可證明的商業回報,尤其是隨著支出規模的擴大以及利用率成為核心制約因素。因此,中國的AI發展路徑日益強調具有成本效益的創新以及能夠帶來可衡量商業回報的應用。中國主要的科技公司正步入正軌,有望在2026年將與AI相關的資本支出同比增長38%,達到5970億元人民幣,這反映了在廣告、消費者端(2C)及企業端(2B)應用場景中已被證明的商業化變現潛力。在我們看來,消費者端和企業端應用中由AI驅動的提升所帶來的總回報可能是巨大的。在扣除折舊、電力和伺服器租賃成本後,預計到2028年有望實現盈虧平衡,到2030年利潤率可能達到約50%(更多細節請見此處)。在政策支援與商業回報改善的雙重驅動下,中國AI GPU的需求集中在少數大型買家群體手中,其資本支出(Capex)決策最終決定了可觸達市場的規模。第一類群體由中國的雲服務提供商(CSP)構成——包括字節跳動、阿里巴巴和騰訊——這些企業採購AI晶片,既用於訓練自身專有模型並運行推理,也用於為外部雲客戶部署AI基礎設施。第二類群體包括中國的電信營運商、國有企業及地方政府——即所謂的“主權AI買家”——其需求主要由國家AI基礎設施建設、資料主權以及公共部門的應用驅動。AI初創企業(如DeepSeek、MiniMax)及汽車整車廠(如小鵬、小米)同樣採購AI晶片,儘管目前的採購量仍低於前兩類群體。我們預測,到2030年,中國AI晶片的總潛在市場規模(TAM)將達到670億美元,這意味著2024至2030年間的復合年增長率(CAGR)將達到23%。我們的估算基於主要CSP、電信營運商、政府與國企買家以及其他AI相關企業的雲端運算資本支出總額。我們預計,到2030年,中國雲端運算資本支出總額將達到1300億美元,其中AI GPU將佔據670億美元,約佔雲端運算總資本支出的51%。我們的預測基於以下幾項假設:1. CSP海外資料中心佔比下降。我們估計,2025年中國CSP雲端運算資本支出中約有40%投向了海外資料中心,用於大語言模型的預訓練,這反映了國內獲取先進GPU受限的現狀。我們預計,從2026年(預期)起,在本土AI晶片性能提升與供應增加,以及算力需求向推理端轉移的共同推動下,這一比例將降至30%左右。2. 伺服器支出佔比保持在雲端運算總資本支出的90%左右。3. AI加速伺服器佔伺服器總量的比例,將從2025年(預期)的75%上升至2030年(預期)的85%。4. AI加速器元件價值佔AI加速伺服器總價值的80%。基於上述假設,我們預測中國AI晶片的總潛在市場規模(TAM)將從2024年的190億美元增長至2030年的670億美元,2024至2030年間的復合年增長率(CAGR)將達到23%。本土化勢將支撐需求隨著中國AI GPU市場規模不斷擴大,關鍵問題不僅在於需求能變得多大,還在於這些需求最終流向何方。我們認為,持續的地緣政治風險將AI晶片需求鎖定在本土,使本土化成為中國AI GPU市場的結構性特徵,而非對出口管制的暫時性應對。減少對美國技術的依賴: 儘管在單晶片層面,中國的AI晶片仍落後美國約1.5至2代,但系統級性能差距正在持續縮小,這進一步強化了AI基礎設施部署本土化的動力。我們預計,在未來四年內,受晶片封裝(中國本土的2.5D和3D封裝)、架構縱向擴展(光網路)以及軟硬體協同最佳化的驅動,而非單純依靠工藝節點微縮,這一差距將縮小至約1代。中國還在減少供華晶片對台積電(TSMC)的依賴,轉而採用中芯國際(SMIC)的N+2和N+3節點,以及三星部分符合規格的設計。儘管在韓國儲存晶片(HBM)、歐洲光刻裝置(DUV)以及美國檢測裝置(KLA明場檢測)等方面仍存在一定的依賴,但我們最新的行業調研表明,本土在其中一些領域正在取得進展。在大多數地區,商業和主權買家對AI晶片的需求,既可以通過美國供應商滿足,也可以通過台積電代工的定製設計來滿足。然而,自2023年10月以來,美國工業和安全域(BIS)的規定限制了美國供應商向中國出售晶片技術的發展水平。這些限制包括對14奈米FinFET裝置、3奈米GAA EDA工具的限制,以及對性能密度和總性能等性能指標的限制。美國當局在2025年初進一步收緊了這些管制。來自外國晶片供應商的激烈競爭意味著,中國需要政策支援以推動本土AI GPU的發展。本土晶圓廠也需要具備競爭力的AI晶片供應商來實現規模化、提高良率並降低成本。因此,在規模擴張階段,政府的支援錨定了供應的形成與國內需求,包括鼓勵本土化應用,以及協調如中芯國際7奈米生產等稀缺的先進製程產能。基準情形綜合我們的供需分析,我們勾勒出中國AI晶片自給率的基準情形發展軌跡。我們預計中國的AI晶片自給率將從2024年的33%上升至2030年(預期)的76%。我們預計先進製程產能的擴張和晶片性能的持續提升將推動本土AI晶片營收的增長。我們的核心假設如下:先進製程產能顯著擴張。 在強勁的資本支出投資以及矽鍺(SiGe)外延等本土裝置技術突破的支撐下,我們預計中國的先進製程晶圓月產能(wpm)將從2025年的8千片增至2028年的4.2萬片,並於2030年達到5萬片。生產良率顯著提升。 在更優質的檢測工具和不斷積累的操作經驗驅動下,我們預計中國AI晶片的生產良率將從2025年的約20%提升至2030年的約50%。產能分配依然由政策驅動。由於先進製程產能具備稀缺性,其分配很大程度上由政府機構決定。我們認為華為獲得的分配額度最高,其次是寒武紀(Cambricon)和海光(Hygon),而二線和三線AI晶片設計公司各自獲得的產能可能不到總產能的10%。海外晶圓廠供應“合規(within spec)”晶片。 我們預計三星等海外晶圓廠將為崑崙芯和字節跳動等本土設計公司流片符合規格要求的AI晶片。基於這些假設,我們預計中國本土AI晶片營收將從2024年的60億美元增至2030年(預期)的510億美元,2024至2030年的復合年增長率(CAGR)達到42%,同時我們預計AI晶片自給率將從2024年的33%提升至2030年(預期)的76%。我們在出口管制、本土製造進展以及替代激勵機制的相互作用驅動下,概述了中國本土AI晶片前景面臨的三種情景。關鍵爭議#3:我們該如何評估中國AI GPU的商業價值?市場觀點: 市場共識將政策驅動的替代視為本土AI GPU應用的主要驅動力。在這種觀點下,供應商的估值通常錨定於從輝達手中奪取市場份額的假設,以及對市場結構分散化的預期。我們的觀點: 我們認為,AI晶片的商業價值最終將決定各家供應商的長期營收和市值。儘管政府支援和雲服務提供商(CSP)的內部自研戰略依然重要,但我們預計市場領導地位將由產品競爭力和執行力來塑造。因此,我們結合定性因素(包括晶圓代工獲取能力、客戶關係、政策支援和技術方向)以及定量指標(如TPS(每秒生成Token數)、每瓦性能和每瓦每美元性能)來評估供應商。我們還密切監控不斷湧現的新發佈的晶片規格。隨著時間的推移,我們預計中國AI GPU市場將趨於整合,隨著產品差異化縮小和規模經濟佔據主導,利潤率壓力將會增加。需監測的指標: 1)新晶片規格;2)向主要客戶(如CSP)的出貨量爬坡情況;3)平均售價(ASP)趨勢及毛利率軌跡。我們可能出錯的地方(潛在風險): 1)本土AI GPU供應商未能獲得先進製程晶圓代工廠的產能;2)CSP採用國產AI晶片的意願低於預期;3)AI計算範式的顛覆性轉變(例如,模型架構或工作負載特徵的根本性改變)降低了基於TPS的性能比較的相關性。識別長期贏家的分析框架潛在的贏家能夠將系統級競爭力轉化為大規模的商業應用。在實踐中,供應商需要具備四大特質:(1)具備競爭力的推理經濟效益;(2)可靠的先進製程節點產能獲取管道;(3)深厚的CSP合作關係;(4)與政策導向保持一致。如果供應商缺失其中一項或多項特質,即使他們發佈了強悍的規格資料,也很難維持其市場份額和利潤率。我們採用雙層分析框架:第一層 —— 定量的推理經濟效益我們側重於驅動大規模應用的、以推理為核心的指標,包括單Token成本和總擁有成本(TCO)、TPS(每秒Token數),以及每瓦和每美元性能。我們認為,要維持領導地位,必須在這兩個層面上都具備實力。第二層 —— 定性的市場定位我們評估獲取先進製程產能的管道、CSP合作關係的深度、政策契合度,以及技術路線圖的可信度。聚焦推理端:本土供應商持續追趕持續存在的生態系統與工藝制約因素,限制了國產加速器在先進基礎模型大規模訓練領域的定位。因此,我們預計近期的部署將集中在大語言模型(LLM)推理而非訓練上。這一重心與需求趨勢相符。DeepSeek、Doubao和Qwen(通義千問)等國產基礎模型,已將每日Token消耗量推高至10兆以上,驅動了推理需求的結構性上升。與此同時,輝達的A100以及部分已安裝的H100和H800越來越多地用於服務訓練工作負載。因此,我們預計中國的推理算力——儘管目前仍以輝達H20為基本盤——隨著時間的推移將更加依賴國產加速器。為了比較各家供應商的推理競爭力,我們採用每秒生成Token數(TPS)這一指標。TPS反映了硬體能力(計算吞吐量、記憶體頻寬、互連)以及軟體和模型的假設。我們以DeepSeek R1作為國產大語言模型的代表,以反映真實的推理部署場景。輝達在2025年第一季度公佈了其H200在DeepSeek R1推理下的官方TPS資料。在採用相同的Token長度和資料格式假設下,我們獨立推算的估計值與輝達公佈的結果基本一致,這印證了我們建模方法的可靠性。(Port Selected)
🎯AI算力暴增10倍!真正賺翻的不是GPU,而是這4家公司!Line@連結:https://lin.ee/mua8YUP🎯如果你以為AI只是ChatGPT寫寫文章、機器人跳舞那你可能完全看錯戰場真正的AI戰爭,其實只有兩個字:速度想像一下AI晶片就像一顆法拉利引擎而整個系統能不能跑得動關鍵不是引擎,而是車架在半導體世界裡這個車架就是:IC載板現在問題來了AI晶片越做越大、算力越來越狂傳統電路板根本,載不動這些怪獸級晶片於是,一場新的產業大行情正在發生:載板市場,從供過於求→直接翻轉成供不應求而台股,正好有四個最大贏家第一個:3037欣興AI載板盟主。NVIDIA Blackwell、CSP自研AI晶片很多都躺在欣興的載板上更誇張的是客戶為了搶產能直接簽3~7年長約,還先付錢電子業很少看到這種事意思只有一個:未來幾年訂單已經排滿第二個:4958臻鼎-KY很多人還停留在「蘋果供應鏈」但現在它的AI營收占比已經從8%衝到70%而且公司直接砸下1000億資本支出企業只有在一種情況會這樣做:訂單多到不敢不擴產第三個:8046南電它不是現在最紅的但可能是獲利彈性最大的一個關鍵原因只有一個:材料缺貨T-glass短缺讓載板廠有機會直接調漲價格法人圈預估:ABF與BT載板 ASP可能年增20~30%第四個:3189景碩很多人只盯GPU但AI真正吃算力的是:HBM記憶體而景碩正好卡在這個位置ABF吃AI晶片BT吃DDR5記憶體雙引擎一起推結論很簡單:AI時代不是只看GPU真正的關鍵是能不能「載得動」GPU而載板產業正在進入一場新的軍備競賽🔴接下來我們會在粉絲團持續幫大家鎖定+追蹤,若還不知道該如何操作?那建議你務必要鎖定江江在Line @,將有更進一步的訊息給大家了解。https://lin.ee/mua8YUP🔴想了解還未起漲的市場主流,同步了解大盤多空轉折點及學習預測技術分析,江江YT節目都會持續追蹤+預告。https://reurl.cc/02drMk********************************************************有持股問題或想要飆股→請加入Line:https://lin.ee/mua8YUP江江的Youtube【點股成金】解盤:https://reurl.cc/02drMk*********************************************************(本公司所推薦分析之個別有價證券 無不當之財務利益關係以往之績效不保證未來獲利 投資人應獨立判斷 審慎評估並自負投資風險)
AI性能暴增35倍!輝達發佈全新LPU,GPU不再是唯一主角!
當地時間3月16日,輝達GTC 2026正式美國加州聖何塞召開。輝達創始人兼首席執行長黃仁勳身披標誌性皮衣登場,在長達兩個半小時的主題演講中,勾勒出這家算力巨頭從“晶片公司”向“AI基礎設施工廠”全面蛻變的宏偉藍圖。面對市場對業績持續性的高度關注,黃仁勳給出了極為強勁的預期:到2027年,輝達新一代AI晶片的累計營收將正式跨入1兆美元時代。這一數字是他去年預測的兩倍。本次演講的一大重點,當屬備受期待的Vera Rubin AI工廠平台。與以往發佈單晶片不同,黃仁勳此次展示的是一個包含7款全新晶片的“全家桶”系統。他強調:“過去提到Hopper,我會舉起一塊晶片,那很可愛。但提到Vera Rubin,大家想到的是整個系統。”這一系統級平台的核心元件包括:Vera CPU:全球首款專為“AI智能體時代”與“強化學習”設計的處理器。它搭載88個自研“Olympus”核心,性能較傳統CPU快50%,能效提升達2倍。黃仁勳將其比作智能體系統背後的“指揮與調度中心”,負責管理海量並行任務。Rubin GPU:與Vera CPU通過NVLink-C2C技術實現1.8TB/s的驚人互聯頻寬,共同構成強大的算力核心。NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU以及帶同包光學器件的Spectrum-X可擴展交換機:構成了一套完整的超高速互聯、網路與資料處理基礎,確保資料在AI工廠內高效流轉。黃仁勳展示了基於這些元件建構的Vera Rubin NVL72機架,它整合了72顆Rubin GPU和36顆Vera CPU。相比上代Blackwell平台,訓練大型混合專家模型所需GPU數量僅為其四分之一,推理吞吐量/瓦特提升高達10倍。他驕傲地宣稱,通過極致的軟硬體協同設計,在短短兩年內,輝達將1GW資料中心內的Token生成速率提升了350倍。特別值得重點介紹的是,黃仁勳展示Vera Rubin平台的“全家桶”時,還推出了一款看似小巧卻極具戰略意義的晶片——Groq 3語言處理單元(LPU)。這款源自輝達去年12月以約200億美元收購Groq核心技術資產的晶片,被黃仁勳定位為Rubin GPU的“推理協處理器”,成為了Vera Rubin平台的又一基石。黃仁勳解釋了引入LPU的戰略考量時指出:在AI智能體時代,推理需求正加速分化。面對需要極高互動性、超短響應時間的任務,傳統GPU架構存在性能冗餘。為此,輝達引入了專注於“極致低延遲Token生成”的LPU架構。本文將深入解析Groq 3 LPU的技術細節、混合推理架構以及它對AI推理市場的深遠影響。一、技術顛覆:打造150TB/s的SRAM怪獸Groq 3 LPU最引人注目的特點,在於其徹底顛覆了傳統AI加速器的記憶體架構。1、500MB片上SRAM:頻寬的極致追求與大多數依賴HBM(高頻寬記憶體)作為工作記憶體層的AI加速器不同,每個Groq 3 LPU晶片整合了500MB的片上SRAM(靜態隨機存取儲存器)。這種記憶體此前主要用於CPU和GPU的超快取記憶體,從未在AI加速器中擔當主角。這500MB SRAM看似“微不足道”——與每個Rubin GPU上容量高達288GB的HBM4相比,僅為其1/500。但SRAM的關鍵優勢在於頻寬:這塊SRAM可提供高達150TB/s的頻寬,而HBM4的頻寬僅為22TB/s。這意味著,對於頻寬極度敏感的AI解碼操作,Groq 3 LPU的頻寬是傳統HBM的近7倍。輝達超大規模計算副總裁Ian Buck對此解釋道:“讓我們對比一下這兩種處理器:GPU擁有288GB記憶體,但頻寬是22TB/s;LPU只有1/500的容量,但頻寬達到了驚人的150TB/s。對於需要極致低延遲的token生成任務,LPU的頻寬優勢無可替代。”基於此晶片的Groq 3 LPX機架配備256顆LPU,提供128GB片上SRAM和640TB/s總頻寬。黃仁勳描繪了GPU與LPU協同工作的未來圖景:Vera Rubin負責需要海量計算的“預填充”階段,而Groq LPU則負責對延遲極度敏感的“解碼”階段。在這種混合架構下,系統的推理吞吐量與功耗比最高可提升35倍。他建議企業客戶,若工作負載包含大量高價值的Token生成需求,應將25%的資料中心規模配置給Groq。據悉,由三星代工的Groq LP30晶片已進入量產,預計今年第三季度出貨。2、三星代工:黃仁勳現場致謝在GTC主題演講中,黃仁勳特別提到三星電子,感謝其為輝達加快生產Groq 3 LPU晶片。這是輝達首次公開確認三星晶圓代工部門參與下一代AI晶片生產。“三星為輝達生產Groq 3 LPU晶片,並正在加快生產速度,我非常感謝三星。”黃仁勳在演講中表示。他進一步透露,該晶片將於2026年第三季度正式出貨。這一合作標誌著三星與輝達的夥伴關係從儲存領域(HBM)正式擴展到晶圓代工領域。三星電子當天在GTC大會現場展出了第七代HBM產品“HBM4E”和垂直堆疊晶片“核心裸片”,積極宣傳其在儲存和代工領域的雙重合作。3、技術代價:容量與成本的博弈SRAM的優勢背後是殘酷的工程權衡。SRAM的生產成本遠高於DRAM,且佔用更大的晶片面積。這導致單個Groq 3 LPU僅能提供500MB記憶體,遠不足以獨立運行兆參數等級的超大AI模型。輝達的解決方案是:用數量彌補容量。公司將256顆Groq 3 LPU整合到一個Groq 3 LPX機架中,提供128GB的片上SRAM和40 PB/s的推理加速頻寬。該機架採用液冷設計,通過每個機架640TB/s的專用擴展介面將晶片互聯。Ian Buck坦承這種設計的侷限性:“你需要很多晶片才能獲得那種性能。從每晶片的token吞吐量(經濟性)來看,LPU其實相當低。”二、混合架構:GPU+LPU如何協同工作?既然LPU有容量短板,輝達為何要大費周章將其納入Rubin平台?答案在於推理任務的分工協作。1、預填充階段 vs. 解碼階段大語言模型的推理過程可分為兩個階段:預填充階段:處理輸入提示(prompt),平行計算所有輸入token,生成中間狀態。這一階段需要強大的浮點運算能力和大容量記憶體來儲存鍵值快取。解碼階段:逐個生成輸出token,每一步都依賴於之前生成的token。這一階段對延遲極度敏感,且受記憶體頻寬限制嚴重。輝達的策略是:讓Rubin GPU負責預填充階段,讓Groq LPU負責解碼階段。具體來說,在輝達新引入的Dynamo軟體框架協調下:Rubin GPU利用其288GB HBM4和強大的浮點運算能力,處理複雜的注意力機制(Attention)計算和數學運算,儲存大型鍵值快取Groq LPU利用其150TB/s的超高頻寬,處理前饋神經網路(FFN)層計算,實現極低延遲的逐token生成2、智能體間通訊:從100 token/s到1500 token/s隨著AI從單一大模型走向多智能體系統(multi-agent systems),推理延遲的要求發生了根本性變化。Ian Buck描繪了這樣的未來場景:在多智能體系統中,AI代理越來越多地與其他AI進行互動,而非與查看聊天窗口的人類交流。對人類而言看似合理的每秒100 token生成速率,對AI代理來說卻如同蝸牛爬行。Buck表示:“Rubin GPU和Groq LPU的組合將人工智慧代理間通訊的吞吐量從每秒100個token提升到每秒1500個token甚至更高。”3、35倍性能提升:資料背後的工程奇蹟根據輝達官方基準測試,當運行達到1兆參數規模的大語言模型時,Rubin GPU與Groq LPU組合相比上代方案,推理吞吐量每瓦特提升高達35倍。具體到成本層面,輝達強調,這一組合方案運行超大AI模型時,每百萬token的成本為45美元,每秒token處理量達到500。輝達聲稱,這將使超大AI模型服務的創收機會增加10倍。三、戰略意義:輝達為何需要LPU?1、填補推理市場的短板分析認為,“通過結合Rubin GPU和Groq LPX,輝達終於進入了推理市場——一個它從未成為第一的市場。”長期以來,輝達的GPU在訓練市場佔據絕對主導,但在低延遲推理領域,面臨著Cerebras、Groq(收購前)等挑戰者的競爭。Cerebras的晶圓級引擎同樣整合了大量SRAM,為先進模型提供低延遲推理,甚至吸引了OpenAI等大客戶。收購Groq技術並將其整合到Rubin平台,是輝達對競爭者的直接回應。正如Ian Buck所說,公司希望“通過這兩種處理器的結合,走向多智能體未來”。2、生態系統相容:無需修改CUDA對於現有輝達客戶而言,引入Groq LPU的一個重要優勢是軟體相容性。Groq 3 LPX機架與Rubin平台的結合“無需修改現有的NVIDIA CUDA軟體生態系統”。這意味著,企業客戶可以在不重寫程式碼的前提下,通過增加LPU機架來顯著提升推理性能。3、競爭格局:誰將受益?Tom's Hardware分析指出,Groq 3 LPU的加入可能降低Rubin CPX推理加速器的作用。Buck暗示,公司目前專注於將Groq 3 LPX機架與Rubin整合,因為兩者都旨在提供相似的推理性能增強,而LPU不需要每個Rubin CPX模組所需的大量GDDR7記憶體。在客戶層面,PCMag預測,最大的AI公司——包括OpenAI、Anthropic、Meta——將成為這項技術的首批採用者。這意味著,未來你的聊天機器人查詢或圖像生成請求,可能正由Rubin GPU和Groq LPU協同處理。四、小結:推理時代的新範式Groq 3 LPU的發佈,標誌著輝達對AI計算的理解進入新階段。當行業還在爭論“記憶體容量vs記憶體頻寬”孰輕孰重時,輝達給出了一個務實答案:全都要,但分工協作。Rubin GPU負責需要大容量記憶體和複雜計算的預填充階段,Groq LPU負責需要極致低延遲的解碼階段。兩者通過NVLink和Spectrum-X高速互聯,在Dynamo軟體框架的調度下,如同一台電腦般協同工作。對於企業客戶而言,黃仁勳的建議很明確:如果你的工作負載包含大量需要高互動性的token生成任務,應考慮將資料中心的一部分規模配置給Groq LPU。在智能體AI成為行業下一個“拐點”的當下,這種混合架構可能是保持競爭力的關鍵。而對於三星而言,拿下Groq 3 LPU的代工訂單,標誌著其在AI晶片供應鏈中的地位從“儲存供應商”升級為“全面製造夥伴”。正如黃仁勳所言:“謝謝三星。”這句話背後,是AI算力生態日益複雜的分工與合作。 (芯智訊)
手機巨頭接連漲價,儲存瘋漲下的破局之道在那?
一場由儲存晶片供需失衡引發的手機漲價潮,正快速蔓延到整個手機行業。3月16日上午,vivo宣佈,自3月18日起,將對包含子品牌iQOO在內的部分機型上調價格。近期行業動作頻頻。早在今年2月,三星發佈Galaxy S26系列時,相比上一代已漲價1000元。緊隨其後,OPPO和一加宣佈對部分已開售機型漲價;榮耀Magic V6雖然守住了8999元的起售價,但16GB高記憶體版本也漲價近千元。小米高管更是早就預警記憶體危機。雷軍近期直言,記憶體漲價讓小米手機和相關業務的壓力很大,正想各種辦法消化成本壓力。盧偉冰則表示,對記憶體漲價的判斷是將持續到2027年底,這在以前的歷史上從來沒有過,整個消費電子行業都將受很大影響。從手機到電腦、遊戲機甚至儲存卡,只要是涉及儲存晶片的電子產品,幾乎都有一定程度價格上浮。而面對洶湧而來的漲價潮,vivo、OPPO等手機廠商提前公示調價資訊的做法,為使用者提供了決策緩衝期,也給行業提供了一定的參考與趨勢判斷。儲存晶片的瘋漲,幾乎可以用價格曲線失控來形容。過去一年間,手機、電腦核心元器件DRAM(運行記憶體)和NAND快閃記憶體的採購成本普遍上漲超過80%,部分LPDDR5X移動記憶體的漲幅甚至突破了120%。市場調研機構IDC的資料顯示,記憶體佔智慧型手機成本的比例已從過去的10%-15%猛增到20%以上,中低端機型逼近30%,部分千元機甚至已陷入負毛利區間。AI對儲存的爆發式需求增長,是這場記憶體危機的“蝴蝶翅膀”。過去兩年,隨著大模型訓練和推理需求迅速增長,全球科技公司開始大規模建設AI資料中心。支撐這些算力基礎設施運行的,不僅是GPU,還有大量HBM(高頻寬記憶體)。與普通DRAM不同,HBM需要更複雜的堆疊封裝技術,其製造過程中對晶圓的消耗量是普通DRAM的3至4倍,而其利潤是普通消費級記憶體晶片的數十倍甚至上百倍。在利潤驅使下,三星、SK海力士、美光等國際儲存巨頭紛紛將產能向HBM等領域傾斜。觀察者網最近從國際半導體組織SEMI瞭解到,2026年全球HBM市場規模將增長高達60%。而從供需來看,HBM的缺口仍然有50%-60%,三星、SK海力士和美光正在將70%的新增及可調配產能傾斜至HBM。令行業倍感焦慮的是,新建儲存工廠從宣佈建設到正式投產至少需要兩年時間,最快可能也要到2027年下半年才能釋放有效產能。這意味著,在未來相當長一段時間內,手機廠商仍將面臨儲存成本高位波動的壓力。市場調研機構Counterpoint預計,2026年第二季度,移動級LPDDR4/5的價格將達到2025年第三季度水平的近三倍,手機行業全面且持續的漲價已在所難免。以vivo在售的X300和X300 Pro為例,全系標配了LPDDR5X Ultra頂規運存,記憶體成本原本就是當前在售旗艦中的最高水平,因此本次極大機率會同步進行價格調整。更值得關注的是後續機型,根據行業趨勢預測,受頂規記憶體成本持續上漲影響,即將發佈的vivo X300s起售價極有可能突破5000元大關。而對於被稱為“影像機皇”的vivo X300 Ultra而言,成本壓力可能更為顯著。結合已曝出的雙2億像素超高規格配置,以及電影級視訊能力,預計其最高記憶體版本的發佈價或許會突破萬元(不含增距鏡配件)。主動提價顯然並非手機廠商的意願,更像是成本翻倍後的無奈之舉,也是上游成本傳導的必然結果。但站在更宏觀的視角看,這場記憶體危機對國產手機而言,也是挑戰和機遇並存。在過去那種“性價比”至上的紅海競爭中,廠商們往往陷入參數內卷和價格廝殺的泥潭,微薄的利潤空間難以支撐真正的技術突破。而這一次,儲存瘋漲帶來的成本重壓,雖然會淘汰一批抗風險能力弱的選手,卻也在倒逼有實力的廠商加速轉型,從單純的價格競爭,轉向創新實力與品牌能力的深層較量。歷經多年發展,頭部手機廠商早已建構了各自的護城河。比如華為在晶片設計、系統生態等領域建構了極深的垂直整合能力和供應鏈掌控力、小米在“人車家”全生態上同時發力、vivo則在影像賽道深耕使用者場景……這種由“規模擴張”向“價值導向”的轉變,是行業邁向高品質發展的關鍵。當成本普漲不可避免,驅動使用者買單的最大動力將不再是“誰更便宜”,而是“誰更懂我的需求”,而這恰恰是強者展示功力的契機。這個時候手機廠商唯有堅守使用者導向,鍛造創新能力,才能為使用者創造更多價值,這對有實力的手機廠商反而是機遇。對於消費者而言,面對洶湧的漲價浪潮,購買策略也很關鍵。2026年手機廠商可能出現多輪調價,當前仍處於相對難得的“低價”窗口期。對於計畫換機的使用者,儘早購買或許比等待降價更為理性。上游成本仍在攀升,下游終端價格易漲難跌,早入手不僅能規避後續的漲價風險,也能更早享受技術進步帶來的體驗升級。歸根結底,這次記憶體危機對整個手機行業更像是一次壓力測試,它宣告了廉價硬體時代的漸行漸遠,但也打開了邁向高水平競爭的更大空間。國產手機將在這場極限測試中得到淬煉,積累更多穿越周期的韌性,未來有望為消費者帶來更多有價值的產品。 (觀察者網)
【GTC 2026】輝達號稱將實現10年一百萬倍的路徑光追性能
相比 GTX 10……在最近舉行的 GDC2026 全球遊戲開發者大會上,輝達副總裁 John Spitzer 開啟了一場震撼圖形界的演講。他正式宣佈,輝達未來的 GPU 架構(或許為 2027 年推出的 Rubin)將實現相對於 10 年前 Pascal 架構GTX 10 系列高達 1,000,000 倍的路徑追蹤性能飛躍。這一驚人數字的背後,並非依靠矽片性能的暴力增長,而是依靠演算法創新與 AI 技術的深度融合。Spitzer 在演講中坦言:“摩爾定律已經死了。”他認為,在人類有生之年,單純依靠半導體工藝實現 100 倍的算力提升已無可能。回顧過去十年,從 GTX 10 系列的軟體模擬光追,到如今擁有第四代 RT Core、第三代 Tensor Core 以及 DLSS 4.5 的 Blackwell 顯示卡,路徑追蹤性能已經實現了 10,000 倍的增長。這就是我們於 2016 年 4 月推出的 GTX 10 系列 (Pascal) 產品,幾乎正好是 10 年前。 如果你看看今天只有一個軟體 RT 核心的性能,我們有第四代 RT 核心,我們有第三代 Tensor 核心,我們有 DLSS 4.5,它能夠推斷渲染的 24 個像素中的 23 個。——輝達副總裁 John Spitzer其中,DLSS 4.5 已經能夠做到在每 24 個像素中僅原生渲染 1 個,其餘 23 個像素全部由 AI 推理生成。這種“ multiplicative(乘法級)”的增長模式,將是輝達衝擊百萬倍性能目標的關鍵。為了讓遊戲畫面達到電影級的真實感,輝達還展示了兩項全新的光追黑科技:ReSTIR 演算法和 RTX Mega Geometry。前者被譽為目前最精準的光線傳輸模擬技術,能夠完美處理複雜的鏡面反射與全域照明;後者則將在《巫師 4》中首發,配合不透明微型貼圖(OMOs)技術,能高效處理海量植被搖曳時的光影遮擋細節。本月晚些時候,輝達將上線 DLSS 4.5 的“MFG 6X”動態模式。GDC 會場現場演示中,該模式能生成多達 6 倍的補幀,且在不同解析度間切換時絲滑順暢,毫無頓挫感。隨著《生化危機:安魂曲》、《控制:共振》以及《巫師 4》等一大批路徑追蹤大作的定檔,輝達正在向業界證明:原生渲染的時代正在落幕,AI 神經渲染將接過接力棒。正如 Spitzer 所言,路徑追蹤已成為衡量現代遊戲渲染水平的金標準。個人認為圖形學的歷史,其實就是一部“視覺欺騙”的進化史,從最早的貼圖到後來的延遲渲染,再到現在的 DLSS 神經渲染,電腦從來沒有真正試圖去“還原物理世界”,而是在嘗試用最少的算力,騙過人類的眼睛。所以,只要能夠完全解決/最佳化掉拖影、延遲等問題,是什麼渲染方式,有在乎的必要嗎? (AMP實驗室)
🎯廣達、鴻海、緯創營收噴發股價卻不動?因為你盯錯重點了!Line@連結:https://lin.ee/mua8YUP🎯很多人最近都在問我一個問題:為什麼AI伺服器營收狂飆,股價卻不太動?答案其實很殘酷。AI最大瓶頸,已經不是算力,而是「資料傳輸」想像一下AI伺服器就像一間超大廚房GPU是廚師資料是食材如果食材送不進來你找再多廚師都沒用現在全球AI資料中心遇到的,就是這個問題GPU算力爆衝但網路頻寬追不上所以最近市場開始瘋狂討論一個新關鍵字:CPO(共封裝光學)這不是新題材這是AI下一個基礎建設台股其實早就排好隊了:3081聯亞:磊晶雷射3163波若威:光纖配線4979華星光:光模組6442光聖:雲端客戶供應鏈3363上詮:FAU光耦合但還有爆發斜率的,很多人還沒發現。那就是:4977眾達-KY、2455全新💎先講4977眾達:如果說博通是CPO的王者那眾達就是他的「禁衛軍」兩家公司合作的51.2T CPO架構直接把資料中心功耗砍掉65%這是什麼概念?像Google、OpenAI一年電費幾十億美元省電=省幾十億而CPO有一個最恐怖的結構:ELSFP外部雷射一台設備可能需要32顆雷射1→32的營收槓桿這就是為什麼法人圈已經在看:2026量產、2027大爆發💎再講2455全新:如果眾達是「燈泡組裝」那全新就是做「燈絲材料」以前市場只把它當手機PA廠現在完全不是全新的AI光電子毛利率直接超過50%兩個關鍵武器:1. 1.6T檢光器(PD)已打進美系大廠供應鏈2026 出貨放量2.高功率CW Laser磊晶AI資料中心需要超強光源市場預估2028年全球需要7000萬顆雷射頭所以公司最近在做一件事:狂買MOCVD機台產能62台→67台還在找第三廠製造業只有一種情況會這樣做:訂單多到爆🔴接下來我們會在粉絲團持續幫大家鎖定+追蹤,若還不知道該如何操作?那建議你務必要鎖定江江在Line @,將有更進一步的訊息給大家了解。https://lin.ee/mua8YUP🔴想了解還未起漲的市場主流,同步了解大盤多空轉折點及學習預測技術分析,江江YT節目都會持續追蹤+預告。https://reurl.cc/02drMk********************************************************有持股問題或想要飆股→請加入Line:https://lin.ee/mua8YUP江江的Youtube【點股成金】解盤:https://reurl.cc/02drMk*********************************************************(本公司所推薦分析之個別有價證券 無不當之財務利益關係以往之績效不保證未來獲利 投資人應獨立判斷 審慎評估並自負投資風險)