#輝達晶片
輝達對“晶片指數”罕見折價13%:伯恩斯坦稱處於10年“第一百分位”
一、“折價13%”到底在比什麼:相對估值的含義先把可以被核實的數字攤開。伯恩斯坦分析師 Stacy Rasgon 在最新研報中指出,按遠期市盈率(forward P/E)計算,輝達當前相對費城半導體指數(PHLX Semiconductor Index,簡稱 SOX)大約有 13% 的折價,而且這一相對估值水平落在過去 10 年的第 1 百分位——也就是說,在過去十年裡,只有 13 個交易日 輝達相對 SOX 比現在更“便宜”。這裡有兩個關鍵點:比的不是“絕對估值”,而是 輝達的估值 / SOX 整體的估值;用的是“遠期市盈率”,即基於未來 12 個月盈利預期的 P/E,而不是歷史 P/E。SOX 是一個覆蓋美國主要半導體公司的指數,成分股包括輝達、AMD、美光、博通等。對很多機構資金而言,“我買 SOX 還是買 NVDA”是一個真實存在的選擇題:如果單買輝達的估值長期比指數貴很多,資金更可能通過買指數來享受整個類股;當龍頭反而相對折價,主動加倉單股的動力就會增加。因此,“13% 折價 + 第一百分位”,傳遞的資訊不是“輝達跌慘了”,而是:在 AI 龍頭這條賽道里,它相對同業的溢價被明顯壓縮了。二、表面不便宜、歷史卻偏低:伯恩斯坦怎麼看“25倍”這件事如果只看絕對數,輝達目前大約 不到 25 倍的 12 個月遠期市盈率,乍一看並不“便宜”——標普 500 指數當前的遠期 P/E 大概在 20 倍上下。伯恩斯坦的說法更精細一些:把輝達過去 10 年的遠期 P/E 做一個分佈,25 倍附近落在第 11 百分位;換句話說,在過去十年,有接近 90% 的時間,這家公司是以 更貴 的估值在交易。這就解釋了一個容易混淆的點:從全市場角度看,25 倍不算白菜價;但從輝達自己的歷史來看,25 倍屬於 “這家公司過去很少這麼便宜” 的區間。伯恩斯坦還補了一句頗具爭議的統計:過去十年裡,只要輝達的遠期 P/E 跌到 25 倍以下,之後一年持有的平均回報超過 150%,而且沒有出現過負收益的樣本。這當然是典型的“回測敘事”:它告訴你歷史上在類似估值買入的結果,但不能保證未來照抄。更謹慎的解讀方式是:當前的估值區間,在這家公司的歷史語境裡,屬於風險回報比相對友好的檔位。三、為什麼會出現“漲了但跑輸”的局面:情緒與預期在變如果只看年初到現在的股價,輝達 2025 年迄今仍然 上漲了約 30% 出頭,但 SOX 指數漲幅超過 40%,輝達實際是 “漲了但跑輸”。同時,自 7 月以來股價基本橫盤,和 2023 年那種單邊上行相比,節奏明顯不同。公開報導和券商評論裡,比較常見的幾類擔憂是:AI 資本開支會不會“見頂”?雲廠商、網際網路大廠在 2023–2024 年大舉投入 GPU 資料中心,外界開始擔心:當第一波基礎設施鋪設接近尾聲,後續預算是否會放緩。競爭與自研晶片的威脅AMD 在資料中心 GPU 上的追趕,以及大型雲廠商自研 AI 加速晶片(如 TPU 等),常被拿來討論“輝達的壁壘到底有多厚”。對華出口與監管的不確定性美國對向中國出口高端 AI 晶片的限制反覆調整,最近又傳出對先進 H200/HX 系列對華銷售啟動審查的新消息;國會裡也有進一步收緊高端 GPU 出口的提案。“AI 投入能不能算得過帳”不少機構開始算帳:花在算力上的每一美元,能不能換回足夠清晰的商業回報?如果下遊客戶的回報率被證明沒有想像中高,上游晶片廠的估值溢價也會被重新評估。這些擔憂不一定都成立,但會直接作用在估值上:當大家對 未來盈利增速 的預期更謹慎,而股價在前兩年已經透支了很多樂觀,最自然的結果就是——股價橫著走,估值慢慢往下修。輝達這次“相對折價+估值分位下探”,本質上就是 “預期降溫” 與 “盈利仍在” 之間的拉扯。四、伯恩斯坦的邏輯鏈:低相對估值為何“往往預示更好回報”回到這份研報本身,伯恩斯坦的邏輯大致可以拆成三層:第一層:當前估值罕見偏低。相對 SOX 折價約 13%,處在 10 年第一百分位;遠期 P/E 不到 25 倍,在自身 10 年歷史裡處在 第 11 百分位。第二層:歷史經驗支援在這個區間買入。在過去十年、類似估值水平下買入輝達,一年後平均回報超過 150%,沒有出現負收益;相對 SOX 折價明顯時,之後的相對回報也往往優於類股。第三層:基本面仍在,折價更多來自情緒與風險溢價。公司剛剛交出創紀錄的季度營收(年化數百億美元),AI 資料中心晶片仍是行業絕對龍頭;2026 年的 Rubin 平台、GTC 大會等被視作潛在催化劑;在他看來,市場現在更像是在給“AI 周期可能放緩”的風險打折,而不是在否定輝達的長期增長軌跡。這是 分析師視角下的邏輯鏈,也有它的邊界:回測樣本只有 10 年,期間輝達從“成長股”一路進化成“平台級龍頭”,未來是否還會複製同樣的斜率,沒人能保證;當前環境裡,多了地緣政治、出口管制、能源與電力供給等新變數,這些在歷史樣本中並不充分;多數機構回測只統計“區間內買入、持有一年”的平均結果,並不能告訴你中途會經歷多大波動。更穩妥的理解方式是:伯恩斯坦在強調“性價比改善”,而不是承諾“必然大漲”。五、真正該盯的三類變數:產品周期、需求強度、政策約束對於關心這家公司但又不想被短期情緒牽著走的讀者,更實用的做法是找一套“觀察框架”,而不是糾結於某一個目標價。結合公開資訊和主流討論,接下來幾件事情值得持續關注(以下屬於基於事實的推理與整理,不構成投資建議):1. 產品與技術周期Rubin 等下一代平台的性能、功耗與軟體生態,會決定輝達在 2026–2027 年的技術領先幅度;GTC 等技術大會上,輝達如何講新的產品路線圖、如何把 GPU、網路、軟體與服務打包,會影響市場對“它到底是一家晶片公司還是基礎設施公司”的認知。2. 需求與客戶預算的持續性大型雲廠商、網際網路公司、AI 創業公司在資料中心算力上的預算強度,會決定 GPU 出貨和價格的天花板;更細一點,可以關注:傳統企業、政府與科研機構是否開始成為新的需求來源,而不是只有“AI 大廠”在買。3. 政策與出口管制的約束美國對向中國等市場出口高端 AI 晶片的審批與限制,仍在不斷調整;一方面有放鬆 H200 等晶片銷售的決定,另一方面也有國會推動更嚴格封堵的聲音;類似騰訊通過日本雲服務使用高端 GPU 的“監管縫隙”案例,也在倒逼政策進一步收緊。這些都會影響輝達在中國乃至全球的需求分佈。這三類變數合在一起,才構成輝達未來兩三年盈利與估值的真正底層——估值只是表盤,產品、需求和政策才是齒輪。 (視界的剖析)
輝達能攔住李廠長嗎?
“最佳銷售”黃仁勳終於看到了冰山消融的可能:就在昨天,美國總統川普通過其社交媒體宣佈,經過與中方的溝通,美國將允許晶片巨頭輝達向中國的“經過批准的客戶”出口其先進的AI晶片H200。川普在文章中提到,此舉將為美國帶來就業和製造業的增強,並提及中方將為此支付25%的額外費用。A輝達CEO黃仁勳曾在10月公開表示,在美國實施嚴格的出口管制之前,輝達的高端AI晶片在中國市場佔據主導地位,市場份額超過95%。從A100到H100,這些晶片是中國各大網際網路公司、科研機構訓練大模型的核心引擎。然而出口管制政策實施後,輝達在華市場份額從95%驟降至接近0%。2025年三季度,其在華AI晶片銷售額佔總營收不足0.1%。崑崙芯等國產廠商開始迅速填補這個空缺。IDC資料顯示,2024年中國自主研發的AI晶片在國內市場的份額已攀升至30%,2025年預計將突破50%。H200獲准進入中國市場的消息,給市場帶來了震動。雖然輝達最新的旗艦產品是基於Blackwell架構的B200系列,但H200依然是一款高性能晶片。它基於成熟的Hopper架構,擁有與旗艦H100相同的989 TFLOPS的FP16/BF16半精度浮點算力,整合了約16896個CUDA核心和528個第四代Tensor Core。其最大的亮點是配備了高達141GB的HBM3e高頻寬記憶體,記憶體頻寬達到驚人的每秒4.8TB,這甚至超過了H100的80GB HBM3記憶體和3.35TB/s的頻寬。對於需要處理兆參數、消耗海量視訊記憶體的大模型訓練任務而言,更大的記憶體容量和頻寬意味著可以容納更大的模型、使用更大的批次進行訓練,從而顯著提升效率。事實上,H200的回歸並非意味著輝達能完全重奪中國市場。第一個難題就是高昂的價格。按照單顆H200售價約4萬美元計算,25%的抽成意味著每顆晶片需要額外支付1萬美元。這使得H200的實際採購成本遠高於此前的H100,也高於國產同類產品。其次是配額限制。銷售僅限於“經批准的客戶”,並由美國商務部進行審查。這意味著大量中小企業和被列入實體清單的機構無法獲得採購資格,而這恰恰是國產晶片的主要市場空間。更重要的是市場分化的趨勢。輝達的優勢在於極致性能和成熟的CUDA生態,這對追求尖端算力的頭部網際網路公司具有吸引力。但在強調安全可控的政務、金融、能源等關鍵領域,國產替代已成為剛性需求,H200難以進入。然而需要強調的是,H200的性能與此前輝達專為中國市場推出的“閹割版”H20形成了鮮明對比。儘管H20擁有看似不錯的96GB視訊記憶體,但其算力被大幅削減至僅148 TFLOPS。據美國智庫進步研究所的報告評估,H200的性能是H20的6倍左右,這使其成為一個完全不同量級的競爭者。這種性能上的巨大落差導致H20在市場上反應平平。騰訊控股總裁劉熾平在財報電話會議上明確表態,公司已儲備足夠的GPU庫存以支撐未來的模型訓練工作,無需採購H20。阿里雲在2026財年第一季度財報中也表示,H20的實際算力表現“無法滿足大模型迭代需求”。當前國產AI晶片主流算力多處於輝達A100階段。比如寒武紀的旗艦產品思元590,明確對標輝達A100;剛剛登陸科創板的摩爾線程,其AI晶片MTT S3000同樣對標A100。少數廠商產品僅接近H100水平,像沐曦計畫2026年下半年才對流片對標H100的產品進行研發,與H200存在明顯代差。H200的回歸還給國內帶來了輝達引以為傲的CUDA生態。CUDA是一個包含了編譯器、庫、開發工具和開發者社區的完整生態系統。深度學習框架本身不具備直接呼叫GPU的能力,必須通過“中間適配層”才能讓GPU幹活,而CUDA就是輝達GPU的“專屬中間適配層”。過去十幾年,全球絕大多數AI研究和商業應用都在CUDA上建構。百度飛槳可以適配崑崙芯,此時它不依賴CUDA,而是依賴崑崙芯的“專屬中間層”(XPU SDK)。但如果開發者的模型是建構在CUDA上的,那麼想要使用崑崙芯去運行它,就必須得“翻譯”成飛槳能聽懂的程式碼。百度飛槳雖推出了外掛式CUDA相容類硬體接入方案,能讓硬體廠商復用部分CUDA算子,kernel復用率最高可達92.6%,但這只是針對硬體廠商的適配最佳化,在一些關鍵任務上,仍然需要開發者重新使用飛槳平台編寫。出於對開發效率、穩定性和生態成熟度的考量,部分追求極致性能且預算充足的商業客戶,可能會選擇繼續採用輝達方案。但這並不意味著國產晶片會失去市場——兩者的目標客戶群體正在分化,輝達吃高端市場,國產晶片則在中低端市場和安全可控領域站穩腳跟。它基於成熟的Hopper架構,擁有與旗艦H100相同的989 TFLOPS的FP16/BF16半精度浮點算力,整合了約16896個CUDA核心和528個第四代Tensor Core。其最大的亮點是配備了高達141GB的HBM3e高頻寬記憶體,記憶體頻寬達到驚人的每秒4.8TB,這甚至超過了H100的80GB HBM3記憶體和3.35TB/s的頻寬。對於需要處理兆參數、消耗海量視訊記憶體的大模型訓練任務而言,更大的記憶體容量和頻寬意味著可以容納更大的模型、使用更大的批次進行訓練,從而顯著提升效率。B與其他國產AI晶片廠商不同,崑崙芯並非孤立的硬體產品,而是百度AI生態中的關鍵一環。2021年,百度的智能晶片及架構部門完成了獨立融資,正式成立了崑崙芯(北京)科技有限公司。儘管已經成為一家獨立公司,百度依然是其控股股東,持有約59.45%的股份。崑崙芯第一代產品在2020年量產,採用14nm工藝和自研的XPU架構,INT8算力為260TOPS,功耗控制在100瓦等級。到目前量產的第三代P800晶片,工藝已升級至7nm,FP16算力達345TFLOPS——這個數字是輝達中國特供版H20晶片的2.3倍。更值得關注的是崑崙芯背後的全端技術整合能力。在百度建構的AI技術體系中,崑崙芯提供底層算力,飛槳(Paddle)深度學習框架負責中間調度,文心繫列大模型則是最終應用。這種"晶片-框架-模型"的垂直整合模式,與Google的TPU晶片、TensorFlow框架和Gemini模型的組合如出一轍。這種閉環帶來的好處是顯而易見的。飛槳可以針對崑崙芯的硬體特性進行深度最佳化,文心大模型的訓練和推理效率因此得到提升;反過來,大模型的實際需求又為崑崙芯的迭代指明方向。相比之下,其他國產晶片廠商往往需要適配多個主流框架,這在開發效率和性能最佳化上都面臨更大挑戰。獨立營運後的崑崙芯,商業化進展超出了不少人的預期。2024年營收突破10億元,市場預期2025年將增長至35億元以上,並有望實現盈虧平衡。更重要的是客戶結構的變化——最初更多依賴百度內部需求的崑崙芯,外部客戶佔比正在快速擴大,覆蓋網際網路、電信營運商、大型央國企等關鍵領域。2025年8月的一次中標頗具標誌性意義:崑崙芯在中國移動10億等級的AI算力採購項目中,在三個標包中均排名第一。但崑崙芯還不能高枕無憂,單從業務上看,崑崙芯採用Fabless模式,生產環節依賴外部代工。2024年上半年其還能較容易地從台積電獲取7nm晶圓代工產能,但隨著境外新規落地,先進製程晶圓代工和HBM供應等方面均受到不利限制。同時,崑崙芯團隊的軟體最佳化和框架支援長期優先圍繞百度生態展開,對外部開源模型和小眾框架的支援度還不夠。相較於其他AI晶片,崑崙芯的泛化能力還有提高的空間。12月5日,崑崙芯完成新一輪融資,投後估值約210億元人民幣。兩天后百度發佈公告稱,正就擬議分拆及上市進行評估。據外媒報導,崑崙芯最初考慮科創板上市,但後來轉向香港證券交易所,計畫最早在2026年第一季度提交上市申請,目標是2027年初完成IPO。受此消息影響,百度港股股價在12月5日收盤時上漲5.01%。對崑崙芯而言,獨立上市的意義不僅在於融資。更重要的是,它能讓崑崙芯的估值獨立於百度的傳統業務,避免廣告、搜尋業務波動對其的影響,資本市場會按照AI晶片行業的邏輯對其進行估值。在產品佈局上,崑崙芯也在加速推進下一代產品。沈抖透露,針對大規模推理場景的M100晶片已完成回片,主打極致性價比,將於2026年上市。字節、阿里、騰訊等頭部網際網路客戶已拿到小規模樣片測試並小範圍部署,百度也規劃了M100晶片的大型叢集部署場景。這種“內部驗證+外部拓展”的商業化路徑,既降低了市場風險,又為產品迭代提供了真實的應用反饋。在輝達H200可能回歸的背景下,崑崙芯或多或少也有底氣。C在H200回歸的新聞引發熱議的同時,更值得關注的是這次“解禁”背後的政策邏輯,以及它對國產AI晶片帶來的實際影響。從政策細節看,這次調整併非一次徹底的“放開”,而是一種“有管理的開放”。美國政府明確表示,基於Blackwell架構的晶片以及下一代Rubin架構晶片,仍然被嚴格禁止出口到中國。允許出口的H200,本質上是輝達的上一代產品。換句話說,美國的核心策略並未改變——在最頂尖的AI技術上對中國保持代差優勢,同時通過出售"次旗艦"產品獲取經濟利益。外媒分析認為,這種模式很可能成為未來美國對華科技出口管制的新常態:在不放棄技術霸權的前提下,有選擇性地通過出售非尖端但足夠強大的技術來平衡經濟利益與戰略考量,同時以此作為影響中國科技產業發展的籌碼。然而,H200的回歸之路遠比表面看起來更加曲折。在美國內部,圍繞是否向中國放行高端晶片的爭議極大,這使得該政策的長期穩定性存在巨大疑問。這其中最具代表性的是《SAFE CHIPS Act》(《安全晶片法案》)。該法案要求美國商務部在30個月以上時間內拒絕向中國出口尖端半導體的申請。一旦這項法案獲得通過,川普將失去晶片出口的決策權。外媒認為,川普政府火速審批H200放行,可能是在法案進入審議前搶佔先手,通過行政批准製造既定事實。同時,這種政策層面的不確定性,也讓中國企業開始擔憂GPU供應鏈。即便現在可以採購H200以緩解短期算力需求,中國的頭部大廠和關鍵行業客戶也大機率不會完全放棄國產晶片的適配和應用。目前國內AI企業普遍採用“雙備份”(Dual Sourcing)策略——百度自己就是如此,之前百度百舸採用的就是混合算力架構,既用自研崑崙芯,也用輝達等晶片。誠然,這種策略會增加短期的研發成本和系統複雜度,但從長遠來看,這是應對地緣政治不確定性的明智選擇。當供應鏈隨時可能因為政策變動而中斷時,技術自主權的價值遠超短期的成本增加。在中國一側,國家層面對國產替代的政策支援力度也在持續加大。國家積體電路產業投資基金二期募集金額已達2000億元以上,為晶片企業提供了強有力的資金保障。稅收優惠、研發補貼、政府採購傾斜等一攬子政策正在形成合力。國資委79號文更是明確要求,2027年底前實現所有中央企業資訊化系統的國產替代。這些政策訊號清晰地表明,在關鍵技術領域,中國不會因為外部環境的短期變化而動搖自主研發的決心。對崑崙芯等國產AI晶片廠商而言,這意味著一個長期穩定且不斷擴大的市場空間。一位接近百度的人士向字母榜透露,晶片本就是長周期規劃的產業,長期競爭因素始終存在,崑崙芯在產品迭代時就已考慮過相關變化,因此不需要做大的調整。崑崙芯在今年11月公佈的未來5年發展方向中,已經規劃了M300以及超節點裝置等產品線。另一方面,H200允許進口後,可能也會改變百度的採購政策。不過百度方面並未向字母榜透露相關內容。從更宏觀的視角看,H200的放行與崑崙芯的上市計畫,本質上是同一場技術博弈在不同維度的對應。前者代表著美國試圖在保持技術優勢的同時獲取經濟利益,後者則體現了中國在關鍵技術領域尋求自主可控的戰略定力。在這場長期博弈中,短期的政策變動或許會帶來市場波動,但真正決定格局的,仍然是技術積累、生態建設和戰略耐心。對崑崙芯等國產AI晶片而言,挑戰依然嚴峻,但機遇同樣清晰——在一個註定分化的市場中,找到自己的立足點,並不斷向上突破。而且,輝達H200究竟能不能進入中國,目前來看,仍然是個未知數。 (字母榜)
Google AI突破,為何反成行業利空? | 巴倫科技
這不僅僅是一個DeepSeek時刻,它可能遠遠超過那個層面。一款由AI驅動的全新聊天機器人橫空出世,不僅引發了科技股對動盪市場領軍地位的激烈角逐,同時也引發了人們對輝達晶片需求的新擔憂——而正是輝達晶片撐起了華爾街最熱門的股票。這番描述既可以用來描述中國聊天機器人DeepSeek問世時的市場反應(當時它讓整個科技圈震驚,還曾一度導致美股下跌),也同樣適用於最近發生的情形,即Google母公司Alphabet推出新版Gemini 3後的市場表現。Alphabet的股票是今年迄今為止“七巨頭”中表現最好的,該公司上周發佈了最新版聊天機器人,而投資者現在才開始意識到,這款產品在未來幾個月內可能會對人工智慧類股產生怎樣的影響。據報導,Gemini 3在運行速度、反應靈敏度和深度推理能力上均優於OpenAI的ChatGPT、埃隆・馬斯克旗下的Grok以及傑夫・貝索斯支援的Perplexity。該產品可以很好地融入Google旗下廣泛的應用生態及其市場領先的搜尋業務中,定價也與競爭對手的AI模型持平或更低。但更重要的是,Gemini 3主要是利用Google自家的張量處理單元(TPU)進行訓練的,而不是像競爭對手那樣依賴輝達的晶片。TPU的靈活性不如輝達的圖形處理單元(GPU),這也意味著在超大規模企業斥資數十億美元採購可靈活重新程式設計系統的市場中,TPU的價值可能會相對降低,但TPU的研發成本更低,滿負荷執行階段的功耗也更小。這一點正在令華爾街感到不安。“有些投資者極為擔心,憑藉Gemini模型的巨大進步以及定製TPU晶片所帶來的持續優勢,Alphabet可能會在AI大戰中獲勝。”華爾街諮詢機構Melius Research的科技策略師Ben Reitzes表示。他補充道:“現在就斷言Alphabet最近的突破讓它成為AI領域的長期贏家,還為時尚早。話雖如此,半導體企業和超大規模雲端運算公司(尤其是甲骨文)必須警覺到,‘Alphabet問題’已經成為一個值得關注的風險點。”甲骨文此前已經斥資數十億美元採購輝達晶片用於雲端租賃。如果更低成本的TPU出現,一旦其他公司建立AI雲服務競爭平台,甲骨文在價格上可能會被削弱競爭力。知名投資機構D.A. Davidson的分析師Gil Luria估算,如果Google將DeepMind AI研究實驗室與TPU晶片銷售業務拆分出去,組建獨立公司,其估值可能接近1兆美元,這也可能成為“堪稱Google最具價值的業務之一”。另一方面,即便輝達在AI領域的領先優勢出現小幅縮小,都可能在未來幾個月內引發連鎖反應,對市場造成衝擊。那些此前在輝達半導體上大舉投資的企業,如果發現更便宜的晶片同樣表現出色,可能會因此陷入“買家懊悔”。目前,從上市的超大規模科技公司到OpenAI 等初創企業,整個行業的估值都已處於極高水平,而這項新技術對實體經濟的實際利多仍存在不確定性。實際上,OpenAI 首席執行官薩姆·奧特曼在上周《The Information》發佈的一份內部備忘錄中坦言,Google在人工智慧方面的進步,很可能會給公司帶來“一些暫時的經濟阻力”。他表示:“我預計外界的氛圍會艱難一陣子。”Google的股價已反映出部分市場預期,周一上漲了6.3%,盤中一度創下每股318.58美元的歷史新高。今年以來,該股累計上漲了68%,而“七巨頭”指數同期漲幅為22%,納斯達克綜合指數則上漲了18%。其TPU製造合作夥伴博通(Broadcom)在周一下午早些時候上漲了11%,今年以來的漲幅略超63%。與此同時,輝達股價小幅上漲,但自本月初以來仍下跌了近9%。根據道瓊斯市場資料,目前輝達4.35兆美元的市值與Google市值之間的差距已縮小到約5260億美元,為自四月以來的最小水平。伯恩斯坦資深分析師斯Stacy Rasgon並不那麼關注在當前的AI軍備競賽中短期贏家的歸屬,他更關心的是這場競爭的持續性。Rasgon周一在接受CNBC採訪時表示:“我們還沒到需要擔心誰贏誰輸的時候。現在更需要關注的問題是,AI領域的機遇是否可持續。”他補充道:“如果可持續,大家都沒問題;如果不可持續,大家都完了。” (Barrons巴倫)
馬斯克:建月產100萬晶圓的Tera-fab
與英特爾合作:目標實現月產 100 萬片晶圓AI5晶片:功耗僅輝達Blackwell晶片1/3,成本不足10%!特斯拉 CEO 馬斯克在年度股中國會上重磅宣佈,為破解晶片供應這一未來發展核心瓶頸,公司計畫建造巨型晶片工廠 Terafab,目標實現月產 100 萬片晶圓,稱這是達成所需晶片產量的唯一途徑。“Tera-Fab” 中 “Tera” 的核心含義是 “兆級(10¹²)”,即巨型晶圓廠的意思。馬斯克透露:特斯拉自研的AI5晶片(將同時為汽車和人形機器人提供算力支援)功耗雖僅為輝達Blackwell晶片的三分之一,成本卻不足後者的10%。馬斯克強調:“AI5晶片是針對特斯拉AI軟體棧進行深度最佳化的,因此並非通用型晶片。”馬斯克說道:“我們正考慮與英特爾展開合作,儘管目前尚未達成任何協議,但相關磋商大機率具備實際價值。”重點:晶圓廠、1 兆美元薪酬、FSD中國進展、人形機器人特斯拉年度股中國會上,CEO 馬斯克披露多項重磅計畫,核心聚焦晶片供應與 AI、機器人業務佈局,為破解半導體這一發展核心瓶頸,特斯拉計畫建造月產 100 萬片晶圓的巨型晶片廠 Terafab,以滿足自動駕駛、人形機器人等業務的激增需求,同時考慮與英特爾合作,目前尚未簽署相關協議但磋商具備實際價值。特斯拉自研的 AI5 晶片,將為汽車和人形機器人提供算力支援,其功耗僅為輝達 Blackwell 晶片的三分之一,成本不足後者 10%,但專為特斯拉 AI 軟體棧深度最佳化,並非通用型晶片。此次股中國會還批准了馬斯克創紀錄的 1 兆美元薪酬方案,該方案分 12 個階段兌現,需達成交付 2000 萬輛汽車、FSD 有效訂閱量 1000 萬、交付 100 萬台 Optimus 機器人、投入 100 萬輛自動駕駛計程車商業營運等目標。業務進展方面,FSD 已獲中國部分批准,預計 2026 年二三月份全面獲批,V14.1 版本運行流暢,V14.3 將實現 “睡一覺抵達目的地” 的水平,未來數月駕駛員或可邊開車邊發簡訊,其 Supervised 版本已落地 6 個國家 / 地區。首款無人駕駛 Robotaxi Cybercab 將於 2026 年 4 月在德州量產,無方向盤、踏板及後視鏡,每公里成本僅幾毛錢,年產能目標 200 萬 - 500 萬台。人形機器人 Optimus 明年啟動量產,2026 年推第三代,後續按年度迭代,目標建成千萬台年產能生產線,量產成本約 2 萬美元,馬斯克稱其將擴大全球經濟規模 10-100 倍,未來或實現人類意識上傳。全新 Roadster 將於 2026 年 4 月 1 日演示新技術,12-18 個月後量產。馬斯克強調,AI 與機器人技術將開啟特斯拉新篇章,電力與半導體是實現這些目標的關鍵限制因素。 (芯榜)
噩耗!認證崩盤!美光 HBM4 被輝達 "否決"
出貨將推遲至2027年第一快閃記憶體消息:美光 HBM4 栽大跟頭了!因良率拉胯、傳輸速度不達標,直接被輝達驗證流程 “一票否決”,被迫啟動全面重造。而 SK 海力士已搶先量產 HBM4,三星也在加速送樣認證,美光供貨推遲至 2027 年,在 AI 記憶體生死戰中徹底落後,千億市場蛋糕恐被韓系雙雄瓜分!GF證券表示:“預計輝達的HBM4晶片出貨將推遲到2027年”,並補充道:“即使HBM4晶片的交付計畫推遲,也不會對美光的盈利造成重大影響。”一、認證崩盤!美光 HBM4 被輝達 "一票否決"AI 算力軍備賽的關鍵一役,美光直接摔出賽道!廣發證券香港分行報告驚雷炸響:美光 HBM4 因性能不達標、良率慘不忍睹,慘遭輝達驗證流程 "死刑判決"。核心癥結直指資料傳輸速度 —— 連客戶最基本的性能紅線都未能跨越,逼得這家美國儲存巨頭啟動全面架構重造。更致命的是時間窗口的丟失:原本瞄準 2026 年的量產計畫被迫延後,最悲觀預測指向 2027 年才能供貨。要知道,HBM4 作為 AI 伺服器的 "算力心臟",直接決定 GPU 的運算效率,而輝達、AMD 的下一代 GPU 已箭在弦上,2026 年量產計畫容不得半分等待。業內狠批:"這不是延遲,是主動退出下一代 AI 供應鏈的爭奪戰"。二、韓系雙雄狂奔!三星 SK 海力士搶食千億美元蛋糕就在美光陷入重造泥潭時,韓國雙雄已踩下量產油門,上演教科書等級的競速突襲。SK 海力士 9 月率先宣告完成全球首條 HBM4 量產線搭建,第四季度已啟動出貨,其產品不僅實現 10Gbps 速率超越 JEDEC 標準,更憑 2048 個 I/O 終端將頻寬翻倍,還硬生生把能效提升 40%。更關鍵的是,它已穩穩通過輝達驗證,攥緊 Rubin GPU 供應鏈入場券。三星則祭出 "良率殺器":1c DRAM 工藝良率突破 50%,HBM4 邏輯晶片良率飆至 90%,10 月底更在科技展上公開展出實品,敲定 2025 年底量產時間表。Counterpoint 資料顯示,SK 海力士已以 62% 份額壟斷市場,三星正蓄力衝擊 30% 份額,韓系雙雄合計掌控近 80% 市場,把美光 21% 的份額襯得岌岌可危。三、千億市場洗牌!遲到者恐遭 "驅逐"這場延遲絕非小事,而是關乎千億美元市場的生死判決。摩根大通預警:2026 年 HBM 市場規模將暴漲 70%,佔 DRAM 總市場 45%,2030 年更將衝至千億美金量級,而輝達一家就壟斷 60% 需求。偏偏 HBM4 比 HBM3E 有 30%-40% 價格溢價,誰能卡位量產誰就躺賺暴利。更殘酷的是行業鐵律:AI 供應鏈一旦定型,1-2 年內絕無替換可能。黃仁勳訪韓時那句 "三星 SK 海力士對 AI 至關重要",早已把美光排除在核心圈外。分析師戳破真相:"2026 年 HBM4 供應佔比將達 30%,2027 年更是飆升至 70%,美光若錯失這次,未來連喝湯的資格都沒有"。更要命的是,三星已打響價格戰,進一步壓縮遲到者的生存空間。三星降價搶佔HBM市場。點選看:無貨可賣!炸裂:三大原廠暫停DDR5報價!四、絕地反擊還是徹底出局?美光押注 "技術重生"絕境中的美光仍在頑抗,財報電話會議上拋出 "2026 年 Q2 量產" 的救命稻草,宣稱已送出 11Gbps 速率的樣品,還計畫在 HBM4E 時代轉由台積電代工,押注定製化方案拉高毛利。眼下其 AI DRAM 和 NAND 業務同比暴漲三倍,暫時能撐住營收體面。但現實骨感:HBM4 已轉向 16 層堆疊,無助焊劑鍵合等新技術門檻陡升,美光既要補性能短板,又要追良率差距,難度堪比登天。市場已給出預判:2026 年 HBM4 市場仍由 SK 海力士主導,三星緊追其後。這場 AI 記憶體的生死競速中,美光已被判罰 "遲到離場",能否改寫結局,全看其重造進度能否跑出奇蹟。 (第一快閃記憶體)
10倍頻寬突破、市值暴漲200億美元,高通能否「分食」千億級AI推理市場?
雷峰網消息顯示,當地時間10月27日,高通宣布推出針對資料中心場景的AI推理最佳化解決方案。此方案由Qualcomm AI200、AI250雲端AI晶片,及對應的加速卡、機架等組成。「輝達的『迭代速度』將讓高通倍感壓力。」雷峰網消息顯示,當地時間10月27日,高通宣布推出針對資料中心場景的AI推理最佳化解決方案。此方案由Qualcomm AI200、AI250雲端AI晶片,及對應的加速卡、機架等組成。千億級雲端推理市場的入局動態,讓高通在資本市場收穫正向回饋。其股價在交易時段最高上漲22%,收盤時漲幅縮小至11%。截至美股10月27日收盤,高通股價報187.68美元/股,公司市值約2,025億美元,市值單日增加近200億美元。「站在美國的角度看,輝達的市值已經很高了,再向上漲一個數量級有比較高的難度,而美股近期能夠上漲的股票都跟AI概念相掛鉤,高通推出AI推理晶片屬於補漲。」晶片產業分析師陳沖表示。不少業界人士認為,高通在端側晶片有很多經驗和技術上的積累,進軍AI推理晶片可以為高通帶來新的業務增量,並且市場也不想看到輝達一家獨大,因此此舉在行業預期之內。關於國內外AI晶片市場的競爭格局,歡迎加入微信 YONGGANLL6662 交流更多資訊。但這份產業預期背後,高通的低TCO主張能否真正形成競爭力,仍需接受檢驗。「高通主打產業最低總擁有成本(TCO)的概念,而其高能效和記憶體處理能力是否有足夠的競爭優勢還需要在實際場景中驗證後才能判斷。」二級市場分析師張翔表示,「AI推理晶片主要看的是固定成本下的Token吞吐率,即在一段時間內產生的Token數量與總成本的比例,具備這個方面,英達超強的優勢,具備了好其能力。從Blackwell到新一代Rubin,輝達的迭代速度不斷加快。Rubin CPX以解耦推理設計支援百萬級Token處理,GDDR7記憶體讓成本大降,投資回報率達30-50倍,Vera Rubin NVL144平台算力較前代提升3.3倍,單位Token成本進一步攤薄。面對競爭,高通也正在透過實際合作推進產品落地驗證,宣布了與沙烏地阿拉伯AI公司HUMAIN的合作。根據規劃,HUMAIN將從2026年起部署高通AI200、AI250機架解決方案,總規模達200兆瓦,同時雙方還將共同開發尖端AI資料中心,落地雲到邊緣混合AI推理服務。「大規模訂單合作往往伴隨客製化開發邏輯。現階段模型網路架構已趨於成熟,不會出現顛覆性變化,因此無需過度追求通用性很高的產品,透過客製化模式可以精準匹配客戶特定需求,實現深度性能優化。」國產晶片廠商從業人員李沐表示,「而高通在成本管理及端側NPU領域的經驗,也能為這種模式提供支撐,也能為這種模式提供支持。聚焦AI推理賽道,則是目前高通面對輝達的最優選。根據QYResearch研究顯示,2024年全球推理AI晶片市場規模約142.1億美元,預計2031年將達690.1億美元,2025-2031期間,年複合成長率為25.7%。AI推理包含Prefill(預填充)和Decode(解碼)兩個階段,和模型訓練相比,它對硬體的要求存在明顯差異,推理更看重顯存頻寬的穩定性、適配性以及充足的顯存容量,同時無需訓練所需的極致浮點算力,轉而追求高效能效比與低延遲。在集群建設方面,存力的重要性也日益凸顯。「算力集群的計算過程是將數據從存儲搬運到計算單元,計算完成之後,計算的中間結果以及最終結果會返存回存力集群,在這個過程中,存力是不是能以更大的頻寬、更低的時延將數據搬運到算力集群中進行計算,將影響整個計算單元的算力利用率。」存儲專家片專家陳峰表示。此外,由於計算集群會不定時發生故障,此時需要將中間的參數以及計算結果定期保存回存力集群,這個檢查點的保存時間耗時越短,那整個計算過程被中斷的時間便越少,同樣可以進一步提升計算的效率,且保證計算的可靠性。高通此次推出AI推理晶片的重要亮點便是更高的內存容量,Qualcomm AI200支援每卡768 GB LPDDR,而Qualcomm AI250則將首次採用基於近內存運算的創新內存架構,透過提供超過10倍的有效內存頻寬和更低的功耗,實現推廣AI推理工作負載性能的創新。「現在推理Token用量每個月都在大幅上漲,高通的推理卡顯存非常大,單卡可以支援768GB,相當於單卡可以跑完整的DeepSeek,是目前所有卡中顯存最大的,方便私有化部署。」陳沖表示。除了硬體上的顯存容量與記憶體架構創新,高通在軟體生態建置上也同步發力,為產品落地鋪路。其AI軟體堆疊涵蓋從應用層到系統層的端對端鏈路,並針對AI推理場景做了最佳化,支援領先的機器學習框架、推理引擎、生成式AI框架及LLM/LMM推理優化技術。開發者可以透過相關套件,實現模型導入與Hugging Face模型一鍵部署。「輝達在雲端晶片市場一家獨大,但憑藉差異化的硬體設計以及豐富的軟體棧,高通的入局具有合理性,後續將其網路晶片整合進去,能打造出具有效能優勢的產品。」大廠資料中心專家江傑表示。(雷峰網)
剛談完就鎖喉輝達:中國搶過美國晶片王牌,反手打成王炸!
9月15日,中美馬德里會談結束。中國商務部國際貿易談判代表表示,(中美馬德里會談)雙方就以合作方式妥善解決TikTok相關問題,減少投資障礙,促進有關經貿合作等達成了基本框架共識。美國總統川普則表示,中美之間的重大貿易談判非常順利!關於美國的年輕人格外想要留住的“某家”公司,有交易達成。他們會非常開心!表面看起來,雙方聊得很順利,實際上雙方並沒有公佈詳細的磋商結果。最主要的話題集中在TikTok的未來。美方說的是“可能在未來一段時間內公佈TikTok的買家”,暗示TikTok將被美國收購。中方則指出,將審批的是“短影片平台TikTok所涉及的技術出口、智慧財產權使用權授權”。交易的到底是所有權,還是使用權,兩者有本質上的區別。而且估計要等周五領導人直接通話後,這場會談才能真正出談判結果。談判結束後,美國放出消息,只要中國買大豆和波音飛機,川普就決定接受邀請訪問北京,甚至可能坐高鐵再到上海逛逛。中國則宣佈將進一步調查輝達的壟斷問題。9月16日,市場監管總局公告稱,近日,經初步調查,輝達公司違反《中華人民共和國反壟斷法》和《市場監管總局關於附加限制性條件批准輝達公司收購邁絡思科技有限公司股權案反壟斷審查決定的公告》,市場監管總局依法決定對其實施進一步調查。如果坐實,輝達可能面臨數十億美元的巨額罰款,甚至失去佔其全球銷售額13%的中國市場。英國《金融時報》報導,中國監管機構正“建議”本地企業停止購買輝達AI晶片。一些人認為,這是中方罕見的強硬表態,說明美國在馬德里的讓步程度,低於我們的預期,也說明中美在半導體領域的博弈進入新階段。貝森特在被媒體採訪時當場破防,抱怨“中國調查的時機太糟糕了”!中美談判中,美國一直將AI晶片和輝達當作重磅籌碼。現在中國用行動證明,已經搶到美國“珍貴的晶片牌”,反手就打成王炸。以我為主建立AI生態人工智慧,即AI技術,作為新一代顛覆性技術,已經成為驅動全球經濟增長的核心引擎、重塑國家安全格局的關鍵變數,甚至是影響未來國際秩序的戰略制高點。在這場席捲全球的AI浪潮中,輝達幾乎就是“最大贏家”,公司市值已高達4兆美元,相當於日本2024年的GDP。更加恐怖的是,從1兆到4兆,輝達只用了兩年半時間!輝達在AI硬體層擁有恐怖的統治權,在高端算力卡方面獨領風騷。2025年一季度,輝達GPU佔據全球AI訓練市場92%的份額。真正可怕的是,輝達還在“算力作業系統”層面上擁有CUDA生態。CUDA(Compute Unified Device Architecture,統一計算裝置架構)是NVIDIA在2007年推出的一種革命性的平行計算平台和程式設計模型,讓程式設計師們能夠用各種現有的高級程式語言,最大化釋放GPU的性能。輝達的CUDA生態,很像微軟的Windows系統生態。程式設計師們已經使用免費的CUDA工具,編寫了很多程序,讓輝達晶片與幾乎所有深度學習框架、科學計算框架繫結,鎖定了整個AI生態。程式設計師開發新的AI大模型,要麼使用CUDA生態,要麼就需要花費巨大“重複造輪子”重複程式設計,適應很多應用場景,還面臨版本相容的問題。CUDA生態的不可替代性,就是輝達堅實的護城河。對中國廠商而言,買輝達GPU,用CUDA生態本來不是問題。但美國以威脅國家安全,保持技術優勢為由,嚴厲限制對華出口輝達的高端AI算力晶片,導致國內企業長期面臨嚴重的“算力荒”。美國政府甚至一度將中國廠商對CUDA生態的依賴作為籌碼,禁止輝達出口所有AI算力晶片,要求中國在貿易談判中做出妥協。這分明就是“用技術威脅主權”。而且美國國會還在推動《晶片安全法》,想要立法要求所有高端AI晶片必須具備位置追蹤能力,廠商必須在發現晶片流入中國後“遠端鎖死”。這是美國公開的“硬體後門”。推動立法的相關議員多次表示,該方案在技術上已經相當成熟,實現起來並不困難。輝達會不會有“未公開的後門”,影響其他國家的資料安全?以美國密密麻麻的“犯罪前科”來看,答案很明顯。中國必須打破輝達的壟斷,建構“以我為主”的AI生態,才能鞏固技術主權,避免在關鍵領域被“卡脖子”,大規模推動AI算力的普及,推動“中國製造”向“中國智造”轉型!AI算力即國力AI技術有多重要,AI算力就有多關鍵。AI算力是支撐AI技術發展的重要基石,算力資源決定了演算法訓練的效率、模型最佳化的上限以及實際應用的可行性,其核心地位正日益凸顯。可以說,AI算力就是數字經濟時代的“新質生產力”,是支撐國家發展、提升人民生活質量的核心能力之一,重要性堪比工業時代的電力。截至2023年底,全國已累計建成14個國家級超算中心、633個大型資料中心及60個智算中心。AI算力的戰略意義不僅在於規模,更在於其對社會、產業和經濟的重塑。從金融風控到智能製造,從自動駕駛到醫療診斷,AI算力正滲透到經濟社會的每個角落,成為驅動創新的“隱形引擎”。2025年,中國推出的“人工智慧+”行動,與美國於7月23日發佈的《贏得競爭:美國人工智慧行動計畫》針鋒相對。AI算力,已經成為大國競爭的關鍵議題。在這種背景下,中國的AI晶片自主化正在提升!華為昇騰、天數智芯等企業推出高性能AI晶片,單卡算力密度快速提升,國產晶片在資料中心市場的滲透率逐年提升。中國的AI模型,比如DeepSeek 已經適配大量國產AI晶片,是中國晶片走向國際化的第一步,也是推動“國產算力+國產大模型”閉環生態和“以我為主”AI生態的重要一環。AI算力即國力,中國必將重塑算力格局!仔細調查輝達,保護中國政府、企業和消費者的資料安全,給中國企業一點時間就很關鍵。過去,美國通過出口管制,不讓中國購買輝達的AI算力卡。現在,中國進行反壟斷調查,還不想讓中國企業購買輝達的AI算力卡。這就是“晶片王牌”更換“使用者”的轉折點!中國打出晶片王炸,周五川普打電話前,就該認真考慮如何解決“單邊”關稅,以及“濫用”出口管制及TIKTOK的問題。當國產GPU 點亮下一座智算中心,或者中國AI大模型在國產芯上跑出新的世界紀錄,我們也許會想起今天——這個把壟斷舊神拉下神壇、把技術主權寫進未來的夜晚。中國AI晶片、AI算力、AI生態,加油! (宋鴻兵觀天下)
這一戰,Google準備了十年
9月3日,一則消息在科技圈引起了軒然大波:Google開始對外出售TPU了。據報導,Google近期已在接觸那些主要租賃輝達晶片的小型雲服務提供商,敦促他們在其資料中心也託管Google自家的AI處理器,也就是TPU。Google已與至少一家雲服務提供商——總部位於倫敦的Fluidstack——達成協議,將在紐約的一個資料中心部署其TPU。Google的努力不止於此。據報導,該公司還向其他以輝達為核心的服務商尋求類似的合作,其中包括正在為OpenAI建造資料中心的Crusoe,以及向微軟租賃晶片並與OpenAI簽有供應合同的輝達“親兒子”CoreWeave。9月9日,花旗分析師因TPU競爭加劇將輝達目標價下調至200美元,預計2026年GPU銷售額將因此減少約120億美元。明眼人都能看出來的是,Google和輝達之間的大戰,已經開始了。而它們爭奪的,將是AI計算這個真正的兆美元市場。然而,Google對這一戰的準備,其實比我們想像的都要久。01. TPU,AI計算的最優解?早在2006年,Google的內部就討論過在自家的資料中心中部署GPU、FPGA或ASIC的可能性。不過,當時只有少數應用程式能夠在這些特殊硬體上運行,而Google大型資料中心的過剩算力也完全夠它們使用了。因此,部署特殊硬體的計畫被擱置。然而,到了2013年,Google的研究人員發現:如果人們每天使用語音搜尋並通過深度神經網路進行3分鐘的語音識別,那麼當時Google的資料中心需要雙倍的算力才能滿足日益增長的計算需求。而如果僅通過擴巨量資料中心規模來滿足算力需求,不但耗時,而且成本高昂。於是,在這個背景下,Google開始了TPU的設計。Google的TPU是為AI計算而生的ASIC晶片,它專注於實現兩個核心目標:極高的矩陣乘法吞吐量與卓越的能效。為了實現高吞吐量,TPU在硬體層面採用了“脈動陣列”(Systolic Array)架構。該架構由大量簡單的處理單元(PE)構成網格。資料流從陣列的邊緣輸入,在每個時鐘周期同步地、一步步地流經相鄰的處理單元。每個單元執行一次乘法累加運算,並將中間結果直接傳遞給下一個。這種設計使得資料在陣列內部被高度復用,最大限度地減少了對高延遲、高功耗主記憶體的訪問,從而實現了驚人的處理速度。而其卓越能效的秘訣,則在於軟硬體協同的“提前編譯”(Ahead-of-Time Compilation)策略。傳統的通用晶片需要高能耗的快取來應對多樣的、不可預測的資料訪問。TPU則不同,它的編譯器在程式執行前就完整規劃好了所有資料路徑,這種確定性使其無需複雜的快取機制,從而大幅降低了能耗。在TPU的設計上,Google主導整體架構與功能定義,博通Broadcom參與了部分晶片的中後端設計工作,目前,Google TPU主要由台積電代工生產。隨著大語言模型參數的急劇擴張,AI計算任務正在從“訓練”走向“推理”。這時,作為通用算力單元的GPU,開始顯露出成本以及功耗過高的問題。而TPU從設計之初就專門瞄準了AI計算,具有很高的性價比優勢。據報導,GoogleTPU算力成本僅為OpenAI使用GPU成本的1/5,性能功耗比更是優於同代GPU。因此,為了抓住市場,Google圍繞著自己的TPU架構,打造了一系列產品與生態。02. Google造芯這十年Google第一代TPU (v1) 於2015年推出,通過高度簡化的專用設計,實現了超越同期CPU與GPU的能效比,並在AlphaGo等項目中展示了其高效能,從而驗證了AI ASIC的技術路徑。隨著研發深入,訓練環節的算力瓶頸日益凸顯,促使TPU的設計方向轉向系統級解決方案。2017年發佈的TPU v2為此引入了BF16資料格式以支援模型訓練,並配置了高頻寬記憶體(HBM)。更為關鍵的是,v2通過定製的高速網路將256個晶片單元互聯,首次建構了TPU Pod系統。隨後的TPU v3通過增加計算單元數量和引入大規模液冷技術,實現了性能的顯著提升。TPU v4的發佈帶來了互聯技術的重大革新,其核心是採用了光學電路交換(OCS)技術,實現了TPU Pod內部網路拓撲的動態重構,從而提升了大規模訓練任務的容錯能力與執行效率。進入v5與v6 (Trillium) 階段,TPU產品線呈現出分化策略,形成了分別側重於極致性能的'p'系列與能效比的'e'系列,以適應多樣化的AI應用場景。2025年Google TPU的全年出貨量預計為250萬片。v5系列總出貨量預計為190萬⽚,其中v5e佔⽐約120萬⽚,v5p佔⽐約70萬⽚, v6系列預計總出貨量為60萬⽚,⽬前僅v6e在市場上銷售,⽽v6p將在第四季度上市,約10-20萬⽚左右。預計到2026年,總體TPU銷量將超過300萬片。在今年的Google雲大會上,Google發佈了第七代TPU,代號“Ironwood”。Ironwood是Google迄今為止性能最強、能效最高且最節能的TPU晶片,其峰值算力達到4614 TFLOPs,記憶體容量為192GB,頻寬高達7.2 Tbps,每瓦峰值算力為29.3 TFLOPs。此外,Ironwood首次支援FP8計算格式,並在張量核和矩陣數學單元中實現這一功能,這使得其在處理大規模推理任務時更加高效。Ironwood最高配叢集可擁有9216個液冷晶片,峰值算力可達42.5 ExaFLOPS,是世界上最大的超級電腦El Capitan的24倍以上。其支援大規模平行處理和高效記憶體訪問,適用於複雜的推理任務如大型語言模型和混合專家模型。事實上,Ironwood的整體性能已經十分接近輝達B200,甚至在一些方面還有所超越。當然,輝達的統治力不僅在於其硬體性能,更在於整個CUDA生態。Google深知這一點,因此,它也建構了JAX這樣的,能在TPU上運行的高性能計算Python庫。Google還發佈了其模型流水線解決方案“Pathway”,用於向外部開發者訓練大型語言模型(LLM)。將其作為訓練模型的必備手冊,研究人員無需重新設計模型即可開發Gemini等LLM。有了上述的一整個“軍火庫“,Google終於可以和輝達掰掰手腕了。03. Googlevs輝達投資銀行D.A. Davidson分析師Gil Luria在最新報告中指出,過去一年以來Google母公司Alphabet大幅縮小與輝達的差距,如今已成為“最好的輝達替代方案”。報告顯示,過去半年,圍繞Google Cloud TPU的開發者活躍度激增了約96%。Gil Luria與前沿AI實驗室的研究人員和工程師交流後發現,業內普遍看好GoogleTPU。因此Luria認為,若Google將TPU業務與DeepMind部門合併並將它們分拆上市,估值或將高達9000億美元。AI獨角獸Anthropic此前使用亞馬遜的Trainium晶片來訓練模型,最近,該公司被發現正在招聘TPU核心工程師;馬斯克旗下的人工智慧公司xAI也對採購TPU表現出興趣。這一切都說明了業界對於TPU的認可。而Google自身也在積極行動。首先,Google有意在公司內部進行從輝達GPU到自研TPU的迭代。Omdia資料顯示,2024年估計Google訂購16.9萬台Hopper 架構GPU,在五大雲廠商中排名最後,約為微軟的三分之一。同時,Google內部已部署了約150萬顆TPU。Google的對外戰略,就是文章開頭提到的,對那些使用輝達晶片的資料中心供應TPU。據報導,為了與Floydstack達成合作,Google將提供最高32億美元的備選擔保支援,若Fluidstack無力支付紐約新資料中心的租賃費用,Google將補足差額。根據野村證券最新報告,預計到2026年,ASIC總出貨量很可能會第一次超過GPU。而TPU正是目前最成熟的ASIC。輝達需要緊張起來了。04. 結語市場對GoogleTPU的積極接受,反映出越來越多的公司想擺脫輝達“一卡難求“的困境,尋求更高的性價比和更多元、穩定的供應鏈。而借此機會挑戰輝達的,也不只有Google一家公司。供應鏈資料顯示,Meta將於2025年第四季度推出其首款ASIC晶片MTIA T-V1。它由博通設計,具有複雜的主機板架構,並採用液冷和風冷混合技術。到2026年年中,MTIA T-V1.5將進行進一步升級,晶片面積將翻倍,超過輝達下一代GPU Rubin的規格,其計算密度將直接接近輝達的 GB200 系統。2027年的MTIA T-V2可能會帶來更大規模的CoWoS封裝和高功率機架設計。報告指出,根據供應鏈估計,Meta的目標是到2025年底至2026年實現100萬至150萬件ASIC出貨量。微軟、亞馬遜同樣有自研的ASIC晶片,正在對這片被GPU霸佔的市場虎視眈眈。對此,輝達也有自己的反擊手段。今年5月,輝達正式發佈NVLink Fusion。NVLink Fusion允許資料中心將輝達GPU與第三方CPU或定製化AI加速器混合使用,標誌著輝達正式打破硬體生態壁壘。近日,輝達執行副總裁暨首席財務官Colette Kress在高盛組織的會議上談及了對於AISC晶片所帶來的競爭看法,稱輝達GPU更具性價比。一場大戲已經拉開了帷幕。無論是兆美元的市場規模,還是未來AI時代硬體結構的定義權,都值得幾大巨頭為之瘋狂。這一戰,誰都有不能輸的理由。 (半導體產業縱橫)