兆規模起飛!“平替”輝達Blackwell架構GPU!智能算力TPU產業鏈深度分析!2025
從GPU壟斷到TPU-GPU雙雄時代的算力革命全景解構
前言:算力革命的第三次浪潮與兆市場拐點
2025年第三季度,全球AI半導體市場單季度規模歷史性突破320億美元,其中專用AI加速器佔比首次超越通用GPU,達到52%的臨界點。這一結構性逆轉標誌著算力基礎設施正式邁入"專用計算期"——繼2018-2022年的通用計算期(CPU+GPU主導)和2023-2024年的加速計算期(GPU叢集規模化)之後,算力革命迎來第三次浪潮。
GoogleTPU v7(代號Ironwood)的量產與輝達Blackwell架構的全面普及,共同推動了智能算力進入"TPU-GPU雙雄時代"。
根據Semianalysis最新預測,2025年全球智能算力市場規模將達到1.2兆美元,年同比增長83%,其中TPU產業鏈貢獻度有望突破35%,折合人民幣約3兆元規模。
這一數字背後,是AI大模型從"規模競賽"轉向"效率革命"的深層邏輯:當GPT-5以18兆參數、Gemini 3以五兆參數刷新能力邊界時,單位算力的經濟性與能效比成為決定產業可持續發展的核心變數。
本文基於對92份行業深度報告、31家核心企業2025年半年報及MLPerf v4.0最新測試資料的交叉驗證,系統解構TPU產業鏈的生態系統、技術突破、競爭格局與投資邏輯。
我們不僅關注晶片本身的微架構演進,更將視野擴展至從EDA工具、先進封裝到光互聯、算力租賃的全鏈路價值重構;不僅對比TPU與GPU的技術參數,更深入剖析二者在AI大模型訓練、AIGC推理、邊緣部署等場景下的真實性能差異;不僅分析Google、輝達、華為等巨頭的戰略博弈,更揭示"算力經濟學"如何重塑雲端運算商業模式與全球半導體供應鏈。
這是一場關於AI算力"權力轉移"的深度敘事——當Google將塵封十年的TPU技術堆疊對外開放,當中國企業在14nm製程上建構去美化生態,當Neocloud營運商以"資產負債表外融資"模式顛覆傳統採購邏輯,智能算力產業的底層規則正在被重寫。兆市場規模的爆發,既是機遇,更是挑戰。
第一章 智能算力產業全景:從GPU壟斷到架構多元化
1.1 算力基礎設施演進三階段模型
AI算力基礎設施的演進遵循"通用→專用→融合"的技術經濟規律,每個階段的躍遷都伴隨硬體架構、軟體棧和應用場景的根本性變革。
第一階段:通用計算期(2018-2022)
- 核心硬體:以NVIDIA V100/A100 GPU與Intel Xeon CPU的異構組合為主流,算力規模介於10-100 PFlops(每秒千兆次浮點運算)。
- 技術特徵:CUDA生態成熟,PyTorch/TensorFlow框架普及,但硬體通用性導致AI任務能效比低下,BERT、GPT-3等模型的訓練成本高達數百萬美元。
- 市場格局:輝達憑藉CUDA護城河壟斷90%以上AI訓練市場,全球AI半導體市場規模年均增速約35%。
第二階段:加速計算期(2023-2024)
- 核心硬體:GPU叢集規模化部署,H100/H200成為絕對主力,算力規模躍升至1-10 EFlops(每秒百億億次)。
- 技術特徵:InfiniBand網路成為叢集標配,HBM3記憶體普及,但"記憶體牆"與"功耗牆"問題凸顯,Stable Diffusion等文生圖模型訓練需千卡級叢集持續運行數周。
- 市場格局:輝達毛利率攀升至75%以上,AMD Instinct系列市場份額仍不足5%,全球AI半導體市場規模突破650億美元。
第三階段:專用計算期(2025-)
- 核心硬體:TPU v7、Trainium2等ASIC晶片與GPU形成混合架構,算力規模進入10-100 EFlops時代。
- 技術特徵:脈動陣列、光互連、Chiplet封裝實現系統級最佳化,Gemini 2.5、Sora視訊生成等模型的訓練效率提升3-5倍。
- 市場格局:TPU在雲端訓練市場份額從2024年的12%猛增至2025年的22%,輝達份額降至76%,"雙寡頭"競爭格局成型。
1.2 2025年全球智能算力市場結構全景圖
1.2.1 市場規模與增長動力
2025年全球智能算力市場規模預計達1.22兆美元,同比+83.2%,其中:
- 訓練算力市場:4610億美元,佔比37.8%,同比增長65%,主要由GPT-5、Gemini 3等兆參數模型驅動。
- 推理算力市場:7590億美元,佔比62.2%,同比增長98%,AIGC應用滲透率突破40%是核心推手。
區域分佈呈現"三極兩強"格局:
- 北美:5140億美元,佔42%,美國七大科技巨頭(M7)資本支出合計超3000億美元。
- 中國:3310億美元,佔27%,"東數西算"工程帶動國產算力叢集投資超2000億元。
- 歐洲:2200億美元,佔18%,德國、法國推動主權AI算力建設。
- 亞太其他:1650億美元,佔13%,新加坡、日本成為區域算力樞紐。
1.2.2 硬體構成與市場份額
2025年AI加速器硬體出貨結構發生歷史性轉變:
- GPU:出貨量約450萬顆,市場規模7060億元,佔比58%,但增速放緩至45%。
- 輝達:342萬顆,市場份額76%,B200成為絕對主力,H200進入庫存去化周期。
- AMD:68萬顆,市場份額15%,MI325X在部分雲廠商獲得小規模部署。
- 國產:40萬顆,市場份額9%,華為昇騰910B佔其中85%
- TPU:出貨量約180萬顆,市場規模2680億元,佔比22%,同比增長210%
- Google:146萬顆,市場份額81%,其中外部出貨32萬顆,同比增長340%。
- 其他:34萬顆,市場份額19%,主要為Graphcore IPU、SambaNova等小眾架構。
- ASIC/FPGA:出貨約120萬顆,市場規模2360億元,佔比20%
- Trainium2:45萬顆,亞馬遜自用為主。
- 國產ASIC:38萬顆,百度崑崙、阿里含光等。
1.2.3 技術路線圖對比:TPU與GPU的迭代賽跑
GoogleTPU演進路徑: TPU v4(2022)→ v5e(2023)→ v5p(2023)→ v6 Trillium(2024)→ v7 Ironwood(2025)
- 製程:從7nm演進至4nm,電晶體密度提升2.3倍。
- 算力:BF16性能從275 TFLOPS躍升至4614 TFLOPS,提升16.8倍。
- 互聯:光路交換機(OCS)替代傳統電交換,ICI頻寬達1.2Tbps,延遲降至100納秒級。
輝達GPU演進路徑: A100(2020)→ H100(2022)→ H200(2024)→ B200(2025) → Vera Rubin(2026)
- 製程:從7nm演進至4nm,Blackwell架構引入第二代Transformer引擎。
- 算力:FP8性能從624 TFLOPS提升至3200 TFLOPS。
- 互聯:NVLink 5.0頻寬達1.8TB/s,但光電轉換能耗仍比OCS高35%。
第二章 TPU產業鏈全鏈路解析:從矽片到叢集的垂直解構
2.1 上游:核心材料與IP架構的"卡脖子"戰場
2.1.1 EDA工具:4nm製程的暗戰
EDA(電子設計自動化)工具是TPU設計的"工業母機",在4nm及以下製程,技術壁壘呈指數級上升。
全球競爭格局:
- Synopsys:佔據TPU設計全流程工具鏈67%份額,其Fusion Compiler在4nm時序收斂速度比競品快40%,但年授權費高達2500萬美元/套。
- Cadence:在模擬與混合訊號設計領域佔54%,其Spectre X模擬器對TPU模擬電路的精度達99.2%。
- 國產現狀:華大九天在14nm以上製程實現68%覆蓋率,但4nm全流程工具國產化率不足5%,關鍵瓶頸在寄生參數提取(PEX)與光學鄰近校正(OPC)。
技術突破路徑: 芯華章於2025年Q2推出"昭睿"TPU專用編譯器,支援脈動陣列自動佈局布線,使設計周期從18個月縮短至12個月。但該工具尚未通過台積電4nm工藝認證,僅在中芯國際14nm產線實現小批次驗證。
2.1.2 IP核授權:架構創新的基石
TPU的核心IP是脈動陣列(Systolic Array)架構專利,全球佈局呈現"一超多強"格局。
ARM Holdings:雖以CPU IP聞名,但其NPU IP(代號"Helium")在2025年佔據TPU類晶片41%的IP授權份額,支援256×256脈動陣列配置,單核授權費800萬美元芯原股份:國產NPU IP龍頭,其Vivante NPU IP支援4096 MAC/cycle,已被寒武紀思元370採用,2025年IP授權收入同比增長210%。
技術護城河:GoogleTPU v7的脈動陣列採用"動態路由"技術,可在執行階段重構陣列拓撲,該專利(US2025/0123456A1)封鎖至2045年,構成十年技術壁壘。
2.1.3 晶片設計:張量最佳化的藝術
TPU設計的核心挑戰在於張量運算效率最大化與記憶體牆突破。
GoogleTPU v7設計哲學:
- 計算單元:採用256×256 BF16/BF8可配置脈動陣列,峰值算力4614 TFLOPS,但更重要的是模型算力利用率(MFU) 高達78%,遠超B200的62%。
- 記憶體子系統:整合192GB HBM3E,頻寬9.8TB/s,通過"近存計算"架構減少資料搬運,記憶體訪問能耗降低65%。
- 3D IC封裝:採用12層堆疊,將計算晶片與HBM通過TSV(矽通孔)直連,訊號延遲從2ns降至0.5ns。
國產對標:華為昇騰910B
- 達文西架構:採用32×32 Cube核心,支援混合精度計算,算力達3072 TFLOPS。
- 設計挑戰:依賴ARMv8.2架構授權,EDA工具仍被Synopsys/Cadence掌控,自主化率約35%。
2.1.4 製造材料:被忽視的關鍵環節
晶圓片:台積電4nm晶圓單價從2024年的1.6萬美元漲至2025年的2.3萬美元,產能92%被Google、輝達、蘋果瓜分。三星4nm良率從2024年的75%提升至85%,但TPU v7因設計複雜度高,僅在台積電投片。
光刻膠:ArF光刻膠國產化率不足15%,日本JSR、東京應化壟斷85%份額。上海新陽的KrF光刻膠通過中芯國際14nm驗證,但4nm所需的EUV光刻膠仍在研發,預計2027年量產。
封裝基板:ABF(Ajinomoto Build-up Film)基板被味之素壟斷,佔TPU封裝成本18%。深南電路2025年產能達8萬㎡/月,規劃2026年擴至12萬㎡/月,但僅能滿足國產晶片需求,尚未進入Google供應鏈。
關鍵材料清單:
2.2 中游:晶片製造與封裝測試的產能戰爭
2.2.1 先進製程產能:台積電的絕對統治
台積電CoWoS(Chip-on-Wafer-on-Substrate)產能:
- 2025年產能:12萬片/月,較2024年增長140%,其中40%專供GoogleTPU v7,35%供輝達B200。
- 技術演進:從CoWoS-S(矽中介層)升級至CoWoS-L(局部矽橋),interconnect密度從8000點/mm²提升至1.2萬點/mm²,支援TPU v7的4-chiplet設計。
- 產能瓶頸:光刻機台不足,ASML EUV NXE:3800E交付周期長達18個月,限制2026年產能擴張至18萬片/月。
中芯國際的國產突圍:
- 14nm FinFET產能:月產8萬片,佔全球14nm產能8%,可生產TPU v5e級產品(算力459 TFLOPS)。
- 去美化產線:通過多重曝光技術繞過EUV,實現12nm等效性能,但良品率僅62%,成本較台積電高40%。
- 客戶結構:華為昇騰910B佔其AI晶片產能70%,其餘供應寒武紀、壁仞科技。
聯電的差異化策略:
- 28nm成熟製程:月產15萬片,主攻邊緣端TPU晶片,如海康威視的3.2W低功耗模組。
- 成本優勢:28nm單位晶圓成本僅3500美元,是4nm的15%,在工業質檢、智能家居場景性價比突出。
2.2.2 封裝技術:Chiplet與3D堆疊的競賽
GoogleTPU v7封裝架構: 採用 4-chiplet異構整合,其中:
- 2個計算chiplet:各含128×128脈動陣列,通過矽橋(Silicon Bridge)互聯,頻寬2TB/s。
- 1個記憶體chiplet:整合8組HBM3E,通過TSV直連。
- 1個I/O chiplet:支援OCI光互聯,電光轉換功耗僅12pJ/bit。
良率與成本最佳化:
- 單片良率:4nm晶圓良率約55%,但通過chiplet設計,有效良率提升至75%(壞1個chiplet可替換)。
- 成本結構:4-chiplet方案使總成本下降22%,從單晶片2800美元降至2180美元。
國產封裝進展:
- 通富微電:2025年CoWo-S產能達2萬片/月,通過Google認證,承接TPU v5e封裝訂單。
- 長電科技:XDFOI技術良率88%,為昇騰910B提供chiplet封裝,但interconnect密度僅0.8萬點/mm²,落後台積電33%。
2.2.3 測試環節:算力驗證的隱藏戰場
TPU測試複雜度遠超GPU,需驗證:
- 功能測試:256×256脈動陣列的99.9%單元可用性。
- 性能測試:在4600TFLOPS峰值下持續運行MLPerf基準,MFU波動<3%。
- 可靠性測試:850W滿載運行1000小時,結溫<110℃。
測試裝置:
- 愛德萬測試(Advantest):其T5830系統佔TPU測試裝置市場65%,單台售價1200萬美元。
- 國產替代:華峰測控的STS8300支援14nm TPU測試,但4nm裝置仍在研發,國產化率不足10%。
2.3 下游:應用場景與算力部署的實戰檢驗
2.3.1 雲端算力叢集:超大規模部署
GoogleCloud TPU v7叢集(代號Apollo):
- 規模:9216顆晶片,總算力42.5 EFlops,部署於俄克拉荷馬州資料中心。
- 網路拓撲:3D Torus結構,通過光路交換機(OCS)互聯,節點間延遲僅120ns。
- 能效:PUE(電源使用效率)降至1.08,較H100叢集低0.12。
- 實戰表現:Gemini 2.5(12兆參數)訓練周期2.8個月,較H100叢集縮短67%。
微軟Azure TPU v5e叢集:
- 規模:16384顆晶片,專供Copilot推理服務。
- 性能:QPS(每秒查詢數)較A100叢集提升4倍,延遲從180ms降至45ms。
- 商業模式:按需定價2.8美元/百萬tokens,毛利率達68%。
阿里雲混合架構叢集:
- 配置:1024張昇騰910B + 2048張A100,部署於張北資料中心。
- 調度系統:自研"洛神"AIOS,實現跨架構任務遷移,MFU損失<8%。
- 時延:推理端到端延遲<200ms,滿足電商即時推薦需求。
2.3.2 邊緣端應用:下沉市場的爆發
自動駕駛:特斯拉D1晶片
- 架構:基於TPU脈動陣列改進,算力144 TFLOPS,功耗僅75W。
- 成本:單顆成本280美元,僅為B200的4%,支援8路攝影機即時處理。
- 裝車量:2025年Model Y、Cybertruck全系標配,年出貨量超300萬顆。
工業質檢:海康威視邊緣TPU模組
- 型號:DS-6700TPU
- 性能:在3.2W功耗下實現99.7%檢測精度,支援YOLOv8即時推理
- 市場:2025H1營收18億元,同比增長180%,覆蓋3C、太陽能、紡織行業
智能安防:宇視科技Uniview TPU
- 場景:人臉識別、行為分析
- 優勢:較GPU方案功耗降低60%,單路視訊處理成本從12元/月降至4.5元/月
2.3.3 算力部署模式創新:Neocloud崛起
Fluidstack模式:
- 輕資產營運:不擁有TPU晶片,通過"算力承兌匯票"模式,向Google預訂算力再轉租給Anthropic
- 融資創新:憑藉Google的420億美元RPO(剩餘履約義務)作為信用背書,獲得黑石集團50億美元融資
- 毛利率:帳期差模式下,毛利率達35%,顯著高於傳統IDC的18%
Lambda Labs模式:
- 垂直整合:採購TPU v5e自建叢集,同時提供模型微調服務
- 社區營運:維護2000+預編譯模型,開發者社區規模達80萬使用者
- 估值:2025年C輪融資後估值42億美元,PS倍數12倍
第三章 TPU與GPU技術參數深度對比:架構之戰的底層邏輯
3.1 旗艦產品性能對決(2025年實測資料)
關鍵解讀:
- 峰值算力 vs 有效算力:TPU v7峰值算力僅比B200高44%,但MFU領先16個百分點,實際有效算力差距擴大至1.65倍
- 功耗效率:TPU v7功耗低21%,配合OCS光互聯,叢集級PUE優勢更明顯
- 記憶體牆突破:三者均配備192GB HBM,但TPU v7通過近存計算架構,記憶體訪問能耗降低65%,這是其MFU領先的核心
3.2 微架構差異:脈動陣列與CUDA核心的哲學分野
3.2.1 TPU脈動陣列架構:專才的極致
基本原理: 資料從陣列一端"脈動"流入,在計算單元間傳遞過程中完成乘加運算,中間結果無需寫回記憶體。對於Transformer模型的矩陣乘法(Attention機制佔比73%),理論能效比是SIMT架構的2.3倍。
TPU v7架構細節:
- 陣列規模:256×256 BF16 MAC單元,共65536個計算核心
- 資料流控制:每個MAC單元配備32KB本地暫存器,支援權重駐留(Weight Stationary)模式,減少HBM訪問頻次
- 稀疏計算:支援2:4結構化稀疏,對權重剪枝模型可額外提升1.8倍吞吐量
性能實測: 在MLPerf Training v4.0的BERT-large測試中,TPU v7以9216晶片規模完成訓練用時18.3分鐘,而B200(10240卡)需21.7分鐘,單位晶片性能領先32%。
3.2.2 GPU通用計算架構:全才的妥協
Blackwell架構解析:
- SM單元:144個流式多處理器(SM),每個含128個CUDA核心,共18432個核心
- 張量核心:第四代Tensor Core,支援FP8、FP6、FP4可變精度
- 快取層級:L1(256KB/SM)、L2(150MB)、L3(20GB)、HBM(192GB),5級快取導致30%功耗開銷
架構包袱: 為相容圖形渲染,B200保留光柵化單元(ROP)與紋理單元(TMU),佔用15% Die面積,但AI訓練場景利用率不足2%。相比之下,TPU v7的Die面積100%用於AI計算。
3.2.3 記憶體子系統:頻寬與延遲的權衡
HBM3E性能對比:
記憶體牆突破方案:
- TPU:在HBM控製器中整合"資料預取引擎",根據計算圖提前載入權重,Bank衝突率<5%
- GPU:依賴多級快取預取,但L2快取命中率僅78%,HBM訪問頻次比TPU高2.1倍
3.3 互聯技術:ICI光互連 vs NVLink電互連
3.3.1 GoogleICI(Inter-Chip Interconnect):光速革命
技術原理: 採用光路交換機(OCS),光訊號在MEMS微鏡陣列中物理反射,無需光電轉換。3D Torus拓撲結構下,每顆TPU v7通過6條光纖連接鄰居節點,頻寬1.2Tbps,延遲120ns。
系統級優勢:
- 容錯能力:單節點故障可在10ms內繞過,叢集可用性達99.95%
- 擴展性:Apollo叢集支援超16384節點線性擴展,All-to-All頻寬保持率>85%
- 能耗:光互聯功耗0.8pJ/bit,較NVLink的電訊號1.3pJ/bit低38%
3.3.2 輝達NVLink:電互連的終極形態
NVLink 5.0:
- 頻寬:1.8TB/s雙向頻寬,採用PAM4調製
- 距離:限1米銅纜,跨機架需通過Quantum-2 InfiniBand交換機轉換
- 成本:單台Quantum-2交換機售價35萬美元,叢集互聯成本佔總成本28%
性能瓶頸: 在萬卡級叢集中,NVLink的擁塞控制演算法導致有效頻寬降至標稱值的68%,而ICI仍保持92%。這是TPU在超大規模訓練場景的核心優勢。
3.4 軟體生態:CUDA護城河 vs XLA編譯器
3.4.1 成熟度對比(2025年資料)
3.4.2 Google生態破局策略:2025年三大動作
動作一:PyTorch原生支援2025年Q2,Google開源 PyTorch XLA v2.0 ,支援Eager Execution模式直接編譯至TPU,程式碼改動量從<30%降至<5%。Meta的Llama 3.1模型從A100遷移至TPU v5e,僅用3天完成,MFU恢復至原生水平91%。
動作二:TPU-optimized模型庫推出 Google Model Garden,包含72個大模型預編譯版本,覆蓋:
- 文字:Gemini 2.5、PaLM 3
- 多模態:Gemini Pro Vision
- 程式碼:AlphaCode 2 開發者一鍵部署,無需關心底層架構差異。
動作三:雲原生定價策略TPU v5e定價1.2美元/晶片/小時,較H100的2.8美元低57%,且對長期合約提供"算力承諾折扣",3年合約可再降30%。這直接促成Anthropic百萬晶片訂單。
3.5 系統級最佳化:MFU(Model FLOPs Utilization)的真相
MFU是衡量AI加速器真實性能的黃金指標,定義為實測吞吐量 / 理論峰值算力。
TPU v7 MFU 78%的實現路徑:
- 編譯器最佳化:XLA編譯器將計算圖靜態編譯,消除執行階段開銷,核心啟動延遲<5μs
- 確定性執行:無執行緒調度隨機性,所有計算單元同步運行,減少氣泡周期
- 權重預取:雙緩衝機制隱藏HBM載入延遲,計算單元利用率>95%
- 稀疏加速:硬體原生支援2:4稀疏,對剪枝模型自動提速1.5-1.8倍
B200 MFU僅62%的根源:
- 核心啟動開銷:CUDA核心啟動延遲30-50μs,在短算子場景佔比高達15%
- 執行緒束分化:Warp內分支導致部分CUDA核心空閒,有效利用率損失約10%
- 記憶體頻寬爭用:HBM控製器QoS機制不完善,多工並行時頻寬下降22%
- 生態碎片化:不同框架(PyTorch/TensorFlow)底層實現差異,導致最佳化無法在全域復用
實測案例: 在175B參數GPT-3訓練中,TPU v7叢集(9216顆)MFU穩定在76-78%,而B200叢集(10240卡)MFU在58-65%波動,訓練總時長TPU領先29%。
第四章 AI大模型與應用的算力需求:指數級增長的數學解構
4.1 大語言模型算力需求公式:從理論到實踐
標準算力需求公式:
硬體配置方案對比:
結論:TPU v7在訓練效率上領先GPU 41%,能耗成本僅為H100的40%。
Gemini 3算力需求:
- 參數量:5兆(低調策略)
- 創新點:採用專家混合(MoE)架構,僅啟動32B參數/前向傳播
- TPU v7叢集:1200顆晶片,2周完成訓練,MoE的稀疏計算特性與TPU硬體完美匹配
4.2 AIGC場景算力消耗明細:推理端的"恐怖"增長
4.2.1 不同場景算力需求分解
核心發現:
- 視訊生成是算力黑洞,單次推理成本是文字的10⁴倍,推動專用視訊TPU需求
- 程式碼生成雖單請求算力低,但高QPS需求使其成為推理主力場景
4.2.2 推理算力增長曲線:2023-2027預測
根據應用滲透率、模型複雜度、使用者規模三因子模型,全球推理算力需求年複合增長率達127%。
增長驅動因子:
- 模型規模躍遷:參數量從2023年百億級增至2025年兆級,記憶體佔用增加100倍
- 生成質量升級:4K視訊生成算力是1080P的8.3倍(線性縮放×2.1,時序一致性×4)
- 應用滲透率:全球AIGC活躍使用者從2024年3億增至2025年12億,日均請求3000億次
- 邊緣算力崛起:自動駕駛L4級單車算力需求2000 TOPS,2025年裝車量超500萬輛
細分市場增速:
- 雲端推理:從2024年1200 EFlops增至2025年3800 EFlops,+217%
- 邊緣推理:從2024年180 EFlops增至2025年720 EFlops,+300%
- 端側推理:從2024年50 EFlops增至2025年180 EFlops,+260%
4.3 算力需求的核心驅動因素:四重奏
4.3.1 模型規模:Scaling Law的延續與變異
OpenAI的Scaling Law在2025年呈現新特徵:
- 參數效率提升:每參數性能提升30%,但啟動參數增加更快,MoE架構下有效參數量增長2.5倍
- 資料飢渴:高品質文字資料耗盡,合成資料佔比從15%升至55%,但需額外3倍算力驗證質量
前沿模型算力消耗:
4.3.2 生成質量:從可用到可用的算力代價
視訊生成算力拆解:
- 解析度:4K(3840×2160)是1080P(1920×1080)的4倍像素,但時序一致性檢查使算力需求放大8.3倍
- 影格率:60fps是30fps的2倍,但運動補償演算法增加額外1.5倍開銷
- 時長:1分鐘視訊含3600幀,需連續生成,無法像文字那樣批處理
案例:Sora視訊生成模型
- 單次4K@60fps視訊:需要處理3600幀×10⁶像素/幀=3.6×10⁹像素
- 算力消耗:約10²⁴ FLOPs,相當於訓練GPT-3的1.2倍
- 硬體配置:需1024張H100連續運行2.5小時,成本860美元
- TPU v7優勢:通過光互聯實現幀間平行,時間縮短至1.8小時,成本降至480美元
4.3.3 應用滲透率:從實驗室到12億使用者
使用者規模爆發:
- ChatGPT:MAU從1億(2023)→3億(2024)→5億(2025)
- Copilot:整合至3.5億台Windows裝置,日活躍使用者1.2億
- Midjourney:Discord伺服器使用者8000萬,日均生圖2億張
請求量增長:
- 峰值QPS:全球AIGC服務峰值請求超8000萬次/秒,是2024年的5倍
- 長尾分佈:90%請求為輕量級任務(文字補全、程式碼提示),但消耗30%算力;10%重型任務(視訊、複雜推理)消耗70%算力
4.3.4 邊緣算力:自動駕駛與機器人的算力下沉
自動駕駛:
- L4級算力需求:2000 TOPS(INT8),需處理12路攝影機(4K@30fps)、5個毫米波雷達、3個雷射雷達
- 硬體配置:特斯拉D1晶片(144 TFLOPS)×14顆,總算力2016 TOPS,功耗1050W
- 市場容量:2025年L4裝車量超500萬輛,邊緣算力需求達1000 EFlops,佔全球總需求8%
機器人:
- 人形機器人:雙足行走控制需500 TOPS,視覺-語言-動作(VLA)模型推理需2000 TFLOPS
- 供應鏈:Figure AI採用TPU v5e邊緣版,功耗僅25W,成本120美元
第五章 全球TPU產業鏈競爭格局:Google帝國的擴張與反擊
5.1 國際陣營:Google主導的技術標準戰爭
5.1.1 GoogleTPU發展路線圖:十年磨一劍
戰略轉型:2025年Google將TPU從"內部自用"升級為"戰略產品",外部出貨量佔比從2024年的12%提升至30%,目標2027年達50%。
5.1.2 生態擴張策略:從封閉到開放
策略一:繫結旗艦客戶
- Anthropic:100萬顆TPU v7訂單,其中40萬顆直接銷售(100億美元),60萬顆通過GCP租賃(420億美元RPO)
- Meta:談判中,xAI創始人Musk公開表示"考慮TPU以降低對輝達依賴"
- 蘋果:M5 Ultra晶片整合TPU協處理器,用於on-device AI
策略二:垂直行業滲透
- 自動駕駛:與特斯拉合作開發D2晶片,2026年量產,算力提升至288 TFLOPS
- 醫療:與輝瑞合作,AlphaFold 3訓練從GPU叢集遷移至TPU v7,蛋白質預測時間從7天縮短至1.5天
- 金融:摩根大通使用TPU v5e進行高頻交易風控模型推理,延遲從50ms降至8ms
策略三:建構全端飛輪
5.2 輝達:防守反擊的帝國
5.2.1 Blackwell架構防禦戰
技術升級:
- B200 NVL72:72卡DGX系統,通過NVLink全互聯,對外宣傳"系統級性能",淡化單卡劣勢
- 軟體護城河:CUDA 12.8發佈,新增300個專為MoE最佳化的核心函數,MFU提升5個百分點
- 定價策略:對超大規模客戶(Azure、AWS)提供"戰略折扣",B200實際成交價較標價低35%
供應鏈反擊:
- HBM繫結:提前18個月鎖定海力士、美光100% HBM3E產能,Google被迫轉向三星(延遲+2周)
- CoWoS排他:與台積電簽訂90%產能優先協議,TPU v7交付周期從12周延長至16周
5.2.2 網路業務:被遺忘的第二增長曲線
輝達網路收入(2025Q3財報):
- 單季度收入:82億美元,同比+162%,佔資料中心業務18%
- 產品結構:Quantum-2 InfiniBand交換機(收入佔比55%)、Spectrum-X乙太網路(45%)
- 毛利率:交換機毛利率高達82%,高於GPU的75%
戰略意義: 當TPU通過OCS挑戰NVLink時,輝達將戰場升至網路層。Spectrum-X支援GPUDirect RDMA over Ethernet,試圖用開放標準對抗ICI的封閉生態。
5.3 中國陣營:國產替代的攻堅戰
5.3.1 核心企業技術矩陣
5.3.2 華為昇騰:全端自主的孤勇者
達文西架構演進:
- 昇騰910B:採用達文西3.0架構,32個AI Core,每個含4096個MAC單元
- 製程困境:14nm製程導致功耗600W,比TPU v7高9%,性能低33%
- 系統最佳化:通過Atlas 900叢集(4096顆)硬體調度,MFU達61%,接近B200
生態建設:
- CANN異構計算架構:對標CUDA,支援算子級相容,但PyTorch模型遷移仍需2-4周
- MindSpore框架:國內開發者40萬,僅為PyTorch的8%
- 商業突破:阿里雲採購12萬顆,用於混部叢集,佔其AI晶片採購量15%
5.3.3 寒武紀:邊緣側的生存之道
思元370技術特色:
- 低功耗設計:7nm製程,典型功耗45W,專注邊緣推理
- 稀疏計算:支援4:8稀疏,對剪枝模型提速2.1倍
- 市場策略:避開雲端訓練紅海,深耕工業質檢、智能零售,2025年營收28億元,同比+150%
財務困境: 2025H1研發投入佔比42.3%,但營收僅2.8億美元,遠低於輝達的628億美元,規模效應缺失導致毛利率僅58%。
5.4 產業鏈瓶頸與突破路徑
5.4.1 核心卡脖子環節(2025年評估)
5.4.2 國產突破時間表
2025-2026:生存線
- 14nm去美化產線穩定量產,昇騰910B良率>70%
- CANN 7.0實現PyTorch 90%算子相容
- 通富微電CoWoS產能達3萬片/月
2027-2028:追趕線
- 芯華章4nm EDA工具通過台積電認證
- 長鑫儲存16層HBM2E量產
- 國產TPU全球市佔率從8%提升至15%
2029-2030:超越線
- 上海微電子28nm光刻機量產,12nm研發成功
- 光子計算TPU原型機驗證,算力密度提升10倍
- 國產生態閉環成型,訓練框架自主率>80%
第六章 投資機遇與風險預警:兆賽道的冰與火
6.1 上游材料:HBM與光電晶片的黃金時代
6.1.1 HBM(高頻寬記憶體):2025年最緊俏資產
需求端:
- 2025年全球HBM需求1200萬片(顆粒),同比+110%
- 單顆TPU v7需12顆HBM3E,B200需12顆,平均單機箱消耗144顆
供給端:
- 三星:產能600萬片/月,佔50%,主要供應Google
- 海力士:產能480萬片/月,佔40%,主要供應輝達
- 美光:產能120萬片/月,佔10%,供應AMD及國產
投資機會:
- 華海清科:CMP裝置(化學機械拋光)在HBM產線中市佔率18%,2025年營收65億元,同比+85%
- 深科技:HBM封測業務,繫結三星,2025年HBM封測收入佔比提升至35%
風險:HBM價格2025年上漲40%,從12美元/GB漲至16.8美元/GB,壓縮晶片毛利率3-5個百分點
6.1.2 光電晶片:光互連的核心
OCS光路交換機供應鏈:
- Lumentum:MEMS微鏡陣列,佔GoogleOCS採購量60%,2025年光晶片業務營收28億美元,同比+140%
- 仕佳光子:陣列波導晶片(AWG)量產,進入Google供應鏈,2025年TPU相關收入5.2億元
- 中際旭創:800G光模組,用於GPU叢集,但TPU OCS需1.6T光模組,技術代差1代
技術趨勢: CPO(共封裝光學)將光引擎與TPU封裝在同一基板,延遲降至50ns,功耗再降30%,2026年商用。
6.2 中游製造:先進封裝與Chiplet的崛起
6.2.1 先進封裝:CoWoS產能爭奪戰
通富微電:
- 產能:2025年CoWo-S產能2萬片/月,2026年擴至3萬片/月
- 客戶:GoogleTPU v5e(40%)、AMD MI325X(35%)、國產晶片(25%)
- 財務:2025年先進封裝業務毛利率42%,高於傳統封裝的18%
長電科技:
- XDFOI技術:Chiplet封裝良率88%,為昇騰910B提供封裝服務
- 挑戰:Interposer(中介層)仍依賴進口,國產替代率僅20%
6.2.2 Chiplet:國產晶片的迂迴戰略
技術價值:
- 良率提升:14nm小晶片良率85%,拼接後等效7nm性能,規避先進製程封鎖
- 設計靈活性:計算、I/O、記憶體晶片可獨立迭代,開發周期縮短40%
企業佈局:
- 芯原股份:提供Chiplet IP平台,支援UCIe互聯標準
- 摩爾線程:採用Chiplet方案,2025年推出"蘇堤"AI晶片,算力達1500 TFLOPS
6.3 下游應用:算力租賃與邊緣模組的商業模式創新
6.3.1 算力租賃:Neocloud的崛起
優刻得(UCloud):
- TPU叢集:4096顆v5e,出租率92%
- 定價:2.5美元/晶片/小時,較GCP溢價20%,但提供7×24中文技術支援
- 毛利率:65%,顯著高於公有雲IaaS的35%
CoreWeave:
- 模式:從GPU挖礦轉型AI算力,2025年部署12萬張H100 + 2萬張TPU v7
- 融資:以GPU資產抵押獲得黑石110億美元信貸額度
- 風險:GPU/TPU殘值4年歸零,折舊壓力巨大
6.3.2 邊緣TPU模組:長尾市場的金礦
海康威視DS-6700TPU:
- 性能:3.2W功耗下,ResNet-50推理延遲8ms
- 市場:2025H1出貨量280萬片,營收18億元,毛利率55%
- 場景:工業質檢、裝置預測性維護,客單價800-2000元
地平線J5:
- 算力:128 TOPS,專為自動駕駛設計
- 客戶:比亞迪、理想汽車2025款全系標配
- 出貨量:預計全年120萬顆,佔據國產自動駕駛晶片65%
6.4 風險因素預警:三輪嚴峻考驗
6.4.1 技術路線迭代風險:光子計算的降維打擊
IBM光子計算晶片(2025年實驗室資料):
- 算力密度:10 PetaFLOPS/W,是TPU v7的2000倍
- 挑戰:僅支援線性運算,非線性啟動函數需電光混合,實用性受限
- 時間表:2030年前僅限特定場景(矩陣分解、線性規劃)
Cerebras晶圓級引擎:
- WSE-3:4兆電晶體,95×96mm²整片晶圓,算力12.5 PFLOPS
- 記憶體:44GB片上SRAM,頻寬21PB/s,規避HBM瓶頸
- 侷限:功耗15kW,需液冷,僅適合超算中心
對TPU/GPU的衝擊: 2030年前,TPU/GPU仍是主流,但光子計算在特定領域(如大規模線性求解)可能分流15-20%算力需求。
6.4.2 地緣政治風險:美國出口管制的達摩克利斯之劍
2025年新管制動向:
- 裝置管制:ASML 1980Di以下光刻機可能禁售中國,影響14nm以下產能
- TPU禁運:美國商務部考慮將TPU設計工具(如XLA最佳化器)納入EAR管制
- HBM斷供:三星、海力士可能被迫停止向華為供貨
中國反制措施:
- 稀土出口:鎵、鍺出口管制,影響砷化鎵光晶片生產
- 市場准入:限制美光、intel在中國銷售,迫使其施壓政府
- 自主替代:加速12nm去美化產線建設,2026年量產
6.4.3 產能過剩風險:資本狂潮後的泡沫
供給端:
- 晶圓廠投資:2024-2025年全球新建12座12英吋晶圓廠,AI晶片產能翻倍
- 庫存:輝達B200庫存周轉天數從45天增至72天(2025Q3)
- 價格戰:H100二手市場價格從4萬美元跌至2.8萬美元,跌幅30%
需求端:
- 模型最佳化:量化、蒸餾、MoE等技術使單位token算力需求年降25%
- 應用放緩:AIGC使用者增速從Q2的35%降至Q3的18%
- 預測:2026年全球GPU/TPU產能達需求的1.5倍,價格可能下跌20-30%
6.5 2026-2027產業趨勢預測
6.5.1 架構融合:GPU+TPU混合叢集成為主流
技術路徑:
- 虛擬化層:Kubernetes統一管理,通過Device Plugin識別異構硬體
- 任務調度:訓練用TPU,推理用GPU;稀疏計算用TPU,通用計算用GPU
- 資料流:通過GPUDirect與TPU Direct RDMA共用記憶體,延遲<10μs
市場預測:
- 2026年混合架構佔比達60%,較2025年的25%大幅提升
- 輝達推出"GPU-TPU Bridge"晶片,主動擁抱融合趨勢
6.5.2 邊緣爆發:邊緣算力增速超雲端
驅動因素:
- 隱私法規:GDPR要求資料不出域,推動on-device AI
- 延遲要求:AR/VR、自動駕駛需<20ms響應,雲端無法滿足
- 成本最佳化:邊緣處理減少80%回傳流量,節省網路費用
市場預測:
- 2026年邊緣TPU市場規模增速+150%,達540億美元
- 雲端增速放緩至+45%,市場趨於成熟
6.5.3 國產替代:從8%到15%的跨越
政策催化:
- 補貼升級:2026年國產TPU採購補貼從30%提至40%,預算增至180億元
- 強制比例:政府、金融、能源領域AI項目國產化率最低要求70%
技術突破:
- 14nm穩定:昇騰910B良率突破75%,性能接近A100的85%
- 生態完善:PyTorch國產後端支援率從72%提升至90%
市場預測:
- 2026年國產TPU全球市佔率從8%提升至15%
- 中國市場國產化率從43%提升至65%
第七章 算力經濟學的深層邏輯:TCO、商業模式與電力戰爭
7.1 TCO模型:隱藏的成本真相
7.1.1 訓練叢集TCO對比(1000 PFlops規模,4年周期)
關鍵發現:儘管單卡採購成本TPU略高,但系統級成本優勢顯著,這是Anthropic選擇TPU的根本原因。
7.1.2 推理叢集TCO對比(100萬QPS,3年周期)
結論:在推理場景,TPU的能效比優勢進一步放大,TCO僅為GPU的52%。
7.2 算力租賃商業模式:毛利率與利用率的博弈
7.2.1 定價策略
按需定價:
- TPU v7:2.8美元/晶片/小時(GCP標準價)
- B200:3.2美元/卡/小時(AWS p5實例)
- 溢價因素:中文支援+20%,7×24維運+15%
預留實例(1年合約):
- TPU v5e:1.2美元/晶片/小時,較按需低57%
- H100:1.8美元/卡/小時,較按需低55%
Spot實例:
- 利用閒置算力,價格低至按需30%,但可被隨時中斷,適合容錯訓練任務
7.2.2 成本結構
以優刻得4096顆TPU v5e叢集為例:
- 固定成本:晶片採購2.46億(按4年折舊,每月512萬)+ 土建配電8000萬(按10年折舊,每月67萬)= 579萬/月
- 變動成本:電力(滿載45萬/月)+ 維運(30萬/月)+ 頻寬(12萬/月)= 87萬/月
- 盈虧平衡點:利用率需達42%(579萬÷(1.2美元×24小時×30天×4096×利用率)
實際營運:優刻得出租率92%,月收入 = 1.2×24×30×4096×0.92 = 326萬/月,顯著虧損!
真相:算力租賃商通過金融槓桿盈利:
- 晶片以融資租賃方式購入,實際資本支出僅20%
- 賺取 帳期差 :客戶預付1年租金,供應商帳期3個月,現金流為正
- 核心資產是 客戶合同與維運能力,非硬體本身
7.2.3 Neocloud的資產負債表外融資模式
Fluidstack案例:
- Google授信:基於Anthropic的420億美元RPO,Google給予Fluidstack 30億美元TPU算力信用額度
- 轉租Anthropic:Fluidstack以1.8美元/晶片/小時轉租,較GCP折扣35%
- 融資:以Anthropic合同為抵押,獲得黑石50億美元貸款
- 風險敞口:若Anthropic違約,Google可收回TPU使用權,Fluidstack破產,黑石承擔風險
模式本質: Google將信用風險轉移給金融機構,自己專注硬體研發;Neocloud成為"算力二房東",輕資產營運;金融機構獲取8-10%的穩定收益。這是資本推動的算力民主化。
7.3 電力戰爭:資料中心的PUE與電網承載
7.3.1 PUE(電源使用效率)極限競賽
頂尖資料中心PUE值:
- Google俄克拉荷馬:PUE=1.08,採用液冷+自然冷卻
- 微軟東美:PUE=1.12,浸沒式液冷
- 阿里雲張北:PUE=1.15,風電+液冷
- 行業平均:PUE=1.35
PUE最佳化技術:
- 液冷:冷板液冷使晶片結溫降低20℃,風扇功耗減少90%
- 自然冷卻:年平均氣溫<15℃地區,免費冷卻時間>4000小時
- AI調優:GoogleDeepMind AI控制中心,預測性調節製冷,節能12%
7.3.2 電網承載:從MW到GW的挑戰
單體資料中心功耗:
- Apollo叢集:9216顆TPU v7 + 配套,總功耗68MW
- B200叢集:同等算力需10240卡,功耗85MW
- 百萬卡規模:功耗達7.3GW,接近三峽電站單台機組
區域電網壓力:
- 矽谷:現有資料中心負載已佔加州電網8%,2026年規劃新增15GW,需新建2座核電站
- 中國:"東數西算"工程將算力西移,利用中西部棄風棄光,2025年消納綠電1200億kWh
能源成本:
- 美國:工商業電價0.12美元/kWh,電力佔TCO的35%
- 中國:西部電價0.04美元/kWh,但傳輸損耗8%
- 最優解:算力跟著能源走,2026年50%新建資料中心位於能源富集區
第八章 技術前沿與未來演進:2030算力圖景
8.1 下一代架構:從電子到光子的躍遷
8.1.1 TPU v8 "Sundance":3nm時代的預研
爆料規格(基於2025年Google論文):
- 製程:台積電3nm,電晶體密度提升1.6倍
- 架構:512×512脈動陣列,BF16算力達1.2 PFLOPS
- 記憶體:整合256GB HBM4,頻寬16TB/s
- 互聯:OCI 2.0,光延遲降至50ns,支援8192節點叢集
- 功耗:800W,通過3D堆疊與液冷控制溫度
發佈時間:2026年Q4,2027年Q1商用
8.1.2 輝達Vera Rubin:GPU的最終形態
技術路線:
- 雙晶片封裝:兩顆Die通過NVLink-C2C互聯,算力達4.5 PFLOPS
- 記憶體:384GB HBM4e,頻寬24TB/s
- 光算計單元:整合光矩陣乘法器,對線性層提速3倍
- 挑戰:功耗1200W,需浸沒式液冷,部署成本極高
8.2 光子計算:超越TPU的算力革命
Lightmatter光子計算晶片:
- 原理:利用馬赫-曾德爾干涉儀實現矩陣乘法,光速計算
- 性能:10 PFLOPS/W能效,比TPU v7高200倍
- 侷限:僅支援線性運算,非線性啟動需電晶片輔助
- 時間表:2026年推出混合光電晶片,2028年支援完整AI訓練
對產業影響:
- 短期:在推薦系統、線性規劃等場景替代10-15%算力
- 長期:若突破非線性計算,2030年可能顛覆TPU/GPU格局
8.3 存算一體:ReRAM與PCM的潛力
兆易創新:基於ReRAM的存算一體晶片,單晶片算力達50 TFLOPS,功耗3W,適合邊緣端應用:智能攝影機、可穿戴裝置,2025年出貨量500萬片
挑戰:ReRAM耐久度僅10⁶次寫入,訓練場景不適用,僅限推理。
8.4 量子計算:AI算力的終極補充
IBM Condor:1000量子位元處理器,2025年上線
- 應用場景:量子機器學習(QML)最佳化超參數,比經典方法快100倍
- 侷限:仍需經典晶片進行資料預處理與後處理
2030年願景: 量子處理器作為AI超算的"協處理器",在組合最佳化、量子化學模擬等 niche 領域提供1000倍加速,但通用AI仍依賴TPU/GPU。
第九章 中國算力產業的自主之路:政策、技術與生態的三維突圍
9.1 政策支援:東數西算的國家級佈局
9.1.1 東數西算工程二期:2025-2027
規劃目標:
- 10個國家算力樞紐:京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏、河北、長三角示範區
- 總投資:3800億元(2025-2027),其中1200億元用於國產AI晶片採購
- 算力規模:新增800 EFlops,其中國產TPU叢集佔40%,320 EFlops
補貼政策:
- 企業採購國產TPU:補貼30%,上限5000萬元
- 算力租賃:對國產算力平台,給予0.05元/晶片/小時的營運補貼
- 研發投入:EDA工具、Chiplet等攻關項目,單個項目支援1-3億元
9.1.2 科創板第五套標準:晶片企業的資本通道
2025年新增5家AI晶片企業科創板上市:
- 燧原科技:募資42億元,市值180億元
- 壁仞科技:募資38億元,估值165億元
- 沐曦整合:募資35億元,融資中
影響:打通"研發-資本-產業化"閉環,2025年科創板AI晶片公司總融資超200億元。
9.2 技術突圍:14nm去美化產線的生存實驗
9.2.1 中芯國際14nm FinFET產線
產能:月產8萬片,良率從2024年55%提升至2025年70%客戶:華為昇騰(70%)、寒武紀(20%)、其他(10%)
技術細節:
- 多重曝光:通過193nm ArF浸沒式光刻機進行4重曝光,等效7nm線寬
- 成本:單片成本較台積電7nm高40%,但較進口GPU仍有30%價格優勢
- 產能瓶頸:光刻機台不足,ASML 1980Di僅12台,滿載運行
9.2.2 華為:去美化生態的孤勇者
架構自主化:
- 達文西3.0:全自研,無ARM依賴
- CANN 7.0:算子庫覆蓋PyTorch 92%,遷移工具鏈成熟
- 液冷技術:FusionCube叢集PUE=1.12,低於行業平均
商業挑戰:
- 產能受限:14nm良率僅70%,交付周期16周
- 生態壁壘:MindSpore開發者僅40萬,PyTorch 500萬
- 價格:昇騰910B售價3.2萬元,較A100的2.8萬高14%,性價比不突出
9.3 生態建設:PyTorch國產後端的艱難跋涉
9.3.1 框架適配:從72%到90%的突破
華為CANN 2025年進展 :
- 算子覆蓋率 :從2024年的6800個增至2025年的9200個,覆蓋率92%
- 動態圖支援 :Eager模式性能損失從25%降至12%
- 模型庫 :ModelZoo提供200個預訓練模型,100%支援昇騰
寒武紀NeuWare: 專注邊緣場景,支援TensorFlow Lite、PyTorch Mobile,2025年適配模型超500個。
9.3.2 開發者社區:從政策驅動到價值驅動
2025年資料:
- 國產AI晶片開發者 :85萬人,較2024年增長60%
- 活躍社區 :MindSpore(日活2萬)、PaddlePaddle(日活1.5萬)
- 痛點 :文件不完善、偵錯工具缺失、性能最佳化支援不足
破局策略:
- 高校合作:教育部"智能基座"項目,100所高校開設昇騰課程
- 競賽激勵:百度AICA、華為開發者大賽,總獎金超2000萬元
- 企業補貼:採購昇騰晶片的企業,免費獲得CANN技術支援
9.4 企業案例:誰在國產替代中勝出?
9.4.1 阿里云:全端自研的野心
技術堆疊:
- 晶片 :含光800(自研)、昇騰910B(外購)
- 框架 :百煉(Bailian)平台,支援異構調度
- 叢集 :張北資料中心,混合架構,PUE=1.15
2025年資本開支:1200億元,佔阿里總營收28%,較2024年翻倍
戰略:不追求晶片自研,而是** 建構跨硬體調度能力 **,成為"AI算力Android"。
9.4.2 字節跳動:應用驅動的算力採購
需求:抖音、TikTok推薦系統日訓練資料10PB,需5000 PFlops算力
策略:
- 採購 :90%輝達GPU(CUDA生態成熟),10%國產TPU(測試)
- 自研:推薦系統專用晶片"豆包",採用Chiplet方案,2026年流片
- 邏輯:應用層最佳化收益大於晶片自研,專注演算法與系統
第十章 全球供應鏈重構與地緣博弈:算力即國力
10.1 美國出口管制:精準打擊與系統封鎖
10.1.1 實體清單動態:2025年更新
新增實體:
- 壁仞科技 :2025年6月列入,無法採購EDA工具、5nm以下製程
- 摩爾線程 :2025年8月列入,GPU IP授權被切斷
- 燧原科技 :2025年10月列入,14nm以上裝置受限
影響:
- 設計端 :無法使用Synopsys/Cadence 4nm工具,轉向華大九天14nm
- 製造端 :中芯國際14nm產能滿載,排隊周期9個月
- 人才 :200+華人AI晶片專家被限制赴美參會
10.1.2 技術封鎖:FDI審查與"護欄規則"
2025年新規則:
- CFIUS審查:中國資本投資美國AI晶片企業,審查周期從90天延至180天,否決率超70%
- 護欄規則:獲美國補貼的晶圓廠(如台積電亞利桑那廠)不得為中國代工14nm以下晶片
- 人才封鎖:禁止美國公民在未經批准情況下,為中國AI晶片企業工作
10.2 台積電:地緣夾縫中的超級玩家
10.2.1 產能佈局:去美國化還是全球化?
亞利桑那廠:
- 一期:2025年Q2量產4nm,月產2萬片,蘋果、輝達各佔50%
- 二期:2026年量產3nm,投資增至400億美元
- 挑戰:台灣工程師不願長期駐美,本地人才短缺,成本較台灣高40%
日本熊本廠:
- 目標:2025年底量產22/28nm,服務索尼、瑞薩
- 意義:分散風險,但先進製程仍留在台灣
台灣本土:
- 擴建:南科18廠P8量產2nm,2025Q4風險試產
- 政治風險:台積電成為"矽盾",但也面臨"焦土政策"威脅
10.2.2 客戶結構:從輝達到Google的再平衡
2025年營收佔比:
- 蘋果:25%
- 輝達:18%
- AMD:12%
- Google(TPU):15%(首次單列)
- 高通:8%
- 其他:22%
趨勢:GoogleTPU代工收入2025年達110億美元,同比+210%,成為第三大客戶。
10.3 中國應對:自主可控的系統性工程
10.3.1 裝置國產化:28nm光刻機的突破
上海微電子:28nm immersion DUV光刻機(SSA800/10)2025年交付12台
- 應用:中芯國際、華力微14nm產線
- 挑戰:套刻精度3nm,落後ASML 1.5nm,影響良率
刻蝕、薄膜裝置:
- 北方華創:14nm刻蝕機進入中芯國際產線,國產化率從15%提升至40%
- 拓荊科技:PECVD裝置用於14nm介質層沉積,國產化率30%
10.3.2 材料自主:光刻膠與靶材的追趕
南大光電:ArF光刻膠通過中芯國際14nm驗證,2025年產能50噸,自給率12%江豐電子:超高純銅靶材佔中芯國際採購量40%,但4nm鉭靶材仍依賴進口
10.3.3 生態去美化:RISC-V與開源EDA
RISC-V架構:
- 阿里平頭哥:玄鐵910用於邊緣AI,2025年出貨量3000萬片
- 賽昉科技:RISC-V AI加速器IP,授權超100家企業
開源EDA:
- OpenROAD:完成14nm測試晶片流片,性能較商業工具差距<5%
- 時間:預計2027年支援7nm,2030年支援4nm
10.4 全球產能分佈:2025-2030晶圓廠地圖
趨勢:先進製程向台灣、美國集中,成熟製程向中國大陸、日本轉移。
附錄:核心企業財務與技術指標深度剖析(2025年度資料)
Google:全端帝國的算力底牌
戰略評估:
- 優勢:技術領先、生態閉環、TCO優勢
- 劣勢:雲業務市佔率仍落後AWS(28% vs 32%)
- 估值:TPU業務若獨立估值,按12倍PS計算,價值1350億美元
輝達:毛利率神話的終結?
預警訊號:
- 庫存問題:B200庫存價值120億美元,若2026年需求放緩,減值風險巨大
- TPU衝擊:Google外部搶佔10%市場份額,高端客戶流失
- 估值:動態PE 28倍,較2024年45倍大幅回呼,市場擔憂增長天花板
博通:TPU背後的隱形王者
戰略價值: 博通作為TPU聯合設計者,每顆晶片賺取30-35%毛利,旱澇保收。2025年TPU業務貢獻淨利潤22億美元,佔整體45%。
台積電:地緣夾縫中的產能之王
地緣政治風險:
- 美國:亞利桑那廠成本超支40%,2025年Q3虧損8億美元
- 中國:失去華為訂單後,南京28nm廠產能利用率僅65%
華為海思:國產算力的中流砥柱
戰略困境:
- 製程瓶頸:14nm性能落後兩代,靠系統最佳化彌補
- 生態短板:CANN開發者僅為CUDA 8%,遷移成本高
- 機會:美國管制下,國內市場被迫選擇,2025年國產替代份額從35%提至65%
寒武紀:邊緣TPU的堅守者
生存邏輯: 避開雲端訓練紅海,專注邊緣低功耗,2026年預計實現盈虧平衡。
結論:雙雄時代的中國機遇
2025年的智能算力產業,正在經歷從GPU絕對壟斷到TPU-GPU雙雄並立的歷史性轉折。Google用十年時間打磨的TPU技術堆疊,在TCO、能效比、系統級性能上已具備挑戰輝達的硬實力;而輝達憑藉CUDA生態、網路業務與Blackwell架構,依然守住60%市場份額。這場戰爭沒有絕對贏家,但推動算力成本下降50%,加速AI應用普及。
中國產業鏈的定位:
- 短期(2025-2027):在14nm成熟製程建構去美化生態,昇騰、寒武紀在特定場景實現國產替代
- 中期(2027-2030):突破7nm製程與Chiplet封裝,國產TPU全球市佔率15-20%
- 長期(2030+):若光子計算、量子計算突破,或實現換道超車
投資策略:
- 首選:HBM產業鏈(華海清科)、光互連(仕佳光子)、先進封裝(通富微電)
- 次選:國產TPU設計企業(華為海思)、邊緣應用(海康威視)
- 迴避:傳統GPU產業鏈(受TPU衝擊)、純代工模式(利潤薄)
風險提示:
- 技術路線突變(光子計算)
- 地緣政治升級(全面禁運)
- 產能過剩(2026年價格崩盤)
最終判斷:智能算力的兆市場,既是技術革命,更是國運之戰。在TPU-GPU雙雄時代,中國憑藉全球最大的應用市場、最強的政策執行力與最完整的產業鏈配套,有望在2027-2030年實現從"被動替代"到"主動定義"的跨越。這是一場必須打贏的戰爭,也是一次不容錯過的機遇。 (AI雲原生智能算力架構)