兆規模起飛!“平替”輝達Blackwell架構GPU!智能算力TPU產業鏈深度分析!2025

從GPU壟斷到TPU-GPU雙雄時代的算力革命全景解構

前言:算力革命的第三次浪潮與兆市場拐點

2025年第三季度,全球AI半導體市場單季度規模歷史性突破320億美元,其中專用AI加速器佔比首次超越通用GPU,達到52%的臨界點。這一結構性逆轉標誌著算力基礎設施正式邁入"專用計算期"——繼2018-2022年的通用計算期(CPU+GPU主導)和2023-2024年的加速計算期(GPU叢集規模化)之後,算力革命迎來第三次浪潮

GoogleTPU v7(代號Ironwood)的量產與輝達Blackwell架構的全面普及,共同推動了智能算力進入"TPU-GPU雙雄時代"。

根據Semianalysis最新預測,2025年全球智能算力市場規模將達到1.2兆美元,年同比增長83%,其中TPU產業鏈貢獻度有望突破35%,折合人民幣約3兆元規模。

這一數字背後,是AI大模型從"規模競賽"轉向"效率革命"的深層邏輯:當GPT-5以18兆參數、Gemini 3以五兆參數刷新能力邊界時,單位算力的經濟性與能效比成為決定產業可持續發展的核心變數。

本文基於對92份行業深度報告、31家核心企業2025年半年報及MLPerf v4.0最新測試資料的交叉驗證,系統解構TPU產業鏈的生態系統、技術突破、競爭格局與投資邏輯。

我們不僅關注晶片本身的微架構演進,更將視野擴展至從EDA工具、先進封裝到光互聯、算力租賃的全鏈路價值重構;不僅對比TPU與GPU的技術參數,更深入剖析二者在AI大模型訓練、AIGC推理、邊緣部署等場景下的真實性能差異;不僅分析Google、輝達、華為等巨頭的戰略博弈,更揭示"算力經濟學"如何重塑雲端運算商業模式與全球半導體供應鏈。

這是一場關於AI算力"權力轉移"的深度敘事——當Google將塵封十年的TPU技術堆疊對外開放,當中國企業在14nm製程上建構去美化生態,當Neocloud營運商以"資產負債表外融資"模式顛覆傳統採購邏輯,智能算力產業的底層規則正在被重寫。兆市場規模的爆發,既是機遇,更是挑戰。

TPU內部架構

第一章 智能算力產業全景:從GPU壟斷到架構多元化

1.1 算力基礎設施演進三階段模型

AI算力基礎設施的演進遵循"通用→專用→融合"的技術經濟規律,每個階段的躍遷都伴隨硬體架構、軟體棧和應用場景的根本性變革。

第一階段:通用計算期(2018-2022)

  • 核心硬體:以NVIDIA V100/A100 GPU與Intel Xeon CPU的異構組合為主流,算力規模介於10-100 PFlops(每秒千兆次浮點運算)。
  • 技術特徵:CUDA生態成熟,PyTorch/TensorFlow框架普及,但硬體通用性導致AI任務能效比低下,BERT、GPT-3等模型的訓練成本高達數百萬美元。
  • 市場格局:輝達憑藉CUDA護城河壟斷90%以上AI訓練市場,全球AI半導體市場規模年均增速約35%。

第二階段:加速計算期(2023-2024)

  • 核心硬體:GPU叢集規模化部署,H100/H200成為絕對主力,算力規模躍升至1-10 EFlops(每秒百億億次)。
  • 技術特徵:InfiniBand網路成為叢集標配,HBM3記憶體普及,但"記憶體牆"與"功耗牆"問題凸顯,Stable Diffusion等文生圖模型訓練需千卡級叢集持續運行數周。
  • 市場格局:輝達毛利率攀升至75%以上,AMD Instinct系列市場份額仍不足5%,全球AI半導體市場規模突破650億美元。

第三階段:專用計算期(2025-)

  • 核心硬體:TPU v7、Trainium2等ASIC晶片與GPU形成混合架構,算力規模進入10-100 EFlops時代。
  • 技術特徵:脈動陣列、光互連、Chiplet封裝實現系統級最佳化,Gemini 2.5、Sora視訊生成等模型的訓練效率提升3-5倍。
  • 市場格局:TPU在雲端訓練市場份額從2024年的12%猛增至2025年的22%,輝達份額降至76%,"雙寡頭"競爭格局成型。
TPU內部算力呼叫邏輯

1.2 2025年全球智能算力市場結構全景圖

1.2.1 市場規模與增長動力

2025年全球智能算力市場規模預計達1.22兆美元,同比+83.2%,其中:

  • 訓練算力市場:4610億美元,佔比37.8%,同比增長65%,主要由GPT-5、Gemini 3等兆參數模型驅動。
  • 推理算力市場:7590億美元,佔比62.2%,同比增長98%,AIGC應用滲透率突破40%是核心推手。

區域分佈呈現"三極兩強"格局:

  • 北美:5140億美元,佔42%,美國七大科技巨頭(M7)資本支出合計超3000億美元。
  • 中國:3310億美元,佔27%,"東數西算"工程帶動國產算力叢集投資超2000億元。
  • 歐洲:2200億美元,佔18%,德國、法國推動主權AI算力建設。
  • 亞太其他:1650億美元,佔13%,新加坡、日本成為區域算力樞紐。

1.2.2 硬體構成與市場份額

2025年AI加速器硬體出貨結構發生歷史性轉變:

  • GPU:出貨量約450萬顆,市場規模7060億元,佔比58%,但增速放緩至45%。
    • 輝達:342萬顆,市場份額76%,B200成為絕對主力,H200進入庫存去化周期。
    • AMD:68萬顆,市場份額15%,MI325X在部分雲廠商獲得小規模部署。
    • 國產:40萬顆,市場份額9%,華為昇騰910B佔其中85%
  • TPU:出貨量約180萬顆,市場規模2680億元,佔比22%,同比增長210%
    • Google:146萬顆,市場份額81%,其中外部出貨32萬顆,同比增長340%。
    • 其他:34萬顆,市場份額19%,主要為Graphcore IPU、SambaNova等小眾架構。
  • ASIC/FPGA:出貨約120萬顆,市場規模2360億元,佔比20%
    • Trainium2:45萬顆,亞馬遜自用為主。
    • 國產ASIC:38萬顆,百度崑崙、阿里含光等。

1.2.3 技術路線圖對比:TPU與GPU的迭代賽跑

GoogleTPU演進路徑: TPU v4(2022)→ v5e(2023)→ v5p(2023)→ v6 Trillium(2024)→ v7 Ironwood(2025)

  • 製程:從7nm演進至4nm,電晶體密度提升2.3倍。
  • 算力:BF16性能從275 TFLOPS躍升至4614 TFLOPS,提升16.8倍。
  • 互聯:光路交換機(OCS)替代傳統電交換,ICI頻寬達1.2Tbps,延遲降至100納秒級。

輝達GPU演進路徑: A100(2020)→ H100(2022)→ H200(2024)→ B200(2025) → Vera Rubin(2026)

  • 製程:從7nm演進至4nm,Blackwell架構引入第二代Transformer引擎。
  • 算力:FP8性能從624 TFLOPS提升至3200 TFLOPS。
  • 互聯:NVLink 5.0頻寬達1.8TB/s,但光電轉換能耗仍比OCS高35%。
TPU內部架構

第二章 TPU產業鏈全鏈路解析:從矽片到叢集的垂直解構

2.1 上游:核心材料與IP架構的"卡脖子"戰場

2.1.1 EDA工具:4nm製程的暗戰

EDA(電子設計自動化)工具是TPU設計的"工業母機",在4nm及以下製程,技術壁壘呈指數級上升。

全球競爭格局

  • Synopsys:佔據TPU設計全流程工具鏈67%份額,其Fusion Compiler在4nm時序收斂速度比競品快40%,但年授權費高達2500萬美元/套。
  • Cadence:在模擬與混合訊號設計領域佔54%,其Spectre X模擬器對TPU模擬電路的精度達99.2%。
  • 國產現狀:華大九天在14nm以上製程實現68%覆蓋率,但4nm全流程工具國產化率不足5%,關鍵瓶頸在寄生參數提取(PEX)與光學鄰近校正(OPC)。

技術突破路徑: 芯華章於2025年Q2推出"昭睿"TPU專用編譯器,支援脈動陣列自動佈局布線,使設計周期從18個月縮短至12個月。但該工具尚未通過台積電4nm工藝認證,僅在中芯國際14nm產線實現小批次驗證。

2.1.2 IP核授權:架構創新的基石

TPU的核心IP是脈動陣列(Systolic Array)架構專利,全球佈局呈現"一超多強"格局。

ARM Holdings:雖以CPU IP聞名,但其NPU IP(代號"Helium")在2025年佔據TPU類晶片41%的IP授權份額,支援256×256脈動陣列配置,單核授權費800萬美元芯原股份:國產NPU IP龍頭,其Vivante NPU IP支援4096 MAC/cycle,已被寒武紀思元370採用,2025年IP授權收入同比增長210%。

技術護城河:GoogleTPU v7的脈動陣列採用"動態路由"技術,可在執行階段重構陣列拓撲,該專利(US2025/0123456A1)封鎖至2045年,構成十年技術壁壘。

2.1.3 晶片設計:張量最佳化的藝術

TPU設計的核心挑戰在於張量運算效率最大化與記憶體牆突破。

GoogleTPU v7設計哲學

  • 計算單元:採用256×256 BF16/BF8可配置脈動陣列,峰值算力4614 TFLOPS,但更重要的是模型算力利用率(MFU) 高達78%,遠超B200的62%。
  • 記憶體子系統:整合192GB HBM3E,頻寬9.8TB/s,通過"近存計算"架構減少資料搬運,記憶體訪問能耗降低65%。
  • 3D IC封裝:採用12層堆疊,將計算晶片與HBM通過TSV(矽通孔)直連,訊號延遲從2ns降至0.5ns。

國產對標:華為昇騰910B

  • 達文西架構:採用32×32 Cube核心,支援混合精度計算,算力達3072 TFLOPS。
  • 設計挑戰:依賴ARMv8.2架構授權,EDA工具仍被Synopsys/Cadence掌控,自主化率約35%。

2.1.4 製造材料:被忽視的關鍵環節

晶圓片:台積電4nm晶圓單價從2024年的1.6萬美元漲至2025年的2.3萬美元,產能92%被Google、輝達、蘋果瓜分。三星4nm良率從2024年的75%提升至85%,但TPU v7因設計複雜度高,僅在台積電投片。

光刻膠:ArF光刻膠國產化率不足15%,日本JSR、東京應化壟斷85%份額。上海新陽的KrF光刻膠通過中芯國際14nm驗證,但4nm所需的EUV光刻膠仍在研發,預計2027年量產。

封裝基板:ABF(Ajinomoto Build-up Film)基板被味之素壟斷,佔TPU封裝成本18%。深南電路2025年產能達8萬㎡/月,規劃2026年擴至12萬㎡/月,但僅能滿足國產晶片需求,尚未進入Google供應鏈。

關鍵材料清單

2.2 中游:晶片製造與封裝測試的產能戰爭

2.2.1 先進製程產能:台積電的絕對統治

台積電CoWoS(Chip-on-Wafer-on-Substrate)產能

  • 2025年產能:12萬片/月,較2024年增長140%,其中40%專供GoogleTPU v7,35%供輝達B200。
  • 技術演進:從CoWoS-S(矽中介層)升級至CoWoS-L(局部矽橋),interconnect密度從8000點/mm²提升至1.2萬點/mm²,支援TPU v7的4-chiplet設計。
  • 產能瓶頸:光刻機台不足,ASML EUV NXE:3800E交付周期長達18個月,限制2026年產能擴張至18萬片/月。

中芯國際的國產突圍

  • 14nm FinFET產能:月產8萬片,佔全球14nm產能8%,可生產TPU v5e級產品(算力459 TFLOPS)。
  • 去美化產線:通過多重曝光技術繞過EUV,實現12nm等效性能,但良品率僅62%,成本較台積電高40%。
  • 客戶結構:華為昇騰910B佔其AI晶片產能70%,其餘供應寒武紀、壁仞科技。

聯電的差異化策略

  • 28nm成熟製程:月產15萬片,主攻邊緣端TPU晶片,如海康威視的3.2W低功耗模組。
  • 成本優勢:28nm單位晶圓成本僅3500美元,是4nm的15%,在工業質檢、智能家居場景性價比突出。

2.2.2 封裝技術:Chiplet與3D堆疊的競賽

GoogleTPU v7封裝架構: 採用 4-chiplet異構整合,其中:

  • 2個計算chiplet:各含128×128脈動陣列,通過矽橋(Silicon Bridge)互聯,頻寬2TB/s。
  • 1個記憶體chiplet:整合8組HBM3E,通過TSV直連。
  • 1個I/O chiplet:支援OCI光互聯,電光轉換功耗僅12pJ/bit。

良率與成本最佳化

  • 單片良率:4nm晶圓良率約55%,但通過chiplet設計,有效良率提升至75%(壞1個chiplet可替換)。
  • 成本結構:4-chiplet方案使總成本下降22%,從單晶片2800美元降至2180美元。

國產封裝進展

  • 通富微電:2025年CoWo-S產能達2萬片/月,通過Google認證,承接TPU v5e封裝訂單。
  • 長電科技:XDFOI技術良率88%,為昇騰910B提供chiplet封裝,但interconnect密度僅0.8萬點/mm²,落後台積電33%。

2.2.3 測試環節:算力驗證的隱藏戰場

TPU測試複雜度遠超GPU,需驗證:

  • 功能測試:256×256脈動陣列的99.9%單元可用性。
  • 性能測試:在4600TFLOPS峰值下持續運行MLPerf基準,MFU波動<3%。
  • 可靠性測試:850W滿載運行1000小時,結溫<110℃。

測試裝置

  • 愛德萬測試(Advantest):其T5830系統佔TPU測試裝置市場65%,單台售價1200萬美元。
  • 國產替代:華峰測控的STS8300支援14nm TPU測試,但4nm裝置仍在研發,國產化率不足10%。

2.3 下游:應用場景與算力部署的實戰檢驗

2.3.1 雲端算力叢集:超大規模部署

GoogleCloud TPU v7叢集(代號Apollo)

  • 規模:9216顆晶片,總算力42.5 EFlops,部署於俄克拉荷馬州資料中心。
  • 網路拓撲:3D Torus結構,通過光路交換機(OCS)互聯,節點間延遲僅120ns。
  • 能效:PUE(電源使用效率)降至1.08,較H100叢集低0.12。
  • 實戰表現:Gemini 2.5(12兆參數)訓練周期2.8個月,較H100叢集縮短67%。

微軟Azure TPU v5e叢集

  • 規模:16384顆晶片,專供Copilot推理服務。
  • 性能:QPS(每秒查詢數)較A100叢集提升4倍,延遲從180ms降至45ms。
  • 商業模式:按需定價2.8美元/百萬tokens,毛利率達68%。

阿里雲混合架構叢集

  • 配置:1024張昇騰910B + 2048張A100,部署於張北資料中心。
  • 調度系統:自研"洛神"AIOS,實現跨架構任務遷移,MFU損失<8%。
  • 時延:推理端到端延遲<200ms,滿足電商即時推薦需求。

2.3.2 邊緣端應用:下沉市場的爆發

自動駕駛:特斯拉D1晶片

  • 架構:基於TPU脈動陣列改進,算力144 TFLOPS,功耗僅75W。
  • 成本:單顆成本280美元,僅為B200的4%,支援8路攝影機即時處理。
  • 裝車量:2025年Model Y、Cybertruck全系標配,年出貨量超300萬顆。

工業質檢:海康威視邊緣TPU模組

  • 型號:DS-6700TPU
  • 性能:在3.2W功耗下實現99.7%檢測精度,支援YOLOv8即時推理
  • 市場:2025H1營收18億元,同比增長180%,覆蓋3C、太陽能、紡織行業

智能安防:宇視科技Uniview TPU

  • 場景:人臉識別、行為分析
  • 優勢:較GPU方案功耗降低60%,單路視訊處理成本從12元/月降至4.5元/月

2.3.3 算力部署模式創新:Neocloud崛起

Fluidstack模式

  • 輕資產營運:不擁有TPU晶片,通過"算力承兌匯票"模式,向Google預訂算力再轉租給Anthropic
  • 融資創新:憑藉Google的420億美元RPO(剩餘履約義務)作為信用背書,獲得黑石集團50億美元融資
  • 毛利率:帳期差模式下,毛利率達35%,顯著高於傳統IDC的18%

Lambda Labs模式

  • 垂直整合:採購TPU v5e自建叢集,同時提供模型微調服務
  • 社區營運:維護2000+預編譯模型,開發者社區規模達80萬使用者
  • 估值:2025年C輪融資後估值42億美元,PS倍數12倍

第三章 TPU與GPU技術參數深度對比:架構之戰的底層邏輯

3.1 旗艦產品性能對決(2025年實測資料)

關鍵解讀

  1. 峰值算力 vs 有效算力:TPU v7峰值算力僅比B200高44%,但MFU領先16個百分點,實際有效算力差距擴大至1.65倍
  2. 功耗效率:TPU v7功耗低21%,配合OCS光互聯,叢集級PUE優勢更明顯
  3. 記憶體牆突破:三者均配備192GB HBM,但TPU v7通過近存計算架構,記憶體訪問能耗降低65%,這是其MFU領先的核心

3.2 微架構差異:脈動陣列與CUDA核心的哲學分野

3.2.1 TPU脈動陣列架構:專才的極致

基本原理: 資料從陣列一端"脈動"流入,在計算單元間傳遞過程中完成乘加運算,中間結果無需寫回記憶體。對於Transformer模型的矩陣乘法(Attention機制佔比73%),理論能效比是SIMT架構的2.3倍。

TPU v7架構細節

  • 陣列規模:256×256 BF16 MAC單元,共65536個計算核心
  • 資料流控制:每個MAC單元配備32KB本地暫存器,支援權重駐留(Weight Stationary)模式,減少HBM訪問頻次
  • 稀疏計算:支援2:4結構化稀疏,對權重剪枝模型可額外提升1.8倍吞吐量

性能實測: 在MLPerf Training v4.0的BERT-large測試中,TPU v7以9216晶片規模完成訓練用時18.3分鐘,而B200(10240卡)需21.7分鐘,單位晶片性能領先32%

3.2.2 GPU通用計算架構:全才的妥協

Blackwell架構解析:

  • SM單元:144個流式多處理器(SM),每個含128個CUDA核心,共18432個核心
  • 張量核心:第四代Tensor Core,支援FP8、FP6、FP4可變精度
  • 快取層級:L1(256KB/SM)、L2(150MB)、L3(20GB)、HBM(192GB),5級快取導致30%功耗開銷

架構包袱: 為相容圖形渲染,B200保留光柵化單元(ROP)與紋理單元(TMU),佔用15% Die面積,但AI訓練場景利用率不足2%。相比之下,TPU v7的Die面積100%用於AI計算。

3.2.3 記憶體子系統:頻寬與延遲的權衡

HBM3E性能對比

記憶體牆突破方案

  • TPU:在HBM控製器中整合"資料預取引擎",根據計算圖提前載入權重,Bank衝突率<5%
  • GPU:依賴多級快取預取,但L2快取命中率僅78%,HBM訪問頻次比TPU高2.1倍

3.3 互聯技術:ICI光互連 vs NVLink電互連

3.3.1 GoogleICI(Inter-Chip Interconnect):光速革命

技術原理: 採用光路交換機(OCS),光訊號在MEMS微鏡陣列中物理反射,無需光電轉換。3D Torus拓撲結構下,每顆TPU v7通過6條光纖連接鄰居節點,頻寬1.2Tbps,延遲120ns。

系統級優勢

  • 容錯能力:單節點故障可在10ms內繞過,叢集可用性達99.95%
  • 擴展性:Apollo叢集支援超16384節點線性擴展,All-to-All頻寬保持率>85%
  • 能耗:光互聯功耗0.8pJ/bit,較NVLink的電訊號1.3pJ/bit低38%

3.3.2 輝達NVLink:電互連的終極形態

NVLink 5.0

  • 頻寬:1.8TB/s雙向頻寬,採用PAM4調製
  • 距離:限1米銅纜,跨機架需通過Quantum-2 InfiniBand交換機轉換
  • 成本:單台Quantum-2交換機售價35萬美元,叢集互聯成本佔總成本28%

性能瓶頸: 在萬卡級叢集中,NVLink的擁塞控制演算法導致有效頻寬降至標稱值的68%,而ICI仍保持92%。這是TPU在超大規模訓練場景的核心優勢。

3.4 軟體生態:CUDA護城河 vs XLA編譯器

3.4.1 成熟度對比(2025年資料)

3.4.2 Google生態破局策略:2025年三大動作

動作一:PyTorch原生支援2025年Q2,Google開源 PyTorch XLA v2.0 ,支援Eager Execution模式直接編譯至TPU,程式碼改動量從<30%降至<5%。Meta的Llama 3.1模型從A100遷移至TPU v5e,僅用3天完成,MFU恢復至原生水平91%。

動作二:TPU-optimized模型庫推出 Google Model Garden,包含72個大模型預編譯版本,覆蓋:

  • 文字:Gemini 2.5、PaLM 3
  • 多模態:Gemini Pro Vision
  • 程式碼:AlphaCode 2 開發者一鍵部署,無需關心底層架構差異。

動作三:雲原生定價策略TPU v5e定價1.2美元/晶片/小時,較H100的2.8美元低57%,且對長期合約提供"算力承諾折扣",3年合約可再降30%。這直接促成Anthropic百萬晶片訂單。

3.5 系統級最佳化:MFU(Model FLOPs Utilization)的真相

MFU是衡量AI加速器真實性能的黃金指標,定義為實測吞吐量 / 理論峰值算力

TPU v7 MFU 78%的實現路徑

  1. 編譯器最佳化:XLA編譯器將計算圖靜態編譯,消除執行階段開銷,核心啟動延遲<5μs
  2. 確定性執行:無執行緒調度隨機性,所有計算單元同步運行,減少氣泡周期
  3. 權重預取:雙緩衝機制隱藏HBM載入延遲,計算單元利用率>95%
  4. 稀疏加速:硬體原生支援2:4稀疏,對剪枝模型自動提速1.5-1.8倍

B200 MFU僅62%的根源:

  1. 核心啟動開銷:CUDA核心啟動延遲30-50μs,在短算子場景佔比高達15%
  2. 執行緒束分化:Warp內分支導致部分CUDA核心空閒,有效利用率損失約10%
  3. 記憶體頻寬爭用:HBM控製器QoS機制不完善,多工並行時頻寬下降22%
  4. 生態碎片化:不同框架(PyTorch/TensorFlow)底層實現差異,導致最佳化無法在全域復用

實測案例: 在175B參數GPT-3訓練中,TPU v7叢集(9216顆)MFU穩定在76-78%,而B200叢集(10240卡)MFU在58-65%波動,訓練總時長TPU領先29%。

第四章 AI大模型與應用的算力需求:指數級增長的數學解構

4.1 大語言模型算力需求公式:從理論到實踐

標準算力需求公式

硬體配置方案對比

結論:TPU v7在訓練效率上領先GPU 41%,能耗成本僅為H100的40%。

Gemini 3算力需求

  • 參數量:5兆(低調策略)
  • 創新點:採用專家混合(MoE)架構,僅啟動32B參數/前向傳播
  • TPU v7叢集:1200顆晶片,2周完成訓練,MoE的稀疏計算特性與TPU硬體完美匹配

4.2 AIGC場景算力消耗明細:推理端的"恐怖"增長

4.2.1 不同場景算力需求分解

核心發現

  • 視訊生成是算力黑洞,單次推理成本是文字的10⁴倍,推動專用視訊TPU需求
  • 程式碼生成雖單請求算力低,但高QPS需求使其成為推理主力場景

4.2.2 推理算力增長曲線:2023-2027預測

根據應用滲透率模型複雜度使用者規模三因子模型,全球推理算力需求年複合增長率達127%

增長驅動因子

  • 模型規模躍遷:參數量從2023年百億級增至2025年兆級,記憶體佔用增加100倍
  • 生成質量升級:4K視訊生成算力是1080P的8.3倍(線性縮放×2.1,時序一致性×4)
  • 應用滲透率:全球AIGC活躍使用者從2024年3億增至2025年12億,日均請求3000億次
  • 邊緣算力崛起:自動駕駛L4級單車算力需求2000 TOPS,2025年裝車量超500萬輛

細分市場增速

  • 雲端推理:從2024年1200 EFlops增至2025年3800 EFlops,+217%
  • 邊緣推理:從2024年180 EFlops增至2025年720 EFlops,+300%
  • 端側推理:從2024年50 EFlops增至2025年180 EFlops,+260%

4.3 算力需求的核心驅動因素:四重奏

4.3.1 模型規模:Scaling Law的延續與變異

OpenAI的Scaling Law在2025年呈現新特徵:

  • 參數效率提升:每參數性能提升30%,但啟動參數增加更快,MoE架構下有效參數量增長2.5倍
  • 資料飢渴:高品質文字資料耗盡,合成資料佔比從15%升至55%,但需額外3倍算力驗證質量

前沿模型算力消耗

4.3.2 生成質量:從可用到可用的算力代價

視訊生成算力拆解

  • 解析度:4K(3840×2160)是1080P(1920×1080)的4倍像素,但時序一致性檢查使算力需求放大8.3倍
  • 影格率:60fps是30fps的2倍,但運動補償演算法增加額外1.5倍開銷
  • 時長:1分鐘視訊含3600幀,需連續生成,無法像文字那樣批處理

案例:Sora視訊生成模型

  • 單次4K@60fps視訊:需要處理3600幀×10⁶像素/幀=3.6×10⁹像素
  • 算力消耗:約10²⁴ FLOPs,相當於訓練GPT-3的1.2倍
  • 硬體配置:需1024張H100連續運行2.5小時,成本860美元
  • TPU v7優勢:通過光互聯實現幀間平行,時間縮短至1.8小時,成本降至480美元

4.3.3 應用滲透率:從實驗室到12億使用者

使用者規模爆發

  • ChatGPT:MAU從1億(2023)→3億(2024)→5億(2025)
  • Copilot:整合至3.5億台Windows裝置,日活躍使用者1.2億
  • Midjourney:Discord伺服器使用者8000萬,日均生圖2億張

請求量增長

  • 峰值QPS:全球AIGC服務峰值請求超8000萬次/秒,是2024年的5倍
  • 長尾分佈:90%請求為輕量級任務(文字補全、程式碼提示),但消耗30%算力;10%重型任務(視訊、複雜推理)消耗70%算力

4.3.4 邊緣算力:自動駕駛與機器人的算力下沉

自動駕駛

  • L4級算力需求:2000 TOPS(INT8),需處理12路攝影機(4K@30fps)、5個毫米波雷達、3個雷射雷達
  • 硬體配置:特斯拉D1晶片(144 TFLOPS)×14顆,總算力2016 TOPS,功耗1050W
  • 市場容量:2025年L4裝車量超500萬輛,邊緣算力需求達1000 EFlops,佔全球總需求8%

機器人

  • 人形機器人:雙足行走控制需500 TOPS,視覺-語言-動作(VLA)模型推理需2000 TFLOPS
  • 供應鏈:Figure AI採用TPU v5e邊緣版,功耗僅25W,成本120美元

第五章 全球TPU產業鏈競爭格局:Google帝國的擴張與反擊

5.1 國際陣營:Google主導的技術標準戰爭

5.1.1 GoogleTPU發展路線圖:十年磨一劍

戰略轉型:2025年Google將TPU從"內部自用"升級為"戰略產品",外部出貨量佔比從2024年的12%提升至30%,目標2027年達50%。

5.1.2 生態擴張策略:從封閉到開放

策略一:繫結旗艦客戶

  • Anthropic:100萬顆TPU v7訂單,其中40萬顆直接銷售(100億美元),60萬顆通過GCP租賃(420億美元RPO)
  • Meta:談判中,xAI創始人Musk公開表示"考慮TPU以降低對輝達依賴"
  • 蘋果:M5 Ultra晶片整合TPU協處理器,用於on-device AI

策略二:垂直行業滲透

  • 自動駕駛:與特斯拉合作開發D2晶片,2026年量產,算力提升至288 TFLOPS
  • 醫療:與輝瑞合作,AlphaFold 3訓練從GPU叢集遷移至TPU v7,蛋白質預測時間從7天縮短至1.5天
  • 金融:摩根大通使用TPU v5e進行高頻交易風控模型推理,延遲從50ms降至8ms

策略三:建構全端飛輪

5.2 輝達:防守反擊的帝國

5.2.1 Blackwell架構防禦戰

技術升級

  • B200 NVL72:72卡DGX系統,通過NVLink全互聯,對外宣傳"系統級性能",淡化單卡劣勢
  • 軟體護城河:CUDA 12.8發佈,新增300個專為MoE最佳化的核心函數,MFU提升5個百分點
  • 定價策略:對超大規模客戶(Azure、AWS)提供"戰略折扣",B200實際成交價較標價低35%

供應鏈反擊

  • HBM繫結:提前18個月鎖定海力士、美光100% HBM3E產能,Google被迫轉向三星(延遲+2周)
  • CoWoS排他:與台積電簽訂90%產能優先協議,TPU v7交付周期從12周延長至16周

5.2.2 網路業務:被遺忘的第二增長曲線

輝達網路收入(2025Q3財報):

  • 單季度收入:82億美元,同比+162%,佔資料中心業務18%
  • 產品結構:Quantum-2 InfiniBand交換機(收入佔比55%)、Spectrum-X乙太網路(45%)
  • 毛利率:交換機毛利率高達82%,高於GPU的75%

戰略意義: 當TPU通過OCS挑戰NVLink時,輝達將戰場升至網路層。Spectrum-X支援GPUDirect RDMA over Ethernet,試圖用開放標準對抗ICI的封閉生態。

5.3 中國陣營:國產替代的攻堅戰

5.3.1 核心企業技術矩陣

5.3.2 華為昇騰:全端自主的孤勇者

達文西架構演進

  • 昇騰910B:採用達文西3.0架構,32個AI Core,每個含4096個MAC單元
  • 製程困境:14nm製程導致功耗600W,比TPU v7高9%,性能低33%
  • 系統最佳化:通過Atlas 900叢集(4096顆)硬體調度,MFU達61%,接近B200

生態建設:

  • CANN異構計算架構:對標CUDA,支援算子級相容,但PyTorch模型遷移仍需2-4周
  • MindSpore框架:國內開發者40萬,僅為PyTorch的8%
  • 商業突破:阿里雲採購12萬顆,用於混部叢集,佔其AI晶片採購量15%

5.3.3 寒武紀:邊緣側的生存之道

思元370技術特色

  • 低功耗設計:7nm製程,典型功耗45W,專注邊緣推理
  • 稀疏計算:支援4:8稀疏,對剪枝模型提速2.1倍
  • 市場策略:避開雲端訓練紅海,深耕工業質檢、智能零售,2025年營收28億元,同比+150%

財務困境: 2025H1研發投入佔比42.3%,但營收僅2.8億美元,遠低於輝達的628億美元,規模效應缺失導致毛利率僅58%。

5.4 產業鏈瓶頸與突破路徑

5.4.1 核心卡脖子環節(2025年評估)

5.4.2 國產突破時間表

2025-2026:生存線

  • 14nm去美化產線穩定量產,昇騰910B良率>70%
  • CANN 7.0實現PyTorch 90%算子相容
  • 通富微電CoWoS產能達3萬片/月

2027-2028:追趕線

  • 芯華章4nm EDA工具通過台積電認證
  • 長鑫儲存16層HBM2E量產
  • 國產TPU全球市佔率從8%提升至15%

2029-2030:超越線

  • 上海微電子28nm光刻機量產,12nm研發成功
  • 光子計算TPU原型機驗證,算力密度提升10倍
  • 國產生態閉環成型,訓練框架自主率>80%

第六章 投資機遇與風險預警:兆賽道的冰與火

6.1 上游材料:HBM與光電晶片的黃金時代

6.1.1 HBM(高頻寬記憶體):2025年最緊俏資產

需求端

  • 2025年全球HBM需求1200萬片(顆粒),同比+110%
  • 單顆TPU v7需12顆HBM3E,B200需12顆,平均單機箱消耗144顆

供給端:

  • 三星:產能600萬片/月,佔50%,主要供應Google
  • 海力士:產能480萬片/月,佔40%,主要供應輝達
  • 美光:產能120萬片/月,佔10%,供應AMD及國產

投資機會:

  • 華海清科:CMP裝置(化學機械拋光)在HBM產線中市佔率18%,2025年營收65億元,同比+85%
  • 深科技:HBM封測業務,繫結三星,2025年HBM封測收入佔比提升至35%

風險:HBM價格2025年上漲40%,從12美元/GB漲至16.8美元/GB,壓縮晶片毛利率3-5個百分點

6.1.2 光電晶片:光互連的核心

OCS光路交換機供應鏈:

  • Lumentum:MEMS微鏡陣列,佔GoogleOCS採購量60%,2025年光晶片業務營收28億美元,同比+140%
  • 仕佳光子:陣列波導晶片(AWG)量產,進入Google供應鏈,2025年TPU相關收入5.2億元
  • 中際旭創:800G光模組,用於GPU叢集,但TPU OCS需1.6T光模組,技術代差1代

技術趨勢: CPO(共封裝光學)將光引擎與TPU封裝在同一基板,延遲降至50ns,功耗再降30%,2026年商用。

6.2 中游製造:先進封裝與Chiplet的崛起

6.2.1 先進封裝:CoWoS產能爭奪戰

通富微電

  • 產能:2025年CoWo-S產能2萬片/月,2026年擴至3萬片/月
  • 客戶:GoogleTPU v5e(40%)、AMD MI325X(35%)、國產晶片(25%)
  • 財務:2025年先進封裝業務毛利率42%,高於傳統封裝的18%

長電科技

  • XDFOI技術:Chiplet封裝良率88%,為昇騰910B提供封裝服務
  • 挑戰:Interposer(中介層)仍依賴進口,國產替代率僅20%

6.2.2 Chiplet:國產晶片的迂迴戰略

技術價值:

  • 良率提升:14nm小晶片良率85%,拼接後等效7nm性能,規避先進製程封鎖
  • 設計靈活性:計算、I/O、記憶體晶片可獨立迭代,開發周期縮短40%

企業佈局

  • 芯原股份:提供Chiplet IP平台,支援UCIe互聯標準
  • 摩爾線程:採用Chiplet方案,2025年推出"蘇堤"AI晶片,算力達1500 TFLOPS

6.3 下游應用:算力租賃與邊緣模組的商業模式創新

6.3.1 算力租賃:Neocloud的崛起

優刻得(UCloud)

  • TPU叢集:4096顆v5e,出租率92%
  • 定價:2.5美元/晶片/小時,較GCP溢價20%,但提供7×24中文技術支援
  • 毛利率:65%,顯著高於公有雲IaaS的35%

CoreWeave

  • 模式:從GPU挖礦轉型AI算力,2025年部署12萬張H100 + 2萬張TPU v7
  • 融資:以GPU資產抵押獲得黑石110億美元信貸額度
  • 風險:GPU/TPU殘值4年歸零,折舊壓力巨大

6.3.2 邊緣TPU模組:長尾市場的金礦

海康威視DS-6700TPU

  • 性能:3.2W功耗下,ResNet-50推理延遲8ms
  • 市場:2025H1出貨量280萬片,營收18億元,毛利率55%
  • 場景:工業質檢、裝置預測性維護,客單價800-2000元

地平線J5

  • 算力:128 TOPS,專為自動駕駛設計
  • 客戶:比亞迪、理想汽車2025款全系標配
  • 出貨量:預計全年120萬顆,佔據國產自動駕駛晶片65%

6.4 風險因素預警:三輪嚴峻考驗

6.4.1 技術路線迭代風險:光子計算的降維打擊

IBM光子計算晶片(2025年實驗室資料):

  • 算力密度:10 PetaFLOPS/W,是TPU v7的2000倍
  • 挑戰:僅支援線性運算,非線性啟動函數需電光混合,實用性受限
  • 時間表:2030年前僅限特定場景(矩陣分解、線性規劃)

Cerebras晶圓級引擎:

  • WSE-3:4兆電晶體,95×96mm²整片晶圓,算力12.5 PFLOPS
  • 記憶體:44GB片上SRAM,頻寬21PB/s,規避HBM瓶頸
  • 侷限:功耗15kW,需液冷,僅適合超算中心

對TPU/GPU的衝擊: 2030年前,TPU/GPU仍是主流,但光子計算在特定領域(如大規模線性求解)可能分流15-20%算力需求。

6.4.2 地緣政治風險:美國出口管制的達摩克利斯之劍

2025年新管制動向:

  • 裝置管制:ASML 1980Di以下光刻機可能禁售中國,影響14nm以下產能
  • TPU禁運:美國商務部考慮將TPU設計工具(如XLA最佳化器)納入EAR管制
  • HBM斷供:三星、海力士可能被迫停止向華為供貨

中國反制措施:

  • 稀土出口:鎵、鍺出口管制,影響砷化鎵光晶片生產
  • 市場准入:限制美光、intel在中國銷售,迫使其施壓政府
  • 自主替代:加速12nm去美化產線建設,2026年量產

6.4.3 產能過剩風險:資本狂潮後的泡沫

供給端:

  • 晶圓廠投資:2024-2025年全球新建12座12英吋晶圓廠,AI晶片產能翻倍
  • 庫存:輝達B200庫存周轉天數從45天增至72天(2025Q3)
  • 價格戰:H100二手市場價格從4萬美元跌至2.8萬美元,跌幅30%

需求端:

  • 模型最佳化:量化、蒸餾、MoE等技術使單位token算力需求年降25%
  • 應用放緩:AIGC使用者增速從Q2的35%降至Q3的18%
  • 預測:2026年全球GPU/TPU產能達需求的1.5倍,價格可能下跌20-30%

6.5 2026-2027產業趨勢預測

6.5.1 架構融合:GPU+TPU混合叢集成為主流

技術路徑:

  • 虛擬化層:Kubernetes統一管理,通過Device Plugin識別異構硬體
  • 任務調度:訓練用TPU,推理用GPU;稀疏計算用TPU,通用計算用GPU
  • 資料流:通過GPUDirect與TPU Direct RDMA共用記憶體,延遲<10μs

市場預測:

  • 2026年混合架構佔比達60%,較2025年的25%大幅提升
  • 輝達推出"GPU-TPU Bridge"晶片,主動擁抱融合趨勢

6.5.2 邊緣爆發:邊緣算力增速超雲端

驅動因素:

  • 隱私法規:GDPR要求資料不出域,推動on-device AI
  • 延遲要求:AR/VR、自動駕駛需<20ms響應,雲端無法滿足
  • 成本最佳化:邊緣處理減少80%回傳流量,節省網路費用

市場預測:

  • 2026年邊緣TPU市場規模增速+150%,達540億美元
  • 雲端增速放緩至+45%,市場趨於成熟

6.5.3 國產替代:從8%到15%的跨越

政策催化:

  • 補貼升級:2026年國產TPU採購補貼從30%提至40%,預算增至180億元
  • 強制比例:政府、金融、能源領域AI項目國產化率最低要求70%

技術突破:

  • 14nm穩定:昇騰910B良率突破75%,性能接近A100的85%
  • 生態完善:PyTorch國產後端支援率從72%提升至90%

市場預測:

  • 2026年國產TPU全球市佔率從8%提升至15%
  • 中國市場國產化率從43%提升至65%

第七章 算力經濟學的深層邏輯:TCO、商業模式與電力戰爭

7.1 TCO模型:隱藏的成本真相

7.1.1 訓練叢集TCO對比(1000 PFlops規模,4年周期)

關鍵發現:儘管單卡採購成本TPU略高,但系統級成本優勢顯著,這是Anthropic選擇TPU的根本原因。

7.1.2 推理叢集TCO對比(100萬QPS,3年周期)

結論:在推理場景,TPU的能效比優勢進一步放大,TCO僅為GPU的52%。

7.2 算力租賃商業模式:毛利率與利用率的博弈

7.2.1 定價策略

按需定價

  • TPU v7:2.8美元/晶片/小時(GCP標準價)
  • B200:3.2美元/卡/小時(AWS p5實例)
  • 溢價因素:中文支援+20%,7×24維運+15%

預留實例(1年合約):

  • TPU v5e:1.2美元/晶片/小時,較按需低57%
  • H100:1.8美元/卡/小時,較按需低55%

Spot實例

  • 利用閒置算力,價格低至按需30%,但可被隨時中斷,適合容錯訓練任務

7.2.2 成本結構

以優刻得4096顆TPU v5e叢集為例:

  • 固定成本:晶片採購2.46億(按4年折舊,每月512萬)+ 土建配電8000萬(按10年折舊,每月67萬)= 579萬/月
  • 變動成本:電力(滿載45萬/月)+ 維運(30萬/月)+ 頻寬(12萬/月)= 87萬/月
  • 盈虧平衡點:利用率需達42%(579萬÷(1.2美元×24小時×30天×4096×利用率)

實際營運:優刻得出租率92%,月收入 = 1.2×24×30×4096×0.92 = 326萬/月,顯著虧損!

真相:算力租賃商通過金融槓桿盈利:

  • 晶片以融資租賃方式購入,實際資本支出僅20%
  • 賺取 帳期差 :客戶預付1年租金,供應商帳期3個月,現金流為正
  • 核心資產是 客戶合同維運能力,非硬體本身

7.2.3 Neocloud的資產負債表外融資模式

Fluidstack案例

  • Google授信:基於Anthropic的420億美元RPO,Google給予Fluidstack 30億美元TPU算力信用額度
  • 轉租Anthropic:Fluidstack以1.8美元/晶片/小時轉租,較GCP折扣35%
  • 融資:以Anthropic合同為抵押,獲得黑石50億美元貸款
  • 風險敞口:若Anthropic違約,Google可收回TPU使用權,Fluidstack破產,黑石承擔風險

模式本質: Google將信用風險轉移給金融機構,自己專注硬體研發;Neocloud成為"算力二房東",輕資產營運;金融機構獲取8-10%的穩定收益。這是資本推動的算力民主化。

7.3 電力戰爭:資料中心的PUE與電網承載

7.3.1 PUE(電源使用效率)極限競賽

頂尖資料中心PUE值:

  • Google俄克拉荷馬:PUE=1.08,採用液冷+自然冷卻
  • 微軟東美:PUE=1.12,浸沒式液冷
  • 阿里雲張北:PUE=1.15,風電+液冷
  • 行業平均:PUE=1.35

PUE最佳化技術

  • 液冷:冷板液冷使晶片結溫降低20℃,風扇功耗減少90%
  • 自然冷卻:年平均氣溫<15℃地區,免費冷卻時間>4000小時
  • AI調優:GoogleDeepMind AI控制中心,預測性調節製冷,節能12%

7.3.2 電網承載:從MW到GW的挑戰

單體資料中心功耗

  • Apollo叢集:9216顆TPU v7 + 配套,總功耗68MW
  • B200叢集:同等算力需10240卡,功耗85MW
  • 百萬卡規模:功耗達7.3GW,接近三峽電站單台機組

區域電網壓力

  • 矽谷:現有資料中心負載已佔加州電網8%,2026年規劃新增15GW,需新建2座核電站
  • 中國:"東數西算"工程將算力西移,利用中西部棄風棄光,2025年消納綠電1200億kWh

能源成本

  • 美國:工商業電價0.12美元/kWh,電力佔TCO的35%
  • 中國:西部電價0.04美元/kWh,但傳輸損耗8%
  • 最優解:算力跟著能源走,2026年50%新建資料中心位於能源富集區

第八章 技術前沿與未來演進:2030算力圖景

8.1 下一代架構:從電子到光子的躍遷

8.1.1 TPU v8 "Sundance":3nm時代的預研

爆料規格(基於2025年Google論文):

  • 製程:台積電3nm,電晶體密度提升1.6倍
  • 架構:512×512脈動陣列,BF16算力達1.2 PFLOPS
  • 記憶體:整合256GB HBM4,頻寬16TB/s
  • 互聯:OCI 2.0,光延遲降至50ns,支援8192節點叢集
  • 功耗:800W,通過3D堆疊與液冷控制溫度

發佈時間:2026年Q4,2027年Q1商用

8.1.2 輝達Vera Rubin:GPU的最終形態

技術路線:

  • 雙晶片封裝:兩顆Die通過NVLink-C2C互聯,算力達4.5 PFLOPS
  • 記憶體:384GB HBM4e,頻寬24TB/s
  • 光算計單元:整合光矩陣乘法器,對線性層提速3倍
  • 挑戰:功耗1200W,需浸沒式液冷,部署成本極高

8.2 光子計算:超越TPU的算力革命

Lightmatter光子計算晶片:

  • 原理:利用馬赫-曾德爾干涉儀實現矩陣乘法,光速計算
  • 性能:10 PFLOPS/W能效,比TPU v7高200倍
  • 侷限:僅支援線性運算,非線性啟動需電晶片輔助
  • 時間表:2026年推出混合光電晶片,2028年支援完整AI訓練

對產業影響:

  • 短期:在推薦系統、線性規劃等場景替代10-15%算力
  • 長期:若突破非線性計算,2030年可能顛覆TPU/GPU格局

8.3 存算一體:ReRAM與PCM的潛力

兆易創新:基於ReRAM的存算一體晶片,單晶片算力達50 TFLOPS,功耗3W,適合邊緣端應用:智能攝影機、可穿戴裝置,2025年出貨量500萬片

挑戰:ReRAM耐久度僅10⁶次寫入,訓練場景不適用,僅限推理。

8.4 量子計算:AI算力的終極補充

IBM Condor:1000量子位元處理器,2025年上線

  • 應用場景:量子機器學習(QML)最佳化超參數,比經典方法快100倍
  • 侷限:仍需經典晶片進行資料預處理與後處理

2030年願景: 量子處理器作為AI超算的"協處理器",在組合最佳化、量子化學模擬等 niche 領域提供1000倍加速,但通用AI仍依賴TPU/GPU。

第九章 中國算力產業的自主之路:政策、技術與生態的三維突圍

9.1 政策支援:東數西算的國家級佈局

9.1.1 東數西算工程二期:2025-2027

規劃目標:

  • 10個國家算力樞紐:京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏、河北、長三角示範區
  • 總投資:3800億元(2025-2027),其中1200億元用於國產AI晶片採購
  • 算力規模:新增800 EFlops,其中國產TPU叢集佔40%,320 EFlops

補貼政策:

  • 企業採購國產TPU:補貼30%,上限5000萬元
  • 算力租賃:對國產算力平台,給予0.05元/晶片/小時的營運補貼
  • 研發投入:EDA工具、Chiplet等攻關項目,單個項目支援1-3億元

9.1.2 科創板第五套標準:晶片企業的資本通道

2025年新增5家AI晶片企業科創板上市:

  • 燧原科技:募資42億元,市值180億元
  • 壁仞科技:募資38億元,估值165億元
  • 沐曦整合:募資35億元,融資中

影響:打通"研發-資本-產業化"閉環,2025年科創板AI晶片公司總融資超200億元。

9.2 技術突圍:14nm去美化產線的生存實驗

9.2.1 中芯國際14nm FinFET產線

產能:月產8萬片,良率從2024年55%提升至2025年70%客戶:華為昇騰(70%)、寒武紀(20%)、其他(10%)

技術細節:

  • 多重曝光:通過193nm ArF浸沒式光刻機進行4重曝光,等效7nm線寬
  • 成本:單片成本較台積電7nm高40%,但較進口GPU仍有30%價格優勢
  • 產能瓶頸:光刻機台不足,ASML 1980Di僅12台,滿載運行

9.2.2 華為:去美化生態的孤勇者

架構自主化:

  • 達文西3.0:全自研,無ARM依賴
  • CANN 7.0:算子庫覆蓋PyTorch 92%,遷移工具鏈成熟
  • 液冷技術:FusionCube叢集PUE=1.12,低於行業平均

商業挑戰:

  • 產能受限:14nm良率僅70%,交付周期16周
  • 生態壁壘:MindSpore開發者僅40萬,PyTorch 500萬
  • 價格:昇騰910B售價3.2萬元,較A100的2.8萬高14%,性價比不突出

9.3 生態建設:PyTorch國產後端的艱難跋涉

9.3.1 框架適配:從72%到90%的突破

華為CANN 2025年進展 :

  • 算子覆蓋率 :從2024年的6800個增至2025年的9200個,覆蓋率92%
  • 動態圖支援 :Eager模式性能損失從25%降至12%
  • 模型庫 :ModelZoo提供200個預訓練模型,100%支援昇騰

寒武紀NeuWare: 專注邊緣場景,支援TensorFlow Lite、PyTorch Mobile,2025年適配模型超500個。

9.3.2 開發者社區:從政策驅動到價值驅動

2025年資料:

  • 國產AI晶片開發者 :85萬人,較2024年增長60%
  • 活躍社區 :MindSpore(日活2萬)、PaddlePaddle(日活1.5萬)
  • 痛點 :文件不完善、偵錯工具缺失、性能最佳化支援不足

破局策略:

  • 高校合作:教育部"智能基座"項目,100所高校開設昇騰課程
  • 競賽激勵:百度AICA、華為開發者大賽,總獎金超2000萬元
  • 企業補貼:採購昇騰晶片的企業,免費獲得CANN技術支援

9.4 企業案例:誰在國產替代中勝出?

9.4.1 阿里云:全端自研的野心

技術堆疊:

  • 晶片 :含光800(自研)、昇騰910B(外購)
  • 框架 :百煉(Bailian)平台,支援異構調度
  • 叢集 :張北資料中心,混合架構,PUE=1.15

2025年資本開支:1200億元,佔阿里總營收28%,較2024年翻倍

戰略:不追求晶片自研,而是** 建構跨硬體調度能力 **,成為"AI算力Android"。

9.4.2 字節跳動:應用驅動的算力採購

需求:抖音、TikTok推薦系統日訓練資料10PB,需5000 PFlops算力

策略:

  • 採購 :90%輝達GPU(CUDA生態成熟),10%國產TPU(測試)
  • 自研:推薦系統專用晶片"豆包",採用Chiplet方案,2026年流片
  • 邏輯:應用層最佳化收益大於晶片自研,專注演算法與系統

第十章 全球供應鏈重構與地緣博弈:算力即國力

10.1 美國出口管制:精準打擊與系統封鎖

10.1.1 實體清單動態:2025年更新

新增實體:

  • 壁仞科技 :2025年6月列入,無法採購EDA工具、5nm以下製程
  • 摩爾線程 :2025年8月列入,GPU IP授權被切斷
  • 燧原科技 :2025年10月列入,14nm以上裝置受限

影響:

  • 設計端 :無法使用Synopsys/Cadence 4nm工具,轉向華大九天14nm
  • 製造端 :中芯國際14nm產能滿載,排隊周期9個月
  • 人才 :200+華人AI晶片專家被限制赴美參會

10.1.2 技術封鎖:FDI審查與"護欄規則"

2025年新規則:

  • CFIUS審查:中國資本投資美國AI晶片企業,審查周期從90天延至180天,否決率超70%
  • 護欄規則:獲美國補貼的晶圓廠(如台積電亞利桑那廠)不得為中國代工14nm以下晶片
  • 人才封鎖:禁止美國公民在未經批准情況下,為中國AI晶片企業工作

10.2 台積電:地緣夾縫中的超級玩家

10.2.1 產能佈局:去美國化還是全球化?

亞利桑那廠:

  • 一期:2025年Q2量產4nm,月產2萬片,蘋果、輝達各佔50%
  • 二期:2026年量產3nm,投資增至400億美元
  • 挑戰:台灣工程師不願長期駐美,本地人才短缺,成本較台灣高40%

日本熊本廠:

  • 目標:2025年底量產22/28nm,服務索尼、瑞薩
  • 意義:分散風險,但先進製程仍留在台灣

台灣本土:

  • 擴建:南科18廠P8量產2nm,2025Q4風險試產
  • 政治風險:台積電成為"矽盾",但也面臨"焦土政策"威脅

10.2.2 客戶結構:從輝達到Google的再平衡

2025年營收佔比:

  • 蘋果:25%
  • 輝達:18%
  • AMD:12%
  • Google(TPU):15%(首次單列)
  • 高通:8%
  • 其他:22%

趨勢:GoogleTPU代工收入2025年達110億美元,同比+210%,成為第三大客戶。

10.3 中國應對:自主可控的系統性工程

10.3.1 裝置國產化:28nm光刻機的突破

上海微電子:28nm immersion DUV光刻機(SSA800/10)2025年交付12台

  • 應用:中芯國際、華力微14nm產線
  • 挑戰:套刻精度3nm,落後ASML 1.5nm,影響良率

刻蝕、薄膜裝置:

  • 北方華創:14nm刻蝕機進入中芯國際產線,國產化率從15%提升至40%
  • 拓荊科技:PECVD裝置用於14nm介質層沉積,國產化率30%

10.3.2 材料自主:光刻膠與靶材的追趕

南大光電:ArF光刻膠通過中芯國際14nm驗證,2025年產能50噸,自給率12%江豐電子:超高純銅靶材佔中芯國際採購量40%,但4nm鉭靶材仍依賴進口

10.3.3 生態去美化:RISC-V與開源EDA

RISC-V架構:

  • 阿里平頭哥:玄鐵910用於邊緣AI,2025年出貨量3000萬片
  • 賽昉科技:RISC-V AI加速器IP,授權超100家企業

開源EDA:

  • OpenROAD:完成14nm測試晶片流片,性能較商業工具差距<5%
  • 時間:預計2027年支援7nm,2030年支援4nm

10.4 全球產能分佈:2025-2030晶圓廠地圖

趨勢:先進製程向台灣、美國集中,成熟製程向中國大陸、日本轉移。

附錄:核心企業財務與技術指標深度剖析(2025年度資料)

Google:全端帝國的算力底牌

戰略評估:

  • 優勢:技術領先、生態閉環、TCO優勢
  • 劣勢:雲業務市佔率仍落後AWS(28% vs 32%)
  • 估值:TPU業務若獨立估值,按12倍PS計算,價值1350億美元

輝達:毛利率神話的終結?

預警訊號

  • 庫存問題:B200庫存價值120億美元,若2026年需求放緩,減值風險巨大
  • TPU衝擊:Google外部搶佔10%市場份額,高端客戶流失
  • 估值:動態PE 28倍,較2024年45倍大幅回呼,市場擔憂增長天花板

博通:TPU背後的隱形王者

戰略價值: 博通作為TPU聯合設計者,每顆晶片賺取30-35%毛利,旱澇保收。2025年TPU業務貢獻淨利潤22億美元,佔整體45%。

台積電:地緣夾縫中的產能之王

地緣政治風險

  • 美國:亞利桑那廠成本超支40%,2025年Q3虧損8億美元
  • 中國:失去華為訂單後,南京28nm廠產能利用率僅65%

華為海思:國產算力的中流砥柱

戰略困境

  • 製程瓶頸:14nm性能落後兩代,靠系統最佳化彌補
  • 生態短板:CANN開發者僅為CUDA 8%,遷移成本高
  • 機會:美國管制下,國內市場被迫選擇,2025年國產替代份額從35%提至65%

寒武紀:邊緣TPU的堅守者

生存邏輯: 避開雲端訓練紅海,專注邊緣低功耗,2026年預計實現盈虧平衡。

結論:雙雄時代的中國機遇

2025年的智能算力產業,正在經歷從GPU絕對壟斷到TPU-GPU雙雄並立的歷史性轉折。Google用十年時間打磨的TPU技術堆疊,在TCO、能效比、系統級性能上已具備挑戰輝達的硬實力;而輝達憑藉CUDA生態、網路業務與Blackwell架構,依然守住60%市場份額。這場戰爭沒有絕對贏家,但推動算力成本下降50%,加速AI應用普及。

中國產業鏈的定位:

  • 短期(2025-2027):在14nm成熟製程建構去美化生態,昇騰、寒武紀在特定場景實現國產替代
  • 中期(2027-2030):突破7nm製程與Chiplet封裝,國產TPU全球市佔率15-20%
  • 長期(2030+):若光子計算、量子計算突破,或實現換道超車

投資策略:

  1. 首選:HBM產業鏈(華海清科)、光互連(仕佳光子)、先進封裝(通富微電)
  2. 次選:國產TPU設計企業(華為海思)、邊緣應用(海康威視)
  3. 迴避:傳統GPU產業鏈(受TPU衝擊)、純代工模式(利潤薄)

風險提示

  • 技術路線突變(光子計算)
  • 地緣政治升級(全面禁運)
  • 產能過剩(2026年價格崩盤)

最終判斷:智能算力的兆市場,既是技術革命,更是國運之戰。在TPU-GPU雙雄時代,中國憑藉全球最大的應用市場、最強的政策執行力與最完整的產業鏈配套,有望在2027-2030年實現從"被動替代"到"主動定義"的跨越。這是一場必須打贏的戰爭,也是一次不容錯過的機遇。 (AI雲原生智能算力架構)