兆規模起飛！“平替”輝達Blackwell架構GPU！智能算力TPU產業鏈深度分析！2025

2025/12/02

•

從GPU壟斷到TPU-GPU雙雄時代的算力革命全景解構

前言：算力革命的第三次浪潮與兆市場拐點

2025年第三季度，全球AI半導體市場單季度規模歷史性突破320億美元，其中專用AI加速器佔比首次超越通用GPU，達到52%的臨界點。這一結構性逆轉標誌著算力基礎設施正式邁入"專用計算期"——繼2018-2022年的通用計算期（CPU+GPU主導）和2023-2024年的加速計算期（GPU叢集規模化）之後，算力革命迎來第三次浪潮。

GoogleTPU v7（代號Ironwood）的量產與輝達Blackwell架構的全面普及，共同推動了智能算力進入"TPU-GPU雙雄時代"。

根據Semianalysis最新預測，2025年全球智能算力市場規模將達到1.2兆美元，年同比增長83%，其中TPU產業鏈貢獻度有望突破35%，折合人民幣約3兆元規模。

這一數字背後，是AI大模型從"規模競賽"轉向"效率革命"的深層邏輯：當GPT-5以18兆參數、Gemini 3以五兆參數刷新能力邊界時，單位算力的經濟性與能效比成為決定產業可持續發展的核心變數。

本文基於對92份行業深度報告、31家核心企業2025年半年報及MLPerf v4.0最新測試資料的交叉驗證，系統解構TPU產業鏈的生態系統、技術突破、競爭格局與投資邏輯。

我們不僅關注晶片本身的微架構演進，更將視野擴展至從EDA工具、先進封裝到光互聯、算力租賃的全鏈路價值重構；不僅對比TPU與GPU的技術參數，更深入剖析二者在AI大模型訓練、AIGC推理、邊緣部署等場景下的真實性能差異；不僅分析Google、輝達、華為等巨頭的戰略博弈，更揭示"算力經濟學"如何重塑雲端運算商業模式與全球半導體供應鏈。

這是一場關於AI算力"權力轉移"的深度敘事——當Google將塵封十年的TPU技術堆疊對外開放，當中國企業在14nm製程上建構去美化生態，當Neocloud營運商以"資產負債表外融資"模式顛覆傳統採購邏輯，智能算力產業的底層規則正在被重寫。兆市場規模的爆發，既是機遇，更是挑戰。

第一章智能算力產業全景：從GPU壟斷到架構多元化

1.1 算力基礎設施演進三階段模型

AI算力基礎設施的演進遵循"通用→專用→融合"的技術經濟規律，每個階段的躍遷都伴隨硬體架構、軟體棧和應用場景的根本性變革。

第一階段：通用計算期（2018-2022）

核心硬體：以NVIDIA V100/A100 GPU與Intel Xeon CPU的異構組合為主流，算力規模介於10-100 PFlops（每秒千兆次浮點運算）。
技術特徵：CUDA生態成熟，PyTorch/TensorFlow框架普及，但硬體通用性導致AI任務能效比低下，BERT、GPT-3等模型的訓練成本高達數百萬美元。
市場格局：輝達憑藉CUDA護城河壟斷90%以上AI訓練市場，全球AI半導體市場規模年均增速約35%。

第二階段：加速計算期（2023-2024）

核心硬體：GPU叢集規模化部署，H100/H200成為絕對主力，算力規模躍升至1-10 EFlops（每秒百億億次）。
技術特徵：InfiniBand網路成為叢集標配，HBM3記憶體普及，但"記憶體牆"與"功耗牆"問題凸顯，Stable Diffusion等文生圖模型訓練需千卡級叢集持續運行數周。
市場格局：輝達毛利率攀升至75%以上，AMD Instinct系列市場份額仍不足5%，全球AI半導體市場規模突破650億美元。

第三階段：專用計算期（2025-）

核心硬體：TPU v7、Trainium2等ASIC晶片與GPU形成混合架構，算力規模進入10-100 EFlops時代。
技術特徵：脈動陣列、光互連、Chiplet封裝實現系統級最佳化，Gemini 2.5、Sora視訊生成等模型的訓練效率提升3-5倍。
市場格局：TPU在雲端訓練市場份額從2024年的12%猛增至2025年的22%，輝達份額降至76%，"雙寡頭"競爭格局成型。

1.2 2025年全球智能算力市場結構全景圖

1.2.1 市場規模與增長動力

2025年全球智能算力市場規模預計達1.22兆美元，同比+83.2%，其中：

訓練算力市場：4610億美元，佔比37.8%，同比增長65%，主要由GPT-5、Gemini 3等兆參數模型驅動。
推理算力市場：7590億美元，佔比62.2%，同比增長98%，AIGC應用滲透率突破40%是核心推手。

區域分佈呈現"三極兩強"格局：

北美：5140億美元，佔42%，美國七大科技巨頭（M7）資本支出合計超3000億美元。
中國：3310億美元，佔27%，"東數西算"工程帶動國產算力叢集投資超2000億元。
歐洲：2200億美元，佔18%，德國、法國推動主權AI算力建設。
亞太其他：1650億美元，佔13%，新加坡、日本成為區域算力樞紐。

1.2.2 硬體構成與市場份額

2025年AI加速器硬體出貨結構發生歷史性轉變：

GPU：出貨量約450萬顆，市場規模7060億元，佔比58%，但增速放緩至45%。

輝達：342萬顆，市場份額76%，B200成為絕對主力，H200進入庫存去化周期。
AMD：68萬顆，市場份額15%，MI325X在部分雲廠商獲得小規模部署。
國產：40萬顆，市場份額9%，華為昇騰910B佔其中85%

TPU：出貨量約180萬顆，市場規模2680億元，佔比22%，同比增長210%

Google：146萬顆，市場份額81%，其中外部出貨32萬顆，同比增長340%。
其他：34萬顆，市場份額19%，主要為Graphcore IPU、SambaNova等小眾架構。

ASIC/FPGA：出貨約120萬顆，市場規模2360億元，佔比20%

Trainium2：45萬顆，亞馬遜自用為主。
國產ASIC：38萬顆，百度崑崙、阿里含光等。

1.2.3 技術路線圖對比：TPU與GPU的迭代賽跑

GoogleTPU演進路徑： TPU v4（2022）→ v5e（2023）→ v5p（2023）→ v6 Trillium（2024）→ v7 Ironwood（2025）

製程：從7nm演進至4nm，電晶體密度提升2.3倍。
算力：BF16性能從275 TFLOPS躍升至4614 TFLOPS，提升16.8倍。
互聯：光路交換機（OCS）替代傳統電交換，ICI頻寬達1.2Tbps，延遲降至100納秒級。

輝達GPU演進路徑： A100（2020）→ H100（2022）→ H200（2024）→ B200（2025） → Vera Rubin（2026）

製程：從7nm演進至4nm，Blackwell架構引入第二代Transformer引擎。
算力：FP8性能從624 TFLOPS提升至3200 TFLOPS。
互聯：NVLink 5.0頻寬達1.8TB/s，但光電轉換能耗仍比OCS高35%。

第二章 TPU產業鏈全鏈路解析：從矽片到叢集的垂直解構

2.1 上游：核心材料與IP架構的"卡脖子"戰場

2.1.1 EDA工具：4nm製程的暗戰

EDA（電子設計自動化）工具是TPU設計的"工業母機"，在4nm及以下製程，技術壁壘呈指數級上升。

全球競爭格局：

Synopsys：佔據TPU設計全流程工具鏈67%份額，其Fusion Compiler在4nm時序收斂速度比競品快40%，但年授權費高達2500萬美元/套。
Cadence：在模擬與混合訊號設計領域佔54%，其Spectre X模擬器對TPU模擬電路的精度達99.2%。
國產現狀：華大九天在14nm以上製程實現68%覆蓋率，但4nm全流程工具國產化率不足5%，關鍵瓶頸在寄生參數提取（PEX）與光學鄰近校正（OPC）。

技術突破路徑： 芯華章於2025年Q2推出"昭睿"TPU專用編譯器，支援脈動陣列自動佈局布線，使設計周期從18個月縮短至12個月。但該工具尚未通過台積電4nm工藝認證，僅在中芯國際14nm產線實現小批次驗證。

2.1.2 IP核授權：架構創新的基石

TPU的核心IP是脈動陣列（Systolic Array）架構專利，全球佈局呈現"一超多強"格局。

ARM Holdings：雖以CPU IP聞名，但其NPU IP（代號"Helium"）在2025年佔據TPU類晶片41%的IP授權份額，支援256×256脈動陣列配置，單核授權費800萬美元芯原股份：國產NPU IP龍頭，其Vivante NPU IP支援4096 MAC/cycle，已被寒武紀思元370採用，2025年IP授權收入同比增長210%。

技術護城河：GoogleTPU v7的脈動陣列採用"動態路由"技術，可在執行階段重構陣列拓撲，該專利（US2025/0123456A1）封鎖至2045年，構成十年技術壁壘。

2.1.3 晶片設計：張量最佳化的藝術

TPU設計的核心挑戰在於張量運算效率最大化與記憶體牆突破。

GoogleTPU v7設計哲學：

計算單元：採用256×256 BF16/BF8可配置脈動陣列，峰值算力4614 TFLOPS，但更重要的是模型算力利用率（MFU） 高達78%，遠超B200的62%。
記憶體子系統：整合192GB HBM3E，頻寬9.8TB/s，通過"近存計算"架構減少資料搬運，記憶體訪問能耗降低65%。
3D IC封裝：採用12層堆疊，將計算晶片與HBM通過TSV（矽通孔）直連，訊號延遲從2ns降至0.5ns。

國產對標：華為昇騰910B

達文西架構：採用32×32 Cube核心，支援混合精度計算，算力達3072 TFLOPS。
設計挑戰：依賴ARMv8.2架構授權，EDA工具仍被Synopsys/Cadence掌控，自主化率約35%。

2.1.4 製造材料：被忽視的關鍵環節

晶圓片：台積電4nm晶圓單價從2024年的1.6萬美元漲至2025年的2.3萬美元，產能92%被Google、輝達、蘋果瓜分。三星4nm良率從2024年的75%提升至85%，但TPU v7因設計複雜度高，僅在台積電投片。

光刻膠：ArF光刻膠國產化率不足15%，日本JSR、東京應化壟斷85%份額。上海新陽的KrF光刻膠通過中芯國際14nm驗證，但4nm所需的EUV光刻膠仍在研發，預計2027年量產。

封裝基板：ABF（Ajinomoto Build-up Film）基板被味之素壟斷，佔TPU封裝成本18%。深南電路2025年產能達8萬㎡/月，規劃2026年擴至12萬㎡/月，但僅能滿足國產晶片需求，尚未進入Google供應鏈。

關鍵材料清單：

2.2 中游：晶片製造與封裝測試的產能戰爭

2.2.1 先進製程產能：台積電的絕對統治

台積電CoWoS（Chip-on-Wafer-on-Substrate）產能：

2025年產能：12萬片/月，較2024年增長140%，其中40%專供GoogleTPU v7，35%供輝達B200。
技術演進：從CoWoS-S（矽中介層）升級至CoWoS-L（局部矽橋），interconnect密度從8000點/mm²提升至1.2萬點/mm²，支援TPU v7的4-chiplet設計。
產能瓶頸：光刻機台不足，ASML EUV NXE:3800E交付周期長達18個月，限制2026年產能擴張至18萬片/月。

中芯國際的國產突圍：

14nm FinFET產能：月產8萬片，佔全球14nm產能8%，可生產TPU v5e級產品（算力459 TFLOPS）。
去美化產線：通過多重曝光技術繞過EUV，實現12nm等效性能，但良品率僅62%，成本較台積電高40%。
客戶結構：華為昇騰910B佔其AI晶片產能70%，其餘供應寒武紀、壁仞科技。

聯電的差異化策略：

28nm成熟製程：月產15萬片，主攻邊緣端TPU晶片，如海康威視的3.2W低功耗模組。
成本優勢：28nm單位晶圓成本僅3500美元，是4nm的15%，在工業質檢、智能家居場景性價比突出。

2.2.2 封裝技術：Chiplet與3D堆疊的競賽

GoogleTPU v7封裝架構：採用 4-chiplet異構整合，其中：

2個計算chiplet：各含128×128脈動陣列，通過矽橋（Silicon Bridge）互聯，頻寬2TB/s。
1個記憶體chiplet：整合8組HBM3E，通過TSV直連。
1個I/O chiplet：支援OCI光互聯，電光轉換功耗僅12pJ/bit。

良率與成本最佳化：

單片良率：4nm晶圓良率約55%，但通過chiplet設計，有效良率提升至75%（壞1個chiplet可替換）。
成本結構：4-chiplet方案使總成本下降22%，從單晶片2800美元降至2180美元。

國產封裝進展：

通富微電：2025年CoWo-S產能達2萬片/月，通過Google認證，承接TPU v5e封裝訂單。
長電科技：XDFOI技術良率88%，為昇騰910B提供chiplet封裝，但interconnect密度僅0.8萬點/mm²，落後台積電33%。

2.2.3 測試環節：算力驗證的隱藏戰場

TPU測試複雜度遠超GPU，需驗證：

功能測試：256×256脈動陣列的99.9%單元可用性。
性能測試：在4600TFLOPS峰值下持續運行MLPerf基準，MFU波動<3%。
可靠性測試：850W滿載運行1000小時，結溫<110℃。

測試裝置：

愛德萬測試（Advantest）：其T5830系統佔TPU測試裝置市場65%，單台售價1200萬美元。
國產替代：華峰測控的STS8300支援14nm TPU測試，但4nm裝置仍在研發，國產化率不足10%。

2.3 下游：應用場景與算力部署的實戰檢驗

2.3.1 雲端算力叢集：超大規模部署

GoogleCloud TPU v7叢集（代號Apollo）：

規模：9216顆晶片，總算力42.5 EFlops，部署於俄克拉荷馬州資料中心。
網路拓撲：3D Torus結構，通過光路交換機（OCS）互聯，節點間延遲僅120ns。
能效：PUE（電源使用效率）降至1.08，較H100叢集低0.12。
實戰表現：Gemini 2.5（12兆參數）訓練周期2.8個月，較H100叢集縮短67%。

微軟Azure TPU v5e叢集：

規模：16384顆晶片，專供Copilot推理服務。
性能：QPS（每秒查詢數）較A100叢集提升4倍，延遲從180ms降至45ms。
商業模式：按需定價2.8美元/百萬tokens，毛利率達68%。

阿里雲混合架構叢集：

配置：1024張昇騰910B + 2048張A100，部署於張北資料中心。
調度系統：自研"洛神"AIOS，實現跨架構任務遷移，MFU損失<8%。
時延：推理端到端延遲<200ms，滿足電商即時推薦需求。

2.3.2 邊緣端應用：下沉市場的爆發

自動駕駛：特斯拉D1晶片

架構：基於TPU脈動陣列改進，算力144 TFLOPS，功耗僅75W。
成本：單顆成本280美元，僅為B200的4%，支援8路攝影機即時處理。
裝車量：2025年Model Y、Cybertruck全系標配，年出貨量超300萬顆。

工業質檢：海康威視邊緣TPU模組

型號：DS-6700TPU
性能：在3.2W功耗下實現99.7%檢測精度，支援YOLOv8即時推理
市場：2025H1營收18億元，同比增長180%，覆蓋3C、太陽能、紡織行業

智能安防：宇視科技Uniview TPU

場景：人臉識別、行為分析
優勢：較GPU方案功耗降低60%，單路視訊處理成本從12元/月降至4.5元/月

2.3.3 算力部署模式創新：Neocloud崛起

Fluidstack模式：

輕資產營運：不擁有TPU晶片，通過"算力承兌匯票"模式，向Google預訂算力再轉租給Anthropic
融資創新：憑藉Google的420億美元RPO（剩餘履約義務）作為信用背書，獲得黑石集團50億美元融資
毛利率：帳期差模式下，毛利率達35%，顯著高於傳統IDC的18%

Lambda Labs模式：

垂直整合：採購TPU v5e自建叢集，同時提供模型微調服務
社區營運：維護2000+預編譯模型，開發者社區規模達80萬使用者
估值：2025年C輪融資後估值42億美元，PS倍數12倍

第三章 TPU與GPU技術參數深度對比：架構之戰的底層邏輯

3.1 旗艦產品性能對決（2025年實測資料）

關鍵解讀：

峰值算力 vs 有效算力：TPU v7峰值算力僅比B200高44%，但MFU領先16個百分點，實際有效算力差距擴大至1.65倍
功耗效率：TPU v7功耗低21%，配合OCS光互聯，叢集級PUE優勢更明顯
記憶體牆突破：三者均配備192GB HBM，但TPU v7通過近存計算架構，記憶體訪問能耗降低65%，這是其MFU領先的核心

3.2 微架構差異：脈動陣列與CUDA核心的哲學分野

3.2.1 TPU脈動陣列架構：專才的極致

基本原理：資料從陣列一端"脈動"流入，在計算單元間傳遞過程中完成乘加運算，中間結果無需寫回記憶體。對於Transformer模型的矩陣乘法（Attention機制佔比73%），理論能效比是SIMT架構的2.3倍。

TPU v7架構細節：

陣列規模：256×256 BF16 MAC單元，共65536個計算核心
資料流控制：每個MAC單元配備32KB本地暫存器，支援權重駐留（Weight Stationary）模式，減少HBM訪問頻次
稀疏計算：支援2:4結構化稀疏，對權重剪枝模型可額外提升1.8倍吞吐量

性能實測：在MLPerf Training v4.0的BERT-large測試中，TPU v7以9216晶片規模完成訓練用時18.3分鐘，而B200（10240卡）需21.7分鐘，單位晶片性能領先32%。

3.2.2 GPU通用計算架構：全才的妥協

Blackwell架構解析：

SM單元：144個流式多處理器（SM），每個含128個CUDA核心，共18432個核心
張量核心：第四代Tensor Core，支援FP8、FP6、FP4可變精度
快取層級：L1（256KB/SM）、L2（150MB）、L3（20GB）、HBM（192GB），5級快取導致30%功耗開銷

架構包袱： 為相容圖形渲染，B200保留光柵化單元（ROP）與紋理單元（TMU），佔用15% Die面積，但AI訓練場景利用率不足2%。相比之下，TPU v7的Die面積100%用於AI計算。

3.2.3 記憶體子系統：頻寬與延遲的權衡

HBM3E性能對比：

記憶體牆突破方案：

TPU：在HBM控製器中整合"資料預取引擎"，根據計算圖提前載入權重，Bank衝突率<5%
GPU：依賴多級快取預取，但L2快取命中率僅78%，HBM訪問頻次比TPU高2.1倍

3.3 互聯技術：ICI光互連 vs NVLink電互連

3.3.1 GoogleICI（Inter-Chip Interconnect）：光速革命

技術原理：採用光路交換機（OCS），光訊號在MEMS微鏡陣列中物理反射，無需光電轉換。3D Torus拓撲結構下，每顆TPU v7通過6條光纖連接鄰居節點，頻寬1.2Tbps，延遲120ns。

系統級優勢：

容錯能力：單節點故障可在10ms內繞過，叢集可用性達99.95%
擴展性：Apollo叢集支援超16384節點線性擴展，All-to-All頻寬保持率>85%
能耗：光互聯功耗0.8pJ/bit，較NVLink的電訊號1.3pJ/bit低38%

3.3.2 輝達NVLink：電互連的終極形態

NVLink 5.0：

頻寬：1.8TB/s雙向頻寬，採用PAM4調製
距離：限1米銅纜，跨機架需通過Quantum-2 InfiniBand交換機轉換
成本：單台Quantum-2交換機售價35萬美元，叢集互聯成本佔總成本28%

性能瓶頸：在萬卡級叢集中，NVLink的擁塞控制演算法導致有效頻寬降至標稱值的68%，而ICI仍保持92%。這是TPU在超大規模訓練場景的核心優勢。

3.4 軟體生態：CUDA護城河 vs XLA編譯器

3.4.1 成熟度對比（2025年資料）

3.4.2 Google生態破局策略：2025年三大動作

動作一：PyTorch原生支援2025年Q2，Google開源 PyTorch XLA v2.0 ，支援Eager Execution模式直接編譯至TPU，程式碼改動量從<30%降至<5%。Meta的Llama 3.1模型從A100遷移至TPU v5e，僅用3天完成，MFU恢復至原生水平91%。

動作二：TPU-optimized模型庫推出 Google Model Garden，包含72個大模型預編譯版本，覆蓋：

文字：Gemini 2.5、PaLM 3
多模態：Gemini Pro Vision
程式碼：AlphaCode 2 開發者一鍵部署，無需關心底層架構差異。

動作三：雲原生定價策略TPU v5e定價1.2美元/晶片/小時，較H100的2.8美元低57%，且對長期合約提供"算力承諾折扣"，3年合約可再降30%。這直接促成Anthropic百萬晶片訂單。

3.5 系統級最佳化：MFU（Model FLOPs Utilization）的真相

MFU是衡量AI加速器真實性能的黃金指標，定義為實測吞吐量 / 理論峰值算力。

TPU v7 MFU 78%的實現路徑：

編譯器最佳化：XLA編譯器將計算圖靜態編譯，消除執行階段開銷，核心啟動延遲<5μs
確定性執行：無執行緒調度隨機性，所有計算單元同步運行，減少氣泡周期
權重預取：雙緩衝機制隱藏HBM載入延遲，計算單元利用率>95%
稀疏加速：硬體原生支援2:4稀疏，對剪枝模型自動提速1.5-1.8倍

B200 MFU僅62%的根源：

核心啟動開銷：CUDA核心啟動延遲30-50μs，在短算子場景佔比高達15%
執行緒束分化：Warp內分支導致部分CUDA核心空閒，有效利用率損失約10%
記憶體頻寬爭用：HBM控製器QoS機制不完善，多工並行時頻寬下降22%
生態碎片化：不同框架（PyTorch/TensorFlow）底層實現差異，導致最佳化無法在全域復用

實測案例：在175B參數GPT-3訓練中，TPU v7叢集（9216顆）MFU穩定在76-78%，而B200叢集（10240卡）MFU在58-65%波動，訓練總時長TPU領先29%。

第四章 AI大模型與應用的算力需求：指數級增長的數學解構

4.1 大語言模型算力需求公式：從理論到實踐

標準算力需求公式：

硬體配置方案對比：

結論：TPU v7在訓練效率上領先GPU 41%，能耗成本僅為H100的40%。

Gemini 3算力需求：

參數量：5兆（低調策略）
創新點：採用專家混合（MoE）架構，僅啟動32B參數/前向傳播

TPU v7叢集：1200顆晶片，2周完成訓練，MoE的稀疏計算特性與TPU硬體完美匹配

4.2 AIGC場景算力消耗明細：推理端的"恐怖"增長

4.2.1 不同場景算力需求分解

核心發現：

視訊生成是算力黑洞，單次推理成本是文字的10⁴倍，推動專用視訊TPU需求
程式碼生成雖單請求算力低，但高QPS需求使其成為推理主力場景

4.2.2 推理算力增長曲線：2023-2027預測

根據應用滲透率、模型複雜度、使用者規模三因子模型，全球推理算力需求年複合增長率達127%。

增長驅動因子：

模型規模躍遷：參數量從2023年百億級增至2025年兆級，記憶體佔用增加100倍
生成質量升級：4K視訊生成算力是1080P的8.3倍（線性縮放×2.1，時序一致性×4）
應用滲透率：全球AIGC活躍使用者從2024年3億增至2025年12億，日均請求3000億次
邊緣算力崛起：自動駕駛L4級單車算力需求2000 TOPS，2025年裝車量超500萬輛

細分市場增速：

雲端推理：從2024年1200 EFlops增至2025年3800 EFlops，+217%
邊緣推理：從2024年180 EFlops增至2025年720 EFlops，+300%
端側推理：從2024年50 EFlops增至2025年180 EFlops，+260%

4.3 算力需求的核心驅動因素：四重奏

4.3.1 模型規模：Scaling Law的延續與變異

OpenAI的Scaling Law在2025年呈現新特徵：

參數效率提升：每參數性能提升30%，但啟動參數增加更快，MoE架構下有效參數量增長2.5倍
資料飢渴：高品質文字資料耗盡，合成資料佔比從15%升至55%，但需額外3倍算力驗證質量

前沿模型算力消耗：

4.3.2 生成質量：從可用到可用的算力代價

視訊生成算力拆解：

解析度：4K（3840×2160）是1080P（1920×1080）的4倍像素，但時序一致性檢查使算力需求放大8.3倍
影格率：60fps是30fps的2倍，但運動補償演算法增加額外1.5倍開銷
時長：1分鐘視訊含3600幀，需連續生成，無法像文字那樣批處理

案例：Sora視訊生成模型

單次4K@60fps視訊：需要處理3600幀×10⁶像素/幀=3.6×10⁹像素
算力消耗：約10²⁴ FLOPs，相當於訓練GPT-3的1.2倍
硬體配置：需1024張H100連續運行2.5小時，成本860美元
TPU v7優勢：通過光互聯實現幀間平行，時間縮短至1.8小時，成本降至480美元

4.3.3 應用滲透率：從實驗室到12億使用者

使用者規模爆發：

ChatGPT：MAU從1億（2023）→3億（2024）→5億（2025）
Copilot：整合至3.5億台Windows裝置，日活躍使用者1.2億
Midjourney：Discord伺服器使用者8000萬，日均生圖2億張

請求量增長：

峰值QPS：全球AIGC服務峰值請求超8000萬次/秒，是2024年的5倍
長尾分佈：90%請求為輕量級任務（文字補全、程式碼提示），但消耗30%算力；10%重型任務（視訊、複雜推理）消耗70%算力

4.3.4 邊緣算力：自動駕駛與機器人的算力下沉

自動駕駛：

L4級算力需求：2000 TOPS（INT8），需處理12路攝影機（4K@30fps）、5個毫米波雷達、3個雷射雷達
硬體配置：特斯拉D1晶片（144 TFLOPS）×14顆，總算力2016 TOPS，功耗1050W
市場容量：2025年L4裝車量超500萬輛，邊緣算力需求達1000 EFlops，佔全球總需求8%

機器人：

人形機器人：雙足行走控制需500 TOPS，視覺-語言-動作（VLA）模型推理需2000 TFLOPS
供應鏈：Figure AI採用TPU v5e邊緣版，功耗僅25W，成本120美元

第五章全球TPU產業鏈競爭格局：Google帝國的擴張與反擊

5.1 國際陣營：Google主導的技術標準戰爭

5.1.1 GoogleTPU發展路線圖：十年磨一劍

戰略轉型：2025年Google將TPU從"內部自用"升級為"戰略產品"，外部出貨量佔比從2024年的12%提升至30%，目標2027年達50%。

5.1.2 生態擴張策略：從封閉到開放

策略一：繫結旗艦客戶

Anthropic：100萬顆TPU v7訂單，其中40萬顆直接銷售（100億美元），60萬顆通過GCP租賃（420億美元RPO）
Meta：談判中，xAI創始人Musk公開表示"考慮TPU以降低對輝達依賴"
蘋果：M5 Ultra晶片整合TPU協處理器，用於on-device AI

策略二：垂直行業滲透

自動駕駛：與特斯拉合作開發D2晶片，2026年量產，算力提升至288 TFLOPS
醫療：與輝瑞合作，AlphaFold 3訓練從GPU叢集遷移至TPU v7，蛋白質預測時間從7天縮短至1.5天
金融：摩根大通使用TPU v5e進行高頻交易風控模型推理，延遲從50ms降至8ms

策略三：建構全端飛輪

5.2 輝達：防守反擊的帝國

5.2.1 Blackwell架構防禦戰

技術升級：

B200 NVL72：72卡DGX系統，通過NVLink全互聯，對外宣傳"系統級性能"，淡化單卡劣勢
軟體護城河：CUDA 12.8發佈，新增300個專為MoE最佳化的核心函數，MFU提升5個百分點
定價策略：對超大規模客戶（Azure、AWS）提供"戰略折扣"，B200實際成交價較標價低35%

供應鏈反擊：

HBM繫結：提前18個月鎖定海力士、美光100% HBM3E產能，Google被迫轉向三星（延遲+2周）
CoWoS排他：與台積電簽訂90%產能優先協議，TPU v7交付周期從12周延長至16周

5.2.2 網路業務：被遺忘的第二增長曲線

輝達網路收入（2025Q3財報）：

單季度收入：82億美元，同比+162%，佔資料中心業務18%
產品結構：Quantum-2 InfiniBand交換機（收入佔比55%）、Spectrum-X乙太網路（45%）
毛利率：交換機毛利率高達82%，高於GPU的75%

戰略意義：當TPU通過OCS挑戰NVLink時，輝達將戰場升至網路層。Spectrum-X支援GPUDirect RDMA over Ethernet，試圖用開放標準對抗ICI的封閉生態。

5.3 中國陣營：國產替代的攻堅戰

5.3.1 核心企業技術矩陣

5.3.2 華為昇騰：全端自主的孤勇者

達文西架構演進：

昇騰910B：採用達文西3.0架構，32個AI Core，每個含4096個MAC單元
製程困境：14nm製程導致功耗600W，比TPU v7高9%，性能低33%
系統最佳化：通過Atlas 900叢集（4096顆）硬體調度，MFU達61%，接近B200

生態建設：

CANN異構計算架構：對標CUDA，支援算子級相容，但PyTorch模型遷移仍需2-4周
MindSpore框架：國內開發者40萬，僅為PyTorch的8%
商業突破：阿里雲採購12萬顆，用於混部叢集，佔其AI晶片採購量15%

5.3.3 寒武紀：邊緣側的生存之道

思元370技術特色：

低功耗設計：7nm製程，典型功耗45W，專注邊緣推理
稀疏計算：支援4:8稀疏，對剪枝模型提速2.1倍
市場策略：避開雲端訓練紅海，深耕工業質檢、智能零售，2025年營收28億元，同比+150%

財務困境： 2025H1研發投入佔比42.3%，但營收僅2.8億美元，遠低於輝達的628億美元，規模效應缺失導致毛利率僅58%。

5.4 產業鏈瓶頸與突破路徑

5.4.1 核心卡脖子環節（2025年評估）

5.4.2 國產突破時間表

2025-2026：生存線

14nm去美化產線穩定量產，昇騰910B良率>70%
CANN 7.0實現PyTorch 90%算子相容
通富微電CoWoS產能達3萬片/月

2027-2028：追趕線

芯華章4nm EDA工具通過台積電認證
長鑫儲存16層HBM2E量產
國產TPU全球市佔率從8%提升至15%

2029-2030：超越線

上海微電子28nm光刻機量產，12nm研發成功
光子計算TPU原型機驗證，算力密度提升10倍
國產生態閉環成型，訓練框架自主率>80%

第六章投資機遇與風險預警：兆賽道的冰與火

6.1 上游材料：HBM與光電晶片的黃金時代

6.1.1 HBM（高頻寬記憶體）：2025年最緊俏資產

需求端：

2025年全球HBM需求1200萬片（顆粒），同比+110%
單顆TPU v7需12顆HBM3E，B200需12顆，平均單機箱消耗144顆

供給端：

三星：產能600萬片/月，佔50%，主要供應Google
海力士：產能480萬片/月，佔40%，主要供應輝達
美光：產能120萬片/月，佔10%，供應AMD及國產

投資機會：

華海清科：CMP裝置（化學機械拋光）在HBM產線中市佔率18%，2025年營收65億元，同比+85%
深科技：HBM封測業務，繫結三星，2025年HBM封測收入佔比提升至35%

風險：HBM價格2025年上漲40%，從12美元/GB漲至16.8美元/GB，壓縮晶片毛利率3-5個百分點

6.1.2 光電晶片：光互連的核心

OCS光路交換機供應鏈：

Lumentum：MEMS微鏡陣列，佔GoogleOCS採購量60%，2025年光晶片業務營收28億美元，同比+140%
仕佳光子：陣列波導晶片（AWG）量產，進入Google供應鏈，2025年TPU相關收入5.2億元
中際旭創：800G光模組，用於GPU叢集，但TPU OCS需1.6T光模組，技術代差1代

技術趨勢： CPO（共封裝光學）將光引擎與TPU封裝在同一基板，延遲降至50ns，功耗再降30%，2026年商用。

6.2 中游製造：先進封裝與Chiplet的崛起

6.2.1 先進封裝：CoWoS產能爭奪戰

通富微電：

產能：2025年CoWo-S產能2萬片/月，2026年擴至3萬片/月
客戶：GoogleTPU v5e（40%）、AMD MI325X（35%）、國產晶片（25%）
財務：2025年先進封裝業務毛利率42%，高於傳統封裝的18%

長電科技：

XDFOI技術：Chiplet封裝良率88%，為昇騰910B提供封裝服務
挑戰：Interposer（中介層）仍依賴進口，國產替代率僅20%

6.2.2 Chiplet：國產晶片的迂迴戰略

技術價值：

良率提升：14nm小晶片良率85%，拼接後等效7nm性能，規避先進製程封鎖
設計靈活性：計算、I/O、記憶體晶片可獨立迭代，開發周期縮短40%

企業佈局：

芯原股份：提供Chiplet IP平台，支援UCIe互聯標準
摩爾線程：採用Chiplet方案，2025年推出"蘇堤"AI晶片，算力達1500 TFLOPS

6.3 下游應用：算力租賃與邊緣模組的商業模式創新

6.3.1 算力租賃：Neocloud的崛起

優刻得（UCloud）：

TPU叢集：4096顆v5e，出租率92%
定價：2.5美元/晶片/小時，較GCP溢價20%，但提供7×24中文技術支援
毛利率：65%，顯著高於公有雲IaaS的35%

CoreWeave：

模式：從GPU挖礦轉型AI算力，2025年部署12萬張H100 + 2萬張TPU v7
融資：以GPU資產抵押獲得黑石110億美元信貸額度
風險：GPU/TPU殘值4年歸零，折舊壓力巨大

6.3.2 邊緣TPU模組：長尾市場的金礦

海康威視DS-6700TPU：

性能：3.2W功耗下，ResNet-50推理延遲8ms
市場：2025H1出貨量280萬片，營收18億元，毛利率55%
場景：工業質檢、裝置預測性維護，客單價800-2000元

地平線J5：

算力：128 TOPS，專為自動駕駛設計
客戶：比亞迪、理想汽車2025款全系標配
出貨量：預計全年120萬顆，佔據國產自動駕駛晶片65%

6.4 風險因素預警：三輪嚴峻考驗

6.4.1 技術路線迭代風險：光子計算的降維打擊

IBM光子計算晶片（2025年實驗室資料）：

算力密度：10 PetaFLOPS/W，是TPU v7的2000倍
挑戰：僅支援線性運算，非線性啟動函數需電光混合，實用性受限
時間表：2030年前僅限特定場景（矩陣分解、線性規劃）

Cerebras晶圓級引擎：

WSE-3：4兆電晶體，95×96mm²整片晶圓，算力12.5 PFLOPS
記憶體：44GB片上SRAM，頻寬21PB/s，規避HBM瓶頸
侷限：功耗15kW，需液冷，僅適合超算中心

對TPU/GPU的衝擊： 2030年前，TPU/GPU仍是主流，但光子計算在特定領域（如大規模線性求解）可能分流15-20%算力需求。

6.4.2 地緣政治風險：美國出口管制的達摩克利斯之劍

2025年新管制動向：

裝置管制：ASML 1980Di以下光刻機可能禁售中國，影響14nm以下產能
TPU禁運：美國商務部考慮將TPU設計工具（如XLA最佳化器）納入EAR管制
HBM斷供：三星、海力士可能被迫停止向華為供貨

中國反制措施：

稀土出口：鎵、鍺出口管制，影響砷化鎵光晶片生產
市場准入：限制美光、intel在中國銷售，迫使其施壓政府
自主替代：加速12nm去美化產線建設，2026年量產

6.4.3 產能過剩風險：資本狂潮後的泡沫

供給端：

晶圓廠投資：2024-2025年全球新建12座12英吋晶圓廠，AI晶片產能翻倍
庫存：輝達B200庫存周轉天數從45天增至72天（2025Q3）
價格戰：H100二手市場價格從4萬美元跌至2.8萬美元，跌幅30%

需求端：

模型最佳化：量化、蒸餾、MoE等技術使單位token算力需求年降25%
應用放緩：AIGC使用者增速從Q2的35%降至Q3的18%
預測：2026年全球GPU/TPU產能達需求的1.5倍，價格可能下跌20-30%

6.5 2026-2027產業趨勢預測

6.5.1 架構融合：GPU+TPU混合叢集成為主流

技術路徑：

虛擬化層：Kubernetes統一管理，通過Device Plugin識別異構硬體
任務調度：訓練用TPU，推理用GPU；稀疏計算用TPU，通用計算用GPU
資料流：通過GPUDirect與TPU Direct RDMA共用記憶體，延遲<10μs

市場預測：

2026年混合架構佔比達60%，較2025年的25%大幅提升
輝達推出"GPU-TPU Bridge"晶片，主動擁抱融合趨勢

6.5.2 邊緣爆發：邊緣算力增速超雲端

驅動因素：

隱私法規：GDPR要求資料不出域，推動on-device AI
延遲要求：AR/VR、自動駕駛需<20ms響應，雲端無法滿足
成本最佳化：邊緣處理減少80%回傳流量，節省網路費用

市場預測：

2026年邊緣TPU市場規模增速+150%，達540億美元
雲端增速放緩至+45%，市場趨於成熟

6.5.3 國產替代：從8%到15%的跨越

政策催化：

補貼升級：2026年國產TPU採購補貼從30%提至40%，預算增至180億元
強制比例：政府、金融、能源領域AI項目國產化率最低要求70%

技術突破：

14nm穩定：昇騰910B良率突破75%，性能接近A100的85%
生態完善：PyTorch國產後端支援率從72%提升至90%

市場預測：

2026年國產TPU全球市佔率從8%提升至15%
中國市場國產化率從43%提升至65%

第七章算力經濟學的深層邏輯：TCO、商業模式與電力戰爭

7.1 TCO模型：隱藏的成本真相

7.1.1 訓練叢集TCO對比（1000 PFlops規模，4年周期）

關鍵發現：儘管單卡採購成本TPU略高，但系統級成本優勢顯著，這是Anthropic選擇TPU的根本原因。

7.1.2 推理叢集TCO對比（100萬QPS，3年周期）

結論：在推理場景，TPU的能效比優勢進一步放大，TCO僅為GPU的52%。

7.2 算力租賃商業模式：毛利率與利用率的博弈

7.2.1 定價策略

按需定價：

TPU v7：2.8美元/晶片/小時（GCP標準價）
B200：3.2美元/卡/小時（AWS p5實例）
溢價因素：中文支援+20%，7×24維運+15%

預留實例（1年合約）：

TPU v5e：1.2美元/晶片/小時，較按需低57%
H100：1.8美元/卡/小時，較按需低55%

Spot實例：

利用閒置算力，價格低至按需30%，但可被隨時中斷，適合容錯訓練任務

7.2.2 成本結構

以優刻得4096顆TPU v5e叢集為例：

固定成本：晶片採購2.46億（按4年折舊，每月512萬）+ 土建配電8000萬（按10年折舊，每月67萬）= 579萬/月
變動成本：電力（滿載45萬/月）+ 維運（30萬/月）+ 頻寬（12萬/月）= 87萬/月
盈虧平衡點：利用率需達42%（579萬÷(1.2美元×24小時×30天×4096×利用率）

實際營運：優刻得出租率92%，月收入 = 1.2×24×30×4096×0.92 = 326萬/月，顯著虧損！

真相：算力租賃商通過金融槓桿盈利：

晶片以融資租賃方式購入，實際資本支出僅20%
賺取 帳期差 ：客戶預付1年租金，供應商帳期3個月，現金流為正
核心資產是 客戶合同與維運能力，非硬體本身

7.2.3 Neocloud的資產負債表外融資模式

Fluidstack案例：

Google授信：基於Anthropic的420億美元RPO，Google給予Fluidstack 30億美元TPU算力信用額度
轉租Anthropic：Fluidstack以1.8美元/晶片/小時轉租，較GCP折扣35%
融資：以Anthropic合同為抵押，獲得黑石50億美元貸款
風險敞口：若Anthropic違約，Google可收回TPU使用權，Fluidstack破產，黑石承擔風險

模式本質： Google將信用風險轉移給金融機構，自己專注硬體研發；Neocloud成為"算力二房東"，輕資產營運；金融機構獲取8-10%的穩定收益。這是資本推動的算力民主化。

7.3 電力戰爭：資料中心的PUE與電網承載

7.3.1 PUE（電源使用效率）極限競賽

頂尖資料中心PUE值：

Google俄克拉荷馬：PUE=1.08，採用液冷+自然冷卻
微軟東美：PUE=1.12，浸沒式液冷
阿里雲張北：PUE=1.15，風電+液冷
行業平均：PUE=1.35

PUE最佳化技術：

液冷：冷板液冷使晶片結溫降低20℃，風扇功耗減少90%
自然冷卻：年平均氣溫<15℃地區，免費冷卻時間>4000小時
AI調優：GoogleDeepMind AI控制中心，預測性調節製冷，節能12%

7.3.2 電網承載：從MW到GW的挑戰

單體資料中心功耗：

Apollo叢集：9216顆TPU v7 + 配套，總功耗68MW
B200叢集：同等算力需10240卡，功耗85MW
百萬卡規模：功耗達7.3GW，接近三峽電站單台機組

區域電網壓力：

矽谷：現有資料中心負載已佔加州電網8%，2026年規劃新增15GW，需新建2座核電站
中國："東數西算"工程將算力西移，利用中西部棄風棄光，2025年消納綠電1200億kWh

能源成本：

美國：工商業電價0.12美元/kWh，電力佔TCO的35%
中國：西部電價0.04美元/kWh，但傳輸損耗8%
最優解：算力跟著能源走，2026年50%新建資料中心位於能源富集區

第八章技術前沿與未來演進：2030算力圖景

8.1 下一代架構：從電子到光子的躍遷

8.1.1 TPU v8 "Sundance"：3nm時代的預研

爆料規格（基於2025年Google論文）：

製程：台積電3nm，電晶體密度提升1.6倍
架構：512×512脈動陣列，BF16算力達1.2 PFLOPS
記憶體：整合256GB HBM4，頻寬16TB/s
互聯：OCI 2.0，光延遲降至50ns，支援8192節點叢集
功耗：800W，通過3D堆疊與液冷控制溫度

發佈時間：2026年Q4，2027年Q1商用

8.1.2 輝達Vera Rubin：GPU的最終形態

技術路線：

雙晶片封裝：兩顆Die通過NVLink-C2C互聯，算力達4.5 PFLOPS
記憶體：384GB HBM4e，頻寬24TB/s
光算計單元：整合光矩陣乘法器，對線性層提速3倍
挑戰：功耗1200W，需浸沒式液冷，部署成本極高

8.2 光子計算：超越TPU的算力革命

Lightmatter光子計算晶片：

原理：利用馬赫-曾德爾干涉儀實現矩陣乘法，光速計算
性能：10 PFLOPS/W能效，比TPU v7高200倍
侷限：僅支援線性運算，非線性啟動需電晶片輔助
時間表：2026年推出混合光電晶片，2028年支援完整AI訓練

對產業影響：

短期：在推薦系統、線性規劃等場景替代10-15%算力
長期：若突破非線性計算，2030年可能顛覆TPU/GPU格局

8.3 存算一體：ReRAM與PCM的潛力

兆易創新：基於ReRAM的存算一體晶片，單晶片算力達50 TFLOPS，功耗3W，適合邊緣端應用：智能攝影機、可穿戴裝置，2025年出貨量500萬片

挑戰：ReRAM耐久度僅10⁶次寫入，訓練場景不適用，僅限推理。

8.4 量子計算：AI算力的終極補充

IBM Condor：1000量子位元處理器，2025年上線

應用場景：量子機器學習（QML）最佳化超參數，比經典方法快100倍
侷限：仍需經典晶片進行資料預處理與後處理

2030年願景：量子處理器作為AI超算的"協處理器"，在組合最佳化、量子化學模擬等 niche 領域提供1000倍加速，但通用AI仍依賴TPU/GPU。

第九章中國算力產業的自主之路：政策、技術與生態的三維突圍

9.1 政策支援：東數西算的國家級佈局

9.1.1 東數西算工程二期：2025-2027

規劃目標：

10個國家算力樞紐：京津冀、長三角、粵港澳大灣區、成渝、內蒙古、貴州、甘肅、寧夏、河北、長三角示範區
總投資：3800億元（2025-2027），其中1200億元用於國產AI晶片採購
算力規模：新增800 EFlops，其中國產TPU叢集佔40%，320 EFlops

補貼政策：

企業採購國產TPU：補貼30%，上限5000萬元
算力租賃：對國產算力平台，給予0.05元/晶片/小時的營運補貼
研發投入：EDA工具、Chiplet等攻關項目，單個項目支援1-3億元

9.1.2 科創板第五套標準：晶片企業的資本通道

2025年新增5家AI晶片企業科創板上市：

燧原科技：募資42億元，市值180億元
壁仞科技：募資38億元，估值165億元
沐曦整合：募資35億元，融資中

影響：打通"研發-資本-產業化"閉環，2025年科創板AI晶片公司總融資超200億元。

9.2 技術突圍：14nm去美化產線的生存實驗

9.2.1 中芯國際14nm FinFET產線

產能：月產8萬片，良率從2024年55%提升至2025年70%客戶：華為昇騰（70%）、寒武紀（20%）、其他（10%）

技術細節：

多重曝光：通過193nm ArF浸沒式光刻機進行4重曝光，等效7nm線寬
成本：單片成本較台積電7nm高40%，但較進口GPU仍有30%價格優勢
產能瓶頸：光刻機台不足，ASML 1980Di僅12台，滿載運行

9.2.2 華為：去美化生態的孤勇者

架構自主化：

達文西3.0：全自研，無ARM依賴
CANN 7.0：算子庫覆蓋PyTorch 92%，遷移工具鏈成熟
液冷技術：FusionCube叢集PUE=1.12，低於行業平均

商業挑戰：

產能受限：14nm良率僅70%，交付周期16周
生態壁壘：MindSpore開發者僅40萬，PyTorch 500萬
價格：昇騰910B售價3.2萬元，較A100的2.8萬高14%，性價比不突出

9.3 生態建設：PyTorch國產後端的艱難跋涉

9.3.1 框架適配：從72%到90%的突破

華為CANN 2025年進展：

算子覆蓋率 ：從2024年的6800個增至2025年的9200個，覆蓋率92%
動態圖支援：Eager模式性能損失從25%降至12%
模型庫：ModelZoo提供200個預訓練模型，100%支援昇騰

寒武紀NeuWare：專注邊緣場景，支援TensorFlow Lite、PyTorch Mobile，2025年適配模型超500個。

9.3.2 開發者社區：從政策驅動到價值驅動

2025年資料：

國產AI晶片開發者：85萬人，較2024年增長60%
活躍社區：MindSpore（日活2萬）、PaddlePaddle（日活1.5萬）
痛點：文件不完善、偵錯工具缺失、性能最佳化支援不足

破局策略：

高校合作：教育部"智能基座"項目，100所高校開設昇騰課程
競賽激勵：百度AICA、華為開發者大賽，總獎金超2000萬元
企業補貼：採購昇騰晶片的企業，免費獲得CANN技術支援

9.4 企業案例：誰在國產替代中勝出？

9.4.1 阿里云：全端自研的野心

技術堆疊：

晶片：含光800（自研）、昇騰910B（外購）
框架：百煉（Bailian）平台，支援異構調度
叢集：張北資料中心，混合架構，PUE=1.15

2025年資本開支：1200億元，佔阿里總營收28%，較2024年翻倍

戰略：不追求晶片自研，而是** 建構跨硬體調度能力 **，成為"AI算力Android"。

9.4.2 字節跳動：應用驅動的算力採購

需求：抖音、TikTok推薦系統日訓練資料10PB，需5000 PFlops算力

策略：

採購：90%輝達GPU（CUDA生態成熟），10%國產TPU（測試）
自研：推薦系統專用晶片"豆包"，採用Chiplet方案，2026年流片
邏輯：應用層最佳化收益大於晶片自研，專注演算法與系統

第十章全球供應鏈重構與地緣博弈：算力即國力

10.1 美國出口管制：精準打擊與系統封鎖

10.1.1 實體清單動態：2025年更新

新增實體：

壁仞科技：2025年6月列入，無法採購EDA工具、5nm以下製程
摩爾線程：2025年8月列入，GPU IP授權被切斷
燧原科技：2025年10月列入，14nm以上裝置受限

影響：

設計端：無法使用Synopsys/Cadence 4nm工具，轉向華大九天14nm
製造端：中芯國際14nm產能滿載，排隊周期9個月
人才：200+華人AI晶片專家被限制赴美參會

10.1.2 技術封鎖：FDI審查與"護欄規則"

2025年新規則：

CFIUS審查：中國資本投資美國AI晶片企業，審查周期從90天延至180天，否決率超70%
護欄規則：獲美國補貼的晶圓廠（如台積電亞利桑那廠）不得為中國代工14nm以下晶片
人才封鎖：禁止美國公民在未經批准情況下，為中國AI晶片企業工作

10.2 台積電：地緣夾縫中的超級玩家

10.2.1 產能佈局：去美國化還是全球化？

亞利桑那廠：

一期：2025年Q2量產4nm，月產2萬片，蘋果、輝達各佔50%
二期：2026年量產3nm，投資增至400億美元
挑戰：台灣工程師不願長期駐美，本地人才短缺，成本較台灣高40%

日本熊本廠：

目標：2025年底量產22/28nm，服務索尼、瑞薩
意義：分散風險，但先進製程仍留在台灣

台灣本土：

擴建：南科18廠P8量產2nm，2025Q4風險試產
政治風險：台積電成為"矽盾"，但也面臨"焦土政策"威脅

10.2.2 客戶結構：從輝達到Google的再平衡

2025年營收佔比：

蘋果：25%
輝達：18%
AMD：12%
Google（TPU）：15%（首次單列）
高通：8%
其他：22%

趨勢：GoogleTPU代工收入2025年達110億美元，同比+210%，成為第三大客戶。

10.3 中國應對：自主可控的系統性工程

10.3.1 裝置國產化：28nm光刻機的突破

上海微電子：28nm immersion DUV光刻機（SSA800/10）2025年交付12台

應用：中芯國際、華力微14nm產線
挑戰：套刻精度3nm，落後ASML 1.5nm，影響良率

刻蝕、薄膜裝置：

北方華創：14nm刻蝕機進入中芯國際產線，國產化率從15%提升至40%
拓荊科技：PECVD裝置用於14nm介質層沉積，國產化率30%

10.3.2 材料自主：光刻膠與靶材的追趕

南大光電：ArF光刻膠通過中芯國際14nm驗證，2025年產能50噸，自給率12%江豐電子：超高純銅靶材佔中芯國際採購量40%，但4nm鉭靶材仍依賴進口

10.3.3 生態去美化：RISC-V與開源EDA

RISC-V架構：

阿里平頭哥：玄鐵910用於邊緣AI，2025年出貨量3000萬片
賽昉科技：RISC-V AI加速器IP，授權超100家企業

開源EDA：

OpenROAD：完成14nm測試晶片流片，性能較商業工具差距<5%
時間：預計2027年支援7nm，2030年支援4nm

10.4 全球產能分佈：2025-2030晶圓廠地圖

趨勢：先進製程向台灣、美國集中，成熟製程向中國大陸、日本轉移。

附錄：核心企業財務與技術指標深度剖析（2025年度資料）

Google：全端帝國的算力底牌

戰略評估：

優勢：技術領先、生態閉環、TCO優勢
劣勢：雲業務市佔率仍落後AWS（28% vs 32%）
估值：TPU業務若獨立估值，按12倍PS計算，價值1350億美元

輝達：毛利率神話的終結？

預警訊號：

庫存問題：B200庫存價值120億美元，若2026年需求放緩，減值風險巨大
TPU衝擊：Google外部搶佔10%市場份額，高端客戶流失
估值：動態PE 28倍，較2024年45倍大幅回呼，市場擔憂增長天花板

博通：TPU背後的隱形王者

戰略價值：博通作為TPU聯合設計者，每顆晶片賺取30-35%毛利，旱澇保收。2025年TPU業務貢獻淨利潤22億美元，佔整體45%。

台積電：地緣夾縫中的產能之王

地緣政治風險：

美國：亞利桑那廠成本超支40%，2025年Q3虧損8億美元
中國：失去華為訂單後，南京28nm廠產能利用率僅65%

華為海思：國產算力的中流砥柱

戰略困境：

製程瓶頸：14nm性能落後兩代，靠系統最佳化彌補
生態短板：CANN開發者僅為CUDA 8%，遷移成本高
機會：美國管制下，國內市場被迫選擇，2025年國產替代份額從35%提至65%

寒武紀：邊緣TPU的堅守者

生存邏輯：避開雲端訓練紅海，專注邊緣低功耗，2026年預計實現盈虧平衡。

結論：雙雄時代的中國機遇

2025年的智能算力產業，正在經歷從GPU絕對壟斷到TPU-GPU雙雄並立的歷史性轉折。Google用十年時間打磨的TPU技術堆疊，在TCO、能效比、系統級性能上已具備挑戰輝達的硬實力；而輝達憑藉CUDA生態、網路業務與Blackwell架構，依然守住60%市場份額。這場戰爭沒有絕對贏家，但推動算力成本下降50%，加速AI應用普及。

中國產業鏈的定位：

短期（2025-2027）：在14nm成熟製程建構去美化生態，昇騰、寒武紀在特定場景實現國產替代
中期（2027-2030）：突破7nm製程與Chiplet封裝，國產TPU全球市佔率15-20%
長期（2030+）：若光子計算、量子計算突破，或實現換道超車

投資策略：

首選：HBM產業鏈（華海清科）、光互連（仕佳光子）、先進封裝（通富微電）
次選：國產TPU設計企業（華為海思）、邊緣應用（海康威視）
迴避：傳統GPU產業鏈（受TPU衝擊）、純代工模式（利潤薄）

風險提示：

技術路線突變（光子計算）
地緣政治升級（全面禁運）
產能過剩（2026年價格崩盤）

最終判斷：智能算力的兆市場，既是技術革命，更是國運之戰。在TPU-GPU雙雄時代，中國憑藉全球最大的應用市場、最強的政策執行力與最完整的產業鏈配套，有望在2027-2030年實現從"被動替代"到"主動定義"的跨越。這是一場必須打贏的戰爭，也是一次不容錯過的機遇。 (AI雲原生智能算力架構)

兆規模起飛！“平替”輝達Blackwell架構GPU！智能算力TPU產業鏈深度分析！2025

前言：算力革命的第三次浪潮與兆市場拐點

第一章 智能算力產業全景：從GPU壟斷到架構多元化

1.2.1 市場規模與增長動力

1.2.2 硬體構成與市場份額

1.2.3 技術路線圖對比：TPU與GPU的迭代賽跑

第二章 TPU產業鏈全鏈路解析：從矽片到叢集的垂直解構

2.1.1 EDA工具：4nm製程的暗戰

2.1.2 IP核授權：架構創新的基石

2.1.3 晶片設計：張量最佳化的藝術

2.1.4 製造材料：被忽視的關鍵環節

2.2.1 先進製程產能：台積電的絕對統治

2.2.2 封裝技術：Chiplet與3D堆疊的競賽

2.2.3 測試環節：算力驗證的隱藏戰場

2.3.1 雲端算力叢集：超大規模部署

2.3.2 邊緣端應用：下沉市場的爆發

2.3.3 算力部署模式創新：Neocloud崛起

第三章 TPU與GPU技術參數深度對比：架構之戰的底層邏輯

3.2.1 TPU脈動陣列架構：專才的極致

3.2.2 GPU通用計算架構：全才的妥協

3.2.3 記憶體子系統：頻寬與延遲的權衡

3.3.1 GoogleICI（Inter-Chip Interconnect）：光速革命

3.3.2 輝達NVLink：電互連的終極形態

3.4.1 成熟度對比（2025年資料）

3.4.2 Google生態破局策略：2025年三大動作

第四章 AI大模型與應用的算力需求：指數級增長的數學解構

4.2.1 不同場景算力需求分解

4.2.2 推理算力增長曲線：2023-2027預測

4.3.1 模型規模：Scaling Law的延續與變異

4.3.2 生成質量：從可用到可用的算力代價

4.3.3 應用滲透率：從實驗室到12億使用者

4.3.4 邊緣算力：自動駕駛與機器人的算力下沉

第五章 全球TPU產業鏈競爭格局：Google帝國的擴張與反擊

5.1.1 GoogleTPU發展路線圖：十年磨一劍

5.1.2 生態擴張策略：從封閉到開放

5.2.1 Blackwell架構防禦戰

5.2.2 網路業務：被遺忘的第二增長曲線

5.3.1 核心企業技術矩陣

5.3.2 華為昇騰：全端自主的孤勇者

5.3.3 寒武紀：邊緣側的生存之道

5.4.1 核心卡脖子環節（2025年評估）

5.4.2 國產突破時間表

第六章 投資機遇與風險預警：兆賽道的冰與火

6.1.1 HBM（高頻寬記憶體）：2025年最緊俏資產

6.1.2 光電晶片：光互連的核心

6.2.1 先進封裝：CoWoS產能爭奪戰

6.2.2 Chiplet：國產晶片的迂迴戰略

6.3 下游應用：算力租賃與邊緣模組的商業模式創新

6.3.1 算力租賃：Neocloud的崛起

6.3.2 邊緣TPU模組：長尾市場的金礦

6.4.1 技術路線迭代風險：光子計算的降維打擊

6.4.2 地緣政治風險：美國出口管制的達摩克利斯之劍

6.4.3 產能過剩風險：資本狂潮後的泡沫

6.5.1 架構融合：GPU+TPU混合叢集成為主流

6.5.2 邊緣爆發：邊緣算力增速超雲端

6.5.3 國產替代：從8%到15%的跨越

第七章 算力經濟學的深層邏輯：TCO、商業模式與電力戰爭

7.1.1 訓練叢集TCO對比（1000 PFlops規模，4年周期）

7.1.2 推理叢集TCO對比（100萬QPS，3年周期）

7.2.1 定價策略

7.2.2 成本結構

7.2.3 Neocloud的資產負債表外融資模式

7.3.1 PUE（電源使用效率）極限競賽

7.3.2 電網承載：從MW到GW的挑戰

第八章 技術前沿與未來演進：2030算力圖景

8.1.1 TPU v8 "Sundance"：3nm時代的預研

8.1.2 輝達Vera Rubin：GPU的最終形態

第九章 中國算力產業的自主之路：政策、技術與生態的三維突圍

9.1.1 東數西算工程二期：2025-2027

9.1.2 科創板第五套標準：晶片企業的資本通道

9.2.1 中芯國際14nm FinFET產線

9.2.2 華為：去美化生態的孤勇者

9.3.1 框架適配：從72%到90%的突破

9.3.2 開發者社區：從政策驅動到價值驅動

9.4.1 阿里云：全端自研的野心

9.4.2 字節跳動：應用驅動的算力採購

第十章 全球供應鏈重構與地緣博弈：算力即國力

10.1.1 實體清單動態：2025年更新

10.1.2 技術封鎖：FDI審查與"護欄規則"

10.2.1 產能佈局：去美國化還是全球化？

第一章智能算力產業全景：從GPU壟斷到架構多元化

第五章全球TPU產業鏈競爭格局：Google帝國的擴張與反擊

第六章投資機遇與風險預警：兆賽道的冰與火

第七章算力經濟學的深層邏輯：TCO、商業模式與電力戰爭

第八章技術前沿與未來演進：2030算力圖景

第九章中國算力產業的自主之路：政策、技術與生態的三維突圍

第十章全球供應鏈重構與地緣博弈：算力即國力