#SemiAnalysis | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#SemiAnalysis

SemiAnalysis深度報告：美國電網跟不上，AI資料中心“自建電廠”跟時間賽跑

在公共電網建設動輒十年的現實下，OpenAI、xAI、Google等美國頭部AI實驗室集體繞開電網，自建燃氣電廠，以最快的速度讓算力跑起來。底層邏輯在於，當AI進入超大規模部署階段，電力問題已經從“成本問題”，升級為決定算力能否按期上線的第一性約束。AI的戰爭中，指數級增長的算力需求，正狠狠撞向美國老化且緩慢的公共電網。結論殘酷而清晰——誰等電網，誰就出局。為了不被時間淘汰，越來越多美國AI資料中心正在做一件過去幾乎不可想像的事：不等電網，直接在園區內自建電廠。燃氣輪機、燃氣發動機、燃料電池被快速部署到資料中心旁邊，只為一個目標——盡快把電接上，讓算力跑起來。2025年最後一天，知名半導體與算力研究機構SemiAnalysis發佈了一份長達60多頁的付費深度報告——《How AI Labs Are Solving the Power Crisis: The Onsite Gas Deep Dive》（AI實驗室如何破解電力危機：現場燃氣發電深度解析）。報告系統梳理了這一變化的底層邏輯：當AI進入超大規模部署階段，電力問題已經從“成本問題”，升級為決定算力能否按期上線的第一性約束。電力危機的本質：不是不夠，而是太慢在傳統認知中，美國並不存在系統性“缺電”。但SemiAnalysis指出，AI資料中心遭遇的真正瓶頸，並不在於電力資源是否存在，而在於電力交付節奏與算力擴張速度的嚴重錯配。AI資料中心的建設周期，已被壓縮至12—24個月；而電網擴容、輸電建設和並網審批的典型周期，仍然以3—5年計。當算力需求開始以吉瓦為單位集中釋放，“等電”本身就成為一種無法承受的風險。以德州ERCOT為例，2024—2025年間，資料中心提交的新增負荷申請規模高達數十GW，但同期真正獲批並成功接入的新增負荷，僅約1GW。電網並非沒有電，而是慢到無法匹配AI的節奏。當算力的“時間價值”壓倒電價為什麼AI公司願意承擔更高成本，也要繞開公共電網？SemiAnalysis給出的答案是：算力的時間價值正在重塑一切決策邏輯。按照測算，一個1GW規模的AI資料中心，年化潛在收入可達百億美元等級。即便是中等規模叢集，只要上線時間提前數個月，帶來的商業價值就足以覆蓋更高的電力成本。在這種背景下，電力不再只是營運成本，而是決定AI項目能否存在的前置條件。“自建電廠”，從非常規選擇變成現實解法於是，一種過去只存在於極端場景中的方案，被迅速推到台前——BYOG（BringYourOwnGeneration，自建電源、現場發電）。這種模式的目標並非永久脫離電網，而是“搶時間”：前期以離網方式快速投產後期再逐步接入電網，現場電廠轉為備用與冗餘在AI時代，先上線，正在壓倒先最優。xAI帶頭，AI巨頭集體“自發電”SemiAnalysis在報告中重點分析了xAI的案例。在孟菲斯，xAI在不到四個月內建成了一個10萬卡規模的GPU叢集。與其說這是算力奇蹟，不如說是一場電力工程的極限操作：完全繞過公共電網使用可快速部署的燃氣輪機與燃氣發動機現場發電能力超過500MW甚至在裝置層面，xAI選擇租賃而非採購，以進一步壓縮建設周期。報告顯示，到2025年底，“自建電廠”已不再是個案，而是成為系統性趨勢：OpenAI與甲骨文在德州合作建設2.3GW現場燃氣電站Meta、亞馬遜AWS、Google均在多個園區採用“橋接電力”方案多個AI超級叢集在未完成正式並網前已投入運行在美國，已有十余家發電裝置供應商，單筆拿下超過400MW的AI資料中心訂單。SemiAnalysis認為，這標誌著電力首次被視為AI基礎設施的一部分，而非外部條件。為什麼是天然氣？在所有現場發電方案中，天然氣成為絕對主流。原因並不複雜：它幾乎是唯一能在規模、穩定性和部署速度上同時滿足AI需求的選擇。相比之下，核電建設周期過長，風電與儲能難以支撐一天二十四小時高負載運行，而高效率聯合循環機組雖然經濟性更優，卻同樣無法滿足“立刻上線”的時間要求。在AI競爭中，最優解正在被時間解替代。誰等電網，誰就出局？SemiAnalysis在報告中並未迴避一個現實：自建電廠的長期成本通常高於電網供電。但在AI的競爭邏輯中，“慢”比“貴”更致命。當算力成為新一代基礎設施，電力正在從公共資源，轉變為AI公司必須掌握的內部能力。在這場競賽中，決定勝負的，不只是模型、晶片或資本規模，而是——誰能更快把電接到算力上。以下為報告原文內容，由AI協助翻譯：《AI實驗室如何解決電力危機：現場天然氣發電深度解析》電網老舊且不堪重負大約兩年前，我們首次預測了即將到來的電力短缺。在我們的報告《AI資料中心能源困境-AI資料中心空間的競賽》中，我們預測美國的AI電力需求將從2023年的約3吉瓦增長到2026年的超過28吉瓦——這種壓力將壓垮美國的供應鏈。我們的預測被證明非常準確。下圖說明了問題：僅在德克薩斯州，每月就有數十吉瓦的資料中心負載請求湧入。然而在過去12個月裡，僅批准了略高於1吉瓦的容量。電網已經售罄。然而，AI基礎設施不能等待電網長達數年的輸電升級。一個AI雲每吉瓦每年可以產生100-120億美元的收入。讓一個400兆瓦的資料中心提前六個月上線就價值數十億美元。經濟需求遠遠超過了諸如電網過載等問題。行業已經在尋找新的解決方案。十八個月前，埃隆·馬斯克在四個月內建造了一個擁有10萬個GPU的叢集，震驚了資料中心行業。多項創新促成了這一驚人成就，但能源策略是最令人印象深刻的。xAI完全繞過了電網，使用卡車裝載的燃氣輪機和發動機在現場發電。如下圖所示，xAI已經在其資料中心附近部署了超過500兆瓦的輪機。在一個AI實驗室爭相成為第一個擁有吉瓦級資料中心的世界裡，速度就是護城河。一個接一個，超大規模企業和AI實驗室紛紛效仿，暫時放棄電網，建造自己的現場發電廠。正如我們幾個月前在《資料中心模型》中所討論的，2025年10月，OpenAI和Oracle在德克薩斯州訂購了有史以來最大的現場天然氣發電廠，規模達2.3吉瓦。現場天然氣發電市場正進入一個三位數年增長的時代。受益者遠不止尋常的那些。是的，GEVernova和西門子能源的股價已經飆升。但我們正見證前所未有的新進入者浪潮，例如：韓國工業巨頭斗山能源，其H級輪機上市時機恰到好處。它已經獲得了為埃隆的xAI服務的1.9吉瓦訂單——正如我們幾周前獨家向我們《資料中心行業模型》訂閱者披露的那樣。瓦錫蘭，歷史上是一家船舶發動機製造商，意識到為游輪提供動力的發動機同樣可以為大型AI叢集供電。它已經簽署了800兆瓦的美國資料中心合同。BoomSupersonic——是的，那家超音速噴氣機公司——宣佈與Crusoe簽訂了1.2吉瓦的輪機合同，將來自資料中心發電的利潤視為其Mach2客機的又一輪融資。為了瞭解供應商的增長和市場份額，我們在《資料中心模型》中建立了部署現場天然氣的站點逐一追蹤器。結果讓我們驚訝：僅在美國，現在就有12家不同的供應商各自獲得了超過400兆瓦的資料中心現場天然氣發電訂單。然而，現場發電也帶來了自身的一系列挑戰。如下文詳述，發電成本通常（遠）高於通過電網供電。許可過程可能漫長而複雜。它已經導致了一些資料中心延遲——最引人注目的是Oracle/Stargate的一個吉瓦級設施，我們的《資料中心行業模型》通過分析整個許可過程，在彭博社頭條新聞發佈前三周就預測到了這一點。再一次，像xAI這樣聰明的公司找到瞭解決方案。埃隆的AI實驗室甚至開創了一種新的選址流程——在州界上建設，以最大程度提高及早獲得許可的機會！雖然田納西州未能按時交付，但密西西比州欣然讓埃隆建造了一個吉瓦級的發電廠。本報告是對"自帶發電"的深度解析。我們從電網為何跟不上開始，然後對資料中心可用的每項發電技術提供技術分解——GEVernova的航改型輪機、西門子的工業輪機、顏巴赫的高速發動機、瓦錫蘭的中速發動機、BloomEnergy的燃料電池等等。接著我們考察部署配置和營運挑戰：完全孤島式資料中心、燃氣+電池混合系統、能源即服務模式，以及決定那種解決方案勝出的經濟學原理。在付費牆後，我們將分享我們對製造商定位的看法，以及現場發電的未來。在AI時代，電網是否已死？在深入探討解決方案之前，我們需要理解電網為何失靈。公平地說，迄今為止，美國的電力系統一直是AI基礎設施的主要推動者。除了埃隆之外，當今每個主要的GPU和XPU叢集都運行在電網供電上。我們在之前SemiAnalysis的深度解析中報導過其中的許多：《微軟的AI戰略》展示了在威斯康星州、喬治亞州和亞利桑那州為OpenAI服務的龐大電網連接設施。我們的《多資料中心訓練》報告，深入探討了Google在俄亥俄州和愛荷華州/內布拉斯加州的龐大電網供電叢集，以及OpenAI在德克薩斯州阿比林與Oracle、Crusoe和Lancium合作的吉瓦級叢集。我們的《Meta超智能》文章闡述了他們的大型AI計畫，其中包括一些現場天然氣發電，但主要由俄亥俄州的AEP系統和路易斯安那州的Entergy供電。我們的《亞馬遜的AI復興》論文，討論了AWS為Anthropic準備的大規模Trainium叢集，同樣連接到AEP和Entergy的基礎設施。這些洞見在我們的《資料中心行業模型》中出現在官方宣佈之前數月或數年。我們的模型追蹤了數十個正在建設、計畫2026年及以後交付的大規模叢集——包括它們的確切啟動日期、全部容量、終端使用者和能源策略。但我們已經到了一個臨界點。2024-25年上線的大型資料中心是在2022-23年、淘金熱之前確保了電力供應。自那以後，爭奪變得持續不斷。我們估計，提交給美國公用事業公司和電網營運商的負載請求大約有1太瓦。結果就是僵局——字面意思。正如我們在《吉瓦級AI訓練負載波動》中所解釋的，電網的設計使其速度緩慢：即時平衡：電力的供應和需求幾乎必須完美匹配，每秒如此。不匹配可能導致數百萬人停電，正如我們在2025年4月伊比利亞半島停電事件中所見。系統研究：每一個大型新負載（資料中心）或供應（發電廠）都會引發深入的工程研究，以確保不會破壞網路穩定。而在某些地方，電網拓撲結構變化如此之快，以至於負載研究在完成前就過時了。當成百上千的開發商同時提交並網請求時，系統就會陷入停滯。這變成了一個囚徒困境：如果每個人都協調一致，電網本可以更快地處理更多請求。FERC第2023號命令已推動電網營運商為此採用叢集研究，但這些改革直到2025年才鞏固下來。實際上，"淘金熱"行為意味著開發商同時向不同的公用事業公司提交多個投機性請求。例如，截至2024年中，AEP俄亥俄州有35吉瓦的負載請求——其中68%甚至沒有土地使用權。投機性請求堵塞了所有人的佇列，從而鼓勵了其他地方更多的投機性請求。這種惡性循環加速了。供應端同樣受限。從並網請求到商業營運的時間表現在對於大多數發電類型來說已延長至五年。AI基礎設施開發商不能等待五年。在許多情況下，他們連六個月都不能等，因為等待六個月意味著數十億美元的機會成本損失。引入BYOG-自帶發電BYOG的核心價值主張很簡單：無需等待電網即可開始營運。資料中心可以無限期地依靠本地發電運行，然後在電網服務最終到位後，將這些裝置轉換為備用電源。這正是xAI的策略。他們使用移動燃氣輪機建造了"巨像"設施，在幾個月而非幾年內使其上線。現在每個人都在效仿這一策略。讓我們來研究一下如何實現。如何自帶發電：舊世界vs新世界BYOG涉及對我們建造發電廠方式的徹底重新思考。傳統上，我們通過大型、集中式的吉瓦級基荷發電機輸送電力——輔以較小的調峰電廠來處理電網範圍內的負載峰值。聯合循環模式下的重型燃氣輪機是最常見的現代部署方式。其無與倫比的燃料效率（>60%）為我們現代文明提供了支柱。然而，它們的主要問題是部署速度：獲得大型輪機通常需要數年交貨期，而目前的交貨期正處於歷史高位。一旦交付，大型聯合循環發電廠的建設和偵錯需要約2年時間——在AI時代，這簡直是永恆。AI資料中心"自帶發電"電廠重塑了規則手冊，xAI為行業引領了道路。為了更快部署，埃隆的AI實驗室依賴於SolarTurbines（CAT的子公司）的16兆瓦小型模組化輪機。這些輪機小到可以用標準長途卡車運輸。它們在幾周內即可部署完成。埃隆甚至沒有購買它們——他是從SolarisEnergyInfrastructure租用的，以繞過裝置交貨期。他還利用了VoltaGrid的移動卡車裝載燃氣發動機車隊來更快交付！其他超大規模企業迅速效仿。Meta在俄亥俄州與Williams的部署很有代表性——他們的發電廠包含了五種不同類型的輪機和發動機，顯然設計模式是"只要能及時到貨，有什麼我就部署什麼！"現在讓我們深入瞭解資料中心營運商可用的不同類型裝置。裝置格局概覽資料中心開發商可用的燃氣發電機中，大致分為三類：燃氣輪機-低溫、爬坡慢的工業燃氣輪機；高溫、爬坡快的航改型燃氣輪機；非常大型的重型燃氣輪機。往複式內燃機-包括較小的3-7兆瓦高速發動機；以及較大的10-20兆瓦中速發動機。有時簡稱為"活塞機"。固體氧化物燃料電池-目前主要的可用選項來自BloomEnergy。還有其他現場發電選項，例如與現有核電廠並置、建造現場小型模組化反應堆、地熱等等，但本報告不討論這些。在大多數情況下，未來約3年內，這些其他解決方案不會驅動淨新增發電。理解那些解決方案最適合某些用例需要深入核心權衡。我們認為以下幾點最為相關：成本：通常以$/kW列出。這些成本估算差異巨大，並且在每個發電機類別中都持續上升。注意維護費用也很重要：某些系統的使用壽命較短，即年度維護成本較高。交貨期：通常以月或年列出。隨著需求增長超過供應，每個發電機類別的交貨期都在增加。請注意，發電機可用性之外的其他因素也會影響供電時間。最值得注意的是，即使在像德克薩斯州這樣許可較快的州，現場發電的空氣許可也可能需要一年或更長時間。此外，不同系統的安裝時間差異很大。有些從現場交付到發電只需要幾周時間，例如小型卡車裝載輪機或發動機，以及燃料電池。大型聯合循環燃氣輪機組裝可能需要超過24個月。冗餘和可用性：發電機的預期可用性，以一年內的正常執行階段間百分比或"幾個9"表示。過去十年，美國電網平均可用性為99.93%（三個9），有些地區甚至更高。對於現場發電廠，可以通過增加熱備用和冷備用來管理冗餘，或通過增加備用電源。單個輪機越大，管理備用和備份就越困難。爬坡率：以冷啟動到最大輸出之間的分鐘數衡量。爬坡率小於10分鐘的發電機有資格作為電網或備用電源的儲備發電。爬坡率慢意味著該機組主要專注於基荷供電。土地使用：以兆瓦/英畝衡量。在空間受限的地區，這一點更重要。小型發電系統即使在叢集部署時，用水量也微不足道。然而，非常大的輪機確實需要大量冷卻用水。熱耗率和燃料效率：以每千瓦時消耗的天然氣BTU衡量。熱耗率越高意味著效率越低——輸入更多燃料，輸出相同電力，留下更多廢熱。銘牌熱耗率假設"峰值"運行條件，通常是最大輸出。在低於50%輸出時，效率會大幅下降。其中許多現場燃氣系統可以配置為熱電聯產系統。對於資料中心，這將涉及利用燃氣發電機的廢熱進行吸收式冷卻系統，從而減少資料中心冷卻的用電量。實際上，我們觀察到，無論其他規格如何，只要誰有開放訂單並能提供良好時間表，誰就傾向於贏得交易！話雖如此，現在讓我們深入瞭解不同類型的燃氣發電廠。航改型輪機和工業燃氣輪機——對資料中心極具吸引力燃氣輪機運行在布列敦循環上：壓縮空氣，在其中燃燒燃料，然後將熱氣體導向輪機。輪機通過入口溫度來區分。較低的溫度對應於較低的安裝成本、較低的維護成本、較低的峰值效率和較慢的爬坡率。航改型燃氣輪機本質上就是將噴氣發動機固定在地上。GEVernova的航改型源自GE的噴氣發動機；三菱動力的源自普惠；西門子能源的源自勞斯萊斯。由於噴氣發動機設計為在緊湊、適於飛行的封裝中提供巨大功率，因此它們相對容易改裝用於固定式發電。延長輪機軸，在末端螺栓連接發電機線圈，增加進氣和排氣消聲器，並從油箱或管道輸送燃料。這部分解釋了BoomSupersonic能如此迅速地轉向航改型燃氣輪機：他們的大部分工程和製造都是現成的。我們在下方展示了MartinDrake發電廠的檢視，配備了6台GEVernovaLM2500XPRESS機組。這就是電力公司部署航改型輪機的方式，作為電網突發供應短缺的"調峰電廠"。航改型燃氣輪機的核心製造商與重型燃氣輪機的相似：GEVernova、三菱動力和西門子能源主導市場，銷售航改型和低溫工業燃氣輪機。此外，卡特彼勒也通過Solar品牌生產工業燃氣輪機，Everllence也生產。兩種GEVernova設計主導了航改型市場：LM2500–約34兆瓦，針對快速部署最佳化，尤其是LM2500XPRESS。LM6000–約57兆瓦，現在有快速部署的LM6000VELOX配置。航改型燃料效率尚可，但在空間和重量方面極其高效。它們可以安裝在緊湊的佔地面積中，並且在某些配置下可以用一對拖車運輸。簡單循環的航改型通常提供30-60兆瓦的功率包，可以在5-10分鐘內從冷態爬升至滿負荷輸出。但是，如果低於滿負荷穩定運行，效率會受到影響。航改型也可以配置為小型聯合循環電廠：1x1（一台燃氣輪機驅動一台蒸汽輪機），或2x1（兩台燃氣輪機驅動一台蒸汽輪機）。這些聯合循環設定以犧牲爬坡速度為代價，提供了更高的效率和更多的輸出。啟動時間延長至30-60分鐘。按照目前的價格，航改型輪機的全投資本支出在$1,700-2,000/kW之間，根據近期訂單，其交貨期為18-36個月且仍在延長。較小輪機交貨期可短至12個月，較大的航改型輪機（約50兆瓦）可能長達36個月。這些系統安裝很快（通常2-4周），但工廠預訂量巨大。一個變通方法是使用卡車裝載輪機，如果可用，可以快速租賃和部署。xAI正是採用了這一策略，與SolarisEnergyInfrastructure合作，縮短了其Colossus1和2項目的供電時間。工業燃氣輪機工業燃氣輪機與航改型輪機工作原理相同，並共享緊湊佔地面積、模組化和相對較短交貨期等優點。但它們是專為固定使用從頭設計的，而非從航空領域改裝而來。它們通常在較低的入口溫度下運行，並使用更簡單的設計，這以犧牲效率和爬坡速度為代價降低了服務成本。簡單循環的工業燃氣輪機功率範圍大約為5-50兆瓦，從冷態爬升至滿負荷輸出約需20分鐘。這使得它們自身速度太慢，無法在沒有電池或柴油機組幫助的情況下作為調峰電廠或應急備用電源。與航改型類似，工業燃氣輪機可以升級為聯合循環配置，提高效率的同時進一步減慢爬坡率。最常見的專用工業燃氣輪機是西門子能源SGT-800和SolarTitan系列。然而，較小的重型燃氣輪機如GEVernova6B有時也承擔類似用例。按照目前的價格，工業燃氣輪機的全投資本支出在$1,500-1,800/kW之間，交貨期約為12-36個月，與航改型相似。然而，採購二手或翻新工業燃氣輪機可以將交貨期縮短至12個月以內，這正是FermiAmerica獲取電力的方式。總體而言，我們認為航改型輪機和工業燃氣輪機是現場發電非常具有吸引力的解決方案，因為："尺寸合適"：足夠小以便於冗餘，足夠大以避免現場單元過多並使維護複雜化。爬坡速度快：雖然它們能效不如其他方案，但它們更容易被重新用作備用電源。部署快速：普通卡車和施工隊即可運輸和安裝它們，而不是重型燃氣輪機所需的那種重型起重基礎設施。我們將在報告後面討論部署考慮因素時探討這些概念。航改型和工業燃氣輪機的主要問題是交貨期越來越長。燃氣輪機中供應最緊張的部件是渦輪葉片和核心機，它們必須承受高溫和高速。這些葉片使用含有錸、鈷、鉭、鎢、釔等稀土金屬的奇異單晶鎳基合金。往複式發動機往複式發動機工作原理類似於汽車發動機，但規模大得多，一台11兆瓦的發動機長度可能超過45英呎（14米）。它們使用四沖程燃燒循環，並根據轉速劃分：高速發動機–約1,500轉/分鐘；佔地面積和輸出較小。中速發動機–約750轉/分鐘；由於機械應力較低，通常維護成本較低。活塞機可以在10分鐘內從冷態爬升至滿負荷輸出，實際上與航改型相似。這使得活塞機可以作為調峰電廠或備用發電機，無需柴油備用電源。理論上，活塞機的維運成本看起來比輪機高，因為活動部件更多。但實際上，它們比許多輪機更好地處理燃料雜質、粉塵和高環境溫度，並且在炎熱氣候下性能下降較少。中速發動機製造業相當集中，主要製造商是瓦錫蘭、BergenEngines和Everllence。高速發動機製造業不如輪機那樣集中。除了顏巴赫、卡特彼勒、康明斯和勞斯萊斯子公司MTU等主要參與者外，還有眾多製造商，因為高速燃氣發動機在功能上等同於目前許多資料中心用於備用電源的柴油發動機設計。最具影響力的往複式發動機是顏巴赫J624，這是一台4.5兆瓦渦輪增壓燃氣發動機，可以集裝箱化以便物流。該系統是VoltaGrid能源整合服務的首選發電機。活塞機系統通常單位功率低於同等輪機。中速發動機功率在7兆瓦到20兆瓦之間，更高功率輸出通過渦輪增壓實現。高速發動機更小，單位輸出功率在3兆瓦到5兆瓦之間。然而，在50%到80%的部分負載下執行階段，活塞發電機比輪機效率更高。往複式發動機的運行溫度遠低於燃氣輪機，接近600°-700°C。這極大地減少了對高性能合金的需求。只有活塞、燃燒室和渦輪增壓器中的高溫部件仍然需要稀有鎳和鈷合金，其餘部分可以用簡單的鑄鐵、鋼和鋁製造。然而，總體而言，活塞機對關鍵礦物的依賴程度較低，特別是在材料供應緊張時期放寬排放控制的情況下。按照目前的價格，往複式發動機的全投資本支出在$1,700-2,000/kW之間，交貨期為15-24個月。與輪機相比，這些系統的製造延遲較少；製造時間線更接近12-18個月。然而，中速活塞機比輪機重得多，安裝和偵錯可能需要長達約10個月。高速發動機的部署可以快得多。例如，在最初的Colossus1部署中，xAI利用了34台VoltaGrid卡車裝載系統，整合了顏巴赫的高速發動機。高速發動機特別受能源採購供應商的歡迎。它們的廣泛可用性和小單元尺寸提供了更快的供電時間。我們在下方展示了VoltaGrid在聖安東尼奧的50兆瓦部署，配備了二十台顏巴赫J620。權衡之處在於規模：用5兆瓦發動機建構一個2吉瓦的現場燃氣系統，你需要500個單元！這帶來重大的營運後果。如果每台發動機每2,000小時需要一次小維護，那麼維護人員每年將執行超過2,000次服務，每周近40次。這些成本比輪機大修（可能涉及更換整個核心機）更可預測，但它們會累積，特別是對於擁有許多小單元的叢集。空間和備件庫存也會類似地增加，儘管小型發電機的垂直堆疊可以緩解土地使用問題，這對於中速發動機來說是不可能的。燃料電池與BloomEnergy的崛起一個相當小眾的解決方案正在佔據越來越大的市場份額：燃料電池。通常與氫能相關聯，BloomEnergy的SOFC固體氧化物燃料電池也可以使用天然氣運行，並被定位為基荷發電。我們早在2024年就在資料中心模型中指出了BloomEnergy是贏家。自那以後，訂單激增。Bloom的"能源伺服器"由多個約1千瓦的電堆組成，組裝成約65千瓦的模組，並打包成325千瓦的發電機組。迄今為止，最大的營運中SOFC發電廠規模在數十兆瓦，主要在美國和韓國。它們產生能量的方式與傳統發電機非常不同。沒有燃燒過程。相反，氧氣被電化學還原成氧離子，流經陶瓷電解質。在燃料電池的另一端，這些離子與從甲烷天然氣中剝離出來的氫原子結合。這種結合釋放出水、二氧化碳和電能。這種根本性差異為Bloom的燃料電池提供了關鍵優勢：它們不會產生嚴重的空氣污染（除了CO₂）。在EPA層面的許可比燃燒發電機要順利和容易得多。這就是為什麼我們經常在人口中心附近看到它們，例如辦公室附近。Bloom的殺手鐧是部署速度。它幾乎只需要預製基座和簡單的模組安裝。一旦考慮到電氣工程、安裝和偵錯，幾周內即可完成，與航改型輪機和高速活塞機的速度相當。在AI時代，速度就是護城河，僅這一優勢就足以讓Bloom佔據一席之地。Bloom的主要挑戰是成本。燃料電池效率相當好，等效熱耗率為6,000-7,000BTU/kWh，這與聯合循環燃氣輪機相當。然而，燃料電池系統的成本明顯高於輪機或活塞系統，資本支出成本在$3,000-$4,000/kW之間。Bloom沒有宣傳爬坡率，這表明這些單元速度太慢，無法作為調峰或應急備用。歷史上，維護成本也明顯高於其他解決方案。單個燃料電池電堆壽命大約5-6年，然後必須更換和翻新。這種逐電堆更換約佔服務成本的65%，儘管具體數字嚴格保密。我們將在付費牆後分享Bloom燃料電池的總擁有成本估算。重型燃氣輪機：BYOG的未來？在ChatGPT出現之前，只有公用事業公司和獨立電力生產商有理由購買大於250兆瓦的燃氣輪機，因為超過這個閾值的輪機對於大多數工業應用來說太大了。如上所述，部署速度是一個問題，然而，我們越來越多地看到開發商通過較小的航改型輪機/活塞機提供"過渡電力"，然後在大聯合循環燃氣輪機投入運行後，將它們轉為備用/冗餘。大型輪機根據燃燒溫度和技術堆疊分為幾類：E級和F級–較舊、溫度較低、效率較低的設計。一些F級機組仍在銷售，通常是進入新興市場，因為它們以較低的資本支出提供了不錯的效率。工業輪機和小的E/F級輪機的界限模糊，下面這些著名型號跨越了這條界限：GEVernova6BGEVernova7E西門子能源SGT6-2000EH級及同等產品–現代、高溫設計。這些機組的燃燒溫度與現代航改型和噴氣發動機相當，但單位功率大約是其10倍。最突出的例子是：GEVernovaHA系列西門子能源H/HL三菱重工J系列最近，韓國公司斗山能源已經開始生產新的H級輪機DGT6。在一個有十年歷史的市場中看到新進入者很少見，但斗山在蒸汽輪機製造方面經驗豐富，並有建造三菱設計的F級輪機的記錄。這些系統既龐大又沉重。安裝和偵錯過程可能需要一段時間。聯合循環燃氣輪機聯合循環燃氣輪機利用了這樣一個事實：簡單循環的排氣仍然很熱，足以將水煮沸成蒸汽。將排氣通過餘熱鍋爐產生蒸汽，用於驅動單獨的蒸汽輪機和發電機。其結果是，相同的燃料產生第二輪電力。通過將一個輪機的廢熱變成另一個輪機的財富，聯合循環燃氣輪機可以比簡單循環輪機效率提高50-80%。最受大型負載推崇的聯合循環燃氣輪機是重型聯合循環燃氣輪機，可以達到吉瓦級的輸出功率。然而，即使是小型航改型或工業燃氣輪機也可以與整合的蒸汽輪機一起出售，這可以在幾乎相同的燃料輸入下顯著增加功率輸出。常見的配置有：1x1–一台燃氣輪機驅動一台蒸汽輪機2x1–兩台燃氣輪機驅動一台蒸汽輪機理論上，更多的燃氣輪機可以驅動一台蒸汽輪機，但收益遞減。聯合循環系統的主要缺點是爬坡率：增加蒸汽輪機將冷啟動到滿負荷輸出的時間減慢到30分鐘或更長。另一個主要缺點是交貨期。安裝和偵錯時間甚至比簡單循環部署更長。從裝置到執行：部署、挑戰、經濟學瞭解裝置格局是必要的，但還不夠。現場燃氣的真正複雜性不在於選擇LM2500還是顏巴赫J624——而在於如何配置、部署和運行這些系統以滿足資料中心正常執行階段間要求。電網是系統工程的一個奇蹟：成千上萬的發電機、數百條輸電線路和複雜的市場機制共同提供了99.93%的平均正常執行階段間。當你脫離電網時，你自己承擔了這種複雜性——用一個單一的發電廠來匹配電網級的可靠性。冗餘和正常執行階段間是現場燃氣發電成本在大多數情況下結構性遠高於電網供電的關鍵原因。下一節將考察領先的部署如何應對這一挑戰，以及對裝置選擇意味著什麼。Crusoe和xAI：過渡電力部署迄今為止最流行的現場燃氣策略之一是"過渡電力"。資料中心園區與電網積極溝通以獲得電力服務，但通過現場發電提前開始營運。過渡電力清除了電力作為營運瓶頸，允許資料中心提前數月開始訓練模型或產生收入。這種加速是顯著的！AI雲收入每年每兆瓦可達1000-1200萬美元，這意味著即使提前六個月為200兆瓦的資料中心供電並上線，也能帶來10-12億美元的收入。過渡電力帶來兩個優勢：正常執行階段間要求可以與工作負載匹配。例如，在德克薩斯州阿比林和田納西州孟菲斯，xAI和Crusoe/OpenAI都在部署大型訓練叢集。考慮到大型GPU叢集固有的不可靠性，訓練作業不需要特別高的正常執行階段間。因此，可以避免為冗餘而"過度建設"發電廠。一旦電網連接獲得保障，園區可以更靈活地用於推理。通過取消柴油發電機備份實現有利的經濟性。在孟菲斯和阿比林，沒有備用電源降低了資料中心每兆瓦的資本支出。一旦獲得電網連接，輪機可以作為備用電源——因此，優先選擇快速爬坡系統，例如航改型輪機。為了確保合理的正常執行階段間，xAI將輪機與Megapacks配對。這也使得能夠平滑負載波動——我們將在下面討論這個問題。永遠離網：冗餘挑戰，能源即服務許多發電機供應商建議資料中心所有者永遠不要麻煩與更廣泛的電網互聯；相反，他們認為他們的資料中心客戶應該永遠保持離網狀態。像VoltaGrid這樣的公司提供完整的"能源即服務"套餐，管理電力服務的所有方面：電能–容量兆瓦和能量兆瓦時電能質量–電壓和頻率容差可靠性–目標的"幾個9"正常執行階段間供電時間–從合同到營運的月份他們通常與客戶簽訂長期購電協議，客戶支付電力服務費用——能源即服務供應商實質上充當了公用事業公司的角色。他們採購裝置、設計部署、有時組裝物料清單、並維護和營運發電廠。部署離網發電的一個關鍵挑戰是管理冗餘。例如，位於德克薩斯州沙克爾福德縣的1.4吉瓦VantageDC園區將部署2.3吉瓦的VoltaGrid系統。這些系統較小，便於冗餘——但如果你要用大型重型輪機部署現場發電，冗餘方案可能只是簡單地擁有兩個發電廠，甚至更多。發電機製造商通常會建議至少採用N+1配置，甚至N+1+1配置。N+1配置在一台發電機意外停機時仍能維持全部發電能力，而N+1+1配置在保持這種靈活性的同時，還額外有一台發電機處於待命狀態以進行維護周期。這相當於駕駛一輛帶有備胎和補胎套件的汽車。請注意，N+1或N+1+1不一定指發電機的字面數量，因為資料中心負載通常遠大於單個現場燃氣發電機。例如，考慮一個總功耗（IT+非IT）為200兆瓦的資料中心：示例1：11兆瓦活塞機發電叢集：26×11兆瓦活塞機組總容量：286兆瓦正常執行階段：23台發動機以約80%負載運行，產生200+兆瓦。一台發電機故障：22台發動機適度提升至約82%負載。3台備用發動機用於維護或作為冷備用。以低於滿負荷運行發動機降低了維運成本，額外的機組為維護調度提供了緩衝。NexusDatacenter採用了類似的方法：他們最近申請了一個空氣許可，部署三十台Everllence18V51/60G燃氣發動機，每台功率20.4兆瓦，總計613兆瓦的發電能力。該站點還將包括152兆瓦的柴油備用發電，這可能滿足了整個站點的N+1冗餘要求。示例2：30兆瓦航改型輪機發電叢集：9×30兆瓦航改型機組總容量：270兆瓦正常執行階段：7台輪機以約95%負載運行以獲得最佳效率。一台輪機故障：第8台輪機啟動，保持輸出。第9台輪機留作維護備用。由於輪機大修比發動機維護更具破壞性，一些供應商提供熱插拔計畫：將需要大修的輪機取代為一個替換核心。在炎熱氣候下，如美國西南部，性能降額可能需要10-11台航改型輪機來維持N+1+1冗餘。Crusoe為Oracle和OpenAI在阿比林的站點採用了這種設定的變體，部署了十台輪機，包括五台GEVernovaLM2500XPRESS航改型燃氣輪機和五台Titan350，銘牌發電能力為360兆瓦。示例3：Meta+WilliamsSocratesSouthMeta和Williams正在建造兩座200兆瓦的專供式燃氣發電廠，為Meta的新奧爾巴尼中心供電，我們在本文中已經報導過：Meta在俄亥俄州的新型超快"帳篷"資料中心SocratesSouth項目是一個混合叢集：3×SolarTitan250工業燃氣輪機9×SolarTitan130工業燃氣輪機3×SiemensSGT-400工業燃氣輪機15×Caterpillar3520快速啟動發動機圍牆內的銘牌容量為306兆瓦：輪機約260兆瓦，發動機46兆瓦。正常情況下，一部分工業燃氣輪機穩定運行以提供200兆瓦電力。如果一兩台工業燃氣輪機跳閘，活塞機叢集可以快速爬坡來填補缺口。額外的工業燃氣輪機可用於維護切換。這支援了專供式的N+1+1設計。然而，與前兩個例子相比，這是一個拼湊的實現方案。輪機型號不匹配，使用的發動機是較小的1800轉/分鐘高速燃氣發動機。這表明Williams優先考慮了供電時間，而非標準化的維護計畫。匹配電網正常執行階段間：過度建設、電網作為備份、電池為了匹配電網提供的"三個9"的正常執行階段間，現場發電廠必須為冗餘而"過度建設"。這通常是現場發電成本相對於電網較高的關鍵原因。冗餘給營運商帶來了新的難題：系統規模與"過度建設"比率之間存在權衡。雖然H級和F級輪機比航改型輪機更節能，但更高的冗餘需求意味著，如果設計不當，基於重型輪機的孤島系統可能會產生比航改型輪機更高的電力成本。必須考慮其他解決方案，而不是簡單的"過度建設"，例如使用較小的輪機作為"備用"、電池，甚至電網連接。為了理解過度建設比率，我們可以用一個實際例子。在德克薩斯州沙克爾福德縣，VoltaGrid用2.3吉瓦的顏巴赫系統為1.4吉瓦的資料中心供電，過度建設率為64%。我們可以這樣分解：峰值PUE過度建設：與德克薩斯州典型的電網連接站點一樣，存在1.4x-1.5x的過度配置，主要與冷卻相關。還有額外的10-17%過度建設與冗餘相關。對於H/F級系統，簡單的過度建設通常不是最經濟的路徑。一些營運商考慮僅為備用目的連接電網——但這引入了互聯時間表的挑戰，並使選址過程複雜化。也可以建造一個巨大的電池工廠——如下面xAI的Colossus2部署所示——但這既昂貴又不切實際，因為典型的儲存持續時間只有2-4小時。最後，可以使用不同尺寸的輪機和發動機組合，H級聯合循環作為基荷運行，工業燃氣輪機/航改型輪機/活塞機作為備用——但這通常比電網連接或2-4小時的電池儲能系統更昂貴。管理負載波動AI計算負載，特別是訓練負載，是高度可變的，包括亞秒級的兆瓦級功率激增和驟降。電力系統慣性越大，就越能在維持電力頻率的同時管理短期功率波動。如果頻率偏離50赫茲或60赫茲的基線太遠，功率波動可能導致斷路器跳閘或裝置故障。所有熱力發電機都有一定的慣性，因為它們是通過旋轉的重物發電的。然而，開發者可以通過輔助系統增加慣性：同步調相機–這些本質上是作為電動機旋轉起來的發電機，沒有機械負載。一旦與電網同步，它們只消耗少量損耗。在突然的負載變化期間，它們吸收或供應無功功率，穩定電壓並增加短時慣性。它們的能量容量很小，因此只能幫助幾秒鐘，而不是幾分鐘。飛輪 –這些增加了一個真正的旋轉能量緩衝器。一個電動-發電機組耦合到一個大飛輪，並連接在發電和負載之間。飛輪可以注入或吸收有功功率（而不僅僅是無功功率）5-30秒，平滑瞬態、發電機跳閘和電壓驟降。例如，Bergen通過一家附屬供應商將飛輪與其發動機打包提供。電池儲能系統 –電池可以像負載變化一樣快速爬坡，通過高速控制提供"合成慣性"，如前一篇文章所述。它們在頻率調節方面表現出色，但由於逆變器電流受限，它們對無功功率和故障電流的貢獻不如同步電機。VoltaGrid將活塞機叢集與同步調相機結合使用。BergenEngines已經通過同一母公司旗下的供應商銷售帶有飛輪的發動機。發動機製造商瓦錫蘭有一個電池儲能部門，他們可能會將其與資料中心項目捆綁。Bloom聲稱其燃料電池系統不需要任何裝置來管理負載波動。具體使用的系統取決於當地的限制條件，但主要取決於供應商偏好使用什麼。xAI偏好使用特斯拉的Megapack進行備份和處理負載波動。Megapacks+MACROHARD我們是否能夠建造足夠的燃氣發電廠來為AI供電？目前燃氣發電系統的交貨期是前所未有的。歷史上，燃氣輪機製造商平均只接受工廠發貨前20個月的訂單，但現在三大製造商GEVernova、西門子能源和三菱動力正在接受2028年和2029年的訂單，甚至還有之後不可退款的預訂席位。每個公開的燃氣系統製造商都報告了資料中心需求的增長，但大多數都反應謹慎，而不是全面擴張。GEVernova已承諾將產量提高到24吉瓦/年，但這只是回到其2007-2016年的水平。他們正在投資新員工和機械，但不打算增加工廠佔地面積。西門子能源也計畫投資生產而不增加工廠佔地面積。相反，他們優先考慮價格上漲，依賴服務收入，並優先考慮投資回報期短的投資。他們計畫到2028-30年將年產能從約20吉瓦擴大到>30吉瓦。三菱重工在最近的財報電話會議上表示計畫將燃氣輪機和聯合循環產量增加30%，這與彭博社關於計畫到2027年將產能翻倍的報導相矛盾。卡特彼勒計畫在2024年至2030年間將發動機產量翻倍，渦輪機產量增加2.5倍，但其Solar品牌渦輪機在2020-2024年間平均年產量約為600兆瓦，2022年峰值產量為1.2吉瓦。瓦錫蘭只承諾漸進式擴張，寧願"觀望"資料中心需求，並保持與海運客戶的關係。在主要的燃氣發電機製造商中，只有BloomEnergy、卡特彼勒和新進入者BoomSupersonic宣佈了雄心勃勃的擴張計畫。BloomEnergy聲稱到2026年底可以達到2吉瓦/年的生產能力，BoomSupersonic計畫到2028年底達到2吉瓦/年。乍看之下，儘管需求激增，但似乎很少有製造商完全接受"通用人工智慧信念"。這種猶豫部分反映了真實的製造限制；大部分則反映了對燃氣發電行業30年繁榮-蕭條周期的創傷後應激障礙。值得注意的是，最嚴重的瓶頸在重型輪機。航改型輪機、工業燃氣輪機和活塞機系統的限制較少。燃氣輪機的兩次繁榮-蕭條周期自90年代中期以來，燃氣輪機行業經歷了兩次繁榮-蕭條周期。第一次繁榮，在1997年至2002年間，由美國部分地區的電力放鬆管制推動，這吸引了新公司成為獨立電力生產商，以及（諷刺的是）由Huber和Mills的論文"TheInternetBeginswithCoal"所普及的、來自網際網路泡沫對電力需求增長的高預期。像Calpine、Duke、Williams和NRG這樣的大型企業大批訂購輪機，將GEVernova和西門子能源的訂單量推至頂峰。GE在2001年出貨了超過60吉瓦的燃氣輪機；西門子在2002年達到20+吉瓦的峰值。崩盤來得很快。網際網路泡沫破裂，安然醜聞動搖了電力交易業務，訂單枯竭，使GE和西門子陷入了長達數年的製造寒冬。燃氣輪機行業的第二次"繁榮"更像是一種訂單穩定的狀態，而非真正的繁榮。在2006年至2016年間，GE平均每年出貨約20吉瓦輪機，西門子約15吉瓦/年。然後，在2017年至2022年間，市場徹底崩潰，GE和西門子的年產量都降至10吉瓦以下的歷史低點。這兩家大公司既有對Y2K燃氣輪機繁榮期的機構記憶，也有對銷售處於歷史低點的近期記憶。值得注意的是，三菱重工在很大程度上避開了這些繁榮-蕭條周期。直到最近，三菱重工銷售的硬體數量僅佔GEVernova和西門子能源的一小部分。它成為"三大"之一，僅僅是因為更大的公司已縮減到其銷售規模，而阿爾斯通能源和西屋等其他參與者已經關閉或被收購。這可能部分解釋了MHI對擴張的興趣，儘管其所謂的翻倍計畫在財報電話會議上並未得到證實。供應鏈瓶頸然而，在燃氣輪機內部，即使保證未來需求高漲，也可能不會推動增加產量，因為燃氣輪機核心機的生產和物流存在內部瓶頸。燃氣輪機葉片和靜葉是現代工業文明技術能力的巔峰之一，需要極其高品質的冶金和加工技術才能正確製造。渦輪葉片和靜葉是現代工業製造的最苛刻的部件之一。製造它們需要非凡的冶金和加工精度。因此，西方的生產集中在四家公司：PrecisionCastpartsCorporation、HowmetAerospace、ConsolidatedPrecisionProducts、Doncasters。這些公司不僅供應工業和電力燃氣輪機，還供應民用和軍用噴氣發動機。除CPP外，其他公司都有垂直整合的金屬供應，但它們的規模只是其客戶的一小部分，因此更容易受到市場衝擊的影響。第二次燃氣輪機蕭條與COVID導致航空航天訂單下滑同時發生，這意味著這些公司最近受到了相當大的打擊。需求增加不僅需要這些公司僱用更多的專業員工，還需要考慮釔、錸、單晶鎳和鈷等材料的供應鏈。更重要的是，他們可能不願意進行這些投資，因為如果跟隨AI泡沫跌落懸崖，他們損失最大。此外，重型燃氣輪機的生產受到物流限制。僅輪機核心就是300-500噸的系統，需要專門的駁船、鐵路貨車和卡車拖車運輸。即使在獲得許可後，重型燃氣輪機也需要24-30個月來建造、安裝和測試，然後才能運行。售後市場的OEM可以圍繞翻新的核心建造新電廠，但移動和整合這些核心仍然是一個重大挑戰。這些限制對於航改型輪機和工業燃氣輪機來說不那麼嚴重，它們小到可以用標準集裝箱或常規拖車運輸。新進入者來救援：從飛機到輪船？通常，在受限時期，許多聰明的公司都在探索解決方案。ProEnergy是最早帶來創新的公司之一。其PE6000項目改造了來自波音747的CF6-80C2發動機核心，並提供與GEVernovaLM6000規格和封裝幾乎相同的營運航改型燃氣輪機。最近，BoomSupersonic宣佈開發基於其超音速噴氣發動機設計的Superpower航改型燃氣輪機。其提議的外形與GEVernovaLM2500非常相似，並且運行原理相同：一台可以裝入一個集裝箱的小型噴氣發動機（輔助進氣、控制和排氣裝置裝入另外1-2個集裝箱）。該發動機的測試仍在進行中，但初步宣傳規格顯示，即使在高溫環境空氣下，Superpower每單元也能產生42兆瓦電力。首批1.2吉瓦的產量已被Crusoe預訂，目標是在2027年達到200兆瓦產量，2028年達到1吉瓦，2029年達到2吉瓦。初始訂單價格表明硬體成本為$1,000/kW，但這個數字不包括平衡系統、運輸或偵錯費用，不應直接與全包成本資料進行比較。BoomSupersonic擁有葉片和靜葉生產的垂直整合能力，但依賴外部供應商進行冶金，這可能仍然是一個供應鏈瓶頸。我們還沒有看到其他公司加入改裝的行列。然而，中速發動機主要由擁有長期造船發動機製造經驗的公司製造——例如瓦錫蘭。事實上，它們基本上是相同的發動機，可以在同一設施中製造。我們什麼時候會看到舊的船用發動機被改裝來為資料中心供電？現在讓我們轉向比較不同的解決方案和製造商。我們還將分析現場發電的經濟性和總擁有成本，並將其與美國電網進行比較。新進入者來救援：從飛機到輪船？通常，在供應受限時期，許多聰明的公司會探索解決方案。ProEnergy是最早帶來創新的公司之一。其PE6000項目改進了來自波音747的CF6-80C2發動機核心，生產出運行特性與GEVernovaLM6000幾乎相同的航改型燃氣輪機。最近，BoomSupersonic宣佈開發基於其超音速噴氣發動機設計的Superpower航改型燃氣輪機。其提出的外形與GEVernovaLM2500極為相似，並遵循相同原理：一個可以裝入單個集裝箱的小型噴氣發動機（輔助進氣、控制和排氣裝置則裝入另外1-2個集裝箱）。該發動機的測試仍在進行中，但初步宣傳規格顯示，Superpower每單元可產生42兆瓦電力，即使在環境空氣溫度較高時也是如此。首批1.2吉瓦的產量已由Crusoe預訂，目標是在2027年實現200兆瓦產量，2028年1吉瓦，2029年2吉瓦。初始訂單價格暗示硬體成本約為每千瓦1000美元，但此數字不包括平衡系統裝置、運輸或偵錯費用，不應直接與全包成本資料比較。BoomSupersonic已垂直整合了葉片和靜葉的生產，但依賴外部供應商提供冶金材料，這可能仍是一個供應鏈瓶頸。我們尚未看到其他公司加入改裝的行列。然而，中速發動機主要由擁有長期造船發動機製造經驗的公司製造——例如瓦錫蘭。實際上，它們基本是相同的發動機，可以在同一設施中製造。我們何時會看到舊的船用發動機被改造用於為資料中心供電？現在，讓我們將注意力轉向比較不同的解決方案和製造商。我們還將分析現場發電的經濟性和總擁有成本，並將其與美國電網進行比較。現場發電經濟性分析現場發電的關鍵經濟問題是：與從電網購電相比，其總擁有成本是高是低？我們的分析表明，對於絕大多數資料中心而言，現場發電更昂貴。在美國大部分地區，大型工業使用者的電網供電價格在每兆瓦時40至80美元之間。對於新建的聯合循環燃氣輪機發電廠，若其資本成本能分攤到20年以上，平準化度電成本可低至每兆瓦時40至55美元（不包括輸電和配電成本）。而現場發電的成本則高出許多：航改型輪機/工業燃氣輪機：平準化度電成本約為每兆瓦時80至120美元。活塞發動機：平準化度電成本約為每兆瓦時90至130美元。燃料電池：平準化度電成本約為每兆瓦時120至180美元。主要驅動因素包括：資本成本高：現場發電機組的每千瓦資本支出通常是公用事業規模燃氣輪機的兩到三倍。燃料成本：雖然燃料成本本身大致相同，但現場小型機組的效率通常低於大型聯合循環燃氣輪機，這意味著每單位發電消耗更多燃料。維運成本：分佈式發電機組的維護和營運成本更高，尤其是當它們需要頻繁啟停或低負載執行階段。冗餘成本：如上所述，為匹配電網可靠性而進行的過度建設會顯著增加資本支出。然而，將現場發電視為"更昂貴"的選項，可能會錯過其核心價值主張：時間價值。對於AI工作負載，推遲上線六個月的損失可達數十億美元。因此，即使現場發電的平準化度電成本高出50%，只要能提前數月甚至數年上線，其淨現值也可能是正數。這就是為什麼xAI、OpenAI、Crusoe等公司願意支付溢價：他們是在購買時間。裝置與製造商定位基於我們的資料中心模型跟蹤，我們對主要參與者的市場定位看法如下：GEVernova：憑藉其LM系列航改型輪機和HA級重型輪機，佔據了高端市場。他們受益於品牌認知度、廣泛的服務網路以及在快速部署解決方案方面的早期成功。然而，其交貨期最長，可能將部分需求推送給競爭對手。西門子能源：在工業燃氣輪機和中型航改型輪機方面實力強大。他們的SGT-800是資料中心領域的流行選擇。與GE類似，他們面臨交貨期延長的問題，但可能更靈活地應對中型項目。三菱重工：作為相對較晚進入資料中心領域的參與者，他們可能憑藉可用的產能和積極的定價獲得市場份額。其J系列輪機效率高，但在快速部署解決方案方面認知度較低。卡特彼勒/SolarTurbines：憑藉Titan和Saturn系列工業燃氣輪機，以及模組化、可運輸的解決方案，成為了關鍵參與者。他們受益於與xAI的早期合作，以及通過SolarisEnergyInfrastructure等合作夥伴提供的租賃模式。瓦錫蘭：在中速發動機市場佔據主導地位，並將其船舶專業知識應用於資料中心。他們提供可靠的基荷電力，但爬坡速度較慢，且對大規模部署眾多小型單元帶來的維運複雜性持謹慎態度。顏巴赫/INNIO集團：在高速發動機領域佔據領先地位，特別是通過與VoltaGrid的整合，提供"能源即服務"解決方案。他們最適合需要快速部署和營運靈活性的項目。BloomEnergy：在高密度城市區域或環境許可嚴格的地點具有獨特優勢。其部署速度是最大賣點，但高昂的成本限制了其廣泛採用。他們需要證明其長期可靠性和降低維護成本。BoomSupersonic：一個潛在的顛覆者。如果他們能如期交付Superpower輪機，並實現承諾的每千瓦1000美元的硬體成本，他們可能會從現有製造商手中奪取大量市場份額。然而，他們面臨執行風險，且尚未經過大規模驗證。斗山能源：作為H級輪機市場的新進入者，憑藉與xAI的大型訂單獲得了早期關注。他們需要建立可靠的服務和維護網路以贏得長期信任。未來展望現場發電並非一時風尚。我們預計，在美國電網大規模升級（這可能需要數十年）之前，現場發電將成為大型AI資料中心不可或缺的一部分。未來幾年，我們將看到以下趨勢：混合系統成為常態：資料中心將結合現場發電、電網連接和電池儲能，以最佳化成本、可靠性和可持續性。燃料多樣化：隨著氫能和可再生天然氣供應鏈的發展，現場發電機可能轉向低碳燃料，以應對環境監管和ESG壓力。標準化與模組化：裝置供應商將提供更多預配置、集裝箱化的發電解決方案，以進一步縮短部署時間。監管演變：空氣質量和排放法規將演變，可能為使用先進排放控制技術的現場發電提供快速通道許可。小型模組化反應堆的潛在角色：長期來看，下一代核能可能成為現場基荷電力的重要來源，但這可能要到2030年代後期。最終，AI對電力的無盡需求正在顛覆一個世紀以來集中式發電和輸電的模式。"自帶發電"的興起，標誌著電力行業向更分佈式、更模組化、以及速度優先的範式轉變。電網可能不會"死亡"，但它肯定需要學會與這些自立自足的AI巨獸共存。對於那些能夠提供快速、可靠且具有成本競爭力的發電解決方案的供應商來說，一個巨大的機遇之窗已經打開。競爭才剛剛開始。 (invest wallstreet)

美國技術機構：如果中國遲遲造不出EUV，跟日本企業合作，採用佳能的裝置是突破封鎖的唯一機會

01 前沿導讀據美國半導體技術機構SemiAnalysis所發佈的專欄報告指出，日本佳能的奈米壓印（NIL）技術在國際晶片領域被冠以“匹敵甚至超過EUV的能力”，從理論上來說，奈米壓印可以達到甚至是超過EUV光刻機的曝光解析度，並且裝置的製造成本比EUV光刻機更低。但是奈米壓印技術存在多種問題，例如零件的損耗、多層圖案的對齊精度、製造邏輯晶片的良品率等問題。日本的奈米壓印裝置與ASML主導的傳統光刻裝置不同，儘管美國也對日本企業實施出口管制，但奈米壓印裝置還可以進行出口。如果中國企業在EUV領域的進展緩慢，那麼與日本佳能合作，嘗試使用奈米壓印技術製造晶片，也是一條可行的技術路線。02 奈米壓印奈米壓印與光學光刻的核心理念是一致的，都是將掩範本上面的圖案轉移到晶圓上面。先進行多層的圖案化疊加，然後進入到刻蝕、沉積等工藝步驟，最終完成整個晶片之後進入封裝環節。只不過光學光刻使用光源透過光縫快速掃描印刷，而奈米壓印則是使用一種特定的“印章”，將圖案進行機械化印刷，這兩種技術存在本質上的差別。奈米壓印技術，最早是由美國普林斯頓大學的華人科學家周郁在1995年提出的技術。2001年，奈米壓印從學術界逐步過渡到商業化的範疇，成立了分子壓模公司 (Molecular Imprints Inc.），開始將奈米壓印技術應用在製造半導體晶片上。2014年，在日本佳能公司收購了分子壓模公司之後，又聯合了日本印刷株式會社、鎧俠控股等多個企業共同開發奈米壓印的晶片製造技術。並且佳能將奈米壓印技術定義為ASML EUV的替代方案，企圖用這種方法來縮短與ASML的技術差距。目前為止，全球的晶片製造格局變成了ASML、尼康、佳能三家比拚，中國企業緊隨其後。ASML持有浸潤式DUV光刻機和EUV光刻機這兩大王牌裝置，尼康走的是傳統光刻，旗下有乾式DUV和浸潤式DUV裝置，但裝置的技術水平落後於ASML。佳能擁有乾式DUV光刻機，並且還持有已經商用的奈米壓印裝置。2023年10月13日，佳能宣佈推出型號為“FPA-1200NZ2C”奈米壓印光刻機裝置。據佳能表示，該裝置的硬體能力支援最小線寬14nm的晶片製造，相當於是邏輯晶片的5nm節點。隨著掩模技術的提升，該裝置可以實現2nm節點的邏輯晶片製造，並且其技術成本要比ASML的EUV裝置低很多。03 現存問題佳能的奈米壓印裝置已經交付給了鎧俠集團和鎂光科技，用於製造快閃記憶體晶片。儲存晶片與邏輯晶片存在本質上差別，儲存晶片的結構簡單，重複度高，對於掩模的要求較低，甚至幾百層的圖案結構都是一致的。而邏輯晶片涉及到CPU、GPU、NPU等多種電晶體的圖案設計，其每層的電路圖案都不一樣，這對於掩模和裝置精度要求很高。奈米壓抑的機械印章非常細小，其尺寸相當於人類頭髮的橫截面。現在使用這個裝置每秒壓印一次晶片，只要是機械印章出現一丁點的缺陷或者是損耗，這都會直接影響晶片的良品率。傳統光學光刻所使用的掩範本，其使用壽命支援光刻100000個晶圓，而奈米壓印所使用的掩範本壽命遠低於光學掩範本。想要解決這個問題，就必須投入資源去開發適配的材料，不但成本高，而且耗時長，這也是奈米壓印遲遲沒有製造邏輯晶片的原因之一。我們將目光投向中國大陸市場，杭州璞璘是中國唯一一家深耕奈米壓印技術的企業，由該公司製造的PL-SR系列奈米壓印裝置已經在2025年8月份正式交付給客戶使用。並且該公司的創始人葛海雄先生，師從奈米壓印技術發明人周郁博士，具備20年以上的技術開發經驗。根據璞璘公司的資料顯示，該裝置是迄今為止唯一在國內初步實現20nm以下高端晶片所需的奈米壓印裝置。並且公司還向市場供應了包括範本複製膠、耐刻蝕型奈米壓印膠、刻蝕傳遞膠、光學奈米壓印膠、耐腐蝕奈米壓印膠、增粘膠、防粘試劑在內的40余種製造材料，建立起一條全新的晶片產業鏈。佳能在硬體裝置上，對比中國現存的產品具備明顯優勢。但中國企業的路線是押注傳統光學光刻和奈米壓印光刻兩種技術路線，並且這兩種技術路線平行研發。在無法獲取EUV裝置的前提下，奈米壓印技術是一個可以嘗試的技術方案，但奈米壓印現存的問題就是製造先進邏輯晶片的損耗大、良品率低，可以當做備選方案，光學光刻技術依然是主流的選擇。 (逍遙漠)

SemiAnalysis深度解讀TPU--Google衝擊“輝達帝國”

對於輝達來說，那個曾經最大的客戶，現在變成了最懂的對手。當OpenAI可以用“威脅購買TPU”來換取30%的折扣，當Anthropic可以用TPU訓練出超越GPT-4的模型，當Google願意開放軟體生態並提供金融槓桿時，輝達高達75%的毛利率神話便不再牢不可破。2025年的AI晶片市場，正處於一個微妙的轉折點。一方面，輝達依然憑藉Blackwell維持著技術和市場份額的絕對領先；但另一方面，GoogleTPU的全面商業化，讓輝達看似牢不可破的定價權，正在發生鬆動。據半導體行業研究機構SemiAnalysis測算，OpenAI僅憑“威脅購買TPU”這一籌碼，就迫使輝達生態鏈做出了實質性讓步，使其計算叢集的總擁有成本（TCO）下降了約30%。隨著Anthropic高達1GW的TPU採購細節曝光，Google正式撕下了“雲服務商”的面具，轉型為一家直接向外部出售高性能晶片與系統的“商用晶片供應商”。當OpenAI可以用“威脅購買TPU”來換取30%的折扣，當Anthropic可以用TPU訓練出超越GPT-4的模型，當Google願意開放軟體生態並提供金融槓桿時，輝達高達75%的毛利率神話便不再牢不可破。對於輝達來說，那個曾經最大的客戶，現在變成了最懂的對手。(圖表：每百萬輸入和輸出代幣的成本)01Google“主動出擊”長期以來，Google的TPU就像其搜尋演算法一樣，是深藏不露的內部核武器。但SemiAnalysis獲取的供應鏈情報顯示，這一策略已發生根本性逆轉。最直接的案例來自Anthropic。作為能在前沿模型上媲美OpenAI抗衡的大模型公司，Anthropic已確認將部署超過100萬顆TPU。這筆交易的結構極具破壞力，它揭示了Google“混合銷售”的新模式：在這100萬顆晶片中，首批約40萬顆最新的TPUv7 "Ironwood"將不再通過雲租賃，而是由博通直接出售給Anthropic，價值約100億美元。博通作為TPU的長期聯合設計方，在此次交易中從幕後走向台前，成為了這場算力轉移的隱形贏家。而剩餘的60萬顆TPUv7，則通過Google雲進行租賃。據估算，這部分交易涉及高達420億美元的剩餘履約義務（RPO），直接支撐了Google雲近期積壓訂單的暴漲。這一動作的訊號極為明確：Google不再吝嗇於將最先進的算力外售。除了Anthropic，Meta、SSI、xAI等頂級AI實驗室也出現在了潛在客戶名單中。面對這一突如其來的攻勢，輝達罕見地展現出防禦姿態，其財務團隊近期不得不針對“循環經濟”（即投資初創公司購買自家晶片）的質疑發佈長文辯解。這種對市場情緒的敏感反應，恰恰說明Google的攻勢已經觸及了輝達的神經。02成本是硬道理客戶倒戈的理由很純粹：在AI軍備競賽中，性能是入場券，但TCO（總擁有成本）決定生死。SemiAnalysis的模型資料顯示，GoogleTPUv7在成本效率上對輝達構成了碾壓優勢。從Google內部視角看，TPUv7伺服器的TCO比輝達GB200伺服器低約44%。即便加上Google和博通的利潤，Anthropic通過GCP使用TPU的TCO，仍比購買GB200低約30%。這種成本優勢並非僅靠壓低晶片價格實現，而是源於Google獨特的金融工程創新——“超級雲廠商兜底”。在AI基礎設施建設中，存在一個巨大的期限錯配：GPU叢集的經濟壽命僅為4-5年，而資料中心場地的租賃合約通常長達15年以上。這種錯配讓Fluidstack、TeraWulf等新興算力服務商難以獲得融資。Google通過一種“資產負債表外”的信貸支援（IOU）解決了這一難題：Google承諾，如果中間商無法支付租金，Google將介入兜底。這一金融工具直接打通了加密貨幣礦工（擁有電力和場地）與AI算力需求之間的堵點，建構了一個獨立於輝達體系之外的低成本基礎設施生態。03不僅是晶片，還有系統如果說價格戰是戰術層面的對壘，那麼系統工程則是Google戰略層面的護城河。之前，業界素有“系統重於微架構”的觀點。如今，這一論斷在TPUv7上得到了驗證。雖然單顆TPUv7在理論峰值算力（FLOPs）上略遜於輝達的Blackwell，但Google通過極致的系統設計抹平了差距。現在，TPUv7 "Ironwood"在記憶體頻寬和容量上已大幅縮小與輝達旗艦晶片的差距。更重要的是，它採用了更務實的設計哲學——不追求不可持續的峰值頻率，而是通過更高的模型算力利用率（MFU）來提升實際產出。而Google真正的殺手鐧，是其獨步天下的光互連（ICI）技術。不同於輝達依賴昂貴的NVLink和InfiniBand/Ethernet交換機，Google利用自研的光路交換機（OCS）和3D Torus拓撲結構，建構了名為ICI的片間互連網路。這一架構允許單個TPUv7叢集（Pod）擴展至驚人的9,216顆晶片，遠超輝達常見的64或72卡叢集。OCS允許通過軟體定義網路，動態重構拓撲結構。這意味著如果某部分晶片故障，網路可以毫秒級繞過故障點，重新“切片”成完整的3D環面，極大地提升了叢集的可用性。且光訊號在OCS中無需進行光電轉換，直接物理反射，大幅降低了功耗和延遲。Gemini 3和Claude 4.5 Opus這兩大全球最強模型均完全在TPU上完成預訓練，這本身就是對TPU系統處理“前沿模型預訓練”這一最高難度任務能力的終極背書。04拆除最後的圍牆：軟體生態的改變長期以來，阻礙外部客戶採用TPU的最大障礙是軟體——Google固守JAX語言，而全球AI開發者都在使用PyTorch和CUDA。但在巨大的商業利益面前，Google終於放下了傲慢。SemiAnalysis報告指出，Google軟體團隊的KPI已發生重大調整，從“服務內部”轉向“擁抱開源”。此前，Google“超級隊長” Robert Hundt已明確宣佈，將全力支援PyTorch Native在TPU上的運行。Google不再依賴低效的Lazy Tensor轉換，而是通過XLA編譯器直接對接PyTorch的Eager Execution模式。這意味著Meta等習慣使用PyTorch的客戶，可以幾乎無縫地將程式碼遷移到TPU上。同時，Google開始向vLLM和SGLang等開源推理框架大量貢獻程式碼，打通了TPU在開源推理生態中的任督二脈。這一轉變意味著輝達最堅固的“CUDA護城河”，正在被Google用“相容性”填平。而這場“矽谷王座”的爭奪戰，才剛剛開始。全文翻譯以下是SemiAnalysis本次報告的全文翻譯部分（由AI翻譯）：TPUv7：Google向王者揮拳CUDA 護城河的終結？Anthropic 簽下 1GW+ TPU 採購大單；Meta/SSI/xAI/OAI/Anthro 購買的 TPU 越多，節省的 GPU 資本支出（Capex）就越多；下一代 TPUv8AX 和 TPUv8X 將正面對決 Vera Rubin。當今世界最頂尖的兩個模型——Anthropic 的 Claude 4.5 Opus 和Google的 Gemini 3，其絕大部分訓練和推理基礎設施都運行在Google的 TPU 和亞馬遜的 Trainium 上。如今，Google正打破常規，開始向多家企業直接出售物理 TPU 硬體。這是 Nvidia 統治終結的序章嗎？AI 時代的黎明已至，至關重要的是要理解，AI 驅動的軟體其成本結構與傳統軟體截然不同。晶片微架構和系統架構在這些創新型軟體的開發和擴展中扮演著決定性角色。與早期軟體時代開發人員成本佔比較高的情況相比，AI 軟體運行的硬體基礎設施對資本支出（Capex）和營運支出（Opex）——進而對毛利率——有著顯著更大的影響。因此，為了能夠部署 AI 軟體，投入大量精力最佳化 AI 基礎設施變得前所未有的關鍵。在基礎設施方面擁有優勢的公司，在部署和擴展 AI 應用的能力上也必將佔據高地。早在 2006 年，Google就曾兜售過建構 AI 專用基礎設施的理念，但這個問題在 2013 年達到了沸點。他們意識到，如果想要以任何規模部署 AI，就需要將現有的資料中心數量翻倍。因此，他們開始為 TPU 晶片奠定基礎，並於 2016 年投入生產。有趣的是，亞馬遜在同一年也意識到需要建構定製晶片。2013 年，亞馬遜啟動了 Nitro 項目，專注於開發晶片以最佳化通用 CPU 計算和儲存。兩家截然不同的公司針對不同的計算時代和軟體範式，最佳化了各自的基礎設施路徑。我們長期以來一直認為，TPU 是世界上用於 AI 訓練和推理的最佳系統之一，與“叢林之王” Nvidia 並駕齊驅。2.5 年前，我們寫過關於“TPU 霸權”的文章，這一論點已被時間證明是非常正確的。TPU 的成績不言自明：Gemini 3 是世界上最好的模型之一，且完全在 TPU 上訓練。在本報告中，我們將深入探討Google戰略的巨大轉變——即適當地將 TPU 商業化以供外部客戶使用，使其成為 Nvidia 最新且最具威脅的商用晶片（Merchant Silicon）挑戰者。本報告計畫：（重新）告訴我們的客戶和新讀者，讓他們瞭解外部 TPU 客戶的商業成功正在迅速增長，從 Anthropic 開始，延伸到 Meta、SSI、xAI 甚至潛在的 OpenAI……展示核心邏輯：你購買的 TPU 越多，你節省的 Nvidia GPU 資本支出就越多！OpenAI 甚至還沒有部署 TPU，就已經通過競爭威脅獲得了約 30% 的計算叢集折扣，從而提高了每 TCO（總擁有成本）的性能。解釋AI 基礎設施的“循環經濟”交易。重訪我們原本的 TPU 深度分析，從晶片到軟體層對 TPU 硬體堆疊進行全面更新。涵蓋開放軟體生態系統方面的積極進展，以及Google使 TPU 生態系統成為 CUDA 護城河的可行挑戰者所缺失的關鍵要素：開源他們的 XLA:TPU 編譯器、執行階段（runtime）和多 Pod“MegaScaler”程式碼。在付費牆內容中，我們將討論這對 Nvidia 護城河的影響，並將 Vera Rubin 與下一代 TPUv8AX/8X（又名 Sunfish/Zebrafish）進行比較。還將涵蓋對 Nvidia 的長期威脅。首先，讓我們談談這則新聞對生態系統的影響。TPU 的性能顯然引起了競爭對手的注意。Sam Altman 承認，由於 Gemini 搶了 OpenAI 的風頭，OpenAI 正面臨“倍感壓力（rough vibes）”的局面。Nvidia 甚至發佈了一份令人寬慰的公關稿，告訴大家保持冷靜並繼續前進——聲稱自己仍遙遙領先於競爭對手。我們理解其中的原因。過去幾個月對於 Google Deepmind、GCP（Google雲平台）和 TPU 綜合體來說是一個接一個的勝利。TPU 產量的大幅上調、Anthropic 超過 1GW 的 TPU 擴建、在 TPU 上訓練的 SOTA（最先進）模型 Gemini 3 和 Opus 4.5，以及現在正在擴大的目標客戶名單（Meta、SSI、xAI、OAI）排隊等待 TPU。這推動了Google和 TPU 供應鏈的巨大價值重估，而代價是 Nvidia GPU 供應鏈的損失。雖然Google和 TPU 供應鏈的“突然”崛起讓許多人感到驚訝，但 SemiAnalysis 的機構產品訂閱者在過去一年中早已預料到了這一點。(圖表：TPU、Trainium、Nvidia 風險敞口的基礎設施籃子對比)Nvidia 處於守勢的另一個原因是，越來越多的懷疑論者認為該公司正在通過資助燒錢的 AI 初創公司來支撐一種“循環經濟”，本質上是用額外的步驟將錢從一個口袋轉移到另一個口袋。我們認為這種觀點是有失偏頗的，但這顯然觸動了 Nvidia 內部的神經。財務團隊發佈了一份詳細的回應，轉載如下。循環融資是一種不可持續的商業行為指控：NVIDIA 參與了一個價值 610 億美元的循環融資計畫，即 NVIDIA 投資 AI 初創公司，初創公司承諾雲支出，雲服務商（CSPs）和初創公司購買 NVIDIA 硬體，NVIDIA 確認收入，但現金從未完成循環，因為基礎經濟活動——產生利潤的 AI 應用——仍然不足。回應：首先，NVIDIA 的戰略投資僅佔 NVIDIA 收入的一小部分，在全球私募資本市場每年籌集的約 1 兆美元中佔比更小。在第三季度和年初至今，NVIDIA 對私營公司的投資分別為 37 億美元和 47 億美元，分別佔收入的 7% 和 3%。NVIDIA 戰略投資組合中的公司主要從第三方融資提供商籌集資金，而不是從 NVIDIA。其次，NVIDIA 對戰略投資完全透明，這些投資在資產負債表中作為長期資產和有價證券報告，在損益表中作為其它收入和支出（OI&E）報告，在現金流量表中作為投資活動的現金流報告。第三，NVIDIA 戰略投資組合中的公司正在迅速增加自己的收入，表明其盈利之路和對 AI 應用的強勁潛在客戶需求。NVIDIA 戰略投資組合中的公司主要從第三方客戶產生收入，而不是從 NVIDIA。我們認為更現實的解釋是，Nvidia 旨在通過提供股權投資而不是降價來保護其在**基礎實驗室（Foundation Labs）**的主導地位，因為降價會降低毛利率並引起廣泛的投資者恐慌。下面，我們概述了 OpenAI 和 Anthropic 的安排，以展示前沿實驗室如何通過購買或威脅購買 TPU 來降低 GPU TCO。(表格：你買的 TPU 越多，你省下的 GPU 費用就越多)來源：SemiAnalysis TCO 模型，Anthropic 和 OpenAIOpenAI 甚至還沒有部署 TPU，他們就已經在整個實驗室範圍內的 NVIDIA 艦隊上節省了約 30%。這證明了 TPU 的每 TCO 性能優勢是如此強大，以至於你甚至在開啟一台 TPU 之前就已經獲得了採用 TPU 的收益。我們的加速器行業模型、資料中心行業模型和核心研究訂閱者在這一消息宣佈並成為市場共識之前很久就看到了行業影響。8 月初，我們與加速器模型客戶分享了我們看到供應鏈中 Broadcom / Google TPU 訂單在 2026 年的大規模上調。我們還透露，這些訂單增加的原因是Google將開始向多個客戶外部銷售系統。9 月初，我們透露其中一個大的外部客戶將是 Anthropic，需求至少為 100 萬個 TPU。這在 10 月份得到了 Anthropic 和Google的正式確認。我們還在 11 月 7 日指出 Meta 是一個大的 TPU 客戶，比其他人早了幾周。此外，我們也討論了其他客戶。結果，我們的機構客戶對 AI 交易中迄今為止最大的**性能分化（Performance Dispersion）**有了充分的預期。SemiAnalysis 是第一個披露所有這些見解的公司，因為沒有其他研究公司能夠將從晶圓廠到供應鏈，再通過資料中心到實驗室的點連接起來。言歸正傳。05Google的大規模TPU外部化推進與Anthropic交易TPU 堆疊長期以來一直與 Nvidia 的 AI 硬體相媲美，但它主要支援Google的內部工作負載。按照Google的一貫作風，即使在 2018 年向 GCP 客戶提供 TPU 後，它也從未將其完全商業化。這種情況正在開始改變。在過去的幾個月裡，Google動員了整個堆疊的力量，通過 GCP 將 TPU 帶給外部客戶，或者作為商業供應商銷售完整的 TPU 系統。這家搜尋巨頭正在利用其強大的內部晶片設計能力，成為一家真正差異化的雲提供商。此外，這與旗艦客戶（Marquis Customer）Anthropic 繼續推動擺脫對 NVDA 依賴的戰略相一致。(圖表：Anthropic FLOP 組合)Anthropic 的交易標誌著這一推進的一個重要里程碑。我們瞭解到 GCP CEO Thomas Kurian 在談判中發揮了核心作用。Google很早就承諾積極投資 Anthropic 的融資輪次，甚至同意放棄投票權並將所有權上限設定為 15%，以將 TPU 的使用擴展到Google內部之外。前 DeepMind TPU 人才在基礎實驗室的存在促進了這一戰略的實施，導致 Anthropic 在包括 TPU 在內的多種硬體上訓練 Sonnet 和 Opus 4.5。Google已經為 Anthropic 建立了一個實質性的設施，如下所示，這是我們“逐個建築追蹤 AI 實驗室”項目的一部分。(圖片：資料中心行業模型)除了通過 GCP 租用Google資料中心的容量外，Anthropic 還將在其自己的設施中部署 TPU，這使Google能夠作為真正的商用硬體供應商直接與 Nvidia 競爭。關於 100 萬個 TPU 的拆分：交易的第一階段涵蓋 40 萬個 TPUv7 Ironwood，價值約 100 億美元的成品機架，Broadcom 將直接銷售給 Anthropic。Anthropic 是 Broadcom 最近一次財報電話會議中提到的第四個客戶。Fluidstack，一家金牌 ClusterMax Neocloud 提供商，將處理現場設定、布線、老化測試（burn-in）、驗收測試和遠端協助工作，因為 Anthropic 將管理物理伺服器的工作外包。資料中心基礎設施將由 TeraWulf (WULF) 和 Cipher Mining (CIFR) 提供。剩餘的 60 萬個 TPUv7 單元將通過 GCP 租賃，我們估計這筆交易的**剩餘履約義務（RPO）**為 420 億美元，佔 GCP 第三季度報告的 490 億美元積壓訂單增加額的大部分。我們相信，未來幾個季度與 Meta、OAI、SSI 和 xAI 的額外交易可能會為 GCP 提供額外的 RPO + 直接硬體銷售。儘管內部和外部需求巨大，但Google未能按其希望的速度部署 TPU。儘管與仍需“討好” Jensen（黃仁勳）的其他超大規模廠商相比，Google對其硬體供應有更多的控制權，但Google的主要瓶頸是電力。當其他超大規模廠商擴大自己的站點並獲得大量託管容量時，Google的行動較為緩慢。我們認為核心問題是合同和行政方面的。每個新的資料中心供應商都需要一份主服務協議（MSA），這些是數十億美元、多年的承諾，自然涉及一些官僚主義。然而，Google的流程特別慢，從最初的討論到簽署 MSA 通常需要長達三年的時間。Google的變通方案對尋求轉向 AI 資料中心基礎設施的 Neocloud 提供商和加密貨幣礦工具有重大影響。Google不直接租賃，而是提供信用兜底（credit backstop），即如果 Fluidstack 無法支付其資料中心租金，Google將介入支付，這是一張資產負債表外的“借條（IOU）”。(圖表：Fluidstack 交易概覽)像 Fluidstack 這樣的 Neocloud 靈活敏捷，使他們更容易與像“轉型後的加密礦工”這樣的新資料中心供應商打交道。這種機制一直是我們看好加密採礦行業的關鍵——值得注意的是，我們在今年年初股價大幅降低時就點名了包括 IREN 和 Applied Digital 在內的眾多公司。礦工的機會在於一個簡單的動態：資料中心行業面臨嚴重的電力限制，而加密礦工通過其購電協議（PPA）和現有的電力基礎設施已經控制了容量。我們預計未來幾周和幾個季度將有更多協議達成。06Google如何重塑Neocloud市場在 Google/Fluidstack/TeraWulf 交易之前，我們在 Neocloud 市場從未見過任何僅憑資產負債表外“借條”達成的交易。交易之後，我們認為它已成為新的事實上的標準融資範本。這解決了 Neocloud 尋求確保資料中心容量並行展業務的一個關鍵難題：GPU 叢集的有用和經濟壽命為 4-5 年。大型資料中心租賃通常為 15 年以上，典型的投資回收期約為 8 年。這種期限錯配使得 Neocloud 和資料中心供應商為項目融資變得非常複雜。但隨著“超大規模廠商兜底”的興起，我們相信融資問題已得到解決。我們預計 Neocloud 行業將迎來新一波增長。查看我們的加速器和資料中心模型以瞭解主要的受益者。這些是 Anthropic 交易背後的方式和原因，現在讓我們進入硬體部分。此外，擁有 Jensen 作為投資者的 Neocloud，如 CoreWeave、Nebius、Crusoe、Together、Lambda、Firmus 和 Nscale，都有明顯的動機不採用其資料中心內的任何競爭技術：TPU、AMD GPU 甚至 Arista 交換機都是禁區！這在 TPU 託管市場留下了一個巨大的缺口，目前由加密礦工 + Fluidstack 填補。在接下來的幾個月裡，我們預計會看到更多的 Neocloud 在追求不斷增長的 TPU 託管機會和確保最新最棒的 Nvidia Rubin 系統分配之間做出艱難的決定。07TPUv7 Ironwood-為什麼Anthropic和其他客戶想要TPU？答案很簡單。這是一個優秀的系統中的強大晶片，這種組合為 Anthropic 提供了令人信服的性能和 TCO。2.5 年前，我們寫過關於Google計算基礎設施優勢的文章。即使晶片在紙面上落後於 Nvidia，Google的系統級工程也允許 TPU 堆疊在性能和成本效率上與 Nvidia 匹敵。我們當時認為“系統比微架構更重要”，過去兩年的情況加強了這一觀點。Anthropic 的大規模 TPU 訂單是對該平台技術實力的直接驗證。GPU 生態系統也向前邁進了一步。Nvidia 的 GB200 代表了一個巨大的飛躍，推動 Nvidia 成為一家真正的系統公司，設計完整的伺服器而不僅僅是內部的晶片封裝。當我們談論 GB200 在機架級互連方面的巨大創新時，一個被低估的點是，自 2017 年 TPU v2 以來，Google一直在機架內和跨機架縱向擴展（Scaling up）TPU！在報告的後面，我們將對Google的 ICI 擴展網路進行深入分析，這是 Nvidia NVLink 的唯一真正競爭對手。Google最近的 Gemini 3 模型現在被視為最先進的前沿 LLM。像所有早期版本的 Gemini 一樣，它完全在 TPU 上訓練。這一結果為 TPU 能力和Google更廣泛的基礎設施優勢提供了具體證明。今天的注意力通常集中在推理和後訓練的硬體上，但預訓練前沿模型仍然是 AI 硬體中最困難和資源最密集的挑戰。TPU 平台已經果斷地通過了這一測試。這與競爭對手形成鮮明對比：OpenAI 的領先研究人員自 2024 年 5 月的 GPT-4o 以來尚未完成廣泛用於新前沿模型的成功全規模預訓練運行，突顯了Google TPU 艦隊已成功克服的重大技術障礙。新模型的一個關鍵亮點包括在工具呼叫和代理能力方面的顯著提升，特別是在具有經濟價值的長期任務上。Vending Bench 是一項旨在衡量模型在長期內經營業務的能力的評估，通過將它們置於模擬自動售貨機業務的所有者位置，Gemini 3 摧毀了競爭對手。(圖表：Vending-Bench 資金隨時間變化)這次發佈不僅帶來了能力的提升，還帶來了新產品。Antigravity，一個源於收購前 Windsurf CEO Varun Mohan 及其團隊的產品，是Google對 OpenAI Codex 的回應，正式讓 Gemini 進入了“直覺式程式設計（vibe coding）”的代幣消耗戰。對於Google來說，悄悄地介入並在最具挑戰性的硬體問題之一上建立性能領先地位，對於一家核心業務不是——或者我們應該說，曾經不是——硬體業務的公司來說，確實是一個令人印象深刻的壯舉。08微架構仍然很重要：Ironwood接近Blackwell“系統比微架構更重要”的推論是，雖然Google一直在推動系統和網路設計的邊界，但 TPU 晶片本身並不是太具突破性。從那時起，TPU 晶片在最新幾代中取得了巨大進步。從一開始，Google的設計理念相對於 Nvidia 在晶片上就更為保守。歷史上，TPU 的峰值理論 FLOPs 明顯較少，記憶體規格也低於相應的 Nvidia GPU。這有 3 個原因。首先，Google對其基礎設施的“RAS”（可靠性、可用性和可維護性）給予了很高的內部重視。Google寧願犧牲絕對性能來換取更高的硬體正常執行階段間。將裝置運行到極限意味著更高的硬體死亡率，這對系統停機時間和熱備件方面的 TCO 有實際影響。畢竟，你無法使用的硬體相對於性能來說具有無限的 TCO。第二個原因是，直到 2023 年，Google的主要 AI 工作負載是為其核心搜尋和廣告資產提供動力的推薦系統模型。與 LLM 工作負載相比，RecSys 工作負載的**算術強度（arithmetic intensity）**要低得多，這意味著相對於傳輸的每一位資料，所需的 FLOPs 更少。(圖表：Reco vs. LLM)第三點歸結為被行銷的“峰值理論 FLOPs”數字的效用以及它們如何被操縱。像 Nvidia 和 AMD 這樣的商用 GPU 提供商希望為其晶片行銷最佳的性能規格。這激勵他們將行銷的 FLOPs 拉伸到儘可能高的數字。實際上，這些數字是無法維持的。另一方面，TPU 主要面向內部，在外部誇大這些規格的壓力要小得多。這具有我們將進一步討論的重要含義。客氣的看法是 Nvidia 更擅長 DVFS（動態電壓頻率調整），因此樂於僅報告峰值規格。在我們進入 LLM 時代後，Google的 TPU 設計理念發生了明顯的轉變。我們可以看到，在 LLM 之後設計的最新兩代 TPU：TPUv6 Trillium (Ghostlite) 和 TPUv7 Ironwood (Ghostfish) 反映了這種變化。我們可以在下面的圖表中看到，對於 TPUv4 和 v5，計算吞吐量遠低於當時的 Nvidia 旗艦產品。TPUv6 在 FLOPs 上非常接近 H100/H200，但它比 H100 晚了 2 年。隨著 TPU v7 的推出，差距進一步縮小，伺服器僅晚幾個季度可用，同時提供幾乎相同水平的峰值理論 FLOPs。(圖表：TPU 與 Nvidia 的 TFLOPs 和系統可用性對比 (BF16 Dense))是什麼推動了這些性能提升？部分原因是Google開始在 TPU 投入生產時宣佈它們，而不是在下一代部署後才宣佈。此外，TPU v6 Trillium 採用與 TPU v5p 相同的 N5 節點製造，矽面積相似，但能夠提供驚人的 2 倍峰值理論 FLOPs 增加，且功耗顯著降低！對於 Trillium，Google將每個**脈動陣列（systolic array）**的大小從 128 x 128 增加到 256 x 256 tiles，翻了兩番，這種陣列大小的增加帶來了計算能力的提升。(表格：Google TPU 晶片規格)Trillium 也是最後一個“E”（lite）SKU，這意味著它僅配備了 2 個 HBM3 站點。雖然 Trillium 在計算上縮小了與 Hopper 的差距，但在記憶體容量和頻寬上遠低於 H100/H200，僅有 2 堆疊 HBM3，而後者分別為 5 和 6 堆疊 HBM3 和 HBM3E。這使得新手使用起來很痛苦，但如果你正確地對模型進行**分片（shard）**並利用所有那些廉價的 FLOPS，Trillium 實現的性能 TCO 是無與倫比的。(圖表：TPU v6 (Trillium) vs H100 (SXM) 比較)TPU v7 Ironwood 是下一次迭代，Google在 FLOPs、記憶體和頻寬方面幾乎完全縮小了與相應 Nvidia 旗艦 GPU 的差距，儘管全面上市時間比 Blackwell 晚 1 年。與 GB200 相比，FLOPs 和記憶體頻寬僅有輕微的短缺，容量與 8-Hi HBM3E 相同，當然這與擁有 288GB 12-Hi HBM3E 的 GB300 相比有顯著差距。(圖表：TPU v7 (Ironwood) vs GB200/GB300 比較)理論絕對性能是一回事，但真正重要的是每總擁有成本 (TCO) 的真實世界性能。雖然Google通過 Broadcom 採購 TPU 並支付高額利潤，但這遠低於 Nvidia 不僅在銷售 GPU 上，而且在包括 CPU、交換機、NIC、系統記憶體、布線和連接器在內的整個系統上賺取的利潤。從Google的角度來看，這導致全 3D 環面（3D Torus）配置的每 Ironwood 晶片的全包 TCO比 GB200 伺服器的 TCO 低約 44%。這足以彌補峰值 FLOPs 和峰值記憶體頻寬約 10% 的短缺。這是從Google的角度以及他們採購 TPU 伺服器的價格來看的。(表格：Nvidia vs TPU SKU 每 TCO 性能比較)那麼當Google加上他們的利潤後，對於外部客戶來說呢？我們假設在Google向外部客戶租賃 TPU 7 賺取利潤的情況下，每小時 TCO 仍然可以比 GB200 的成本低約 30%，比 GB300 的成本低約 41%。我們認為這反映了 Anthropic 通過 GCP 的定價。(圖表：每小時總成本比較 (USD/hr/GPU))09為什麼Anthropoiv押注TPU？比較理論 FLOPs 只能說明部分情況。重要的是有效 FLOPs，因為峰值數字在實際工作負載中幾乎從未達到。實際上，一旦考慮到通訊開銷、記憶體停頓、功率限制和其他系統效應，Nvidia GPU 通常只能達到其理論峰值的一小部分。訓練的一個經驗法則是 30%，但利用率也因工作負載而異。差距的很大一部分歸結為軟體和編譯器效率。Nvidia 在這方面的優勢源於 CUDA 護城河和開箱即用的廣泛開源庫，幫助工作負載高效運行，實現高 FLOPs 和記憶體頻寬利用率。TPU 軟體堆疊並不那麼容易使用，儘管這正在開始改變。在Google內部，TPU 受益於優秀的內部工具，這些工具不對外部客戶開放，這使得開箱即用的性能較弱。然而，這只適用於小型和/或懶惰的使用者，而 Anthropic 兩者都不是。Anthropic 擁有強大的工程資源和前Google編譯器專家，他們既瞭解 TPU 堆疊，也深入瞭解自己的模型架構。他們可以投資定製核心以推動高 TPU 效率。結果，他們可以達到大幅更高的 MFU 和更好的每 PFLOP 性能價格比。我們相信，儘管行銷的峰值 FLOPs 較低，TPU 可以達到比 Blackwell 更高的已實現模型 FLOP 利用率 (MFU)，這意味著 Ironwood 的有效 FLOPs 更高。一個主要原因是 Nvidia 和 AMD 行銷的 GPU FLOPs 明顯被誇大了。即使在旨在通過 GEMM 最大化吞吐量的測試中（形狀遠非實際工作負載），Hopper 僅達到峰值的約 80%，Blackwell 落在 70% 左右，而 AMD 的 MI300 系列在 50%-60% 之間。限制因素是電力傳輸。這些晶片無法維持峰值數學運算中使用的時鐘速度。Nvidia 和 AMD 實施動態電壓和頻率縮放 (DVFS)，這意味著晶片的時脈頻率根據功耗和熱量動態調整，而不是可以實際維持的穩定時脈頻率。Nvidia 和 AMD 然後選擇可能交付的最高時脈頻率（即使是非常間歇性的）用於計算峰值理論 FLOPs（每個周期的運算元/ALU x ALU 數量 x 每秒周期數，即時脈頻率）。還有其他技巧被使用，比如在零填充張量（zero-filled tensors）上運行 GEMM，因為 0x0=0，電晶體不需要從 0 切換到 1，從而降低了每次操作的功耗。當然，在現實世界中，零填充張量不會相乘。當我們結合低得多的 TCO 和更高的有效 FLOPs 利用率時，從Google的角度來看，每有效 FLOP 的美元成本變得便宜得多，約 15% 的 MFU 是與 30% MFU 的 GB300 的盈虧平衡點。這意味著如果Google（或 Anthropic）設法達到 GB300 FLOPs 利用率的一半，他們仍然能打平。當然，憑藉Google的精英編譯器工程師團隊和對自己模型的深刻理解，他們在 TPU 上實現的 MFU 可能達到 40%。那將是每有效訓練 FLOP 成本驚人的約 62% 的降低！(圖表：不同 MFU 下的 TCO / 有效訓練 Dense FP8 PFLOP ($/hr per Eff PFLOP))然而，當觀察 60 萬個租賃的 TPU 時，當我們將 Anthropic 支付的較高 TCO（即包括Google的利潤疊加）納入此分析時，我們估計 Anthropic 從 GCP 獲得的成本為每 TPU 小時 1.60 美元，縮小了 TCO 優勢。我們相信 Anthropic 可以在 TPU 上實現 40% 的 MFU，這歸功於他們對性能最佳化的關注以及 TPU 行銷的 FLOPs 本質上更現實。這為 Anthropic 提供了比 GB300 NVL72 低驚人的約 52% 的每有效 PFLOP TCO。與 GB300 基準相比，每有效 FLOP TCO 相同的平衡點在於 Anthropic 提取的 MFU 低至 19%。這意味著 Anthropic 可以承受相對於基準 GB300 相當大的性能短缺，而訓練 FLOPs 的性能/TCO 最終仍與基準 Nvidia 系統相同。(圖表：不同 MFU 下的 TCO / 有效訓練 Dense FP8 PFLOP)FLOPs 並不是性能的全部，記憶體頻寬對於推理非常重要，特別是在頻寬密集的解碼步驟中。毫不奇怪，TPU 的每記憶體頻寬美元成本也比 GB300 便宜得多。有重要證據表明，在小消息大小（如 16MB 到 64MB，載入單層的專家）下，TPU 甚至實現了比 GPU 更高的記憶體頻寬利用率。(圖表：TCO / 記憶體頻寬 ($/hr per TB/s))所有這些都轉化為訓練和服務模型的高效計算。Anthropic 發佈的 Opus 4.5 繼續其一貫的編碼重點，創下了新的 SWE-Bench 記錄。主要的驚喜是 API 價格降低了約 67%。這種降價加上模型比 Sonnet 更低的冗餘度和更高的代幣效率（達到 Sonnet 最佳分數所需的代幣減少 76%，超過其 4 分所需的代幣減少 45%），意味著 Opus 4.5 是編碼用例的最佳模型，並且可以有效地提高 Anthropic 的實際token定價，因為 Sonnet 目前佔代幣組合的 90% 以上。(圖表：Anthropic API 定價)(圖表：SWE-Bench 分數 vs 所需總輸出Tokens)10Google在利潤率上穿針引線在為外部客戶定價時，Google需要“穿針引線”，以平衡自身的盈利能力，同時為客戶提供有競爭力的主張。我們對 Anthropic 定價的估計處於我們聽到的外部定價範圍的低端。對於像 Anthropic 這樣的旗艦客戶，他們將為軟體和硬體路線圖提供寶貴的輸入，同時訂購大量產品，我們預計會有優惠定價（sweetheart pricing）。雖然 Nvidia 令人瞠目結舌的 4 倍加價（約 75% 的毛利率）提供了很大的定價靈活性，但 Broadcom 吸走了大量的氧氣。Broadcom 作為 TPU 的聯合設計者，在晶片上賺取高額利潤，這是系統 BOM（物料清單）的最大組成部分。儘管如此，這仍為Google留下了很大的空間來賺取非常可觀的利潤。我們可以通過將 GCP Anthropic 交易與其他大型基於 GPU 的雲交易進行比較來看出這一點。請注意，這是針對正在租賃的 60 萬個 TPU，其餘 40 萬個 TPU v7 晶片由 Anthropic 預付購買。在這些假設下，TPU v7 的經濟效益顯示出比我們觀察到的其他大型基於 GPU 的雲交易更優越的息稅前利潤率（EBIT margins），只有 OCI-OpenAI 接近。即使有 Broadcom 在晶片級 BOM 上的利潤疊加，Google仍然可以獲得比更加商品化的 GPU 交易優越得多的利潤和回報。這就是 TPU 堆疊允許 GCP 成為真正差異化的 CSP（雲服務提供商）的地方。與此同時，像 Microsoft Azure 這樣的人，其 ASIC 計畫正在掙扎，僅限於在僅僅租賃商業硬體的業務中賺取更多平庸的回報。(表格：主要 AI 雲合同對比)11TPU系統和網路架構到目前為止，我們已經討論了 TPU 與 Nvidia GPU 在單晶片規格和不足之處的比較。現在，讓我們回到系統討論，這是 TPU 能力真正開始分化的地方。TPU 最顯著的特徵之一是通過 ICI 協議實現的極大**縱向擴展（Scale-up）**世界規模（World Size）。TPU pod 的世界規模達到 9216 個 Ironwood TPU，大 pod 尺寸早在 2017 年的 TPUv2 就已成為特徵，擴展到完整的 256 個 1024 晶片叢集大小。讓我們從機架等級開始，這是每個 TPU 超級 pod 的基本建構塊。12Ironwood機架架構(圖片：機架子系統)TPU 機架在過去幾代中採用了類似的設計。每個機架由 16 個 TPU 托盤、16 或 8 個主機 CPU 托盤（取決於冷卻配置）、一個 ToR 交換機、電源單元和 BBU 組成。(圖表：TPU v7 Ironwood 機架)每個 TPU 托盤由 1 個 TPU 板組成，上面安裝了 4 個 TPU 晶片封裝。每個 Ironwood TPU 將有 4 個 OSFP 籠用於 ICI 連接，以及 1 個 CDFP PCIe 籠用於連接主機 CPU。Google自 2018 年 TPU v3 以來一直實施液冷 TPU 機架，但中間仍有一些 TPU 代次設計為風冷。液冷和風冷機架的主要區別在於，風冷機架的 TPU 托盤與主機 CPU 托盤的比例為 2 比 1，而液冷機架的比例為 1 比 1。TPU 液冷的一個創新設計是冷卻劑的流速由閥門主動控制。這使得冷卻更加高效，因為流量可以根據每個晶片在任何給定時間的工作負載量進行調整。Google的 TPU 長期以來也採用垂直供電，其中 TPU 的 VRM 模組位於 PCB 板的另一側。這些 VRM 模組也需要冷板進行冷卻。總體而言，TPU 機架設計比 Nvidia Oberon NVL72 設計簡單得多，後者密度更高，並利用背板連接 GPU 以擴展交換機。TPU 托盤之間的擴展連接全部通過外部銅纜或光學器件進行，這將在下面的 ICI 部分解釋。TPU 托盤和 CPU 托盤之間的連接也是通過 PCIe DAC 電纜進行的。13晶片間互連 (ICI) – 擴展 Scale-Up世界規模的關鍵Google TPUv7 的 ICI 擴展網路的建構塊是一個由 64 個 TPU 組成的 4x4x4 3D 環面（3D Torus）。每個 64 個 TPU 的 4x4x4 立方體對應到一個 64 TPU 的物理機架。這是一個理想的尺寸，因為所有 64 個 TPU 都可以相互電氣連接，並且仍然適合在一個物理機架中。(圖表：TPU v7 - 64 TPU 4x4x4 立方體邏輯配置)TPU 以 3D 環面配置相互連接，每個 TPU 連接總共 6 個鄰居——X、Y 和 Z 軸各 2 個邏輯上相鄰的 TPU。每個 TPU 始終通過計算托盤內的 PCB 走線連接到 2 個其他 TPU，但根據 TPU 在 4x4x4 立方體內的位置，它將通過直接連接銅纜 (DAC) 或光收發器連接到 4 個其他鄰居。4x4x4 立方體內部的連接通過銅纜進行，而 4x4x4 立方體外部的連接（包括環繞回到立方體另一側的連接以及與相鄰 4x4x4 立方體的連接）將使用光收發器和 OCS（光路交換機）。在下圖中，我們看到這是一個 3D 環面網路：TPU 2,3,4（在 Z+ 面上）使用 800G 光收發器並通過 OCS 路由，具有環繞連接回到對面的 Z 軸面 TPU 2,3,1（在 Z- 面上）。(圖表：TPU 單元連接)如上所述，除了始終通過 PCB 走線連接的 2 個相鄰 TPU 外，TPU 還將使用 DAC、收發器或兩者的混合連接到 4 個其他鄰居，具體取決於它們在 4x4x4 立方體中的位置。4x4x4 立方體內部的 TPU 將僅使用 DAC 連接到 4 個其他鄰居，立方體面上的 TPU 將通過 3 個 DAC 和 1 個光收發器連接，立方體邊緣的 TPU 將通過 2 個光收發器和 2 個 DAC 連接，而角落的 TPU 將通過 1 個 DAC 和 3 個光收發器連接。你可以通過查看給定 TPU 有多少個面朝向立方體的“外部”來記住它將使用多少個收發器。(圖表：4x4x4 立方體內的 TPU 位置)上圖以及下表總結了 TPU 的各個位置類型的數量，可用於推匯出 TPU v7 每個 TPU 1.5 個光收發器的配比。這些收發器連接到光路交換機 (OCS)，從而實現 4x4x4 立方體之間的連接——下一節將詳細介紹。(表格：Google TPU v7 3D 環面連接配比)Google採用軟體定義網路方法來管理通過光路交換機 (OCS) 的網路路由。NxN OCS 基本上是一個擁有 N 條進軌道和 N 條出軌道的巨大火車站。任何進來的火車都可以轉移到任何出去的火車，但這必須在車站重新配置。火車不能“環回”或送回另一條 N 進軌道，它們必須僅路由到 N 條出軌道之一。這種方法的好處是，網路可以組裝較小的邏輯 TPU 切片（slices）——針對不同的工作負載，從 ICI 網路層中 9,216 個晶片的理論最大值中切分。通過切分更大的叢集，圍繞網路中的故障重新路由 ICI 路徑，叢集可用性得到提高。與電子封包交換 (EPS) 交換機（如 Arista Tomahawk 5，其中固定的總頻寬進一步拆分為幾個較小頻寬的連接埠）不同，OCS 允許任何頻寬的光纖連接到其連接埠。OCS 的延遲也比 EPS 低，因為進入 OCS 的光訊號只是從輸入連接埠反彈到輸出連接埠。對於 EPS，光訊號在進入交換機時必須轉換為電訊號——這是 OCS 通常比 EPS 更節能的一個關鍵原因。EPS 還允許將封包從任何連接埠路由到任何連接埠，而 OCS 僅允許你將“輸入”連接埠路由到任何其他“輸出”連接埠。(圖片：OCS 內部結構)OCS 連接埠僅路由單根光纖束。這對於標準雙工收發器來說是一個挑戰，因為頻寬是通過多根光纖束傳輸的，這降低了 OCS 的有效基數（radix）和頻寬。為瞭解決這個問題，使用 FR 光收發器將所有波長整合到一根光纖束上以連接到 1 個 OCS 連接埠。Apollo 項目通過兩個步驟創新地實現了這一點。首先，8 個波長——每個 100G 通道 1 個波長——通過粗波分復用 (CWDM8) 復用，通過單對光纖傳輸 800G，而不是 8 對光纖。其次，**光環形器（optical circulator）**整合在波分復用 (WDM) 收發器上以實現全雙工資料流，將需求從 1 對光纖減少到僅 1 根光纖束。(圖片：環形器原理)環形器通過將收發器處的 Tx 和 Rx 光纖束組合成傳送到 OCS 交換機的單根光纖束，形成雙向鏈路。Google的 ICI 擴展網路獨特之處在於，它允許將多個 64 TPU 4x4x4 立方體以 3D 環面配置連接在一起，以建立巨大的世界規模。TPUv7 具有 9,216 個 TPU 的最大世界規模，但今天，Google支援將 TPU 配置為多個不同的切片大小，從 4 個 TPU 一直到 2,048 個 TPU。雖然Google可以創新地實現令人印象深刻的 9,216 個 TPU 的擴展叢集，但在任何時間點在高達約 8,000 個 TPU 的增量較大塊大小上運行訓練工作負載的好處會減少。這是因為較大的塊大小更容易發生故障和中斷，從而降低切片可用性，切片可用性定義為 ICI 叢集能夠形成連續 3D 環面切片的時間比例。對於可以完全容納在 4x4x4 立方體內的切片，我們可以簡單地使用機架內的銅互連以及立方體面/邊緣/角落上的光收發器來切出這些切片，以便在需要時環繞並完成 3D 環面。為了瞭解環繞和立方體間連接是如何進行的，讓我們看看我們如何在 4x4x4 拓撲中建立一個 64 TPU 切片。我們可以使用對應於一個物理 64 TPU 機架的 64 TPU 單位 4x4x4 立方體來建構此拓撲。4x4x4 立方體內部的所有 8 個 TPU 都可以使用銅纜完全連接到所有 6 個鄰居。如果 TPU 在給定軸上沒有內部鄰居，它將環繞並連接到立方體另一側的 TPU。例如，TPU 4,1,4 在 Z+ 方向上沒有內部鄰居，因此它將使用一個 800G 光收發器連接到分配給 Z 軸的 OCS，並將 OCS 配置為將此連接引導到立方體的 Z- 側，連接到 TPU 4,1,1。在 Y- 方向上，TPU 1,1,1 將使用光收發器連接到 Y 軸 OCS 以連結到 TPU 1,4,1 的 Y+ 側，依此類推。4x4x4 立方體的每個面將通過 16 個不同的 OCS 連接——每個面上的每個 TPU 一個 OCS。例如，在下圖中，在 X+ 面上，TPU 4,3,2 連接到 OCS X,3,2 的輸入側。OCS X,3,2 的輸入側也將連接到 9,216 TPU 叢集中所有 144 個 4x4x4 立方體的 X+ 面上的相同 TPU 索引 (4,3,2)。OCS X,3,2 的輸出側隨後將連接到叢集中每個立方體的相同 TPU 索引，只是這次是在 X- 面上——因此它將連接到叢集所有 144 個立方體上的 TPU 1,3,2。下圖說明了立方體 A X+ 面上的所有 16 個 TPU 如何通過 16 個 OCS 連接到立方體 B X- 上的 16 個 TPU。這些連接允許任何立方體的任何“+”面連接到任何其他立方體的“-”面，從而在形成切片時實現立方體的完全可替代性。有兩個限制需要簡要指出。首先，給定面上一個索引的 TPU 永遠不能直接連接到不同的索引——因此 TPU 4,3,2 永遠無法配置為連接到 TPU 1,2,3。其次，由於 OCS 本質上充當配線架——連接在輸入側的 TPU 不能“環回”連接到也連接在 OCS 輸入側的任何其他 TPU——例如，TPU 4,3,2 永遠無法連接到 TPU 4,3,3。因此——任何“+”面上的 TPU 永遠無法連接到任何其他立方體的“+”面，任何“-”面上的 TPU 永遠無法連接到任何其他立方體的“-”面。讓我們做大一點，看看如何設定 4x4x8 拓撲。在此配置中，我們通過沿 Z 軸連接兩個 64 TPU 4x4x4 立方體來擴展切片。在這種情況下，OCS 將重新配置 TPU 4,1,4 連接的光連接埠，使其現在連接到 TPU 4,1,5，而不是像獨立 4x4x4 拓撲那樣環繞回 TPU 4,1,1。以此類推，我們將有 16 個光連接從兩個 4x4x4 TPU 立方體的 Z- 和 Z+ 面延伸，總共 64 根光纖束連接到 16 個 Z 軸 OCS。重要的是要提醒讀者，下面描繪的立方體 A 和立方體 B 不一定物理上位於彼此旁邊。相反，它們通過 OCS 連接，它們可能各自位於資料中心完全不同的位置。我們現在將移動到一個更大的拓撲——16x16x16 拓撲，這將我們帶到 4,096 個 TPU。在這個拓撲中，我們總共使用 48 個 OCS 來連接 64 個各含 64 TPU 的立方體。在下圖中，每個多色立方體代表一個 64 TPU 4x4x4 立方體。以右下角的 4x4x4 立方體為例——這個立方體通過 OCS 連接到沿 Y 軸的相鄰立方體。9,216 個 TPU 的最大世界規模是使用 144 個 4x4x4 立方體建構的，每個立方體需要 96 個光連接，總需求為 13,824 個連接埠。將此總連接埠需求除以 288（每個 OCS 144 個輸入和 144 個輸出連接埠）意味著我們需要 48 個 144x144 OCS 來支援這個最大世界規模。除了可以花費無數小時繪製所有花哨的立方體圖之外，Google獨特的 ICI 擴展網路有什麼好處？世界規模：最明顯的好處是 TPUv7 Ironwood 支援的非常大的 9,216 TPU 最大世界規模。即使由於**有效吞吐量（goodput）**降低的缺點，9,216 的最大切片大小可能很少使用，但數千個 TPU 的切片可以並且經常被使用。這遠大於商業加速器市場和其他定製晶片提供商常見的 64 或 72 GPU 世界規模。可重構性和可替代性：OCS 的使用意味著網路拓撲本質上支援網路連線的重新配置，以支援大量不同的拓撲——理論上有數千種拓撲。Google的文件網站列出了 10 種不同的組合（本節前面的圖片），但這只是最常見的 3D 切片形狀——還有更多可用的形狀。即使是相同大小的切片也可以進行不同的重新配置。在下面圖示的扭曲 2D 環面（Twisted 2D Torus）的簡單示例中，我們看到如何跨越到不同 X 坐標的索引而不是相同 X 坐標的索引，可以減少最壞情況下的跳數和最壞情況下的對分頻寬（bisection bandwidth）。這有助於提高所有對所有的集體吞吐量。TPUv7 叢集將在 4x4x4 立方體等級扭曲。可重構性也為廣泛的多樣化平行性打開了大門。在 64 或 72 GPU 世界規模中，不同的平行性組合通常限於 64 的因子。當涉及到 ICI 擴展網路時，實施拓撲以精確匹配所需的資料平行、張量平行和管道平行組合的可能性是豐富的。OCS 允許人們將任何立方體的任何“+”面連接到任何其他立方體的“-”面的事實意味著立方體具有完全的可替代性。切片可以由任何一組立方體組成。因此，如果有任何故障或使用者需求或使用情況的變化，這不會阻礙新拓撲切片的形成。更低的成本：Google的 ICI 網路成本低於大多數交換式擴展網路。雖然由於使用環形器，所使用的 FR 光學器件可能稍貴，但網狀網路減少了所需的交換機和連接埠的總數，並消除了交換機之間連接產生的成本。(表格：擴展網路成本比較)低延遲和更好的局部性：TPU 之間直接鏈路的使用意味著對於物理位置彼此靠近或重新配置為直接相互連接的 TPU，可以實現低得多的延遲。彼此靠近的 TPU 也具有更好的資料局部性。資料中心網路 (DCN) – 擴展超過 9,216 個 TPU資料中心網路 (DCN) 是獨立於 ICI 的網路，充當典型後端和前端網路的角色。它連接甚至更大的域——在 TPUv7 叢集的情況下為 14.7 萬個 TPU。正如我們在之前關於 Apollo 任務的文章中所討論的，Google提議用 Paloma 光路交換機 (OCS) 取代傳統“Clos”架構中包含電子封包交換 (EPS) 的脊層（spine layer），Google的 DCN 由光學交換的資料中心網路互連 (DCNI) 層組成，該層結合了幾個聚合塊，每個聚合塊連接幾個 9,216 TPU ICI 叢集。2022 年，Google的 Apollo 項目提出了一個 DCN 架構，描述了為 TPUv4 pod 使用 136x136 OCS 交換機，pod 大小為 4,096 個 TPU。DCNI 層的 OCS 交換機被組織成 4 個 Apollo 區域，每個區域包含最多 8 個機架的 8 個 OCS 交換機，總共 256 個 OCS 交換機。當涉及到 Ironwood 時，為了在同一網路上支援多達 147 個 TPUv7，我們假設 OCS 上的連接埠數量將幾乎翻倍，而不是增加 OCS 交換機的最大數量。下圖說明了使用 32 個機架容納 256 個 300x300 OCS 交換機的 Ironwood DCN 網路可能是什麼樣子。假設每個聚合塊的脊層之間沒有超額訂閱，DCN 中最多可以連接 16 個 ICI pod，其中 4 個聚合塊各連接 4 個 ICI pod——總共 147,456 個 TPU。DCNI 層連接 4 個聚合塊——在下圖中描繪為頂層。與 ICI 一樣，FR 光學器件用於連接到 OCS 以最大化每個 OCS 連接埠的頻寬。(圖表：147,456 DCN 拓撲)雖然現有的 Ironwood 叢集可能只有 1 或 2 個聚合塊，但Google DCN 的獨特架構允許在無需大量重新布線的情況下將新的 TPU 聚合塊加入到網路中。通過將 OCS 用於 DCNI 層，DCN 結構的大小可以增量擴展，並且可以**重新條帶化（re-striped）**網路以支援新的聚合塊。此外，聚合塊的頻寬可以升級，而無需更改 DCN 層的構成。這允許現有聚合塊的鏈路速度得到刷新，而無需改變網路本身的基本架構。結構擴展的過程不能無限期地進行下去——在巨大的規模下，重新布線網路變得難以管理。(圖表：使用 OCS 鏈路的 AB 擴展)TPU 軟體戰略 – 另一個巨大的轉變傳統上，TPU 軟體和硬體團隊一直是面向內部的。這帶來了優勢，例如沒有行銷團隊施加壓力來誇大陳述的理論 FLOPs。只面向內部的另一個優勢是 TPU 團隊極大地優先考慮內部功能請求和最佳化內部工作負載。缺點是他們不太關心外部客戶或工作負載。TPU 生態系統中的外部開發人員數量遠低於 CUDA 生態系統。這是 TPU 的主要弱點之一，所有非 Nvidia 加速器也是如此。Google此後修改了針對面向外部客戶的軟體戰略，並已經對 TPU 團隊的 KPI 以及他們如何為 AI/ML 生態系統做出貢獻做出了重大改變。我們將討論 2 個主要變化：在 PyTorch TPU“原生”支援上的大規模工程努力在 vLLM/SGLang TPU 支援上的大規模工程努力通過查看Google對各種 TPU 軟體倉庫的貢獻數量，可以清楚地看到這種外部化戰略。我們可以看到從 3 月開始 vLLM 貢獻顯著增加。然後從 5 月開始，建立了“tpu-inference”倉庫，這是官方的 vLLM TPU 統一後端，從那時起就有一系列活動。(圖表：Google按倉庫每月的貢獻)傳統上，Google僅對 Jax/XLA:TPU 堆疊（以及 TensorFlow/TF-Mesh，安息吧）提供一等支援，但將 TPU 上的 PyTorch 視為二等公民。它依賴於通過 PyTorch/XLA 進行的惰性張量圖捕獲（lazy tensor graph capture），而不是擁有一流的急切執行（eager execution）模式。此外，它不支援 PyTorch 原生分佈式 API (torch.distributed.*) 或支援 PyTorch 原生平行 API (DTensor, FSDP2, DDP 等)，而是依賴於奇怪的樹外 XLA SPMD API (torch_xla.experimental.spmd_fsdp, torch_xla.distributed.spmd 等)。這導致了對於習慣於 GPU 上的原生 PyTorch CUDA 後端並試圖切換到 TPU 的外部使用者來說，非原生體驗不佳。(程式碼示例：XLA)10 月，Google的“Captain Awesome” Robert Hundt 在 XLA 倉庫中悄悄宣佈，他們將從非原生惰性張量後端轉向“原生”TPU PyTorch 後端，該後端將默認支援急切執行，並與 torch.compile、DTensor 和 torch.distributed API 等整合。他們將通過使用 PrivateUse1 TorchDispatch 鍵來做到這一點。這主要是為了 Meta 做的，Meta 對購買 TPU 重新產生了興趣，並且不想轉移到 JAX。這也將使喜歡 PyTorch 而不喜歡 JAX 的人也可以使用 TPU。此前從 2020 年到 2023 年，Meta FAIR 的幾個團隊大量在 TPU 上使用 PyTorch XLA，但並未被廣泛採用，因此 Meta 領導層最終在 2023 年取消了合同。TPU 上的 PyTorch XLA 不是一種有趣的體驗。當時的 Meta FAIR GCP TPU 甚至使用 SLURM 運行，而不是你在 TPU 堆疊上通常會找到的任何東西，如 GKE/Xmanager/borg 等。(圖片：GitHub RFC)這種新的 PyTorch <> TPU 將為習慣於 GPU 上 PyTorch 的 ML 科學家創造一個更平滑的過渡，以切換到 TPU 上的 PyTorch 並利用 TPU 上更高的每 TCO 性能。Pallas 是用於為 TPU 編寫自訂核心的核心創作語言（類似於 cuTile 或 Triton 或 CuTe-DSL）。Meta 和Google也已開始致力於支援 Pallas 核心作為 Torch Dynamo/Inductor 編譯堆疊的程式碼生成目標。這將允許與 PyTorch 的原生 torch.compile API 進行原生 TPU 整合，並允許終端使用者將自訂 pallas 操作註冊到 PyTorch 中。除了核心的樹內 PyTorch 原生 API 外，幕後還有關於將 TPU pallas 核心語言整合為 Helion 的程式碼生成目標的工作。你可以將 Helion 視為一種用於用高級語言編寫性能尚可的核心的高級語言。使用者可以將 Helion 視為低級 Aten 算子，而不是高級 Triton/Pallas，因為它與原生 PyTorch Aten 算子的相似性更接近。CUDA 生態系統至高無上的另一個領域是開放生態系統推理。歷史上，vLLM 和 SGLang 支援 CUDA 作為一等公民（ROCm 作為二等公民）。現在Google想要進入 vLLM 和 SGlang 開放推理生態系統，並宣佈通過非常“獨特”的整合對 vLLM 和 SGLang 提供 beta 版 TPU v5p/v6e 支援。vLLM 和 SGLang 目前通過將 PyTorch 建模程式碼**下譯（lowering）**到 JAX 並利用現有的成熟 JAX TPU 編譯流程來做到這一點。未來一旦 PyTorch XLA RFC #9684（即原生 TPU PyTorch 後端）實施，vLLM 和 SGLang 計畫評估是否切換到使用該後端，而不是通過 TorchAX 將建模從 PyTorch 翻譯到 JAX。Google和 vLLM 聲稱這種下譯到 jax 的路徑不需要對 PyTorch 建模程式碼進行任何更改，但鑑於 vLLM TPU 目前支援的模型很少，我們對此表示懷疑。此外，Google已經開源並將他們的一些 TPU 核心整合到 vLLM 中，例如 TPU 最佳化的分頁注意力核心、計算-通訊重疊 GEMM 核心以及其他幾個量化 matmul 核心。他們還沒有 MLA 友好的 TPU 核心。一旦 Inductor Pallas TPU 程式碼生成整合更加成熟，看看是否可以將核心融合和模式匹配整合到現有的 vLLM PassManager 中將會很有趣。SGLang 也在考慮實施 torch.compile PassManager，以使許多模型的核心融合管理更易於維護。對於參差分頁注意力（Ragged Paged Attention）v3，TPU 的處理方式與 vLLM GPU 截然不同。vLLM 使用類似於虛擬記憶體和分頁的技術管理 KV 快取。然而，這種技術需要獲取動態地址並執行**分散（scatter）**操作，這是 TPU 不擅長的。因此，TPU 核心利用細粒度的操作流水線。具體來說，TPU 的分頁注意力核心預取下一個序列的查詢和 KV 塊，因此記憶體載入與計算重疊。在現有的 vLLM MoE 核心中，我們按專家 ID 對代幣進行排序，將代幣分發到具有相應專家的裝置，執行組矩陣乘法，並將來自專家的代幣組合回原始裝置。然而，該核心表現不佳有兩個原因：TPU 在執行排序操作方面很慢，並且核心無法將通訊與計算重疊。為瞭解決這個問題，Google開發人員設計了全融合 MoE（All-fused MoE）。全融合 MoE 一次為每個裝置分發一個專家的代幣，同時重疊 MoE 分發和 MoE 組合通訊，並避免按專家 ID 對代幣進行排序。使用全融合 MoE，Google工程師報告比現有核心有 3-4 倍的加速。(圖表：時間步長示意圖)此外，TPU 中的另一個硬體單元是 SparseCore (SC)，用於加速嵌入尋找和更新。SC 配備標量於核 SparseCore Sequencer (SCS) 和多個向量子核 SparseCore Tiles (SCT)。SCT 支援以更細粒度的 4 字節或 32 字節粒度進行本地和遠端直接記憶體訪問，相比之下 TPU TensorCore 為 512 字節載入。這使得 SC 能夠執行**收集/分散（gather/scatter）**操作和 ICI 通訊，同時與 TensorCore 操作重疊。在 JAX DevLabs，我們瞭解到 SparseCore 的可程式設計性正在進行中。我們可以期待 Mosaic（TPU 自訂核心編譯器）以 MPMD 方式編譯，其中 SCS 和 SCT 執行不同的核心，不同的 SparseCore 可以運行不同的程序。我們懷疑一旦可程式設計性趕上，TPU MoE 核心將能夠以類似於 GPU 的方式執行分發和組合操作，而不是按專家 ID 分發。(圖表：SparseCore 結構)在**分離式預填充解碼（disaggregated prefill decode）**方面，我們在 AMD 2.0 文章中深入描述了這一點，Google在 vLLM 上對單主機分離 PD 提供了實驗性支援，注意他們尚不支援多主機 wideEP 分離預填充或 MTP。這些推理最佳化對於降低每百萬代幣的 TCO 以及提高每美元性能和每瓦性能至關重要。此外，他們尚未將 TPU vLLM 推理支援整合到流行的 RL 框架（如 VERL 等）中。Google在如何接近開放 AI/ML 生態系統方面正慢慢朝著正確的方向前進，特別是對於他們的“原生”TPU 後端。vLLM TPU 基準測試尚不相關本周，TPUv6e 上發佈了一個新的推理基準測試，聲稱 TPUv6e 的每美元性能比 NVIDIA GPU 差 5 倍。我們不同意，主要有兩個原因。首先，這個基準測試是在 TPU 上的 vLLM 上進行的，該版本僅發佈了幾個月，因此尚未具有最佳化的性能。Google內部的 Gemini 工作負載和 Anthropic 工作負載運行在內部自訂推理堆疊上，其每 TCO 性能優於 NVIDIA GPU。其次，Artificial Analysis 的每百萬代幣成本使用的是 TPUv6e 的標價 2.7 美元/小時/晶片。鑑於 BOM 只是 H100 的一小部分，沒有 TPU 的主要客戶會為 TPUv6e 支付接近那麼高的價格。眾所周知，大多數雲都有一個虛高的標價，以便他們的客戶銷售主管可以採用**“汽車推銷員”式的戰術（高標價、大折扣）**，讓客戶認為他們得到了一筆好交易。SemiAnalysis AI TCO 模型跟蹤所有各種合同長度（1 個月、1 年、3 年等）的 TPU 實際市場租賃價格。(圖表：每百萬輸入和輸出代幣的成本)TPU 軟體戰略的關鍵缺失部分Google在軟體戰略上仍然處理不當的一個部分是，他們的 XLA 圖編譯器和網路庫以及 TPU 執行階段仍然沒有開源，也沒有很好的文件記錄。這導致了從高級使用者到普通使用者的各種使用者感到沮喪，無法偵錯程式碼出了什麼問題。此外，他們用於多 pod 訓練的 MegaScale 程式碼庫也不是開放原始碼的。我們堅信，為了加速採用，Google應該將其開源，使用者採用的增加將超過他們將公開和免費的所有軟體 IP。就像 PyTorch 或 Linux 開源迅速增加了採用率一樣，開源 XLA:TPU 和 TPU 執行階段及網路庫也將迅速加速這一點。 (硬AI)

SemiAnalysis：CUDA被撕開第一道口子！谷歌TPUv7向王者發起挑戰

CUDA被撕開第一道口子！GoogleTPUv7干翻輝達【新智元導讀】當Google不再只滿足於「TPU自己用」，TPU搖身一變成了輝達王座下最鋒利的一把刀！CUDA護城河還能守住嗎？讀完這篇SemiAnalysis的分析，你或許會第一次從「算力帳本」的視角，看懂Google暗藏的殺招。GoogleGemini 3的成功，讓其背後的TPU再次成為全世界關注的焦點。資本市場給出了明確的反應，Google股價的上漲，也讓一個話題再次被拿到牌桌上討論：GoogleTPU是不是真的能和輝達GPU掰一掰手腕？尤其是TPUv7更是人們討論關注的焦點，這款專門為AI設計的晶片是否能夠打破輝達多年來的GPU形成的壟斷？眾所周知，SemiAnalysis是一家在科技界，尤其是半導體和人工智慧領域極具影響力的精品研究與諮詢公司。它以硬核、深度的資料分析著稱，不同於泛泛而談的科技媒體，它更像是一個服務於華爾街投資者、晶片巨頭和AI從業者的「行業智庫」。剛剛，他們最新的文章給出一個明確的結論：TPUv7首次向輝達發起了衝鋒。而且這一篇文章由12位作者共同撰寫，可見份量之重。這篇文章深入剖析了GoogleTPUv7如何向輝達的AI硬體霸權發起實質性挑戰。核心轉折點在於：Google打破長期以來的內部自用慣例，開始向Anthropic等外部客戶大規模出售TPU硬體及算力，後者已部署超過1GW的TPU叢集。儘管在單晶片理論參數上TPU未必碾壓輝達，但Google憑藉卓越的系統級工程（如ICI互聯和光路交換）實現了極高的實際模型算力利用率（MFU），且總體擁有成本（TCO）比輝達GB200系統低約30%-40%。Google正通過支援PyTorch原生環境和vLLM等開源生態，積極修補軟體短板，試圖從根基上瓦解CUDA的護城河。CUDA護城河能否被終結？TPUv8和輝達下一代AI新品Vera Rubin，誰更強大？接下來的內容，會給你答案。TPUv7：Google向王者發起挑戰輝達堅不可摧的堡壘，出現了一絲裂痕。目前，世界上最頂尖的兩個模型——Anthropic的Claude 4.5 Opus，以及Google的Gemini 3，它們絕大部分訓練和推理基礎設施，都運行在Google的TPU和亞馬遜的Trainium上。其中的Gemini 3，以及其所有早期版本的Gemini，則是完全在TPU上進行訓練的。這還不算，Google正在向多家公司出售商用的TPU硬體。輝達的王座迎來了新的挑戰者。早在2006年，Google就有過建立AI專用基礎設施的想法。但一直到2013年，Google才開始為TPU晶片奠定基礎，並在2016年將其投入生產。同一年，亞馬遜也啟動了Nitro計畫，該計畫專注於開發晶片以最佳化通用CPU計算和儲存。如今，通過推進TPU商業化，Google已經成為輝達最新且最具威脅的挑戰者。Gemini 3發佈後，市場反響強烈。輝達還專門為此發佈了一條官方推文，恭喜Google在AI領域的進展，同時不忘強調自己依然遙遙領先。在推文中，輝達強調自己仍在持續向Google供應硬體，並表示自己依然領先行業一代，是唯一能夠運行所有AI模型、並能在各種計算場景中使用的平台。同時，強調GPU比專用晶片（ASIC）在性能、通用性和可替代性上更強，這句話明顯是對GoogleTPU、AWS Trainium等專用晶片的回應。突然崛起的TPU在過去的幾個月裡，GoogleDeepMind的Gemini 3、Google雲以及TPU綜合體，賺足了眼球，也將Google母公司Alphabet的市值推高至接近4兆美元。TPU產量大幅上調，Anthropic、Meta、SSI、xAI、OAI等TPU的客戶名單正在不斷擴大，這些推動了Google和TPU供應鏈的大幅重新評級，無疑也將壓制以輝達GPU為重點的供應鏈。除了面對TPU的壓力，輝達還面臨著通過「循環經濟」造成AI泡沫的質疑，許多質疑者認為輝達通過資助燒錢的AI初創公司，本質上是將錢從一個口袋轉移到另一個口袋。輝達對此的回應SemiAnalysis認為更合理的解釋是：輝達旨在通過股權投資而非降價來保護其在基礎實驗室的主導地位——降價將拉低毛利率並引發投資者普遍恐慌。下文將通過解析OpenAI與Anthropic的合作模式，展示前沿實驗室如何通過採購（或威脅採購）TPU來降低 GPU 的總體擁有成本（TCO，Total Cost of Ownership）。總擁有成本（TCO）模型、Anthropic和OpenAI雖然OpenAI目前尚未部署TPU，但僅憑「轉向TPU」這一可能，就已在其輝達叢集成本上節省約30%。簡單來說，OpenAI並沒有真的把Google的TPU晶片插進伺服器裡跑任務，而是把「我隨時可能改用TPU」作為一個巨大的談判籌碼，迫使輝達為了留住這個大客戶，變相給予了巨額優惠。GoogleTPU的大規模外部化TPU堆疊長期以來一直與輝達AI硬體相抗衡，但它主要是為了支援Google的內部工作負載。即使在2018年向Google雲平台客戶提供TPU之後，Google仍未將其完全商業化。如今，這種情況正在開始改變。在過去的幾個月裡，Google已經動員了整個堆疊的努力，通過Google雲平台或作為商用供應商銷售完整的TPU系統，開啟了TPU大規模商用的步伐。這一舉措也使這家搜尋巨頭成為一個真正差異化的雲提供商。與此同時，Google的頂級客戶Anthropic也在繼續推動擺脫對輝達單一依賴，兩者在採用TPU上一拍即合。與Anthropic的交易，標誌著TPU規模化商用的一個重要里程碑。那麼，Anthropic和其他客戶為什麼想要Google的TPU？答案很簡單。TPUv7 Ironwood是一個優秀系統內的強大晶片，即使晶片在參數上落後於輝達，Google的系統級工程也使得TPU堆疊在性能和成本效率方面都能與輝達相匹配。這種組合為Anthropic提供了引人注目的性能和TCO，因此贏得了其大規模的訂單。與輝達通過GB200擴展其GPU生態一樣，Google自2017年TPUv2以來，也一直在機架內和跨機架擴展TPU。Google的ICI擴展網路，也與輝達NVLink匹敵的競爭對手。如今，預訓練前沿模型仍然是AI硬體中最困難和資源最密集的挑戰。自2024年5月GPT-4o以來，OpenAI的頂尖研究人員尚未完成廣泛用於新前沿模型的成功全規模預訓練運行，而TPU平台則通過了這一測試。對於Google來說，在最具挑戰性的硬體問題之一中悄悄擠入並建立性能領先地位，確實是一個令人印象深刻的壯舉。微架構仍然很重要：Ironwood接近Blackwell雖然Google一直在推動系統和網路設計的邊界，但從一開始，Google在晶片方面的設計理念相對於輝達就更為保守。歷史上，TPU的峰值理論FLOPs明顯較少，記憶體規格也低於相應的輝達GPU。其中有3個原因。首先，Google對其基礎設施的「RAS」（可靠性、可用性和可服務性）非常重視。Google寧願犧牲絕對性能來換取更高的硬體正常執行階段間。第二個原因，直到2023年，Google的主要AI工作負載是為其核心搜尋和廣告資產提供動力的推薦系統模型。與大模型工作負載相比，RecSys工作負載的算術強度要低得多，這意味著相對於傳輸的每一位資料，需要的FLOPs更少。第三個原因，是TPU主要面向內部，在外部誇大這些規格的壓力要小得多。商用GPU提供商希望為其晶片行銷儘可能好的性能規格，這激勵他們將行銷的FLOPs提高到儘可能高的數字。進入大模型時代之後，GoogleTPU的設計理念發生了明顯轉變。從最近兩代為大模型設計的TPU：TPUv6 Trillium（Ghostlite）和TPUv7 Ironwood（Ghostfish）就可以看出這種變化。TPUv6在FLOPs上已經非常接近H100/H200，但它比H100晚了2年。TPUv7 Ironwood是下一次迭代，Google在FLOPs、記憶體和頻寬方面幾乎完全縮小了與相應輝達旗艦GPU的差距，儘管全面上市比Blackwell晚了1年。理論上的絕對性能是一回事，但重要的是單位總擁有成本（TCO）的實際性能。雖然Google通過Broadcom採購TPU並支付高額利潤，但這明顯低於輝達不僅在他們銷售的GPU上，而且在整個系統（包括CPU、交換機、NIC、系統記憶體、布線和連接器）上賺取的利潤。從Google的角度來看，每顆晶片在全規模部署下的TCO比輝達GB200伺服器低 44%。這足以彌補峰值FLOPs和峰值記憶體頻寬約10%的不足。為什麼Anthropic下注TPU？比較理論FLOPs只能說明部分問題。更重要的是有效FLOPs，因為峰值數字在實際工作負載中幾乎從未達到。輝達的優勢源於CUDA護城河和開箱即用的廣泛開源庫，幫助工作負載高效運行，實現高FLOPs和記憶體頻寬。相比較之下，TPU軟體堆疊開箱即用的性能較弱，然而Anthropic擁有強大的工程資源和前Google編譯器專家，他們既瞭解TPU堆疊，也很好地理解自己的模型架構。因此，彌補了這方面的不足。他們可以投資自訂核心以驅動高TPU效率，這使得他們可以達到比採用其他商用GPU更高的MFU（模型FLOPs利用率）和更好的每PFLOP成本性能（$/PFLOP）。另一個巨大轉變傳統上，TPU軟體和硬體團隊一直是面向內部的。這具有優點，例如沒有行銷團隊施加壓力來誇大所述的理論FLOPs。只面向內部的另一個優勢是TPU團隊非常重視內部功能請求和最佳化內部工作負載。缺點是他們不太關心外部客戶或工作負載。TPU生態系統中的外部開發者數量遠低於CUDA生態系統。這是TPU的主要弱點之一，就像所有非輝達加速器一樣。Google此後修改了針對外部客戶的軟體戰略，並已經對其TPU團隊的KPI以及他們如何為AI/ML生態系統做出貢獻做出了重大改變。其中有2個主要變化：在PyTorchTPU「原生」支援上投入大量工程精力；在vLLM/SGLangTPU支援上投入大量工程精力。通過查看Google對各種TPU軟體倉庫的貢獻數量，可以清楚地看到外部化戰略。從3月開始vLLM貢獻顯著增加。從5月開始，建立了「tpu-inference」倉庫，這是官方的vLLMTPU統一後端。Google在軟體戰略方面仍然處理不當的一個地方是，他們的XLA圖編譯器、網路庫和TPU執行階段仍然沒有開源，也沒有很好的文件記錄。這讓從高級使用者到普通使用者的各種使用者感到沮喪，因為他們無法偵錯程式碼出了什麼問題。此外，用於多Pod訓練的MegaScale程式碼庫也不是開放原始碼的。就像PyTorch或Linux開源迅速增加了採用率一樣，為了加速使用者的採用，Google或許應該將其開源，使用者採用率的增加將超過他們公開和免費提供的所有軟體IP。後續如果想要瞭解更深入的技術細節，比如Google獨有的ICI光互連技術到底有那些優勢，可以閱讀原文：https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the(新智元)

為打擊走私，美國擬強制輝達AI晶片內建位置追蹤技術！

5月6日消息，據路透社報導，美國國會議員計畫在未來幾周內正式提出一項新的立法提案，要求監控輝達等公司生產的人工智慧（AI）晶片出售後的位置，旨在解決AI晶片大規模走私，違反美國出口管制規則的情況。據悉，該提案已經得到了美國兩黨議員的支援。報導稱，提出該提案的Bill Foster是美國伊利諾伊州民主黨眾議員，他曾是一名粒子物理學家，並在其科學生涯中成功設計了多種電腦晶片。Bill Foster計畫在未來幾周內提出一項法案，指示美國監管機構在兩個關鍵領域制定規則：跟蹤晶片以確保它們在出口管制許可下被授權的地方，並阻止未獲得出口管制適當許可的晶片啟動。Bill Foster告訴路透社，目前已經有可靠的報告顯示，晶片走私活動正在大規模發生，其中一些報告尚未公開披露。“這不是一個想像中的未來問題，”Bill Foster表示，“它是一個現實問題，……這與核技術一樣迫在眉睫。”半導體分析公司 SemiAnalysis 也表示，隨著中國 DeepSeek 的崛起，打擊AI晶片走私活動變得更加緊迫。DeepSeek 的AI系統對美國的AI系統構成了強勁挑戰，其採用的輝達被禁止向中國銷售的AI晶片。新加坡檢察官不久前已經就一起涉及可能包含輝達晶片的伺服器的走私案件，對三名中國公民提起欺詐指控。Bill Foster表示，追蹤晶片售出後的技術已經存在，其中大部分技術已經內建於輝達的晶片中。路透社採訪的獨立技術專家也對此說法表示贊同。兩位直接瞭解Google營運情況的消息人士透露，出於安全目的，Google已經在其龐大的資料中心網路中追蹤其內部AI晶片和其他晶片的位置。據瞭解，驗證晶片位置的技術將依賴於晶片與安全的電腦伺服器通訊，該伺服器將使用訊號到達伺服器所需的時間來驗證晶片的位置。華盛頓智庫進步研究所的前工程師兼新興技術政策主任Tim Fist表示，這種跟蹤技術將為晶片提供一個通用的國家級位置。這將比美國商務部負責執行出口管制的部門工業和安全域目前掌握的資訊要多得多。Tim Fist說：“BIS不知道晶片出口後，他們應該把那些晶片作為潛在的優先調查對象。”通過位置驗證，“他們現在至少已經將世界上現有的晶片組變成了很可能沒有被走私的晶片和需要進一步調查的晶片。”目前，Bill Foster的法案得到了眾議院中國問題特別委員會資深成員、眾議員Raja Krishnamoorthi等民主黨同僚的支援。Raja Krishnamoorthi在一份聲明中表示：“晶片位置驗證是我們應該探索的一種創造性解決方案，以阻止這種走私。”共和黨人也表示支援，儘管還沒有人簽署具體的立法，因為它還沒有出台。委員會主席、眾議員John Moolenaar支援位置跟蹤的概念，並計畫本周與眾議院和參議院的議員會面，討論潛在的立法方法。John Moolenaar表示：“特別委員會得到了兩黨的強烈支援，要求輝達等公司在其高性能人工智慧晶片中建構位置跟蹤能力，而實現這一目標的技術已經存在。”Bill Foster的第二個立法目標是防止人工智慧晶片在美國出口管制下未獲得適當許可的情況下啟動，這在技術上比位置驗證更複雜，但他表示，現在是開始討論這兩項工作的時候了。Bill Foster告訴路透社：“我們已經獲得了足夠的投入，我認為現在我們可以與實際的晶片和模組供應商進行更詳細的討論，說‘你實際上會如何實現這一點？’”據瞭解，Bill Foster的立法提案一旦獲得通過，將會給予美國商務部6個月的時間來制定要求該技術的法規。 (芯智訊)

中國機器人產業已經對美國造成了系統性的威脅

這篇文章是SemiAnalysis最新的一篇45頁的分析報告：美國正在錯失新勞動力經濟——機器人技術篇。從春節前宇樹科技的爆火，一直到昨天稚暉君的新品展示，彷彿最近這段時間，我們國家的機器人的新聞一直不斷，大家對機器人的關注度也越來越高。當然還是有很多人懷疑網上的視訊都過於片面，只展示某一次最好的demo，特斯拉和波士頓動力依然是金字塔尖的存在。但SemiAnalysis的這篇報告，讓我對我們國家的機器人充滿了期待。印象中這應該是SemiAnalysis間隔最長的一次報告了，過了整整一個月。下面我們就來看下這一個月的時間SemiAnalysis憋出了什麼大招。