#TPU
GoogleTPU挑戰GPU王座!讓Anthropic省下30%算力,買的TPU越多,省下的輝達GPU支出就越多!
面對GoogleTPU的攻勢,輝達開始緊張了。Google的 Gemini 3 和 Anthropic 的 Claude 4.5 Opus 等前沿模型,並非使用輝達硬體訓練,而是運行在Google最新的 Ironwood 架構 TPUv7 上。TPU 的成果無需多言:Gemini 3 是全球最強模型之一,而且完全在 TPU 上訓練。連山姆·奧特曼也公開承認,Gemini 搶走了 OpenAI 的風頭,“前景有些不妙”。這意味著,一種可行的 GPU 替代方案已經到來。輝達也慌了,趕緊發佈了一份安撫性的新聞稿,告訴所有人保持冷靜,我們仍然遙遙領先。輝達的緊張不難理解,這幾個月對 Google DeepMind、GCP 和 TPU 戰線而言是一路大勝:TPU 產量預期大幅上調Anthropic 超過 1GW 的 TPU 採購Gemini 3 和 Claude 4.5 Opus 在 TPU 上拿下 SOTA客戶名單迅速擴大(Meta、SSI、xAI、OAI 全部被瞄準)為什麼在 Blackwell 還沒完全鋪開、輝達的 GPU 帝國依然銅牆鐵壁的情況下,TPU 卻突然具備了挑戰 GPU 的實力?——輝達的統治地位要結束了嗎?這一切還得從2006年開始嘮起。GoogleTPU:從內部自用走向商業化早在 2006 年,Google就開始推銷建構專門 AI 基礎設施的想法, 但問題在 2013年發生了轉變。Google開始意識到,如果想在任何規模上部署人工智慧,就必須將現有的資料中心數量翻倍。因此,他們開始為 TPU 晶片奠定基礎,並於 2016 年投入生產。TPU 協議棧長期以來一直與輝達的 AI 硬體抗衡,但它主要支援Google內部工作負載。過去,Google只通過 Google Cloud Platform 出租 TPU,外部團隊無法直接購買。直到最近,Google開始將 TPU 硬體直接出售給企業客戶。關鍵轉折點在於Google與Anthropic達成的戰略協議。今年九月初,就有消息稱Anthropic 作為主要外部客戶之一, 需求至少有 100 萬個 TPU。這一消息在十月得到了 Anthropic 和Google的正式確認 。關於 100 萬顆 TPU 的分配結構:通過Google長期的硬體設計合作夥伴博通,約有 40 萬顆晶片直接銷售給 Anthropic剩餘的 60 萬顆晶片通過傳統的Google雲合同租賃據SemiAnalysis報導,Anthropic 的承諾為Google的利潤增加了數十億美元。此外,Meta 也是 TPU 的大客戶。即便作為競爭對手,OpenAI也計畫租賃GoogleTPU。有消息稱,今年OpenAI 希望通過 Google Cloud 租賃的 TPU 能夠幫助降低推理成本,這可能會推動 TPU 成為輝達 GPU 更廉價的替代品。值得注意的是,OpenAI 甚至還沒有部署 TPU,僅僅是存在可行的替代方案,就爭取到了輝達GPU大約 30%的折扣。因此有分析師調侃道:“你買的TPU越多,你節省的輝達GPU支出就越多。”這句話真是狠狠打臉了老黃在介紹BlackWell時那句知名的口號:“買得越多,省得越多。”為什麼 Anthropic 想要 TPU:節省約30%的成本!從紙面規格看,TPUv7 “Ironwood” 的理論算力(FLOPs)和記憶體頻寬已經接近輝達最新一代 Blackwell GPU。但真正的殺手鐧是:TPU極低的總擁有成本(TCO)。根據分析:Google 內部使用 TPU 的每晶片 TCO 比同級 GB200 系統低約 44%;即使是像 Anthropic 這樣的外部客戶(需要支付Google的利潤),每單位有效算力的成本依然比輝達系統低 30~50%。TPU 的架構還帶來天然擴展優勢:Google的系統能把 9,216 顆晶片聯成一個高密度的訓練域;而傳統輝達系統通常只有 64~72 顆晶片能做到緊密互聯。這使得 TPU 更適合超大規模 AI 訓練任務。另一個關鍵因素是 Anthropic 的工程實力。團隊中有前 Google 編譯器專家,既熟悉 TPU 軟體棧,也精通自家模型架構。他們可以通過定製核心提升 TPU 利用效率,從而實現 更高的模型 FLOP 利用率(MFU) 和更優的 $/PFLOP 性能。綜合考慮更低的 TCO 和更高的有效算力:對Google來說,每個有效 FLOP 的成本更低;盈虧平衡點僅需約 15% 的 MFU,而 GB300 則需 30% 的 MFU。換句話說,即便Google或 Anthropic 僅實現 GB300 FLOPs 的一半,成本也能持平。憑藉頂尖的編譯器團隊和對模型的深度理解,Anthropic 在 TPU 上的 MFU 潛力甚至可能達到 40%,這意味著每單位有效訓練 FLOP 的成本可降低約 62%,帶來巨大的經濟優勢。Google試圖打破 CUDA 鎖定效應長期以來,軟體生態是 TPU 最大的短板。和所有非輝達加速器一樣,TPU 生態系統中的外部開發者數量遠少於 CUDA 生態系統。CUDA 是行業標準,開發者要遷移到 TPU 需要重寫大量工具鏈。但現在情況正在改變,因為Google正在三件事上投入大量資源:讓 PyTorch 在 TPU 上原生運行TPUv7 支援原生 PyTorch 整合,包括急切執行、完全支援分佈式 API、torch.compile 以及 PyTorch 工具鏈下的自訂 TPU 核心支援。目標是讓 PyTorch 能像在 Nvidia GPU 上一樣輕鬆運行 TPU。整合主流推理庫(如 vLLM)Google還大力參與 vLLM 和 SGLang 這兩個流行的開源推理框架,並宣佈通過一個非常“獨特”的整合,支援 vLLM 和 SGLang 的測試版 TPU v5p/v6e。最佳化編譯器自動平行能力Google的目標很明確:讓開發者無需重建生態,就能無痛切換到 TPU。不過,TPU 軟體棧的核心XLA 編譯器仍未開源,文件也不完善。這導致從高級使用者到普通使用者都感到沮喪,無法偵錯程式碼出了什麼問題。此外,他們的 MegaScale 多重訓練程式碼庫也不是開放原始碼的。SemiAnalysis 認為,如果能開源,將顯著降低 TPU 的採用門檻。此外,為了讓數十萬顆 TPU 快速落地,Google 還採用了一種非常激進的融資策略:與新型雲服務商(Neocloud)合作,如 Fluidstack與加密礦場營運商合作,如 TeraWulf在這些交易中,Google充當“最終兜底者”,如果營運方失敗,Google 保證繼續支付租金。這使得大量舊的加密挖礦資料中心被迅速改造成 AI 資料中心,也讓 TPU 的部署速度大幅提升。這對輝達來說意味著什麼?面對Google的威脅,輝達正在準備反擊。其下一代 “Vera Rubin” 晶片,預計將在 2026~2027 年推出,將採用相當激進的設計,包括:HBM4 高頻寬記憶體新一代互聯與系統架構而Google計畫中的應對方案 TPUv8,則採用了雙重策略。據瞭解,Google計畫發佈兩個變體:一個與長期合作夥伴博通(代號“Sunfish”)共同開發,另一個與聯發科(代號“Zebrafish”)合作開發。但TPUv8的設計稍顯保守。有分析師指出,該項目存在延誤,且依賴架構避免了競爭對手中激進使用台積電的 2 奈米工藝或 HBM4。SemiAnalysis也指出,一開始,Google在矽晶片設計理念上相較於輝達更為保守。歷史上,TPU 出廠時峰值理論 FLOP 數量明顯少於相應的輝達 GPU 和更低的記憶體規格。如果輝達 Rubin 按計畫實現性能躍升,TPU 當下的成本優勢可能會被徹底抹平。甚至可能出現,輝達 Rubin(特別是 Kyber Rack)比 Google TPUv8 更便宜、更高效的情況。此外,TPU 也並非完美。它在特定深度學習場景中表現出色,卻遠不如 GPU 靈活。GPU 能運行各種演算法,包括非 AI 工作負載。如果明天出現一種全新的 AI 技術,GPU 基本可以立即運行;TPU 則可能需要編譯器或核心最佳化。此外,從 GPU 體系遷移出來的成本依然高昂,特別是對於深度依賴 CUDA、自訂 kernel 或尚未針對 TPU 最佳化的框架的團隊。WEKA 的首席人工智慧官Val Bercovici 建議:“當企業需要快速迭代、快速上市時,應選擇 GPU。GPU 使用標準化基礎設施、擁有全球最大的開發者生態、適合動態複雜的工作負載,並能輕鬆部署在現有本地資料中心,而無需進行電力或網路的重構。”由於 GPU 更普及,對應工程人才也更多。TPU 則需要更稀缺的技能。Bercovici 也表示:“要充分發揮 TPU 的潛力,需要能寫自訂 kernel 與最佳化編譯器的工程深度,這類人才極為稀缺。”總的來說,AI 硬體的競爭愈演愈烈,但現在預測誰將獲勝還太早,甚至無法確定是否會有一個唯一的贏家。TPU 的性價比和架構優勢確實讓人眼前一亮,但輝達的 GPU 在生態、軟體和成熟度上依然不可小覷。在輝達、Google快速迭代,以及亞馬遜也加入競爭的背景下,未來性能最高的 AI 系統很可能是混合架構,同時整合 TPU 與 GPU。 (51CTO技術堆疊)
比GPU性能更強?TPU全解析(AI算力、Google、輝達、智算中心)
AI能在幾秒內處理百萬條資料,背後靠的是什麼晶片?常聽人說GPU支撐AI算力,那TPU又在起什麼作用?它和我們手機裡的晶片有本質區別嗎?實際上TPU就像AI的專屬廚師,專門做AI最需要的算力工作,不多但精準高效。一、TPU1、TPU不是一開始就為通用AI設計的很多人以為TPU從誕生就針對大模型訓練,其實它最初是Google為自家業務定製的工具。Google ML發展關鍵時間線(2011-2015)2015年前後,Google的搜尋排序、語音識別這些服務需要大量重複的數值運算,當時的GPU處理起來總有些力不從心,要麼速度不夠,要麼耗電太多。Google工程師乾脆重新設計晶片架構,把所有計算資源都集中在這類運算上,這就是第一代TPU的由來。後來大模型興起,大家才發現這種架構剛好符合AI的需求,TPU才從Google內部走向公開市場。TPU v12、TPU不用常見的快取設計普通電腦和手機晶片裡,快取是個重要部件,就像書桌邊的抽屜,常用的東西放裡面方便拿。可是TPU不怎麼依賴快取,反而用了超大頻寬的記憶體。這是因為AI運算的特點和普通計算不一樣,它需要處理海量連續的資料,比如一張圖片的像素點或者一段文字的編碼,這些資料要不斷輸入計算單元。快取的容量再大也裝不下這麼多連續資料,換成高頻寬記憶體,就能像消防水管送水一樣,把資料快速送到計算部分,反而更高效。二、晶片設計1、架構設計TPU的設計第一步就是設計架構,這就像蓋房子先畫圖紙,決定了晶片的性能上限。架構設計要先明確晶片的用途,是給大模型訓練用,還是給智能音箱這類裝置做推理用。訓練用的TPU需要更強的平行計算能力,能同時處理海量資料;推理用的TPU則更看重能效比,不能太耗電。Google最新的Trillium TPU就是典型的訓練型架構,把多個計算部分連在一起,還最佳化了資料傳輸的路徑,相比上一代訓練速度提升了4倍多,能耗反而降了不少。TPU v4 架構2、演算法適配比單純增加參數更重要設計TPU不能只看硬體參數,還要和AI演算法配合好。不同的AI模型,比如圖像識別和語言翻譯,運算邏輯不一樣。如果晶片架構和演算法不匹配,就算參數再高也沒用,就像用菜刀砍骨頭,再鋒利也不如斧頭順手。Google的TPU能在Gemini模型上做得很好,就是因為設計時針對多模態模型的運算特點做了最佳化,比如加強了對圖像和文字混合資料的處理能力。國內企業設計TPU時,也會針對政務、金融這些領域的特定演算法做調整。人工智慧模型訓練計算量趨勢圖3、IP核採購TPU設計不用所有部分都從零開始,有些通用模組可以直接買現成的IP核。IP核就像現成零件,比如記憶體控製器、介面模組這些,有專業公司專門研發銷售。買IP核能節省大量時間,不用再花幾年研發這些成熟技術,還能降低風險。大部分中小設計企業都會用這種方法,只專注於TPU主要計算部分的設計。Google這樣的大企業,為了追求最好的性能,會自己研發所有IP核,但投入的研發費用往往要數十億。三、晶圓1、矽片TPU的製造要從矽片開始,這種高純度的矽片表面光滑,純度要達到99.9999999%以上,一點雜質都可能影響晶片性能。矽片的尺寸也很重要,現在主流是12英吋矽片,一片就能切割出幾百個TPU晶片,比小尺寸矽片的效率高很多。生產矽片的過程很複雜,要經過晶體生長、切片、拋光等幾十道工序,國內的中環股份、滬矽產業都能生產這種高純度矽片,不過高端產品還需要進口。2、光刻光刻就像給矽片刻上電路圖案,是製造環節最重要的一步。這個過程需要用光刻機,把設計好的電路圖案通過雷射投射到塗了光刻膠的矽片上,再用化學藥劑蝕刻,形成電路紋理。TPU的製程越先進,光刻的難度就越大。目前主流的TPU用7奈米或5奈米製程,需要極紫外光刻機才能完成。全球能生產這種光刻機的企業很少,台積電就是靠掌握先進光刻技術,成為Google、蘋果等企業的TPU代工廠。3、摻雜工藝矽本身的導電性能一般,需要通過摻雜工藝來調整。簡單來說就是在矽片的特定區域注入硼、磷這些雜質,形成PN接面,這樣才能控制電流,讓晶片完成計算。摻雜的精度要求極高,雜質的濃度和注入深度都要精確到奈米等級。不同的計算部分,摻雜的參數不一樣,比如TPU的主要計算區域需要更高的導電效率,摻雜濃度就會高一些;而外圍的控制區則需要更穩定的性能,摻雜參數會更穩。四、封裝測試1、封裝晶圓切割成單個晶片後,下一步就是封裝。封裝主要有三個作用:一是保護晶片不受潮濕、灰塵這些外界環境影響;二是引出晶片的電極,方便和外部電路連接;三是幫晶片散熱——TPU工作時會發熱,封裝材料和結構都影響散熱效果。訓練用的TPU功率大,所以會用更複雜的倒裝封裝技術:把晶片正面朝下貼在基板上,這樣散熱路徑更短。國內像長電科技、通富微電這些企業都能做TPU封裝,技術水平和國際企業差不了多少。2、測試要過三道關封裝好的晶片不能直接出廠,得經過嚴格測試,主要有三道關。第一道是性能測試,用專門裝置給TPU輸入測試資料,檢查計算速度、精度這些指標是否符合要求——Google的TPU還會專門測試在Gemini模型上的訓練效率。第二道是穩定性測試,把TPU放在高溫高濕的環境裡連續工作幾百小時,看看會不會出故障。第三道是功耗測試,測測不同負載下的耗電量,確保符合設計要求。不合格的晶片會被標記淘汰,合格率直接關係到企業的成本。能效比例3、模組化設計現在的TPU大多用模組化封裝,把多個晶片整合到一個模組裡——比如Google的TPU Pod就是由好幾個TPU晶片組成的。這種設計有兩個好處:一是組合起來方便,根據需求拼接不同數量的模組,就能滿足不同的算力需求;二是維護起來省事,如果某個晶片壞了,只換對應的模組就行,不用把整個裝置都廢掉。智算中心裡的TPU叢集都用這種方式,維護人員不用拆開晶片,直接換模組就能解決問題,能省不少停機時間。五、材料供應1、聚氨酯材料這裡說的聚氨酯材料和晶片不是一回事,但在TPU產業鏈裡也挺重要的。汽車車衣用的就是熱塑性聚氨酯材料,彈性好、耐老化,還能防刮擦。張家界有家企業專門做這種材料,全球市場佔有率能到90%,連阿迪達斯的運動鞋都用他們的TPU膠膜來粘接。生產這種材料需要高品質的聚酯多元醇,國內的華峰化學通過收購企業,打通了從原料到成品的全鏈條,成本比進口材料低很多。2、光刻膠光刻膠是光刻環節必須用的材料,塗在矽片表面,經過雷射照射後會發生化學反應,形成可以蝕刻的圖案。光刻膠的質量直接影響電路精度,先進的5奈米製程得用極紫外光刻膠,這種材料研發難度很大,成分配比要精確到百萬分之一。現在國內企業已經能生產28奈米製程用的光刻膠,高端的還得從日本或者美國進口。光刻膠的儲存條件也挺嚴格,得放在低溫環境裡,不然會失效。3、散熱材料TPU工作時產生的熱量要是不能及時散出去,會影響性能甚至縮短壽命,所以散熱材料就很關鍵。封裝環節會用到散熱膏和散熱片:散熱膏填在晶片和散熱片之間的縫隙裡,能提高導熱效率;散熱片則增大散熱面積,把熱量傳到空氣裡。大功率的TPU叢集還需要專門的液冷散熱系統,用冷卻液把熱量帶走。國內像高瀾股份、同飛股份做的液冷系統,已經用到不少智算中心的TPU叢集裡了,散熱效率比傳統的風冷高3倍多。六、終端整合1、智算中心是TPU的主要陣地智算中心就像TPU的大本營,很多TPU在這裡組成叢集,給AI企業提供算力服務。天津移動建的TPU智算中心,通過最佳化叢集佈局和散熱系統,單位算力成本降了很多。這些智算中心會根據客戶需求,提供不同的算力套餐:比如給科研機構提供大模型訓練用的高算力服務,給中小企業提供智能客服推理用的輕量算力服務。像視拓雲這樣的企業,還把TPU算力做成了零售業務,客戶按需購買就行,不用一次性投很多錢建機房。2、汽車行業TPU在汽車行業的應用分兩種:一種是晶片,一種是材料。晶片方面,有些智能汽車的自動駕駛系統會用TPU做推理,處理攝影機和雷達傳來的路況資料,判斷行人和車輛的位置。材料方面,汽車車衣用的熱塑性聚氨酯材料越來越常見,納琳威做的真漆車衣,還能適配特斯拉賽博皮卡的不鏽鋼車身,貼合度特別高。易車和邦泰集團合作研發車用TPU粒子,做成的車衣性價比更高,已經覆蓋了從一線到三四線城市的門店。3、小型化TPU智慧型手機、智能音箱這些消費電子產品,需要的是小型、低功耗的TPU。智能音箱裡的TPU,主要負責語音識別的推理,能把使用者的語音指令快速轉成文字,還能理解意圖。這種TPU尺寸很小,有的只有指甲蓋那麼大,功耗也低,一節電池就能支援長時間工作。國內的瑞芯微、全志科技都做這類小型TPU,很多智能家電廠商都會買。有些高端耳機裡也會裝小型TPU,用來最佳化降噪演算法。Coral Edge TPU與NVIDIA GTX 1080 GPU在最大功耗和每瓦特運算性能上的對比七、市場規模情況1、全球市場增長速度很快TPU所屬的智能算力市場,這幾年漲得特別快。2024年全球AI算力市場中,GPU和TPU主導的智能算力規模超過了750億美元。有機構估計,2025年這個數字會跳到3500億美元,差不多翻五倍。這當中TPU的佔比還在慢慢上升,特別是Google推出Trillium TPU後,不少企業開始換成TPU來做訓練和推理。Meta甚至打算從2027年開始,在自家資料中心裡裝Google的TPU,這筆單子說不定能到幾十億美元呢。2、中國市場增速超過全球平均中國智能算力市場的增長速度比全球平均還要快。根據IDC和浪潮資訊的報告,2025年中國人工智慧算力市場規模能到259億美元,比去年漲了36.2%。TPU的用途現在越來越多,政務、金融、製造這些行業都在往裡面砸錢。天津、上海這些大城市都在蓋TPU智算中心,中國移動打算到2028年底建成本國最大的智算設施,裡面會裝很多國產TPU。國產TPU的市場份額也在往上走,寒武紀、華為的TPU在國內政務領域用得已經挺多了。3、不同應用場景的市場差異大TPU的市場分佈不太均勻,智算中心佔了大部分,大概能有70%以上。為何呢?因為大模型訓練和推理需要好多TPU湊成叢集,一套裝置的投入就不低。汽車行業的TPU市場漲得最快,特別是自動駕駛和車衣材料這兩塊,2025年的漲幅可能超過50%。消費電子領域的TPU市場規模不算大,但勝在穩,每個智能裝置裡都得有個小TPU,賣出去的數量特別多。材料類的TPU市場也不小,光汽車車衣和運動鞋這兩個地方,全球一年賣的錢就超過一百億美元。八、市場競爭態勢1、Google和輝達國際上TPU市場主要是Google和輝達在搶地盤,不過兩家擅長的地方不一樣。Google的TPU在AI訓練這塊優勢很明顯,特別是和自家Gemini模型搭著用的時候,效率比輝達的GPU高不少,還更省電。輝達則在生態這塊更厲害,好多AI框架都先適配GPU,企業要換成TPU得調整演算法,難度相對大一點。但這種情況正在改變,Google通過雲服務把TPU租給其他公司,Meta這樣的大公司也開始考慮用了,Google在市場上的說話份量慢慢變重了。2、國內企業細分領域國內的TPU企業沒直接和Google、輝達硬碰硬,而是從細分領域入手。寒武紀的TPU主要針對政務和金融行業,這些地方對安全性要求高,國產晶片更吃香。華為的TPU則和自家鴻蒙系統、雲服務綁在一起,在智能汽車和工業網際網路這塊推。材料領域的國內企業表現更亮眼,張家界齊匯新材料在運動鞋用TPU膠膜市場佔了全球90%的份額,邦泰集團在車用TPU粒子這塊的國內市場佔比超過60%。這些企業通過盯著細分市場做,給自己築起了一道競爭的牆。九、需求分析1、網際網路科技巨頭網際網路科技巨頭是TPU的主要客戶,尤其是那些做AI大模型的公司。Google、Meta、百度、阿里這些企業,每年都會買好多TPU搭成算力叢集,用來訓練模型和做推理。他們買TPU的時候最看重性能和穩不穩定,對價格不太在乎。Google自己做TPU,同時也把算力租給其他公司;百度則混著用國產和進口TPU,重要業務用進口的,邊緣業務用國產的來省錢。這些巨頭買的量很大,一單就能佔企業年銷售額的20%以上。2、製造企業製造企業買TPU主要用在兩個地方,一是生產線上的智能檢測,用TPU處理攝影機拍的產品圖片,找出缺陷;二是生產TPU材料做的東西,比如汽車零件、運動鞋材料。這些企業買的時候最看重性價比,不會瞎買高端產品。汽車零件廠商會選國產的中低端TPU晶片,足夠滿足檢測需求,價格比進口的低30%以上。買材料這塊,他們會和供應商長期合作,比如阿迪達斯就把齊匯新材料當成最大的TPU膠膜供應商,兩家還一起研發新產品。3、科研機構和政務部門科研機構和政務部門買TPU,安全是第一個要考慮的。高校和科研院所買TPU主要用來研發AI演算法,他們需要晶片能靈活擴展,適配不同的實驗場景。政務部門買的TPU則主要用在人口統計、交通管理這些地方,資料很敏感,必須用通過安全認證的國產晶片。寒武紀的TPU就通過了好幾個政務安全認證,在好多城市的智能交通系統裡都在用。這些客戶買的量雖然不如巨頭,但訂單穩,給錢也比較快。十、TPU和GPU誰更厲害1、訓練場景TPU更有優勢在AI模型訓練場景裡,尤其是大模型訓練,TPU的優勢很明顯。因為訓練過程需要反覆做矩陣運算,TPU的架構就是專門為這個做的,所有計算資源都集中在這事兒上,沒有多餘功能浪費資源。Google的Trillium TPU訓練Gemini模型時,速度比輝達最新的GPU快4倍,能耗卻低67%。這就意味著訓練同一個模型,用TPU能省好多時間和電費,對經常要訓練模型的企業來說,這筆省下來的錢可不少。2、推理場景兩者各有千秋推理場景就是模型訓練完後,處理實際資料的過程,比如語音識別、圖像分類。這種場景下TPU和GPU各有各的好,得看具體用在那兒。如果是單一任務的大量推理,比如智能音箱的語音識別,TPU更高效,成本也更低。如果是複雜的多工推理,比如自動駕駛同時處理路況、行人、交通燈這些資訊,GPU的通用性更強,能同時處理不同類型的運算,更佔優勢。好多企業會混著用,簡單任務用TPU,複雜任務用GPU。3、生態完善度GPU領先雖然TPU在性能上有優勢,但GPU的生態更成熟,這也是好多企業不願換的原因。現在市面上大部分AI框架、演算法庫都是先適配GPU的,企業要是改用TPU,得重新調整演算法程式碼,還要培訓工程師,花的錢不少。Google為了打破這個局面,做了兩件事:一是開放自己的AI框架,讓開發者更容易適配TPU;二是通過Google雲提供TPU算力服務,企業不用自己買晶片,直接租就能用,降低了換用的難度。隨著越來越多企業試著用,TPU的生態也在慢慢變好。 (小叔報告)
中美AI算力中盤博弈:開放與封閉之爭
近日,GoogleTPU攜Gemini3逆襲之勢大幅拓寬增量前景,Meta考慮斥資數十億美元為其買單,機構將TPU產量預期上調67%至500萬塊。基於“晶片-光交換網路-大模型-雲服務”全鏈閉環,Google智算體系重回AI賽道前沿梯隊,標誌著美式封閉壟斷路線更進一步。與此同時,以DeepSeek為代表的開源模型緊追不捨。月初,DeepSeek V3.2及其長思考增強版模型出爐,前者在性能測試中打平ChatGPT,後者直接對標閉源模型頂流Gemini。這也預示著中國開源開放路線漸入佳境,國產智算體系在應用層展現出良好的生態協同潛力。至此,中美AI產業博弈棋至中盤,“開放協同”與“封閉壟斷”對位格局愈發清晰。尤其在智算生態佈局中,兩大陣營或正醞釀著一場體系化能力的巔峰較量。從Gemini 3到TPU v7,軟硬一體閉環臻至極境毋庸置疑,GoogleTPU的突然走紅,很大程度得益於Gemini3的模型能力驗證。作為專為GoogleTensorFlow框架而生的ASIC晶片,TPU憑藉軟硬體一體化設計為其全端閉環完成奠基,同時也在上層應用高位突破時俘獲外部使用者市場,甚至一度被視為輝達GPU的最強平替。所謂“軟硬一體化”,即硬體的設計完全服務於上層的軟體和演算法需求。如Gemini 3訓練和推理過程高度適配TPU叢集,而這種定製化專用模式也在功耗能效方面展現出極高價值——TPU v5e的功耗僅為NVIDIA H100的20%-30%,TPU v7每瓦性能較前代產品翻倍增長。目前,Google通過“晶片+模型+框架+雲服務”的垂直整合,形成了一個封閉且高效的循環。一方面極大地提升了自身AI研發和應用開發效率,另一方面也在NV主流體系下裂土而治,奪得又一智算賽道主導權,Meta對TPU的採購意向則將這一體系熱度推向了高點。業內有觀點指出,從蘋果到Google,美式的垂直封閉玩法幾乎臻至極境,表現出科技巨頭為鞏固和擴張利益版圖,在產業鏈層面泛在的壟斷慾望。但從生態發展角度來看,封閉模式缺乏長期主義精神,極易導致產業長下游喪失創新活性,並形成單一主體高度集權的格局。另外,從TPU的應用場景來看,軟硬一體閉環儼然是專屬於巨頭的遊戲。某分析人士稱,Google的叢集化設計和“軟體黑盒”,需要使用者重新配置一整套異構基礎設施。如果沒有兆參數模型訓練需求,根本填不滿TPU的脈動陣列,省下的電費可能都抵消不了遷移成本。同時,由於TPU技術路線極為封閉,與主流開發環境無法相容,使用者還需要一支專業的工程團隊駕馭其XLA編譯器,重構底層程式碼。也就是說,只有像Google、Meta這種等級的企業才有資格轉向TPU路線,也只有算力規模達到一定程度才能發揮出定製化產物的能效優勢。不可否認,Google等頭部企業通過垂直整合自建閉環,在局部賽道快速實現單點突破,同時也造就了美國科技巨頭林立的蔚然氣象。但在中美AI博弈背景下,美式封閉壟斷路線憑藉先發優勢提前完成了賽道卡位,被動的追隨式趕超已很難滿足中國智算產業的發展需要。“小院高牆”之外,如何充分發揮舉國體制優勢,團結一切力量拆牆修路,成為拉近中美AI體系差距的關鍵。多元異構生態協同,開放路徑通往下一賽點相較於美式寡頭壟斷模式,中國智算產業正基於多元異構體系層層解耦,重塑開放式生態系統。從頂層設計到產業落地,“開源開放+協同創新”已然成為國產軟硬體全端共識。在政策層面,《算力基礎設施高品質發展行動計畫》提出建構佈局合理、泛在連接、靈活高效的算力網際網路,增強異構算力與網路的融合能力,實現多元異構算力跨域調度編排。並且,相關部門多次強調,鼓勵各方主體創新探索智能計算中心建設營運模式和多方協同合作機制。延伸到AI應用層,《關於深入實施“人工智慧+”行動的意見》同樣要求深化人工智慧領域高水平開放,推動技術開源可及......不難看出,國家在人工智慧和智算領域給出了截然不同的中國方案——不在封閉路線中盲目追趕封閉,要在開放格局下謀求錯位趕超。事實上,頂層設計完全基於產業現實需要。在美方科技封鎖下,中國智算產業主要面臨兩大挑戰:單卡算力性能瓶頸、算力成本高。除了在晶片、模型、基礎軟體等核心技術領域持續攻堅外,當前更有效的途徑是發展更大規模、更多元高效的智算叢集,突破AI算力瓶頸。業內調研結果顯示,國內宣佈擁有千卡規模的算力叢集不少於100個,但其中大部分是異構晶片。可以想像,假如不同硬體系統相互封閉,標準介面不統一,軟體棧互不相容,將導致難以實現智算資源的有效整合利用,更無法滿足大規模參數模型的應用需求。根據行業主流觀點,國產AI算力存在多元化、碎片化特徵,同時又具備相當的規模化優勢。當務之急並不是各自埋頭推進單一技術路線,更首要的是盡快打通“技術牆”、“生態牆”,實現產業鏈開放跨層協作,真正釋放總體算力生態潛能,從單點突破邁向整合創新。具體來看,所謂開放路線旨在基於開放的計算架構推動產業生態協同創新。比如通過制定統一的介面規範,聯動晶片、計算系統、大模型等產業鏈上下游企業共同參與生態建設,減少重複性研發和適配投入,共享技術攻關和協同創新效益。同時,隨著開放架構中的協作標準趨於統一,可以進一步打造出商品化的軟硬體技術,用以代替定製化、專有化的系統,進而降低計算產品應用成本,實現覆蓋產業全端的算力普惠。顯然,在中國式開放體系下,國產AI算力正打破GoogleTPU的泛化普及困境,將智算生態系統與各方開發者使用者廣泛連結,最終形成體系化協同戰力,更靈活高效賦能人工智慧+落地。屆時,中美AI博弈也將走出單卡競爭和單一模型比拚,全面迎來生態體系能力的終極對壘。 (伯虎財經)
突發!兆規模起飛!智能算力TPU產業鏈深度分析!2025
前言:算力革命的第三次浪潮與兆市場拐點2025年第三季度,全球AI半導體市場單季度規模歷史性突破320億美元,其中專用AI加速器佔比首次超越通用GPU,達到52%的臨界點。這一結構性逆轉標誌著算力基礎設施正式邁入"專用計算期"——繼2018-2022年的通用計算期(CPU+GPU主導)和2023-2024年的加速計算期(GPU叢集規模化)之後,算力革命迎來第三次浪潮。GoogleTPU v7(代號Ironwood)的量產與輝達Blackwell架構的全面普及,共同推動了智能算力進入"TPU-GPU雙雄時代"。根據Semianalysis最新預測,2025年全球智能算力市場規模將達到1.2兆美元,年同比增長83%,其中TPU產業鏈貢獻度有望突破35%,折合人民幣約3兆元規模。這一數字背後,是AI大模型從"規模競賽"轉向"效率革命"的深層邏輯:當GPT-5以18兆參數、Gemini 3以五兆參數刷新能力邊界時,單位算力的經濟性與能效比成為決定產業可持續發展的核心變數。本文基於對92份行業深度報告、31家核心企業2025年半年報及MLPerf v4.0最新測試資料的交叉驗證,系統解構TPU產業鏈的生態系統、技術突破、競爭格局與投資邏輯。第一章 智能算力產業全景:從GPU壟斷到架構多元化1.1 算力基礎設施演進三階段模型第三階段:專用計算期(2025-)核心硬體:TPU v7、Trainium2等ASIC晶片與GPU形成混合架構,算力規模進入10-100 EFlops時代技術特徵:脈動陣列、光互連、Chiplet封裝實現系統級最佳化,Gemini 2.5、Sora視訊生成等模型的訓練效率提升3-5倍市場格局:TPU在雲端訓練市場份額從2024年的12%猛增至2025年的22%,輝達份額降至76%,"雙寡頭"競爭格局成型1.2 2025年全球智能算力市場結構全景圖市場規模:2025年全球智能算力市場規模預計達1.22兆美元,同比+83.2%,其中訓練算力市場4610億美元(37.8%),推理算力市場7590億美元(62.2%)。硬體構成:GPU:出貨量約450萬顆,市場規模7060億元,佔比58%。輝達342萬顆(76%),AMD 68萬顆(15%),國產40萬顆(9%)TPU:出貨量約180萬顆,市場規模2680億元,佔比22%,同比暴增210%。Google146萬顆(81%),其中外部出貨32萬顆,同比增長340%ASIC/FPGA:出貨約120萬顆,市場規模2360億元,佔比20%區域分佈:北美5140億美元(42%)、中國3310億美元(27%)、歐洲2200億美元(18%)、亞太其他1650億美元(13%)。第二章 TPU產業鏈全鏈路解析:從矽片到叢集的垂直解構2.1 上游:核心材料與IP架構的"卡脖子"戰場EDA工具:Synopsys佔據TPU設計全流程67%份額,其Fusion Compiler在4nm時序收斂速度比競品快40%;國產華大九天在14nm以上製程實現68%覆蓋率,但4nm全流程工具國產化率不足5%。IP核授權:ARM Holdings的NPU IP佔據TPU類晶片41%授權份額;GoogleTPU v7脈動陣列"動態路由"技術專利封鎖至2045年,構成十年技術壁壘。製造材料:台積電4nm晶圓單價漲至2.3萬美元;日本JSR、東京應化壟斷85% ArF光刻膠份額;ABF封裝基板被味之素壟斷,佔TPU封裝成本18%。2.2 中游:晶片製造與封裝測試的產能戰爭先進製程:台積電CoWoS產能達12萬片/月(+140%),其中40%專供GoogleTPU v7。中芯國際14nm FinFET月產8萬片,通過多重曝光實現12nm等效性能,良率70%。封裝技術:GoogleTPU v7採用4-chiplet異構整合,有效良率從55%提升至75%,成本下降22%至2180美元。通富微電CoWo-S產能2萬片/月,通過Google認證。2.3 下游:應用場景與算力部署的實戰檢驗雲端叢集:GoogleApollo叢集(9216顆TPU v7)實現42.5 EFlops總算力,PUE低至1.08,Gemini 2.5訓練周期縮短67%。邊緣爆發:特斯拉D1晶片(144 TFLOPS)年出貨量超300萬顆;海康威視DS-6700TPU模組功耗僅3.2W,2025H1營收18億元(+180%)。模式創新:Fluidstack通過"算力承兌匯票"模式獲得黑石50億美元融資,毛利率達35%;Lambda Labs估值42億美元,社區使用者80萬。第三章 TPU與GPU技術參數深度對比:架構之戰的底層邏輯3.1 旗艦產品性能對決(2025年實測資料)核心發現:TPU v7峰值算力僅比B200高44%,但MFU領先16個百分點,實際有效算力差距擴大至1.65倍。功耗低21%,記憶體訪問能耗降低65%,這是其系統級優勢的核心。3.2 互聯技術:ICI光互連 vs NVLink電互連GoogleICI:採用光路交換機(OCS),延遲120ns,功耗0.8pJ/bit,萬卡叢集有效頻寬保持率92%,單節點故障可在10ms內繞過。輝達NVLink 5.0:頻寬1.8TB/s,但跨機架需Quantum-2交換機(35萬美元/台),萬卡叢集有效頻寬降至68%,功耗1.3pJ/bit。3.3 軟體生態:CUDA護城河 vs XLA編譯器Google2025年三大破局動作:PyTorch原生支援:PyTorch XLA v2.0支援Eager Execution模式,程式碼改動量<5%,Llama 3.1遷移僅需3天模型庫開放:Google Model Garden提供72個預編譯大模型一鍵部署激進定價:TPU v5e定價1.2美元/晶片/小時,較H100低57%,3年合約可再降30%MFU真相:TPU v7通過XLA靜態編譯實現78%利用率,而B200因核心啟動開銷、執行緒束分化等問題僅達62%。在175B參數GPT-3訓練中,TPU叢集訓練時長領先29%。第四章 AI大模型與應用的算力需求:指數級增長的數學解構4.1 訓練成本對比GPT-5訓練成本估算(18兆參數):H100叢集:15360張卡,訓練9.4個月,成本6.4億美元TPU v7叢集:10240顆晶片,訓練6.7個月,成本3.8億美元結論:TPU v7在訓練效率上領先GPU 41%,能耗成本僅為H100的40%。推理算力爆發:全球推理算力需求年複合增長率達127%,2025年視訊生成算力消耗是文字的10,000倍,單次4K@60fps視訊生成需1024張H100運行2.5小時(成本860美元),TPU v7通過光互聯縮短至1.8小時(成本480美元)。第五章 全球TPU產業鏈競爭格局:Google帝國的擴張與反擊5.1 Google的戰略轉型出貨量躍遷:2025年GoogleTPU外部出貨32萬顆,同比+340%,佔比從12%提升至30%,目標2027年達50%。標竿客戶:Anthropic採購100萬顆TPU v7(其中40萬顆直接銷售,價值100億美元;60萬顆通過GCP租賃,對應420億美元RPO),Meta、xAI等頭部AI實驗室均在評估TPU方案。行業滲透:與特斯拉合作開發D2晶片(2026年量產);與輝瑞合作AlphaFold 3訓練,時間從7天縮短至1.5天;摩根大通使用TPU v5e將風控延遲從50ms降至8ms。5.2 輝達的防守反擊Blackwell架構防禦:B200 NVL72系統強調"系統級性能",CUDA 12.8新增300個MoE最佳化核心,對超大規模客戶提供35%戰略折扣。供應鏈反擊:提前18個月鎖定海力士、美光100% HBM3E產能,與台積電簽訂90% CoWoS產能優先協議,導致TPU v7交付周期從12周延長至16周。網路業務第二曲線:網路業務單季度收入82億美元(+162%),Quantum-2交換機毛利率82%,試圖用Spectrum-X開放標準對抗ICI封閉生態。5.3 中國陣營的攻堅戰華為昇騰910B:達文西3.0架構,14nm製程功耗600W(比TPU v7高9%),通過Atlas 900叢集(4096顆)實現61% MFU。阿里雲採購12萬顆,佔其AI晶片採購量15%。寒武紀思元370:7nm製程,功耗45W,專注邊緣推理,2025年營收28億元(+150%),避開雲端訓練紅海。技術瓶頸:國產EDA工具4nm全流程國產化率不足5%,14nm去美化產線依賴ASML 1980Di光刻機(僅12台),良率70%。第六章 投資機遇與風險預警:兆賽道的冰與火6.1 上游材料:HBM與光電晶片的黃金時代HBM:2025年全球需求1200萬片(+110%),價格從12美元/GB漲至16.8美元/GB。華海清科CMP裝置市佔率18%,營收65億元(+85%);深科技HBM封測收入佔比提升至35%。光電晶片:Lumentum MEMS微鏡陣列佔GoogleOCS採購量60%,營收28億美元(+140%);仕佳光子AWG晶片進入Google供應鏈,TPU相關收入5.2億元。6.2 中游製造:先進封裝與Chiplet崛起通富微電:CoWo-S產能2萬片/月,2026年擴至3萬片/月,服務GoogleTPU v5e、AMD MI325X,毛利率42%。Chiplet戰略:14nm小晶片良率85%,拼接後等效7nm性能,規避先進製程封鎖。芯原股份提供UCIe互聯IP平台,摩爾線程"蘇堤"晶片算力達1500 TFLOPS。6.3 風險因素預警技術迭代風險:IBM光子計算晶片能效達10 PFLOPS/W(TPU v7的2000倍),但僅支援線性運算,2030年前或分流15-20%算力需求。地緣政治風險:2025年壁仞科技、摩爾線程、燧原科技相繼被列入實體清單,ASML 1980Di以下光刻機可能禁售。產能過剩風險:2026年全球GPU/TPU產能或達需求的1.5倍,H100二手價已跌30%至2.8萬美元,2026年價格可能再跌20-30%。第七章 算力經濟學的深層邏輯:TCO與商業模式重構7.1 訓練叢集TCO對比(1000 PFlops規模,4年周期)結論:儘管單卡採購成本略高,TPU系統級TCO優勢達16%,這是Anthropic選擇TPU的根本原因。7.2 Neocloud的資產負債表外融資模式Fluidstack通過Google420億美元RPO授信獲得30億美元算力信用額度,以1.8美元/晶片/小時轉租Anthropic(較GCP低35%),再以客戶合同抵押獲得黑石50億美元貸款。模式本質:Google專注硬體研發,Neocloud成為"算力二房東",金融機構獲取8-10%穩定收益,實現輕資產營運。第八章 技術前沿與未來演進TPU v8 "Sundance"(2026年Q4發佈):3nm製程,512×512脈動陣列,BF16算力1.2 PFLOPS,256GB HBM4,OCI 2.0光互聯延遲降至50ns。光子計算:Lightmatter晶片能效達10 PFLOPS/W,2026年推出混合光電晶片,若突破非線性計算,2030年可能顛覆TPU/GPU格局。量子計算:IBM Condor 1000量子位元處理器作為AI超算的"協處理器",在組合最佳化領域提供1000倍加速。第九章 中國算力產業的自主突圍東數西算二期:2025-2027年總投資3800億元,新增800 EFlops算力,其中國產TPU叢集佔40%(320 EFlops)。技術突破:中芯國際14nm良率突破70%,昇騰910B性能接近A100的85%,PyTorch國產後端支援率從72%提升至90%。投資策略:首選HBM產業鏈(華海清科)、光互連(仕佳光子)、先進封裝(通富微電);次選國產TPU設計(華為海思)、邊緣應用(海康威視);迴避傳統GPU產業鏈。結論:雙雄時代的中國機遇2025年的智能算力產業,正在經歷從GPU絕對壟斷到TPU-GPU雙雄並立的歷史性轉折。Google用十年打磨的TPU技術堆疊,在TCO、能效比、系統級性能上已具備挑戰輝達的硬實力;輝達憑藉CUDA生態、網路業務與Blackwell架構,仍守住60%市場份額。這場戰爭推動算力成本下降50%,加速AI應用普及。中國憑藉全球最大應用市場、最強政策執行力與最完整產業鏈配套,有望在2027-2030年實現從"被動替代"到"主動定義"的跨越。這是一場必須打贏的戰爭,也是一次不容錯過的機遇。 (AI雲原生智能算力架構)
Google的“秘密武器”——TPU將撐起一個9000億美元的超級賽道?
Google的定製AI晶片TPU正被視為其重要的未來收入來源。市場預期,通過向Anthropic、Meta等外部客戶出售,TPU有望在輝達主導的市場中佔據20%份額,帶來近9000億美元商機。Google股價在第四季度大幅上漲31%,成為標普500指數中表現第十佳的成分股。投資者正日益相信,Alphabet旗下的人工智慧晶片可能成為其母公司未來的重要收入來源。這種被視為Google“秘密武器”的定製晶片,即張量處理單元(TPU),不僅在內部推動其雲端運算業務增長,更有望通過向第三方出售,開闢一個價值近兆美元的新市場。在這一預期的推動下,Alphabet股價在第四季度大幅上漲31%,成為標普500指數中表現第十佳的成分股。市場對TPU商業化前景的樂觀情緒,源於近期一系列關鍵動態。10月底,Alphabet宣佈將向AI初創公司Anthropic PBC提供價值數百億美元的晶片,此舉推動其股價在兩天內上漲超過6%。一個月後,據The Information報導,Meta Platforms Inc.正就在TPU上投入數十億美元進行談判,消息一出再次引發股價跳漲。DA Davidson技術研究主管Gil Luria估計,如果Alphabet能夠認真推進TPU的外部銷售,未來幾年內或可佔據AI晶片市場20%的份額,這將使其成為一個規模約9000億美元的業務。華爾街普遍認為,TPU是Alphabet在激烈AI競賽中的核心優勢。即使Alphabet從未對外銷售過一枚晶片,更高效的自研晶片也意味著一個性能更優、成本更低的雲服務。然而,一旦其開始向外部客戶認真銷售TPU,其商業版圖將迎來顛覆性改變。01 尋求輝達之外的替代選擇在當前AI晶片市場由輝達主導的背景下,TPU為尋求供應鏈多元化的公司提供了極具吸引力的替代方案。DA Davidson技術研究主管Gil Luria表示:“如果企業希望分散對輝達的依賴,TPU是一個很好的選擇,這讓我們有充分的理由保持樂觀。”TPU屬於“專用積體電路”(ASIC),專為加速機器學習工作負載而定製。這一特性使其在通用性上不及輝達的晶片,但也帶來了顯著的成本優勢。Homestead Advisers的股票投資組合經理Mark Iong指出,在投資者對AI相關支出日益審慎的當下,成本效益成為一個真正的優勢:“輝達的晶片成本更高且難以獲得,但如果你能使用ASIC晶片,Alphabet就在那裡,並且遙遙領先於該市場。”02 近兆美元市值的想像空間分析師們已經開始量化TPU對外銷售可能帶來的巨大商業價值。Gil Luria估計,如果Alphabet能夠認真推進TPU的外部銷售,未來幾年內或可佔據AI晶片市場20%的份額,這將使其成為一個規模約9000億美元的業務。摩根士丹利分析師Brian Nowak也觀察到一種“初露萌芽的TPU銷售策略”。他援引公司亞洲半導體分析師的預測稱,2027年TPU的採購量預計將達到500萬片,比先前預期高出約67%;2028年將達到700萬片,較先前預期高出120%。Nowak在12月1日給客戶的報告中寫道,雖然大部分需求可能來自Alphabet的自用和Google雲平台,但這也“揭示了Alphabet銷售更多TPU的潛力”。根據摩根士丹利的估算,每向第三方資料中心銷售50萬片TPU,就可能為Alphabet在2027年的收入增加約130億美元,並為其每股收益貢獻40美分。基於分析師的預測,Alphabet在2027年的營收預計約為4470億美元,增加130億美元將意味著近3%的銷售增長。據彭博彙編的資料,過去三個月,市場對該公司2027年的營收共識預期已上調超過6%。03 AI全端佈局的協同效應TPU的價值不僅在於其作為獨立產品的潛力,更在於它與Alphabet整個AI生態系統的深度協同。Google近期發佈的最新AI模型Gemini獲得了外界高度評價,該模型經過最佳化,能夠在TPU上高效運行,這進一步證實了TPU的內在價值。Mark Iong對此評論道,“Alphabet是唯一一家在AI的每一層都擁有領先地位的公司”,他指出,從Gemini模型、Google雲到TPU等多個領域,“這賦予了它不可思議的優勢。”儘管如此,目前尚不清楚Alphabet對於向第三方大規模銷售晶片的決心有多大,但其內部優勢已經為其未來的商業決策鋪平了道路。對TPU業務的過高期望,也可能在未來無法兌現時導致投資者失望,尤其是在Alphabet股價已大幅上漲的背景下。目前,Alphabet的股價約為預期收益的27倍,是自2021年以來的最高水平,也遠高於其十年平均水平。然而,即便如此,與蘋果、微軟和博通等其他大型科技股相比,其估值仍然更低。Jensen Investment Management的投資組合經理Allen Bond近期利用股價上漲的機會減持了部分股份。不過,他依然看好公司的整體地位和前景,認為“TPU成為收入驅動因素的路徑是可信的”。他表示:“Alphabet在AI領域正展現出切實的實力和進展,儘管這一點越來越被投資者所認可,但考慮到增長預期,其估值看起來仍然合理。一家在AI領域擁有強勁勢頭、交易價格卻低於微軟和蘋果的公司,意味著它仍是核心持倉。” (硬AI)
瑞銀:為什麼OpenAI要啟動“紅色警報”?輝達是否也要亮紅燈?圖說AI競爭
資料顯示,Google正在多個維度縮小與OpenAI的差距。11月Gemini的下載量達到1.008億次,而ChatGPT為6780萬次。使用者現在在Gemini上的聊天時間已超過ChatGPT或Claude等聊天機器人競爭對手。GoogleGemini 3發佈以來的兩周內,ChatGPT的每日獨立活躍使用者數七天均值已下降6%。本周人工智慧(AI)領域一個重磅消息是,OpenAI CEO Sam Altman周一向全體員工宣佈啟動“紅色警報”,要將全部資源集中於最佳化ChatGPT,應對GoogleGemini的激烈競爭。這一戰略調整反映出AI競爭格局的深刻變化,也揭示了Google自研晶片TPU對輝達晶片主導地位的潛在威脅。媒體報導稱,OpenAI決定推遲包括廣告業務、健康和購物AI代理和個人助手Pulse等其他產品開發,將核心資源重新配置到改善ChatGPT的日常使用體驗上。Altman表示,OpenAI仍需改進ChatGPT的日常體驗,包括提升個性化功能、速度和可靠性,並擴大可回答問題的範圍。瑞銀科技分析師Tim Arcuri在最新研報中指出,Google將要發佈的新一代TPU晶片Ironwood及其TPU生態系統正在對輝達構成實質性挑戰。輝達的股價表現已明顯落後於Google。Google使用者時長反超,ChatGPT日活下滑市場資料顯示,Google正在多個維度縮小與OpenAI的差距。據Sensor Tower資料,11月Gemini的月度下載量達到1.008億次,而ChatGPT為6780萬次。更值得注意的是,使用者現在在Gemini上的聊天時間已超過ChatGPT或Claude等聊天機器人競爭對手。據Deedy Das統計,自GoogleGemini 3發佈以來的兩周內,ChatGPT的每日獨立活躍使用者數(七天均值)已下降6%,顯示出競爭壓力的直接影響。雖然OpenAI仍擁有超過8億周活躍使用者,在整體聊天機器人使用中佔據主導地位,但使用者正在向Google流失。OpenAI負責ChatGPT的主管Nick Turley本周一晚間在社交媒體發帖稱,搜尋是最大的機遇領域之一,ChatGPT目前佔全球搜尋活動的約10%且增長迅速。他還說,公司的重點是讓ChatGPT更強大、繼續增長並擴大全球訪問範圍,同時使其更直觀和個性化。瑞銀:GoogleTPU晶片對輝達構成威脅在AI模型競爭的背後,晶片層面的較量同樣激烈。瑞銀科技分析師Tim Arcuri在研究報告中指出,GoogleTPU晶片的進步正在改變市場格局。據Arcuri分析,Google在今年4月首次披露最新一代TPU晶片Ironwood,並於11月正式推出。該晶片針對大語言模型(LLM)、專家混合模型(MoE)和高級推理進行最佳化,支援訓練、微調和推理工作負載,這與此前TPU的狹窄定製形成對比。Ironwood尚未提交至MLCommons的MLPerf v5.1資料中心訓練基準測試,但鑑於更多計算資源、FP8支援和遠超前代的高頻寬記憶體,Arcuri預計其單晶片性能將明顯超過Trillium。Arcuri指出,Google的上一代Trillium晶片專門針對推理工作負載最佳化且HBM容量較低(32GB vs 95GB),相比之下,Ironwood擁有更多計算資源、FP8支援和大幅增加的HBM容量,預計單晶片性能將顯著超越Trillium。Ironwood還將TPU規模擴展到最多9216個TPU的域,遠超v5p的8960個和Trillium的256個。Arcuri指出,這正是輝達整個生態系統表現明顯落後於Google的原因,Google正享受TPU產品帶來的關注度激增。GoogleDeepMind的首席技術官Koray Kavukcuoglu表示,通過使用Google自研的定製晶片訓練AI模型,公司已經“顯著提升了性能”。瑞銀認為,雖然Google隨著時間推移可能會考慮擴大TPU的生態系統,但任何此類努力都必須限制對Google雲平台(GCP)收入的潛在蠶食。從這個角度來看,Meta和蘋果都是內部TPU部署的主要候選對象,因為它們擁有支援內部工作負載的大型AI項目、龐大的內部AI叢集,且對GCP的依賴相對較小。OpenAI面臨多重競爭壓力OpenAI此次啟動紅色警報的背景是面臨來自多家競爭對手的壓力。Google上月發佈的新版Gemini AI模型在行業基準測試中超越了OpenAI,推動Google母公司Alphabet的股價飆升。上周Alphabet股價一周漲超14%,自兩周前發佈Gemini 3以來,截至上周五不到兩周內也累漲超10%。自8月發佈圖像生成器Nano Banana以來,Gemini的使用者基數持續攀升。Google透露,月活躍使用者從7月的4.5億增長至10月的6.5億。OpenAI還面臨來自Anthropic的壓力,後者在企業客戶中越來越受歡迎。雖然OpenAI仍擁有超過8億周活躍使用者,在整體聊天機器人使用中佔據主導地位,但使用者正逐漸被Google吸引。輝達回應TPU挑戰面對GoogleTPU的崛起,輝達在與瑞銀的交流中強調了與Google雲平台的牢固關係,指出Google在Gemini推理工作負載中同時使用TPU和GPU。輝達認為,雲服務商不太可能在其雲堆疊中運行TPU,因為需要大量工作負載最佳化才能在專用積體電路(ASIC)上實現總體擁有成本(TCO)優勢。輝達還表示,迄今為止,其相對於同行的性能優勢並未縮小。展望2026年,輝達指出Anthropic的1吉瓦(GW)容量和HUMAIN的60萬單位擴張是其2025-2026年5000億美元訂單數量之外的增量,提供了潛在上升空間。輝達的CPX晶片正在瞄準需要100萬以上token上下文窗口的高級程式設計應用。輝達尚未正式公佈市場規模,但此前曾暗示上下文窗口應用約佔推理市場的20%。Altman上月說,未來八年,OpenAI的資料中心項目承諾投資總額約為1.4兆美元。換句話說,OpenAI擁有1.4兆美元的承諾資金投入,用於維持其行業領先地位。總體而言,OpenAI確實有理由感到緊張,但這場動盪目前仍侷限於公司內部。至於輝達這家全球市值最高的公司是否也面臨類似的“紅色警報”,市場仍在密切觀望。 (invest wallstreet)
🎯聯發科、台積電不是主角!年底作帳翻倍爆發的黑馬換「它」上台!Line@連結:https://lin.ee/mua8YUP🎯今日台股續漲228點指數即將靠近2萬8接下來自然會有獲利了結、解套賣壓但江江跟你說—不怕因為最重要的訊號剛剛亮了而且是「大行情前」才會出現的訊號🚀關鍵一:日MACD柱狀體正式翻紅!這是多頭延伸走強前的「必備條件」。每次翻紅=行情重新加速。🚀關鍵二:周線轉折指標扣低翻多!這位置過往都是台股「往上衝一大段」的經典起跑點。而且技術面不是單打獨鬥,籌碼正在同步轉強:✔台幣回升外資連2買!✔投信連6天大買!✔年底作帳正式啟動!投信擺脫保守後開買就很少半途而廢行情因此有望一路挺進年底🔥短線有震盪,但長線多頭完全沒結束跡象。農曆春節前主流沒變,AI大軍強勢輪動:CPO光通訊:漲多後會整理,但主升結構穩得像山。BBU/電力:AI耗電爆炸,法人一路買。PCB(AI伺服器板):訂單看到2026年。記憶體:價格往上,股價方向只有一個→多。散熱:水冷、熱板全面缺。💥真正會噴的在這裡:OTC中小型主升股櫃買上周連5紅K,MACD也翻紅,雙線即將往0軸衝上這代表12月最兇的,不是權值股,是中小型主升股像CPO指標股3081聯亞、3163波若威、3363上詮、4971IET-KY已經先噴接下來更多標的會複製這種走法🏆最後觀察投信近日大買的名單裡,年底黑馬正在浮現:TPU:2454聯發科、3661世芯散熱:6805富世達、3653健策、8996高力PCB:2368金像電、2383台光電、3037欣興、5439高技、5469瀚宇博BBU/電力:6781AES-KY、2308台達電有的已經在噴,有的剛剛轉強……這些就是年底補漲+明年成長的雙題材黑馬。🔴想知道我心中「年底最有機會直接噴」的那一檔接下來我們會在粉絲團持續幫大家鎖定+追蹤,若還不知道該如何操作?那建議你務必要鎖定江江在Line @,將有更進一步的訊息給大家了解。https://lin.ee/mua8YUP🔴想了解還未起漲的市場主流,同步了解大盤多空轉折點及學習預測技術分析,江江YT節目都會持續追蹤+預告。https://reurl.cc/02drMk********************************************************有持股問題或想要飆股→請加入Line:https://lin.ee/mua8YUP江江的Youtube【點股成金】解盤:https://reurl.cc/02drMk*********************************************************(本公司所推薦分析之個別有價證券 無不當之財務利益關係以往之績效不保證未來獲利 投資人應獨立判斷 審慎評估並自負投資風險)