#CUDA-Q | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#CUDA-Q

Claude AI Agent 正在逐步瓦解輝達CUDA長達20年的生態護城河

這是一起極具行業衝擊力的AI程式設計里程碑事件：基於Claude 3.5 Sonnet的AI Agent，在30分鐘內、零手寫程式碼、不依賴傳統翻譯層，完成了CUDA到ROCm的完整後端遷移。它不僅是技術效率的飛躍，更直接衝擊了輝達CUDA長達20年的生態護城河。01 事件核心事實（2026年1月下旬，Reddit首發）主角：Anthropic的Claude Code（基於Claude 3.5 Sonnet的AI程式設計Agent）開發者：Reddit/GitHub使用者johnnytshi（跨GPU編譯領域技術愛好者）項目：國際象棋引擎Leela Chess Zero (LC0)的完整CUDA後端目標：遷移到AMD ROCm平台，支援現代Transformer注意力網路耗時：約30分鐘關鍵突破全程零手寫程式碼，僅通過CLI與AI互動不依賴Hipify等傳統翻譯層，直接語義級遷移生成完整ROCm後端，包含多頭自注意力、FFN、Embedding等核心模組自動適配rocBLAS、MIOpen等AMD庫，並做FP16/NCHW硬體最佳化最終提交可用PR，在RDNA 3.5顯示卡上可正常運行與對弈02 AI Agent的技術原理（為什麼能這麼快）Claude Code並非簡單的“關鍵詞替換”，而是在智能體框架下完成全鏈路自主遷移：語義理解：深度解析CUDA核函數的計算邏輯、資料佈局與硬體意圖架構對應：將CUDA執行模型（SM、線程塊）對應到AMD GCN/RDNA架構算子替換：自動匹配ROCm等價庫（如cublas→rocBLAS→cudnn→MIOpen )記憶體對齊：解決CUDA與ROCm在資料佈局（NCHW/NHWC）上的核心差異編譯驗證：自主生成建構指令碼、完成編譯連結與基礎功能驗證03 行業震撼點：30分鐘 vs 數月傳統遷移：複雜CUDA項目遷移到ROCm，通常需數周—數月手動編碼、偵錯與調優AI Agent：30分鐘完成全流程，且產出可直接上線的工程化程式碼AMD高管評價：AMD軟體副總裁Anush E.公開表示：GPU程式設計的未來，是AI智能體的04 對GPU生態的深遠影響瓦解CUDA壁壘：大幅降低跨GPU遷移成本，削弱輝達“軟體護城河”AMD生態加速：ROCm生態有望快速吸納海量CUDA存量程式碼開發範式革命：AI Agent從“輔助編碼”升級為自主完成複雜系統遷移的主力角色算力格局重構：未來AI訓練/推理的硬體選擇，將不再被單一生態深度繫結結語侷限：對超深度最佳化、極致硬體親和的CUDA程式碼，仍需人工微調趨勢：隨著Claude 4.5等新一代模型的Agent能力持續增強（如連續自主程式設計30+小時、零錯誤率），此類遷移將更普遍、更高效。 (AGI星途)

巨頭加速拋棄輝達

微軟也加入了大型科技公司擺脫對輝達依賴的浪潮，推出了自己的人工智慧（AI）晶片。各大科技公司都在開發定製晶片或尋求供應商多元化，以降低對輝達的依賴——輝達佔據了AI晶片市場90%的份額。然而，輝達以其圖形處理器（GPU）為代表，正通過建構AI工廠展開反擊。它不再僅僅銷售GPU，而是通過垂直整合晶片、伺服器、軟體和模型，轉型為一家“全端AI”基礎設施公司，決心不放棄其在AI市場的領導地位。預計輝達今年將成為台積電最大的客戶。儘管一年前中國市場曾因DeepSeek晶片強調性價比而引發“衝擊”，但輝達的股價和銷售額依然大幅增長。加速擺脫輝達由於價格高昂、供應短缺以及封閉的生態系統（CUDA），大型科技公司正在加速擺脫對輝達GPU的依賴。NVIDIA GPU的高昂成本是關鍵驅動因素。它們不僅價格昂貴，而且供應常常無法滿足需求，導致及時採購困難重重。此外，儘管NVIDIA晶片用途廣泛，但它們並未針對特定公司的特定AI任務進行最佳化。因此，大型科技公司正在開發專為自身資料中心、AI模型和服務量身定製的晶片，以提高能效。當地時間26日，微軟發布了其首款商用AI晶片“Maia 200”。此前，微軟曾在2023年11月推出過“Maia 100”，該晶片用於微軟內部的Azure雲平台。這款新晶片在兩年後發佈，性能有所提升，採用台積電3奈米工藝，並整合了SK海力士的HBM3E視訊記憶體。Maia 200 專為高性能 AI 推理而設計——即訓練好的 AI 模型分析新資料以識別模式並做出預測或決策的過程。微軟表示：“在‘輕量級計算’方面，它的性能是 AWS 最新 AI 晶片的三倍，計算效率也高於Google的 AI 晶片。” 首席執行長薩蒂亞·納德拉表示：“這款產品旨在實現業界領先的推理效率，在同等預算下可提供高出 30% 的性能。” Maia 200 預計將支援 OpenAI 的最新 AI 模型 GPT-5.2 和微軟的 Copilot。為了跟上人工智慧的快速發展步伐，微軟也加快了晶片的生產和部署。“我們將從初始生產到資料中心部署的時間縮短到類似人工智慧基礎設施項目的一半以上，”該公司表示。微軟已在愛荷華州的資料中心安裝了該晶片，並計畫將其擴展到其他資料中心，以便Azure客戶能夠使用。路透社指出，“微軟可能會減少對輝達的依賴。”其他大型科技公司也在努力降低對輝達的依賴。Google使用其定製的張量處理單元 (TPU) 來訓練和運行其 Gemini AI 模型。TPU 專為 AI 而設計，在某些任務中性能優於 GPU，且功耗更低，從而降低了營運成本。AWS 上個月發佈了其 Trainium3 AI 晶片，該晶片擁有業界領先的能效。AWS 表示：“與之前的 Trainium2 相比，計算性能提升了四倍，而能耗降低了約 40%。”這款晶片用於訓練 AWS 的內部 AI 模型 Nova，並應用於面向客戶的雲服務中。Meta 開發了自己的 AI 晶片 MTIA，而 OpenAI 正在與博通合作開發一款定製晶片，計畫於今年下半年發佈。各公司也在推進供應鏈多元化。例如，Meta公司正在探討在其計畫於2027年投入營運的資料中心中使用Google的TPU。隨著人工智慧晶片需求的增長，Google——此前僅在內部使用TPU進行諸如Gemini訓練之類的任務——正計畫擴大外部銷售。Anthropic公司去年10月透露，其人工智慧模型Claude的建構和部署使用了超過100萬個AWS的Trainium2晶片。NVIDIA 的積極防禦儘管包括微軟在內的大型科技公司都是輝達的客戶，但一些分析師認為輝達的市場主導地位正在動搖。《華爾街日報》指出，“人工智慧公司正致力於實現資料中心人工智慧晶片供應商多元化”，並補充道，“他們的定製晶片對輝達構成了又一威脅。”然而，輝達的業務範圍已從人工智慧晶片擴展到人工智慧模型和機器人領域。即使其在人工智慧晶片市場的份額略有下降，該公司仍致力於保持其作為一家擁有完善人工智慧生態系統的企業的競爭力。除了GPU之外，輝達還在積極供應中央處理器（CPU），即計算的核心。就在同一天，輝達宣佈向資料中心營運商CoreWeave追加20億美元的投資，計畫在其資料中心部署自家的CPU。彭博社指出：“這是輝達首次獨立向客戶供應CPU，對英特爾和AMD構成了挑戰。”NVIDIA 在人工智慧模型開發方面也積極進取。它發佈了一款開源天氣預報人工智慧模型。此外，它還在開發用於自動駕駛汽車的 Alpamayo 和用於推理的 Cosmos。為了迎接物理人工智慧時代，NVIDIA 營運著 Omniverse 平台，這是一個數字訓練場，機器人可以在虛擬空間中進行模擬和協作。近期收購 Groq 等公司，使 NVIDIA 得以鞏固其在人工智慧推理市場的技術地位。其目標是使 NVIDIA 基礎設施即使在推理階段也至關重要，即人工智慧應用於現實世界場景的階段。預計輝達今年將超越蘋果，成為台積電最大的客戶。科技諮詢公司Creative Strategists預測，2025年台積電營收的22%（330億美元，約合48兆韓元）將來自輝達，而蘋果的貢獻為270億美元（18%）。2024年，蘋果是台積電最大的客戶（佔22%），輝達緊隨其後（12%）。短短兩年內，輝達在台積電營收中的份額將增長10個百分點，成為台積電的頭號客戶。 (半導體芯聞)

CUDA要涼？Claude 30分鐘剷平輝達護城河，AMD要笑醒了

輝達護城河要守不住了？Claude Code半小時程式設計，直接把CUDA後端遷移到AMD ROCm上了。一夜之間，CUDA護城河被AI終結了？這幾天，一位開發者johnnytshi在Reddit上分享了一個令人震驚的操作：Claude Code僅用了30分鐘，便將一段完整的CUDA後端程式碼，成功移植到AMD的ROCm上。整個過程，沒有手寫一行程式碼。這架勢，簡直是要填平這兩個生態系統之間的鴻溝。更關鍵的是，這次移植完全沒有依賴傳統的「中間轉換工具」，如Hipify翻譯層，而是一鍵通過CLI完成。就連AMD軟體副總Anush E.為之震驚，GPU程式設計的未來，是AI智能體的。消息一出，整個科技圈瞬間沸騰，很多人直呼：輝達CUDA護城河要守不住了.....這究竟是怎麼回事？Claude手撕CUDA，僅30分鐘Claude Code是在一個智能體框架運行的，這意味著它可以自己「動腦子」。在執行過程中，他不會機械地轉換關鍵詞，而去真正理解程式碼，即特定核函數的底層邏輯。開發者johnnytshi介紹，這次移植中，最棘手的資料佈局差異問題也被AI解決了，確保了核心核心計算邏輯保持一致。令人驚嘆的是，johnnytshi在短短30分鐘內，就把整個CUDA後端移植到了AMD ROCm上，而且中間沒用任何翻譯層。另外一個好處當然是，不用費勁去搭像Hipify這種複雜的翻譯環境了；直接在命令列（CLI）裡就能幹活。如今，全網都被CUDA護城河被攻破呼聲淹沒了。畢竟，輝達霸主地位，很大程度上建立在CUDA這個幾乎成為行業標準的程式設計生態上。無數AI框架、深度學習庫、科學計算工具都深度依賴它。AMD的ROCm雖然功能強大，卻一直面臨生態相容性，以及開發者遷移成本高的痛點。現在，一個Claude卻用極短時間踢碎了門檻，說不定未來更多CUDA程式碼可能輕鬆在AMD GPU跑起來了。實現細節GitHub中，johnnytshi本人也更新了日誌和說明。為AMD GPU實現了完整的ROCm後端，從而在RDNA 3.5及其他AMD架構上支援基於注意力機制的現代國際象棋網路。GitHub：https://github.com/LeelaChessZero/lc0/pull/2375在src/neural/backends/rocm/中加入了完整的ROCm後端實現了注意力網路架構（多頭自注意力、FFN、嵌入層）使用rocBLAS進行GEMM運算，使用MIOpen進行摺積運算針對RDNA 3.5上的FP16性能最佳化了NCHW佈局提供三種後端變體：rocm (FP32)、rocm-fp16 (FP16)、rocm-auto (自動檢測)MIOpen是必選依賴（類似於CUDA的cuDNN）通過rocm_agent_enumerator自動檢測AMD GPU架構編譯選項：-Drocm=true -Damd_gfx=gfx1151（或使用自動檢測）性能說明：FP16性能：在Strix Halo (Radeon 8060S, gfx1151) 上 >2000 nps自動Batch Size調優（RDNA 3.5上min_batch=64）測試過rocWMMA，但rocBLAS性能更好驗證情況（Strix Halo - Radeon 8060S, gfx1151）：測試模型：768x15x24h-t82-swa-7464000.pb.gz 和 maia-1900.pb.gz後端：rocm-fp16功能正常，能生成正確的走法環境：ROCm 7.2.53150, MIOpen 3.5.1注：僅在RDNA 3.5上進行了測試；其他AMD架構暫未驗證GPU未來，是AI智能體主場當然，這次演示也有侷限性。對於簡單或中等複雜度的核心，Claude Code表現得非常出色。更重要的是，寫核函數的核心就在於搞定「深度硬體」最佳化。不過，一部分覺得Claude Code在這方面還是差點火候——如果遇到那些針對特定硬體快取層級，記憶體訪問模式做過極致最佳化的複雜核心，AI目前還難以完全取代人類專家。即便如此，這一事件釋放出的訊號已經足夠強烈。過去幾個月，ZLUDA項目、還有微軟內部的嘗試，都想要打破CUDA的壟斷。但它們大多依賴規則對應或中間層，自動化程度和智能水平有限。Claude Code代表的智能體式程式設計，直接跳過了這些環節，用「理解+自主決策」的方式填平生態鴻溝。正如AMD軟體副總所言，GPU程式設計的未來，是AI智能體主場。全員AI程式設計，濃度高達100%如今的Claude Code已經讓整個矽谷入坑了（Claude-Pilled）。兩天前，CEO Dario Amodei在達沃斯上再出暴論：軟體工程師們沒有時間了。未來6-12個月，AI能夠徹底取代這些人！甚至，Anthropic內部工程師已經不再手寫程式碼了，全是Claude完成。別不信，是真的。就在Wired最新採訪中，Claude Code之父Boris Cherny坦承，「自己100%程式碼都是AI寫的」。或許Anthropic工程師怎麼也沒有想到，一個「副業項目」竟讓矽谷如此狂熱。Boris Cherny回憶道，「一年前我們發佈Claude Code時，甚至不確定『智能體程式設計』能不能成，但火爆來得太快了」。Cherny個人經歷就是最好的縮影：剛發佈時，他只有5%程式碼是用Claude Code寫的；到了去年5月，有了Opus 4和Sonnet 4，這個比例變成了30%；而現在，有了Opus 4.5，他在過去兩個月裡100%的程式碼都是由Claude Code完成。在Anthropic內部，這種全員AI化更是到了極致。幾乎100%技術員工都在使用Claude Code，甚至連Claude Code團隊本身95%的程式碼也是由自身寫出來的。史丹佛AI教授都在用了不得不說，AI程式設計的進化速度令人咋舌。回望2021到2024年，大多數工具不過是高級版的「自動補全」，在開發者打字時卑微地建議幾行程式碼。但到了2025年初，隨著Cursor和Windsurf等初創發佈早期的Agentic程式設計產品，遊戲規則改變了——開發者只需用大白話描述功能，剩下的髒活累活全扔給AI智能體完成。Claude Code也在這個時間點，真正誕生了。Boris Cherny坦承，早期版本也曾跌跌撞撞，甚至陷入死循環。但Anthropic下了一步狠棋：不為當下的AI能力開發產品，而要為AI即將抵達的未來而建構。這一賭注押對了。隨著Anthropic下一代旗艦Claude Opus 4.5的發佈，AI程式設計迎來了真正的「拐點」。史丹佛大學AI講師、Workera CEO Kian Katanforoosh最近就把公司全員遷移到了Claude Code。他直言，對於高級工程師來說，Claude Code比Cursor、Windsurf更能打。Katanforoosh感嘆道，最近唯一讓我看到程式設計能力有階躍式提升的模型，就是Claude Opus 4.5。「它給人的感覺不像是在模仿人類寫程式碼，而是它真的找到了一種更聰明的解決路徑」。據傳，微軟內部也在大規模採用Claude Code了。年入超10億美金的「副業」Claude Code大獲成功，給Anthropic帶來了最直觀的效益。去年，AI程式設計智能體業務徹底爆發。11月，Anthropic宣佈Claude Code在上線不到一年內，年度經常性收入（ARR）就突破了10億美元。到2025年底，ARR至少又增長了1億美元。彼時，該產品約佔Anthropic總ARR（約90億美元）的12%。雖然比起向大企業提供 AI 系統的核心業務來說還算「小弟」，但它已是公司增長最快的類股之一。儘管Anthropic在AI程式設計領域看似獨孤求敗，但Claude Opus 4.5的光環其實照亮了整個賽道。競爭對手Cursor也在11月達到了10億美元ARR，OpenAI、Google和xAI更是磨刀霍霍，試圖用自研模型分一杯羹。但Anthropic沒打算停下。前幾天，他們又發佈了Cowork——這是一款面向非程式設計領域的AI智能體。它能管理你電腦裡的檔案、操作各種軟體，而且完全不需要你在程式碼終端裡敲命令。不是取代，是進化提及Cowork時，Cherny透露自己已經用瘋了。比如項目管理，他會讓Cowork盯著工程師的任務表格，誰沒填名字，AI就會自動在Slack上發消息催人。Cherny感慨道，「這是我當工程師以來最爽的時候，因為我不再需要做那些枯燥乏味的髒活了」。面對那些因不再需要親自寫程式碼而感到失落的工程師，Cherny給出了他的建議：這行業一直在變。我祖父在蘇聯用穿孔卡片程式設計；後來變成了機器碼；再後來是C語言、Java、Python。這是一條不斷抽象化的連續體，AI智能體只是這條線上的最新一個點。如今，Cherny每天早上起床會在手機上啟動3-4個程式設計智能體，到了公司再在終端裡開幾個。任何時候，他都有五到十個智能體在跑任務。Cherny總結道，「AI智能體將接管生活中所有繁瑣的事——填表、搬運資料、發郵件。這會具有顛覆性，我們必須適應」。話又說回來，Anthropic能不能先解決下Claude使用量？(新智元)

Anthropic打響「去CUDA」第一槍！210億美元豪購Google100萬塊TPU

【新智元導讀】未發先贏，也只有Anthropic了！Claude一小時寫完Google一整年程式碼震撼全網，甚至，他們豪購100萬塊GoogleTPU自建超算。AI軍備賽拐點，或許就在這一年。2026年開局，Anthropic未發一彈已佔先機！Google首席工程師Jaana Dogan連發多帖，高度讚揚Claude Opus 4.5——僅用一小時，便復現了一個曾讓Google工程師鑽研整年的AI系統。另一個前Google和Meta科學家Rohan Anil觀點更具衝擊力：若借助Opus的智能編碼能力，自己早期長達六年的探索工作，可被高度濃縮至幾個月內完成。自發佈過去一個多月，Claude Opus 4.5真正的實力爆發了。沒有圖像/音訊模型、巨大的上下文，僅有一款專注編碼的Claude，Anthropic依舊是OpenAIGoogle最有力競爭者。這究竟是什麼神仙打法？聯創Daniela Amodei給出了一個直白有力的回答，「少即是多」。一直以來，Anthropic都在押注用最少的資源，做更多的事，才不會掉隊，始終跑在AI最前沿。豪購100萬塊TPU，自建超算相較於模型發佈，更重大的一件事是，Anthropic也要自建超算了。權威機構SemiAnalysis爆出，Anthropic準備買下近100萬塊TPU v7晶片。這批晶片將從博通直接下單，並將其部署在自控基礎設施中。整個部署架構是這樣的：Anthropic持有TPU的所有權，基礎設施部分交給了TeraWulf、Hut8和Cipher Mining合作夥伴來提供。至於現場的實際落地維運，比如布線、開機測試、上線驗收和日常遠端管理這些活，都外包給了Fluidstack來全權負責。目前，Google雖暫未公佈TPU v7單價，但依據行業推測，大概在15,000–25,000美元之間。Anthropic一出手就是100萬張，此前爆料稱，這筆交易金額或達210億美元。對於輝達來說，將丟失300億美元（B200）潛在大訂單。然而，這筆交易最危險的地方不在金額，而在於結構：這意味著，Anthropic自有超算將不再依賴CUDA生態，不再被雲廠商「算力稅」抽成，將算力主權握在手中。有網友表示，這顯然是一件大事。Google現在大力推行商用晶片戰略，這將在未來催生一個基於TPU建構的生態系統。畢竟，Google已經用Gemini 3實證了，不用GPU，TPU也可以訓出強大模型。2026年AI生死局，反向押注如今進入2026年，AI行業已演變為「暴力規模與效率」的較量。作為規模派的代表，OpenAI投入1.4兆美元用於算力和基礎設施建設。相較之下，Anthropic卻選擇了一條不同的道路——「花小錢辦大事」（Do more with less），把籌碼押在了三件事上：更高品質、結構更好的訓練資料明顯加強模型推理能力的後訓練技術以及極度現實的目標：讓模型跑得更便宜、更容易被大規模採用在CNBC採訪中，Daniela Amodei強調，公司一直以來都以審慎的態度利用資源。下一階段的勝利，不會僅靠最大規模的預訓練任務來贏得，而是取決於每一美元算力能交付多少能力。Amodei稱，我們在Anthropic一直以來的目標是——在這個單純依賴大量算力的領域運作時，儘可能審慎地利用我們擁有的資源。就算力和資本而言，Anthropic擁有的資源一直只是競爭對手的一小部分。然而，在過去幾年的大部分時間裡,我們都擁有最強大、性能最好的模型，一以貫之。當然，這並不意味著Anthropic「沒錢」。恰恰相反，這家公司目前已經鎖定了約1000億美元規模的算力承諾，而且他們自己也承認，如果要繼續站在前沿，這個數字只會繼續飆升。他們並不是否認Scaling。他們賭的是：規模並不是唯一的槓桿。Anthropic並沒有把自己定位成一個面向大眾的「消費級AI明星產品」。它更像是一個企業優先的模型供應商。Claude的主要收入來源，是被嵌入到別人的產品、工作流和內部系統中。這類場景雖無噱頭，但黏性更強、更接近真實生產力。Anthropic表示，他們的收入已經連續三年實現同比十倍增長。更罕見的是，他們還建構了一張非常不尋常的銷售策略：「Claude幾乎出現在所有主流雲平台上，包括那些同時也在賣自家競爭模型的雲廠商。」Daniela Amodei對此的解釋很直白：不是緩和關係，而是被客戶需求倒逼。大型企業希望在雲廠商之間保有選擇權，而云廠商也不願意因為模型問題失去最大客戶。下一階段真正的贏家，可能不是那個燒錢最多的實驗室，而是那個能在實體經濟承受範圍內持續改進的公司。「指數級增長會持續，直到它停止。」2026年真正的問題是：如果那條被整個行業奉為信仰的曲線，真的開始失靈——這場由算力堆起來的AI軍備競賽，是否還能體面收場？Claude Opus 4.5，刷屏了如今，全網都被Claude Opus 4.5震撼到了。Helius首席執行長表示，「Opus 4.5簡直瘋狂到離譜」。本人已程式設計十年，它卻可以根據提供系統設計指導，以及明確的自我驗證路徑，完成任何要求的任務。有開發者在短短半小時內，不寫一行程式碼，建構出一款iOS應用。同樣地，還有人在20分鐘內打造了類似ESPN風格的應用。有人用Claude程式設計一個程序，用攝影機記錄下了花開的時刻。就連Karpathy幾天前發文，自己也上手Claude Code，讓其接入智能家居系統。不僅如此，Claude Code不僅適用於程式設計，Pietro Schirano還將原始DNA資料輸入，並利用它找出了一些與健康相關的基因。One More Thing去年3月12日，《紐約時報》報導，Google持有Anthropic公司14%的股份。2024年，Anthropic將亞馬遜雲服務（AWS）確定為其主要訓練合作夥伴；亞馬遜將向Anthropic追加投資40億美元。此外，Zoom也有Anthropic部分股權。最近，Google被傳出正在洽談追加投資Anthropic。新一輪融資或將使Anthropic的估值突破3500億美元。不得不讓人懷疑，Google是不是要在2026年收購Anthropic？Claude Code要併入Google了？不過，Anthropic如此成功，有必要賣給Google嗎？而且，Anthropic一貫標榜「安全AI」，一旦被收購，「Google+Anthropic」毫無疑問地將終結AI競賽，OpenAI、微軟、輝達等另一方會甘心嗎？(新智元)

澤平宏觀—輝達之路：四次進化與AI未來

摘要“抓住風口”並非簡單的運氣，而是技術在長期積累後達到奇點，並與市場需求爆發形成的共振。輝達完美詮釋了這一規律。自ChatGPT問世後，其股價上漲10倍以上。在人工智慧的數千家企業中，輝達之所以能一騎絕塵，源於其在早期逆境中形成的深刻憂患意識、扁平化的高效管理文化，以及通過全端模式形成的強大市場心智。這使其在AI時代的浪潮中歷經四次關鍵進化，牢牢抓住了機遇。第一次進化始於2008年金融危機，在巨大的經營壓力和質疑下，力排眾議投入研發CUDA。這建構了輝達最核心的護城河，為其日後成為AI生態基石奠定了基礎。第二次進化以2012年AlexNet模型的成功為標誌，輝達敏銳地捕捉到GPU在AI訓練中的巨大潛力，果斷“All in AI”。第三次進化由2022年ChatGPT的發佈引爆，大模型領域的算力需求呈指數級增長，輝達成為這場“算力軍備競賽”中獨家的“賣鏟人”。第四次進化發生在2025年初，DeepSeek等低成本、高效率AI模型的出現一度引發市場對輝達邏輯的質疑。然而，訓練成本的降低反而促進了AI的普及和部署，最終擴大了對算力的總需求。解讀輝達的崛起之路，是為了尋找大牛股的底層邏輯：唯有那些能參透技術本質、勇於開拓市場、擁抱科技進步的企業，才能立於浪潮之巔。在AI時代，中國力量——國產替代與產業鏈自主化正成為中國市場的核心趨勢。建立獨立自主、安全可控的國產算力體系已成為必然選擇，以華為昇騰等為代表的核心晶片層正在突破，同時帶動了從高規格晶圓代工到AI伺服器等整個配套產業鏈的重構。未來，具身智能、AI超級應用以及由AI賦能的醫藥等領域科研是潛力最大的三大領域。1 為什麼是輝達？2024年6月18日，輝達市值超越微軟成為全球市值最高公司。2025年7月28日，輝達成為第一家市值超4.3兆美元公司，自1999年IPO以來復合年均增長率超過37%。輝達的成功和人工智慧密不可分，但AI產業上下游企業千余家，為什麼跑出來的是輝達？許多投資者認為輝達勝在技術。從技術的角度看，AI訓練投入資源越多效果就會更強，這是大模型發展的定律Scaling Law（縮放定律），而要支撐起海量的運算就離不開算力。輝達恰好是世界上最大的GPU廠家和算力硬體裝置供應商。但另一方面，顯示卡並非輝達獨有。ChatGPT爆發後自研算力晶片也成趨勢，特斯拉（Tesla）一直在推進 D1 晶片和 Dojo 超算平台的研發， Google的 TPU（張量處理單元）在 AI 訓練領域是輝達最強勁的競爭對手之一，許多大型模型（包括Google自己的 Gemini）都是在 TPU 上訓練。這樣看來，輝達的技術優勢只是成功的結果，但不是成功的核心。輝達的成功和一個人的成功一樣，除了技能一流，更關鍵是具備一些獨特的“品質”。在經營哲學上，輝達極為強調憂患意識。由於險些在30天內破產的早期經歷，“被對手超越只是瞬息之間”，這樣的意識促使員工無法安於現狀，CEO也不斷自我鞭策和學習，避免陷入“創新者窘境”。在管理上，輝達非常扁平化。這確保了員工在自己的工作上有極大的自主權和獨立性，但同時，CEO又以最嚴格、最快速、和最高品質的標準要求員工，強調每個人都追求極致，展現出超人的努力和韌性。輝達的市場策略和蘋果相似，重視客戶的心智建設，採用“全端”銷售模式，最佳化配套的各方面來提升體驗。輝達深知低成本競爭對手是最大威脅，因此從高端旗艦到中低端衍生產品全部覆蓋，防止競爭對手復刻輝達的翻身之路，以“老黃刀法”的精準定價鎖住市場需求。輝達獨特的經營哲學、管理文化、市場策略將其打造成一艘“堅船”，在時代的浪潮中，輝達歷經四次進化，牢牢把握住了人工智慧革命兆市場的機遇。2 輝達的四次進化大多投資者瞭解到輝達這家公司是在2022年ChatGPT興起之初，其股價一路高歌在三年內登上三兆美元。如果將投資視角拉長，站在價值增長的角度看，輝達嶄露頭角則可以追溯到2008年，一共經歷了四次“進化”。通過復盤其四大歷史性投資機遇，輝達為我們詮釋了價值演變的黃金法則。2.1 金融危機價值窪地，CUDA技術穿越周期2008年11月，輝達的投資者迎來了“最黑暗”的時刻，股價跌破6美元，在一年內下跌近80%。彼時正值美國次貸危機爆發，市場處於極度恐慌，輝達這類科技股作為高風險資產被大量拋售。對於輝達而言，雖然財務上最艱難的時期已經度過，台積電也與輝達聯手，但還面臨著兩大新的危機。一是美國次貸危機演變為全球金融危機，抑制了消費者對高端電子產品的需求，輝達的營收端面臨未知的挑戰。真正讓輝達倍感壓力的是一項名為CUDA的新任務，2007年6月輝達發佈第一款CUDA程式設計模型，隨後投入了大量資源，成本端的壓力增加，三年內毛利率下降了10%，大多數投資者也轉向悲觀，股價一路下行。而輝達低谷期研發的CUDA，也正好是今天造就輝達帝國最核心的壁壘。CUDA全稱“統一計算裝置架構”，能夠讓GPU進行圖形以外的計算。1999年輝達推出了世界上首款GPU（圖形處理器），彼時的CPU（中央處理器）承擔了複雜的核心計算任務，而GPU只用於電腦圖形渲染。2002年，輝達的一位客戶另闢蹊徑，將氣象領域的問題通過程式設計“翻譯”成GPU可以理解的語言，再用GPU強大的平行計算能力模擬了氣象變化。這便是早期基於GPU的通用計算，採用軟體拓展GPU的能力邊界，讓GPU不再侷限於圖形計算，而是可以用於其他複雜領域的模擬。輝達看到了這種嘗試的潛力，並聘用了這位客戶，進一步開發了讓GPU更容易訪問非圖形應用的程式設計軟體，將其命名為CUDA。CUDA的出現讓圖形程式設計之外的領域也能最大程度利用GPU——比如科研、金融、工程領域用GPU高效運算CPU難以獨立完成的任務，由此GPU具備瞭解決現實世界問題的潛力。當時輝達面臨兩種選擇：一是讓CUDA聚焦於服務高端科學和技術的工作站，他們的需求是清晰存在的，且價格承受能力也高，CUDA為公司帶來盈利的路徑明朗。二是讓CUDA對所有人可用，這樣做的風險極大，不僅是提供軟體支援的成本會驟增，還有定價過高導致的付費意願降低、市場需求不清晰等多種因素都可能讓輝達血本無歸。2006年，在GPU計算市場幾乎是零的背景下，CEO黃仁勳確立了“將CUDA技術推向所有領域，成為基礎性技術”的方針。推行該計畫的成本巨大。同年11月推出的G80晶片為了支援CUDA功能，研發成本佔到了輝達研發總預算的1/3，開發周期比以往晶片多出了三倍，而這還只是一款產品。G80發佈後華爾街幾乎一致認為輝達誤判了市場，走上了不歸路。在巨大的壓力下，輝達從零開拓起新市場，在時代助力和自身的堅持下完成了CUDA三步走變革。第一步，輝達早期先和高校達成特定捐贈的合作，提供顯示卡和財務支援來換取學校支援GPU程式設計教學，預先培養了輝達的潛在使用者和未來的開發者生態。第二步，在學術界建立起CUDA的灘頭陣地後，輝達繼續推動CUDA在消費市場的普及，老本行——電腦遊戲。個人電腦的興起和遊戲行業爆發讓GPU的通用能力嶄露頭角，從越來越逼真的物理現象、到光影細節的表現、複雜粒子效果等，遊戲消費升級的需求和複雜科研的演算法原理不謀而合，CUDA在消費級市場迎來了用武之地。第三步是2012年的深度學習革命，AlexNet團隊用四塊輝達GPU訓練的AI模型擊敗了16,000塊CPU訓練的Google貓，轟動學術界的同時，也標誌著歷時三十年的深度學習“冰河期”結束，人工智慧研究復甦，而輝達GPU和CUDA軟體也成了AI工作者的不二之選。截至今日，CUDA生態已有超過500萬開發者，服務於全球85%以上的資料中心，90%的AI框架基於CUDA開發，95%的AI訓練任務依賴CUDA工具鏈。誕生於20年前的CUDA儘管面臨巨大的市場壓力和投資者質疑，但先發優勢讓輝達打造了成功的第一印象，使用者黏性快速形成、並呈指數級增長。開發者一旦依賴CUDA工具鏈平台，遷移成本極高，從而形成輝達的核心護城河。2007-2009年的下跌構成了輝達投資的最佳窪地，但少有投資者抓住這一波機會，一方面是對金融危機的恐慌，另一方面是忽視了這家上市9年卻“業績平平”的科技公司正在推動的技術變革。輝達在CUDA技術上的堅持可謂最重要的決策，CUDA不僅是輝達的護城河，稱其為AI發展的生態基石也不為過。2.2 深度學習復興，輝達打造AI引擎輝達並非“天生贏家”，黃仁勳意識到AI機遇來自一場偶然。1956年達特茅斯會議首次提出人工智慧概念，但在經歷短暫的黃金期後發展陷入停滯。1982年，約翰·霍普菲爾德提出新的深度學習網路，可以模擬人類的學習、記憶和資訊處理方式，但卻受限於當時的算力條件，AI發展再次進入冰河期。直到20年後，深度學習和輝達走向交集，AI發展迎來了轉折點。2012年，傑佛瑞·辛頓牽頭訓練的AlexNet模型打破了第三屆電腦視覺挑戰賽記錄。挑戰賽規則很簡單，參賽團隊訓練的視覺識別模型要對來自資料庫隨機輸入的圖片進行分類。前兩屆的冠軍精準率不到75%，而AlexNet模型精準率高達84%，比第二名“Google貓”高出近十個點，後者是實力雄厚的Google團隊投入16,000塊CPU訓練的大規模神經網路，而前者只有三個人和四張輝達遊戲顯示卡。這一顛覆式的結果震動了AI界，讓沉寂20年的深度學習領域逐漸復甦。AlexNet的勝出帶來了三項影響後世的改變：一是產業界掀起了人工智慧的技術競賽，AI進入提速發展期。科技大廠Google、微軟、百度、DeepMind圍繞傑佛瑞·辛頓教授團隊展開競標。辛頓加入Google，剩下三家也擴大AI研究陣容。辛頓團隊中的一位學生伊利亞更是成為了後來OpenAI的首席技術官和ChatGPT的締造者。二是算力在AI三要素中脫穎而出，GPU成為了算力代名詞。2007年前，深度學習普遍認為演算法越優秀結果越準確，而李飛飛團隊提出了資料集是訓練關鍵，並贊助了電腦視覺挑戰賽。辛頓團隊在此之上驗證了GPU高效運算能讓精準率再上一個高度，GPU掀起了AI革命浪潮。三是輝達走上“All in AI”，專注於支援AI發展。AlexNet的成功是輝達的最好的商業宣傳，GPU從此和人工智慧訓練深度繫結。黃仁勳和辛頓團隊多次交談後認為GPU驅動深度學習的潛力巨大，雖然多位核心高管認為AI前景不明、反對大力投入，但黃仁勳力排眾議，促成輝達轉向全面支援AI研究。股價方面，輝達在AI領域的先登也被一些投資者敏銳地捕捉到，2012～2015年底輝達股價從14.3美元到33美元，復合年均增長率達到24.18%，同期標普500回報率是12.84%，納斯達克綜指是17.8%。三年翻倍的股價在美股並不算是大新聞，許多投資者會就此滿足，畢竟AlexNet的影響力還只是在AI圈內，輝達的真正潛力還未被市場發掘。2016年3月，AlphaGo以4:1的成績擊敗李世石，標誌著人類最後的棋類運動被AI攻克。對於許多人而言，這也是AI首次進入大眾視野。AlphaGo由Google旗下的DeepMind團隊開發，是深度學習復甦後的劃時代產物。此前，IBM的“深藍”超級電腦在1997年擊敗國際象棋冠軍，其算力相當於每秒110億次的計算能力，而AlphaGo的算力是前者的三萬倍，達到每秒3.386千兆次。賦予AlphaGo跨時代算力的正是280塊輝達GPU。深度學習訓練幾乎完全依賴GPU，再加上CUDA生態和硬體性能的極高壁壘，輝達成為毋庸置疑的AI算力領導者。人工智慧前景明朗、加密貨幣的興起、遊戲市場的繁榮，三重利多因素使得輝達股價在2016年迎來了首次大爆發。從1月的33美元漲到292美元僅用時兩年半，即便2018年10月加密貨幣泡沫破滅，輝達新款顯示卡的定價過高導致股價回呼，結果看，投資輝達的收益仍十分可觀，年化回報率達92.5%，三年漲幅達到540%。2.3 ChatGPT橫空出世，大模型領域需求爆發人工智慧的機遇是意識到AI大模型的通用潛能及其對算力的海量需求。而捕捉到這一投資機遇，就是挖掘輝達的估值根本從一家遊戲顯示卡龍頭轉變為“AI淘金獨家賣鏟人”的時刻。2022年3月，輝達發佈了革命性的Hopper架構（H100 GPU）和Ada Lovelace架構（RTX 40系列），用於AI訓練和遊戲的顯示卡性能都實現了飛躍。但這沒能阻止投資者繼續拋售輝達，由於加密貨幣暴跌和遊戲市場疲軟，年初至9月，輝達的跌幅達到62.8%。誰也不會想到，兩個月後輝達的估值邏輯將徹底改變，促成科技股載入史冊的投資機會。同年11月30日，OpenAI發佈了世上第一款大語言模型ChatGPT。這是人們可以用到的第一款聊天AI，和6年前的AlphaGo相比，前者只是下棋的演算法，而後者更像是具有智慧的個體。僅一年時間，ChatGPT的每周活躍使用者（WAU）就達到1億人，達到2億又用了9個月，到2024年12月，ChatGPT的周活躍使用者已經有3億人。OpenAI是AI浪潮的主角，但市場很快發現輝達才是最大贏家。輝達股價一路反彈，率創新高，一年漲幅達到246.73%。相比之下，OpenAI最大出資方——微軟的股價在這段時間上漲僅為65.14%。這是因為，ChatGPT成功的核心在於大規模訓練。它基於的3.0版本參數量高達1750億，是2019年GPT2.0的110多倍，進行如此大規模訓練需要足夠的算力支援。分析師測算下來OpenAI訓練用了至少一萬塊輝達A100顯示卡。ChatGPT打開了前景廣闊的AI藍海，一方面是上千家初創公司加入戰局，另一方面是科技大廠鞏固陣地，一場“算力軍備競賽”不可避免。2023年，輝達H100全球出貨規模達到500億美元，微軟、Meta、Google、亞馬遜、甲骨文、特斯拉、沙烏地阿拉伯主權基金、CoreWeave採購佔比超80%。2024年，AI算力競賽升級，科技巨頭以近乎不計成本的方式加大投入，輝達新的BlackWell架構一上市就得到微軟、Meta、Google價值百億級訂單。據測算，輝達全年H100/H200出貨量約400萬張，A100等其他產品出貨月200萬張，BlackWell架構因良率低出貨僅10萬張，台積電將80%產能分配給輝達而市場仍供不應求。只是提供“鏟子”還不夠，輝達全方位精準把控了市場需求。在ChatGPT發佈的三年前，黃仁勳就預見了人工智慧發展下資料中心負載和性能提升的巨大需求。2019年3月，輝達以69億美元收購了網路互聯裝置市場第一梯隊公司邁絡思。四年後，數以千計的AI公司加入大模型領域，它們不僅需要輝達顯示卡，還離不開邁絡思的InfiniBnad技術來高效地拓展計算能力。在 2024-2025 年，輝達成功將其護城河從單一的‘計算晶片’延伸到了‘叢集連接’。當成千上萬顆 GPU 協同工作時，通訊效率成為了系統的真瓶頸。通過 NVLink 和 InfiniBand 這種‘卡與卡、櫃與櫃’的超強連接，輝達實際上定義了‘叢集即電腦’（Cluster as a Computer）的行業標準，使得競爭對手即便能造出單顆性能相近的晶片，也無法在萬卡叢集的效率上與其抗衡。AI訓練的需求爆發讓輝達估值邏輯徹底轉變，抓住這一投資機遇的關鍵節點在2023年初。2022年12月，市場起初對ChatGPT維持將信將疑的態度，在發佈後的45天內，輝達漲幅僅25%，還經歷了25%的最大回撤。但在2023年1月底，形勢開始反轉，輝達發佈2023財年業績（2022年），其智算業務收入首次超過了遊戲顯示卡成為第一大營收來源，達到150億美元，這意味著ChatGPT發佈前智算訂單就大幅增長，外部AI需求前景已經明朗，而輝達作為GPU領域龍頭，未來業績極有可能迎來爆發。果然，2023年，輝達營收同比增長125.85%，2024年同比增長114.2%，營收突破1300億美元。在市場主力猶豫時，勇於買入輝達的投資者也收穫了驚人的回報，兩年內，輝達的股價上漲925.24%，年化收益率達到205.63%。2.4 DeepSeek衝擊估值回呼，產業擴容再創新高2024年末，輝達被買成了全球最受歡迎的公司，不僅市值超越微軟成為第一，兩年來的總成交額也達到14.13兆美元，相當於同年的日本、德國、英國、法國GDP之和。市值屢創新高的同時，輝達面對的質疑也越來越多，主要來自三方面：一是輝達業績高速增長的可持續性存疑。2023到2024年，主要科技大廠都完成算力基建部署，2025年之後訂單實現翻倍式增長很難。二是輝達的技術壁壘可能在鬆動。算力軍備競賽也掀起了自研AI晶片的趨勢，輝達的市場份額可能在未來被後發者蠶食。三是輝達估值的整體想像空間或已見頂。從常規的企業發展周期來看，“成功者困境”無法避免，許多龍頭企業在到達巔峰後都面臨著成長困境，輝達的進步空間似乎不多了。2025年1月20日，DeepSeek R1模型開源，引發美國科技股震動，一度跌去一兆美元。其中，輝達股價跌去近17%，市值蒸發近6000億美元，創下美股史上最大單日市值下跌紀錄。DeepSeek的出現似乎印證了投資者對輝達的質疑。為何市場擔心這會撼動輝達的市場根基？DeepSeek出現前算力是第一要素。AI能力的提高依賴於參數量的增加，而更大參數量的訓練則需要匹配的算力規模。在2023～2024年，AI巨頭通過堆算力來堆大模型性能，形成了“打造比GPT更好的AI等同於比OpenAI有更多算力”的共識，比如，馬斯克為了xAI彎道超車，建構了全球最大的20萬張GPU算力群。DeepSeek跨越了算力壁壘，實踐了以低成本達成高效率的全新架構。其V3模型與GPT-4o和Llama-3.1表現不相上下；而R1模型達到了ChatGPT-o1級的表現，但訓練成卻僅相當於後者的十分之一。DeepSeek在GPU數量和質量上都落後於美國企業，卻通過演算法最佳化、架構創新打造了實力相當的模型，顛覆了“AI訓練必依賴強大算力”的認知。這場AI訓練變革削弱了算力的重要性。當AI訓練不再需要高成本、大規模的算力投入，輝達GPU需求預期減少，資本市場也快速改變了對輝達的估值，在歷史高點的輝達股價十分脆弱。“擊敗”輝達的不是業績減速，也不是更先進的GPU，而是AI訓練的變革，但變革自身也在發展中變化。舊的壁壘被瓦解，新的藍海在湧現。從長期維度看，DeepSeek出現是對輝達的一次空前利多。一是訓練變革會帶來AI部署降本，市場總量擴容。AI的訓練成本下降會在短期內造成上游的營收下降，但也意味著AI部署和使用成本同步下降，更多的廠商加入賽道，促進AI技術迭代。同時，更多使用者能以低成本使用AI服務，訪問增加推動需求總量增加，加速AI商業化和大規模普及處理程序，這是產業生態迎來爆發的前兆。二是訓練變革只是降低現階段成本，無法提高上限。DeepSeek模型在性能和當代主流模型不相上下，但沒有突破現有邊界。換言之，“再造一個GPT”對算力的需求大幅下降，但超越GPT在根本上還是離不開更強大的算力支援。因此，那些希望掌握行業主導權的AI科技巨頭對輝達GPU的需求依然會穩定增長。事實也確實如此，DeepSeek的火爆後，雲端和本地部署需求激增，推理服務的火爆引發了對輝達GPU的更大需求。同時，科技巨頭一邊效仿DeepSeek開源和最佳化，另一邊卻並未停止算力軍備競賽。DeepSeek 的邏輯在於：它證明了‘重演算法、輕訓練’的可行性，這標誌著 AI 產業正式從‘算力密集型訓練階段’轉向‘規模化推理應用階段’。雖然單次訓練成本降低了，但隨著 AI Agent（智能體）和超級應用的普及，全社會對推理算力的總需求量呈幾何級數增長。輝達通過推出專為推理最佳化的晶片和軟體棧（如 TensorRT-LLM），精準吃掉了這一增量市場。市場對輝達的判斷很快迎來反轉。2025年1～4月輝達跌去18.9%，5～7月反彈漲幅達到64.13%，市值突破了2024年底來到4.3兆美元，超過特斯拉、AMD、英特爾和帕蘭提爾四家市值的總和。輝達的這次逆境反轉是重要的一課：投資是動態的過程，對行業和公司投資邏輯的推導不能停留在短期事件的後果上。2025年初，許多分析師將DeepSeek描述成輝達的“掘墓人”，但卻忽視了訓練效率的提升是行業進化的催化劑，輝達從估值瓦解到登上新高不過半年。3 AI浪潮：未來十年有那些機會？3.1 AI時代的關鍵能力AI在許多領域的工作效率已經遠超人類，直覺上，人工智慧似乎必定會勝任各種職業和場景，逐漸取代人類。事實上，淘汰與否的關鍵在於“主動價值原則”：一個人產出價值的過程越主動，意味著自主決策佔比高、思考多、創造性強，越難以被新工具所替代。歷史上，雖然每次技術進步的方向不同，但無一例外都遵循這一原則。第一次工業革命，船伕被蒸汽機替代，但舵手卻保留了下來。即便在今天，舵手也無法被AI取代，AI可以協助觀測等任務，但決策核心仍在船長（首席舵手）手中。技術革命中，最容易被淘汰的是價值創造被動的人。在AI時代，價值創造被動的人無法主導決策，使用AI越多就會越依賴AI系統，逐漸失去自主思考能力。而那先原本就擅長思考、創新、自主判斷的人，只會因為使用AI變得思維更迅捷、效率更高。黃仁勳本人也分享：他用AI不是讓AI替自己思考，而是用AI教會他新東西。這也引出了一項AI時代的重要能力——提問和引導的能力。人和AI互動靠的是幾行提示語、提問句還有後續的引導詞。雖然AI能快速寫文案、做視訊、編程式碼，但產出的質量高低完全取決於人的水平。同樣一類AI畫作，在業餘愛好者和專業畫師的提示詞下生成的作品差距極大，AI實際上是折射了不同人的想像力和對藝術理解深度。換言之，人要擁抱“建構想法的創造力”，放下“把事情做出來的能力”。AI時代，人們要更多的閱讀、學習技能、深度思考，以此拓寬創造力邊界。因為向AI提要求，本質上也是對自身能力深淺的檢驗。比如，AI程式設計的出現讓一些初級程式設計師如獲至寶，但隨即而來的是面臨失業。與此同時，成熟的軟體工程師卻在新鮮感後抱怨AI程式設計的“愚蠢”，因為AI程式設計的能力十分基礎，遠達不到成熟開發的要求。由此可見，AI篩選的不是崗位，而是人。同一崗位、同一工作，也存在價值創造的主動和被動之分。有的人主動學習，提升自己，參透了規律和本質，善於向AI提問，充分發揮AI的效率優勢。還有的被動依賴AI投喂答案，缺乏自主思考，雖然短期產出提升，但也終將被淘汰。在瞬息萬變的AI時代，投資者抓住風口的核心也是在於學習，否則只會在時代的篩選中退場。3.2 國產替代和產業鏈自主化潛力對於晶片這個特殊行業，必須注重外部供應的特殊性和產業本土化安全性權衡。比如美方或通過試圖在出口晶片中加入“追蹤定位”和“遠端關閉”等功能，這未來對資料安全是一種威脅。另一方面，H20確實作為“特供版”晶片，有性能被削弱的問題，從技術和經濟效益角度看，無法支撐中國兆級大模型訓練的長遠需求。這雙重壓力共同將一條路清晰地擺在了所有中國科技企業和投資者的面前：建立獨立自主、安全可控的國產算力體系。這也正是未來幾年中國最重要的產業趨勢和投資機遇。機會一：國產替代國產替代已是在中國晶片領域的“必答題”。這不僅是政策驅動，更是市場求生的內在需求。圍繞國產晶片的生態正在加速形成：比如在核心晶片層，以華為昇騰、寒武紀、海光資訊等為代表的ASIC和GPU廠商，正在從不同技術路線進行突破。特別是華為昇騰910B在部分場景下據稱已達到輝達A100的80%性能，並正通過全端的軟硬體生態CANN、MindSpore等建構護城河。在配套產業鏈方方面，從中芯國際的晶圓代工，浪潮資訊的AI伺服器，到兆易創新等的儲存環節，整個產業鏈條正在圍繞國產核心進行重構。關注國產替代，就是要尋找那些技術領先、生態建構能力強、且已經獲得頭部廠商驗證的。機會二：尋找“下一個輝達”必須客觀認識到，輝達的護城河不僅僅是一塊GPU晶片，而是其耗費十餘年心血打造的CUDA生態系統。全球絕大多數AI開發者、深度學習框架如TensorFlow, PyTorch都深度繫結CUDA。這是一個贏者通吃的網路效應。中國公司想要突圍，不能僅僅是硬體性能的追趕，更關鍵在於軟體生態的建構。目前來看，華為昇騰是中國最有可能率先突圍的。正建構從底層硬體、晶片使能、AI框架到應用使能的全端解決方案。通過與國內高校、科研機構和企業的合作，昇騰正在努力擴大其“朋友圈”，培養開發者習慣，這是追趕CUDA生態最現實的路徑。在後摩爾定律時代，通過Chiplet芯粒結構、存內計算等新架構創新，有可能在特定領域實現對傳統GPU架構的性能超越。這是技術驅動型的顛覆機會。尋找“下一個輝達”的邏輯，要求具備更長遠的眼光和對技術生態更深刻的理解。3.3 AI潛力最大的三大領域從第一性原理來出發：人工智慧是資料驅動的機率關聯，目標是完成對自然法則和因果規律的掌握。理論上AI適用於所有行業和領域。但在不同領域存在落地先後之分。將AI應用潛力最大的領域分為三大類：一是具身智能，讓AI擁有感知世界能力的路線。從多模態大模型、到自動駕駛、人形機器人和無人機等，賦予AI物理形態和感知學習能力的具身智能會加速落地。長期看，具身智能的商業化鋪開需要多方面技術進步來實現，主要是資料訓練演算法的周期長、硬體成本高、工程設計的難度大。當下智能駕駛的技術離成熟應用最接近，在監管適配的過程中大規模普及只是時間問題。人形機器人在2025年概念火熱，但受限於續航、靈巧手、環境資料等因素還難以滿足大規模落地條件。二是超級應用，在C端開啟新互動革命，在B端打造高效率工具。比如，消費電子端的AI眼鏡、AI手機、AI PC等升級成為互動載體。在此基礎上，AI Agent、AI作圖、AI助力等原生AI應用構成AI生態，AI功能融入日常生活。在B端也賦能專業領域，AI教育上實現遠端教學，AI醫療輔助手術，工程領域協助設計搭建等，比如B端AI賦能的半導體設計行業。晶片工程師在AI的幫助下可以僅用高級抽象概念來設計和模擬晶片。三是AI科研，解決傳統科研處理程序中的瓶頸。相比於傳統科研，AI在探索廣度、計算深度、實驗速度、跨學科能力四個方面都更強，因此在科研上極具優勢。比如AI用於對環境要求嚴苛的氣象領域，研究耗時長的分子領域；成本高、涉及跨學科多的生物醫學、以及人類還在攻堅的量子系統領域。黃仁勳也曾在2023年預測數字生物學是未來方向。AI使得人類可以首次對生物學進行數位化設計，科學界可以更深入地模擬生物系統的結構，開發非自然形成的新分子結構和蛋白質藥物。此外，AI上游的關聯產業也充滿機遇。比如半導體製造，中國的自主化處理程序在加快，而國際上先進製程也在2025年迎來了2nm突破，新一輪半導體革命未來可期。再比如能源領域，全球資料中心增長正面臨供需錯配問題，一方面擴大綠電體系建設為AI基建保駕護航，同時提高能源利用率，降低能耗成為共識。輝達的崛起是一場長達 20 年的“非對稱競爭”的勝利——用全端的軟體生態鎖死硬體競爭，用極度的憂患意識跑贏摩爾定律。在大航海時代，財富流向了擁有指南針和堅船的一方；在 AI 時代，財富正流向那些能定義算力標準、並不斷突破自然科學邊界的企業。對於我們，國產替代不是為了重複造輪子，而是為了在新的技術高地上，拿回屬於我們的數字主權。 (澤平宏觀展望)

“20年來最大更新”，輝達CUDA帶來了什麼？

2025 年 12 月，NVIDIA 推出 CUDA 13.1，此次更新被官方定位為“自 2006 年 CUDA 平台誕生以來最大、最全面的升級”。其核心亮點之一，是引入了新的程式設計模型 CUDA Tile。這個變化，有可能不僅僅是一項技術迭代，而是標誌著 GPU 程式設計範式邁入一個新的階段。CUDA 13.1 + CUDA Tile：到底帶來了什麼新東西？CUDA Tile 是一種基於 tile（瓦片、資料區塊）的 GPU 程式設計模型。與傳統的 SIMT（single-instruction, multiple-thread，多線程單指令流）方式不同，Tile 程式設計允許開發者將資料組織為tile （例如矩陣塊、張量塊、資料區塊），然後對這些 tile 進行操作，由編譯器和執行階段負責將它們對應到底層線程、記憶體佈局、專用硬體等資源。換句話說，開發者只需專注對塊做什麼計算，無需關心那個線程做那一部分、怎樣同步的問題。為了支援 Tile，NVIDIA 在 CUDA 13.1 中引入了虛擬指令集 (Tile IR)，並配套提供 cuTile。這是一個允許用高級語言編寫 tile-based kernel 的工具，通過 cuTile，開發者可以用熟悉的 Python 編寫 GPU kernel，從而極大降低 GPU 程式設計的門檻。根據官方描述，Tile 程式設計並不是要取代 SIMT，而是作為一種並存或可選的程式設計路徑。也就是說，開發者根據需求，可以繼續使用傳統 SIMT，也可以在適合場景下使用 Tile。CUDA 13.1 除了 Tile，還對執行階段（runtime）和工具鏈進行了升級，例如對 GPU 資源調度與管理機制進行了增強，使 GPU 的多工、並行、異構任務支援更靈活可靠。官方同時對數學計算庫（如矩陣、張量庫）與底層支援的相容性進行了最佳化，以更好支援未來 GPU 特性（例如 tensor core、多級快取、異構資源分配等）。由此看來，這次更新不僅是對程式設計模型的改變，也為建構新一代高層、跨架構 GPU 的計算庫、框架和DSL 奠定了基礎。綜合來看，CUDA 13.1 + CUDA Tile 的意義，不僅在於新增一個功能或對性能進行最佳化，而更在於為 GPU 程式設計提供了一個新的、更高層、更抽象、更便捷，且可維護和可移植的選項。GPU 越來越複雜，手動管理變得不足夠隨著 GPU 架構不斷演進，引入越來越多專用硬體（例如 tensor core、混合精度加速、多級快取與記憶體層次、異構資源、多流或多工支援等），底層硬體複雜度大幅增加。對開發者而言，手動管理線程、同步、記憶體佈局、調度、硬體相容性等負擔越來越重。傳統 SIMT 模型雖然靈活，但對高性能、可移植、可維護的要求而言，其複雜性和維護成本日益凸顯。在這種背景下，Tile 程式設計所引入的高層抽象、由系統負責的資來源對應、調度、硬體利用，恰好切中了現實需求。對於AI、大規模矩陣、張量計算、科學計算、深度學習等領域，非常具有吸引力。NVIDIA 官方也明確指出，Tile 的設計初衷是為了幫助建立適用於當前和未來 GPU 的軟體。借助 cuTile (Python DSL)，許多過去因為不擅長 CUDA C、對底層 GPU 程式設計不熟悉的資料科學家、研究者，也可能開始編寫 GPU 加速程式碼。對於深度學習、科學計算、AI 團隊或高校研究機構來說，這意味著 GPU 加速不再只屬於少數 GPU 專家核心團隊，而可能被更多人使用。此外，對於那些需要跨 GPU 架構的團隊來說，一次編寫、多代相容的可能性，將大大降低重構、最佳化和維護的成本。（來源：輝達）同時，Tile 提供了一條新的 GPU 程式設計路徑。這條路徑不僅對單個項目或團隊有利，也可能促使整個 GPU 軟體生態走向更高層、更抽象、更通用、更易維護和跨架構相容。這種變化對未來 GPU 程式設計規範化、標準化以及廣泛應用具有潛在推動力。這次更新可能不僅僅是一個版本號的提升，而是 GPU 程式設計範式的一次質變。從硬核到普惠的轉折點在技術社區中，CUDA 13.1 的發佈引發了截然不同的兩種情緒，而這恰恰印證了這次更新的變革性。對於資深的高性能計算（HPC）工程師而言，反應是複雜的。一方面，他們習慣了對每一個暫存器、每一塊共用記憶體（Shared Memory）的精細控制，CUDA Tile 這種將細節交給編譯器的做法，不可避免地引發了關於性能上限的討論。正如在 Reddit 和 Hacker News 上一些硬核開發者所擔憂的：“我們是否正在用極致的性能換取開發的便利性？”然而，對於更廣泛的資料科學家和 AI 演算法工程師群體，這無疑是一個好消息。長期以來，將 PyTorch 或 TensorFlow 中的高層邏輯轉化為高效的 CUDA 核心程式碼，是一道難以踰越的技術鴻溝。cuTile Python 的出現，實際上是在填平這道鴻溝。它意味著開發者不再需要精通 C++ 和電腦體系結構，僅憑 Python 就能觸達 GPU 80% 甚至 90% 的理論性能。這種性能平權可能會引爆新一輪的 AI 算子創新。當編寫一個高效的 Attention 變體不再需要兩周的 C++ 偵錯，而只需一下午的 Python 指令碼時，創新的飛輪將轉得更快。（來源：Shutterstock）競爭格局的深層變化：從程式碼相容到架構抽象在 CUDA 13.1 之前，競爭對手（如 AMD 的 ROCm 或 Intel 的 OneAPI）主要的追趕策略，是通過相容層（如 HIP）來轉譯現有的 CUDA 程式碼。這種策略主要基於 C++ 語法的相似性。然而，CUDA Tile 的出現改變了這種競爭的維度。通過引入 Tile IR（虛擬指令集）和高層抽象，NVIDIA 實際上是在硬體和軟體之間增加了一個更厚的中間層。當開發者開始習慣使用 Tile 程式設計模型，更多地關注資料區塊的邏輯而非底層線程調度，程式碼與底層硬體的解耦程度變得更高。這意味著，程式碼的執行效率將更多地依賴於編譯器如何理解和最佳化這些 Tile 操作。對於競爭對手而言，要支援這種新模式，僅僅做程式碼轉譯是不夠的，還需要建構一個同樣智能的編譯器來處理這些高層抽象，這無疑增加了技術對齊的難度，也客觀上提高了生態系統的粘性。面向雲環境的演進：Green Contexts 的實際價值除了程式設計模型，CUDA 13.1 在執行階段環境上的改進，特別是 Green Contexts 從驅動層走向執行階段 API，反映了 GPU 使用場景的結構性變化。在 Blackwell 架構時代，GPU 已經從單純的加速卡轉變為資料中心的核心算力單元。隨著單卡算力（如 B200 系列）的大幅提升，對於許多單一任務來說，獨佔整塊 GPU 往往是一種資源浪費。Green Contexts 允許開發者或系統管理員在執行階段更安全、更細粒度地劃分 GPU 資源（SM）。這在技術上解決了多工平行時的干擾問題，使得 GPU 能夠像 CPU 一樣，高效、穩定地同時處理多個使用者的任務。對於雲服務商和企業內部的算力調度來說，這直接提升了昂貴硬體的利用率和投資回報率。新的挑戰：抽象化帶來的黑盒隱憂當然，這種向高層抽象的演進也並非沒有代價。CUDA Tile 帶來的最大挑戰在於偵錯與性能最佳化的透明度降低。在傳統的 SIMT 模式下，開發者清楚地知道每一行程式碼對應什麼指令，資料在暫存器和記憶體間如何移動。而在 Tile 模式下，編譯器接管了大量的資料佈局和對應工作。一旦性能不如預期，或者出現非功能性 Bug，開發者可能會發現很難像以前一樣精準定位問題。雖然 NVIDIA 在 Nsight 工具鏈中增加了對 Tile 的支援，但如何讓開發者理解編譯器的最佳化邏輯，而不是面對一個無法干預的“黑盒”，將是這一新模式能否被資深開發者廣泛接受的關鍵。此外，這也意味著軟體性能將更加依賴於 NVIDIA 編譯器團隊的最佳化水平，而非開發者個人的微調能力。CUDA 13.1 的發佈，本質上是 NVIDIA 應對硬體複雜度爆發的解決方案。通過 CUDA Tile，NVIDIA 試圖建立一種新的分工模式：開發者專注於高層的演算法邏輯與資料流，而將複雜的硬體適配工作交給編譯器和執行階段環境。這不僅降低了高性能計算的門檻，也讓 CUDA 平台在異構計算和雲原生時代，具備了更強的適應性和生態掌控力。對於開發者而言，這或許意味著是時候調整思維習慣，從微觀的線程管理，轉向宏觀的資料區塊編排了。 (問芯)

或許CUDA不再是唯一：詳解輝達的兆帝國與GoogleTPU的十年暗戰

最近美股金融市場風雲變化，疊加DIY市場儲存晶片大幅漲價，所以我們暫時拋開開源和閉源模型不談，聊聊美國最大的AI鏟子售賣商-輝達和Google的角色關係01. 歷史復盤：一場持續17年的“豪賭”很多非技術出身的投資者認為輝達的爆發是運氣，正好趕上了ChatGPT的風口。但其實這是一場長達17年的蓄謀已久的策劃。故事的轉折點不在1993年的創立，而在2006年。那一年，輝達推出了CUDA（Compute Unified Device Architecture）。在當時，這被視為一個瘋狂的決定——在每一塊GPU上增加專門的邏輯電路，允許程式設計師呼叫顯示卡進行通用計算（GPGPU）。這意味著輝達在硬體成本上升的同時，還要投入巨資去維護一套當時沒人用的軟體生態。華爾街當時對此嗤之以鼻，認為黃仁勳瘋了。但正是CUDA，將GPU從單純的“圖形渲染器”變成了“數學加速器”。2012年的伏筆： AlexNet在兩塊GTX 580顯示卡上訓練了6天，碾壓了傳統演算法。深度學習（Deep Learning）的大門被踹開，科學家們驚訝地發現：原來GPU這種幾千個核心平行計算的架構，天生就是為了跑神經網路而生的。從那以後，輝達就不再是一家遊戲硬體公司，它變成了一家AI計算平台公司。當2017年Transformer架構提出，2022年ChatGPT爆發時，輝達是全場唯一一個準備好了全套“軟硬一體”方案的玩家。02. 護城河：不僅是晶片，是“全端”現在的輝達，強在那裡？如果你只盯著它的主營業務——資料中心（Data Center），你會看到驚人的財務資料。在最新的財報中，資料中心業務營收佔比已超八成，毛利率一度突破75%。這在硬體行業是違反常識的。之所以能做到這一點，是因為輝達賣的從來不是裸片（Silicon）。它賣的是DGX系統，是NVLink（讓成千上萬塊顯示卡像一塊顯示卡那樣工作的高速互連技術），更是NVIDIA AI Enterprise軟體套件。在AI開發者的世界裡，CUDA構成了最深的護城河。所有的主流框架（PyTorch, TensorFlow）、所有的開源模型（Llama, Mistral），默認的第一適配對像永遠是輝達。這種“開發者習慣”的粘性，比硬體本身的性能差距更難被踰越。03. 房間裡的巨象：GoogleTPU與CSP的起義然而，盛世之下，危機四伏。輝達的統治力並非牢不可破。而撕開這道口子的，正是它最大的客戶之一—Google。早在2015年，Google就敏銳地意識到：如果不自研晶片，未來將被輝達卡死。於是，TPU（Tensor Processing Unit）誕生了。這就引出了輝達目前面臨的最大困境：通用GPU vs 專用ASIC的路線之爭。GPU（輝達）的邏輯：我是通用的，我什麼都能算，從天氣預報到大模型訓練，靈活性無敵。但代價是功耗高、價格貴。ASIC（如GoogleTPU）的邏輯：我專門為矩陣乘法設計，專門為TensorFlow/JAX框架最佳化。我不做圖形渲染，我就跑AI。因此，我在特定場景下能效比更高，成本更低。GoogleTPU的威脅有多大？如果你看DeepMind的Gemini、阿法狗（AlphaGo），甚至蘋果最新的Apple Intelligence伺服器端訓練，它們很多並沒有依賴輝達，而是建構在Google的TPU叢集之上。不僅是Google，這是一場“CSP（雲服務提供商）的起義”。亞馬遜 AWS 有 Trainium 和 Inferentia；微軟 Azure 推出了 Maia 100；Meta 也在推自研 MTIA 晶片。這些科技巨頭每年向輝達採購數百億美元的晶片，但他們內心極度渴望擺脫這種“被收稅”的狀態。這種客戶即對手的博弈，將是未來3-5年AI硬體領域的主旋律。04. 未來的困境：推理（Inference）市場的變數其實對於輝達來說，另一個隱憂在於AI工作流的重心轉移。過去幾年是訓練（Training）的時代，大家都在拚命燒錢練大模型，這時候必須用輝達，因為只有它能提供萬卡叢集的穩定性。但未來5年，我們將進入推理（Inference）時代。也就是模型練好了，大家開始大規模呼叫API，開始在手機、PC、邊緣裝置上運行模型。在推理市場上，輝達的優勢會被削弱。成本敏感：推理不需要訓練那麼大的算力，企業更看重性價比。專用的推理晶片（如Groq、各大廠自研晶片）可能會比昂貴的H100/B200更具吸引力。軟體解耦：隨著PyTorch 2.0和OpenAI Triton等編譯器的發展，開發者正在試圖打破CUDA的壟斷。如果有一天，程式碼可以無痛地遷移到AMD或自研晶片上，輝達的高溢價還能維持嗎？05. 結語目前的輝達，依然是當之無愧的王者。Blackwell架構的推出，再次拉大了它與競爭對手的代差。在“訓練超大模型”這個塔尖領域，它依然沒有替代品。但從產業演進的角度看，任何單一公司的壟斷都是暫時的。金融市場上，巴菲特管理的‌波克夏公司斥資43億美元首次建倉Google母公司‌Alphabet，使其成為第十大重倉股，這再次證明了，Google在AI發展路徑走在了更符合投資者期待的路徑上，足夠的落地應用轉化，才是AI最終的歸宿。AI產業正在從“輝達一家獨大”走向“一超多強、專用晶片遍地開花”的戰國時代。GoogleTPU已經證明了ASIC路線的可行性，而開源社區正在努力填平軟體鴻溝。或許對於輝達而言，未來的敵人不是AMD，而是那些正在試圖用更高效、更廉價的算力架構，去重構整個AI成本模型的“前戰友”們。 (Diffusion Atlas擴散圖譜)

SemiAnalysis：CUDA被撕開第一道口子！谷歌TPUv7向王者發起挑戰

CUDA被撕開第一道口子！GoogleTPUv7干翻輝達【新智元導讀】當Google不再只滿足於「TPU自己用」，TPU搖身一變成了輝達王座下最鋒利的一把刀！CUDA護城河還能守住嗎？讀完這篇SemiAnalysis的分析，你或許會第一次從「算力帳本」的視角，看懂Google暗藏的殺招。GoogleGemini 3的成功，讓其背後的TPU再次成為全世界關注的焦點。資本市場給出了明確的反應，Google股價的上漲，也讓一個話題再次被拿到牌桌上討論：GoogleTPU是不是真的能和輝達GPU掰一掰手腕？尤其是TPUv7更是人們討論關注的焦點，這款專門為AI設計的晶片是否能夠打破輝達多年來的GPU形成的壟斷？眾所周知，SemiAnalysis是一家在科技界，尤其是半導體和人工智慧領域極具影響力的精品研究與諮詢公司。它以硬核、深度的資料分析著稱，不同於泛泛而談的科技媒體，它更像是一個服務於華爾街投資者、晶片巨頭和AI從業者的「行業智庫」。剛剛，他們最新的文章給出一個明確的結論：TPUv7首次向輝達發起了衝鋒。而且這一篇文章由12位作者共同撰寫，可見份量之重。這篇文章深入剖析了GoogleTPUv7如何向輝達的AI硬體霸權發起實質性挑戰。核心轉折點在於：Google打破長期以來的內部自用慣例，開始向Anthropic等外部客戶大規模出售TPU硬體及算力，後者已部署超過1GW的TPU叢集。儘管在單晶片理論參數上TPU未必碾壓輝達，但Google憑藉卓越的系統級工程（如ICI互聯和光路交換）實現了極高的實際模型算力利用率（MFU），且總體擁有成本（TCO）比輝達GB200系統低約30%-40%。Google正通過支援PyTorch原生環境和vLLM等開源生態，積極修補軟體短板，試圖從根基上瓦解CUDA的護城河。CUDA護城河能否被終結？TPUv8和輝達下一代AI新品Vera Rubin，誰更強大？接下來的內容，會給你答案。TPUv7：Google向王者發起挑戰輝達堅不可摧的堡壘，出現了一絲裂痕。目前，世界上最頂尖的兩個模型——Anthropic的Claude 4.5 Opus，以及Google的Gemini 3，它們絕大部分訓練和推理基礎設施，都運行在Google的TPU和亞馬遜的Trainium上。其中的Gemini 3，以及其所有早期版本的Gemini，則是完全在TPU上進行訓練的。這還不算，Google正在向多家公司出售商用的TPU硬體。輝達的王座迎來了新的挑戰者。早在2006年，Google就有過建立AI專用基礎設施的想法。但一直到2013年，Google才開始為TPU晶片奠定基礎，並在2016年將其投入生產。同一年，亞馬遜也啟動了Nitro計畫，該計畫專注於開發晶片以最佳化通用CPU計算和儲存。如今，通過推進TPU商業化，Google已經成為輝達最新且最具威脅的挑戰者。Gemini 3發佈後，市場反響強烈。輝達還專門為此發佈了一條官方推文，恭喜Google在AI領域的進展，同時不忘強調自己依然遙遙領先。在推文中，輝達強調自己仍在持續向Google供應硬體，並表示自己依然領先行業一代，是唯一能夠運行所有AI模型、並能在各種計算場景中使用的平台。同時，強調GPU比專用晶片（ASIC）在性能、通用性和可替代性上更強，這句話明顯是對GoogleTPU、AWS Trainium等專用晶片的回應。突然崛起的TPU在過去的幾個月裡，GoogleDeepMind的Gemini 3、Google雲以及TPU綜合體，賺足了眼球，也將Google母公司Alphabet的市值推高至接近4兆美元。TPU產量大幅上調，Anthropic、Meta、SSI、xAI、OAI等TPU的客戶名單正在不斷擴大，這些推動了Google和TPU供應鏈的大幅重新評級，無疑也將壓制以輝達GPU為重點的供應鏈。除了面對TPU的壓力，輝達還面臨著通過「循環經濟」造成AI泡沫的質疑，許多質疑者認為輝達通過資助燒錢的AI初創公司，本質上是將錢從一個口袋轉移到另一個口袋。輝達對此的回應SemiAnalysis認為更合理的解釋是：輝達旨在通過股權投資而非降價來保護其在基礎實驗室的主導地位——降價將拉低毛利率並引發投資者普遍恐慌。下文將通過解析OpenAI與Anthropic的合作模式，展示前沿實驗室如何通過採購（或威脅採購）TPU來降低 GPU 的總體擁有成本（TCO，Total Cost of Ownership）。總擁有成本（TCO）模型、Anthropic和OpenAI雖然OpenAI目前尚未部署TPU，但僅憑「轉向TPU」這一可能，就已在其輝達叢集成本上節省約30%。簡單來說，OpenAI並沒有真的把Google的TPU晶片插進伺服器裡跑任務，而是把「我隨時可能改用TPU」作為一個巨大的談判籌碼，迫使輝達為了留住這個大客戶，變相給予了巨額優惠。GoogleTPU的大規模外部化TPU堆疊長期以來一直與輝達AI硬體相抗衡，但它主要是為了支援Google的內部工作負載。即使在2018年向Google雲平台客戶提供TPU之後，Google仍未將其完全商業化。如今，這種情況正在開始改變。在過去的幾個月裡，Google已經動員了整個堆疊的努力，通過Google雲平台或作為商用供應商銷售完整的TPU系統，開啟了TPU大規模商用的步伐。這一舉措也使這家搜尋巨頭成為一個真正差異化的雲提供商。與此同時，Google的頂級客戶Anthropic也在繼續推動擺脫對輝達單一依賴，兩者在採用TPU上一拍即合。與Anthropic的交易，標誌著TPU規模化商用的一個重要里程碑。那麼，Anthropic和其他客戶為什麼想要Google的TPU？答案很簡單。TPUv7 Ironwood是一個優秀系統內的強大晶片，即使晶片在參數上落後於輝達，Google的系統級工程也使得TPU堆疊在性能和成本效率方面都能與輝達相匹配。這種組合為Anthropic提供了引人注目的性能和TCO，因此贏得了其大規模的訂單。與輝達通過GB200擴展其GPU生態一樣，Google自2017年TPUv2以來，也一直在機架內和跨機架擴展TPU。Google的ICI擴展網路，也與輝達NVLink匹敵的競爭對手。如今，預訓練前沿模型仍然是AI硬體中最困難和資源最密集的挑戰。自2024年5月GPT-4o以來，OpenAI的頂尖研究人員尚未完成廣泛用於新前沿模型的成功全規模預訓練運行，而TPU平台則通過了這一測試。對於Google來說，在最具挑戰性的硬體問題之一中悄悄擠入並建立性能領先地位，確實是一個令人印象深刻的壯舉。微架構仍然很重要：Ironwood接近Blackwell雖然Google一直在推動系統和網路設計的邊界，但從一開始，Google在晶片方面的設計理念相對於輝達就更為保守。歷史上，TPU的峰值理論FLOPs明顯較少，記憶體規格也低於相應的輝達GPU。其中有3個原因。首先，Google對其基礎設施的「RAS」（可靠性、可用性和可服務性）非常重視。Google寧願犧牲絕對性能來換取更高的硬體正常執行階段間。第二個原因，直到2023年，Google的主要AI工作負載是為其核心搜尋和廣告資產提供動力的推薦系統模型。與大模型工作負載相比，RecSys工作負載的算術強度要低得多，這意味著相對於傳輸的每一位資料，需要的FLOPs更少。第三個原因，是TPU主要面向內部，在外部誇大這些規格的壓力要小得多。商用GPU提供商希望為其晶片行銷儘可能好的性能規格，這激勵他們將行銷的FLOPs提高到儘可能高的數字。進入大模型時代之後，GoogleTPU的設計理念發生了明顯轉變。從最近兩代為大模型設計的TPU：TPUv6 Trillium（Ghostlite）和TPUv7 Ironwood（Ghostfish）就可以看出這種變化。TPUv6在FLOPs上已經非常接近H100/H200，但它比H100晚了2年。TPUv7 Ironwood是下一次迭代，Google在FLOPs、記憶體和頻寬方面幾乎完全縮小了與相應輝達旗艦GPU的差距，儘管全面上市比Blackwell晚了1年。理論上的絕對性能是一回事，但重要的是單位總擁有成本（TCO）的實際性能。雖然Google通過Broadcom採購TPU並支付高額利潤，但這明顯低於輝達不僅在他們銷售的GPU上，而且在整個系統（包括CPU、交換機、NIC、系統記憶體、布線和連接器）上賺取的利潤。從Google的角度來看，每顆晶片在全規模部署下的TCO比輝達GB200伺服器低 44%。這足以彌補峰值FLOPs和峰值記憶體頻寬約10%的不足。為什麼Anthropic下注TPU？比較理論FLOPs只能說明部分問題。更重要的是有效FLOPs，因為峰值數字在實際工作負載中幾乎從未達到。輝達的優勢源於CUDA護城河和開箱即用的廣泛開源庫，幫助工作負載高效運行，實現高FLOPs和記憶體頻寬。相比較之下，TPU軟體堆疊開箱即用的性能較弱，然而Anthropic擁有強大的工程資源和前Google編譯器專家，他們既瞭解TPU堆疊，也很好地理解自己的模型架構。因此，彌補了這方面的不足。他們可以投資自訂核心以驅動高TPU效率，這使得他們可以達到比採用其他商用GPU更高的MFU（模型FLOPs利用率）和更好的每PFLOP成本性能（$/PFLOP）。另一個巨大轉變傳統上，TPU軟體和硬體團隊一直是面向內部的。這具有優點，例如沒有行銷團隊施加壓力來誇大所述的理論FLOPs。只面向內部的另一個優勢是TPU團隊非常重視內部功能請求和最佳化內部工作負載。缺點是他們不太關心外部客戶或工作負載。TPU生態系統中的外部開發者數量遠低於CUDA生態系統。這是TPU的主要弱點之一，就像所有非輝達加速器一樣。Google此後修改了針對外部客戶的軟體戰略，並已經對其TPU團隊的KPI以及他們如何為AI/ML生態系統做出貢獻做出了重大改變。其中有2個主要變化：在PyTorchTPU「原生」支援上投入大量工程精力；在vLLM/SGLangTPU支援上投入大量工程精力。通過查看Google對各種TPU軟體倉庫的貢獻數量，可以清楚地看到外部化戰略。從3月開始vLLM貢獻顯著增加。從5月開始，建立了「tpu-inference」倉庫，這是官方的vLLMTPU統一後端。Google在軟體戰略方面仍然處理不當的一個地方是，他們的XLA圖編譯器、網路庫和TPU執行階段仍然沒有開源，也沒有很好的文件記錄。這讓從高級使用者到普通使用者的各種使用者感到沮喪，因為他們無法偵錯程式碼出了什麼問題。此外，用於多Pod訓練的MegaScale程式碼庫也不是開放原始碼的。就像PyTorch或Linux開源迅速增加了採用率一樣，為了加速使用者的採用，Google或許應該將其開源，使用者採用率的增加將超過他們公開和免費提供的所有軟體IP。後續如果想要瞭解更深入的技術細節，比如Google獨有的ICI光互連技術到底有那些優勢，可以閱讀原文：https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the(新智元)