#CUDA
澤平宏觀—輝達之路:四次進化與AI未來
摘要“抓住風口”並非簡單的運氣,而是技術在長期積累後達到奇點,並與市場需求爆發形成的共振。輝達完美詮釋了這一規律。自ChatGPT問世後,其股價上漲10倍以上。在人工智慧的數千家企業中,輝達之所以能一騎絕塵,源於其在早期逆境中形成的深刻憂患意識、扁平化的高效管理文化,以及通過全端模式形成的強大市場心智。這使其在AI時代的浪潮中歷經四次關鍵進化,牢牢抓住了機遇。第一次進化始於2008年金融危機,在巨大的經營壓力和質疑下,力排眾議投入研發CUDA。這建構了輝達最核心的護城河,為其日後成為AI生態基石奠定了基礎。第二次進化以2012年AlexNet模型的成功為標誌,輝達敏銳地捕捉到GPU在AI訓練中的巨大潛力,果斷“All in AI”。第三次進化由2022年ChatGPT的發佈引爆,大模型領域的算力需求呈指數級增長,輝達成為這場“算力軍備競賽”中獨家的“賣鏟人”。第四次進化發生在2025年初,DeepSeek等低成本、高效率AI模型的出現一度引發市場對輝達邏輯的質疑。然而,訓練成本的降低反而促進了AI的普及和部署,最終擴大了對算力的總需求。解讀輝達的崛起之路,是為了尋找大牛股的底層邏輯:唯有那些能參透技術本質、勇於開拓市場、擁抱科技進步的企業,才能立於浪潮之巔。在AI時代,中國力量——國產替代與產業鏈自主化正成為中國市場的核心趨勢。建立獨立自主、安全可控的國產算力體系已成為必然選擇,以華為昇騰等為代表的核心晶片層正在突破,同時帶動了從高規格晶圓代工到AI伺服器等整個配套產業鏈的重構。未來,具身智能、AI超級應用以及由AI賦能的醫藥等領域科研是潛力最大的三大領域。1 為什麼是輝達?2024年6月18日,輝達市值超越微軟成為全球市值最高公司。2025年7月28日,輝達成為第一家市值超4.3兆美元公司,自1999年IPO以來復合年均增長率超過37%。輝達的成功和人工智慧密不可分,但AI產業上下游企業千余家,為什麼跑出來的是輝達?許多投資者認為輝達勝在技術。從技術的角度看,AI訓練投入資源越多效果就會更強,這是大模型發展的定律Scaling Law(縮放定律),而要支撐起海量的運算就離不開算力。輝達恰好是世界上最大的GPU廠家和算力硬體裝置供應商。但另一方面,顯示卡並非輝達獨有。ChatGPT爆發後自研算力晶片也成趨勢,特斯拉(Tesla)一直在推進 D1 晶片和 Dojo 超算平台的研發, Google的 TPU(張量處理單元)在 AI 訓練領域是輝達最強勁的競爭對手之一,許多大型模型(包括Google自己的 Gemini)都是在 TPU 上訓練。這樣看來,輝達的技術優勢只是成功的結果,但不是成功的核心。輝達的成功和一個人的成功一樣,除了技能一流,更關鍵是具備一些獨特的“品質”。在經營哲學上,輝達極為強調憂患意識。由於險些在30天內破產的早期經歷,“被對手超越只是瞬息之間”,這樣的意識促使員工無法安於現狀,CEO也不斷自我鞭策和學習,避免陷入“創新者窘境”。在管理上,輝達非常扁平化。這確保了員工在自己的工作上有極大的自主權和獨立性,但同時,CEO又以最嚴格、最快速、和最高品質的標準要求員工,強調每個人都追求極致,展現出超人的努力和韌性。輝達的市場策略和蘋果相似,重視客戶的心智建設,採用“全端”銷售模式,最佳化配套的各方面來提升體驗。輝達深知低成本競爭對手是最大威脅,因此從高端旗艦到中低端衍生產品全部覆蓋,防止競爭對手復刻輝達的翻身之路,以“老黃刀法”的精準定價鎖住市場需求。輝達獨特的經營哲學、管理文化、市場策略將其打造成一艘“堅船”,在時代的浪潮中,輝達歷經四次進化,牢牢把握住了人工智慧革命兆市場的機遇。2 輝達的四次進化大多投資者瞭解到輝達這家公司是在2022年ChatGPT興起之初,其股價一路高歌在三年內登上三兆美元。如果將投資視角拉長,站在價值增長的角度看,輝達嶄露頭角則可以追溯到2008年,一共經歷了四次“進化”。通過復盤其四大歷史性投資機遇,輝達為我們詮釋了價值演變的黃金法則。2.1 金融危機價值窪地,CUDA技術穿越周期2008年11月,輝達的投資者迎來了“最黑暗”的時刻,股價跌破6美元,在一年內下跌近80%。彼時正值美國次貸危機爆發,市場處於極度恐慌,輝達這類科技股作為高風險資產被大量拋售。對於輝達而言,雖然財務上最艱難的時期已經度過,台積電也與輝達聯手,但還面臨著兩大新的危機。一是美國次貸危機演變為全球金融危機,抑制了消費者對高端電子產品的需求,輝達的營收端面臨未知的挑戰。真正讓輝達倍感壓力的是一項名為CUDA的新任務,2007年6月輝達發佈第一款CUDA程式設計模型,隨後投入了大量資源,成本端的壓力增加,三年內毛利率下降了10%,大多數投資者也轉向悲觀,股價一路下行。而輝達低谷期研發的CUDA,也正好是今天造就輝達帝國最核心的壁壘。CUDA全稱“統一計算裝置架構”,能夠讓GPU進行圖形以外的計算。1999年輝達推出了世界上首款GPU(圖形處理器),彼時的CPU(中央處理器)承擔了複雜的核心計算任務,而GPU只用於電腦圖形渲染。2002年,輝達的一位客戶另闢蹊徑,將氣象領域的問題通過程式設計“翻譯”成GPU可以理解的語言,再用GPU強大的平行計算能力模擬了氣象變化。這便是早期基於GPU的通用計算,採用軟體拓展GPU的能力邊界,讓GPU不再侷限於圖形計算,而是可以用於其他複雜領域的模擬。輝達看到了這種嘗試的潛力,並聘用了這位客戶,進一步開發了讓GPU更容易訪問非圖形應用的程式設計軟體,將其命名為CUDA。CUDA的出現讓圖形程式設計之外的領域也能最大程度利用GPU——比如科研、金融、工程領域用GPU高效運算CPU難以獨立完成的任務,由此GPU具備瞭解決現實世界問題的潛力。當時輝達面臨兩種選擇:一是讓CUDA聚焦於服務高端科學和技術的工作站,他們的需求是清晰存在的,且價格承受能力也高,CUDA為公司帶來盈利的路徑明朗。二是讓CUDA對所有人可用,這樣做的風險極大,不僅是提供軟體支援的成本會驟增,還有定價過高導致的付費意願降低、市場需求不清晰等多種因素都可能讓輝達血本無歸。2006年,在GPU計算市場幾乎是零的背景下,CEO黃仁勳確立了“將CUDA技術推向所有領域,成為基礎性技術”的方針。推行該計畫的成本巨大。同年11月推出的G80晶片為了支援CUDA功能,研發成本佔到了輝達研發總預算的1/3,開發周期比以往晶片多出了三倍,而這還只是一款產品。G80發佈後華爾街幾乎一致認為輝達誤判了市場,走上了不歸路。在巨大的壓力下,輝達從零開拓起新市場,在時代助力和自身的堅持下完成了CUDA三步走變革。第一步,輝達早期先和高校達成特定捐贈的合作,提供顯示卡和財務支援來換取學校支援GPU程式設計教學,預先培養了輝達的潛在使用者和未來的開發者生態。第二步,在學術界建立起CUDA的灘頭陣地後,輝達繼續推動CUDA在消費市場的普及,老本行——電腦遊戲。個人電腦的興起和遊戲行業爆發讓GPU的通用能力嶄露頭角,從越來越逼真的物理現象、到光影細節的表現、複雜粒子效果等,遊戲消費升級的需求和複雜科研的演算法原理不謀而合,CUDA在消費級市場迎來了用武之地。第三步是2012年的深度學習革命,AlexNet團隊用四塊輝達GPU訓練的AI模型擊敗了16,000塊CPU訓練的Google貓,轟動學術界的同時,也標誌著歷時三十年的深度學習“冰河期”結束,人工智慧研究復甦,而輝達GPU和CUDA軟體也成了AI工作者的不二之選。截至今日,CUDA生態已有超過500萬開發者,服務於全球85%以上的資料中心,90%的AI框架基於CUDA開發,95%的AI訓練任務依賴CUDA工具鏈。誕生於20年前的CUDA儘管面臨巨大的市場壓力和投資者質疑,但先發優勢讓輝達打造了成功的第一印象,使用者黏性快速形成、並呈指數級增長。開發者一旦依賴CUDA工具鏈平台,遷移成本極高,從而形成輝達的核心護城河。2007-2009年的下跌構成了輝達投資的最佳窪地,但少有投資者抓住這一波機會,一方面是對金融危機的恐慌,另一方面是忽視了這家上市9年卻“業績平平”的科技公司正在推動的技術變革。輝達在CUDA技術上的堅持可謂最重要的決策,CUDA不僅是輝達的護城河,稱其為AI發展的生態基石也不為過。2.2 深度學習復興,輝達打造AI引擎輝達並非“天生贏家”,黃仁勳意識到AI機遇來自一場偶然。1956年達特茅斯會議首次提出人工智慧概念,但在經歷短暫的黃金期後發展陷入停滯。1982年,約翰·霍普菲爾德提出新的深度學習網路,可以模擬人類的學習、記憶和資訊處理方式,但卻受限於當時的算力條件,AI發展再次進入冰河期。直到20年後,深度學習和輝達走向交集,AI發展迎來了轉折點。2012年,傑佛瑞·辛頓牽頭訓練的AlexNet模型打破了第三屆電腦視覺挑戰賽記錄。挑戰賽規則很簡單,參賽團隊訓練的視覺識別模型要對來自資料庫隨機輸入的圖片進行分類。前兩屆的冠軍精準率不到75%,而AlexNet模型精準率高達84%,比第二名“Google貓”高出近十個點,後者是實力雄厚的Google團隊投入16,000塊CPU訓練的大規模神經網路,而前者只有三個人和四張輝達遊戲顯示卡。這一顛覆式的結果震動了AI界,讓沉寂20年的深度學習領域逐漸復甦。AlexNet的勝出帶來了三項影響後世的改變:一是產業界掀起了人工智慧的技術競賽,AI進入提速發展期。科技大廠Google、微軟、百度、DeepMind圍繞傑佛瑞·辛頓教授團隊展開競標。辛頓加入Google,剩下三家也擴大AI研究陣容。辛頓團隊中的一位學生伊利亞更是成為了後來OpenAI的首席技術官和ChatGPT的締造者。二是算力在AI三要素中脫穎而出,GPU成為了算力代名詞。2007年前,深度學習普遍認為演算法越優秀結果越準確,而李飛飛團隊提出了資料集是訓練關鍵,並贊助了電腦視覺挑戰賽。辛頓團隊在此之上驗證了GPU高效運算能讓精準率再上一個高度,GPU掀起了AI革命浪潮。三是輝達走上“All in AI”,專注於支援AI發展。AlexNet的成功是輝達的最好的商業宣傳,GPU從此和人工智慧訓練深度繫結。黃仁勳和辛頓團隊多次交談後認為GPU驅動深度學習的潛力巨大,雖然多位核心高管認為AI前景不明、反對大力投入,但黃仁勳力排眾議,促成輝達轉向全面支援AI研究。股價方面,輝達在AI領域的先登也被一些投資者敏銳地捕捉到,2012~2015年底輝達股價從14.3美元到33美元,復合年均增長率達到24.18%,同期標普500回報率是12.84%,納斯達克綜指是17.8%。三年翻倍的股價在美股並不算是大新聞,許多投資者會就此滿足,畢竟AlexNet的影響力還只是在AI圈內,輝達的真正潛力還未被市場發掘。2016年3月,AlphaGo以4:1的成績擊敗李世石,標誌著人類最後的棋類運動被AI攻克。對於許多人而言,這也是AI首次進入大眾視野。AlphaGo由Google旗下的DeepMind團隊開發,是深度學習復甦後的劃時代產物。此前,IBM的“深藍”超級電腦在1997年擊敗國際象棋冠軍,其算力相當於每秒110億次的計算能力,而AlphaGo的算力是前者的三萬倍,達到每秒3.386千兆次。賦予AlphaGo跨時代算力的正是280塊輝達GPU。深度學習訓練幾乎完全依賴GPU,再加上CUDA生態和硬體性能的極高壁壘,輝達成為毋庸置疑的AI算力領導者。人工智慧前景明朗、加密貨幣的興起、遊戲市場的繁榮,三重利多因素使得輝達股價在2016年迎來了首次大爆發。從1月的33美元漲到292美元僅用時兩年半,即便2018年10月加密貨幣泡沫破滅,輝達新款顯示卡的定價過高導致股價回呼,結果看,投資輝達的收益仍十分可觀,年化回報率達92.5%,三年漲幅達到540%。2.3 ChatGPT橫空出世,大模型領域需求爆發人工智慧的機遇是意識到AI大模型的通用潛能及其對算力的海量需求。而捕捉到這一投資機遇,就是挖掘輝達的估值根本從一家遊戲顯示卡龍頭轉變為“AI淘金獨家賣鏟人”的時刻。2022年3月,輝達發佈了革命性的Hopper架構(H100 GPU)和Ada Lovelace架構(RTX 40系列),用於AI訓練和遊戲的顯示卡性能都實現了飛躍。但這沒能阻止投資者繼續拋售輝達,由於加密貨幣暴跌和遊戲市場疲軟,年初至9月,輝達的跌幅達到62.8%。誰也不會想到,兩個月後輝達的估值邏輯將徹底改變,促成科技股載入史冊的投資機會。同年11月30日,OpenAI發佈了世上第一款大語言模型ChatGPT。這是人們可以用到的第一款聊天AI,和6年前的AlphaGo相比,前者只是下棋的演算法,而後者更像是具有智慧的個體。僅一年時間,ChatGPT的每周活躍使用者(WAU)就達到1億人,達到2億又用了9個月,到2024年12月,ChatGPT的周活躍使用者已經有3億人。OpenAI是AI浪潮的主角,但市場很快發現輝達才是最大贏家。輝達股價一路反彈,率創新高,一年漲幅達到246.73%。相比之下,OpenAI最大出資方——微軟的股價在這段時間上漲僅為65.14%。這是因為,ChatGPT成功的核心在於大規模訓練。它基於的3.0版本參數量高達1750億,是2019年GPT2.0的110多倍,進行如此大規模訓練需要足夠的算力支援。分析師測算下來OpenAI訓練用了至少一萬塊輝達A100顯示卡。ChatGPT打開了前景廣闊的AI藍海,一方面是上千家初創公司加入戰局,另一方面是科技大廠鞏固陣地,一場“算力軍備競賽”不可避免。2023年,輝達H100全球出貨規模達到500億美元,微軟、Meta、Google、亞馬遜、甲骨文、特斯拉、沙烏地阿拉伯主權基金、CoreWeave採購佔比超80%。2024年,AI算力競賽升級,科技巨頭以近乎不計成本的方式加大投入,輝達新的BlackWell架構一上市就得到微軟、Meta、Google價值百億級訂單。據測算,輝達全年H100/H200出貨量約400萬張,A100等其他產品出貨月200萬張,BlackWell架構因良率低出貨僅10萬張,台積電將80%產能分配給輝達而市場仍供不應求。只是提供“鏟子”還不夠,輝達全方位精準把控了市場需求。在ChatGPT發佈的三年前,黃仁勳就預見了人工智慧發展下資料中心負載和性能提升的巨大需求。2019年3月,輝達以69億美元收購了網路互聯裝置市場第一梯隊公司邁絡思。四年後,數以千計的AI公司加入大模型領域,它們不僅需要輝達顯示卡,還離不開邁絡思的InfiniBnad技術來高效地拓展計算能力。在 2024-2025 年,輝達成功將其護城河從單一的‘計算晶片’延伸到了‘叢集連接’。當成千上萬顆 GPU 協同工作時,通訊效率成為了系統的真瓶頸。通過 NVLink 和 InfiniBand 這種‘卡與卡、櫃與櫃’的超強連接,輝達實際上定義了‘叢集即電腦’(Cluster as a Computer)的行業標準,使得競爭對手即便能造出單顆性能相近的晶片,也無法在萬卡叢集的效率上與其抗衡。AI訓練的需求爆發讓輝達估值邏輯徹底轉變,抓住這一投資機遇的關鍵節點在2023年初。2022年12月,市場起初對ChatGPT維持將信將疑的態度,在發佈後的45天內,輝達漲幅僅25%,還經歷了25%的最大回撤。但在2023年1月底,形勢開始反轉,輝達發佈2023財年業績(2022年),其智算業務收入首次超過了遊戲顯示卡成為第一大營收來源,達到150億美元,這意味著ChatGPT發佈前智算訂單就大幅增長,外部AI需求前景已經明朗,而輝達作為GPU領域龍頭,未來業績極有可能迎來爆發。果然,2023年,輝達營收同比增長125.85%,2024年同比增長114.2%,營收突破1300億美元。在市場主力猶豫時,勇於買入輝達的投資者也收穫了驚人的回報,兩年內,輝達的股價上漲925.24%,年化收益率達到205.63%。2.4 DeepSeek衝擊估值回呼,產業擴容再創新高2024年末,輝達被買成了全球最受歡迎的公司,不僅市值超越微軟成為第一,兩年來的總成交額也達到14.13兆美元,相當於同年的日本、德國、英國、法國GDP之和。市值屢創新高的同時,輝達面對的質疑也越來越多,主要來自三方面:一是輝達業績高速增長的可持續性存疑。2023到2024年,主要科技大廠都完成算力基建部署,2025年之後訂單實現翻倍式增長很難。二是輝達的技術壁壘可能在鬆動。算力軍備競賽也掀起了自研AI晶片的趨勢,輝達的市場份額可能在未來被後發者蠶食。三是輝達估值的整體想像空間或已見頂。從常規的企業發展周期來看,“成功者困境”無法避免,許多龍頭企業在到達巔峰後都面臨著成長困境,輝達的進步空間似乎不多了。2025年1月20日,DeepSeek R1模型開源,引發美國科技股震動,一度跌去一兆美元。其中,輝達股價跌去近17%,市值蒸發近6000億美元,創下美股史上最大單日市值下跌紀錄。DeepSeek的出現似乎印證了投資者對輝達的質疑。為何市場擔心這會撼動輝達的市場根基?DeepSeek出現前算力是第一要素。AI能力的提高依賴於參數量的增加,而更大參數量的訓練則需要匹配的算力規模。在2023~2024年,AI巨頭通過堆算力來堆大模型性能,形成了“打造比GPT更好的AI等同於比OpenAI有更多算力”的共識,比如,馬斯克為了xAI彎道超車,建構了全球最大的20萬張GPU算力群。DeepSeek跨越了算力壁壘,實踐了以低成本達成高效率的全新架構。其V3模型與GPT-4o和Llama-3.1表現不相上下;而R1模型達到了ChatGPT-o1級的表現,但訓練成卻僅相當於後者的十分之一。DeepSeek在GPU數量和質量上都落後於美國企業,卻通過演算法最佳化、架構創新打造了實力相當的模型,顛覆了“AI訓練必依賴強大算力”的認知。這場AI訓練變革削弱了算力的重要性。當AI訓練不再需要高成本、大規模的算力投入,輝達GPU需求預期減少,資本市場也快速改變了對輝達的估值,在歷史高點的輝達股價十分脆弱。“擊敗”輝達的不是業績減速,也不是更先進的GPU,而是AI訓練的變革,但變革自身也在發展中變化。舊的壁壘被瓦解,新的藍海在湧現。從長期維度看,DeepSeek出現是對輝達的一次空前利多。一是訓練變革會帶來AI部署降本,市場總量擴容。AI的訓練成本下降會在短期內造成上游的營收下降,但也意味著AI部署和使用成本同步下降,更多的廠商加入賽道,促進AI技術迭代。同時,更多使用者能以低成本使用AI服務,訪問增加推動需求總量增加,加速AI商業化和大規模普及處理程序,這是產業生態迎來爆發的前兆。二是訓練變革只是降低現階段成本,無法提高上限。DeepSeek模型在性能和當代主流模型不相上下,但沒有突破現有邊界。換言之,“再造一個GPT”對算力的需求大幅下降,但超越GPT在根本上還是離不開更強大的算力支援。因此,那些希望掌握行業主導權的AI科技巨頭對輝達GPU的需求依然會穩定增長。事實也確實如此,DeepSeek的火爆後,雲端和本地部署需求激增,推理服務的火爆引發了對輝達GPU的更大需求。同時,科技巨頭一邊效仿DeepSeek開源和最佳化,另一邊卻並未停止算力軍備競賽。DeepSeek 的邏輯在於:它證明了‘重演算法、輕訓練’的可行性,這標誌著 AI 產業正式從‘算力密集型訓練階段’轉向‘規模化推理應用階段’。雖然單次訓練成本降低了,但隨著 AI Agent(智能體)和超級應用的普及,全社會對推理算力的總需求量呈幾何級數增長。輝達通過推出專為推理最佳化的晶片和軟體棧(如 TensorRT-LLM),精準吃掉了這一增量市場。市場對輝達的判斷很快迎來反轉。2025年1~4月輝達跌去18.9%,5~7月反彈漲幅達到64.13%,市值突破了2024年底來到4.3兆美元,超過特斯拉、AMD、英特爾和帕蘭提爾四家市值的總和。輝達的這次逆境反轉是重要的一課:投資是動態的過程,對行業和公司投資邏輯的推導不能停留在短期事件的後果上。2025年初,許多分析師將DeepSeek描述成輝達的“掘墓人”,但卻忽視了訓練效率的提升是行業進化的催化劑,輝達從估值瓦解到登上新高不過半年。3 AI浪潮:未來十年有那些機會?3.1 AI時代的關鍵能力AI在許多領域的工作效率已經遠超人類,直覺上,人工智慧似乎必定會勝任各種職業和場景,逐漸取代人類。事實上,淘汰與否的關鍵在於“主動價值原則”:一個人產出價值的過程越主動,意味著自主決策佔比高、思考多、創造性強,越難以被新工具所替代。歷史上,雖然每次技術進步的方向不同,但無一例外都遵循這一原則。第一次工業革命,船伕被蒸汽機替代,但舵手卻保留了下來。即便在今天,舵手也無法被AI取代,AI可以協助觀測等任務,但決策核心仍在船長(首席舵手)手中。技術革命中,最容易被淘汰的是價值創造被動的人。在AI時代,價值創造被動的人無法主導決策,使用AI越多就會越依賴AI系統,逐漸失去自主思考能力。而那先原本就擅長思考、創新、自主判斷的人,只會因為使用AI變得思維更迅捷、效率更高。黃仁勳本人也分享:他用AI不是讓AI替自己思考,而是用AI教會他新東西。這也引出了一項AI時代的重要能力——提問和引導的能力。人和AI互動靠的是幾行提示語、提問句還有後續的引導詞。雖然AI能快速寫文案、做視訊、編程式碼,但產出的質量高低完全取決於人的水平。同樣一類AI畫作,在業餘愛好者和專業畫師的提示詞下生成的作品差距極大,AI實際上是折射了不同人的想像力和對藝術理解深度。換言之,人要擁抱“建構想法的創造力”,放下“把事情做出來的能力”。AI時代,人們要更多的閱讀、學習技能、深度思考,以此拓寬創造力邊界。因為向AI提要求,本質上也是對自身能力深淺的檢驗。比如,AI程式設計的出現讓一些初級程式設計師如獲至寶,但隨即而來的是面臨失業。與此同時,成熟的軟體工程師卻在新鮮感後抱怨AI程式設計的“愚蠢”,因為AI程式設計的能力十分基礎,遠達不到成熟開發的要求。由此可見,AI篩選的不是崗位,而是人。同一崗位、同一工作,也存在價值創造的主動和被動之分。有的人主動學習,提升自己,參透了規律和本質,善於向AI提問,充分發揮AI的效率優勢。還有的被動依賴AI投喂答案,缺乏自主思考,雖然短期產出提升,但也終將被淘汰。在瞬息萬變的AI時代,投資者抓住風口的核心也是在於學習,否則只會在時代的篩選中退場。3.2 國產替代和產業鏈自主化潛力對於晶片這個特殊行業,必須注重外部供應的特殊性和產業本土化安全性權衡。比如美方或通過試圖在出口晶片中加入“追蹤定位”和“遠端關閉”等功能,這未來對資料安全是一種威脅。另一方面,H20確實作為“特供版”晶片,有性能被削弱的問題,從技術和經濟效益角度看,無法支撐中國兆級大模型訓練的長遠需求。這雙重壓力共同將一條路清晰地擺在了所有中國科技企業和投資者的面前:建立獨立自主、安全可控的國產算力體系。這也正是未來幾年中國最重要的產業趨勢和投資機遇。機會一:國產替代國產替代已是在中國晶片領域的“必答題”。這不僅是政策驅動,更是市場求生的內在需求。圍繞國產晶片的生態正在加速形成:比如在核心晶片層,以華為昇騰、寒武紀、海光資訊等為代表的ASIC和GPU廠商,正在從不同技術路線進行突破。特別是華為昇騰910B在部分場景下據稱已達到輝達A100的80%性能,並正通過全端的軟硬體生態CANN、MindSpore等建構護城河。在配套產業鏈方方面,從中芯國際的晶圓代工,浪潮資訊的AI伺服器,到兆易創新等的儲存環節,整個產業鏈條正在圍繞國產核心進行重構。關注國產替代,就是要尋找那些技術領先、生態建構能力強、且已經獲得頭部廠商驗證的。機會二:尋找“下一個輝達”必須客觀認識到,輝達的護城河不僅僅是一塊GPU晶片,而是其耗費十餘年心血打造的CUDA生態系統。全球絕大多數AI開發者、深度學習框架如TensorFlow, PyTorch都深度繫結CUDA。這是一個贏者通吃的網路效應。中國公司想要突圍,不能僅僅是硬體性能的追趕,更關鍵在於軟體生態的建構。目前來看,華為昇騰是中國最有可能率先突圍的。正建構從底層硬體、晶片使能、AI框架到應用使能的全端解決方案。通過與國內高校、科研機構和企業的合作,昇騰正在努力擴大其“朋友圈”,培養開發者習慣,這是追趕CUDA生態最現實的路徑。在後摩爾定律時代,通過Chiplet芯粒結構、存內計算等新架構創新,有可能在特定領域實現對傳統GPU架構的性能超越。這是技術驅動型的顛覆機會。尋找“下一個輝達”的邏輯,要求具備更長遠的眼光和對技術生態更深刻的理解。3.3 AI潛力最大的三大領域從第一性原理來出發:人工智慧是資料驅動的機率關聯,目標是完成對自然法則和因果規律的掌握。理論上AI適用於所有行業和領域。但在不同領域存在落地先後之分。將AI應用潛力最大的領域分為三大類:一是具身智能,讓AI擁有感知世界能力的路線。從多模態大模型、到自動駕駛、人形機器人和無人機等,賦予AI物理形態和感知學習能力的具身智能會加速落地。長期看,具身智能的商業化鋪開需要多方面技術進步來實現,主要是資料訓練演算法的周期長、硬體成本高、工程設計的難度大。當下智能駕駛的技術離成熟應用最接近,在監管適配的過程中大規模普及只是時間問題。人形機器人在2025年概念火熱,但受限於續航、靈巧手、環境資料等因素還難以滿足大規模落地條件。二是超級應用,在C端開啟新互動革命,在B端打造高效率工具。比如,消費電子端的AI眼鏡、AI手機、AI PC等升級成為互動載體。在此基礎上,AI Agent、AI作圖、AI助力等原生AI應用構成AI生態,AI功能融入日常生活。在B端也賦能專業領域,AI教育上實現遠端教學,AI醫療輔助手術,工程領域協助設計搭建等,比如B端AI賦能的半導體設計行業。晶片工程師在AI的幫助下可以僅用高級抽象概念來設計和模擬晶片。三是AI科研,解決傳統科研處理程序中的瓶頸。相比於傳統科研,AI在探索廣度、計算深度、實驗速度、跨學科能力四個方面都更強,因此在科研上極具優勢。比如AI用於對環境要求嚴苛的氣象領域,研究耗時長的分子領域;成本高、涉及跨學科多的生物醫學、以及人類還在攻堅的量子系統領域。黃仁勳也曾在2023年預測數字生物學是未來方向。AI使得人類可以首次對生物學進行數位化設計,科學界可以更深入地模擬生物系統的結構,開發非自然形成的新分子結構和蛋白質藥物。此外,AI上游的關聯產業也充滿機遇。比如半導體製造,中國的自主化處理程序在加快,而國際上先進製程也在2025年迎來了2nm突破,新一輪半導體革命未來可期。再比如能源領域,全球資料中心增長正面臨供需錯配問題,一方面擴大綠電體系建設為AI基建保駕護航,同時提高能源利用率,降低能耗成為共識。輝達的崛起是一場長達 20 年的“非對稱競爭”的勝利——用全端的軟體生態鎖死硬體競爭,用極度的憂患意識跑贏摩爾定律。在大航海時代,財富流向了擁有指南針和堅船的一方;在 AI 時代,財富正流向那些能定義算力標準、並不斷突破自然科學邊界的企業。對於我們,國產替代不是為了重複造輪子,而是為了在新的技術高地上,拿回屬於我們的數字主權。 (澤平宏觀展望)
“20年來最大更新”,輝達CUDA帶來了什麼?
2025 年 12 月,NVIDIA 推出 CUDA 13.1,此次更新被官方定位為“自 2006 年 CUDA 平台誕生以來最大、最全面的升級”。其核心亮點之一,是引入了新的程式設計模型 CUDA Tile。這個變化,有可能不僅僅是一項技術迭代,而是標誌著 GPU 程式設計範式邁入一個新的階段。CUDA 13.1 + CUDA Tile:到底帶來了什麼新東西?CUDA Tile 是一種基於 tile(瓦片、資料區塊)的 GPU 程式設計模型。與傳統的 SIMT(single-instruction, multiple-thread,多線程單指令流)方式不同,Tile 程式設計允許開發者將資料組織為tile (例如矩陣塊、張量塊、資料區塊),然後對這些 tile 進行操作,由編譯器和執行階段負責將它們對應到底層線程、記憶體佈局、專用硬體等資源。換句話說,開發者只需專注對塊做什麼計算,無需關心那個線程做那一部分、怎樣同步的問題。為了支援 Tile,NVIDIA 在 CUDA 13.1 中引入了虛擬指令集 (Tile IR),並配套提供 cuTile。這是一個允許用高級語言編寫 tile-based kernel 的工具,通過 cuTile,開發者可以用熟悉的 Python 編寫 GPU kernel,從而極大降低 GPU 程式設計的門檻。根據官方描述,Tile 程式設計並不是要取代 SIMT,而是作為一種並存或可選的程式設計路徑。也就是說,開發者根據需求,可以繼續使用傳統 SIMT,也可以在適合場景下使用 Tile。CUDA 13.1 除了 Tile,還對執行階段(runtime)和工具鏈進行了升級,例如對 GPU 資源調度與管理機制進行了增強,使 GPU 的多工、並行、異構任務支援更靈活可靠。官方同時對數學計算庫(如矩陣、張量庫)與底層支援的相容性進行了最佳化,以更好支援未來 GPU 特性(例如 tensor core、多級快取、異構資源分配等)。由此看來,這次更新不僅是對程式設計模型的改變,也為建構新一代高層、跨架構 GPU 的計算庫、框架和DSL 奠定了基礎。綜合來看,CUDA 13.1 + CUDA Tile 的意義,不僅在於新增一個功能或對性能進行最佳化,而更在於為 GPU 程式設計提供了一個新的、更高層、更抽象、更便捷,且可維護和可移植的選項。GPU 越來越複雜,手動管理變得不足夠隨著 GPU 架構不斷演進,引入越來越多專用硬體(例如 tensor core、混合精度加速、多級快取與記憶體層次、異構資源、多流或多工支援等),底層硬體複雜度大幅增加。對開發者而言,手動管理線程、同步、記憶體佈局、調度、硬體相容性等負擔越來越重。傳統 SIMT 模型雖然靈活,但對高性能、可移植、可維護的要求而言,其複雜性和維護成本日益凸顯。在這種背景下,Tile 程式設計所引入的高層抽象、由系統負責的資來源對應、調度、硬體利用,恰好切中了現實需求。對於AI、大規模矩陣、張量計算、科學計算、深度學習等領域,非常具有吸引力。NVIDIA 官方也明確指出,Tile 的設計初衷是為了幫助建立適用於當前和未來 GPU 的軟體。借助 cuTile (Python DSL),許多過去因為不擅長 CUDA C、對底層 GPU 程式設計不熟悉的資料科學家、研究者,也可能開始編寫 GPU 加速程式碼。對於深度學習、科學計算、AI 團隊或高校研究機構來說,這意味著 GPU 加速不再只屬於少數 GPU 專家核心團隊,而可能被更多人使用。此外,對於那些需要跨 GPU 架構的團隊來說,一次編寫、多代相容的可能性,將大大降低重構、最佳化和維護的成本。(來源:輝達)同時,Tile 提供了一條新的 GPU 程式設計路徑。這條路徑不僅對單個項目或團隊有利,也可能促使整個 GPU 軟體生態走向更高層、更抽象、更通用、更易維護和跨架構相容。這種變化對未來 GPU 程式設計規範化、標準化以及廣泛應用具有潛在推動力。這次更新可能不僅僅是一個版本號的提升,而是 GPU 程式設計範式的一次質變。從硬核到普惠的轉折點在技術社區中,CUDA 13.1 的發佈引發了截然不同的兩種情緒,而這恰恰印證了這次更新的變革性。對於資深的高性能計算(HPC)工程師而言,反應是複雜的。一方面,他們習慣了對每一個暫存器、每一塊共用記憶體(Shared Memory)的精細控制,CUDA Tile 這種將細節交給編譯器的做法,不可避免地引發了關於性能上限的討論。正如在 Reddit 和 Hacker News 上一些硬核開發者所擔憂的:“我們是否正在用極致的性能換取開發的便利性?”然而,對於更廣泛的資料科學家和 AI 演算法工程師群體,這無疑是一個好消息。長期以來,將 PyTorch 或 TensorFlow 中的高層邏輯轉化為高效的 CUDA 核心程式碼,是一道難以踰越的技術鴻溝。cuTile Python 的出現,實際上是在填平這道鴻溝。它意味著開發者不再需要精通 C++ 和電腦體系結構,僅憑 Python 就能觸達 GPU 80% 甚至 90% 的理論性能。這種性能平權可能會引爆新一輪的 AI 算子創新。當編寫一個高效的 Attention 變體不再需要兩周的 C++ 偵錯,而只需一下午的 Python 指令碼時,創新的飛輪將轉得更快。(來源:Shutterstock)競爭格局的深層變化:從程式碼相容到架構抽象在 CUDA 13.1 之前,競爭對手(如 AMD 的 ROCm 或 Intel 的 OneAPI)主要的追趕策略,是通過相容層(如 HIP)來轉譯現有的 CUDA 程式碼。這種策略主要基於 C++ 語法的相似性。然而,CUDA Tile 的出現改變了這種競爭的維度。通過引入 Tile IR(虛擬指令集)和高層抽象,NVIDIA 實際上是在硬體和軟體之間增加了一個更厚的中間層。當開發者開始習慣使用 Tile 程式設計模型,更多地關注資料區塊的邏輯而非底層線程調度,程式碼與底層硬體的解耦程度變得更高。這意味著,程式碼的執行效率將更多地依賴於編譯器如何理解和最佳化這些 Tile 操作。對於競爭對手而言,要支援這種新模式,僅僅做程式碼轉譯是不夠的,還需要建構一個同樣智能的編譯器來處理這些高層抽象,這無疑增加了技術對齊的難度,也客觀上提高了生態系統的粘性。面向雲環境的演進:Green Contexts 的實際價值除了程式設計模型,CUDA 13.1 在執行階段環境上的改進,特別是 Green Contexts 從驅動層走向執行階段 API,反映了 GPU 使用場景的結構性變化。在 Blackwell 架構時代,GPU 已經從單純的加速卡轉變為資料中心的核心算力單元。隨著單卡算力(如 B200 系列)的大幅提升,對於許多單一任務來說,獨佔整塊 GPU 往往是一種資源浪費。Green Contexts 允許開發者或系統管理員在執行階段更安全、更細粒度地劃分 GPU 資源(SM)。這在技術上解決了多工平行時的干擾問題,使得 GPU 能夠像 CPU 一樣,高效、穩定地同時處理多個使用者的任務。對於雲服務商和企業內部的算力調度來說,這直接提升了昂貴硬體的利用率和投資回報率。新的挑戰:抽象化帶來的黑盒隱憂當然,這種向高層抽象的演進也並非沒有代價。CUDA Tile 帶來的最大挑戰在於偵錯與性能最佳化的透明度降低。在傳統的 SIMT 模式下,開發者清楚地知道每一行程式碼對應什麼指令,資料在暫存器和記憶體間如何移動。而在 Tile 模式下,編譯器接管了大量的資料佈局和對應工作。一旦性能不如預期,或者出現非功能性 Bug,開發者可能會發現很難像以前一樣精準定位問題。雖然 NVIDIA 在 Nsight 工具鏈中增加了對 Tile 的支援,但如何讓開發者理解編譯器的最佳化邏輯,而不是面對一個無法干預的“黑盒”,將是這一新模式能否被資深開發者廣泛接受的關鍵。此外,這也意味著軟體性能將更加依賴於 NVIDIA 編譯器團隊的最佳化水平,而非開發者個人的微調能力。CUDA 13.1 的發佈,本質上是 NVIDIA 應對硬體複雜度爆發的解決方案。通過 CUDA Tile,NVIDIA 試圖建立一種新的分工模式:開發者專注於高層的演算法邏輯與資料流,而將複雜的硬體適配工作交給編譯器和執行階段環境。這不僅降低了高性能計算的門檻,也讓 CUDA 平台在異構計算和雲原生時代,具備了更強的適應性和生態掌控力。對於開發者而言,這或許意味著是時候調整思維習慣,從微觀的線程管理,轉向宏觀的資料區塊編排了。 (問芯)
或許CUDA不再是唯一:詳解輝達的兆帝國與GoogleTPU的十年暗戰
最近美股金融市場風雲變化,疊加DIY市場儲存晶片大幅漲價,所以我們暫時拋開開源和閉源模型不談,聊聊美國最大的AI鏟子售賣商-輝達和Google的角色關係01. 歷史復盤:一場持續17年的“豪賭”很多非技術出身的投資者認為輝達的爆發是運氣,正好趕上了ChatGPT的風口。但其實這是一場長達17年的蓄謀已久的策劃。故事的轉折點不在1993年的創立,而在2006年。那一年,輝達推出了CUDA(Compute Unified Device Architecture)。在當時,這被視為一個瘋狂的決定——在每一塊GPU上增加專門的邏輯電路,允許程式設計師呼叫顯示卡進行通用計算(GPGPU)。這意味著輝達在硬體成本上升的同時,還要投入巨資去維護一套當時沒人用的軟體生態。華爾街當時對此嗤之以鼻,認為黃仁勳瘋了。但正是CUDA,將GPU從單純的“圖形渲染器”變成了“數學加速器”。2012年的伏筆: AlexNet在兩塊GTX 580顯示卡上訓練了6天,碾壓了傳統演算法。深度學習(Deep Learning)的大門被踹開,科學家們驚訝地發現:原來GPU這種幾千個核心平行計算的架構,天生就是為了跑神經網路而生的。從那以後,輝達就不再是一家遊戲硬體公司,它變成了一家AI計算平台公司。當2017年Transformer架構提出,2022年ChatGPT爆發時,輝達是全場唯一一個準備好了全套“軟硬一體”方案的玩家。02. 護城河:不僅是晶片,是“全端”現在的輝達,強在那裡?如果你只盯著它的主營業務——資料中心(Data Center),你會看到驚人的財務資料。在最新的財報中,資料中心業務營收佔比已超八成,毛利率一度突破75%。這在硬體行業是違反常識的。之所以能做到這一點,是因為輝達賣的從來不是裸片(Silicon)。它賣的是DGX系統,是NVLink(讓成千上萬塊顯示卡像一塊顯示卡那樣工作的高速互連技術),更是NVIDIA AI Enterprise軟體套件。在AI開發者的世界裡,CUDA構成了最深的護城河。所有的主流框架(PyTorch, TensorFlow)、所有的開源模型(Llama, Mistral),默認的第一適配對像永遠是輝達。這種“開發者習慣”的粘性,比硬體本身的性能差距更難被踰越。03. 房間裡的巨象:GoogleTPU與CSP的起義然而,盛世之下,危機四伏。輝達的統治力並非牢不可破。 而撕開這道口子的,正是它最大的客戶之一—Google。早在2015年,Google就敏銳地意識到:如果不自研晶片,未來將被輝達卡死。 於是,TPU(Tensor Processing Unit) 誕生了。這就引出了輝達目前面臨的最大困境:通用GPU vs 專用ASIC的路線之爭。GPU(輝達)的邏輯: 我是通用的,我什麼都能算,從天氣預報到大模型訓練,靈活性無敵。但代價是功耗高、價格貴。ASIC(如GoogleTPU)的邏輯: 我專門為矩陣乘法設計,專門為TensorFlow/JAX框架最佳化。我不做圖形渲染,我就跑AI。因此,我在特定場景下能效比更高,成本更低。GoogleTPU的威脅有多大?如果你看DeepMind的Gemini、阿法狗(AlphaGo),甚至蘋果最新的Apple Intelligence伺服器端訓練,它們很多並沒有依賴輝達,而是建構在Google的TPU叢集之上。不僅是Google,這是一場“CSP(雲服務提供商)的起義”。亞馬遜 AWS 有 Trainium 和 Inferentia;微軟 Azure 推出了 Maia 100;Meta 也在推自研 MTIA 晶片。這些科技巨頭每年向輝達採購數百億美元的晶片,但他們內心極度渴望擺脫這種“被收稅”的狀態。這種客戶即對手的博弈,將是未來3-5年AI硬體領域的主旋律。04. 未來的困境:推理(Inference)市場的變數其實對於輝達來說,另一個隱憂在於AI工作流的重心轉移。過去幾年是訓練(Training)的時代,大家都在拚命燒錢練大模型,這時候必須用輝達,因為只有它能提供萬卡叢集的穩定性。但未來5年,我們將進入推理(Inference)時代。也就是模型練好了,大家開始大規模呼叫API,開始在手機、PC、邊緣裝置上運行模型。在推理市場上,輝達的優勢會被削弱。成本敏感: 推理不需要訓練那麼大的算力,企業更看重性價比。專用的推理晶片(如Groq、各大廠自研晶片)可能會比昂貴的H100/B200更具吸引力。軟體解耦: 隨著PyTorch 2.0和OpenAI Triton等編譯器的發展,開發者正在試圖打破CUDA的壟斷。如果有一天,程式碼可以無痛地遷移到AMD或自研晶片上,輝達的高溢價還能維持嗎?05. 結語目前的輝達,依然是當之無愧的王者。Blackwell架構的推出,再次拉大了它與競爭對手的代差。在“訓練超大模型”這個塔尖領域,它依然沒有替代品。但從產業演進的角度看,任何單一公司的壟斷都是暫時的。金融市場上,巴菲特管理的‌波克夏公司斥資43億美元首次建倉Google母公司‌Alphabet,使其成為第十大重倉股,這再次證明了,Google在AI發展路徑走在了更符合投資者期待的路徑上,足夠的落地應用轉化,才是AI最終的歸宿。AI產業正在從“輝達一家獨大”走向“一超多強、專用晶片遍地開花”的戰國時代。GoogleTPU已經證明了ASIC路線的可行性,而開源社區正在努力填平軟體鴻溝。或許對於輝達而言,未來的敵人不是AMD,而是那些正在試圖用更高效、更廉價的算力架構,去重構整個AI成本模型的“前戰友”們。 (Diffusion Atlas擴散圖譜)
SemiAnalysis:CUDA被撕開第一道口子!谷歌TPUv7向王者發起挑戰
CUDA被撕開第一道口子!GoogleTPUv7干翻輝達【新智元導讀】當Google不再只滿足於「TPU自己用」,TPU搖身一變成了輝達王座下最鋒利的一把刀!CUDA護城河還能守住嗎?讀完這篇SemiAnalysis的分析,你或許會第一次從「算力帳本」的視角,看懂Google暗藏的殺招。GoogleGemini 3的成功,讓其背後的TPU再次成為全世界關注的焦點。資本市場給出了明確的反應,Google股價的上漲,也讓一個話題再次被拿到牌桌上討論:GoogleTPU是不是真的能和輝達GPU掰一掰手腕?尤其是TPUv7更是人們討論關注的焦點,這款專門為AI設計的晶片是否能夠打破輝達多年來的GPU形成的壟斷?眾所周知,SemiAnalysis是一家在科技界,尤其是半導體和人工智慧領域極具影響力的精品研究與諮詢公司。它以硬核、深度的資料分析著稱,不同於泛泛而談的科技媒體,它更像是一個服務於華爾街投資者、晶片巨頭和AI從業者的「行業智庫」。剛剛,他們最新的文章給出一個明確的結論:TPUv7首次向輝達發起了衝鋒。而且這一篇文章由12位作者共同撰寫,可見份量之重。這篇文章深入剖析了GoogleTPUv7如何向輝達的AI硬體霸權發起實質性挑戰。核心轉折點在於:Google打破長期以來的內部自用慣例,開始向Anthropic等外部客戶大規模出售TPU硬體及算力,後者已部署超過1GW的TPU叢集。儘管在單晶片理論參數上TPU未必碾壓輝達,但Google憑藉卓越的系統級工程(如ICI互聯和光路交換)實現了極高的實際模型算力利用率(MFU),且總體擁有成本(TCO)比輝達GB200系統低約30%-40%。Google正通過支援PyTorch原生環境和vLLM等開源生態,積極修補軟體短板,試圖從根基上瓦解CUDA的護城河。CUDA護城河能否被終結?TPUv8和輝達下一代AI新品Vera Rubin,誰更強大?接下來的內容,會給你答案。TPUv7:Google向王者發起挑戰輝達堅不可摧的堡壘,出現了一絲裂痕。目前,世界上最頂尖的兩個模型——Anthropic的Claude 4.5 Opus,以及Google的Gemini 3,它們絕大部分訓練和推理基礎設施,都運行在Google的TPU和亞馬遜的Trainium上。其中的Gemini 3,以及其所有早期版本的Gemini,則是完全在TPU上進行訓練的。這還不算,Google正在向多家公司出售商用的TPU硬體。輝達的王座迎來了新的挑戰者。早在2006年,Google就有過建立AI專用基礎設施的想法。但一直到2013年,Google才開始為TPU晶片奠定基礎,並在2016年將其投入生產。同一年,亞馬遜也啟動了Nitro計畫,該計畫專注於開發晶片以最佳化通用CPU計算和儲存。如今,通過推進TPU商業化,Google已經成為輝達最新且最具威脅的挑戰者。Gemini 3發佈後,市場反響強烈。輝達還專門為此發佈了一條官方推文,恭喜Google在AI領域的進展,同時不忘強調自己依然遙遙領先。在推文中,輝達強調自己仍在持續向Google供應硬體,並表示自己依然領先行業一代,是唯一能夠運行所有AI模型、並能在各種計算場景中使用的平台。同時,強調GPU比專用晶片(ASIC)在性能、通用性和可替代性上更強,這句話明顯是對GoogleTPU、AWS Trainium等專用晶片的回應。突然崛起的TPU在過去的幾個月裡,GoogleDeepMind的Gemini 3、Google雲以及TPU綜合體,賺足了眼球,也將Google母公司Alphabet的市值推高至接近4兆美元。TPU產量大幅上調,Anthropic、Meta、SSI、xAI、OAI等TPU的客戶名單正在不斷擴大,這些推動了Google和TPU供應鏈的大幅重新評級,無疑也將壓制以輝達GPU為重點的供應鏈。除了面對TPU的壓力,輝達還面臨著通過「循環經濟」造成AI泡沫的質疑,許多質疑者認為輝達通過資助燒錢的AI初創公司,本質上是將錢從一個口袋轉移到另一個口袋。輝達對此的回應SemiAnalysis認為更合理的解釋是:輝達旨在通過股權投資而非降價來保護其在基礎實驗室的主導地位——降價將拉低毛利率並引發投資者普遍恐慌。下文將通過解析OpenAI與Anthropic的合作模式,展示前沿實驗室如何通過採購(或威脅採購)TPU來降低 GPU 的總體擁有成本(TCO,Total Cost of Ownership)。總擁有成本(TCO)模型、Anthropic和OpenAI雖然OpenAI目前尚未部署TPU,但僅憑「轉向TPU」這一可能,就已在其輝達叢集成本上節省約30%。簡單來說,OpenAI並沒有真的把Google的TPU晶片插進伺服器裡跑任務,而是把「我隨時可能改用TPU」作為一個巨大的談判籌碼,迫使輝達為了留住這個大客戶,變相給予了巨額優惠。GoogleTPU的大規模外部化TPU堆疊長期以來一直與輝達AI硬體相抗衡,但它主要是為了支援Google的內部工作負載。即使在2018年向Google雲平台客戶提供TPU之後,Google仍未將其完全商業化。如今,這種情況正在開始改變。在過去的幾個月裡,Google已經動員了整個堆疊的努力,通過Google雲平台或作為商用供應商銷售完整的TPU系統,開啟了TPU大規模商用的步伐。這一舉措也使這家搜尋巨頭成為一個真正差異化的雲提供商。與此同時,Google的頂級客戶Anthropic也在繼續推動擺脫對輝達單一依賴,兩者在採用TPU上一拍即合。與Anthropic的交易,標誌著TPU規模化商用的一個重要里程碑。那麼,Anthropic和其他客戶為什麼想要Google的TPU?答案很簡單。TPUv7 Ironwood是一個優秀系統內的強大晶片,即使晶片在參數上落後於輝達,Google的系統級工程也使得TPU堆疊在性能和成本效率方面都能與輝達相匹配。這種組合為Anthropic提供了引人注目的性能和TCO,因此贏得了其大規模的訂單。與輝達通過GB200擴展其GPU生態一樣,Google自2017年TPUv2以來,也一直在機架內和跨機架擴展TPU。Google的ICI擴展網路,也與輝達NVLink匹敵的競爭對手。如今,預訓練前沿模型仍然是AI硬體中最困難和資源最密集的挑戰。自2024年5月GPT-4o以來,OpenAI的頂尖研究人員尚未完成廣泛用於新前沿模型的成功全規模預訓練運行,而TPU平台則通過了這一測試。對於Google來說,在最具挑戰性的硬體問題之一中悄悄擠入並建立性能領先地位,確實是一個令人印象深刻的壯舉。微架構仍然很重要:Ironwood接近Blackwell雖然Google一直在推動系統和網路設計的邊界,但從一開始,Google在晶片方面的設計理念相對於輝達就更為保守。歷史上,TPU的峰值理論FLOPs明顯較少,記憶體規格也低於相應的輝達GPU。其中有3個原因。首先,Google對其基礎設施的「RAS」(可靠性、可用性和可服務性)非常重視。Google寧願犧牲絕對性能來換取更高的硬體正常執行階段間。第二個原因,直到2023年,Google的主要AI工作負載是為其核心搜尋和廣告資產提供動力的推薦系統模型。與大模型工作負載相比,RecSys工作負載的算術強度要低得多,這意味著相對於傳輸的每一位資料,需要的FLOPs更少。第三個原因,是TPU主要面向內部,在外部誇大這些規格的壓力要小得多。商用GPU提供商希望為其晶片行銷儘可能好的性能規格,這激勵他們將行銷的FLOPs提高到儘可能高的數字。進入大模型時代之後,GoogleTPU的設計理念發生了明顯轉變。從最近兩代為大模型設計的TPU:TPUv6 Trillium(Ghostlite)和TPUv7 Ironwood(Ghostfish)就可以看出這種變化。TPUv6在FLOPs上已經非常接近H100/H200,但它比H100晚了2年。TPUv7 Ironwood是下一次迭代,Google在FLOPs、記憶體和頻寬方面幾乎完全縮小了與相應輝達旗艦GPU的差距,儘管全面上市比Blackwell晚了1年。理論上的絕對性能是一回事,但重要的是單位總擁有成本(TCO)的實際性能。雖然Google通過Broadcom採購TPU並支付高額利潤,但這明顯低於輝達不僅在他們銷售的GPU上,而且在整個系統(包括CPU、交換機、NIC、系統記憶體、布線和連接器)上賺取的利潤。從Google的角度來看,每顆晶片在全規模部署下的TCO比輝達GB200伺服器低 44%。這足以彌補峰值FLOPs和峰值記憶體頻寬約10%的不足。為什麼Anthropic下注TPU?比較理論FLOPs只能說明部分問題。更重要的是有效FLOPs,因為峰值數字在實際工作負載中幾乎從未達到。輝達的優勢源於CUDA護城河和開箱即用的廣泛開源庫,幫助工作負載高效運行,實現高FLOPs和記憶體頻寬。相比較之下,TPU軟體堆疊開箱即用的性能較弱,然而Anthropic擁有強大的工程資源和前Google編譯器專家,他們既瞭解TPU堆疊,也很好地理解自己的模型架構。因此,彌補了這方面的不足。他們可以投資自訂核心以驅動高TPU效率,這使得他們可以達到比採用其他商用GPU更高的MFU(模型FLOPs利用率)和更好的每PFLOP成本性能($/PFLOP)。另一個巨大轉變傳統上,TPU軟體和硬體團隊一直是面向內部的。這具有優點,例如沒有行銷團隊施加壓力來誇大所述的理論FLOPs。只面向內部的另一個優勢是TPU團隊非常重視內部功能請求和最佳化內部工作負載。缺點是他們不太關心外部客戶或工作負載。TPU生態系統中的外部開發者數量遠低於CUDA生態系統。這是TPU的主要弱點之一,就像所有非輝達加速器一樣。Google此後修改了針對外部客戶的軟體戰略,並已經對其TPU團隊的KPI以及他們如何為AI/ML生態系統做出貢獻做出了重大改變。其中有2個主要變化:在PyTorchTPU「原生」支援上投入大量工程精力;在vLLM/SGLangTPU支援上投入大量工程精力。通過查看Google對各種TPU軟體倉庫的貢獻數量,可以清楚地看到外部化戰略。從3月開始vLLM貢獻顯著增加。從5月開始,建立了「tpu-inference」倉庫,這是官方的vLLMTPU統一後端。Google在軟體戰略方面仍然處理不當的一個地方是,他們的XLA圖編譯器、網路庫和TPU執行階段仍然沒有開源,也沒有很好的文件記錄。這讓從高級使用者到普通使用者的各種使用者感到沮喪,因為他們無法偵錯程式碼出了什麼問題。此外,用於多Pod訓練的MegaScale程式碼庫也不是開放原始碼的。就像PyTorch或Linux開源迅速增加了採用率一樣,為了加速使用者的採用,Google或許應該將其開源,使用者採用率的增加將超過他們公開和免費提供的所有軟體IP。後續如果想要瞭解更深入的技術細節,比如Google獨有的ICI光互連技術到底有那些優勢,可以閱讀原文:https://newsletter.semianalysis.com/p/tpuv7-google-takes-a-swing-at-the(新智元)
深度訪談 | 那個推理比輝達快10倍的Groq創始人發話了:“別傻了,CUDA根本不是護城河!”
一分鐘速覽輝達的命門不在CUDA,在供應鏈。 2年以上的交付周期是其“阿喀琉斯之踵”,能提供更快交付(如Groq的6個月)的公司擁有巨大優勢。算力需求永不滿足,別再問泡沫。 聰明錢(科技巨頭、國家)投入AI不是為了投機,而是為了生存。如果算力翻倍,OpenAI的收入也能翻倍。AI的終極瓶頸是能源。 “控制算力的國家控制AI,而沒有能源就沒有算力。” 歐洲因能源政策和官僚主義,正面臨淪為“旅遊經濟體”的風險。當所有人都在膜拜輝達的算力帝國時,一場顛覆性的變革正在悄然發生。Groq創始人Jonathan Ross的最新訪談,為我們揭示了AI浪潮下被嚴重忽視的真相。他認為,AI的終局不是模型,而是算力;算力的終局,是能源。在這場決定未來的競賽中,輝達的王座並非牢不可破,而真正的贏家,將是那些能突破物理極限的人。風暴之眼:那個叫板輝達的Groq究竟是什麼來頭?在深入探討Jonathan Ross的顛覆性觀點前,我們必須先瞭解他所創立的公司——Groq,這正是他所有判斷的底氣所在。簡單來說,Groq是一家把“速度”刻在DNA裡的AI晶片公司,被譽為AI推理領域最兇猛的“F1賽車”。核心產品 LPU:為速度而生Groq不製造像Nvidia那樣的通用GPU,而是創造了一種全新的晶片架構——LPU(語言處理單元)。它的唯一使命,就是在運行大語言模型(即“推理”)時,提供地球上最快的速度和最低的延遲。與GPU的根本不同:“流水線” vs “項目經理”GPU像一個強大的“項目經理”,手下有數萬名員工(計算核心),但每次任務都需要動態調度和協調,這個過程本身會產生延遲。LPU則像一條預先設定好的“精密流水線”,每個資料的處理路徑和時間都被精確規劃,消除了所有不確定性,從而實現了驚人的、可預測的速度。結果有多震撼?Groq的雲平台曾演示以每秒超過500個token的速度運行開源大模型,這個速度是當時行業頂尖水平的5到10倍,幾乎實現了AI對話的“零等待”,讓即時語音互動成為可能。創始人背景:Google TPU之父Groq的創始人Jonathan Ross,是親手主導設計了Google第一代TPU(張量處理單元)的核心人物。TPU是第一款在資料中心成功挑戰Nvidia霸權的專用AI晶片。因此,當Jonathan Ross評論Nvidia和AI晶片的未來時,他不是一個旁觀者,而是這個領域最頂尖的開創者之一。忘掉泡沫論吧,巨頭們賭的是“身家性命”訪談開場,直面“AI泡沫論”。Jonathan的觀點清晰而尖銳:與其糾結於泡沫,不如觀察“聰明錢”的實際行動。聰明錢的動向:瘋狂下註: Google、微軟、亞馬遜等巨頭正“像醉酒的水手一樣”花錢,而且一次比一次多。自用為王: 微軟寧願犧牲Azure的租賃收入,也要將寶貴的GPU留給自己內部使用,因為這樣賺得更多。這證明了AI應用的真實價值。巨頭們為何如此瘋狂?核心動機是生存,而非投機。Jonathan分享了一個發人深省的細節:“我曾問一群管理著百億資產的頂級投資人:‘有誰100%確定,10年後AI無法取代你的工作?’ 現場沒有一個人舉手。”對於科技巨頭來說,邏輯完全一樣。今天不惜一切代價投入,是為了確保10年後自己不會被徹底踢出牌桌。早期石油鑽探的比喻:目前的AI市場就像早期的石油開採,回報極度不均。少數公司(約36家)佔據了99%的收入,但這正是早期市場高風險、高回報的典型特徵。AI增長的唯一密碼:給我更多算力,我能讓收入翻倍Jonathan反覆強調一個核心觀點:市場對算力的需求是“永不滿足”的 (insatiable)。他給出了一個驚人的論斷來證明這一點:“我敢打賭,如果OpenAI或Anthropic今天能獲得雙倍的推理算力,一個月內,他們的收入幾乎會翻倍。”為什麼算力如此關鍵?算力 = 收入:Anthropic 因算力不足,不得不對使用者進行速率限制(rate limits)。OpenAI 為了控製成本,有時會故意降低響應速度,犧牲了使用者體驗。結論: 頂尖AI公司都被算力“卡著脖子”,無法滿足市場需求。速度決定一切(多巴胺循環理論):他以消費品為例,利潤最高的品類(如菸草、軟飲料)都具備“快速反饋”的特點。AI也是如此。速度是決定使用者粘性和轉化率的關鍵。Google每提速100毫秒就能帶來8%的轉化提升,這個定律在AI時代依然有效。算力是最好調的“旋鈕”:想提升AI產品的質量?有三個途徑:最佳化演算法、增加資料、提升算力。其中,演算法突破很難,高品質資料獲取不易,只有算力,是最直接、最可預測、最有效的提升手段。兆帝國的裂痕:卡住輝達脖子的“2年之約”談及輝達,Jonathan毫不吝嗇其價值的肯定。兆市值預測: “如果5年內輝達市值沒到10兆美元,我會感到驚訝。”但緊接著,他指出了這個帝國的致命弱點。真正的命門不是CUDA:他直言:“CUDA鎖定就是胡扯(bullshit),至少在推理市場是這樣。”供應鏈才是“阿喀琉斯之踵”:漫長等待: 從下訂單到拿到輝達的GPU,需要等待2年以上。物理瓶頸: 限制產量的不是GPU晶片本身,而是HBM(高頻寬記憶體)等關鍵元件的有限供應。這正是Groq等挑戰者的機會所在。6個月 vs. 2年——生與死的區別:“當我對一位資料中心負責人說,我們的供應鏈能把交付時間縮短到6個月時,他立刻暫停了會議,只關心這一點。”在模型迭代以月為單位的AI時代,2年的等待周期是不可接受的。交付速度,已經成為比晶片性能更重要的競爭力。未來的市場格局預測:5年後,輝達仍將憑藉其品牌和生態,佔據市場50%以上的收入,但其售出的晶片數量將只佔少數。AI的物理定律:沒有能源,就沒有王權“控制算力的國家將控制AI,而沒有能源就不可能有算力。” 這是Jonathan提出的最嚴峻的警告。歐洲的危機:“如果歐洲不迅速行動,它的經濟將變成一個旅遊經濟。人們來這裡只是為了看看古色古香的老建築,僅此而已。”問題與解決方案:病因: 歐洲的問題不在於缺技術或資源,而在於官僚主義和對風險的恐懼。建造一座核電站,花在許可證上的錢可能是建造成本的3倍。藥方:解放可再生能源: 比如挪威,其風力資源和水電潛力巨大,一個國家就能滿足驚人的能源需求。讓市場驅動: 政府應該做的不是投資,而是“鬆綁”,削減繁瑣的審批流程,讓有需求的科技巨頭自己去投資建設能源設施。未來反轉:AI帶來的不是失業潮,而是“沒人可用”關於AI與就業的未來,Jonathan的觀點再次顛覆傳統認知。AI帶來的三大社會變革:大規模通縮: AI將極大提升各行各業的效率,從農業到供應鏈,一切商品和服務的成本都會下降。人們主動“退出”工作: 由於生活成本降低,人們不再需要為了餬口而拚命工作,會選擇工作更少時間,更早退休。創造全新的產業與工作: 就像100年前沒人能想像“軟體工程師”一樣,未來會誕生我們今天無法想像的新職業。結論:我們面臨的不是失業潮,而是勞動力短缺。“Vibe Coding”——未來的新讀寫能力:他認為,未來的程式設計將不再是少數專家的技能。通過與AI對話(Vibe Coding),任何人都能創造工具、解決問題。程式設計將成為一項人人必備的基礎素養,就像今天的閱讀和寫作。Jonathan最後用一個美麗的比喻總結:“幾百年前,伽利略的望遠鏡讓我們意識到宇宙的浩瀚,也讓我們感到自身的渺小。但最終,我們學會了欣賞這種壯麗。LLM就是我們思想的望遠鏡。 它現在可能讓我們感到不安,但在未來,它會讓我們意識到,智能的世界遠比我們想像的更廣闊、更美麗。”面對這片由算力與能源構築的新大陸,恐懼與機遇並存,而看清底層邏輯的人,才能最終勝出。 (GD梯度下降)
一樁收購,成就4兆輝達
對於當前炙手可熱的輝達,大家公認有兩條護城河,分別是CUDA和NVLink,但從最近一個季度的業績看來,如果沒有當年70億美元的收購,也許後續就不會有市值4兆的晶片巨頭。在今年二季度的財報發佈之後,整個注意力主要集中在這家晶片製造商的收入能否繼續證明其市值飛速增長的合理性。但其實在各種頭條新聞的背後,有一個業務類股卻格外引人注目,那就是網路業務。在分析人士看來,這將成為推動該公司轉型為市值4兆美元巨頭的低調引擎。相關資料顯示,這項標記為“網路”的業務對輝達整體收入的貢獻可能遠高於16.1%。收入環比飆升46%,同比幾乎翻了一番,僅第二季度就達到了72.5億美元。換句話說,僅在上個季度,通過收購Mellanox而建立的研發中心為輝達創造的收入就超過了收購成本。這使得該部門的年營運額達到250億至300億美元,對於曾經被視為輝達旗艦圖形處理器配角的部門來說,這是一個非同尋常的數字。達成這個成績背後,當年他們耗資69億美元收購的Mellanox功不可沒。01 輝達成功的幕後英雄過去幾年,談到挑戰輝達,除了從計算上面入手以後,軟體和網路是經常被提到兩個方面。例如近年來的UAlink,就是為了攻破輝達壁壘而組建的一個組織聯盟。背後的原因就是單晶片或單機架難以滿足劇增的AI算力需求,Scale Up和Scale Out迫不及待。輝達表示,受能源供應和晶片密度等物理限制的制約,如今的資料中心已經接近單一設施所能提供的極限。新平台 Spectrum-XGS 解決了諸如長延遲等障礙,這些問題迄今為止一直阻礙著獨立的設施作為統一的系統運行。輝達首席執行官黃仁勳在此前的財報電話會議上也強調:“我們擁有Spectrum-XGS,它擁有千兆級規模,可以將多個資料中心、多個AI工廠連接成一個超級工廠,一個龐大的系統。這正是輝達在網路領域投入如此多精力的原因。正如我們之前提到的,Spectrum-X現在已經是一個相當可觀的業務,而且它成立只有大約1.5年。因此,Spectrum-X是一個本壘打。”更早之前,輝達收購Mellanox而加碼打造的以色列分公司的一項技術突破將使地理位置相距遙遠的資料中心能夠像在一個地方一樣運行,從而有效地大規模建立“人工智慧工廠”,並顯著提高該行業可用的最大計算能力。該公司在一份新聞稿中表示:“憑藉先進的自動調整距離擁塞控制、精確的延遲管理和端到端遙測技術,Spectrum-XGS 乙太網路幾乎使 NVIDIA 集體通訊庫 (CCL) 的性能提高了一倍,加速了多 GPU 和多節點通訊,從而在地理分佈的 AI 叢集中提供可預測的性能。因此,多個資料中心可以像一個 AI 超級工廠一樣運行,並針對長距離連接進行了全面最佳化。”正如黃仁勳所說:“這正是輝達5.5年前收購Mellanox的原因。”Mellanox 由Eyal Waldman成立於 1999 年,是 InfiniBand 互連技術的先驅。在被輝達收購的時候,該技術及其高速乙太網路產品目前已應用於全球超過一半最快的超級電腦以及許多領先的超大規模資料中心。Mellanox 於 2007 年上市,並於 2018 年首次突破 10 億美元年銷售額。2018 年,該公司的 GAAP 淨收入為 1.343 億美元,也創下了歷史新高,在收購發生之前的13 年中,該有 10 年實現盈利,同時自 2005 年以來一直保持自由現金流為正。在Mellanox 和 NVIDIA之間,也有著悠久的合作與聯合創新歷史。NVIDIA 也早於 2016 年在以色列開設了一家設計中心,並於 2018 年開設了一家人工智慧研究中心。該公司此前承諾“將繼續投資以色列的本地卓越人才,以色列是全球最重要的技術中心之一”。Eyal Waldman此前在一個播客中表示:“我相信,處理器(大腦)與網路連線之間的協同作用,將輝達從一家市值 930 億美元的公司,發展成為如今市值 4 兆美元的巨頭。” 他進一步指出,如果沒有 Mellanox 的 InfiniBand,就不會有 ChatGPT:“OpenAI 一直從我們這裡購買最先進的產品。如果沒有這種連接,他們就無法達到人工智慧所需的資料處理速度。”Eyal Waldman說道。“這是業界有史以來最重要的併購案,”Eyal Waldman強調。02 網路連線空前重要Nvidia網路高級副總裁Gilad Shainer此前在接受HPCwire的採訪中回憶道, Mellanox在當時建構的並不是網路元件。 公司主要建構的是端到端的完整基礎設施,並且專注於 InfiniBand,它配備了網路卡和交換機,以及它們之間的連接,以及所有基於其上的軟體,所以它是一個完整的平台。“它是一款完整的基礎設施,InfiniBand 專為分散式運算應用而設計。因此,它在 HPC 和科學計算領域得到了廣泛的應用。所有大規模叢集模擬都使用 InfiniBand,因為它專為分解式計算而設計,並且具有極低的延遲。InfiniBand 確保所有節點都擁有有效頻寬。抖動是每個人都希望最小化的一個因素。”Gilad Shainer接著說。如他所說,對於 HPC 來說,這是一項偉大的技術,而當AI 開始出現時,它又是分散式運算的另一個案例。例如,你可以認為延遲的敏感度更高或更低,因為人工智慧工作負載和科學計算工作負載之間存在一些差異。科學計算工作負載對延遲的敏感度可能比人工智慧訓練初期更高;而當時的敏感度略低。“納秒級的延遲對於訓練來說並不那麼重要,但仍然需要較大的有效頻寬。”Gilad Shainer指出。他表示,現在我們將推理視為人工智慧的主要元素。推理依賴於延遲,因為你需要低延遲。因此,人工智慧和高性能計算(HPC)本質上具有相同的要求。而這正是基礎設施變得更加重要的地方。Gilad Shainer說,將高性能計算 (HPC) 與人工智慧 (AI) 進行比較時,一個有趣的現像是,在高性能計算 (HPC) 中,計算能力一代一代地提升。然而,資料中心的規模卻保持不變。通常情況下,資料中心有幾千個節點,你可以從每個節點獲取遙測資料,但規模保持不變。來到人工智慧方面,要求就更高了。這不僅僅是每台伺服器的計算能力提升,而是每個新 GPU 的計算能力提升,基礎設施的規模已大幅增長。幾年前,人們討論的是 16000 個 GPU,甚至 30000 個 GPU。這就像與高性能計算 (HPC) 進行比較一樣,都是龐大的基礎設施。如今, 16000個GPU的方案都已經被束之高閣。大型基礎設施通常包含數十萬個 GPU,現在 GPU 數量已達 20 萬個,而云廠商們正在討論幾年後遷移到百萬級 GPU。這不僅僅是電腦的問題,也是基礎設施的規模問題。而要實現這種規模,需要合適的擴展網路和可擴展的基礎設施。資料中心現在已經成為衡量計算能力的標準。它不僅僅是一個盒子,而是一個完整的資料中心。“資料中心就是網路。網路將定義GPU如何作為一個整體的計算元素工作,否則它將只是一個GPU伺服器叢集,這就是NVIDIA收購Mellanox的原因。而這正是基礎設施變得越來越重要的地方。”Gilad Shainer說。有見及此,輝達正處於每年推出新資料中心的節奏中:每年都會有新的 GPU、新的計算引擎、新的交換機、新的基礎設施。每年都會有新的資料中心投入使用,為人工智慧應用提供更強大的功能,無論是訓練還是大量的推理。這些新系統正在世界各地催生出大量的人工智慧框架和應用。03 CPO是大勢所趨如大家所說,現在,基礎架構由資料中心所需的多個域組成。除了scale-out (連接伺服器)之外,還需要建構或擴展 GPU,即組合 GPU 並形成更大的虛擬 GPU。為了實現這個更大的虛擬 GPU,需要在各個 GPU 之間提供巨大的頻寬。如果你想讓它看起來像一個整體,這就是NVlink能發揮作用的地方。這項功能是系統網路的scale-up領域。NVlink 需要支援海量頻寬——是scale-out的 9 倍甚至10 倍。它需要非常低的延遲。因此Mellanox的團隊將可擴展分層聚合和縮減協議 (SHARP) 引入 NVlink,這樣就可以進行縮減,使機架成為一個單元,並且我們嘗試在該機架中安裝越來越多的 GPU。未來,輝達計畫在一個機架中部署 576 個 GPU。這是一個巨大的計算量,需要擴展該機架中的基礎設施。公司也正努力將其控制在機架內,以最大限度地利用銅纜布線。在輝達看來,一旦擁有了在各個元件之間傳輸所需的巨大頻寬,您就需要以最具成本效益的方式建構它,而銅纜是連接通訊的最有效方式。但你不能止步於此,因為現在你需要把這些機架連接在一起,你指的是讓數十萬個GPU作為一個單元工作,或者讓20萬個GPU作為一個單元工作。有些客戶可能想要50萬個甚至100萬個GPU。現在,由於距離較遠,我們需要建構一個基於光纖的橫向擴展基礎設施,但它必須具備與 OFED 層相同的特性,包括有效頻寬和確定性。在輝達看來,InfiniBand 仍然被認為是橫向擴展基礎設施的黃金標準。所有你打算建構的、並非 InfiniBand 的東西,你都可以將其與 InfiniBand 進行比較,因為 InfiniBand 是性能的黃金標準。在Gilad Shainer看來,擴展系統是人工智慧的一個方面。每年,資料中心的規模都在大幅增長。這意味著機架之間的頻寬更大,也意味著線路中的計算量更大。因此,線路中的頻寬也更大。Gilad Shaine同時指出,現在我們需要部署更多的光纖連接,而這部分突然就出現了功耗預算。“在人工智慧資料中心,限制因素不是空間或預算,而是能夠引入多少功耗。”他表示。如Gilad Shaine所說,機架之間的光纖連接耗電很高。這會導致機架中可容納的 GPU 數量減少。因此,光纖網路開始消耗接近 10%的計算能力,這是一個很大的數字。所以,在這種情況下,我們需要考慮的一個因素是,有沒有辦法降低光纖網路的功耗?這不僅僅是因為隨著資料中心規模的擴大,需要建構的元件也越來越多——我需要安裝GPU,安裝網路卡,然後連接線纜,安裝收發器和交換機,並進行所有必要的配置,而其中,增長最快的元件是光收發器的數量。因為每個 GPU 大約有 6 個光收發器。如果我有 10 萬個 GPU,就需要 60 萬個收發器。正如您所知,這些收發器對灰塵很敏感,發生故障時可能需要管理員更換。這種情況可能會導致資料中心中這些元件的更換量增加,因為現在的元件數量更多了。因此,輝達認為,資料中心基礎設施的下一個重大舉措是改進或將光纖連接提升到一個新的水平。這需要將目前作為收發器外部獨立部件的光纖連接整合到交換機中,從而將其提升到一個新的水平。如果我把它們放在一個封裝裡,就不需要通過交換機傳輸電訊號了。這意味著我可以降低功耗,用更少的功率驅動光訊號通過交換機。在這種情況下,我可以將功耗降低近四倍。現在,在同樣的網路中,我實際上可以容納三倍多的GPU。於是,輝達正在推動將矽光子引擎或光學引擎整合到交換機上,我就不再需要使用那些外部收發器了。正如Gilad Shaine所說,共封裝光模組(CPO)並非新概念。市場上曾有人嘗試這樣做。現在到處都能看到一些裝置,也有一些交換機系統嘗試採用CPO,但它們都無法實現全面量產並達到良好的良率,從而實現規模化成本效益。這背後的原因有很多。其中一個原因是這項技術未經驗證,所以良率很低。之前製造的光學引擎採用的是製造大型光學引擎的技術。如果我有一個大型基數交換機,由於尺寸問題,我無法將所有這些光學引擎都裝在同一個交換機上。這時候,就需要新的封裝技術甚至新的雷射技術。而達成的上述種種成就,也和輝達當年收購Mellanox密不可分。04 寫在最後Eyal Waldman在播客採訪中將Mellanox出售談判描述為英特爾、輝達和其他公司之間的一場“大戰”。“最終,與黃仁勳(輝達首席執行官)的聯絡是水到渠成的。“從一開始,我們就知道這是方向。2019年,英特爾的市值遠超輝達,而僅僅一年後,輝達就超越了它。從那時起,由於對人工智慧的正確押注,它的股價一路飆升。”Eyal Waldman強調。籍著收購Mellanox之後,輝達在以色列建立起僅次於美國的研發團隊。據資料顯示,這家晶片巨頭在以色列的七個研發中心擁有超過 5000 名員工。該公司也在當地開發資料中心的中央處理器(CPU)、機器人和汽車的片上系統(SoC)以及自動駕駛汽車的演算法。由此看來,對輝達來說,這是一個前所未有重要的交易。 (EDA365電子論壇)
Quantinuum 完成 6 億美元融資,輝達進一步加固 CUDA 護城河
當地時間 9 月 4 日,輝達(NVIDIA)通過其風險投資部門 NVentures 參與了對量子計算公司 Quantinuum 的一輪 6 億美元融資,其估值陡增至 100 億美元。輝達此舉並非一次簡單的財務投資,而是一次精心計算的平檯布局,旨在通過 Quantinuum 將輝達的 CUDA-Q 生態系統牢牢地置於未來量子產業的核心。輝達這家 GPU 巨頭從一個對量子計算實用化時間表持謹慎態度的旁觀者,一躍成為定義行業格局的“造王者”,它選擇了一條“淘金賣鏟人”路線,通過其強大的 CUDA-Q 生態平台和在 GPU 和人工智慧領域的絕對優勢,延伸至量子生態系統中,提前構築起一道面向未來的競爭護城河。巨人轉身的背後回顧輝達 (Nvidia) 首席執行官黃仁勳 (Jensen Huang) 近期的公開言論,可以清晰地看到一條轉變軌跡。早些時候,他對量子計算的近期前景持保留態度,曾暗示實用的量子電腦可能還需要 15-20 年才能實現,這一言論還一度引發量子計算概念股的集體下挫。然而,到了 2025 年 6 月,在巴黎的 VivaTech 大會上,黃仁勳 (Jensen Huang) 的態度發生了 180 度大轉彎。他宣稱,量子計算正在到達一個“拐點 (inflection point)”,並有望在“未來幾年內”解決一些“有趣的全球性問題” 。這一轉變不僅修復了市場的信心,更被視為一個強烈的行業訊號。輝達 (Nvidia) 的對於量子計算態度的變化,本質上是為了捍衛其在資料中心領域的絕對霸權。從長遠來看,量子計算的崛起對以經典計算為基礎的 GPU 帝國構成了一種潛在的顛覆性威脅。輝達 (Nvidia) 的應對之策,從一開始的與之對抗,變為將其收編。AI 時代,輝達的 CUDA 戰略的巨大成功,揭示了一個核心邏輯:真正的護城河並非由程式碼本身構成,而是由其所凝聚的開發者社群和知識生態所鑄就。這正是理解 CUDA-Q 所有戰略決策的出發點。因此輝達希望將 CUDA 的成功經驗精準地複製到量子領域,通過 CUDA-Q 平台來相容更多不同技術路線的量子計算硬體,以此匯聚最龐大的開發者社群和最高性能的計算庫,進而借此定義量子計算的語言、開發工具、糾錯工具乃至整個開發範式,最終達到奠定自己在未來量子計算時代商業上的頂層生態位。通過 CUDA- Q 平台戰略,輝達巧妙的將現有的 GPU 定位為運行量子電腦最耗費算力的環節——例如量子電路模擬、系統控制,尤其是量子糾錯 (Quantum Error Correction, QEC)——的核心引擎,這確保了量子計算的每一次進步,都將轉化為對其自身經典硬體的更大需求。這使得一個潛在的生存威脅,轉變為一個全新的、巨大的增量市場。未來,任何部署 QPU 的“AI 工廠”或超級計算中心,都必須配備同樣強大的 GPU 陣列來進行管理和加速。輝達不僅是在向淘金者出售工具,它正在以今天的 GPU 優勢,加速修建通往每一座不同技術路線金礦礦山的鐵路,並控制著鐵路的營運權。更進一步,輝達對 Quantinuum 的首次硬體投資,也揭示了它對未來量子資料中心架構的特定判斷。儘管 CUDA-Q 平台保持著硬體無關性,但這筆投資本身就是一個強烈的訊號。這表明輝達相信,在可預見的未來,量子-經典混合系統將是主導範式。黃仁勳本人也曾預言,未來的超級電腦將把 QPU 作為“分配給 GPU 並與之連接”的協處理器,此次投資正是這一願景的實體化。量子計算正加速走向實用化在量子硬體的競賽中,輝達沒有下注,它選擇成為搭建賽道的人。它正在建構一個所有參賽者都必須依賴的底層基礎設施——作業系統、開發環境和糾錯引擎。在量子計算+AI時代到來之時,CUDA-Q這道護城河必將更為廣闊深邃,讓所有人都無法繞行。此次人工智慧之王與量子計算的攜手,其目標遠不止是製造一台更快的電腦。他們正在鍛造的是驅動下一代科學發現和技術革新的“核心引擎”,並為之配備上了可以縱橫驅馳的多個場景“賽道”。本次的投資方組合並非偶然,而是經過深思熟慮的戰略佈局。輝達代表了人工智慧和高性能計算的融合,廣達電腦(Quanta Computer) 帶來了規模化硬體製造的經驗,QED Investors和摩根大通 (JPMorgan Chase) 鎖定了金融科技和銀行業應用,三井物產 (Mitsui) 覆蓋了全球多元化的工業和物流場景,而安進 (Amgen) 則是藥物研發領域的終端使用者。此次投資傳遞出一個明確的訊號:在量子計算的下半場,僅有深厚的科技實力已不足以確保領先,未來必將進入“建生態、多使用者者得天下”的市場化格局。隨著這筆交易的完成,整個量子計算行業已經堅定地邁向了“現實場景實用化”的那道門檻。 (量子前哨)
牙膏踩爆!RTX 6090可能會有2.9萬個CUDA核心 但還得漲價
NVIDIA前兩天發佈了Rubin CPX,這是一款針對AI推理而生的GPU,沒用昂貴的HBM,而是給了128GB GDDR7視訊記憶體。這款CPX顯示卡對遊戲玩家而言也不是沒意義的,因為它很可能是未來的RTX 6090顯示卡基礎,網友High Yield稱CPX顯示卡沒有像其他AI專用卡那樣閹割了光柵單元,而是保留了下來。考慮到NVIDIA在復用GPU上刀法精妙,這意味著CPX所用的GPU核心未來也是Rubin家族遊戲卡的核心,即便規格不完全一樣,但也會非常相似。具體來說的,RTX 6090顯示卡所用的核心可能是GR202,SM單元數量從當前的170組提升到224組,CUDA核心來到了28672個,將近2.9萬核心了,也是史無前例的。這將使其FP32性能從RTX 5090的104.77TFLOPS提升到143.36TFLOPS,大約提升30%以上,這還沒考慮到架構上的提升。視訊記憶體規格方面可能變化不大,畢竟RTX 5090已經做到了32GB 512bit,NVIDIA也不太可能良心到一下子給64GB視訊記憶體,不過受益於GDDR7頻率提升,頻寬從1.8TB/s提升到1.92TB/s,聊勝於無吧。以上是對RTX 6090顯示卡的推測,個人覺得算是挺靠譜的,但是最終如何還得看NVIDIA在那裡下刀,整體性能提升30%也符合這兩年來的發展軌跡。不過伴隨著RTX 6090規格的提升,下代顯示卡又來一波漲價也是可以預期的,畢竟Rubin會使用台積電3nm工藝,比當前RTX 5090的4N(本質還是5nm改進)工藝貴不少,再加上其他改進,性能與價格漲幅估計也是正相關的。奇怪的是,RTX 5090/5080 FE公版開始消失了。NVIDIA Founders Edition是很多玩家心目中的信仰所在,但公版卡起的是一個帶頭作用,理論上不應該和AIC廠商搶生意,AMD的公版卡就幾乎不怎麼賣,NVIDIA這邊的公版卡壽命已經夠長了。最近在歐美市場,RTX 5090、RTX 5080的公版卡開始悄無聲息地消失,NVIDIA官網紛紛下架了,美國、法國、德國、英國等主要國家均是如此。比如在德國,NVIDIA官網上已經看不到RTX 5090 FE,而在英國和美國,RTX 5090、RTX 5080 FE都被移除了,最高只有RTX 5070。目前還不清楚這是臨時調整,抑或NVIDIA已經停產。NVIDIA德國的一位發言人在接受採訪時只是說,不清楚。NVIDIA中國官網上,RTX 5090 FE自然是沒有的,RTX 5080 FE倒是依然在列,可以跳轉到京東、天貓旗艦店,而價格一直堅持8299元不動搖。英國德國法國美國另外,SK海力士官方宣佈,全球第一家完成了新一代HBM4記憶體的研發,並且已經做好了大規模量產的準備。SK海力士HBM4記憶體的I/O介面位寬為2048-bit,每個針腳頻寬10Gbps,因此單獨一顆的頻寬就可高達驚人的2.5TB/s。這已經超過了JEDEC標準規範中規定的8Gbps,SK海力士宣稱在AI裝置中部署後可帶來最多69%的性能提升。SK海力士還使用了該公司自研的MR-MUF封裝技術,1bnm工藝也就是第五代10nm級。至於satck堆疊層數、單顆容量,SK海力士暫未披露,預計最高12堆疊。另外,三星也在積極推進HBM4,希望能和SK海力士搶一杯羹。HBM4記憶體對於下一代AI基礎設施至關重要,NVIDIA、AMD、Intel都離不開它。其中,NVIDIA Rubin預計搭載288GB HBM4,AMD Instinct MI400系列更是最高做到恐怖的432GB,頻寬19.6TB/s。除了遊戲卡市場,AMD還在AI顯示卡市場追趕NVIDIA的步伐,這個領域要比遊戲市場更難,甚至很難靠性價比優勢賣出銷量。AMD近期多位高管的表態都在強調2026年的MI450系列AI顯示卡將會給AMD帶來重磅收入,而且性能等方面全面超越對手產品。但是今年的AI市場上,AMD主打的MI350系列可能就沒那麼受歡迎了,HSBC匯豐銀行日前發佈的報告中,將AMD的目標價從200美元下調到了185美元。下調的原因就是MI355顯示卡的均價從25000美元降至23000美元,約合人民幣16.4萬元。該系列顯示卡是今年初才發佈的,3nm工藝,CDNA4架構,其中MI350X適用於風冷,MI355X適用於液冷,兩者的規格差不多,都是288GB HBM3e視訊記憶體,8TB/s頻寬,後者的性能更高一些。MI355X的FP64性能可達78.6TFLOPS,FP16、FP8及FP4性能則是5、10.1、20.1PFLOPS。這樣規格的顯示卡平均售價只要16萬元出頭,這是什麼概念呢?NVIDIA基於RTX 4090改進的國內特供顯示卡H20,也就96GB HBM3記憶體,之前國內售價都超過了20萬元,被哄搶的時候甚至更高。在AMD PPT中性能比B200還要強的MI350系列顯示卡,還要得打價格戰,這也能說明NVIDIA在AI市場護城河有多深,不單是AMD硬體性能領先就能比的。不過匯豐也在報告中表示,儘管下調了目標股價,但AMD在AI市場上的前景還是不錯的,明年預期收入也只是從151億調至139億美元,仍比預期高20%,華爾街低估了AMD的AI業務。包括微軟、甲骨文、Meta在內的雲服務廠商也在加強與AMD的合作,測試他們的MI400系列機櫃解決方案,這是AMD明年在AI市場翻身的殺手鐧級產品。 (硬體世界)