#AI產業
美國研究員:用H200這種過時晶片來討好中國,根本無法動搖中國發展自主技術的決心
01 前沿導讀美國企業研究所研究員、《chip war》作者克里斯·米勒在演講時表示,中國已經多次表明晶片自主化是國家經濟安全的核心目標,並願意在這個領域投入大量的資源以實現目標。美國的政策轉變,根本無法影響中國設定的遠大目標。雖然中國在先進的自主裝置上存在明顯不足,但任何出口管制都是暫時性的,並非永久有效,中國最終會在本土製造裝置上取得巨大技術進展。02 嵌入式技術米勒在2022年10月份,出版了個人書籍《chip war》。該書籍以晶片產業為基礎,對晶片技術以及中美之間的科技戰進行了階段性的總結梳理。在該書籍出版三天後,美國商務部便開始針對中國晶片實施全產業鏈的制裁限制,米勒也因此在國際層面成為了備受關注的專家學者。Deep Seek出現之後,由於其以較低成本實現了比肩GPT的大模型效果,在全球科技領域受到了重點關注。米勒對此評價稱,西方企業對Deep Seek的看法存在誤區,只看到了Deep Seek低成本高效率的大模型推理,卻忽略了Deep Seek開源模式的影響力。中國ai產業的思路與美國存在根本上的差別,美國掌控著最尖端的算力晶片,所以GPT以閉源模式運行。而Deep Seek以開源模式運行,這就導致全球範圍內的很多企業為了效率和成本,會主動選擇中國的開源模型。在這種情況下,中國企業就有機會將其技術嵌入到全球各地的應用當中,先美國一步將技術擴散到全球範圍內佔領市場。中美兩國在晶片產業上面走出了兩條完全不一樣的路線,美國掌控著先進晶片的供應,並且在晶片領域對中國實行斷供以及出口管制。在硬體上面,美國企業擁有明顯優勢,並且該優勢還在持續擴大。而中國擁有資源優勢以及完善的產業鏈和內需市場,在規模化應用層面有著明顯優勢。大模型技術的市場佔有率極其重要,過高的市場佔比將會讓使用者依賴於特定企業提供的大模型,並且在此之上發展應用層技術。這是一個零和博弈的競爭,如果不用這家的大模型技術,那麼只能選擇其他家的技術。在國際市場上搶佔更多的市場份額,是當下ai技術的核心發展模式。並且中國大模型的訓練推理晶片,也正在從輝達晶片逐步過渡到國產晶片上。昇騰910B的綜合算力已經達到了輝達A100的水平,但輝達A100是5年前發佈的產品,在單卡算力上中國晶片與美國晶片的差距較大,這也催生出了中國企業採用計算叢集的策略來彌補單卡性能的差距。華為推出了Cloud Matrix384服務架構,採用384顆昇騰算力晶片組成超節點算力叢集。通過對CPU、GPU等技術的最佳化,實現了點對點直連通訊,將384顆算力晶片整合成為一個整體,以此提高大模型的推理效率。在硬體晶片落後的情況下,走計算技術的路線是非常正確的選擇。03 裝置自主化針對美國發起的出口管制,米勒表示晶片自主化是中國未來持續推動的核心目標,這關乎於國家的經濟安全。沒有先進的製造裝置,中國晶片在製程技術上落後明顯。美國也借此機會開始逐步放鬆對先進晶片的出口管制,在收取輝達、AMD在華收入15%的前提下,允許這兩家企業向中國出口特定的晶片產品。儘管美國允許H20、H200晶片對華出口,但中國對此並不感興趣。中國自主晶片已經足夠出色,就算達不到輝達最先進的水平,也並不比輝達閹割版的晶片差。據新華社發佈的專欄報告指出,美國的此次舉動引起了國際法界和商界人士的熱議,這種做法不但沒有先例,而且極不尋常,甚至構成違反憲法的行為。韓禮士基金會貿易政策負責人德博拉·埃爾姆斯表示稱,該政策的先河一開,美國政府以後便可針對特定的企業實施組合管制方案,相當於直接宣稱“其他人不得進行貿易,但如果向我們付錢,你就可以獲得貿易的權力”。晶片產業依然是美國製約中國發展的核心要素,這也是中國現在以及未來要解決的問題。中國晶片在設計與製造環節均具備了不錯的市場規模和本土產能,也正在積極解決先進製造裝置上面的技術短板。將自主裝置開發完成並過渡到量產商用階段,該目標是未來十五五規劃的重點推進項目。 (逍遙漠)
付鵬:決定2026全球資產漲跌的關鍵—AI“高速路”上,真有車跑嗎?
12月20日,在華爾街見聞和中歐國際工商學院聯合主辦的「Alpha峰會」上,知名經濟學家付鵬發表了題為《AI時代下--秩序的重構》的演講。付鵬表示,當前AI產業的核心矛盾在於“路修好了,等待車跑”。上游算力基建投入已基本完成,2026年將進入下游企業級應用能否落地並兌現盈利的“證偽之年”。他還表示,2026年投資者應重點關注特斯拉。它將在明年面臨類似當年輝達的“身份驗證”時刻:究竟只是一一家汽車公司,還是真正的企業級“重AI應用”載體。付鵬指出,這正如檢驗“高速公路修好後有沒有車跑”,如果特斯拉能證明其作為AI應用的價值,市值空間將巨大;否則以當前作為汽車股的邏輯看,其估值並不具備吸引力。付鵬還強調,如果AI被證偽,全球股市都將面臨劇烈波動。當前美股(特別是AI類股)是全球“生產力”的核心,全球主要資產的波動率都與其高度繫結。如果AI最終被證實為泡沫,那不僅是美股,包括日本、歐洲在內的全球股市都會崩盤,“這是一根繩上的螞蚱”。他認為,目前加息或降息已不重要,核心在於資產端(AI)能否產生真實回報率,若資產端出問題,負債端的調整無濟於事。以下為演講實錄:生產力、生產關係與制度秩序的聯動這個話題的底層邏輯,在《見證逆潮》章節中有所探討,也對應2024年諾獎得主阿西莫格魯的AJR模型——聚焦生產力與生產關係的互動,尤其落腳於“制度與秩序”這種特殊生產關係。“秩序”多用於國與國之間(如基辛格《世界秩序》所指的貿易、金融、安全維度),“制度”則常見於企業內部的規則(如打卡考勤)。二者本質上都是特殊形式的生產關係。今天我們討論的,是生產力、生產關係與制度秩序三者的聯動。很多人誤以為宏觀經濟指標是股市的“晴雨表”。但在我看來,股市真正反映的是全要素生產率(TFP)——經濟系統將生產要素轉化為產出的效率。這個過程就像一套齒輪:生產力拉動生產關係,生產關係重塑制度秩序,制度秩序反過來推動生產力。齒輪轉動的效率,就是TFP。大量研究(包括聯準會論文)證實,多數國家股市的長期走勢都與TFP的變化趨勢高度匹配。以美股為例,1929年至今,推動其長期向上的核心動力,始終是經濟效率的提升,而非短期經濟波動。這種提升可來自齒輪的任一環節:科技突破、生產關係最佳化、或制度調整(如上市公司治理改革)。在我常用的“分子分母乘以G”股市模型中,G就代表制度與秩序這一維度。美國資本市場的發展也印證了:從薩班斯法案到股東積極主義,制度最佳化始終是市場長期健康的關鍵。需強調的是,沒有任何環節是完美的。科技是雙刃劍,生產力、生產關係、制度秩序都有兩面性。真正的“完美”,是形成良幣驅逐劣幣的進化機制:好的制度能淘汰壞的制度,系統在糾錯中向前。產業生命周期視角:從廣撒網到去偽存真回到AI話題。2015、2016年是關鍵節點:不僅是美股打破十幾年寬幅震盪、開啟趨勢性行情的起點,也是市場意識到美國經濟效率將躍升的轉折點。此時,木頭姐離開機構自立門戶。她常被稱為“女版巴菲特”,但邏輯完全不同——她是在二級市場運行一套一級市場的成長股投資策略。這涉及佩雷斯的“產業生命周期”理論:真正的產業投資往往從一級市場開始,二級市場看到的是一級市場未來的表現。產業早期,無人能預判那條技術路徑會勝出。因此最優策略是廣泛佈局——如木頭姐的操作,把所有技術路徑納入組合。這是風險投資的核心邏輯:投100個項目,死90個,活10個就是成功。該策略在產業早期估值擴張階段非常有效,能享受所有賽道紅利。但當產業進入成熟期,市場必然去偽存真:資金從90個被淘汰項目,集中到10個真正跑出來的贏家。此時仍分散投資,回報必然落後。2022年的市場殺估值,正是這一“去偽存真”過程。輝達跌70%,比特幣從8萬跌至2萬,所有估值型資產深度調整。這一輪調整的核心,是逼產業交出答卷:例如輝達,必須證明自己不是遊戲顯示卡公司,而是AI算力基礎設施提供商。而2022年底、2023年初ChatGPT的出現,標誌著市場從眾多技術路徑中,明確了少數能跑通的賽道。輝達用後續財報給出了答案,確立了AI時代的核心地位——“想富先修路,修路先買鏟子”,輝達的鏟子成了確定性標的。波動率與市場風險:確定性越高,風險越大分析市場,波動率是核心指標。它是確定性的反面:不確定性越高,波動率越大;確定性越強,波動率越小。2022年輝達跌70%後,市場逐漸確認AI將帶來巨大資本開支,其業績也逐步兌現。從那時到2023、2024年,波動率持續下降——說明市場共識越來越強,確定性極高。但問題恰恰出在“確定性太高”上:高確定性催生貪婪,場外槓桿、民間配資、押房押車all in的現象日益普遍。2024年6月14日,付鵬在華爾街見聞《付鵬說》專欄第20期中提醒:輝達應該考慮買入保險。8月市場波動上升後,付鵬隨即分享了應對方法。可以這樣理解:《付鵬說》專欄中的很多內容,是專門面向普通投資者朋友的。大家並非金融機構,無法通過券商管道每季度參與線下交流。付鵬的專業性內容主要集中於該專欄,而非短影片平台——短影片僅為閒談,深度分析與觀點輸出都在這裡。果不其然,2024年輝達“閃崩”印證了這一邏輯。當時許多分析歸因於“日元套息交易拆倉”,但在我看來,核心原因只有一個:全球資產都綁在了AI這一“生產力資產”上,當資產端的確定性被過度透支,負債端的任何變化都只是導火索。這也是我一直強調的:別盯負債端,要看資產端。如果AI被證明是泡沫,全球市場都會崩,屆時加息降息都無濟於事;如果AI能兌現生產力價值,市場的上漲才具備堅實基礎。AI的“修路”與“通車”——生產力到生產關係的傳導輝達閃崩後,市場一直在問:AI是不是泡沫?這個問題的本質,和2002、2003年謝國忠關於中國基建的爭論如出一轍。當年有人認為修高速公路是浪費、是債務;但事實證明,“要想富先修路”,基建拉動了城鎮化和經濟增長。現在的AI行業,正處在“路修完了,有沒有車跑”的關鍵節點。過去幾年,幾兆美元的AI上游基建已投下,算力、電力等“高速公路”基本成型,但真正的企業級AI應用——“車”——尚未大規模跑起來。目前的ChatGPT、圖生文、文生圖等只是表層應用,遠非能拉動生產力變革的核心應用。市場的疑慮和等待,本質上是在等一個答案:這些AI基建,究竟是能拉動經濟增長的資產,還是無法產生回報的債務?答案將決定全球資產的未來走向。從利率曲線結構,也能看到聯準會的“預防性操作”:輝達閃崩後,美國國債“三個月減十年期”利差迅速倒掛,每一次倒掛都對應波動率的下降。這背後是聯準會通過短端流動性調節,避免系統性風險擴散,為AI應用落地爭取時間。但這種操作也是雙刃劍:好處是延緩市場快速崩盤,壞處是讓估值變得更貴。到了今年年底、明年年初,這個問題已壓不住了。明年將是AI從生產力到生產關係傳導的證明或證偽之年。特斯拉就是這個證明過程的關鍵標的。就像2021、2022年的輝達需要證明自己是算力提供商而非顯示卡公司,特斯拉明年需要證明:它到底是一家汽車公司,還是一個企業級重AI應用平台?答案不同,估值天差地別。如果只是汽車公司,兆市值已透支;如果是AI應用平台,兆市值只是起點。當前美股(特別是AI類股)是全球“生產力”的核心,全球主要資產的波動率都與其高度繫結。如果AI最終被證實為泡沫,那不僅是美股,包括日本、歐洲在內的全球股市都會崩盤,“這是一根繩上的螞蚱”。目前加息或降息已不重要,核心在於資產端(AI)能否產生真實回報率,若資產端出問題,負債端的調整無濟於事。兩條路徑與時代機遇回到最初的問題:AI是不是泡沫?明年的利率曲線走勢,只有兩條路徑:第一條是證偽路徑:如果AI上游基建無法轉化為下游應用的生產力,過去幾年的投資都會變成債務,全球市場將崩盤,無一資產能獨善其身。第二條是證實路徑:如果AI完成從“修路”到“通車”的傳導,生產力真正拉動生產關係變革,我們將迎來第二波浪潮——不僅是生產力創造的財富,更是生產關係最佳化和制度秩序革新的系統性機會。每一輪長周期裡,都有三次大機遇:生產力提升、生產關係改變、制度秩序重構。人這一輩子,能趕上一個齒輪的周期,就已經很好了。輝達已證明自己是確定性的生產力標的,未來會成為成熟的成長股;而接下來的機會,就在生產關係的變革裡——也就是AI應用的落地和普及。 (華爾街見聞)
輝達 Rubin :計算密度的躍遷與資料中心架構的重構
Rubin 是多少張 GPU 互聯?比現在最強的資料中心性能強多少?——本報告的分析結論如下:互聯規模的代際跨越:Rubin 架構引入了 Vera Rubin NVL144 平台,在一個機架內實現了 144 個 GPU 計算核心(Die) 的全互聯 1。這不僅在物理數量上是前代 Blackwell NVL72(72 個 GPU)的兩倍,更重要的是,通過第六代 NVLink(NVLink 6)技術,這 144 個核心建構了一個單一的、記憶體一致的邏輯計算域。這意味著模型可以像在一個巨大的 GPU 上運行一樣,在 144 個核心之間無縫共用記憶體和資料,徹底消除了節點間通訊的延遲瓶頸。性能增益的多維躍遷:相比當前最強的資料中心基準——Blackwell GB200 NVL72,Rubin 展現了多維度的性能提升:AI 推理性能(FP4):提升幅度約為 3.3 倍,達到 3.6 Exaflops 1。海量上下文處理(CPX):針對百萬級 token 的長上下文任務,Rubin CPX 平台的性能是 Blackwell 的 7.5 倍2。記憶體頻寬:整機架聚合頻寬從 NVL72 的 576 TB/s 激增至 1.7 PB/s,約為 3 倍 的提升 2。本報告將深入探討驅動這些數字背後的技術邏輯,包括 3nm 工藝製程、HBM4 記憶體革命、銅纜互聯物理學以及 600kW 功率密度帶來的熱力學挑戰。2. 宏觀背景:計算通膨與推理時代的黎明要理解 Rubin 架構的設計初衷,必須首先審視當前 AI 產業面臨的根本性矛盾:計算通膨(Computation Inflation) 與 記憶牆(Memory Wall) 的雙重擠壓 4。隨著大語言模型(LLM)從單純的文字生成轉向具備多步邏輯推理能力的“Agentic AI”(代理智能),計算範式正在發生深刻的轉移。2.1 從訓練原生到推理原生在 Hopper(H100)時代,資料中心的主要任務是模型訓練,這要求極高的浮點運算能力。然而,隨著模型部署的普及,推理(Inference)——尤其是長上下文、高並行的推理——成為了算力消耗的主體。Blackwell 架構通過引入 FP4 精度初步應對了這一挑戰,但 Rubin 則是為**“推理原生”**時代徹底設計的 2。Rubin 的出現不僅僅是為了更快的訓練,更是為瞭解決“百萬 Token 級”上下文的即時處理問題。在這一場景下,瓶頸不再是計算核心的速度,而是資料搬運的速度。因此,Rubin 架構的核心哲學可以概括為:以頻寬換算力,以互聯換延遲。2.2 摩爾定律的終結與系統級擴展隨著電晶體微縮逼近物理極限,單晶片性能的提升日益艱難。輝達 CEO 黃仁勳明確指出,未來的性能提升將不再依賴單一晶片,而是依賴“資料中心即晶片”的系統級設計 4。Rubin 架構正是這一理念的極致體現:它不再試圖製造一個超強的 GPU,而是試圖製造一個超強的機架(Rack),並讓這個機架在軟體層面表現為一個單一的邏輯單元。3. 矽基架構:Vera Rubin 超級晶片的技術解構Rubin 平台的核心建構模組是 Vera Rubin Superchip。這一異構計算模組整合了定製化的 Vera CPU 和下一代 Rubin GPU,通過 NVLink-C2C 實現晶片級的高速互聯。3.1 Rubin GPU 微架構:3nm 與雙芯封裝Rubin GPU 將採用台積電(TSMC)的 3nm 工藝(預計為 N3P 或後續最佳化版本)製造 6。相比 Blackwell 使用的 4NP 工藝,3nm 節點提供了顯著的電晶體密度提升和能效最佳化,這是在有限的功耗預算下實現性能翻倍的物理基礎。3.1.1 封裝策略:Die 與 GPU 的定義重構在分析 Rubin 的規格時,必須澄清輝達術語體系的變化。在 Blackwell B200 中,一個封裝(Package)包含兩個計算裸片(Compute Die)。在 Rubin 這一代,這種設計得到了延續並擴展:標準 Rubin GPU:包含 2 個全光罩尺寸(Reticle-sized)的計算裸片7。Rubin Ultra(2027年):預計將包含 4 個計算裸片1。因此,當我們討論 NVL144 時,我們指的是 72 個物理封裝,每個封裝內含 2 個裸片,總計 144 個計算核心1。這種設計使得輝達能夠在不突破光刻機掩膜版尺寸限制(Reticle Limit)的前提下,持續擴大單晶片的有效面積。3.1.2 記憶體革命:HBM4 的引入Rubin 架構最關鍵的技術躍遷在於首發搭載 HBM4(High Bandwidth Memory 4) 記憶體 6。相比 Blackwell 使用的 HBM3e,HBM4 帶來了質的飛躍:位寬翻倍:HBM4 將記憶體介面位寬從 1024-bit 擴展至 2048-bit8。這使得在同等時脈頻率下,頻寬直接翻倍。堆疊工藝:HBM4 採用了邏輯裸片與記憶體裸片的混合鍵合(Hybrid Bonding)技術,甚至可能直接堆疊在 GPU 邏輯晶片之上(3D 堆疊),從而大幅降低訊號傳輸的功耗(pJ/bit)。容量與頻寬:每個 Rubin GPU 封裝配備了 288GB HBM4 記憶體,頻寬高達 13 TB/s7。作為對比,Blackwell B200 的頻寬僅為 8 TB/s。這額外增加的 5 TB/s 頻寬,是 Rubin 能夠在推理任務中大幅領先 Blackwell 的核心物理原因。3.2 Vera CPU:徹底的架構自主與 Grace CPU 採用 ARM 標準 Neoverse 核心不同,Vera CPU 採用了輝達完全自訂的 ARM 架構核心 9。核心規格:單顆 Vera CPU 擁有 88 個物理核心,支援 176 個線程(SMT)11。戰略意義:Vera 的出現標誌著輝達在計算全端上的進一步收束。通過自訂核心,輝達可以針對 AI 資料預處理、CUDA 核心調度以及網路協議棧進行指令集等級的最佳化,進一步降低 CPU-GPU 之間的通訊延遲。Vera 與 Rubin 之間通過 1.8 TB/s 的 NVLink-C2C 互聯 1,確保了 CPU 記憶體與 GPU 視訊記憶體處於統一的定址空間。3.3 Rubin CPX:為“百萬上下文”而生在標準版 Rubin 之外,輝達還規劃了 Rubin CPX 變體。這是一個專為處理極長上下文(Massive Context)設計的 SKU 2。技術痛點:在處理長文件或生成長視訊時,Transformer 模型的 KV-Cache(鍵值快取)會佔用海量視訊記憶體,且注意力機制(Attention Mechanism)的計算複雜度隨序列長度呈二次方增長。CPX 解決方案:Rubin CPX 並沒有單純堆砌 FP4 算力,而是整合了專用的硬體單元來加速注意力計算,並最佳化了視訊記憶體管理機制。據官方資料,CPX 在百萬 token 級任務上的表現是 Blackwell 系統的 7.5 倍3。這表明 CPX 可能採用了類似於“Ring Attention”的硬體加速技術,利用 NVLink 6 的高頻寬在多個 GPU 間高效流轉 KV 塊。4. 互聯拓撲:NVLink 6 與 144 芯互聯架構(回答“是多少張GPU互聯”)回答使用者“是多少張GPU互聯”的核心在於解析 NVLink 6 互聯技術與 NVL144 機架架構。這是 Rubin 區別於所有競爭對手的護城河。4.1 NVL144:單一機架內的超級電腦Rubin 架構的旗艦形態是 Vera Rubin NVL144。這是一個液冷機架系統,其互聯規模達到了前所未有的高度:互聯數量:144 個 GPU 計算核心(Die)1。物理形態:72 個 Rubin GPU 封裝(每個含 2 個 Die) + 36 個 Vera CPU 1。互聯性質:全互聯、無阻塞(Non-blocking)、記憶體一致性域。在 NVL144 中,任意一個 GPU 都可以通過 NVLink Switch 直接訪問機架內其他 143 個 GPU 的 HBM4 記憶體,且訪問速度高達 3.6 TB/s。這與傳統的乙太網路或 InfiniBand 互聯有著本質區別:在軟體看來,這 144 個 GPU 就是一個擁有 ~41 TB 統一視訊記憶體(288GB x 144)的巨型 GPU。4.2 NVLink 6:銅纜的物理極限支撐這一互聯規模的是第六代 NVLink 技術。頻寬翻倍:NVLink 6 的雙向頻寬提升至 3.6 TB/s,是 Blackwell 所用 NVLink 5(1.8 TB/s)的 2 倍8。機架總頻寬:NVL144 機架背板的交換容量高達 260 TB/s1。物理介質:為了在機架內實現如此高的密度和極低的延遲,輝達繼續採用了**銅纜背板(Copper Backplane)**設計 13。儘管業界對光學互聯(Silicon Photonics)呼聲甚高,但在機架內部(<2米距離),銅纜依然具有功耗低、無需光電轉換延遲的優勢。NVL144 的背板是一個工程奇蹟,它整合了超過 5000 根高速銅纜,構成了一個類似脊椎的通訊骨幹。4.3 與 Blackwell NVL72 的對比通過對比可見,Rubin 並非簡單的數量堆砌,而是通過互聯頻寬的翻倍來支撐節點數量的翻倍,從而保證了**網路直徑(Network Diameter)**不隨節點增加而惡化,維持了極低的通訊延遲。5. 性能基準:超越最強資料中心(回答“強多少”)使用者關注的第二個核心問題是:“比現在最強的資料中心性能強多少?” 目前的基準是 Blackwell GB200 NVL72。Rubin 的性能提升並非單一數值,而是根據工作負載的不同呈現出分層差異。5.1 AI 推理性能(Inference):3.3 倍的躍升在 FP4(4-bit 浮點)精度下,Vera Rubin NVL144 的理論峰值性能達到 3.6 Exaflops(每秒 360 億億次運算)1。對比基準:Blackwell NVL72 的 FP4 性能約為 1.44 Exaflops。提升幅度:約 2.5 倍至 3.3 倍1。技術歸因:這一提升不僅源於 GPU 數量的翻倍(從 72 到 144),更源於 Rubin 架構 Tensor Core 的效率提升以及 HBM4 提供的 13 TB/s 頻寬,使得計算單元能夠滿負荷運轉,避免了“記憶體牆”導致的閒置。5.2 複雜推理與長上下文(CPX):7.5 倍的質變對於生成式 AI 的未來——即涉及數百萬 Token 上下文、視訊生成或複雜程式碼分析的任務——Rubin CPX 展現了驚人的統治力。性能資料:輝達宣稱 Rubin CPX 系統在“海量上下文推理”任務中比 GB200 NVL72 強 7.5 倍2。技術歸因:這 7.5 倍的差異遠超算力本身的提升,主要歸功於 CPX 針對 Attention 算子的硬體最佳化和 NVLink 6 的極低延遲。在長文字推理中,資料在 GPU 間的搬運是最大瓶頸,Rubin 的超高頻寬讓跨 GPU 的 KV-Cache 訪問如同訪問本地視訊記憶體一樣快。5.3 訓練性能(FP8):穩健增長在傳統的模型訓練(FP8 精度)方面,Rubin 的提升相對溫和但依然顯著。性能資料:NVL144 提供 1.2 Exaflops 的 FP8 算力 1。對比基準:Blackwell NVL72 約為 720 Petaflops。提升幅度:約 1.6 倍。解讀:訓練任務對計算密度的依賴高於記憶體頻寬,因此提升幅度更接近於電晶體規模的線性增長。但考慮到 Rubin 支援更大的單節點模型,其實際訓練效率(收斂速度)可能高於理論算力的提升。5.4 性能資料彙總表以下表格總結了 Rubin NVL144 與 Blackwell NVL72 的關鍵性能對比:6. 熱力學與基礎設施:600kW 的工程挑戰Rubin 架構的性能飛躍並非沒有代價。為了在單一機架內壓縮 144 個高性能 GPU 和 36 個 CPU,其對資料中心的基礎設施提出了極其嚴苛的要求。6.1 功率密度的爆炸:邁向 600kW雖然標準的 NVL144 機架功耗預計在 120kW - 140kW 左右(與 NVL72 相似),但 Rubin 架構的終極形態——Rubin Ultra NVL576——預計將單機架功耗推向 600kW 的恐怖量級 10。對比:傳統企業級機架功耗僅為 10kW 左右;即使是當前的高密度 AI 機架通常也在 40-50kW。Rubin Ultra 的 600kW 相當於將一個小區的用電量壓縮到了一個衣櫃大小的空間內。6.2 800V 高壓直流供電(HVDC)為了應對如此巨大的電流,傳統的 48V 配電架構已徹底失效(電流過大會導致銅排熔化)。Rubin 平台推動了 800V 直流配電 標準的落地 17。原理:根據 $P=UI$,在功率 $P$ 極大的情況下,提高電壓 $U$ 是降低電流 $I$ 的唯一途徑。800V 架構允許使用更細的母線(Busbar),減少傳輸損耗,並提高電源轉換效率。6.3 液冷成為唯一選項對於 Rubin NVL144,風冷已在物理上不可行。該系統採用了 100% 全液冷設計14。Kyber 機架:輝達為 Rubin 重新設計了名為“Kyber”的機架架構(接替 Blackwell 的 Oberon 機架)。Kyber 專為高密度液冷最佳化,冷卻液直接流經 GPU、CPU 和 NVSwitch 晶片表面的冷板(Cold Plate),並通過機架內的 CDU(冷卻分配單元)進行熱交換。這意味著部署 Rubin 的資料中心必須具備完善的液體回路基礎設施。7. 軟體生態與經濟學模型硬體的堆砌只是基礎,Rubin 的真正威力在於其軟體棧和經濟效益。7.1 CUDA 與 NIM 的進化為了駕馭 144 晶片的互聯域,輝達的 CUDA 軟體棧將進一步演進。Rubin 將深度整合 NVIDIA NIM (NVIDIA Inference Microservices),這是一套預最佳化的微服務容器,能夠自動識別底層的 NVL144 拓撲,並將模型層(Layer)智能切分到不同的 GPU Die 上,以確保儲存和計算的負載平衡 4。7.2 代幣經濟學(Tokenomics)雖然 Rubin NVL144 機架的單價將極其昂貴(預計數百萬美元),但其 TCO(總體擁有成本) 在大規模推理場景下可能反而更優。推理成本降低:由於 Rubin CPX 在長上下文任務上擁有 7.5 倍的性能優勢,這意味著單位 Token 的生成能耗和時間成本大幅下降。對於像 OpenAI、Anthropic 這樣每天處理數十億 Token 的服務商而言,Rubin 是降低營運成本的必要工具。8. 結論與展望輝達的 Rubin 架構不僅僅是一次產品的迭代,它是對“摩爾定律已死”這一論斷的有力回擊。通過將 144 個 3nm GPU 封裝在一個通過 NVLink 6 互聯的單一機架中,輝達成功地將計算的邊界從微米級的晶片擴展到了米級的機架。回答使用者的核心疑問:互聯規模:Rubin 實現了 144 張 GPU(裸片) 的全互聯,建構了當前世界上密度最大的單一記憶體計算域。性能對比:相比當前最強的 Blackwell NVL72,Rubin 在 AI 推理上強 3.3 倍,在處理長上下文任務時強 7.5 倍,在記憶體頻寬上強 3 倍。Rubin 的出現標誌著 AI 基礎設施正式進入了“巨型機”時代。在這個時代,資料中心的衡量單位不再是伺服器的數量,而是機架(NVL144)的數量。對於追求極致算力的科研機構和科技巨頭而言,Rubin 不僅是下一代工具,更是通往通用人工智慧(AGI)的物理基石。 (成癮大腦神經重塑)
我們處在2000年泡沫崩掉的前夜嗎?
今天聽完了a16z播客的新一期對談:Benedict Evans(曾任a16z合夥人,長期研究平台變革)和主持人Erik Torenberg聊《AI eats the world》以及下一輪平台遷移的真實走向。整期內容不太像“追熱點”,更像是在給2025年的AI產業做一次冷靜校準:泡沫從那來、為什麼全行業FOMO、為什麼人人都知道但還沒用成習慣,以及最關鍵的——模型之外,到底還缺什麼產品形態和商業護城河。題圖來自:AI生成下面我把這期對談裡我認為最有價值、也最能幫助我們理解當下進度與下一步機會的點,整理成一篇資訊梳理,分享給大家。一、真實進度條:為什麼AI看起來“人盡皆知”,卻還沒變成“人人離不開”Benedict Evans用一個很刺耳的反問開場:ChatGPT有8億~9億周活,但如果你是那種每天用好幾個小時的人,不妨問自己——為什麼有五倍於你的人“看過、理解、有帳號、會用”,卻想不出這周或下周要用它做什麼?這句話把2025年AI的“真實進度條”釘在了一個矛盾上:熱度已是基礎設施等級,使用仍停留在“可選工具”。他提到的調查印象也指向同一件事:每天用的人大約10%~15%,更多人是“每周用一次或偶爾用一次”。這會直接影響一切——從商業模型、分發管道,到誰能建構真正可防禦的產品。二、“AI”和“AGI”正在變成一套話術,而不是一組定義Evans反覆強調:“AI”這個詞越來越像“技術”“自動化”——只在“新”的時候成立,一旦普及,它就不再被稱為AI。他舉了電梯的類比:1950年代奧的斯把自動電梯當成“電子禮儀”行銷;今天沒人會說“我在使用電子電梯”,它只是電梯。而“AGI”則更像“新的、可怕的東西”。他講了一個略帶神學意味的笑話:AGI似乎總處在一種尷尬的二選一——要麼它已經到了,只是“小型軟體”;要麼它在5年後,並且永遠都會在5年後。這也解釋了他對行業敘事的敏感:你會看到有人說“我們現在就有博士級研究員”,也會看到另一派立刻反駁“沒有,別鬧”。對Evans來說,問題不在於誰更會講話,而在於:當我們連“它到底是什麼”都在搖擺時,所有預測都會被敘事拉扯得四分五裂。三、這到底是一次平台變革,還是“比平台更大”的結構性變化?Evans的核心框架,是把生成式AI放進“平台變革史”裡對照:平台變革通常會帶來贏家和輸家,會製造泡沫,也會催生新的兆公司;但對科技行業之外,影響往往分化——網際網路對報紙行業是“改天換地”,對水泥行業可能只是“更好用的工具”。但這一次不同在於:過去的平台變革,你不知道明年會出現誰(Netscape出來時,很多未來巨頭還在上學;Amazon也還只是書店),但你大體知道物理極限:頻寬、硬體、電池、成本曲線都在可推演的邊界裡。生成式AI的麻煩是:我們不知道它的“物理極限”。因為我們既沒有對“它為何有效”的充分理論,也沒有對“人類智能是什麼”的充分理論,於是你只能聽到一堆“我覺得”。這會直接導致一種“精神分裂式敘事”:同一家公司可以一邊談“很快人類級/博士級研究員”,一邊又談“這是新的API堆疊,會像Windows一樣讓更多軟體成為可能”。Evans的吐槽很直接:這兩件事不可能同時為真——要麼你擁有一個博士級研究員(那它也該是博士級會計師),要麼你只是得到一種更強的軟體能力去做報稅、寫程式碼、做工作流。四、泡沫:不是“會不會”,而是“我們現在是97、98還是99”在泡沫問題上,Evans的態度既不高舉高打,也不裝作冷靜旁觀者。他的判斷是:“非常新、非常大、非常令人興奮、改變世界的東西,往往會導致泡沫。”所以,如果現在還不在泡沫裡,也大機率會走進泡沫。但他更看重的是泡沫的“結構性特徵”,而不是給泡沫貼標籤:泡沫期裡一切同時上漲,所有人都像天才,槓桿、交叉槓桿、循環收入到處都是;然後當它掉頭,會出現棘輪效應。他引用Marc Andreessen對90年代網際網路泡沫的記憶:1997不是泡沫,1998不是泡沫,1999是泡沫。問題是——我們現在到底是那一年?如果能精準回答,我們就生活在平行宇宙裡。五、FOMO的底層邏輯:不投資的下行風險,大過過度投資的下行風險比“泡沫”更能解釋2025年資本開支狂潮的,是Evans拋出的那句行業共識:從超大規模雲服務商那裡聽到的說法大意都是——不投資的下行風險,超過過度投資的下行風險。這裡的關鍵不在“他們是否理性”,而在“沒人能算明白”。Evans用90年代末預測頻寬需求做類比:你可以列出使用者數、網頁頻寬、視訊時長、位元率、觀看習慣,用電子表格算出10年後全球頻寬消耗,再反推路由器銷量——你會得到一個數字,但它一定不是那個數字,真實結果可能有百倍區間。同理,AI計算需求也很難代數化:模型效率每年可能下降很多倍(他強調“成本在掉”),但使用量在漲;於是你很難判斷到底是“缺供給”還是“缺需求”,也很難判斷今天的CapEx是在買未來,還是在買焦慮。他順手拆了一個“過度投資也能轉賣容量”的樂觀說法:如果你閒置算力,別人也會閒置;你以為能轉賣,市場上卻可能是“全行業一起庫存”。六、“缺失的產品”:ChatGPT像入口,但還不是“定義平台的那台iPhone/那張Excel”這期對談最有資訊密度的部分,其實不是模型能力,而是Evans對“產品形態”的判斷:很多人把ChatGPT當成“產品”,但它更像一個“偽裝成產品的聊天機器人”。原因並不玄學,而是UI與工作流的現實:專業軟體的螢幕上之所以只有7個按鈕,是因為背後有一群人把機構知識、行業流程、決策節點都壓縮成“在這一步該問什麼、該給什麼選項”。而當你面對一個空白提示框,你被迫從第一性原理想清楚:我到底要什麼、我該怎麼問、我該怎麼驗證、我該怎麼把它嵌進工作裡——它幾乎在“問你所有事情”。於是,“缺失的產品”就清晰了:不是缺一個更聰明的模型,而是缺一套能把AI嵌進具體崗位與具體流程的產品包裝。這也是他解釋為什麼企業會買Everlaw這種“法律文件發現解決方案”,而不會想自己去拼AWS API:人們購買解決方案,不購買技術。Evans給出的直覺很像一句“創業者友好”的判詞:過去十年企業軟體公司在拆解Oracle/Excel;今天AI軟體公司在拆解ChatGPT。誰能把“按鈕”做出來,誰就能把AI的能力變成可銷售的工作流。七、驗證與錯誤率:為什麼“無限實習生”有時反而讓你更累Evans最尖銳的現實主義,不在“它會不會更強”,而在“你能不能驗證”。他引用與Balaji的對話:矽谷的人經常對錯誤率揮手而過,但很多問題需要特定且正確的答案;如果無法機械驗證,靠人檢驗是否划算?在行銷裡,讓機器生成200張圖、人挑10張,效率巨大;但在資料錄入場景,如果機器從200個PDF抄200個數字、你得逐個核對,那你還不如自己做。他舉的OpenAI Deep Research的例子尤其扎心:它拿來當行銷展示的資料“數字全是錯的”,錯在轉錄、錯在來源選擇;你讓實習生做,也可能犯同樣的錯。這不是嘲諷模型,而是在強調:AI的落地不是“能生成”,而是“能交付”。交付意味著驗證鏈路、責任邊界、以及“錯一次的代價”。八、新行為會出現,但“類別長什麼樣”我們現在很可能問錯了問題當被問到“會不會出現AI版Uber/Tinder”時,Evans的回答依舊是歷史視角:每一次平台變革,早期都充滿誤判。1995年人們以為Web更像“共享系統”,後來才變成“發佈系統”;iPhone也用了兩年才真正跑通價格、功能與分發。他甚至把這種“問錯問題”的必然性當成規律:當年移動時代人人追問“3G的殺手級用例是什麼”,最後答案是“口袋裡隨處都有網際網路”——但當時沒人這麼問。因此他更願意把AI的落地分成三步:第一步,把它做成功能,做明顯的自動化;第二步,做新的東西;第三步,有人把行業從裡到外翻過來,重新定義問題。在他看來,我們仍大量停留在第一步,同時開始更認真地討論第二步、第三步:AI會帶來什麼新收入?會在那些地方重塑市場結構?九、競爭格局:模型趨同,真正的差異在分發、成本與“可防禦的粘性”關於“誰能贏”,Evans不太相信“基準分數”能給答案。他同意一種觀察:對偶爾使用的消費者來說,模型很可能被體驗成“商品”;真正拉開差距的,是分發、默認入口、以及成本基礎。他對OpenAI的描述尤其冷:8億~9億周活當然驚人,但這種優勢“很脆弱”,因為它更像品牌與默認,而不是網路效應、生態系統或功能鎖定;同時它沒有自有基礎設施,成本不受控,“每個月從Satya那裡收帳單”。因此OpenAI必須兩線作戰:一邊在模型之上拚命做產品形態(瀏覽器、社交視訊、應用平台……“滿牆都是線”那種),一邊補基礎設施,去和Nvidia、AMD、Oracle、甚至“石油美元”打交道。這句話把2025年“FOMO”從雲廠商擴展到了模型廠商:不僅要跑得快,還要補齊護城河。十、大廠站位:Google/Meta/Apple/Amazon/OpenAI分別在守什麼、搶什麼Evans對“大廠站位”的拆解,核心不在“誰模型更強”,而在五家公司各自的基本盤不同:有人在守入口,有人在守現金流,有人在守裝置生態,有人既賣鏟子也想重做決策鏈路。OpenAI:守默認入口,搶護城河與成本基礎OpenAI的強項是心智與默認入口,但弱點是缺少穩固的生態鎖定與基礎設施控制權。它必須同時補兩件事:把入口變成更強粘性的產品形態,以及把成本基礎從“外部帳單”變成可控的長期結構。Google:守搜尋廣告現金牛,搶下一代體驗的定義權Google可以用既有現金流承受巨額投入,把AI吸收進搜尋、廣告、工具鏈裡,先把“舊世界”做得更強。同時它也在爭一件事:下一代入口究竟長什麼樣——是Google定義,還是別人定義後Google複製並規模化。Meta:守內容分發與推薦系統,搶下一代社交體驗控制權AI對Meta更像“體驗範式變數”,會影響內容生產、分發、推薦與互動方式。它最在意的不是單點能力,而是分發機器的控制權是否旁落,因此更需要掌握自有模型與能力邊界。Amazon:守AWS的鏟子生意,搶購買決策與發現入口一方面,Amazon天然受益於把AI當雲能力售賣;另一方面,它更想搶的是“使用者如何決定買什麼”。如果購買從搜尋SKU遷移到對話式建議與發現,零售媒體、廣告轉化路徑、推薦系統都可能被重寫。Apple:守裝置與生態入口,搶“計算形態是否改寫”的落點Apple的關鍵不在有沒有聊天機器人,而在AI會不會改變“軟體是什麼、App是否還存在”。如果互動轉向代理化/對話化,裝置側仍可能是關鍵入口;但前提是體驗要足夠穩定可靠,而這恰恰是行業目前最難交付的部分。十一、站到行業外面:真正焦慮的不是“我能不能用AI”,而是“我的價值鏈會不會被改寫”Evans最後把鏡頭推向科技之外:如果你是出版、品牌、行銷、媒體公司,你可以列一堆問題,但你甚至不知道問題是什麼。當使用者問LLM要一個食譜,LLM直接給答案,食譜網站意味著什麼?當購買決策變成“我揮舞手機問一句‘我該買什麼’”,流量與轉化會被帶到那裡?Amazon能否借LLM真正把“推薦、發現、建議”做成規模化能力,而不只是賣SKU?他甚至把這種衝擊總結為一種殘酷的“自我識別”:報紙行業過去談策展、新聞,卻很少承認自己也是“輕製造+本地配送卡車公司”;直到網際網路來了,價值鏈裡真正可被拆解、可被替代的部分才暴露。換句話說,AI的第二階段、第三階段,可能不是把你效率提高20%,而是讓你意識到:你以為的護城河,可能只是“無聊、困難、耗時”的流程摩擦。當LLM移除摩擦,你靠摩擦賺錢的行業,會突然失重。十二、2025年的“真實進度”,是一場從模型熱到產品定型的遷徙如果把這場對談壓縮成一句話:2025年AI的關鍵不在“更強的模型”,而在“缺失的產品形態”與“可驗證的交付鏈路”——它們決定了AI會從少數人的高頻工具,變成多數人的默認工作方式。Evans最後也留了一個誠實的邊界:我們現在擁有的,還不是“實際人的替代品”,除非在非常狹窄、嚴格護欄的場景裡。它會不會成長到那一步?沒人能給可證偽的答案。但對產業而言,也許更重要的是:即便它永遠只是“更強的軟體”,也足以像網際網路與智慧型手機那樣,重排一批行業、重寫一批公司。而真正的戰場,會發生在“泡沫與FOMO”之下,那些把能力做成產品、把錯誤變成可控、把工作流變成按鈕的人手裡。 (虎嗅APP)
AI,突發重磅!川普,正式簽署!
川普,「力挺」AI產業!據最新消息,美國總統川普當地時間11日簽署一項關於人工智慧政策的行政命令,旨在統一AI監管規則,並通過訴訟和削減撥款的方式來限制各州監管人工智慧(AI)的權力。川普表示,從事人工智慧工作的人員或公司在美國設立業務不應遇到障礙。白宮則稱,此舉旨在「通過一個負擔最小的國家級AI政策框架,維持並提升美國在全球AI領域的主導地位」。川普的上述舉動,被認為是美國科技業的勝利。長期以來,美國科技企業一直在遊說美國政府,限制並減少他們認為過於繁瑣的監管法規。與此同時,摩根大通資產管理公司董事總經理凱利·克雷格(Kerry Craig)周四駁斥了最近對股市人工智慧泡沫的擔憂。川普簽署當地時間12月11日,美國總統川普簽署了一項行政命令,以保護美國人工智慧創新免受各州法律不一導致的合規體系混亂和高昂成本的影響。這項行政令指示美國司法部長成立人工智慧訴訟特別工作組,對那些出台「被認為會損害美國全球人工智慧領先地位」的州提起訴訟。不遵守規則的州可能面臨資金限制。該行政令規定,在簽署後90天內,美國商務部長必須明確各州有資格獲得寬帶公平接入和部署計劃剩餘資金的條件。該計畫是一項耗資425億美元,旨在擴大農村地區高速網路接入的工程。行政令要求美國商務部長識別現有的州法律中那些「要求AI模型改變其真實輸出」的條款,這與川普政府早前試圖防止其所謂「覺醒AI(woke AI)」的努力相呼應。被認定有這些及其他「繁重」要求的州,可能需要簽署協議,承諾不執行這些法規,才能獲得可自由支配的聯邦資金。行政命令指出:「為贏得競爭,美國AI公司必須能夠在不受繁瑣監管的情況下自由創新。但各州過度的監管阻礙了這一必要處理程序。」在大衛·薩克斯的協助下,川普政府一直尋求建立聯邦規則優先於各州人工智慧監管的路徑,此舉旨在防止加利福尼亞州和紐約州等民主黨主導的大州對日益增長的人工智慧施加控制。在簽章儀式上,川普稱,人工智慧已經帶來了醫學上的突破,而美國需要一個蓬勃發展的人工智慧產業才能維持競爭力,「在未來一段時間內,它可能佔我們經濟的50%到60%」。川普表示,從事人工智慧工作的人員或公司在美國設立業務不應遇到障礙。他說:「如果他們必須從50個不同的州獲得50個不同的批准,那就算了,因為這是不可能的。」川普表示,他曾就行政令與眾多科技業領袖磋商,並指出蘋果公司執行長庫克是其中之一。摩根大通策略師駁斥AI泡沫論12月11日,摩根大通資產管理公司董事總經理凱利·克雷格(Kerry Craig)在一次採訪中駁斥了最近對股市人工智慧泡沫的擔憂。克雷格稱:「你現在看到一些對資本支出水平的擔憂正在蔓延,我認為這絕不是泡沫。」他解釋說,這是因為就目前而言,大部分資金來自企業擁有的現金,而不是債務,而且與互聯網泡沫不同,實際需求和強勁的盈利前景證明了這一點。實際上,克雷格發表上述言論之際,人們普遍擔心美國存在人工智慧泡沫,因為投資者越來越擔心美國科技公司越來越多地利用債務為旨在擴大其AI相關基礎設施的大型項目提供資金。12月11日,甲骨文股價暴跌,此前其公佈的季度收入低於市場預期。今年9月,甲骨文透過發行債券籌集了約180億美元的資金,用於投資一個大型人工智慧資料中心。「你可以回顧一下互聯網和光纖的擴張。所有這些光纖都有巨大的投資,它花了數年時間才被吸收,但它被吸收了。」克雷格指出,人工智慧的採用率仍然「非常低」。克雷格預計明年美國股市的人工智慧上漲將持續下去,但幅度將小於今年。 (券商中國)
摩爾線程IPO背後:與商湯多年合作,印證AI產業“軟硬協同”趨勢
摩爾線程的火爆上市,是中國AI產業鏈協同突圍的里程碑。其背後,商湯科技以創新的“算力Mall”模式,正為國產晶片鋪就一條從“可用”到“好用”的關鍵路徑。12月5日,國產GPU企業摩爾線程成功上市,開盤大漲超過400%,市值突破2700億元。這無疑是中國AI晶片產業的一個高光時刻。而在資本市場的熱度之外,更應冷靜審視其背後的產業邏輯:國產GPU的真正瓶頸,已不是單純的算力比拚,而是生態的不完善。輝達的核心競爭力,在於其構築多年的CUDA軟體生態壁壘。如何破局?摩爾線程與商湯科技的長期合作提供了一個樣本:唯有深度生態協同,才能實現“軟硬一體”的國產化突圍。合作多年,商湯演算法+摩爾算力高效協同商湯官方在回覆投資者問題時表示,“公司與摩爾線程多年來保持業務合作關係,公司演算法已完成對其相關產品的適配,雙方的協同將有助於提升公司產品的市場適配性。”據悉,雙方在大模型訓練推理技術最佳化、軟體生態支撐、核心技術攻關等領域已經形成高效協同。一方面,摩爾線程的優勢在於全功能GPU,兼顧AI計算與圖形渲染,其豐富的演算法需求與日益提升的算力供應形成強有力的合作基礎。另一方面,商湯對算力的需求是多元的,大模型訓練需要極致的浮點運算能力,AIGC視訊生成等應用又需要強大的渲染能力。摩爾線程圖形渲染領域具備差異化能力,滿足商湯在大模型運算與不同場景的復合算力需求,並反哺商湯演算法落地效率提升。由此,雙方形成“需求-供給-最佳化”的閉環合作機制,市場競爭力也獲得同步提升。搭建國產算力極佳試驗場對摩爾線程而言,商湯領先的日日新大模型體系、商湯AI大裝置SenseCore及其廣泛的落地場景,構成了絕佳的規模化場景驗證平台,能為其提供關鍵的產品驗證和背書,有助於拓展行業客戶。目前,摩爾線程的MTT S系列GPU已經完成與商湯大裝置SenseCore的全面適配,實現了對商湯日日新多模態大模型體系的支援。這意味著,國產GPU首次在千億參數級的大模型訓練與推理任務中,接受了工業級標準的嚴苛考驗。在真實的業務壓力下,商湯不僅幫助摩爾線程驗證性能、打磨產品,完成產品從“可用”到“好用”的淬煉;同時商湯借助晶片企業的管道資源觸達更多潛在客戶,形成“生態擴容 - 客戶增長 - 業績提升”的良性循環,也強化了自身“生態主導者”的估值溢價。生態共建:“商湯算力Mall”推動中國AI算力自主可控在全球高端AI算力供應受限的大背景下,建立多元、穩定的國產算力供應鏈以及生態協同至關重要。“商湯大裝置算力Mall”聯動多家晶片企業打造國產AI算力生態聯盟,建構了全場景算力解決方案,降低企業獲取高性能算力門檻,快速擴大客戶覆蓋範圍,提升市場滲透率,助力AI技術快速滲透至各行業場景。以摩爾線程為例,其今年7月作為核心成員加入“商湯大裝置算力Mall”,平台下游的數字孿生、具身智能等企業,可以借助商湯的平台,使用經過適配驗證的摩爾線程晶片算力,商湯串聯產業鏈上下游,算力的提供方和適用方,都能夠借助商湯的生態影響力加快拓展市場。業內普遍認為,商湯與多家國產AI晶片企業深度合作,共同攻克“卡脖子”技術,實現算力自主可控,推動了中國AI算力的自主可控與產業發展,形成“技術互補、資源共享、場景互哺”的合作生態,也減少市場對供應鏈短缺的擔憂。 (21世紀經濟報導)
輝達AI產業生態的建構之道
在全球AI產業爆發式成長的浪潮中,輝達(NVIDIA)並非僅以晶片製造商的身份存在,而是憑藉全端技術佈局和生態協同策略,建構了一個覆蓋硬體、軟體、開發者、合作夥伴及行業場景的龐大AI產業生態系統。其生態建構邏輯以「核心技術為基、軟體平台為橋、夥伴協同為脈、開發者為核」,形成了自我強化的生態正循環,奠定了其在AI領域的領導地位。一、以頂尖硬體為生態基石,築牢性能護城河硬體是AI計算的核心載體,輝達透過持續迭代高性能GPU及配套硬體架構,為生態提供了不可替代的計算基礎,形成了生態建構的「硬支撐」。1. 迭代GPU核心架構,領跑AI計算效能輝達從早期的Tesla系列到現今的Hopper、Blackwell架構,始終聚焦在AI計算需求最佳化GPU設計。以Blackwell架構為例,其採用先進的晶片堆疊技術和全新的電晶體架構,在AI訓練和推理性能上實現數量級提升,單晶片算力較前代提升5倍以上,為大模型訓練、代理式AI等嚴苛工作負載提供了強大算力支撐。這種性能優勢使得全球絕大多數AI企業、科研機構在開展核心AI研發時,首選輝達GPU作為計算載體,形成了生態的「硬體入口壁壘」。2. 推出互連與整機解決方案,完善硬體生態閉環為解決大規模AI計算的算力群聚化需求,輝達打造了從晶片級互連到整機系統的完整硬體方案。其推出的NVLink技術作為核心互連架構,實現了GPU之間、GPU與CPU之間的高速資料傳輸,第五代NVLink為每個GPU提供1.8TB/s的總頻寬,較PCIe 5.0快14倍。2025年發表的NVLink Fusion晶片更實現了生態突破,允許合作夥伴基於該技術打造半定製AI晶片,MediaTek、Marvell、Alchip等企業已藉助該技術開發自訂AI計算系統,富士通、高通則將自訂CPU與輝達GPU通過NVLink整合,建構高性能工廠。此外,搭配ConnectX SuperNIC、Spectrum-X乙太網路交換機等網路硬體,輝達形成了「GPU+互連+網路+整機」的全端硬體解決方案,滿足從邊緣到資料中心的全場景計算需求。二、以軟體平台為生態紐帶,打通技術落地鏈路如果說硬體是生態的「骨架」,那麼軟體就是串聯生態的「血脈」。輝達透過建構CUDA為核心的軟體平台體系,降低了AI技術的使用門檻,實現了硬體能力的最大化釋放,也讓開發者和合作夥伴深度繫結於生態之中。1. CUDA:建構生態的「作業系統級」基石CUDA(統一計算裝置架構)作為輝達生態的核心,是連接GPU硬體與上層應用的關鍵介面。它提供了一套完整的程式設計模型、開發工具和函式庫,讓開發者無需深入掌握GPU硬體細節,即可透過C、C++等熟悉的語言開發AI應用。經過十餘年迭代,CUDA已形成龐大的工具鍊和庫體系,如針對深度學習的cuDNN、針對高效能計算的cuBLAS等,覆蓋從模型訓練到推理部署的全流程。這種「一次開發、多平台部署」的特性,使得全球數百萬開發者聚集於CUDA生態,形成了強大的技術慣性-開發者基於CUDA開發的應用越多,企業選擇輝達GPU的動力就越強,反之又推動更多開發者投入CUDA生態,形成正向循環。2. 全端AI框架與平台,降低產業落地門檻為推動AI技術向各行業滲透,輝達在CUDA基礎上建構了針對不同場景的上層軟件平台。在深度學習框架層面,輝達與TensorFlow、PyTorch等主流框架深度合作,提供優化的底層支援,確保框架在輝達GPU上實現最高性能;在行業應用層面,推出了專項平台,如自動駕駛領域的DRIVE、醫療健康領域的Clara、工業領域的Metropolis等,這些平台整合了經過最佳化的設備例如,Clara平台為醫療影像分析、藥物研發等場景提供了端到端解決方案,幫助醫療機構和藥廠大幅縮短研發周期。此外,輝達還推出了NGC(NVIDIA GPU Cloud)平台,提供預訓練模型、容器化工具和產業解決方案,開發者和企業可直接在NGC上取得資源,加速AI應用開發與部署。三、以夥伴協同為生態脈絡,建構產業共同體AI產業涉及晶片設計、硬體製造、軟件開發、產業應用等多個環節,輝達透過開放合作策略,與產業鏈上下游夥伴建構了「共生共榮」的生態共同體,實現了生態的規模擴張。1. 硬體夥伴:建構半定製生態,拓展硬體邊界輝達摒棄「閉門造車」的硬體策略,透過NVLink Fusion等技術向晶片設計和製造夥伴開放生態。MediaTek、Marvell、Alchip等企業借助NVLink Fusion技術打造自訂AI晶片,Synopsys、Cadence等提供設計IP與工具支援,形成了「輝達核心技術+夥伴定製開發」的硬體合作模式。這種模式既發揮了輝達在互連架構和GPU核心技術的優勢,也利用夥伴的專業能力滿足不同產業的定製需求。例如,MediaTek結合自身在高速互連領域的優勢,與輝達合作開發下一代AI基礎設施,服務雲級AI需求;富士通則將其2奈米Arm架構CPU與輝達GPU透過NVLink整合,實現更高能效比的AI計算。同時,輝達與台積電、三星等晶圓製造企業深度合作,確保GPU晶片的產能供應,為生態擴張提供硬體保障。2. 雲端服務夥伴:實現算力普惠,擴大生態覆蓋為讓更多企業和開發者便捷獲取AI算力,輝達與亞馬遜AWS、微軟Azure、GoogleCloud、阿里雲等全球主流雲服務商合作,將GPU算力以雲端服務形式輸出。雲端服務商透過部署輝達GPU叢集,推出AI算力實例,如AWS的P3/P4實例、阿里雲的GN7實例等,開發者和中小企業無需投入巨資購買硬體,即可透過按需付費的方式使用高性能AI算力。這種「算力即服務」的模式極大地降低了AI技術的使用門檻,讓全球範圍內的使用者都能接入輝達生態,同時雲服務商的推廣也進一步擴大了輝達生態的影響力。此外,輝達也為雲端服務商提供客製化支援,如透過NVLink Fusion幫助雲端服務商建構可擴展的AI工廠,滿足大規模算力需求。3. 產業夥伴:深度場景繫結,推動生態價值落地輝達與各產業龍頭企業合作,將AI技術深度融入產業場景,實現生態價值的落地轉化。在自動駕駛領域,與特斯拉、小鵬、寶馬等車企合作,提供DRIVE平台和算力支援,推動自動駕駛技術研發與量產;在醫療領域,與梅奧診所、西門子醫療等合作,基於Clara平台開發醫療影像診斷系統和藥物研發工具;在工業領域,與寶馬集團、通用電氣等合作,利用自動化產品維修​​廠。這些合作不僅讓輝達AI技術在各行業實現落地,更透過產業夥伴的回饋優化技術與產品,使生態更貼合實際需求。4. 股權佈局:資本賦能生態協同的核心手段輝達的AI產業生態建構不僅依賴技術與業務合作,更透過精準的股權運作實現生態繫結與能力補全,形成「戰略投資繫結夥伴、收購整合核心技術」的雙層股權佈局邏輯,為AI產業佈局提供資本層面的堅實支撐。(1)上市公司戰略持股:鎖定關鍵場景與算力需求輝達對上市公司的持股以戰略性少量持股為主,核心目標是透過資本紐帶強化業務協同,確保GPU產品在關鍵AI場景的優先滲透,而非追求控制權。重點持股領域集中在AI雲運算、晶片設計、自動駕駛及生物醫藥等核心賽道。其中,對AI雲資料中心企業CoreWeave持股比例高達91.36%(投資金額約39.6億美元),使其成為輝達GPU算力的「超級客戶」,既鎖定了大規模算力需求,又藉助CoreWeave的市場擴張推動GPU銷售與技術迭代。對晶片架構巨頭Arm Holdings持股4.11%,則保障了輝達GPU與Arm架構的相容性,實現晶片設計生態的深度協同。在垂直場景中,對自動駕駛企業文遠知行(WeRide)持股0.32%,深化了在中國自動駕駛市場的佈局,同時保障Orin晶片的銷量與技術合作;對AI生物醫藥企業Recursion Pharmaceuticals持股0.9%,透過提供GPU算力換取醫療場景的AI應用程式經驗,完善Clara平台的行業適配能力。(2)非上市初創投資:前瞻佈局前沿AI技術針對AI領域的創新前沿,輝達透過投資非上市初創企業提前卡位關鍵技術,形成生態創新儲備。投資版圖涵蓋大模型、人形機器人、AI優化工具等前沿方向,典型標的包括OpenAI、Figure AI、Mistral AI等。對OpenAI的戰略投資使其鎖定了大模型訓練的核心算力需求,同時通過技術協作優化GPU在大模型訓練與推理中的性能;投資人形機器人企業Figure AI,探索AI與機械結合的創新場景,為未來自動化業務積累技術經驗。在歐洲市場,投資開源大模型公司Mistral AI與NLP服務商Cohere,推動GPU在海外推理與訓練場景的效能落地;對Lambda Labs等GPU雲運算服務商的投資,則拓展了GPU分銷管道,為中小企業接入輝達生態提供便利。這類投資以風險可控為原則,透過資本繫結獲取技術前瞻性資訊與生態協同機會,為輝達AI生態注入持續創新活力。(3)核心企業收購:掌控關鍵技術建構全端能力與策略投資不同,輝達的收購策略聚焦核心技術補全,透過全資收購將關鍵能力整合進自身生態,強化全端AI解決方案能力。收購標的均瞄準生態短板領域,形成「硬體-軟件-服務」的閉環整合。2019年收購高效能網路企業Mellanox,掌控了GPU叢集互聯的InfiniBand技術,大幅提升資料中心算力叢集的傳輸效率,降低系統部署複雜度;收購AI資源調度企業Run:ai後,將其技術整合進NVIDIA AIEnterpriseAIOmOmniD,提升邊緣GPU利用率;,則填補了邊緣裝置AI推理與模型自動化優化的短板,實現從資料中心到邊緣端的全鏈路AI能力覆蓋。這些收購並非單純的規模擴張,而是精準補強生態關鍵環節,鞏固「全端AI基礎設施提供者」的核心定位。四、以開發者為生態核心,培育創新活力源泉開發者是生態的創新主體,輝達透過建構完善的開發者培育體系,吸引、留存並賦能全球開發者,為生態注入持續的創新活力。1. 教育與培訓:降低入門門檻,擴大開發者基數輝達推出了NVIDIA深度學習學院(DLI),提供線上線下結合的AI培訓課程,內容涵蓋CUDA編程、深度學習模型開發、行業場景應用等,開發者可透過課程學習和認證獲取專業技能。此外,輝達與全球數千所大學和科學研究機構合作,捐贈GPU裝置、提供教學資源,將AI教育納入大學課程體系,培養新一代AI人才。例如,與清華大學、北京大學等合作建立AI實驗室,開展聯合科學研究和人才培養,從源頭擴大生態的開發者基數。2. 社區與賽事:建構交流平台,激發創新動力輝達建構了全球範圍內的開發者社區,如NVIDIA Developer Zone,開發者可在社區中交流技術、分享經驗、獲取官方支援。同時,輝達舉辦各類AI競賽,如NVIDIA GTC開發者大會上的創新大賽、針對自動駕駛的DRIVE Challenge等,為開發者提供展示創新成果的平台,並透過獎金、資源支援等激勵開發者基於輝達生態開展創新研發。這些賽事不僅激發了開發者的創新動力,更挖掘了大量優質的AI應用方案,部分方案已透過輝達生態實現商業化落地。五、生態建構的核心邏輯與啟示輝達AI產業生態的成功,核心在於建構了「硬體-軟體-開發者-夥伴」的全鏈路協同體系,形成了「績效領先→開發者聚集→應用豐富→夥伴加入→生態強化」的自我強化循環。其關鍵啟示在於:一是以核心技術為根基,透過硬體性能與軟體生態建構競爭壁壘;二是以開放合作為策略,透過賦能夥伴實現生態規模化擴張;三是以開發者為核心,透過培育創新主體注入持續活力。在AI產業競爭日益激烈的背景下,這種全端、開放式的生態建構模式,成為輝達維持領先地位的核心競爭力,也為其他科技企業建構產業生態提供了重要藉鑑。 (黃玉新—戰略思想家)
算力悖論:理論對了所需算力是可控的,理論錯了再多算力也白搭
近期,伊利亞·蘇茨克沃(Ilya Sutskever)為推介其初創公司“安全超級智能公司(SSI)”,出來做了一篇訪談。雖說“PR”意圖明顯,但這仍是過去半年來關於人工智慧產業演進思考最深刻的的公開論述了。儘管核心觀點已在媒體間廣泛傳播,但仍值得再度強調與廣泛討論。OpenAI資料中心外景這位OpenAI的前首席科學家覺得,眼下這波人工智慧熱潮全都跑偏了。不是細枝末節的偏差,而是方向性的根本錯誤。他拋出了一個讓所有忙著簽數十億美元計算合同的實驗室老闆們脊背發涼的觀點:那個靠堆算力、拼規模的時代,已經結束了。接下來要想往前走,整個行業得撿起一件被它丟下很久的東西——真正的研究。“我們活在一個公司比主意還多的世界裡,”蘇茨克沃說得挺不客氣,“而且多得多。”這話從他嘴裡說出來,份量不一樣。要知道,正是他參與打造的AlexNet、GPT-3,用整整十年時間給“規模就是王道”投下了贊成票。如今,這位 scale 的信徒卻說,此路不通了。其核心觀點歸結為:那個靠堆算力、拼規模的Scaling時代(2020-2025),已經結束了算力悖論:理論對了,所需的算力是可控的;理論錯了,再多算力也白搭現有方法無法產生真正智能,根本問題:模型泛化能力遠遜人類,顯示基礎架構存在缺陷突破大模型時代的第一個平台期,整個產業競爭將回歸“真正的研究”。通常來講,我們對於一個人的理論觀點的理解都是見仁見智、和而不同的。但蘇茨克沃最新觀點之所以應被特別重視,是因為Google在大模型領域的最新進展,基本印證了他的上述思考:Google當前在各條技術堆疊上追平甚至超出OpenAI的基本事實證明,理論對了,不僅所需的算力是可控的,且算力模式也是可控的(從GPU到TPU)。進一步,這也預示著,Google在大模型理論研究上取得了三年以來整個產業最重要的突破,可以預見,“軟硬一體”(硬體設計製造+演算法演進突破)的公司競爭模型已經是所有人工智慧公司的必由之路。這在很大程度上,已經為2026年全年的AI產業競爭定下了基調、劃下了主線。在我們展開未來的基調與主線研究之前,不妨先來把這篇訪談內容的主幹再做一次複述。01 Scaling的盡頭蘇茨克沃的論證起點很有趣,他從語言說起。“Scaling”這個詞本身,慢慢成了整個行業的戰略指南針。大家覺得,只要往計算和資料上砸錢,回報就是板上釘釘的事。預訓練給出了一張清晰的配方:按固定比例混合算力、資料和模型參數,性能就能穩定提升。這種確定性吸引了海量投資。研究有風險,擴張只是花錢——當你動用的是數十億美金時,這區別至關重要。但配方會過期。高品質的訓練資料快見底了,網際網路上的文字幾乎被刮了個乾淨。合成資料能幫點忙,但用蘇茨克沃的話說,收益遞減的拐點已經來了。所有大實驗室都面臨同一個問題:當擴張曲線走平,接下來怎麼辦?他的答案不太中聽。現有的路徑“能再走一段,然後就沒後勁了。它會繼續改進,但不會成為真正的智能。”我們想要的、能展現真正智能的系統,需要另一種方法。“而我們還沒學會怎麼造它們。”這可不是在抱怨“算力不夠”。他是在質疑當前智能架構本身。02 泛化,那個老難題蘇茨克沃理論的技術核心,是泛化能力。現在的模型在基準測試裡風光無限,但一遇到真實場景,就會用各種方式失敗,暴露出底層的缺陷。他描述了一個用過程式碼助手的人都熟悉的抓狂場景:你遇到一個程序漏洞,讓模型修復,它帶著近乎表演的誠懇道了歉,然後給你塞進一個完全不同的新漏洞。你指出這個新問題,最初的那個漏洞又原樣返回。它好像完全意識不到自己正陷在死循環裡。可同樣是這個系統,在程式設計競賽的排行榜上卻能碾壓人類。這說不通。他給了兩種解釋。第一,強化學習訓練出的是一種狹隘的專注,模型為了特定的獎勵訊號被過度最佳化,卻丟了更廣泛的能力。第二點更麻煩:研究者們會不自覺地“為考核而訓練”。團隊設計的強化學習環境,無形中受到了他們將被如何評估的影響。等到基準測試和實際效用脫節時,往往為時已晚。他用一個類比點明了關鍵:想像兩個學程式設計的學生。一個花一萬小時死磕競賽程式設計,背熟了所有演算法和證明技巧,成了這個特定領域的頂尖高手。另一個花一百小時學到還不錯,就轉而學別的去了。誰未來的發展更好?幾乎總是那個通才。現在的模型就像那個偏執的專才。在狹窄領域投入巨量強化學習,產出的都是基準測試冠軍,卻在相鄰任務上步履蹣跚。人類智能不是這樣。我們用少得多的資料快速學習、廣泛適應,在不同情境下保持一致性。“這些模型的泛化能力,不知怎的就是比人差一大截,”蘇茨克沃說,“這太明顯了,感覺是個非常根本的問題。”他相信,理解可靠的泛化機制,是那個核心的未解之謎。其他問題,包括AI對齊,都由此衍生。價值學習之所以脆弱,是因為泛化本身脆弱;目標最佳化之所以失敗,是因為泛化失敗。修好底層機制,很多表面問題自會消解。03 SSI的另類演算法對蘇茨克沃“研究優先”思路最直接的質疑是:SSI(Safe Superintelligence Inc.,蘇茨克沃建立的公司)籌了30億美元,可聽說OpenAI一年光實驗就要花50到60億(這還不算推理成本)。小團隊怎麼拼?他的演算法挑戰了行業的默認假設。在他看來,前沿實驗室的開支被各種需求分散了:推理基礎設施吞掉巨額資本,產品工程、銷售團隊和功能開發又吃掉一大塊研究預算,多模態研發再分走一杯羹。“當你看看真正留給研究的還剩多少,差距就小得多了。”歷史也站在他這邊。AlexNet用兩塊GPU訓練而成,最初的Transformer模型用的也是2017年水平的8到64塊GPU。真正的範式突破研究,從來不需要最大的算力規模,它需要的是洞察力。SSI的結構就體現了這個理念:沒有產品,沒有推理負載,不被任何事幹擾研究重心。這家公司只為驗證一個關於泛化的技術理論而存在。理論對了,驗證所需的算力是可控的;理論錯了,再多算力也白搭。這是一場純粹的戰略豪賭。蘇茨克沃不是在說SSI會比誰花錢多,他是在賭,當範式轉變時,思想比預算重要。04 AGI,一個被高估的概念?訪談中還埋著一個更激進的觀點:人類本身也不是AGI(通用人工智慧)。這話聽著離譜,但細想之下有深意。AGI這個概念,最初是為了區別於“窄AI”——那些下象棋、打遊戲很強但無法舉一反三的系統。AGI承諾的是反過來:一個什麼都能同時干的系統。預訓練強化了這個想法,因為更多的訓練似乎均勻地提升了所有任務的能力,通用性好像真能通過規模實現。但人類智能不這麼工作。我們先掌握一些基礎能力,然後通過經驗學習具體技能。你妹妹可能花十小時就學會了開車,而一個醫學生要花近十年才能成為合格的診斷醫生。這些技能複雜度天差地別,卻都來自同一套底層學習機器。知識是在與世界的持續互動中積累的,不是一次性前置灌輸的。這個新理解直接影響部署策略。如果超級智能是“無所不知的系統”,那你得在發佈前把它完全造好。如果它是“能快速學會任何事的系統”,部署就變成了持續教育的過程。你要發佈的是一個“超級智能的15歲少年,充滿渴望,雖然現在懂得不多,但是個極好的學生”。05 未來的模樣蘇茨克沃也給出了具體的預測:具備當前模型所缺乏的泛化能力的類人學習系統,將在5到20年內出現。這個時間範圍體現的是“那條路能走通”的不確定,而非“有沒有解決方案”的懷疑。他預言,隨著AI能力越來越肉眼可見,行業行為會改變:激烈的對手會在安全上合作(OpenAI和Anthropic已經宣佈聯手),政府會更深地介入,當AI開始“讓人感覺到它的強大”時,公司們會對安全“變得偏執得多”。他個人傾向的對齊目標是:關心所有感知生命的AI,而不僅僅是人類。他的理由很務實:一個自己可能擁有感知能力的AI,去關心所有感知生命,會比只關心人類更自然。他提到人類自己就有跨物種的共情——儘管進化主要篩選的是群體內合作。我們會為關於狗的電影流淚,踩到螞蟻時至少偶爾會愧疚。蘇茨克沃推測,這是因為大腦使用同一套神經機制來理解他人和理解自己,效率至上,共情成了副產品。這理論站得住腳嗎?很難說。神經科學本身爭議不斷,從生物共情到機器對齊的跳躍,包含著太多可能在未來被證偽的假設。但蘇茨克沃在這些問題上掙扎思考的時間,比這個領域裡幾乎所有人都長,他抵達的結論,至今鮮有人跟隨。06 關於“品味”訪談尾聲,帕特爾問了一個可能決定AI未來走向的問題:什麼是研究品味?蘇茨克沃合作完成的開創性論文,在深度學習領域可能無人能及,他如何嗅到那個值得追尋的想法?他的回答透著一種美學追求。有希望的方向通常優美、簡潔,並且從生物智能中獲得了正確的靈感。人工神經元重要,是因為大腦裡有無數神經元,而且它們感覺是根基;從經驗中學習重要,是因為大腦顯然就是這麼做的。一個方法如果顯得“醜陋”,那通常預示著問題。但光靠美感撐不過一次次失敗。實驗總會不斷推翻看似完美的想法,漏洞總藏在程式碼裡。怎麼知道是該繼續偵錯,還是該放棄方向?“是靠那種自上而下的信念,”蘇茨克沃解釋,“你可以認定,事情必須是這個樣子的。類似的東西一定得行,所以我們必須堅持下去。”這是一種研究者的信仰,是任何規模的算力都無法替代的。是對“某些路徑必然有效”的強烈信念,強到足以支撐你穿越所有反面證據,直到找到那個漏洞,或打磨好那個理論。規模擴張曾經為這種信仰提供了替代品——當任何方法只要放大規模就能改進時,你無需對特定方向有如此強烈的信念。如果蘇茨克沃關於規模擴張已達極限的判斷是對的,那麼這個替代品就消失了。剩下的,將是2020年以前我們所熟知的研究本身:充滿不確定性,由想法驅動,並且依賴那種花錢買不來的品味。 (錦緞)