#摩爾定律
系統級摩爾定律:推理時代 NVIDIA×Groq 的真實含義,光進銅退的再加速
過去半個世紀,“摩爾定律”幾乎是科技行業最強的敘事武器:把更多電晶體塞進一顆晶片,性能更強、成本更低,世界自動向前滾動。但到了 AI 時代,尤其進入大模型推理成為主戰場之後,這套敘事正在發生一次深刻升級——摩爾定律從“晶片內部”擴展為“系統工程”。如果說過去的摩爾定律在追求“每平方毫米更多電晶體”,那麼 AI 時代的摩爾定律更像是在追求:單位時間產出更多 token(token throughput),並且這條曲線要能持續向上。而 token throughput 的提升,早就不再是單顆 GPU 的問題,它是一整座“AI 工廠”的問題:晶片、HBM、封裝、PCB、供電散熱、機櫃內互聯、機櫃外網路,以及軟體如何把這些組織起來、調度起來,讓系統始終跑在“最短板”之上。在這個框架下,NVIDIA×Groq 的合作/交易(無論最終形態是什麼)更值得被理解為:推理時代的一次“系統級加碼”,而不是“解決某個供應鏈瓶頸”的神蹟。一、先把交易定性:不是“買產能”,更像“推理能力授權 + 關鍵人才併入 + 生態介面補強”市場上最常見的誤讀,是把這類交易想像成“為了補齊 CoWoS、HBM、電力”等供給瓶頸而做的資本動作。現實更複雜。公開披露資訊顯示,這一合作/交易的核心是推理技術的非獨家授權,並伴隨 Groq 核心人員加入 NVIDIA 推進相關技術的規模化落地,Groq 公司仍獨立營運。換句話說,它更像是在為 NVIDIA 增加一條推理時代的“技術路線選項”,並把關鍵經驗與人才納入自己的產品化體系,而不是直接改變封裝產能、HBM 供給這類供應鏈事實。這一定性非常關鍵:因為它將討論重心從“供給約束”拉回到“推理範式”。二、AI 時代的“系統級摩爾定律”:為什麼摩爾定律必然外溢到 PCB、機櫃和互聯?推理系統的吞吐,本質上受制於一個非常樸素的三角形:算、存、傳。算(Compute):算力夠不夠、計算單元是否被喂飽存(Memory):權重/啟動/KV 的訪問是否形成記憶體牆傳(Communication):跨卡、跨 tray、跨機櫃的資料交換是否堵塞這個三角形的殘酷之處在於:只要把其中一條邊推上去,瓶頸就會遷移到另一條邊。因此推理時代的競爭,必然從 GPU 單點性能擴展到系統工程能力:互聯拓撲、網路頻寬密度、功耗與可靠性、軟體抽象與調度策略,都會變成吞吐曲線的一部分。這也解釋了為什麼 NVIDIA 的“摩爾定律”會被改寫成系統級版本:它追求的不是單晶片 transistor scaling,而是整座 AI 工廠的 token scaling。三、MoE 推理的結構性事實:天然需要“權重分層”(Weight Hierarchy)如果要理解“Groq 的 SRAM 路線”為什麼會在推理時代顯得格外有價值,必須先抓住當下主流模型架構之一:MoE(Mixture of Experts)。MoE 在推理側的關鍵特徵是:權重訪問天然分成兩類。1)always-on 的熱權重:每個 token 都必須執行的部分dense 層shared experts(共享專家,層層必跑)2)sparse-on 的冷權重:按路由稀疏啟動的部分routed experts(例如從 256 個裡選 top-8)啟動更隨機、訪問更像“按需取用”於是,一個極其工程化、極其自然的推理加速方向出現了:把 always-on 的熱權重常駐在更近、更低延遲、更高頻寬的儲存層(比如 SRAM/近儲存),把 routed experts 留在 HBM 或更遠端,並用熱度快取/複製策略最佳化。這件事的目標不是“省 HBM”,而是更直接的兩件事:降低 latency(減少權重搬運等待)提高穩定吞吐(HBM 頻寬從“啥都搬”變成“只搬稀疏部分”)可以把它理解為:CPU 時代的 cache hierarchy,在 MoE 時代升級為 weight hierarchy。四、用 DeepSeek V3 做一次“量級校驗”:為什麼“3–4GB FP8 熱權重集合”是硬體形態演化的抓手?推理討論最怕缺乏量級感。這裡用 DeepSeek-V3(總參 671B、每 token 啟動 37B,MoE 架構)做一次可復算的量級校驗。結合典型實現參數(hidden=7168,MoE FFN 的 intermediate=2048,約 58 個 MoE 層 + 3 個 dense 層;每 MoE 層 1 shared + 256 routed;每 token top-8 路由),可以得到一個關鍵結論:always-on 的熱權重集合本身就是 GB 級。1)shared experts(跨 58 層)的 FFN 主權重規模門控 FFN(如 SwiGLU)的一個 expert,近似包含三塊矩陣:up、gate、down。每層 shared expert 參數量約為:Params ≈ 3 × hidden × moe_intermediate= 3 × 7168 × 2048≈ 44M / 層58 層合計:44M × 58 ≈ 2.55B 參數2)3 個 dense 層的 FFN 主權重規模dense 的 intermediate 更大(約 18432):Params ≈ 3 × 7168 × 18432≈ 396M / 層3 層合計 ≈ 1.19B 參數3)合計熱權重集合(FFN 主體)≈ 3.74B 參數2.55B + 1.19B ≈ 3.74B 參數按 FP8 粗算 1 byte/參數:≈ 3–4GB 量級(不同實現是否包含量化中繼資料會有小幅偏差)這個量級的意義非常關鍵:大到:普通意義上的 L2/L3 cache 解決不了問題小到:如果系統存在某種近儲存層/推理專用駐留層,讓這 3–4GB 常駐,就非常有吸引力換句話說,MoE 推理天然提供了一個“熱權重集合”的明確對象——這就是推理硬體形態演化最容易抓住的把手。註:估算聚焦 FFN/expert 權重,是因為 MoE 推理權重搬運的大頭集中在專家 FFN;注意力部分在不同架構(如低秩投影/MLA 等)下可顯著壓縮,不改變熱權重集合為 GB 級這一判斷。五、“Groq 式 SRAM/近儲存能力”的合理落點:推理專用“熱權重層”,不是取代 GPUGroq 長期強調片上 SRAM 帶來的高頻寬與流水線式推理執行。把這一點放到 NVIDIA 的系統工程語境裡,最符合邏輯的推斷並不是“把 NVIDIA 變成 Groq”,而是:為推理系統增加一層 熱權重近儲存/專用駐留層讓 GPU 更容易被喂飽,提高有效 token/s通過軟體抽象層把這種形態納入 NVIDIA 生態,降低開發與遷移成本這裡關鍵不是“SRAM 這個名詞”,而是:更近、更低延遲、更高頻寬的權重層。至於它長在 GPU 封裝裡、長在板上、長在 tray 上,或者以某種異構加速單元形態出現,都屬於工程實現的分叉路線;但動機與收益目標是清晰的:推理提速。六、最重要的鏈式反應:計算效率上升 → 互聯壓力上移 → 光進銅退可能再加速一旦熱權重常駐近儲存,使推理端的“記憶體牆”變薄,系統會進入典型的再平衡過程:單節點有效 token/s 上升(等待變少、計算更“吃飽”)同時間裡生成更多 token,平行請求更大MoE 路由與跨卡/跨節點組織開銷佔比上升為繼續擴吞吐,系統平行度向外擴:卡內 → tray 內 → 機櫃內 → 機櫃間互聯成為新短板:頻寬密度、距離、功耗與可管理性壓力增大銅在更高頻寬與更長距離下更快觸頂,光的滲透被動加速因此,“推理提速→互聯升級→光進銅退”的邏輯並不是口號,而是一條相對自洽的系統工程鏈條:推理加速的盡頭往往不是算力,而是互聯;當計算更快,互聯必須更快。這也解釋了為什麼很多人只盯著 GPU 出貨,會低估光通訊的“二階彈性”:計算端效率提升,會讓通訊需求斜率變陡,從而推高機櫃內/機櫃間頻寬升級的緊迫性。七、投資對應:系統級摩爾定律下,那些環節更容易成為“增量受益”?如果把“推理吞吐持續提升”作為主線,那麼產業鏈受益往往不是單點,而是鏈式擴散。1)機櫃內互聯:從“銅還能撐一撐”走向“更早換光”頻寬密度更快觸頂距離、損耗、功耗與可維護性讓銅在高階速率下更尷尬光在機櫃內滲透有可能被動加速2)機櫃間網路:更高階速率光模組與交換體系token/s 上升帶動跨節點平行更深scale-out 網路更容易成為系統短板交換晶片、光模組速率升級與拓撲最佳化的需求更強3)PCB/連接器/電源散熱:系統密度提升的“基礎設施”計算更密,供電散熱與板級設計更關鍵可靠性與可維運性成為規模化推理的隱性門檻4)軟體與調度:最終決定“硬體是否兌現吞吐”MoE 路由、批處理、快取/複製策略跨卡/跨節點通訊編排統一抽象層(生態介面)帶來的鎖定效應如果說訓練時代的核心是“買更多 GPU”,那麼推理時代的核心越來越像“買系統、買網路、買軟體”。八、風險提示與可證偽點:那些前提不成立,推演就要改寫?為了避免過度演繹,有必要把邊界條件講清楚:MoE 未必長期絕對主導:結構變化會改變“熱權重集合”的形態近儲存不必然是 SRAM:實現路徑可能多樣,關鍵是“更近的權重層”專家不必然跨機櫃:現實系統會優先局部化、熱專家複製,跨櫃更多是邊界情況收益受制於軟體調度:硬體再優,調度若跟不上,吞吐不會線性提升TCO 約束:電力、散熱、網路、維運、良率與供給鏈會共同決定最優點這些因素決定了:相關判斷應被視作“方向與機制”,而不是確定性預告。結語:NVIDIA×Groq 更像推理時代的“系統級選項”,而不是供應鏈神話當摩爾定律升級為系統級摩爾定律,推理競爭的核心就從“單點性能”轉向“系統吞吐曲線”。MoE 推理所暴露出的“熱權重集合”與“權重分層”需求,為近儲存/推理專用駐留層提供了清晰抓手;一旦推理效率上升,互聯壓力上移,機櫃內與機櫃間的頻寬升級與光滲透加速也更可能成為連鎖反應。因此,NVIDIA×Groq 的意義更接近:推理時代的一次系統級加碼——未必立刻改變供給,卻可能在下一代推理範式與異構硬體生態的介面層與方法論層面,提前佔住高地。(彼得全球科技觀察)
黃仁勳沒瞎說,摩爾定律的喪鐘響了?但有4條路能破局...
2025年底的輝達發佈會上,黃仁勳一句“摩爾定律已死”,讓台下的行業大佬們集體沉默。不是質疑,是默認。那種複雜的沉默裡,藏著對一個時代落幕的悵然,也藏著對未知的忐忑。我們這代人,早已習慣了算力的“免費午餐”。手機一年比一年快,電腦效能翻番價格卻降半,甚至當年登月用的超級電腦,算力還不如現在口袋裡的手機。這一切,都源於摩爾定律。可它真的停了嗎?新的算力時代,又該靠什麼撐起來?我們薅了幾十年的摩爾定律紅利,到底是什麼?1965年,英特爾創始人戈登·摩爾隨手畫了條曲線,提出一個大膽預測:積體電路上的電晶體數量,每18到24個月就翻一番。沒人想到,這條曲線成了現代科技的增長密碼。它不只是數位遊戲,更是一場全民受益的技術狂歡。電晶體越做越小,晶片性能指數級暴漲,成本卻斷崖式下跌。曾經幾百萬美元的大型電腦,如今幾千塊就能買到同款算力的筆記本;以前只能存幾張照片的記憶體卡,現在能裝下整部高畫質電影庫。過去幾十年,我們就坐在這趟高速列車上,不費吹灰之力就享受到了技術進步的紅利。可列車跑得再快,也終有撞牆的一天。不是不想續,是物理和錢包都不允許了摩爾定律的退場,不是技術停滯,是被三道無形的牆攔住了去路。第一道是物理的硬邊界。現在晶片製程已捲到3nm,一根頭髮絲的直徑,差不多是它的2萬倍。到了這個尺度,微觀世界的規則徹底變了。電晶體柵極薄到只有幾十個原子,電子不再乖乖聽話,會直接“穿牆而過”——這就是量子隧穿效應。關不住電子,晶片就會漏電、發熱,甚至徹底罷工。再往小做,已經不是技術問題,是違背物理規律。第二道是散熱的噩夢。以前電晶體縮小,功耗也會跟著降。這個紅利,15年前就被吃乾抹淨了。指甲蓋大的晶片裡,塞了幾百億個電晶體。要是讓它們全力運轉,產生的熱量能瞬間熔化晶片。這也是高端CPU、GPU主頻,死活難突破6GHz的核心原因。第三道是錢的無底洞。造3nm晶片,台積電、三星得買ASML的EUV光刻機,一台就超過1.5億美元,運它要好幾架波音747。更諷刺的是,最先進工藝的晶體管成本不僅沒降,反而在漲。3nm晶片的製造成本,已經是45nm晶片的15倍。花錢換性能的遊戲,越來越玩不起了。後摩爾時代,算力靠這4招續命摩爾定律停了,但行業不會坐以待斃。聰明的工程師們換了思路,不走“平面堆料”的老路,改玩起了立體、模組化的新花樣。1.3D堆疊:把平房改成多層公寓既然平面空間不夠用,就往垂直方向要效益。3D堆疊技術,就是把不同功能的晶片層疊起來,用矽通孔、混合鍵合技術打通連接。這就像把平房改成多層公寓,不擴大佔地面積,卻能大幅提升使用效率。三星的238層3D NAND晶片,單顆容量就能到2TB,我們用的高速SSD,背後就是這技術撐著。AMD的3D V-Cache技術更直接,在CPU核心上方堆疊快取,遊戲性能一下提升15%-25%。目前這技術已大規模商用,預計2028年全球市場規模將突破千億美元。當然難題還在,層數越多散熱越棘手。好在西門子EDA推出了專用散熱分析軟體,能提前模擬熱分佈,幫工程師最佳化設計。2.Chiplet:半導體界的樂高積木傳統晶片是個“整體積木”,一處出錯整個報廢。Chiplet技術則把它拆成多個獨立模組,像樂高一樣按需拼接。不同模組可以用不同製程生產,平行研發測試,既降低成本又提升良率。AMD MI300晶片就用了13個Chiplet模組,整合1460億電晶體,頻寬突破5TB/s。2022年英特爾、ARM等推出的UCIe標準,解決了不同廠商模組的相容問題。但整合時的氣泡殘留的難題,曾長期困擾行業。南京屹立芯創給出了答案,他們的除泡系統靠“震盪式真空壓力”技術,能精准消除氣泡,已在頭部封測企業產線落地。3.新材料:繞開EUV的破局者既然矽基晶片快到頂了,就換種材料接著玩。二維材料成了新寵,原子級厚度的特性,讓電子能“暢行無阻”。復旦大學研發的“長纓(CY-01)”快閃記憶體晶片,擦寫速度比傳統快閃記憶體快100萬倍,還不用EUV光刻機,28nm成熟工藝就能量產。北大團隊更厲害,研發出的硒化銦晶圓,電子遷移率是矽的數倍,10nm溝長電晶體的開關速度,是3nm矽基技術的3倍。未來手機續航、電腦速度,都靠這些新材料突破。4.量子計算:還在修煉的未來王牌量子計算走的是完全不同的路線,靠量子位元的疊加態和糾纏態,實現平行計算。它不用跟矽基晶片比精度,而是在特定領域實現降維打擊。微軟的拓撲量子晶片提升了穩定性,中科大的“祖沖之三號”有105個量子位元,性能比肩Google同類產品。最新的“祖沖之3.2號”更實現了關鍵突破,達到“越糾越對”的糾錯閾值。雖然現在還處於實驗室向商用過渡的階段,但在藥物研發、材料設計等領域,量子計算已經展現出巨大潛力。最後後摩爾時代的技術路線,沒有那條是一帆風順的。3D堆疊要解決散熱和應力問題,Chiplet需完善介面標準,新材料要突破量產瓶頸,量子計算還得攻克糾錯難題。但比起摩爾定律末期的束手無策,現在的行業更有活力。不再是所有人擠在“製程微縮”的獨木橋,而是多路並進、各顯神通。黃仁勳喊出“摩爾定律已死”,不是宣告算力革命終結,而是提醒大家換道前行。未來的手機、電腦,或許不會再靠單純堆性能取勝,但體驗只會更好。這場不靠電晶體數量的算力革命,才剛剛拉開序幕。 (半導體工師瀟威)
從晶片巨頭到AI生態的生死轉型,拆解黃仁勳的雙重預判
在2022年GTC的技術大會上,輝達首席執行官黃仁勳(Jensen Huang)一句 “摩爾定律已死” 的斷言震動業界。彼時半導體行業仍在3奈米製程的賽道上競速,英特爾、台積電等巨頭尚未公開承認技術迭代的疲態。近期,黃仁勳通過播客節目進一步拋出驚人預測,認為"OpenAI很有可能成為下一個兆美元等級的超大規模企業",同時宣佈了一項規模達千億美元的合作計畫,共同建設10吉瓦(GW)的AI資料中心。這兩條看似獨立的論斷,實則構成黃仁勳對技術革命的完整預判:當傳統晶片迭代邏輯崩塌,以 OpenAI 為代表的 AI 力量將重構計算產業的底層規則。訪談播客節目/Youtube視訊截圖摩爾定律的失效摩爾定律由英特爾創始人戈登·摩爾提出,其核心在於承諾"晶片性能定期倍增而成本減半"。然而,行業資料表明這一良性循環已被打破。根據Google在國際電子器件大會上的研究報告,電晶體成本在台積電28奈米工藝量產後便停止下降趨勢,到7奈米、5奈米節點時甚至出現回升。目前,5奈米晶片的設計成本已突破5億美元,相比28奈米工藝增長25倍,而建設3奈米晶圓廠所需投資高達200-300億美元。在2022年GTC大會上,黃仁勳展示的對比資料更具說服力:過去十年間,單顆CPU性能提升僅3倍,而GPU通過架構創新實現了317倍的AI計算性能突破。台積電的最新財報進一步印證了技術迭代的收益遞減:3奈米工藝雖然達到85%的良率,但性能提升幅度從早期製程的60%降至30%,製造成本反而增加40%。技術層面的制約同樣不容忽視。台積電3奈米工藝中電晶體間距已縮小至12奈米,量子隧穿效應導致的漏電問題日益突出。更關鍵的是,儲存與邏輯晶片的工藝發展路徑出現分化。研究表明,SRAM儲存單元在5奈米節點已基本停止微縮。正如北京大學積體電路專家蔡一茂所言:"傳統儲存器的微縮瓶頸正成為算力提升的主要制約因素。"AI計算需求的爆發式增長與晶片技術進步放緩形成鮮明對比的是AI算力需求的爆發式增長。黃仁勳提出的"AI三大擴展定律"——涵蓋預訓練(Pre-training)、訓練後最佳化Post-training)和推理應用(Inference)的全周期算力需求增長,正獲得業界廣泛認同。他強調:"模型訓練是階段性的,但推理應用是持續性的——從智能對話到視訊生成,每個AI互動都在產生持續的算力消耗。"OpenAI公佈的資料顯示,GPT-4的訓練算力需求達到1.3×10²⁵次浮點運算,是前代模型的百倍之多。更值得注意的是推理階段的算力消耗:2025年第二季度,其全球API日呼叫量突破百億次,相當於每秒需要十萬台高端伺服器同時運行。黃仁勳進一步闡釋,傳統AI推理是"即時響應",而新一代推理則是"深度思考"過程。AI系統在回答前需要進行研究分析、事實核驗和多輪計算,這使得單次互動的算力需求提升10-100倍。他預計推理階段的算力總需求將實現"十億倍"增長,並承認此前(一年前)的預測顯得“過於保守”。OpenAI及其GPT-4的logo/百度圖片輝達的戰略轉型面對摩爾定律的失效,黃仁勳推動輝達實施"全端創新"戰略——通過晶片、系統和演算法的協同突破實現跨越式發展。這一戰略在輝達的產品演進中得到充分體現:從單純追求製程進步,轉向通過GPU架構革新、軟體生態最佳化和系統整合能力建構綜合競爭優勢。最新資料顯示,採用Blackwell架構的H200 圖形處理器(GPU)在FP8精度下實現每秒32千兆次(PFlops)運算性能,較前代提升3倍。這種貫穿資料中心等級的整體最佳化,使新架構在推理性能上實現30倍躍升,遠超依靠傳統製程進步所能達到的成效。黃仁勳將這種策略稱為“極致協同設計”(Extreme Co-design)。由於電晶體性能提升趨緩,輝達選擇在系統層級同時革新所有環節:“我們同時改變中央處理器(CPU)、圖形處理器(GPU)、網路晶片、NVLink擴展(Scale up)、Spectrum-X橫向擴展(Scale out)以及所有相關軟體堆疊。”這一戰略重新定義了輝達的產業定位。黃仁勳在該訪談中強調:“市場將我們視為晶片公司,但輝達本質上是一家AI基礎設施企業。”與OpenAI的合作正是這一定位的體現:除了提供晶片,更在系統架構、軟體平台和人工智慧(AI)工廠建設等層面深度協同,共同建構新一代AI基礎設施。黃仁勳在發佈會上介紹Blackwell架構的晶片/輝達官網報導圖OpenAI的兆級潛力黃仁勳對OpenAI的看好,本質是押注AI成為算力需求的“永動機”。他在合作聲明中指出,OpenAI正經歷“雙重增長浪潮”: 使用者規模隨著應用場景拓展而指數級擴大,單使用者算力消耗隨著推理複雜度提升而同步增長。這兩股趨勢的疊加,創造了持續旺盛的算力需求。OpenAI的核心優勢在於其“持續思考”推理模式。以GPT-4 Turbo為例,其處理複雜數學問題需呼叫上千次圖形處理器(GPU)計算單元,通過多輪計算最佳化答案質量,使響應精準率提升至使用者滿意度89%。此外,其訓練資料池涵蓋15兆單詞文字、1億小時視訊與5000萬份學術文獻,配合自研的資料清洗技術實現99.2%的噪聲過濾效率,構築了資料層面的壁壘。商業變現路徑同樣清晰。OpenAI收入結構已從單一應用程式程式設計介面(API)服務拓展為企業端與消費端雙輪驅動:微軟Azure OpenAI服務2025年上半年營收達120億美元,OpenAI分得30%分成;消費端ChatGPT Plus訂閱使用者突破1億,月均付費20美元,疊加DALL·E 4等圖像生成服務,年化直接收入達240億美元。據黃仁勳估算,如果AI能夠提升全球50兆美元智力產出的10%,其中一半轉化為基礎設施投入,年度資本支出將達5兆美元,足以讓OpenAI成為“下一個Meta或Google”。電力瓶頸與地緣政治新格局隨著AI計算規模持續擴大,電力供應成為關鍵制約因素。黃仁勳指出,單個資料中心功耗已達250兆瓦(MW),未來可能突破1吉瓦(GW)。在此背景下,"能效比"直接決定了"營收效率"。黃仁勳甚至語出驚人地提出:即使競爭對手免費提供晶片,客戶仍會選擇輝達的解決方案。他解釋道:"在2吉瓦的電力配額下,如果我們的系統能效是對手的兩倍,意味著客戶能夠獲得雙倍的業務收益。"在電力成為硬性約束的時代,總體擁有成本的重要性已超越晶片單價。地緣政治層面,“主權AI”成為各國戰略焦點。通過頻繁與各國領導人交流,黃仁勳深切體會到"擁有自主AI基礎設施已成為國家競爭力的關鍵"。他強調,AI與核武器不同——“沒有人需要原子彈,但人人都需要AI”。這一趨勢下,美國對華晶片出口管制持續加碼,而中國通過全鏈路自主可控技術積極應對。這一趨勢下,美國持續加強對華晶片出口管制,而中國則通過全鏈路自主創新積極應對。近日,黃仁勳曾形象地比喻中美技術差距僅在"納秒之間",認為中國半導體產業"充滿創新活力",並建議美國通過開放競爭保持領先地位。挑戰與未來展望然而,黃仁勳的樂觀預期也面臨諸多質疑。OpenAI首席執行官薩姆·奧爾特曼近期表示:"大量資金湧入尚未驗證的AI項目,存在泡沫化風險。"市場資料顯示,2025年全球AI初創企業融資總額達1800億美元,但八成企業尚未實現營收,僅一成能夠覆蓋算力成本。技術層面,量子計算可能帶來顛覆性變革:Google研發的千量子位原型機在特定任務上的算力相當於十萬台H200 GPU。產業生態方面,微軟、Google等巨頭加速追趕,亞馬遜雲服務(AWS)推出自研訓練(Trainium)晶片,競爭加劇可能壓縮輝達的利潤空間。儘管如此,黃仁勳認為AI革命與網際網路泡沫有本質區別。他引用輝達財報資料:2025年第二季度資料中心業務同比增長110%,毛利率維持在78%,顯示需求的真實性。更重要的是,推理算力佔比從2023年的20%升至2025年的55%,標誌著剛性需求正在形成。對於未來,黃仁勳預計五年內AI與機器人技術將深度融合,出現能夠自主行動的智能實體。每個人都有可能擁有個性化的AI助手和雲端數字孿生(Digital Twin)。他給企業的建議異常簡潔:“當面對指數級增長的技術浪潮時,最明智的選擇就是積極參與其中。”輝達與OpenA的合作插圖/矽谷新聞報導圖黃仁勳的雙重預判,清晰地勾勒出計算產業範式轉移的軌跡:摩爾定律的終結,宣告了“製程驅動時代”的落幕;而OpenAI的崛起,則標誌著“AI驅動時代”的正式開啟。Google的成本資料、台積電的工藝瓶頸、OpenAI的指數級算力需求,共同構成了這一歷史性轉折的完整證據鏈。輝達以“晶片+生態”深度繫結OpenAI,這不僅是對其成功路徑的復刻——如同昔日憑藉GPU定義遊戲與圖形市場——更是對未來產業規則的重新定義:得AI算力供需者,得天下。 (MGClouds蘑菇雲)
黃仁勳最新訪談:AI泡沫?不存在的
近期,輝達(NVDA.US)投資“出手”頻繁,先是宣佈50億美元投資英特爾,隨後斥資至多1000億美元投資OpenAI,而受此前OpenAI與甲骨文的合作,市場均在股價層面給予了積極反饋。但市場也出現了質疑聲音——稱輝達、OpenAI與甲骨文存在“收入循環”,財務數字“操作”大於實際營收。9月25日,在播客BG2最新一期節目中,BG2主播、Altimeter Capital創始人Brad Gerstner,Altimeter Capital合夥人Clark Tang與輝達CEO黃仁勳展開了一次對話。黃仁勳在對話中回應了當下市場關心的問題。黃仁勳認為,投資OpenAI實際上是一個很好的機會,並認為OpenAI將是下一家數兆美元等級的Hyperscaler。此外,黃仁勳也特別解釋了為什麼ASIC晶片並不完全和輝達GPU是競爭關係——因為輝達是AI基礎設施提供商,其提供的能力範圍已經不僅僅是硬體和軟體層面,也包括其不斷迭代的速度、規模優勢帶來的可靠性,以及整體能源效率等綜合因素。因此,黃仁勳認為輝達目前的護城河比三年前“更寬”,而Brad Gerstner甚至認為,輝達將是史上第一家達到十兆美元的公司。以下為“明亮公司”編譯的訪談正文(有刪節):Brad Gerstner:Jensen,再次歡迎你。你的紅色眼鏡很好看,真的很適合你。距離上次上播客,已過去一年多。你們如今超過40%的收入來自推理(inference),而且推理正因為chain of reasoning鏈式推理而要起飛了。黃仁勳:大多數人還沒真正內化這一點,這其實就是一場工業革命。一、投資OpenAI不是合作的前提,是因為有機會能投Brad Gerstner:說真的,從那次之後,感覺你我每天都像在驗證那期播客。在AI的時間尺度上,這一年像過了一百年。我最近重看了那期,很多觀點讓我印象深刻。最打動我的是你當時拍著桌子說——當時大家覺得預訓練進入低潮(pre-training),很多人說預訓練要完蛋了,硬體建設過度。那是大約一年半前。你說推理不會只是一百倍、一千倍。會是十億倍。這把我們帶到今天。你剛宣佈了一項巨大合作,我們應該從這裡聊起。黃仁勳:我想正式說下,我認為我們現在有三條Scaling Law。第一是預訓練的Scaling Law。第二是後訓練(post-training)的Scaling Law。後訓練基本上就是讓AI練習一種技能,直到做對,它會嘗試很多不同方法。要做到這一點,就必須進行推理(inference)。所以訓練與推理如今以強化學習的方式整合在一起,非常複雜,這就是後訓練。第三是推理(inference)。過去的推理是“一次出手”,而我們現在理解的新推理,是“先思考再作答”。先想,再回答,想得越久,答案質量越高。思考過程中你會檢索、查證事實、學到東西,再繼續思考、繼續學習,最後輸出答案,而不是上來就生成。所以思考、後訓練、預訓練,如今我們有三條Scaling Law,而不是一條。Brad Gerstner:這些你去年就提過,但你今年說“推理會提升十億倍,並由此帶來更高水平智能”的信心更高了嗎?黃仁勳:我今年更有把握。原因是看看如今的智能體系統。AI不再是單一語言模型,而是由多個語言模型組成的系統,它們並行運行。有的在用工具,有的在做檢索,事情非常多,而且是多模態。看看生成的視訊,簡直令人難以置信。Brad Gerstner:這也引到本周的關鍵時刻,大家都在談你們與OpenAI的重磅合作Stargate。你們將成為首選合作夥伴,並在一段時間內向公司投資1000億美元。他們會建10個“gig“(Gigawatt,吉瓦)。如果這10個“gig”都用輝達,那對你們的收入貢獻可能高達4000億美元。幫我們理解一下這個合作,對你意味著什麼?以及為何這項投資是合理的?黃仁勳:我先回答後一個問題,再回到我的敘述。我認為OpenAI很可能成為下一家數兆美元級的hyperscale公司。就像Meta是hyperscale,Google也是,他們會同時擁有C端與企業服務。他們非常可能成為下一家多數兆美元級的hyperscale公司。如果是這樣,能在他們達到那個規模之前投資進去,是我們能想像到的最聰明的投資之一。你必須投資你熟悉的東西,恰好我們熟悉這個領域。所以這筆錢的回報會非常出色。我們很樂意投資,但不是必須的,也不是合作的前提;是他們給了投資機會,這太好了。我們與OpenAI在多個項目上合作。第一,Microsoft Azure的建設,我們會持續推進,這個合作進展非常順利,未來還有數年的建設;第二,OCI(Oracle Cloud Infrastructure)的建設,我想大概有5-7個GW要建。我們與OCI、OpenAI、軟銀一道推進。這些項目都已簽約,正在實施,工作量很大。第三是CoreWeave。所有與CoreWeave相關的……我還在講OpenAI,對,一切都在OpenAI語境裡。所以問題是,這個新夥伴關係是什麼?它是幫助OpenAI首次自建AI基礎設施。也就是我們直接與OpenAI在晶片、軟體、系統、AI工廠層面協作,幫助他們成為一家完全自營運的hyperscale公司。這會持續相當一段時間,是對他們現有建設的補充。他們正經歷兩個指數曲線:第一個指數是客戶數量在指數級增長,因為AI在變好、用例在變好,幾乎每個應用現在都連到OpenAI,所以他們正經歷使用指數;第二個指數是計算量的指數增長。每個使用場景的算力在暴漲。過去是一鍵式推理,現在要先思考再回答。這兩個指數疊加,大幅抬升了計算需求。我們會推進所有這些建設。因而這個新合作是對既有所有合作的“增量”,去支撐這股驚人的指數增長。Brad Gerstner:你剛說到一個很有意思的點,你認為他們極大機率會成為數兆美元公司,是很好的投資;同時你們還在幫助他們自建資料中心。過去他們把資料中心外包給微軟,現在他們要自建“全端工廠”,就像Elon和X那樣,對吧?Brad Gerstner:想想Colossus的優勢,他們建構全端,就是hyperscaler,即便自己用不完容量,也能賣給別人。同樣的,Stargate在建設海量容量,他們覺得會用掉大部分,但也能售賣出去。這聽起來很像AWS、GCP(Google雲)或Azure,是這意思嗎?黃仁勳:我認為他們很可能自己用掉,就像X大多會自用。但他們希望與我們建立直接關係——直接工程協作和直接採購關係。就像Zuck、Meta與我們之間的直接關係。我們與Sundar和Google的直接關係,我們與Satya和Azure的直接夥伴關係。他們規模足夠大了,認為該建立這些直接關係了。我很樂意支援,而且Satya(微軟CEO)知道,Larry(Google聯合創始人)知道,大家都知道。二、華爾街與輝達之間預期背離:如何理解AI的需求規模Brad Gerstner:這兒有件事我覺得頗為神秘。你剛提到Oracle 3000億、Colossus的建設,我們知道一些主權國家在建(AI基礎設施),hyperscaler也在建。Sam正以兆美元的口吻來談這一切。可覆蓋你們股票的華爾街25位賣方分析師的共識卻顯示,你們從2027年開始增長放緩,預計2027-2030年年化增速8%。這些人的唯一工作就是給輝達做增長預測。顯然……黃仁勳:我們對此很坦然。看,我們經常能輕鬆超預期。輝達資料中心營收的增長預期(來源:BG2)Brad Gerstner:我明白。但這仍是個有趣的“背離”。我每天都在CNBC、彭博上聽到。很多人擔心短缺會轉向過剩,他們不相信持續高增長。他們說,行,我們姑且信你們的2026年,但2027年可能供給過剩、不再需要那麼多。但共識預測其實顯示這不會發生。我們也做了自己的預測,納入了所有這些數字。結果是,即便進入“AI時代”兩年半,各方的信念仍然分歧巨大,Sam Altman、你、Sundar、Satya的看法,與華爾街仍然相信的相去甚遠。對此,你依舊感到從容嗎?黃仁勳:我也不認為這不一致。首先,我們這些“建設者”應該為“機會”而建。我們是建設者。讓我給你三個思考點,有助於你對輝達的未來更放心。第一點,是物理定律層面的、最關鍵的一點,通用計算已到盡頭,未來屬於加速計算與AI計算。這是第一點。你可以這樣想:全球有多少兆美元的計算基礎設施要被更新換代。所以首先你得認識到通用計算的終結。沒人反對這一點。摩爾定律已死,人們常這麼說。那麼這意味著什麼?通用計算會轉向加速計算。我們與Intel的合作就是在承認通用計算需要與加速計算融合,為他們創造新機會。通用計算正遷移到加速計算與AI。第二點,AI的首要用例其實已無處不在——在搜尋、在推薦引擎等等。基礎的hyperscale計算基礎設施過去由CPU執行推薦,如今要由GPU執行AI。你把傳統計算換成加速計算與AI;你把hyperscale計算從CPU換到加速計算與AI。這是第二點。僅僅滿足Meta、Google、字節跳動、Amazon,把它們傳統的hyperscale方式搬到AI,就是數千億美元的市場。所以,那怕先不談AI創造新機會,僅僅是AI改變了舊做法到新做法。然後再談未來。是的,到目前為止我其實只談了“平凡”的事。舊方式不對了。你不會再用煤油燈,而要用電。這就夠了。然後是更不可思議的,當你走向AI、走向加速計算,會出現什麼新應用?就是我們在談的所有AI相關,機會巨大。怎麼理解?簡單想想,過去電機替代了體力勞動;現在我們有AI——我稱之為AI超級電腦、AI工廠——它們會生成tokens來增強人類智能。而人類智能佔全球GDP的55%-65%……我們就算50兆美元吧,這50兆將被某種東西增強。回到個人層面,假如我雇一位工資10萬美元的員工,再給TA配一個1萬美元的AI,如果這個AI讓那位員工產能翻倍、三倍?我會不會做。一定會做。我現在就在給公司裡每個人配,沒錯,每位協作智能體(co-agents)、每位軟體工程師、每位晶片設計師都已有AI與其協作智能體,覆蓋率100%。結果是我們做的晶片更好,數量在增長,推進速度更快。公司因此增長更快、招聘更多、生產率更高、營收更高。利潤更高。現在把輝達的故事套到全球GDP上,很可能發生的是,這50兆會被……我們取個數,10兆美元所增強。而這10兆需要跑在一台機器上。AI與過去IT的不同在於,過去軟體是事先寫好,跑在CPU上,不怎麼自己“動”。未來,AI要生成tokens,而機器要生成這些tokens、它“在思考”,所以軟體一直在運行;過去是一次性編寫,現在是持續編寫、持續思考。要讓AI思考,就需要工廠。假設這10兆token的毛利率是50%,其中5兆需要工廠、需要AI基礎設施。所以如果你告訴我全球每年的資本開支大概是5兆美元,我會說這個數看起來說得通。這大概就是未來的輪廓——從通用計算到加速計算;把所有hyperscale都換成AI;然後用AI去增強人類智能,覆蓋全球經濟。Clark Tang:以今天而言,我們估算年市場規模大約4000億美元,所以TAM從現在到目標是四到五倍的提升。黃仁勳:沒錯。昨晚(台北時間9月24日)阿里巴巴的吳泳銘(Eddie Wu)說,從現在到20年代末,他們要把資料中心電力(消耗)提升十倍。對吧?你剛才說四倍?這就對上了。他們要把電力提升十倍,而我們的收入與電力幾乎是正相關。(註:吳泳銘表示,對比2022年GenAI元年,到2032年阿里雲全球資料中心能耗規模將提升10倍)他還說token生成量每幾個月就翻倍。這意味著什麼?單位能耗性能(perf per watt)必須指數級提升。這就是為什麼輝達要瘋狂推進單位能耗性能提升,而單位能耗收入(revenue per watt)基本就是收入。Brad Gerstner:在這個未來裡,有個假設從歷史角度看我覺得很迷人。兩千年裡,全球GDP基本不增長。然後工業革命來了,GDP加速;接著數字革命,GDP又加速。你現在的意思和Scott Bessent(美國現任財長)說的一樣——他認為明年全球GDP增長會到4%。你其實是在說全球GDP增速將加快,因為我們正在給世界提供“數十億同事”來為我們工作。而如果GDP是在既定勞動與資本下的產出,那麼它必須……黃仁勳:一定會增長。看看AI正在發生的事,AI的技術形態、可用性,諸如大語言模型與AI智能體,都在推動一個新的“智能體行業”。這點毫無疑問。OpenAI就是歷史上收入增長最快的公司,他們在指數級增長。所以AI本身是個高速增長的行業,因為AI需要背後的工廠與基礎設施,這個行業在增長,我的行業也在增長;而因為我的行業在增長,在我們之下的行業也在增長——能源在增長、電力與廠房在增長。這簡直是能源產業的復興。核能、燃氣輪機……看看我們生態之下的那些基礎設施公司,他們做得很棒,大家都在增長。Brad Gerstne:這些數字讓大家都在談是否會“供給過剩”或“泡沫”。Zuckerberg上周在一個播客說了,可能會有短期的“氣阱”(Airpocket),Meta可能會多花個100億美元之類的。但他說,這不重要。對他業務的未來而言太關鍵了,這是必須承擔的風險。但從博弈角度看,這有點像“囚徒困境”。黃仁勳:開心的囚徒。Brad Gerstner:再捋一遍。今天我們估算到2026年,會有1000億美元的AI收入,不含Meta,也不含跑推薦引擎的GPU還有搜尋等其他工作負載,我們就先算1000億。黃仁勳:但hyperscale行業本身到底有多大?這個行業現在的基數是多少?Brad Gerstner:以兆美元計。黃仁勳:對。這個行業會先部署AI,不是從零起步,你得從這裡開始。Brad Gerstner:不過懷疑者會說,我們必須從2026年的1000億,長到2030年至少1兆的AI收入。你剛才還談到5兆。從全球GDP的自下而上推演看,你能看到從1000億到1兆在未來五年實現嗎?黃仁勳:能,而且我會說我們其實已經到了。因為Hyperscalers已經把CPU遷到AI,他們的整個收入基座如今都由AI驅動。Brad Gerstner:是的。黃仁勳:沒有AI就沒有TikTok,對吧?沒有AI就沒有YouTube Shorts。Meta做的為你定製、個性化的內容,沒有AI就做不到。以前那些事情,靠人類事先創作、提供幾個選項,再由推薦引擎挑選。現在是AI生成無限多的選項。Brad Gerstner:這些轉變已經發生:我們從CPU遷到GPU,主要是為了那些推薦引擎。黃仁勳:對。Zuck會告訴你,我在SIGGRAPH時他也說過,他們其實到得有點晚。Meta用GPU也就一年半、兩年的事。搜尋上用GPU更是嶄新的、剛剛開始的。Brad Gerstner:所以論證是,到2030年我們有1兆AI收入的機率幾乎確定,因為我們幾乎已經達到了。接著我們只談“增量”。不管你做自下而上還是自上而下,我剛聽了你按全球GDP佔比的自上而下的分析。那你覺得,未來三到五年內,出現“供給過剩(glut)”的機率有多大?黃仁勳:在我們把所有通用計算徹底轉換為加速計算與AI之前,我認為出現過剩的機率極低。Brad Gerstner:會花幾年?黃仁勳:直到所有推薦引擎都基於AI,直到所有內容生成都基於AI。因為面向消費者的內容生成很大程度就是推薦系統之上的,所以所有這些都會轉向AI生成。直到傳統意義上的hyperscale全部遷到AI,從購物到電商等一切都遷過去。Brad Gerstner:但所有這些新建項目,我們談的是“兆級”,總是提前投資。那如果你們看到了放緩或過剩,是不是還“不得不”把錢投進去?還是說,一旦看到放緩跡象,再隨時收縮?黃仁勳:實際上正相反,因為我們在供給鏈的末端,我們按需響應。現在,所有VC都會告訴你——你們也知道——全球短缺的是“計算”,不是GPU的數量短缺。只要給我訂單,我就造。過去兩年我們把整個供應鏈都打通了,從晶圓啟動、到封裝、到HBM記憶體等等,我們都加足了馬力。需要翻倍,我們就翻倍,供應鏈已備好。我們現在等的是需求訊號。當雲服務商、hyperscaler和客戶做年度計畫給我們預測時,我們就響應,並按那個預測去建。問題是,他們每次給我們的預測都會錯,因為預測都偏低。於是我們總處於“緊急追趕”模式,已經持續了好幾年,每一輪預測都比上一年顯著上調。Brad Gerstner:但還不夠。比如去年,Satya看起來稍微收斂了一點,有人說他像房間裡那個“更穩重的成年人”,壓一壓預期。但幾周前他又說,我們今年也建了兩個“gig”,未來還會加速。你是否看到那些傳統hyperscalers——相較於Core Weave或Elon的X,或者相較於StarGate——此前略慢一些的,現在都在加倍投入,而且……黃仁勳:因為第二條指數來了。我們已經有一條指數在增長,AI的應用和滲透率指數級增長。第二條指數是“推理與思考”,這就是我們一年前討論的。我當時說,一旦你把AI從“一次性出手、記憶並泛化”推進到“推理、檢索與用工具”,AI就在思考,它會用更多算力。Clark Tang:回到你剛才的點,hyperscale客戶無論如何都需要把內部工作負載從通用計算遷到加速計算,他們會穿越周期持續建設。我想部分hyperscalers的負載結構不同,不確定消化速度,現在大家都認定自己嚴重低配了。黃仁勳:我最喜歡的應用之一就是傳統的資料處理,即結構化與非結構化資料處理。很快我們會宣佈一個關於“加速資料處理”的重大計畫。資料處理佔據了當今世界絕大多數CPU,它仍然完全跑在CPU上。去Databricks,大多是CPU;去Snowflake,大多是CPU;Oracle的SQL處理,大多是CPU。大家都在用CPU做SQL/結構化資料。未來,這一切都會遷到AI資料。這是一個極其龐大的市場,我們會推進過去。但你需要輝達的全部能力——加速層與領域專用的“配方”。資料處理層的“配方”需要我們去建構,但它要來了。三、“循環營收”質疑:投資機會不繫結任何條件Brad Gerstner:還有一個質疑點。昨天我打開CNBC,他們說的是“過剩、泡沫”。換到彭博,是“循環交易與循環營收(round-tripping、circular revenues)”。給在家觀看的觀眾解釋下,這指公司之間締結看似交易、實則缺乏真實經濟實質的安排,人為抬高營收。換言之,增長不是來自真實的客戶需求,而是財務數字上。所以當你們、微軟或亞馬遜投資那些同時也是你們大客戶的公司時,比如你們投資OpenAI,而OpenAI又購買數百億美元的晶片。請提醒我們、也提醒大家:當彭博等媒體分析師拿“循環營收”大做文章時,他們到底誤解了什麼?黃仁勳:建10GW的(資料中心)規模大概就是4000億美元左右吧。那4000億主要由他們的offtake(消納能力/下游需求)來支撐,它在指數增長。(支出)這得由他們自有資本、股權融資和可獲得的債務來支援,這是三種工具。能融到多少股權與債務,取決於他們對未來收入的把握程度。精明的投資人與授信人會綜合權衡這些因素。這是他們公司的事,不是我的。我們當然要和他們緊密合作,以確保我們的建設能支援他們持續增長,但收入端與投資端無關。投資機會不是繫結任何條件的,是一個純投資機會。正如前面說的,這家公司很可能成為下一家多兆美元級的hyperscale公司。誰不想持有它的股權?我唯一的遺憾是,他們早年就邀請我們投資,當時我們太“窮”了,投得不夠,真該把所有錢都投進去。Brad Gerstner:而現實是,如果你們不把本職工作做到位,比如Vera Rubin最終不成好晶片,他們也可以去買別家的。對吧?他們沒有義務必須用你們的晶片。正如你說的,你們看待這件事是機會性的股權投資。黃仁勳:我們投了xAI、投了CoreWeave,這都是很棒的投資。Brad Gerstne:回到“循環營收”的討論,還有一個根本點是,你們把一切都擺在檯面上,告訴大家你們在做什麼。而其背後的經濟實質是什麼?並不是雙方互相倒騰營收。我們看到有使用者每月為ChatGPT付費,有15億月活在用這個產品。你剛說世界上每家企業要麼擁抱這一切,要麼被淘汰。每個主權國家都把這視為其國防與經濟安全的“生死攸關”,就像核能一樣。黃仁勳:問問看,有那一個人、公司、國家會說“智能”對我們是可選項?沒有。這就是基礎。關鍵在於“智能的自動化”。四、摩爾定律已死,現在需要極致的軟硬體協同設計Brad Gerstner:需求問題我問得夠多了,我們聊系統設計。我接下來會把話題遞給Clark。2024年你們切換到了年度發佈節奏,對吧?Hopper之後,2025年的Grace Blackwell是一次巨大升級,需要資料中心進行重大改造。26年下半年會有Vera Rubin,27年有Rubin Ultra,28年有Feynman。年度發佈節奏進行得如何?為什麼要改為年度發佈?輝達內部的AI是否讓你們能落實年度發佈?輝達未來晶片架構的發展脈絡(來源:BG2)黃仁勳:是的,答案是肯定的。沒有它,輝達的速度、節奏和規模都會受限。現在沒有AI,根本不可能建出我們如今的產品。為什麼這麼做?記得Eddie(吳泳銘)在財報或大會上說過、Satya說過、Sam也說過……token生成速率在指數級上升,使用者使用在指數級上升。我記得OpenAI說周活躍使用者有8億左右,對吧?從ChatGPT推出才兩年。Brad Gerstner:而且這些使用者的每次使用都在生成更多token,因為他們在使用“推理時思考”(inference-time reasoning)。黃仁勳:沒錯。所以第一點是:在兩個指數疊加的情況下,除非我們以不可思議的速度提升性能,否則token生成成本會持續上升。因為摩爾定律已死,電晶體的單位成本每年幾乎不變,電力也大致不變。在這兩條“定律”約束下,除非我們發明新技術降成本,否則即便給對方打個幾個百分點的折扣,也無法抵消兩個指數增長的壓力。因此我們必須每年以跟上這個指數的節奏去提升性能。比如從Kepler(註:2012年4月發佈)一路到Hopper(註:2022年3月發佈),大概實現了100000的提升。那是輝達 AI旅程的開端,十年十萬倍。Hopper到Blackwell,因為NVLink等,我們在一年內實現了30×的系統級提升;接下來Rubin還會再來一波“x”(數倍),Feynman再一波“×”……之所以能做到,是因為電晶體本身幫不上太多忙了。摩爾定律基本只剩密度在漲,性能沒有相應提升。所以我們必須把問題在系統層面完全拆開,所有晶片同步升級,軟體棧與系統同步升級,這是極致的“協同設計(co-design)”。以前沒人做到這個層級。我們同時改變CPU、重塑CPU,與GPU、網路晶片、NVLink縱向擴展、Spectrum-X橫向擴展。當然還要去建構更大的系統,在多個AI工廠之間做跨域互聯。並且以年度節奏推進。所以我們自身也在技術上形成了“指數疊指數”。這讓客戶能持續拉低token成本,同時通過預訓練、後訓練與“思考”讓token更聰明。AI變聰明,使用就更多,使用更多就指數增長。Brad Gerstner:極致的協同設計是什麼?黃仁勳:極致協同設計,意味著你要同時最佳化模型、演算法、系統與晶片。當摩爾定律還能推動時,只要讓CPU更快,一切都會更快。那是在“盒子裡”創新,只需把那顆晶片做快。但如果晶片不再變快,你怎麼辦?就要跳出原有框架來創新。輝達改變了行業,因為我們做了兩件事——發明了CUDA、發明了GPU,並把大規模協同設計的理念落地。這就是為什麼我們覆蓋這麼多行業。我們在建構大量庫與協同設計。第一,全端的極致不僅在軟體與GPU,還延伸到資料中心層面的交換與網路,以及它們內部的所有軟體:交換機、網路介面、縱向擴展與橫向擴展,跨全部層面最佳化。其結果就是Blackwell對Hopper的30×提升。摩爾定律根本做不到,這是極致協同設計的成果。輝達全部技術堆疊(來源:BG2)Brad Gerstner:這些都源自極致協同設計。黃仁勳:是的,這就是為什麼我們要做網路、做交換、做縱向/橫向/跨域擴展,做CPU、做GPU、做NIC。也是為什麼輝達的軟體如此豐富。我們在開放原始碼軟體上的貢獻提交量,全球能比的沒幾家。而且這還只是AI領域。別忘了我們在電腦圖形、數字生物學、自動駕駛等。我們產出的軟體規模極其可觀,這讓我們能做深度且極致的協同設計。Brad Gerstner:我從你一位競爭對手那裡聽說,你們這麼做能降低token生成成本。但與此同時,你們的年度發佈節奏讓競爭者幾乎很難跟上。因為你們給供應鏈三年的可見性,供應鏈鎖定更深,心裡有底該供到什麼規模。黃仁勳:你不妨這樣想:要讓我們一年做幾千億美元級的AI基礎設施建設想想我們在一年前就必須提前預備多少產能。我們說的是數千億美元級的晶圓啟動量、DRAM採購量。這個規模,幾乎沒有公司能承接。五、輝達的護城河為什麼更寬了:如何看ASIC的競爭力Brad Gerstner:你們今天的護城河比三年前更寬了嗎?黃仁勳:是的。首先,競爭者比以往更多,但難度也比以往更大。因為晶圓成本在上升。除非你在極致規模上做協同設計,否則你交不出那個“數倍”級的增長,這是第一點。所以,除非你一年同時做6-8顆晶片,否則不行。重點不是做一顆ASIC,而是建構一座AI工廠系統。這座系統裡有很多晶片,它們都協同設計。它們共同交付我們幾乎固定節奏能拿到的那個“10×”。所以第一,協同設計必須極致。第二,規模必須極致。當你的客戶部署1個GW,那就是四五十萬顆GPU,要讓50萬顆GPU協同工作,這就是個奇蹟。所以客戶是在承擔巨大的風險來購買這些。你得想,有那個客戶會在一個架構上下500億美元的採購訂單?一個全新的、未經大規模驗證的架構?你再興奮、大家再為你喝彩,當你剛剛展示第一個矽片的時候,會有誰給你500億美元的訂單?你又為何敢在一顆剛剛流片的晶片上啟動500億美元的晶圓?但對輝達來說,我們敢,因為我們的架構高度成熟與積累的信用。其二,我們客戶的規模極其驚人。再者,我們供應鏈的規模也極其驚人。誰會替一家企業去提前啟動這些、預建構這麼多,除非他們確信輝達能把它交付到底?對吧?他們相信我們能交付到全球所有客戶手裡,願意一次性啟動數千億美元的供應。這就是“規模”的故事。Clark Tang:順著這個點,全球一個最大的爭論是“GPU vs ASIC”,比如Google的TPU、Amazon的Trainium。Arm到OpenAI、Anthropic在傳出自研……你去年說過我們建構的是“系統”,不是“晶片”,而你們在堆疊的每一層都驅動性能提升。你還說過這些項目裡很多可能永遠到不了生產規模,事實上…大多數都到不了。在TPU看似成功的前提下,你今天如何看這片正在演進的版圖?黃仁勳:Google的優勢在“前瞻”。記得他們在一切開始之前就做了TPU v1。這跟創業沒區別。你應當在市場尚未做大之前去創業,而不是等市場漲到兆級再來。所有VC都懂一個謬誤:市場很大,只要拿到幾個百分點就能做成大公司。這是錯的。你該在一個很小的領域拿到“幾乎全部份額”,這就是輝達當年做的,也是TPU當年做的。所以今天那些做ASIC的人的挑戰在於:市場看起來很“肥”,但別忘了,這個“肥市場”已經從一顆叫GPU的晶片,演化為我剛描述的“AI工廠”。你們剛看到我宣佈了CPX(註:Rubin CPX GPU,輝達專為長語境推理設計的晶片),這是一顆用於“上下文處理與擴散式視訊生成”的晶片,是很專門但很重要的資料中心負載。我剛才也暗示,也許會有“AI資料處理”處理器。因為你需要“長期記憶”和“短期記憶”。KVCache的處理非常重,AI記憶是大事。你希望你的AI有好記憶。圍繞整個系統處理KVCache非常複雜,也許它也需要一顆專屬處理器。你可以看到,輝達今天的視角,是俯瞰全體AI基礎設施——這些了不起的公司要如何讓多元且變動的工作負載流經系統?看看Transformers,這個架構在快速演化。若非CUDA如此好用、易於迭代,他們要如何進行如此海量的實驗,來決定採用那種Transformer變體、那類注意力演算法?如何去做“解耦/重構(disaggregate)”?CUDA之所以能幫你做這一切,是因為它“高度可程式設計”。所以看我們的業務,你得回到三五年前那些ASIC項目啟動之時,那會兒的行業“可愛而簡單”,只有GPU。一兩年後,它已巨大且複雜;再過兩年,它的規模會非常之大。所以,作為後來者要殺入一個巨量市場,這仗很難打。Clark Tang:即便那些客戶在ASIC上成功了,他們的算力機隊裡也應該有個“最佳化配比”,對吧?我覺得投資人喜歡非黑即白,但其實即便ASIC成功了,也要有個平衡。會有很多不同的晶片或部件加入輝達的加速計算生態,以適配新生的負載。Brad Gerstner:換句話說,Google也是你們的大客戶。黃仁勳:Google是我們的大GPU客戶。Google很特殊,我們必須給予尊重。TPU已經迭代到v7了,對吧?這對他們也是極大挑戰。他們做的事情極難。所以我想先理順一下晶片的分類。一類是“架構型”晶片:x86CPU、ArmCPU、輝達GPU,屬於架構級,有豐富的IP與生態,技術很複雜,由架構的擁有者建構。另一個是ASIC,我曾就職於發明ASIC概念的公司LSI Logic。你也知道,LSI早已不在。原因在於,當市場規模不太大時,ASIC很棒,找一家代工/設計服務公司幫你封裝整合併代工生產,他們會收你50-60個點的毛利。但當ASIC面向的市場變大後,會出現一種新方式叫COT(Customer-Owned Tooling,客戶自有工具),誰會這麼做?比如Apple的手機晶片,量級太大,他們絕不會去付給別人50%-60%的毛利做ASIC,他們會自己掌握工具。所以,當TPU變為一門大生意時,它也會走向COT,這毫無疑問。話說回來,ASIC有它的位置——視訊轉碼器的市場永遠不會太大;智能網路卡(Smart NIC)的市場也不會太大。所以當你看到一家ASIC公司有十來個甚至十五個ASIC項目時,我並不驚訝,因為可能其中五個是Smart NIC、四個是轉碼器。它們都是AI晶片嗎?當然不是。如果有人做一顆為某個特定推薦系統定製的處理器,做成ASIC,當然也可以。但你會用ASIC來做那顆“基礎計算引擎”嗎?要知道AI的工作負載變化極快。有低延遲負載,有高吞吐負載;有聊天token生成,有“思考”負載,有AI視訊生成負載,現在你在談的是……Clark Tang:算力機群的 “主力骨幹”。黃仁勳:這才是輝達的定位。Brad Gerstner:再通俗點講,就像“象棋vs跳棋”。那些今天做ASIC的人,不管是Trainium還是別的某些加速器,本質是在造一顆“更大機器中的一個部件”。而你們造的是一個“非常複雜的系統、平台、工廠”,現在你們又開始做一定程度上的“開放”。你提到了CPX GPU,在某種意義上,你們在把工作負載“拆分”到最適合它的硬體切片上。黃仁勳:沒錯。我們發佈了一個叫“Dynamo”的東西——解耦後AI負載編排(disaggregated orchestration),而且開源了它,因為未來的AI工廠就是解耦的。Brad Gerstner:你們還發佈了NVLink Fusion,甚至對競爭對手開放,包括你們剛剛投資的Intel,這就是讓他們也能接入你們正在建的工廠——沒人瘋狂到要獨自建完整工廠。但如果他們有足夠好的產品、足夠有吸引力,終端客戶說我們想用這個替代某個Arm GPU,或者替代你們的某個推理加速器等,他們就可以插進來。黃仁勳:我們非常樂意把這些接上。NV Fusion是個很棒的主意,我們也很高興與Intel合作——它把Intel的生態帶進來,全球大多數企業工作負載仍跑在Intel上。它融合了Intel生態與輝達的AI生態與加速計算。我們也會與Arm做同樣的融合。之後還會與更多人做。這為雙方都打開了機會,是雙贏、非常大的雙贏。我會成為他們的大客戶,他們也會把我們帶到更大的市場機會前。Brad Gerstner:與此緊密相關的,是你提出一個讓人震驚的觀點:就算競爭者造的ASIC晶片今天已經更便宜,甚至就算他們把價格降到零,也依然會買輝達的系統。因為一個系統的總營運成本——電力、資料中心、土地等——以及“智能產出”,選擇你們仍然更划算,即使對方的晶片白送。Blackwell 和 ASIC成本分析(來源:BG2)黃仁勳:因為單是土地、電力、廠房等設施就要150億美元。Brad Gerstner:我們試著做過這背後的數學題。對很多不熟悉的人來說,這聽起來不合邏輯,你把競品晶片定價為零,考慮到你們晶片並不便宜,怎麼可能還是更划算?黃仁勳:有兩種看法。一是從營收角度。大家都受“電力”約束。假設你拿到了新增2GW的電力,那你希望2GW能被轉化為營收。如果你的“token單位能耗(token per watt)”是別人的兩倍,因為你做了深度且極致的協同設計,你的單位能耗性能更好,那你的客戶就能從他們的資料中心產出兩倍營收。誰不想要兩倍營收?而就算有人給他們15%的折扣——比如我們75%的毛利,別人50%-65%的毛利——這點差距也絕不可能彌補Blackwell與Hopper之間30×的差距。過去10年大模型單位能效提升了10萬倍(來源:BG2)就算我們把Hopper和別人的ASIC看作同級,Blackwell也有30×的空間。所以在同一個GW上,你要放棄30×的營收。這代價太大了。就算對方白送晶片,你也只有2GW的電力可用,你的機會成本高得離譜——你永遠會選擇“單位能耗”最強的那套系統。Brad Gerstner:我從一家hyperscaler的CFO那裡聽說過,鑑於你們晶片帶來的性能提升,特別是以單位能耗(token/gigawatt)和“電力供給”為硬約束,他們不得不升級到新的周期。展望Rubin、Rubin Ultra、Feynman,這條曲線會延續嗎?黃仁勳:我們現在一年做六七顆晶片,每一顆都是系統的一部分。系統軟體無處不在。要實現Blackwell的30×,需要跨這六七顆晶片的聯調與最佳化。想像一下,我每年都這麼做,砰、砰、砰地連發。如果你在這鍋“晶片大雜燴”裡只做一顆ASIC,而我們卻在整鍋裡到處最佳化,這就是個很難的問題。Brad Gerstner:這讓我回到開頭的護城河問題。我們做投資許久了,在整個生態投資,也投了你的競爭對手,比如Google、博通。但當我從第一性原理出發,你們改為以年為單位的發佈節奏、跟供應鏈共研、規模遠超所有人預期,這對資產負債表與研發有雙重規模要求,你們通過收購與自研推進了NVFusion、CPX等。因此,你們的護城河在拓寬,至少在“建構工廠或打造系統”這件事上是如此。但有趣的是,你們的估值倍數比那些人都低。我認為部分源自“大數定律”——一家4.5兆美元的公司不可能再變更大了。但一年半前我也問過你,如果市場會把AI負載提升10×或5×,我們也知道Capex的走勢。在你看來,結合剛才談到的優勢下,營收“不大幅更高”的機率有多大?黃仁勳:我這樣回答,我們的機會遠大於市場共識。Brad Gerstner:我認為輝達很可能成為第一家10兆美元的公司。我在這行待得夠久了。十年前,大家還說世上不可能有1兆美元公司。現在我們有十家。今天的世界更大了,對吧?黃仁勳:世界變大了。而且人們誤解我們在做什麼。大家記得我們是“晶片公司”——沒錯,我們造晶片,造的是全球最驚人的晶片。但輝達實際上是一家AI基礎設施公司。我們是你的“AI基礎設施合作夥伴”。我們與OpenAI的夥伴關係就是最好證明。我們是他們的AI基礎設施夥伴。我們以很多方式與客戶合作。我們不要求任何人買我們的一切。我們不要求你買整機櫃,你可以買一顆晶片、一個部件、我們的網路,或僅僅買我們的CPU。也有人只買我們的GPU,配別家的CPU和網路。我們基本上是按你喜歡的方式賣。我的唯一請求是,買點兒我們的東西就行。Brad Gerstner:你說過,不只是更好的模型,還要有“世界級建造者”。你說,也許全國最強的建設者是Elon Musk。我們聊過Colossus One,他在那裡把二十幾萬顆H100/H200組成一個“相干”的大叢集。現在他在做Colossus Two,可能是50萬顆GPU、相當於幾百萬H100的“等效”相干叢集。黃仁勳:如果他先於所有人做到1GW,我不驚訝。Brad Gerstner:既能做軟體與模型,又懂如何打造這些叢集的“建造者”有什麼優勢?黃仁勳:這些AI超級電腦極其複雜。技術複雜,採購複雜(融資),拿地、拿電力與廠房複雜,建設複雜、點亮複雜。這恐怕是人類史上最複雜的系統工程之一。Elon的優勢在於:在他腦子裡,這些系統是一體協同的,所有相互依賴關係都在他一個人腦中,包括融資。是的,而且……Brad Gerstner:他自己就是個“大GPT”、一台“大超算”。黃仁勳:對,終極“GPU”。他有很強的緊迫感,他非常想把它建出來。當“意志”與“能力”相遇時,不可思議的事會發生。六、主權AI:AI正在成為每個國家的基礎設施Brad Gerstner:你深度參與的另一塊是主權AI……回看30年前,你大概難以想像如今你經常出入白宮。總統說你與輝達對美國國家安全至關重要。面對這些,先給我個背景——若不是各國把這件事視為“生死攸關”,至少不亞於我們在1940年代看待“核”,你也不會出現在那些地方。如今如果沒有一個由政府出資的“曼哈頓計畫”,那它也由輝達、OpenAI、Meta、Google來出資。黃仁勳:沒有人需要原子彈,但人人都需要AI。這就是巨大的不同。AI是現代軟體。這是我一開始就說的:從通用計算到加速計算,從人寫程式碼到AI寫程式碼,這個根基不能忘,我們已經重塑了計算。它需要被普及,這就是所有國家都意識到必須進入AI世界的原因,因為每個國家都必須在計算中保持現代化。不會有人說:你知道嗎,我昨天還用電腦,明天我就靠木棍和火種了。所以每個人都得繼續向前,只是計算被現代化了而已。第二,為了參與AI,你必須把自己的歷史、文化、價值觀寫進AI。隨著AI越來越聰明,核心AI學這些的速度很快,不必從零開始。所以我認為每個國家都需要一定的主權能力。我建議大家都用OpenAI、用Gemini、用Grok、用Anthropic……用各類開放模型。但他們也應該投入資源去學習如何“建構”AI,這不僅是為了語言模型,也是為了工業模型、製造模型、國家安全模型。他們要培養一整套“自己的智能”。因此,每個國家都應具備主權能力。Brad Gerstner:這是否也是你在全球聽到與看到的?黃仁勳:是的。他們都會成為OpenAI、Anthropic、Grok、Gemini的客戶,但同時也需要建設自己的基礎設施。這就是輝達在做的大想法——我們在建構“基礎設施”。就像每個國家需要能源基礎設施、通訊與網際網路基礎設施,現在每個國家都需要AI基礎設施。 (虎嗅APP)
新·摩爾定律誕生:AI智能體能力每4個月翻一番!智能爆炸在即
【新智元導讀】AI編程智能體的能力正在飛速增長,最新研究揭示了這一「新摩爾定律」,如果AI智能體的任務時長繼續以每4個月翻倍的速度增長,到2027年它們可能完成長達167小時的月級任務!程式設計智能體能完成的任務量,正以爆炸式的速度增長!而且,這一趨勢還在加速。2024到2025年,它們的任務處理能力每4個月翻一倍;而在2019到2025年,這個翻倍周期則是7個月。22號,AI研究網站AI Digest發表了上述觀點,揭示了一個AI智能體的新摩爾定律。部落格地址:https://theaidigest.org/time-horizons從圖表中可以清晰地看到這一趨勢,任務時長的增長軌跡幾乎是一條陡峭的指數曲線。2019年,GPT-2隻能處理不到1秒的簡單任務;2022年ChatGPT發佈時,AI已經可以完成30秒的程式設計任務。現在,智能體可以自主完成人類需要一小時才能完成的程式設計任務。頂尖的AI系統可以完成的任務長度正在呈指數級增長——每7個月翻一番。這個趨勢是METR的研究人員發現的。他們選取了2019到2025年間最強的AI模型,測試了它們在大約200個任務上的表現。主要是程式設計任務,也有一些邏輯推理任務。然後,他們把AI的成功率和每個任務的長度做了對比——任務長度指的是專業人士完成這些任務需要的時間,從不到30秒到超過8小時不等。測試過所有模型後,出現了兩個明顯的規律:任務長度和AI成功率高度相關(相關係數R²=0.83)。AI成功率達到50%的任務長度——即「時間跨度」——正在呈指數增長。接下來是什麼?這個指數增長的趨勢看起來很穩健,沒有停下來的意思。如果按照這個趨勢推算下去,AI智能體將能夠完成:2026年:2小時的任務;2027年:1個工作日(8小時)的任務;2028年:1個工作周(40小時)的任務;2029年:1個工作月(167小時)的任務。最近,這一趨勢還在加速。2024-2025年間,時間跨度是每4個月任務長度翻一番,而2019-2025年間則是每7個月翻一番。如果按照2024-2025年加速的趨勢(每4個月翻倍)推算,AI智能體可能在2027年就能完成月級任務(167小時)。然而,僅觀察一年的資料給出預測可能會不太穩定,實際的進步速度也可能會放緩。不過,考慮到這個趨勢已經開始加速,它很可能處於一個比指數增長還要快的增長軌道上。這也很符合直覺:隨著增長軌道直線上升,1周和2周任務之間所需技能的差距,可能比1年和2年任務之間的差距更大。此外,隨著AI能力的提升,它們在開發更強大AI方面的作用會越來越大,可能導致超指數級增長。智能爆炸AI智能體的能力提升會反過來加速更強大AI的研發,形成飛輪效應:更強大的AI智能體能夠更快地開發出更先進的AI系統,從而進一步提升能力。這種正反饋循環可能導致超指數增長,甚至觸發「軟體智能爆炸」(software intelligence explosion),即AI能力在短時間內急劇提升,遠遠超過人類的水平。此外,演算法進步也在推動這一趨勢。METR的研究表明,近年來AI在演算法效率上的提升,顯著降低了計算資源需求。通過更高效的預訓練和後訓練方法,即使硬體資源不增加,AI智能體的能力也能快速提升。AI智能體任務時長的指數增長,可能成為人類歷史上最具變革性的趨勢之一。它能在短時間內完成複雜任務,將徹底改變軟體開發、科學研究、醫療診斷等多個領域。例如,一個能夠自主完成月級任務的AI智能體,可以完全自動化軟體工程項目,甚至獨立進行科學研究,從而大幅提高生產效率。這一趨勢也帶來了潛在的社會挑戰。隨著AI智能體能力的快速提升,人類社會可能難以適應這種變化。許多傳統職業可能面臨自動化,人類可能需要轉向更具創造性和策略性的角色。 (新智元)
阿里Qwen3真能以1/3參數成本撬動AI大格局?
4月29日凌晨,阿里巴巴宣佈開源新一代通義千問模型Qwen3(千問3),這款被官方稱為“國內首個混合推理模型”的大模型,以參數量僅為DeepSeek-R1的1/3、成本下降70%、性能全面超越全球頂尖模型的亮眼表現,迅速登頂全球開源模型榜單。01國內首個混合推理模型Qwen3首創的“混合推理模型”架構,將人類認知的“快思考”(直覺反應)與“慢思考”(深度推理)機制融入同一模型。當面對簡單問答時,模型僅啟動22B參數實現“秒級響應”,而遇到複雜數學推導、程式碼生成等任務時,則呼叫全量參數進行多步驟深度思考。Qwen3提出的“快思考(直覺決策)”與“慢思考(深度推理)”整合架構,本質是對人類雙系統思維的AI化重構。·快思考層:基於輕量化子模型實現毫秒級響應,處理常識問答、簡單決策等高並行場景;·慢思考層:啟動複雜推理模組,通過動態路由機制攻克數學證明、程式碼生成等需深度思考的任務;·混合編排系統:即時評估任務複雜度,在能耗、時延、精度間實現動態平衡,相比傳統單一架構推理效率提升40%以上(據阿里內部測試資料)。這種“彈性計算”模式打破了“越大越好”的慣性思維,使模型在參數量減少67%的情況下,仍在MMLU、GSM8K等核心基準測試中超越DeepSeek-R1 5-8個百分點。動態資源分配機制,使得其30B參數的MoE版本性能超越上代32B密集模型,實現10倍以上的性能槓桿。對比DeepSeek-R1的671B總參數和37B啟動參數,Qwen3以235B總參數、22B啟動參數的“輕量級”設計,在AIME25奧數測評中斬獲81.5分(超越DeepSeek-R1的79.8分),LiveCodeBench程式碼測試突破70分(超過Grok-3的68分)。這種“四兩撥千斤”的效果,源於其預訓練資料量達36T的龐大規模,以及後訓練階段多輪強化學習的精準調優。值得注意的是,Qwen3系列覆蓋了從0.6B到235B的多樣化參數規模,並支援高達128K的上下文窗口長度。這種“參數階梯化”佈局既滿足了邊緣裝置(如手機、IoT)的輕量化需求,又為高性能計算場景提供了旗艦級模型選擇。而MoE架構的引入,進一步實現了“小而強大”的目標——例如,Qwen3-235B-A22B在僅啟動9.4%參數的情況下,性能已超越全參數運行的上一代模型。02性能登頂全面碾壓全球頂尖模型Qwen3的發佈直接挑戰了全球開源模型的競爭格局。根據官方披露,其在ChatBot Arena、GPQA、AIME24/25等權威評測中,性能全面超越DeepSeek-R1、OpenAI-o1、Grok-3等對手。以邏輯推理能力為例,在Meta首席科學家楊立昆領銜設計的“最難評測榜”LiveBench中,Qwen3-32B的得分超過OpenAI-GPT-4.5preview和Google-Gemini2.0,展現出接近人類專家的複雜問題解決能力,而在BFCL(函數呼叫精準性測試)和LiveCodeBench(動態程式設計評測)中,Qwen3的程式碼糾錯和API呼叫精準率領先行業標竿5%-8%。同時,Qwen3的預訓練資料量達36兆token(Qwen2.5的2倍),涵蓋119種語言和方言,通過Qwen2.5-Math、Qwen2.5-Coder等專家模型合成高品質數學與程式碼資料。03模型成本最佳化的“摩爾定律”正在形成Qwen3的突破不僅在於性能提升,更在於商業化門檻的顛覆性降低。其旗艦版Qwen3-235B-A22B僅需4張H20顯示卡即可部署,視訊記憶體佔用僅為同類模型的1/3。相較於DeepSeek-R1需要數十張高端顯示卡的部署成本,Qwen3的硬體投入下降65-75%。這種成本優勢直接反映在API服務定價上,開發者可通過“思考預算”設定靈活控制推理資源消耗。這種成本優勢的底層邏輯,是阿里雲在模型架構與工程實現的協同創新。通過將非思考模式無縫整合到MoE架構中,Qwen3在保持2350億總參數規模的同時,日常互動場景的實際算力消耗僅相當於220億參數模型。這種設計思路與DeepSeek-R1追求極致參數規模(671B)形成鮮明對比,標誌著中國AI產業從“暴力堆料”向“精準效能”的戰略轉型。簡單來說,Qwen3的突破性在於首次實現“性能提升+成本下降+開源開放”三位一體——·訓練成本:依託阿里自研的“分階段知識蒸餾”技術,將千億參數模型的知識遷移至300億級架構,訓練能耗降低60%;·推理成本:混合架構使簡單任務無需喚醒大參數模組,日常場景推理費用可控制在GPT-4 Turbo的1/20;·生態槓桿:作為國內首個支援MoE(混合專家)結構的開源模型,開發者可自由拆解組合功能模組,大幅降低定製化成本。這意味著AI應用的經濟學模型被改寫——當10億美元級訓練投入不再是入場券,中小企業將真正獲得與大廠同台競技的機會。04中美技術路線的再次分野阿里此次開源8款Qwen3系列模型(含2款MoE和6款密集模型),允許免費商用的策略,直接衝擊了DeepSeek-R1建立的開源生態優勢。此前DeepSeek雖開源了R1模型,但其660億參數規模對中小開發者仍存在部署門檻。而Qwen3-0.6B到235B的全系列覆蓋,特別是僅需手機端等級算力的0.6B版本,極大拓展了AI模型的落地場景。值得關注的是,Qwen3與DeepSeek-R1的技術路線差異折射出中美AI競賽的新態勢:前者通過強化學習最佳化小模型性能(95.6分人類偏好對齊得分超越OpenAI-o1),後者則持續衝擊參數邊界。這種分化在硬體層面同樣顯著——Qwen3對國產H20顯示卡的深度適配,與DeepSeek依賴輝達高端晶片形成對比,暗合中國算力自主化戰略。05點評AGI競賽的下半場儘管Qwen3在多項指標上實現突破,但行業仍存隱憂,一方面,混合推理模型對複雜任務的分層處理機制,可能在高階邏輯鏈場景暴露系統誤差;另一方面,開源生態的繁榮需要配套工具鏈支援,當前魔搭社區與HuggingFace的整合度尚待驗證。阿里披露的未來計畫——擴展資料規模至100T、延長上下文至百萬token、融合多模態能力——預示著更激烈的AGI競賽。這場以小博大的技術革命,或許正在改寫全球AI規則書。當參數規模不再是性能的唯一標尺,中國科技企業展現的架構創新與工程化能力,正在為後摩爾定律時代的智能計算開闢新航道。 (壹零社)