在人工智慧/高性能計算行業,我(指代本文作者,下同)參與過的所有矽產品定義最終都會回到同一個問題上:製程節點的選擇。而且每次,大家都覺得這是理所當然的。當然,我們想要領先技術。當然,尺寸越小越好。沒人會因為選擇更小的奈米或埃而被解僱。
在過去的二十年裡,這或許是正確的,但現在我逐漸相信,這是當今人工智慧基礎設施中最昂貴的未經檢驗的假設——尤其是對於那些正在建構下一波人工智慧浪潮的人來說:即那些大規模服務於推理和混合專家工作負載的人工智慧超級工廠,而無需超大規模資料中心的資產負債表。
讓我用這個行業剛剛講述的一個關於自身的故事來說明這一點。
故事始於一個揭示真相的基準測試。去年十月,SemiAnalysis發佈了 InferenceMAX——一個開源基準測試工具,它以一種令人耳目一新的誠實方式呈現資料。它不以峰值浮點運算性能 (FLOPS) 為指標,而是對主流晶片進行夜間測試,並衡量營運商實際支付的費用:每秒令牌數、每瓦令牌數、每百萬令牌成本,涵蓋真實工作負載和實際延遲目標。
NVIDIA 的重磅成果是此次發佈會的勝利。Blackwell 的推理性能比上一代 Hopper 提升了高達 15 倍。獨立框架團隊也以更為保守的方式證實了這一提升幅度:在 Llama 3.3 70B 上,吞吐量在相似延遲下提升了約 4 倍;在 DeepSeek-R1(一種混合專家模型)上,吞吐量也提升了 4 倍——並且在整個延遲-吞吐量曲線上都保持一致。對於功耗受限的 AI 工廠而言,每兆瓦的令牌數量最多可提升 10 倍。
太棒了!接下來這一點應該會徹底改變我們對產品路線圖的討論:Blackwell 和 Hopper 採用的是同一工藝節點,都是台積電 4nm 時代的晶片。
看看規格表,你會發現事情遠比想像的複雜。H100 的 FP8 性能峰值約為 4 petaFLOPS,而 B200 則約為 9 petaFLOPS——我們姑且稱之為 2 倍,這大致相當於將兩顆晶片粘合在一起的預期性能提升。那麼,這 4 倍到 15 倍的性能提升究竟來自何處?答案並非來自光刻工藝本身:一種新的 FP4 數字格式,它使每個參數的字節數減少了一半;記憶體頻寬從每秒 3.35 TB 躍升至每秒 8 TB;NVLink 頻寬翻倍至每秒 1.8 TB;解耦式服務將預填充和解碼分離;專為 MoE 建構的專家級平行路由;以及數月以來在 TensorRT-LLM、vLLM 和 SGLang 等核心級軟體方面的持續改進,這些改進使得同樣的晶片性能每周都在提升。
歷史上最成功的晶片公司剛剛展示了在不縮小任何一個電晶體尺寸的情況下,性能(尤其是在MoE推斷方面)實現了數量級的提升。這並非無關緊要,而是其核心戰略。
如果你不是Google,這一點就更加重要了。這裡有一些令人不安的計算,很少會出現在幻燈片上。2nm 晶圓的成本大約是 N4 級晶圓的兩倍。但晶圓本身並不是真正的問題所在——真正的問題在於設計。將晶片工藝推向極致意味著數億美元的 IP、EDA、掩模和流片成本。輝達可以將這些成本分攤到整個商業帝國。而一家為中等規模 AI 基礎設施製造晶片的公司則無法做到這一點。在實際產量下,2nm 晶片的攤銷設計成本可能會超過晶片本身的成本。
那麼,對於超級工廠運行的工作負載而言,這筆溢價究竟能帶來什麼呢?推理受限於記憶體:晶片的生命周期都耗費在傳輸權重和鍵值快取上,而不是進行算術運算。MoE 讓這種情況更加極端,而不是有所緩解——記憶體中儲存著海量的參數,每個令牌僅啟動其中一小部分,真正的難題在於容量、頻寬以及專家之間令牌路由的互連。2nm 計算單元加速的並非瓶頸所在。它付出溢價,只是為了讓堵車中最快的車也更快。
理性的做法——也是整個行業正在悄然趨同的做法——是將先進矽晶片只投入到真正能發揮其價值的地方。晶片組:計算模組採用產量足以支撐的最先進工藝節點,I/O 和模擬電路則採用成本低廉且工藝成熟的工藝節點(即使進一步縮小尺寸也無濟於事),所有元件都採用先進的封裝技術。這種做法將原本關乎公司生死存亡的節點選擇轉變為組合式決策。它降低了設計成本和風險,並且允許使用者只需將單個模組升級到下一代,而無需重新設計整個系統。
然而,這個故事還有個關鍵的轉折點,因為人工智慧超級工廠的成敗取決於兆瓦數。電網連接是當今人工智慧基礎設施中最稀缺的資源;電力是營運成本中的重中之重,而非無關緊要的小費用,而且在部署周期內,能源成本甚至可以與硬體成本相媲美。這難道不正是追求極致能效的必要條件嗎?
它強調的是效率,而不是以2nm的價格購買。Blackwell每兆瓦10倍的代幣產量提升來自於封裝格式、記憶體、互連和軟體——這些成本低廉的手段。對於中等規模的營運商來說,在耗盡這些手段之前,他們的資金就會很快用盡。真正的尖端技術是在成本低廉的效率手段失效之後才去追求的,而就目前而言,我們距離這個目標還很遠。
所以,我會對產品路線圖團隊說:如果你的產品旨在訓練突破性能瓶頸的前沿模型,那就繼續購買最前沿的技術——這很理性,但並不適合大多數人。對於這個市場中快速增長的中端市場而言,優先順序順序很明確,InferenceMAX 剛剛發佈了相關方案:
軟體和利用率優先,記憶體和互連其次,封裝和晶片組再次,奈米技術最後。
下一代人工智慧基礎設施的勝利者,並非擁有最小電晶體的廠商,而是浪費電晶體最少的廠商。 (半導體行業觀察)
