在運算、網路和圖形發展史上,Nvidia 有許多獨特之處。但其中之一就是它目前手頭上有如此多的資金,而且由於其架構、工程和供應鏈,它在生成式人工智慧市場處於領先地位,因此它可以隨心所欲地實施它認為可能取得進展的任何路線圖。
到21 世紀,Nvidia 已經是一個非常成功的創新者,它實際上沒有必要擴展到資料中心運算領域。但HPC 研究人員將Nvidia 帶入了加速運算領域,然後AI 研究人員利用GPU 運算創造了一個全新的市場,這個市場已經等待了四十年,希望以合理的價格實現大量計算,並與大量數據碰撞,真正讓越來越像思考機器的東西成為現實。
向Danny Hillis、Marvin Minksy 和Sheryl Handler 致敬,他們在20 世紀80 年代嘗試製造這樣的機器,當時他們創立了Thinking Machines 來推動AI 處理,而不是傳統的HPC 模擬和建模應用程序,以及Yann LeCun,他當時在AT&T 貝爾實驗室創建了卷積神經網路。他們既沒有數據,也沒有計算能力來製造我們現在所知的AI。當時,Jensen Huang 是LSI Logic 的董事,該公司生產儲存晶片,後來成為AMD 的CPU 設計師。就在Thinking Machines 在20 世紀90 年代初陷入困境(並最終破產)時,黃仁勳在聖何塞東側的Denny’s 與Chris Malachowsky 和Curtis Priem 會面,他們創立了Nvidia。正是Nvidia 看到了來自研究和超大規模社區的新興人工智慧機遇,並開始構建系統軟體和底層大規模並行硬件,以實現自第一天起就一直是計算一部分的人工智慧革命夢想。
這一直是計算的最終狀態,也是我們一直在走向的奇點——或者可能是兩極。如果其他星球上有生命,那么生命總會進化到這樣一個地步:那個世界擁有大規模毀滅性武器,並且總是會創造出人工智慧。而且很可能是在同一時間。在那一刻之後,那個世界對這兩種技術的處理方式決定了它是否能在大規模滅絕事件中倖存下來。
這聽起來可能不像是討論晶片製造商發展路線圖的正常開場白。事實並非如此,因為我們生活在一個有趣的時代。
在台北舉行的年度Computex 貿易展上,Nvidia 的聯合創始人兼首席執行官在主題演講中再次試圖將生成式人工智慧革命(他稱之為第二次工業革命)置於其背景中,並一窺人工智慧的未來,尤其是Nvidia 硬體的未來。我們獲得了GPU 和互連路線圖的預覽,據我們所知,這是直到最後一刻才列入計劃的一部分,黃仁勳和他的主題演講通常都是這樣。
生成式人工智慧的關鍵在於規模,黃仁勳提醒我們這一點,並指出2022 年底的ChatGPT 時刻之所以會發生,只有出於技術和經濟原因。
要實現ChatGPT 的突破,需要大幅提升GPU 的效能,然後在此基礎上增加大量GPU。 Nvidia 確實實現了效能,這對於AI 訓練和推理都很重要,而且重要的是,它大大減少了產生大型語言模型回應中的token 所需的能量。請看一看:
從「Pascal」 P100 GPU 世代到「Blackwell」 B100 GPU 世代,八年間GPU 的效能提升了1053 倍,後者將於今年稍後開始出貨,並將持續到2025 年。 (我們知道圖表上說的是1000 倍,但這並不準確。)
部分效能是透過降低浮點精度來實現的——降低了4 倍,從Pascal P100、Volta V100 和Ampere A100 GPU 中的FP16 格式轉變為Blackwell B100s 中使用的FP4 格式。如果沒有這種精確度的降低,效能提升將只有263 倍,而這不會對LLM 效能造成太大影響——這要歸功於資料格式、軟體處理和硬體中的大量數學魔法。請注意,對於CPU 市場的八年來說,這已經相當不錯了,每個時鐘的核心效能提高10% 到15%,核心數量增加25% 到30% 都是正常的。如果升級周期為兩年,那麼在同樣的八年裡,CPU 吞吐量將增加4 到5 倍。
如上所示,每單位工作量的功耗降低是一個關鍵指標,因為如果你無法為系統供電,你就無法使用它。令牌的能源成本必須降低,這意味著LLM 產生的每令牌能源的降低速度必須快於效能的提高。
在他的主題演講中,為了給你更深入的背景知識,在Pascal P100 GPU 上產生一個token 需要17000 焦耳的能量,這大致相當於點亮兩個燈泡兩天,平均每個單字需要大約三個token。所以如果你要產生很多單詞,那就需要很多燈泡!現在你開始明白為什麼八年前甚至不可能以能夠使其在任務上表現良好的規模運行LLM。看看在1.8 兆個參數8 兆個token 資料驅動模型的情況下訓練GPT-4 專家混合模型LLM 所需的能力:
P100 集群的耗電量超過1000 千兆瓦時,這真是太驚人了。
黃仁勳解釋說,借助Blackwell GPU,該公司將能夠在約10,000 個GPU 上用大約10 天的時間來訓練這個GPT-4 1.8T MoE 模型。
如果人工智慧研究人員和Nvidia 沒有轉向降低精確度,那麼在這八年的時間裡效能提升只會是250 倍。
降低能源成本是一回事,降低系統成本又是另一回事。在傳統摩爾定律的末期,兩者都是非常困難的技巧,因為每18 到24 個月電晶體就會縮小一次,晶片變得越來越便宜、越來越小。現在,計算複合體已經達到光罩極限,每個電晶體都變得越來越昂貴——因此,由晶體管製成的設備本身也越來越昂貴。 HBM 記憶體是成本的很大一部分,先進封裝也是如此。
在SXM 系列GPU 插槽中(非PCI-Express 版本的GPU),P100 的發布價約為5,000 美元;V100 的發布價約為10,000 美元;A100 的發布價約為15,000 美元;H100 的發布價約為15,000 美元;H100 的發布價格約為25,000 至30,000 美元。 B100 的預計售價在35,000 至40,000 美元之間——黃仁勳本人在今年稍早接受CNBC採訪時曾表示,Blackwell 的價格是這個數字。
黃仁勳沒有展示的是,每一代需要多少GPU 來運行GPT-4 1.8T MoE 基準測試,以及這些GPU 或電力在運行時的成本是多少。因此,我們根據黃所說的需要大約10,000 個B100 來訓練GPT-4 1.8T MoE 大約十天,製作了一個電子表格:
在這八年中,GPU 價格上漲了7.5 倍,但性能卻提高了1,000 倍以上。因此,現在可以想像使用Blackwell 系統在十天左右的時間內訓練出具有1.8 兆個參數的大型模型,例如GPT-4,而兩年前Hopper 世代剛開始時,也很難在數月內訓練出具有數千億個參數的模型。現在,系統成本將與該系統兩年的電費相當。 (GPU 約佔AI 訓練系統成本的一半,因此購買10,000 個GPU 的Blackwell 系統大約需要8 億美元,運行十天的電費約為540,000 美元。如果購買更少的GPU,您可以減少每天、每周或每月的電費,但您也會相應增加訓練時間,這會使成本再次上漲。
你不可能贏,但你也不能放棄。
猜猜怎麼著? Nvidia 也做不到。所以就是這樣。即使Hopper H100 GPU 平台是“歷史上最成功的資料中心處理器”,正如黃仁勳在Computex 主題演講中所說,Nvidia 也必須繼續努力。
附註:我們很樂意將Hopper/Blackwell 的這次投資周期與六十年前IBM System/360 的發布進行比較,正如我們去年所解釋的那樣,當時IBM 做出了至今仍是企業歷史上最大的賭注。 1961 年,當IBM 啟動其「下一個產品線」研發項目時,它是一家年收入22 億美元的公司,在整個60 年代花費超過50 億美元。藍色巨人是華爾街第一家藍籌公司,正是因為它花了兩年的收入和二十年的利潤來創造System/360。是的,它的一些部分有些晚了,表現也不佳,但它徹底改變了企業資料處理的性質。 IBM 認為它可能會在60 年代後期帶來600 億美元的銷售額(以我們調整後的2019 年美元計算),但他們的銷售額只有1,390 億美元,利潤約為520 億美元。
Nvidia 無疑為資料中心運算的第二階段掀起了更大的浪潮。那麼現在真正的贏家可能被稱為綠色晶片公司(green chip company)嗎?
無論是Nvidia 還是其競爭對手或客戶都無法抵擋未來的引力以及生成性人工智慧帶來的利潤和生產力承諾,而這種承諾不僅僅是在我們耳邊低語,更是在屋頂上大聲呼喊。
因此,Nvidia 將加快步伐,突破極限。憑藉250 億美元的銀行存款和今年預計超過1000 億美元的收入,以及可能再有500 億美元的銀行存款,它有能力突破極限,帶領我們走向未來。
「在這段驚人成長時期,我們希望確保繼續提高效能,繼續降低成本——訓練成本、推理成本——並繼續擴展AI 功能以供每家公司使用。我們越提高效能,成本下降得就越厲害。
正如我們上面所列的表格清楚表明的那樣,這是事實。
這為我們帶來了更新的Nvidia 平台路線圖:
這有點難讀,所以讓我們仔細研究一下。
在Hopper 世代中,最初的H100 於2022 年推出,具有六層HBM3 內存,並配有一個具有900 GB/秒端口的NVSwitch 將它們連接在一起,並配有Quantum X400(以前稱為Quantum-2) InfiniBand 交換機,具有400 Gb/秒埠和ConnectX-7 網路介面卡。 2023 年,H200 升級為六層HBM3E 內存,具有更高的容量和頻寬,這提高了H200 封裝中底層H100 GPU 的有效性能。 BlueField 3 NIC 也問世了,它為NIC 添加了Arm 內核,以便它們可以執行附加工作。
2024 年,Blackwell GPU 當然會推出八層HBM3e 內存,並與具有1.8 TB/秒端口的NVSwitch 5、800 Gb/秒ConnectX-8 NIC 以及具有800 GB/秒端口的Spectrum-X800 和Quantum-X800 交換機配對。
我們現在可以看到,到2025 年,B200(上圖稱為Blackwell Ultra)將擁有8 堆疊HBM3e 內存,每疊有12 個die高。 B100 中的疊層大概是8 堆疊,因此這應該代表Blackwell Ultra 上的HBM 記憶體容量至少增加50%,甚至可能更多,這取決於所使用的DRAM 容量。 HBM3E 記憶體的時脈速度也可能更高。 Nvidia 對Blackwell 系列的記憶體容量一直含糊其辭,但我們在3 月Blackwell 發布會上估計,B100 將擁有192 GB 記憶體和8 TB/秒頻寬。隨著未來的Blackwell Ultra 的推出,我們預計會有更快的內存,如果看到288 GB 內存和9.6 TB/秒頻寬,我們不會感到驚訝。
Nvidia 還將在2025 年推出更高基數的Spectrum-X800 乙太網路交換機,可能配備六個ASIC,以創建無阻塞架構,就像其他交換器通常做的那樣,將總頻寬翻倍,從而使每個端口的頻寬或交換器的連接埠數量翻倍。
2026 年,我們將看到「Rubin」 R100 GPU,它在去年發布的Nvidia 路線圖中曾被稱為X100,正如我們當時所說,我們認為X 是一個變量,而不是任何東西的縮寫。事實證明確實如此。 Rubin GPU 將使用HBM4 內存,並將有8 個堆棧,大概每個堆棧都有12 個DRAM,而2027 年的Rubin Ultra GPU 將有12 個HBM4 內存堆棧,並且可能還有更高的堆棧(儘管路線圖沒有提到這一點)。
我們要等到2026 年,也就是目前「Grace」CPU 的後續產品「Vera」CPU 問世時,Nvidia 才會推出一款更強大的Arm 伺服器CPU。 NVSwitch 6 晶片與這些晶片配對,連接埠速度為3.6 TB/秒,ConnectX-9 的連接埠速度為1.6 Tb/秒。有趣的是,還有一種名為X1600 IB/乙太網路交換器的產品,這可能意味著Nvidia 正在融合其InfiniBand 和乙太網路ASIC,就像Mellanox 十年前所做的那樣。
或者,這可能意味著Nvidia 試圖讓我們所有人都感到好奇,只是為了好玩。 2027 年還有其他跡象表明,這可能意味著超級乙太網路聯盟將完全支援NIC 和交換機,甚至可能使用UALink 交換機將節點內和跨機架將GPU 連接在一起。
屆時我們可能將會看到。(半導體產業觀察)