效率最高可達現有旗艦機架的7.5倍。
輝達於9月9日正式發佈了一款專為處理海量上下文而打造的新型GPU——NVIDIA Rubin CPX,旨在“以前所未有的速度和效率,賦能百萬級Token的軟體編碼、生成式視訊等複雜AI任務。”
這款專用處理器將與NVIDIA Vera CPU及下一代Rubin GPU協同工作,共同構成全新的NVIDIA Vera Rubin NVL144 CPX整合平台。該平台在單個機櫃內即可提供高達8 exaflops的AI算力,性能是當前NVIDIA GB300 NVL72系統的7.5倍,並配備100TB高速記憶體和每秒1.7 PB的記憶體頻寬,為AI推理設定了全新基準。
NVIDIA創始人兼首席執行官黃仁勳在發佈會上表示:“Vera Rubin平台將標誌著AI計算前沿的又一次飛躍。正如RTX徹底改變了圖形和物理AI,Rubin CPX是首款專為海量上下文AI打造的CUDA GPU,在這種場景下,模型可以一次性對數百萬token的知識進行推理。”
輝達表示,推理已成為人工智慧複雜性的新前沿。現代模型正演變為能夠進行多步推理、擁有持久記憶體和長上下文的智能體系統,使其能夠處理軟體開發、視訊生成和深度研究等領域的複雜任務。這些工作負載對基礎設施提出了前所未有的要求,在計算、記憶體和網路方面引入了新的挑戰,需要我們從根本上重新思考如何擴展和最佳化推理。
在這些挑戰中,為特定類別的工作負載處理海量上下文變得日益關鍵。例如,在軟體開發中,AI系統必須對整個程式碼庫進行推理,維護跨檔案的依賴關係,並理解程式碼倉庫等級的結構——這正將編碼助手從自動補全工具轉變為智能協作者。同樣,長視訊和研究應用要求在數百萬token中保持持續的連貫性和記憶。這些需求正在挑戰當前基礎設施所能支援的極限。
輝達認為,AI推理主要分為兩個階段:上下文階段(Context Phase)和生成階段(Generation Phase)。前者是計算密集型,需要高吞吐量處理海量輸入資料;後者是記憶體頻寬密集型,依賴高速資料傳輸逐個生成token。為最佳化效率,NVIDIA採用了“分解式推理”架構,將兩個階段交由最適合的硬體獨立處理。
而NVIDIA Rubin CPX正是為加速計算密集的“上下文階段”而設計的專用解決方案。它採用高成本效益的單片式晶片設計,提供高達30 petaflops的NVFP4精度算力,配備128GB GDDR7記憶體,並將注意力(attention)功能速度提升至GB300 NVL72的三倍。此外,它還在單晶片上整合了視訊編解碼器和長上下文推理處理功能,極大地提升了視訊搜尋、高畫質視訊生成等應用的性能。
NVIDIA指出,通過這種專用硬體,企業能夠以前所未有的規模創造價值,預計每投入1億美元資本,即可帶來高達50億美元的token收入。
新平台已獲得行業創新者的廣泛關注。AI程式碼編輯器開發商Cursor表示,Rubin CPX將帶來“閃電般的程式碼生成速度”,改變軟體開發模式。生成式AI公司Runway認為,新平台是“性能上的一次重大飛躍”,將幫助創作者在視訊工作中獲得前所未有的速度與真實感。致力於軟體工程自動化的AI研究公司Magic也指出,Rubin CPX能極大地加速其處理億級token上下文模型的計算工作負載。
Rubin CPX將得到NVIDIA AI技術堆疊的全面支援,包括可高效擴展AI推理的NVIDIA Dynamo平台、NVIDIA Nemotron多模態模型系列以及包含NIM微服務的NVIDIA AI Enterprise企業級軟體平台。
NVIDIA Rubin CPX平台預計將於2026年底正式上市。
在發佈未來架構的同時,NVIDIA於9月9日公佈的最新MLPerf Inference v5.1行業基準測試結果中,再次彰顯了其在當前AI推理領域的領導地位。
本輪測試中,NVIDIA首次提交了基於全新Blackwell Ultra架構(通過GB300 NVL72系統)的成績,並立即刷新了所有新增基準測試的性能記錄,包括Llama 3.1 405B和Whisper等。
尤其是在處理高達6710億參數的混合專家模型DeepSeek-R1時,Blackwell Ultra的單GPU性能達到了上一代Hopper架構的約5倍,實現了巨大的性能飛躍。這一成就得益於NVIDIA的全端最佳化能力,包括:廣泛應用NVFP4四位浮點格式進行加速、通過TensorRT-LLM等軟體庫實現先進的模型和KV快取量化,以及為複雜模型開發的全新平行技術。 (半導體產業縱橫)