企業每投資1億美元,即可獲得50億美元的token收益。
芯東西9月10日報導,昨晚,輝達又放AI計算大招,推出專為長上下文推理和視訊生成應用設計的新型專用GPU——NVIDIA Rubin CPX。
輝達創始人兼CEO黃仁勳說:“正如RTX徹底改變了圖形和物理AI一樣,Rubin CPX是首款專為海量上下文AI打造的CUDA GPU,這種AI模型可以同時處理數百萬個知識token的推理。”
Rubin CPX配備128GBGDDR7記憶體,NVFP4精度下AI算力可達30PFLOPS,非常適合運行長上下文處理(超過100萬個token)和視訊生成任務。
Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速記憶體,記憶體頻寬達到1.7PB/s。
其AI性能是輝達Vera Rubin NVL144平台的2倍多,是基於Blackwell Ultra的GB300 NVL72系統的7.5倍,相比GB300 NVL72系統還能提供3倍更快的注意力機制。
Rubin CPX GPU預計將於2026年底上市。
9月17日,智猩猩發起主辦的2025全球AI晶片峰會將在上海舉辦。大會設有主論壇,大模型AI晶片、AI晶片架構兩大專題論壇,以及存算一體、超節點與智算叢集兩大技術研討會,近40位嘉賓將分享和討論。IEEE Fellow王中風教授將開場,華為昇騰等國產AI晶片力量集結,華為雲、阿里雲領銜超節點與智算叢集勢力。掃碼報名~
Rubin CPX基於NVIDIA Rubin架構建構,採用經濟高效的單晶片設計,配備128GB GDDR7記憶體,採用NVFP4精度,並經過最佳化,算力可達30PFLOPS,能夠為AI推理任務,尤其是長上下文處理(超過100萬個token)和視訊生成,提供了遠超現有系統的性能和token收益。
與輝達GB300 NVL72系統相比,這款專用GPU還提供了3倍更快的注意力機制,從而提升了AI模型處理更長上下文序列的能力,而且速度不會降低。
相比之下,今年3月發佈的Rubin GPU,在FP4精度下峰值推理能力為50PFLOPS。而輝達在今年6月才公佈創新型4位浮點格式NVFP4,這種格式的目標是在超低精度下力求保持模型性能。
其分析表明,當使用訓練後量化(PTQ)將DeepSeek-R1-0528從原始FP8格式量化為NVFP4格式時,其在關鍵語言建模任務上的精準率下降幅度不超過1%。在AIME 2024中,NVFP4的精準率甚至提高了2%。
Rubin CPX採用的GDDR7,價格比Rubin GPU配備的288GB HBM4高頻寬記憶體更便宜。
Rubin CPX與全新NVIDIA Vera Rubin NVL144 CPX平台中的輝達Vera CPU和Rubin GPU協同工作,進行生成階段處理,形成一個完整的高性能分解式服務解決方案。
Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速記憶體,記憶體頻寬達到1.7PB/s。
其AI性能是輝達Vera Rubin NVL144平台的2倍多,是基於Blackwell Ultra的GB300 NVL72機架式系統的7.5倍。
輝達還在周二分享了GB300 NVL72系統的基準測試結果,其DeepSeek-R1推理性能提升到上一代的1.4倍。該系統還創下MLPerf Inference v5.1套件中加入的所有新資料中心基準測試的記錄,包括Llama 3.1 405B Interactive、Llama 3.1 8B、Whisper的記錄。
輝達計畫為希望重複使用現有Vera Rubin 144系統的客戶配備專用的Rubin CPX計算托盤(tray)。
Rubin CPX提供多種配置,包括Vera Rubin NVL144 CPX,可與NVIDIA Quantum‑X800 InfiniBand橫向擴展計算架構或搭載輝達Spectrum-XGS乙太網路技術和ConnectX-9 SuperNIC的Spectrum-X乙太網路網路平台結合使用。
輝達預計將推出一款雙機架產品,將Vera Rubin NVL144和Vera Rubin NVL144機架結合在一起,將快速記憶體容量提升至150TB。
這款全新的專用GPU,跟輝達之前發佈的旗艦GPU有什麼區別?
據輝達資料中心產品總監Shar Narasimhan分享,Rubin CPX將作為輝達的專用GPU,用於上下文和預填充計算,從而顯著提升海量上下文AI應用的性能。原版Rubin GPU則負責生成和解碼計算。
推理由兩個階段組成:上下文階段和生成階段。這兩個階段對基礎設施的要求截然不同。
上下文階段受計算能力限制,需要高吞吐量處理來提取和分析大量輸入資料,最終生成第一個token輸出結果。
生成階段受記憶體頻寬限制,依賴於快速記憶體傳輸和高速互連(如NVLink)來維持逐token輸出性能。
分解式推理使這些階段能夠獨立處理,從而實現對計算和記憶體資源的有針對性的最佳化。這種架構轉變可提高吞吐量,降低延遲,並提升整體資源利用率。
但分解會帶來新的複雜性,需要在低延遲鍵值快取傳輸、大語言模型感知路由和高效記憶體管理之間進行精確協調。
輝達打造Rubin CPX GPU,就是為了在計算密集型長上下文階段實現專業的加速,並將該專用GPU無縫整合到分解式基礎架構中。
輝達通過將GPU功能與上下文和生成工作負載相結合來最佳化推理。
Rubin CPX GPU專為高效處理長序列而最佳化,旨在增強長上下文性能,補充現有基礎架構,提升吞吐量和響應速度,同時提供可擴展的效率,並最大化大規模生成式AI工作負載的投資回報率(ROI)。
為了處理視訊,AI模型可能需要處理1小時內容中多達100萬個token,這挑戰了傳統GPU計算的極限。Rubin CPX將視訊解碼器和編碼器以及長上下文推理處理整合在單晶片中,為視訊搜尋和高品質生成視訊等應用提供了前所未有的功能。
Rubin CPX將能夠運行NVIDIA Nemotron系列最新的多模態模型,為企業級AI agent提供最先進的推理能力。對於生產級AI,Nemotron模型可以通過NVIDIA AI Enterprise軟體平台交付。
Vera Rubin NVL144 CPX採用輝達Quantum-X800 InfiniBand或Spectrum-X乙太網路,搭配ConnectX-9 SuperNIC並由Dynamo平台協調,旨在為下一波百萬token上下文AI推理工作負載提供支援,降低推理成本。
在規模化營運下,該平台可實現30~50倍的投資回報率,相當於每1億美元的資本支出即可帶來高達50億美元的token收益。輝達稱這“為推理經濟學樹立了新的標竿”。
Rubin CPX將使AI程式設計助手從簡單的程式碼生成工具轉變為能夠理解和最佳化大型軟體項目的複雜系統。
知名的美國AI程式設計平台Cursor、AI視訊生成創企Runway、AI程式設計創企Magic等正在探索用Rubin CPX GPU加速他們的程式碼生成、複雜視訊生成等應用。 (芯東西)