#AI性能
輝達突然發佈新GPU!單機架AI性能暴漲6500%,100TB大記憶體,專攻長上下文推理
企業每投資1億美元,即可獲得50億美元的token收益。芯東西9月10日報導,昨晚,輝達又放AI計算大招,推出專為長上下文推理和視訊生成應用設計的新型專用GPU——NVIDIA Rubin CPX。輝達創始人兼CEO黃仁勳說:“正如RTX徹底改變了圖形和物理AI一樣,Rubin CPX是首款專為海量上下文AI打造的CUDA GPU,這種AI模型可以同時處理數百萬個知識token的推理。”Rubin CPX配備128GBGDDR7記憶體,NVFP4精度下AI算力可達30PFLOPS,非常適合運行長上下文處理(超過100萬個token)和視訊生成任務。Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速記憶體,記憶體頻寬達到1.7PB/s。其AI性能是輝達Vera Rubin NVL144平台的2倍多,是基於Blackwell Ultra的GB300 NVL72系統的7.5倍,相比GB300 NVL72系統還能提供3倍更快的注意力機制。Rubin CPX GPU預計將於2026年底上市。9月17日,智猩猩發起主辦的2025全球AI晶片峰會將在上海舉辦。大會設有主論壇,大模型AI晶片、AI晶片架構兩大專題論壇,以及存算一體、超節點與智算叢集兩大技術研討會,近40位嘉賓將分享和討論。IEEE Fellow王中風教授將開場,華為昇騰等國產AI晶片力量集結,華為雲、阿里雲領銜超節點與智算叢集勢力。掃碼報名~01. 全新專用GPU:128GB記憶體,30PFLOPS算力Rubin CPX基於NVIDIA Rubin架構建構,採用經濟高效的單晶片設計,配備128GB GDDR7記憶體,採用NVFP4精度,並經過最佳化,算力可達30PFLOPS,能夠為AI推理任務,尤其是長上下文處理(超過100萬個token)和視訊生成,提供了遠超現有系統的性能和token收益。與輝達GB300 NVL72系統相比,這款專用GPU還提供了3倍更快的注意力機制,從而提升了AI模型處理更長上下文序列的能力,而且速度不會降低。相比之下,今年3月發佈的Rubin GPU,在FP4精度下峰值推理能力為50PFLOPS。而輝達在今年6月才公佈創新型4位浮點格式NVFP4,這種格式的目標是在超低精度下力求保持模型性能。其分析表明,當使用訓練後量化(PTQ)將DeepSeek-R1-0528從原始FP8格式量化為NVFP4格式時,其在關鍵語言建模任務上的精準率下降幅度不超過1%。在AIME 2024中,NVFP4的精準率甚至提高了2%。Rubin CPX採用的GDDR7,價格比Rubin GPU配備的288GB HBM4高頻寬記憶體更便宜。02. 單機架AI性能達30EFLOPS,提供100TB快速記憶體、1.7PB/s記憶體頻寬Rubin CPX與全新NVIDIA Vera Rubin NVL144 CPX平台中的輝達Vera CPU和Rubin GPU協同工作,進行生成階段處理,形成一個完整的高性能分解式服務解決方案。Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速記憶體,記憶體頻寬達到1.7PB/s。其AI性能是輝達Vera Rubin NVL144平台的2倍多,是基於Blackwell Ultra的GB300 NVL72機架式系統的7.5倍。輝達還在周二分享了GB300 NVL72系統的基準測試結果,其DeepSeek-R1推理性能提升到上一代的1.4倍。該系統還創下MLPerf Inference v5.1套件中加入的所有新資料中心基準測試的記錄,包括Llama 3.1 405B Interactive、Llama 3.1 8B、Whisper的記錄。輝達計畫為希望重複使用現有Vera Rubin 144系統的客戶配備專用的Rubin CPX計算托盤(tray)。Rubin CPX提供多種配置,包括Vera Rubin NVL144 CPX,可與NVIDIA Quantum‑X800 InfiniBand橫向擴展計算架構或搭載輝達Spectrum-XGS乙太網路技術和ConnectX-9 SuperNIC的Spectrum-X乙太網路網路平台結合使用。輝達預計將推出一款雙機架產品,將Vera Rubin NVL144和Vera Rubin NVL144機架結合在一起,將快速記憶體容量提升至150TB。03. 為分解式推理最佳化而生,與輝達旗艦GPU搭配用這款全新的專用GPU,跟輝達之前發佈的旗艦GPU有什麼區別?據輝達資料中心產品總監Shar Narasimhan分享,Rubin CPX將作為輝達的專用GPU,用於上下文和預填充計算,從而顯著提升海量上下文AI應用的性能。原版Rubin GPU則負責生成和解碼計算。推理由兩個階段組成:上下文階段和生成階段。這兩個階段對基礎設施的要求截然不同。上下文階段受計算能力限制,需要高吞吐量處理來提取和分析大量輸入資料,最終生成第一個token輸出結果。生成階段受記憶體頻寬限制,依賴於快速記憶體傳輸和高速互連(如NVLink)來維持逐token輸出性能。分解式推理使這些階段能夠獨立處理,從而實現對計算和記憶體資源的有針對性的最佳化。這種架構轉變可提高吞吐量,降低延遲,並提升整體資源利用率。但分解會帶來新的複雜性,需要在低延遲鍵值快取傳輸、大語言模型感知路由和高效記憶體管理之間進行精確協調。輝達打造Rubin CPX GPU,就是為了在計算密集型長上下文階段實現專業的加速,並將該專用GPU無縫整合到分解式基礎架構中。輝達通過將GPU功能與上下文和生成工作負載相結合來最佳化推理。Rubin CPX GPU專為高效處理長序列而最佳化,旨在增強長上下文性能,補充現有基礎架構,提升吞吐量和響應速度,同時提供可擴展的效率,並最大化大規模生成式AI工作負載的投資回報率(ROI)。為了處理視訊,AI模型可能需要處理1小時內容中多達100萬個token,這挑戰了傳統GPU計算的極限。Rubin CPX將視訊解碼器和編碼器以及長上下文推理處理整合在單晶片中,為視訊搜尋和高品質生成視訊等應用提供了前所未有的功能。Rubin CPX將能夠運行NVIDIA Nemotron系列最新的多模態模型,為企業級AI agent提供最先進的推理能力。對於生產級AI,Nemotron模型可以通過NVIDIA AI Enterprise軟體平台交付。04. 結語:30~50倍投資回報率,每投資1億美元可帶來50億美元收益Vera Rubin NVL144 CPX採用輝達Quantum-X800 InfiniBand或Spectrum-X乙太網路,搭配ConnectX-9 SuperNIC並由Dynamo平台協調,旨在為下一波百萬token上下文AI推理工作負載提供支援,降低推理成本。在規模化營運下,該平台可實現30~50倍的投資回報率,相當於每1億美元的資本支出即可帶來高達50億美元的token收益。輝達稱這“為推理經濟學樹立了新的標竿”。Rubin CPX將使AI程式設計助手從簡單的程式碼生成工具轉變為能夠理解和最佳化大型軟體項目的複雜系統。知名的美國AI程式設計平台Cursor、AI視訊生成創企Runway、AI程式設計創企Magic等正在探索用Rubin CPX GPU加速他們的程式碼生成、複雜視訊生成等應用。 (芯東西)
剛剛,輝達推最強人形機器人“大腦”,AI性能暴漲7.5倍,算力飆到2070 TFLOPS
輝達將Blackwell GPU引入機器人“大腦”。地表最強機器人“大腦”,又易主了!智東西8月25日報導,今日,輝達推出專為物理AI和人形機器人打造的NVIDIA Jetson Thor,它被輝達創始人兼CEO黃仁勳稱作是“推動物理AI和通用機器人時代的終極超級電腦”。Jetson Thor採用輝達Blackwell GPU、14核Arm Neoverse CPU和128GB視訊記憶體,視訊記憶體頻寬為273 GB/s,FP4精度下AI峰值算力為2070 TFLOPS,FP8精度下AI峰值算力為1035 TFLOPS,可在邊緣加速生成式AI與大型Transformer模型。它支援包括VLA(視覺語言動作)模型、LLM(大語言模型)、VLM(視覺語言模型)在內的各種生成式AI模型,能處理即時視訊資料流和AI推理,適用於建構可在邊緣執行視覺搜尋和總結任務的AI agents。包括CPU、GPU、SLC、DRAM連接、網路、電源管理等在內,整個Jetson Thor電腦的功率可配置在40W到130W之間。借助4個25 GbE網路、攝影機解除安裝引擎和Holoscan感測器橋接器,Jetson Thor可提取高速感測器資料,實現即時性能。全新機器人晶片專攻的重點特性,就是運行多AI工作流,讓機器人能與人類和物理世界進行即時、智能的互動,推動視覺AI agents和複雜機器人系統的發展。與上一代Jetson Orin相比,Jetson Thor的AI計算性能提升多達7.5倍,能效提升多達3.5倍,CPU性能提升多達3.1倍,I/O吞吐量提升多達10倍。如果10年前相比,性能提升就更猛了——AI性能足足提高多達7000倍。Jetson Thor與機器人AI軟體平台搭配,支援各種主流AI框架,以及字節跳動、DeepSeek、阿里Qwen、GoogleGemini、Meta、Mistral AI、OpenAI、Physical Intelligence(π)等企業的生成式AI模型。它還與輝達從雲到邊緣的軟體棧完全相容,包括用於機器人模擬和開發的Isaac平台、Isaac GR00T人形機器人基礎模型、用於視覺AI的NVIDIA Metropolis和用於即時感測器處理的NVIDIA Holoscan等。機器人需要搭載豐富的感測器來感知世界,並實現低延時的AI處理。即時控制框架通常在100Hz-1kHz頻率上運行,感知與規劃通常在30Hz頻率上運行,高級推理通常在1-5Hz頻率上運行,就像人思考一樣,可能會想幾秒鐘。在平行處理16個感測器輸入時,運行Llama 3B和Qwen 2.5 VL 3B模型,Jetson Thor生成第一個token的時間在200ms內,輸出每token的時間在50ms內,這意味著運行這些模型可以每秒生成超過25個token,相較前代翻倍提升。Jetson Thor為通用推理而設計,運行阿里Qwen 3-30B-A3B、輝達Cosmos Reason 1 7B、DeepSeek-R1-Qwen-32B等推理模型時,FP8精度下性能已經提升多達3~5倍,FP4精度下更是猛躥一大截,最多提升至10倍。輝達CUDA生態系統中的軟體在Jetson整個生命周期中不斷最佳化。例如,在整個生命周期中,通過軟體升級將Xavier的性能提高了50%,將Orin的性能提高了100%。隨著未來軟體持續最佳化,Jetson Thor將實現更大幅度的性能提升。自2014年以來,輝達Jetson平台與機器人軟體棧吸引了200多萬開發者和150多個硬體系統、軟體和感測器合作夥伴組成的生態系統。7000多家客戶已採用Jetson Orin。眾擎機器人、銀河通用、優必選、宇樹科技等明星人形機器人公司,還有聯影醫療等醫療企業、萬集科技等智能交通企業,都已經率先採用Jetson Thor。輝達Jetson AGX Thor開發者套件現已上市,全球開售,起售價3499美元(約合人民幣2.50萬元)。Jetson T5000、Jetson T4000模組可從全球分銷合作夥伴處獲得。Jetson T5000起售價2999美元(約合人民幣2.15萬元),Jetson T4000起售價1999美元(約合人民幣1.43萬元)。具體規格如下:輝達DRIVE AGX Thor開髮套件是輝達為安全自動駕駛汽車設計的開發平台,已通過安全認證,同樣搭載了內建生成式AI引擎的Blackwell GPU,有豐富的SDK套件和庫。該開髮套件已經可以預訂。比亞迪、元戎啟行、廣汽、智己、理想、文遠知行、小米、極氪、卓御等領先的智能駕駛汽車企業都在積極擁抱DRIVE AGX Thor。面向人形機器人開發,輝達提供了基礎的系統、藍圖、工具、服務、演算法及其他機器人技術,與生態系統合作,為建構機器人產品並將其帶到現實世界的四個重要步驟(資料生成、模型訓練、模擬測試、部署推理)提供端到端完整工作流。輝達機器人業務正在快速增長。今年,輝達在財報中將汽車和機器人業務合併,第一季度收入為5.67億美元,同比增長72%。目前,輝達專注於為物理AI和機器人打造3台電腦,包括用於訓練模型的NVIDIA DGX AI超算、用於合成資料生成與模擬測試的NVIDIA OVX電腦以及安裝在機器人本體上的即時電腦(如Jetson Thor)。從感知AI、生成式AI、Agentic AI到面向未來的物理AI,輝達正將其計算疆域鋪滿AI的整個生命周期。 (智東西)