#性能
蘋果發佈兩款新 MacBook:AI 性能破紀錄,最強顯示器賣兩萬五
正如期待那樣,蘋果剛剛通過「官網直接上架」+「新聞稿」的方式,推出了最新的 M5 Pro/Max 款 MacBook Pro 和一大堆 Mac 更新。這次上新的 MacBook Pro 相比昨天發佈的「鬧人」iPhone 17e,讓人興奮的元素少了一些。畢竟它和愛范兒去年測試過的 M5 MacBook Pro 的唯一區別,就是處理器新增了 M5 Pro 和 M5 Max 兩種規格,除此之外幾乎再無變化。▲ 圖|Apple而這次的 M5 Pro 與 M5 Max 處理器,的確有一些可以讓人刮目相看的資質。M5 Pro/Max 相比標準版 M5,差異最大的自然是核心數量。根據愛范兒去年基於標準版 M5 處理器的評測,那怕僅僅 10+10 核心的 M5,在很多追求本地算力的應用中已經可以追平當年的「巨無霸」M1 Max 了。關聯閱讀:MacBook Pro M5 首發評測:蘋果最接近「遊戲本」的一次?而規模更大的 M5 Pro 與 M5 Max,毫無疑問將會成為 2026 年 Mac 家族中的性能標竿。目前我們看到,M5 Pro 的起步配置為 15 核 CPU + 16 核 GPU,最高可選配 18 核 CPU + 20 核 GPU 的組合:而 M5 Max 的核心配置則來到了 18 核 CPU + 32 核 GPU 起步、18 核 CPU + 40 核 GPU 封頂的規模。鑑於本次 N3P 工藝的進步,雙端性能再創新高不是夢:同時,本次 M5 家族的神經網路加速器規模同樣不容小覷。去年的標準版 M5 上,蘋果就為每顆 GPU 核心都內建了「新一代神經網路加速器」,讓 Msty Studio 和 VidHex 之類本地 AI 工具取得了不俗的效果:▲ 在 Msty Studio 中使用相同指令測試首詞元響應速度而相同的神經網路加速器應用到 M5 Pro 與 M5 Max 規模更加龐大的 GPU 核心之後,其在本地機器學習和 AI 加速方面的表現只會更加出色——根據蘋果的介紹,M5 Pro 在 LLM 提示詞處理工作中「相比 M1 Pro 可以實現 6.9 倍的提升」,M5 Max 則相比 M1 Max 實現了 6.6 倍的飛躍:同時我們也能看到,在程式碼編譯場景下,M5 Pro 不僅相比 M1 有接近 2.5 倍的提升,其表現甚至比 M4 Pro 都有了約 25% 的進步:這種進步幅度可不是單純堆砌 GPU 規模或者盲目提頻能夠實現的,台積電 N3P 工藝和改良過的架構設計在其中都功不可沒。同時,今年的 M5 Pro/Max 上還首次應用了一套「全新融合架構」,可以「將兩顆晶片整合到單個 Soc 中」——不出意料的話,這就是此前爆料中提到過的台積電 SoIC-MH 工藝,讓不同架構的處理器單元可以更靈活地在晶片上排布。MacBook Air:提速!此外,本次處理器升級的不止 MacBook Pro,大半年沒有更新的 MacBook Air 終於迎來了處理器升級。按照計畫,MacBook Air 從 M4 升級到了 M5,有 10+8 核與 10+10 核兩種規模,依然為 16、24 和 32GB 三款記憶體:最重要的好消息在於,這一代 MacBook Air 的硬碟起步配置來到了 512GB,價格 8499 元起(13 吋)。並且過去幾年「硬碟掉速」的問題終於得到了蘋果的重視,根據官網上的說法,「新版 MacBook Air 換用了新的 SSD」,讀寫速度提升了兩倍。蘋果顯示器:影分身!整整五年沒更新的 Studio Display 終於在這個春天得到了新生,並且還奪舍了自家大哥 Pro Display XDR——是的,你沒看錯,Pro Display XDR 沒有了,現在官網只剩下 Studio Display 和 Studio Display XDR:與預測的相同,新款用上了之前 CES 上 LG 展示的那塊高刷 5K 面板(或類似物),讓 Studio Display XDR 解鎖了 ProMotion 能力。只不過等級森嚴的傳統不能丟,雖然 Studio Display XDR 更新了 120Hz 更新頻率,但新 Studio Display 依然是 60Hz。但 5K 120Hz 絕不是個輕鬆的參數,以至於蘋果官網自己都要標明:搭載 M1、M1 Pro、M1 Max、M1 Ultra、M2 和 M3 晶片的 Mac 機型搭配 Studio Display XDR 使用時,更新頻率最高達 60Hz 。而在軟體方面,Studio Display XDR 還帶來了一樣新東西:DICOM 醫學影像校準。根據官網的介紹:Apple 發佈了全新的 DICOM 醫學影像預設和醫學影像校準器,使放射科醫生能夠直接在 Studio Display XDR 上查看診斷圖像,為單一用途的醫學影像顯示器提供了一種多功能替代方案,並支援無縫顯示模式切換。還記得醫院牆上那個用來看 CT 的背光板嗎?現在 Studio Display XDR 可以借助自己 2000 尼特的峰值 HDR 亮度來給醫生幫忙了:新版 Studio Display XDR 和 Studio Display 的起售價分別為 24,999 元和 11,999 元。儲存價格:還得漲!對於 2026 年那個逃不開的話題,新 Mac 產品家族的各項儲存規格也值得大家更密切的關注。以最具代表性的 MacBook Pro 來說,本次 M5 Pro/Max 處理器依然提供 24、36、48、64、128GB 共五種可選的記憶體規格。但與上代的 M4 Pro/Max 面臨的問題一樣,M5 Pro/Max 的記憶體依然是嚴重「叉著賣」的。換句話說,基礎 15+16 核心的 M5 Pro 只有 24 和 48GB 兩種規格可選。只想要 36GB 記憶體,就必須加一大堆錢升級到 M5 Max 才行。為了讓大家看得更直觀,我們製作了這個對照表來幫大家理解:相比劈叉的統一記憶體,新 MacBook Pro 的硬碟反而單純了許多,還是熟悉的 1TB、2TB、4TB、8TB 組合,以前的 512GB 選項被取消了:蘋果或許能夠在體量相對比較小的 iPhone 17e 上「加量不加價」。但對於 1TB 起步、8TB 封頂的 MacBook Pro 來說,儲存價格壓力依然不容小覷。比較好玩的是,目前蘋果官網的預購頁面上,仍然提供 Final Cut Pro 與 Logic Pro 的買斷制選項。在頂上,蘋果只用一行不起眼的小字列出了 Apple Creator Studio 服務:▲ 圖|Apple需要注意:根據蘋果此前的說法,通過 ACS 訂閱的那些工具軟體(包括創意工具和 iWork 三件套)和此前買斷的版本,後續在功能性和 AI 能力上會產生版本差異。如果你計畫後面三五年都持續使用蘋果創意全家桶的話,還是直接訂閱 Apple Creator Studio 更省事一些。▲ 圖|Apple考慮到 M5 Pro 和 M5 Max 是眼下整條 Mac 線中「無可爭議的性能之巔」,對於那些需要 MacBook Pro 出外勤去現場剪輯、臨時編譯、移動調色的「prosumer」來說,這個價格相比之前其實沒什麼大區別。也應了愛范兒之前的選購建議:明確需求,該買就買,買新不買舊。畢竟 MacBook Pro 作為一款工具屬性拉滿的產品,對於大多數人來說,如果你買它不是為了掙錢的話,那麼大機率是沒有必要買的。▲ 圖|AppleInsider同時記得關注愛范兒,我們將在後續為大家帶來 M5 Pro/Max 款 MacBook Pro,以及本次蘋果春季發佈會上其他重點新品的完整評測。 (愛范兒)
“黑色黃金”,重大突破!
還記得小說《三體》裡能將鋼鐵巨輪輕鬆切割的“飛刃”嗎?最近,中國科學院山西煤化所磨劍數十年,與有關單位聯合打造出國產T1000級高性能碳纖維,這是現實中應用性能最接近“飛刃”的超強材料。這根現實版“飛刃”是如何造出來的?又將撐起那些硬核未來?T1000級高性能碳纖維是如何造出來的?這種“地表超強材料”,目前已實現量產,它每一股有12000根單絲,單絲直徑不到頭髮絲的十分之一,卻抗拉強度極高。1米長的碳纖維只有0.5克重,抗拉強度超6600兆帕,能拉動約200公斤的重物也不會斷,是鋼材料的7到8倍。記者來到碳纖維誕生地的搖籃,看到化合物在這裡聚合之後,通過干噴濕紡的工藝,形成一束原絲。這束原絲看著像生活中常見的透明膠條,但其實它包含有4000根的原絲,兩到三束擰成一股,每一股最後就形成了12000根原絲。真正的“神力”,除了誕生之初的聚合,還有用化學反應在原子層面編織出精妙的強韌網路——白色的絲束被送進氧化爐,逐漸變成黃褐色。絲束被送進1000℃至1500℃的高溫爐,分子裡的氫、氧等雜質被徹底剝離,最後只留下高純度的碳原子。純碳材料就能成為超強材料嗎?生活中最常見的石墨鉛筆芯和T1000級碳纖維,本質上都由碳原子構成,但石墨鉛筆芯一掰就碎,T1000級碳纖維成束之後卻能拉動汽車,天差地別的根源,就在我們看不見的原子“編織”方式裡。在微觀紡織過程中,碳原子首先會連接成一張極其堅固的六邊形網——石墨烯片層。這種網本身非常堅固,但如果無數張這樣的網只是簡單地堆疊在一起,就會像一摞撲克牌,輕輕一推就散開。石墨鉛筆芯就是這種微觀結構,一掰就斷。而碳纖維的“紡織”工藝,要精妙得多,它就像是用分子膠水,把每一層都不規則地、牢牢黏合在一起,再整體壓實。最終形成一個既有縱向纖維、又有橫向鎖死的超級立體網路。所以,當我們拉扯這根碳纖維時,力量會沿著數以億計的碳原子網均勻分散。如今,這種被稱為“黑色黃金”的“地表超強材料”正在走出實驗室,成為航空航天、國防軍工、新能源、高端裝備等國家戰略性產業不可或缺的“核心骨架”。這根現實版“飛刃”未來也將撐起更多國之重器的騰飛夢想! (人民日報)
【CES 2026】老黃All in物理AI!最新GPU性能5倍提升,還砸掉了智駕門檻
剛剛,輝達CEO黃仁勳穿著鱷魚皮夾克,在全球最大消費電子展CES 2026上發佈AI新品。這是五年來,輝達首次來到CES卻沒有發遊戲顯示卡,態度很明確:全力搞AI。全力搞出來的結果也讓圍觀群眾直呼:競爭對手如何追上輝達?下一代Rubin架構GPU推理、訓練性能分別是Blackwell GB200的5倍和3.5倍(NVFP4資料格式)。除此之外,老黃還帶來了五大領域的全新發佈,包括:面向Agentic AI的NVIDIA Nemotron模型家族面向物理AI的NVIDIA Cosmos平台面向自動駕駛開發的全新NVIDIA Alpamayo模型家族面向機器人領域的NVIDIA Isaac GR00T面向生物醫學的NVIDIA Clara同時,輝達宣佈持續向社區開源訓練框架以及多模態資料集。其中資料集包括10兆語言訓練token、50萬條機器人軌跡資料、45.5萬個蛋白質結構、100TB車輛感測器資料。這次的核心主題,直指物理AI。用網友的話來說:這是輝達將護城河從晶片層進一步拓展到全端平台層(模型+資料+工具)的體現,通過這種方式可以持續拉動更多GPU與基礎設施投入,並顯著增強使用者與生態的鎖定。值得一提的是,咱國產開源模型又雙叒被cue到了。老黃在演講開篇便提及了DeepSeek,Kimi K2、Qwen也出現在PPT展示頁上。正式推出Vera Rubin NVL72老黃正式推出輝達下一代AI資料中心的機櫃架構Vera Rubin,披露架構細節。六大核心組件共同構成Vera Rubin NVL72機架:Vera CPU、Rubin GPU、NVLink 6 switch、ConnectX-9 SuperNIC、BlueField-4資料處理單元(DPU)、Spectrum-6 Ethernet switch。在NVFP4資料類型下,Rubin GPU推理性能可達50 PFLOPS,是Blackwell GB200的5倍;NVFP4訓練性能為35 PFLOPS,是Blackwell的3.5 倍。為支撐這些計算能力,每顆Rubin GPU封裝了8組HBM4記憶體,提供288GB容量和22 TB/s的頻寬。隨著主流大模型轉向MoE架構,模型得以相對高效地進行規模擴展。然而,這些專家模組之間的通訊,對節點間頻寬提出了極高要求。Vera Rubin引入了用於規模內擴展網路的NVLink 6。它將單GPU的互連頻寬提升至3.6 TB/s(雙向)。每顆NVLink 6交換晶片提供28 TB/s的頻寬,而每個Vera Rubin NVL72機架配備9顆這樣的交換晶片,總規模內頻寬達到260 TB/s。NVIDIA Vera CPU整合了88個定製的Olympus Arm核心,採用輝達稱為“spatial multi-threading”設計,最多可同時運行176個線程。用於將Vera CPU與Rubin GPU進行一致性連接的NVLink C2C互連,其頻寬提升了一倍,達到1.8 TB/s。每顆Vera CPU可定址最多1.5 TB的SOCAMM LPDDR5X記憶體,記憶體頻寬最高可達1.2 TB/s。為將Vera Rubin NVL72機架擴展為每組8個機架的DGX SuperPod,輝達推出了一對採用共封裝光學(CPO)的Spectrum-X乙太網路交換機,均基於Spectrum-6晶片建構。每顆Spectrum-6晶片提供102.4 Tb/s的頻寬,輝達基於該晶片推出了兩款交換機。SN688提供409.6 Tb/s的總頻寬,支援512個800G乙太網路連接埠或2048個200G連接埠。SN6810則提供102.4 Tb/s的頻寬,可配置為128 個800G或512個200G乙太網路連接埠。這兩款交換機均採用液冷設計,輝達表示,與不具備矽光子技術的硬體相比,它們在能效、可靠性和執行階段間方面表現更優。隨著上下文窗口擴展到數百萬token,輝達還指出,儲存AI模型互動歷史的鍵值快取(KV cache)相關操作,已成為推理性能的瓶頸。此前黃仁勳曾表態:沒有HBM,就沒有AI超算。為突破這一限制,輝達推出新硬體BlueField-4 DPU,建構了一個新的記憶體層級,稱為推理上下文記憶體儲存平台(Inference Context Memory Storage Platform)。輝達表示,這一儲存層旨在實現鍵值快取資料在AI基礎設施中的高效共享與復用,從而提升系統響應速度和吞吐能力,並實現Agentic AI架構可預測、能效友好的規模擴展。這是Vera Rubin首次將輝達的可信執行環境擴展至整個機架等級。整體來看,每個Vera Rubin NVL72機架可提供:3.6exaFLOPS的NVFP4推理性能2.5exaFLOPS的NVFP4訓練性能54 TB的LPDDR5X記憶體(連接至Vera CPU)20.7 TB的HBM4記憶體,頻寬達1.6 PB/s為保障機架系統的持續高效運行,輝達在機架層面引入了多項改進,包括無纜化模組托盤設計,使元件更換速度顯著快於此前的NVL72機架;增強的NVLink彈性能力,實現零停機維護;以及第二代RAS引擎,可在不中斷服務的情況下完成健康檢測。另外,輝達表示,與Blackwell相比,Vera Rubin在訓練MoE模型時所需的GPU數量僅為四分之一;在MoE推理場景下,其每token成本最高可降低10倍。反過來看,這也意味著Rubin能在相同機架空間內,大幅提升訓練吞吐量,並生成遠多於以往的token數量。據介紹,目前用於建構Vera Rubin NVL72所需的六類晶片已全部從晶圓廠交付,輝達預計將在2026年下半年啟動Vera Rubin NVL72的規模化量產。自動駕駛全新開源模型系列發佈再來看輝達重磅推出的全新開源模型系列——Alpamayo,面向安全推理的自動駕駛。全球首款開源、大規模的自動駕駛視覺-語言-行動(VLA)推理模型Alpamayo 1,參數100億。它能夠讓自動駕駛車輛理解周圍環境,並對自身的決策行為做出解釋。模型接收車輛自身的運動歷史資料、多攝影機採集的即時視訊畫面、使用者指令三類輸入資訊,然後進行推理,之後生成具體的駕駛決策、因果推理結果、規劃出的行駛軌跡。配套推出的還有一款開源模擬框架——AlpacaSim。它支援在各種不同的環境與邊緣場景中,對基於推理的自動駕駛模型進行閉環訓練與評估。此外,輝達還發佈了一個包含1700小時駕駛資料的開源資料集。這些資料採集於全球最廣泛的地理區域與環境條件下,涵蓋了推進推理架構發展所必需的罕見及複雜真實邊緣場景。落地方面,據介紹,Alpamayo將率先搭載於2025年第二季度歐洲上市的梅賽德斯-奔馳CLA車型,後續將通過OTA升級逐步推送高速公路脫手駕駛、城市全場景自動駕駛、端到端自動泊車等功能,並計畫登陸美國市場。輝達基於自身技術建構的全球L4級自動駕駛與Robotaxi生態系統全景也亮相了,通過連接軟體開發商、整車廠/出行平台、硬體供應商,覆蓋全產業鏈。Nemotron再推專項模型NVIDIA Nemotron在AI智能體領域的新拓展,核心是在已發佈的Nemotron 3開放模型與資料基礎上,進一步推出針對語音、RAG以及安全三大場景的專項模型。其中,Nemotron Speech包含新的自動語音識別(ASR)模型,不僅語音識別性能強,而且能支援即時字幕生成這樣的即時低延遲場景,速度比同類模型快10倍。輝達表示,目前博世已採用該模型實現司機與車輛之間的互動。Nemotron RAG則搭載新的視覺語言模型,能精準處理多語言、多模態資料,有效提升文件搜尋效率。Nemotron Safety系列模型專注於增強AI應用的安全性與可信度,具體包括支援更多語言的Llama Nemotron內容安全模型,以及高精度檢測敏感資料的Nemotron PII模型。機器人推理大腦Cosmos升級活動現場,老黃宣佈輝達為機器人推出的懂推理的“大腦”Cosmos再度升級。Cosmos主要被用來生成符合現實世界物理規律的合成資料,自發佈以來,已被Figure、Agility Robotics、通用汽車等一眾知名機器人和自動駕駛公司採用。這次全新發佈了:Cosmos Reason 2:一款全新的、排名領先的視覺-語言推理模型(VLM)。它能夠幫助機器人與AI智能體更精準地感知、理解並與物理世界進行互動。Cosmos Transfer 2.5與Cosmos Predict 2.5:兩款領先的模型,可在各種不同的環境與條件下,生成大規模的合成視訊。輝達還基於Cosmos模型,為各類物理AI應用推出了專用的開源模型與參考藍圖:Isaac GR00T N1.6:一款專為類人機器人打造的開源視覺-語言-行動(VLA)推理模型。它支援機器人的全身控制,並整合了輝達Cosmos Reason模型,以實現更強大的推理能力與上下文理解能力。NVIDIA AI Blueprint for Video Search and Summarization:作為輝達Metropolis平台的一部分,該藍圖提供了一套參考工作流,可用於建構視覺AI智能體。這些智能體能夠分析大量的錄播及直播視訊,從而提升營運效率並保障公共安全。據瞭解,Salesforce、Milestone、Hitachi、Uber、VAST Data、Encord等企業正採用Cosmos Reason模型,開發麵向交通與職場生產力提升的AI智能體。Franka Robotics、Humanoid和NEURA Robotics則利用Isaac GR00T模型,在機器人大規模量產前,對其全新行為進行模擬、訓練與驗證。針對醫療健康與生命科學的AINVIDIA Clara是專門針對醫療健康與生命科學領域的AI技術工具。核心目標是降低行業成本、加速治療方案落地,打通數字科研與實際醫療應用之間的壁壘。該系列中的多款專項模型各有側重:La-Proteina能設計原子級精度的大型蛋白質;ReaSyn v2在藥物發現階段就開始考慮“如何生產”的問題;KERMT可以預測潛在藥物進入人體後的反應,提前排查安全問題;RNAPro用來預測RNA分子複雜的3D結構,推進個性化醫療方案。模型之外,老黃表示輝達還將為研究者提供含45.5萬個合成蛋白質結構的資料集。總之,老黃的2026開年第一講,真是讓人眼花繚亂了…… (創業邦)
Google的TPU vs輝達的GPU
Google 的TPU (Tensor Processing Unit)與NVIDIA GPU (Graphics Processing Unit)的對決,本質上是“專用定製晶片 (ASIC)”與“通用平行計算晶片 (GPGPU)”之間的路線之爭。這也是目前 AI 硬體領域最核心的兩個流派。嘗試從架構、性能、生態、商業模式等維度的詳細對比分析:一、核心設計理念1. NVIDIA GPU:通用平行計算的王者出身:最初為圖形渲染(遊戲)設計,後來通過 CUDA 架構演進為通用平行計算硬體。設計邏輯:SIMT (Single Instruction, Multiple Threads)。GPU 擁有成千上萬個小的CUDA 核心,非常擅長處理大量平行的任務。特點:極其靈活。它不僅能算AI 矩陣,還能做科學計算、圖形渲染、挖礦等。代價:為了保持通用性,GPU保留了許多複雜的控制邏輯(如快取管理、分支預測),這佔用了晶片面積和功耗。2. Google TPU:極致的 AI 偏科生出身: Google 為瞭解決內部日益增長的 AI 負載(如搜尋、翻譯、AlphaGo)而專門自研的ASIC (專用積體電路)。設計邏輯:脈動陣列(Systolic Array)。這是 TPU 的靈魂。比喻:傳統的CPU/GPU 讀寫資料像“搬運工”一趟趟跑記憶體;TPU 的脈動陣列像“流水線”,資料一旦讀入,就在成千上萬個計算單元之間像心臟脈動一樣流動、復用,直到算完才寫回記憶體。特點:專注於矩陣乘法(Matrix Multiplication)。這是深度學習(Transformer、CNN)中 90% 以上的計算量。TPU 砍掉了所有與 AI 無關的功能(如光線追蹤、圖形輸出)。優勢:在同等工藝下,晶片面積利用率更高,能效比Performance/Watt)極高。二、架構與互聯 (Architecture & Interconnect)1. 視訊記憶體與頻寬 (HBM)NVIDIA:極其激進。H100/H200/B200幾乎壟斷了海力士最頂級的 HBM3e 產能。NVIDIA 的策略是“力大磚飛”,用極高的視訊記憶體頻寬來緩解“記憶體牆”問題。Google TPU:相對保守但夠用。TPU v4/v5p也使用 HBM,但更依賴其“脈動陣列”帶來的資料高復用率,從而降低對外部記憶體頻寬的依賴。2. 互聯技術 (Scaling) —— Google 的殺手鐧在大模型訓練中,單卡性能不再是唯一指標,叢集通訊效率才是瓶頸。NVIDIA (NVLink + InfiniBand): NVIDIA 建構了極其昂貴但高效的 NVLink Switch 和 InfiniBand 網路。這是一個“無阻塞”的胖樹架構,非常強悍,但成本極高,布線複雜。Google TPU (ICI + OCS):ICI (Inter-Chip Interconnect): TPU晶片自帶高速互聯介面,直接晶片連晶片(2D/3D Torus 環面網路),不需要昂貴的外部網路卡。OCS (光路交換): Google 引入了光開關技術,可以在幾秒鐘內動態重新配置幾千張 TPU 的拓撲結構。這讓 TPU 叢集(Pod)的擴展性極強,且成本遠低於 NVIDIA 的方案。三、軟體生態 (Software Ecosystem) —— NVIDIA 的護城河1. NVIDIA: CUDA (堅不可摧)現狀:CUDA 是 AI 界的“英語”。幾乎所有的 AI 框架(PyTorch, TensorFlow)都優先在 NVIDIA GPU 上開發和最佳化。優勢:開發者拿到程式碼,pip install 就能跑。遇到bug,StackOverflow 上有幾百萬條解決方案。靈活性:支援動態圖,容易偵錯,適合研究人員做實驗、改模型結構。2. Google: XLA (追趕者)現狀:TPU 必須通過XLA (Accelerated Linear Algebra)編譯器才能運行。框架:早期繫結TensorFlow,現在大力擁抱JAX和PyTorch/XLA。劣勢:靜態圖限制: TPU 需要先“編譯”整個計算圖才能跑。如果你的模型有大量動態控制流(if/else),TPU 會非常慢,甚至跑不起來。偵錯難:報錯資訊往往是晦澀的編譯器底層錯誤,社區資源遠少於 CUDA。優勢:一旦編譯通過,XLA可以做極深度的算子融合(Operator Fusion),運行效率極高。四、性能對比 (Performance)註:比較必須基於同代產品,如 H100 vs TPU v5p。單卡性能 (Raw Power):NVIDIA 勝。H100 的 FP8/FP16 峰值算力通常高於同期的 TPU。對於小規模、非標準模型,NVIDIA 更快。叢集性能 (Cluster Efficiency):互有勝負,Google     規模優勢大。在訓練 GPT-4      或 Gemini Ultra 這種萬卡等級的任務時,TPU v4/v5 的線性加速比 (Linear Scaling)非常好,甚至優於       GPU 叢集,因為 ICI 互聯更高效。TPU 的MFU (Model FLOPs Utilization,模型算力利用率)往往能做到 50%-60% 以上,而未最佳化的 GPU 叢集可能只有 30%-40%。推理性能 (Inference):NVIDIA 憑藉 TensorRT 最佳化,在低延遲推理上更有優勢。TPU v5e 專門針對推理最佳化,在大吞吐量(Throughput)場景下性價比極高。五、商業模式與可獲得性 (Availability)這是兩者最本質的區別:或許可以這樣理解:NVIDIA 是 AI 時代的“英特爾”,提供最強的通用算力,統治了從個人玩家到資料中心的所有角落;而 Google TPU 是 AI 時代的“蘋果”,軟硬一體,雖然封閉,但在自己的生態和超大規模領域內做到了極致的效率。 (陌上鑷爵爺)
華為這一突破,意義非同尋常
(一)關注中國科技,我們必須關注華為;關注華為,我們必然就看到這一突破。我的第一感覺,這個突破,意義非凡。對華為來說是這樣,對我們中國,對當今的世界,也有著不同尋常的意義。畢竟,未來的世界競爭,是算力的競爭,算力的基礎,一是電力,二是晶片。必須承認,在晶片上,我們還是有短板。我們已經在奮起直追,但種種的掣肘和封鎖,與世界最先進的晶片,還是有差距。華為找到了另一條路。那就是“超節點+叢集”。在9月18日的華為全聯接大會上,華為就發佈了兩款超節點產品。一個是 Atlas950,另一個是Atlas960。前者支援8192張昇騰卡,FP8算力達8EFLOPS,互聯頻寬16PB,較傳統架構性能提升17倍;後者更將卡規模拓展至15488張,算力、記憶體容量再翻倍。看不懂沒關係。簡單說吧,每一個超節點,就好像是大兵團作戰,能彌補單個晶片的不足,照樣成為“算力巨無霸”。真正的強者,並非天生擁有最強的資源,而是最善於將現有資源整合出最大效能。這裡面,不得不提一個不少朋友存在的認知誤區。即將AI算力等同於單顆晶片性能,認為“製程工藝落後就意味著算力不足”。是差距,我們肯定要承認;但有差距,我們也不是沒有辦法。因為事實上,算力是“晶片性能+架構設計+資源協同”的綜合結果。在當天發佈會的演講中,華為副董事長、輪值董事長徐直軍就說,“AI算力不等於晶片性能,單顆晶片性能的短板,可以通過‘超節點+叢集’方式解決,且實現更強的性能。同時,國內的電力基礎設施優勢,也很好地解決了算力用電問題。”從技術邏輯看,華為“超節點+叢集”方案,通過兩大突破實現“性能躍升”。其一,依託互聯協議“靈衢”破解協同難題。通過全端技術創新,實現2.1微秒超低時延、TB級超大頻寬傳輸,讓8192張甚至15488張晶片像“一台電腦”一樣協同工作,避免了傳統計算“卡間時延高、資料傳輸慢”的痛點。這正如古人所云:千人同心,則得千人之力;萬人異心,則無一人之用。其間的精髓,在於化個體之能為整體之勢。其二,中國“西電東送”“東數西算”工程已建構起完善的能源保障體系,“超節點+叢集”可部署在西部算力樞紐,利用清潔電力降低能耗成本,讓“算力跟著電力走、電力支撐算力轉”成為現實。事實上,華為當天發佈的兩款新產品,已經是全球最強算力超節點和叢集。這意味著,即便在單晶片製程受限的情況下,通過這種組合,中國AI算力仍能實現“彎道超車”,甚至建構起獨特的技術優勢。畢竟,就如同排兵佈陣,單兵優勢很重要,但起到決定性的作用,還是部隊的整體戰鬥力。(二)但我們是不是就可以彈冠慶賀了?遠遠沒到時候!必須看到,儘管“超節點+叢集”方案在技術層面實現了突破,但昇騰生態的發展,仍面臨與國際頭部廠商的“單芯性能有差距、生態有差距”的挑戰。請注意:生態!生態很重要,生態很關鍵,在生態上,我們可以大有作為。一項技術的偉大,不只在於它本身有多精密,更在於它能喚醒多少共鳴,連接多少夥伴,開創多少可能。徐直軍就強調:“晶片供應問題雖然一定程度上阻礙了昇騰生態發展,但生態的核心生命力在於‘使用’,只要大家心往一處想,都來使用,國內生態一定會發展起來。”只有這樣,才能形成“應用迭代→技術最佳化→生態完善”的正向循環,這也是中國AI生態破局的關鍵。這裡,必須要說一說靈衢。請注意:是靈衢,不是靈渠。所謂靈衢,就是將數量龐大的昇騰卡高效可靠地連接起來,使其在邏輯上能像一台電腦一樣工作。靈衢研究始於2019年,徐直軍介紹,名字就是取“九省通衢”的含義,希望實現大規模算力的聯通。基於靈衢 1.0的Atlas 900超節點,自2025年3月開始交付,已商用部署300多套。如今,華為團隊在靈衢1.0的基礎上繼續豐富功能、最佳化性能、提升規模,進一步完善協議,形成了靈衢2.0。生態為什麼重要?我看有文章是這樣介紹的:從實踐路徑看,“超節點+叢集”為生態共建提供了低門檻、高價值的平台。一方面,AIaaS(AI即服務)模式將大幅降低參與門檻。超節點叢集通過雲平台開放算力後,中小企業無需購置硬體,只需按需付費即可獲取兆級模型的訓練、推理能力,這將推動AI技術從“頭部企業專屬”走向“全行業可及”。例如,製造企業可借助超節點算力最佳化生產調度模型,醫療機構能快速部署影像診斷AI系統,這些場景的落地將為昇騰生態積累大量應用資料與案例。另一方面,靈衢互聯協議的開放也為產業鏈協同創造了條件。華為宣佈開放靈衢互聯協議技術規範,意味著上下游企業可基於該協議研發光模組、交換機、伺服器等配套產品,形成“超節點硬體+軟體工具鏈+行業解決方案”的完整產業鏈。這種“開放共建”的模式,既能避免“重複研發、資源浪費”,又能吸引晶片設計、演算法最佳化、行業應用等領域的夥伴加入,逐步建構起自主的AI生態體系,最終擺脫對外部生態的依賴。徐直軍就說,“用超節點架構以及支援超節點的靈衢互聯協議,打造超節點和叢集,來滿足中國無窮無盡的算力需求,這既是我們對自己的一個目標,又是對產業界的承諾,更是對國家的承諾。”請注意:承諾,對國家的承諾。他還說:“我們的路肯定不是輝達的路,現在大家都以輝達的視角看我們的路,不公平。但我們自己不能‘傻’。我們是短期痛苦,長期不痛苦。”“把這條路闖出來,把中國產業鏈拉動起來,這條路就成了路。算不上新範式,是被迫出來的範式,是被逼出來的偉大。”徐直軍說,“誰想做別人做過的事情呢?肯定想去開創未來的事情。”好一個被逼出來的偉大!(三)最後,怎麼看?還是粗淺三點吧。第一,華為真是不簡單。一個超級大國,舉全國之力,可以說無所不用之至,無所不用其極,對華為全面絞殺。但華為活了下來,而且活得很好,還有重大創新。我總覺得,一方面,這依靠一股勁。今年是抗戰勝利80周年,記得在華為食堂裡,曾貼過一張宣傳畫,一張讓人淚目的宣傳畫。那是二戰期間,美國記者攔住一名奔赴前線的中國士兵。美國記者:你多大了?中國士兵:16歲。美國記者:你覺得中國會勝利嗎?中國士兵:中國一定會勝利的。美國記者:當中國勝利後,你準備幹什麼?娶妻生子?還是繼續參軍?中國士兵笑了笑:那時候,我已經戰死沙場。平靜對話背後,是視死如歸的堅定。很悲壯,但必勝!但另一方面,還是相信科學,更有對創新的極致追求。困境如同砥石,弱者被其磨滅,強者卻將其磨礪成鋒。所以,直面我們的短板,華為創造性地提出“超節點+叢集”,在算力競爭中殺出一條血路。確實讓人刮目相看。第二,需要全國共同努力。科技競爭,畢竟不是簡單的企業競爭,更是國與國的競爭。華為即便有三頭六臂,光有一個華為,也是遠遠不夠的。需要更多機構更多企業加入進來,相互協作,共同創新,打造出一個自主的生態。這才能真正立於不敗之地。獨行快,眾行遠。一場技術的遠征,需要的不只是孤膽英雄,還要是整個軍團的前赴後繼。華為要努力,其他機構企業也要努力。當然,企業之間,肯定要有競爭,沒有競爭,就沒有進步。但這應該是良性的競爭,兄弟隙逾牆而外御其辱,相互促進,相互成就。第三,我們要冷靜要清醒。每一次突破,都像是暗夜中的一座燈塔,它不僅照亮了一段航程,更昭示著彼岸的方向,激勵著後來者前行。當然,前路漫漫,不排除風高浪急,乃至驚濤駭浪,我們還是要冷靜要清醒,要看到存在差距,更要有戰勝困難的自信。這又讓我想起華為的另一幅宣傳畫,一架二戰中滿是彈孔的伊爾-2飛機,在戰鬥中被打得像篩子一樣,但依然堅持飛行,最終安全飛回。就是那種置之死地而後生的勇氣:沒有傷痕纍纍,那來皮糙肉厚,英雄自古多磨難。相信市場的力量,相信科技的力量,相信開放的力量,企圖堵別人的路,最終只會堵死自己的路。這個世界,真的並不那麼美好。前幾天聽一位尊敬的專家型領導講課,他有句話,真是印象深刻——我們好人永遠不知道壞人究竟會有多壞。但這就是現實,殘酷的現實。一切還是要干,最終要靠實力來說話。理性與善意是航行的羅盤,但實力才是壓艙的條石。這個世界,要知道,所有打不死我們的,只會讓我們變得更加強大。 (牛彈琴)
輝達突然發佈新GPU!單機架AI性能暴漲6500%,100TB大記憶體,專攻長上下文推理
企業每投資1億美元,即可獲得50億美元的token收益。芯東西9月10日報導,昨晚,輝達又放AI計算大招,推出專為長上下文推理和視訊生成應用設計的新型專用GPU——NVIDIA Rubin CPX。輝達創始人兼CEO黃仁勳說:“正如RTX徹底改變了圖形和物理AI一樣,Rubin CPX是首款專為海量上下文AI打造的CUDA GPU,這種AI模型可以同時處理數百萬個知識token的推理。”Rubin CPX配備128GBGDDR7記憶體,NVFP4精度下AI算力可達30PFLOPS,非常適合運行長上下文處理(超過100萬個token)和視訊生成任務。Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速記憶體,記憶體頻寬達到1.7PB/s。其AI性能是輝達Vera Rubin NVL144平台的2倍多,是基於Blackwell Ultra的GB300 NVL72系統的7.5倍,相比GB300 NVL72系統還能提供3倍更快的注意力機制。Rubin CPX GPU預計將於2026年底上市。9月17日,智猩猩發起主辦的2025全球AI晶片峰會將在上海舉辦。大會設有主論壇,大模型AI晶片、AI晶片架構兩大專題論壇,以及存算一體、超節點與智算叢集兩大技術研討會,近40位嘉賓將分享和討論。IEEE Fellow王中風教授將開場,華為昇騰等國產AI晶片力量集結,華為雲、阿里雲領銜超節點與智算叢集勢力。掃碼報名~01. 全新專用GPU:128GB記憶體,30PFLOPS算力Rubin CPX基於NVIDIA Rubin架構建構,採用經濟高效的單晶片設計,配備128GB GDDR7記憶體,採用NVFP4精度,並經過最佳化,算力可達30PFLOPS,能夠為AI推理任務,尤其是長上下文處理(超過100萬個token)和視訊生成,提供了遠超現有系統的性能和token收益。與輝達GB300 NVL72系統相比,這款專用GPU還提供了3倍更快的注意力機制,從而提升了AI模型處理更長上下文序列的能力,而且速度不會降低。相比之下,今年3月發佈的Rubin GPU,在FP4精度下峰值推理能力為50PFLOPS。而輝達在今年6月才公佈創新型4位浮點格式NVFP4,這種格式的目標是在超低精度下力求保持模型性能。其分析表明,當使用訓練後量化(PTQ)將DeepSeek-R1-0528從原始FP8格式量化為NVFP4格式時,其在關鍵語言建模任務上的精準率下降幅度不超過1%。在AIME 2024中,NVFP4的精準率甚至提高了2%。Rubin CPX採用的GDDR7,價格比Rubin GPU配備的288GB HBM4高頻寬記憶體更便宜。02. 單機架AI性能達30EFLOPS,提供100TB快速記憶體、1.7PB/s記憶體頻寬Rubin CPX與全新NVIDIA Vera Rubin NVL144 CPX平台中的輝達Vera CPU和Rubin GPU協同工作,進行生成階段處理,形成一個完整的高性能分解式服務解決方案。Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速記憶體,記憶體頻寬達到1.7PB/s。其AI性能是輝達Vera Rubin NVL144平台的2倍多,是基於Blackwell Ultra的GB300 NVL72機架式系統的7.5倍。輝達還在周二分享了GB300 NVL72系統的基準測試結果,其DeepSeek-R1推理性能提升到上一代的1.4倍。該系統還創下MLPerf Inference v5.1套件中加入的所有新資料中心基準測試的記錄,包括Llama 3.1 405B Interactive、Llama 3.1 8B、Whisper的記錄。輝達計畫為希望重複使用現有Vera Rubin 144系統的客戶配備專用的Rubin CPX計算托盤(tray)。Rubin CPX提供多種配置,包括Vera Rubin NVL144 CPX,可與NVIDIA Quantum‑X800 InfiniBand橫向擴展計算架構或搭載輝達Spectrum-XGS乙太網路技術和ConnectX-9 SuperNIC的Spectrum-X乙太網路網路平台結合使用。輝達預計將推出一款雙機架產品,將Vera Rubin NVL144和Vera Rubin NVL144機架結合在一起,將快速記憶體容量提升至150TB。03. 為分解式推理最佳化而生,與輝達旗艦GPU搭配用這款全新的專用GPU,跟輝達之前發佈的旗艦GPU有什麼區別?據輝達資料中心產品總監Shar Narasimhan分享,Rubin CPX將作為輝達的專用GPU,用於上下文和預填充計算,從而顯著提升海量上下文AI應用的性能。原版Rubin GPU則負責生成和解碼計算。推理由兩個階段組成:上下文階段和生成階段。這兩個階段對基礎設施的要求截然不同。上下文階段受計算能力限制,需要高吞吐量處理來提取和分析大量輸入資料,最終生成第一個token輸出結果。生成階段受記憶體頻寬限制,依賴於快速記憶體傳輸和高速互連(如NVLink)來維持逐token輸出性能。分解式推理使這些階段能夠獨立處理,從而實現對計算和記憶體資源的有針對性的最佳化。這種架構轉變可提高吞吐量,降低延遲,並提升整體資源利用率。但分解會帶來新的複雜性,需要在低延遲鍵值快取傳輸、大語言模型感知路由和高效記憶體管理之間進行精確協調。輝達打造Rubin CPX GPU,就是為了在計算密集型長上下文階段實現專業的加速,並將該專用GPU無縫整合到分解式基礎架構中。輝達通過將GPU功能與上下文和生成工作負載相結合來最佳化推理。Rubin CPX GPU專為高效處理長序列而最佳化,旨在增強長上下文性能,補充現有基礎架構,提升吞吐量和響應速度,同時提供可擴展的效率,並最大化大規模生成式AI工作負載的投資回報率(ROI)。為了處理視訊,AI模型可能需要處理1小時內容中多達100萬個token,這挑戰了傳統GPU計算的極限。Rubin CPX將視訊解碼器和編碼器以及長上下文推理處理整合在單晶片中,為視訊搜尋和高品質生成視訊等應用提供了前所未有的功能。Rubin CPX將能夠運行NVIDIA Nemotron系列最新的多模態模型,為企業級AI agent提供最先進的推理能力。對於生產級AI,Nemotron模型可以通過NVIDIA AI Enterprise軟體平台交付。04. 結語:30~50倍投資回報率,每投資1億美元可帶來50億美元收益Vera Rubin NVL144 CPX採用輝達Quantum-X800 InfiniBand或Spectrum-X乙太網路,搭配ConnectX-9 SuperNIC並由Dynamo平台協調,旨在為下一波百萬token上下文AI推理工作負載提供支援,降低推理成本。在規模化營運下,該平台可實現30~50倍的投資回報率,相當於每1億美元的資本支出即可帶來高達50億美元的token收益。輝達稱這“為推理經濟學樹立了新的標竿”。Rubin CPX將使AI程式設計助手從簡單的程式碼生成工具轉變為能夠理解和最佳化大型軟體項目的複雜系統。知名的美國AI程式設計平台Cursor、AI視訊生成創企Runway、AI程式設計創企Magic等正在探索用Rubin CPX GPU加速他們的程式碼生成、複雜視訊生成等應用。 (芯東西)
輝達"五虎將"內戰!中國特供B30A逆襲H100,算力分配暗藏玄機
在高性能計算(HPC)與人工智慧(AI)領域,NVIDIA GPU 長期扮演技術推動者角色,其產品迭代直接定義行業算力天花板。近期有知情人士披露,NVIDIA 正針對中國市場開發一款基於最新 Blackwell 架構的 AI 晶片(暫定名 B30A),性能優於當前獲准在華銷售的 HGX H20,且採用單晶片設計以平衡合規性與算力需求。本文將圍繞 B30A(傳聞)、HGX H20、H100、B200、B300(Ultra)五款 GPU,看看這“五虎將”在架構、性能、記憶體、封裝和應用場景上,到底誰才是你的“真命天卡”。架構設計從 Ampere 到 Blackwell 的兩代技術躍遷GPU 架構是決定算力密度、能效比與場景適配性的核心,五款產品分屬兩代技術體系,差異顯著:1. 前代架構(Ampere/Hopper):中高端算力的 “基石”● Ampere 架構(HGX H20):通過引入第 2 代 Tensor Core(支援 TF32 精度),實現 AI 推理 / 訓練效率的翻倍提升,同時最佳化 FP32 高精度計算性能,成為資料中心 “通用型算力” 的主流選擇,目前廣泛應用於企業級 AI 部署與中小規模科學計算。● Hopper 架構(H100):核心升級在於支援 FP8 精度(AI 效率提升 4 倍)與 DPX 指令集(FP64 性能較 Ampere 提升 3 倍),同時引入 NVLink 4.0 技術強化多卡互聯能力,是當前 HPC(如量子化學、流體力學)與高端 AI 訓練(千億參數大模型)的 “標竿產品”。2. 最新架構(Blackwell):AI 與 HPC 融合的 “新引擎”B30A(傳聞)、B200、B300(Ultra)均基於 Blackwell 架構,該架構針對 “AI 大模型 + 高精度計算” 融合場景設計,核心最佳化包括:● Blackwell Ultra 微架構:提升指令平行性,單核心算力密度較 Hopper 提升 2 倍;● 多精度計算統一調度:原生支援 FP4/FP8/FP16/BF16/FP32/FP64 全精度,無需軟體適配即可切換場景;● 設計差異:B30A 採用單晶片(single-die)方案(核心電路整合於單矽晶圓),性能約為多晶片 B300 的 50%,以滿足特定市場出口管制要求;B200、B300(Ultra)採用 Chiplet 多晶片整合設計,通過堆疊 8 個計算核心(B200)/12 個計算核心(B300 Ultra),實現算力密度的指數級提升。性能表現多精度計算的場景適配邏輯GPU 性能需結合 “計算精度” 分析,不同精度對應不同應用場景(低精度側重 AI 效率,高精度側重計算準確性),五款產品的性能分化明確:註:FP4/FP8 為低精度(AI 效率最佳化),BF16 為平衡精度(AI 性能與精準性兼顧),FP32/FP64 為高精度(科學計算準確性優先)B30A:雖然在FP64高精度這種“科研級任務”上可能拼不過H100或B300 Ultra,但在FP8/INT6和BF16這類AI常用的“經濟適用型精度”上,表現相當亮眼!特別適合中等規模的AI項目,效率高還省錢。HGX H20:在低精度計算上比較“低調”,但FP32高精度計算是它的拿手好戲,穩坐資料中心科學計算和複雜AI模型的“實力派”交椅。H100:作為前任旗艦,它屬於“全能ACE”,FP64精度和Tensor Core性能尤其突出,依然是高性能計算和AI應用的“安全牌”。B200 & B300 (Ultra):這倆兄弟直接把多精度計算能力“捅破了天花板”!B200在FP4, FP8/INT6, BF16上猛得不行,是大規模AI訓練和推理的“推土機”。B300 Ultra更誇張,尤其在FP4和FP8/INT6上,算力高到令人髮指,妥妥的“算力巨無霸”,專啃最複雜的計算任務。記憶體與頻寬算力釋放的關鍵瓶頸突破記憶體容量決定 GPU 單次可處理資料量,頻寬決定資料傳輸速度,二者共同影響大規模任務的效率,五款產品的配置差異直接對應場景需求:技術註解:HBM3E 較前代 HBM3 頻寬提升 30%、延遲降低 15%,通過 3D 堆疊技術實現 “高容量 + 高頻寬” 雙重優勢,是 Blackwell 架構的核心記憶體技術。B30A:配備了144GB HBM3E + 4TB/s頻寬,中等規模AI項目完全Hold住,記憶體這塊誠意十足。HGX H20:96GB HBM3E + 4TB/s頻寬,容量稍遜B30A,但高精度計算依然穩。H100:80GB HBM3 + 3.35TB/s頻寬,容量頻寬均衡,高精度任務好搭檔。B200 & B300 (Ultra):這倆直接開啟“怪獸模式”!B200: 192GB HBM3E + 8TB/s頻寬;B300 Ultra: 288GB HBM3E + 8TB/s頻寬。處理超大規模資料?小菜一碟!計算效率飆升就靠它們。封裝技術成本與性能的平衡藝術封裝技術決定晶片整合度、散熱效率與量產成本,五款產品的封裝方案差異體現了 “場景 - 成本” 的精準匹配:行業資料:CoWoS-L 封裝的量產成本較 CoWoS-S 高 40%~60%,但可實現 2 倍以上的算力密度提升,適合對性能有極致需求的場景。B30A, HGX H20, H100: 都選擇了CoWoS-S封裝。這種技術成熟可靠,特別適合單晶片設計,在成本和性能間拿捏得恰到好處,是資料中心的“經濟適用型包裝”。B200 & B300 (Ultra): 升級到CoWoS-L封裝!這技術專為多晶片和超大尺寸、超多記憶體模組設計,性能上限更高。當然,“豪華包裝”也意味著成本蹭蹭漲。應用場景與選型建議這麼多牛卡,選那張?得看你要幹啥活兒:● B30A:瞄準特定市場(如中國),專為AI訓練/推理最佳化。性能和記憶體適中,是中等規模AI項目的“經濟適用型男友”。● HGX H20:資料中心“老黃牛”,擅長大規模平行計算,科學計算和複雜AI模型也能搞定。● H100:曾經的“一哥”,高性能計算和高精度AI任務(如科研、深度學)選它準沒錯,屬於“穩字當頭”的選擇。● B200:大規模AI訓練/推理的“超級推土機”,算力頻寬雙高,專為處理海量資料而生。● B300 (Ultra):站在目前算力金字塔尖的“究極體”,專治各種不服,最複雜的科學計算和深度學習任務,交給它就對(預算充足的話)。總結:按需索“卡”,豐儉由人,認清需求,量“財”而行!NVIDIA這“五虎將”各有絕活:B30A(傳聞)是中等AI項目的“甜點卡”;HGX H20是高精度計算的“實力派”;H100是全能穩健的“前浪旗艦”;B200是推土機般的“訓練猛獸”;B300 Ultra則是碾壓一切的“算力天花板”。NVIDIA 五款 GPU 的差異,本質是 “技術迭代 + 場景細分” 的結果:從 Ampere 到 Blackwell 的架構升級,體現了 “AI 算力效率優先” 的行業趨勢;記憶體與封裝的分層設計,則為不同規模、不同預算的使用者提供了精準選擇。核心選型邏輯是 “場景匹配”,不存在 “絕對最優” 的 GPU,只有 “最適配任務需求” 的產品。希望本文的分析能幫助你避開 “參數陷阱”,實現算力資源的高效利用。 (3DSTOR硬體資訊)
剛剛,輝達推最強人形機器人“大腦”,AI性能暴漲7.5倍,算力飆到2070 TFLOPS
輝達將Blackwell GPU引入機器人“大腦”。地表最強機器人“大腦”,又易主了!智東西8月25日報導,今日,輝達推出專為物理AI和人形機器人打造的NVIDIA Jetson Thor,它被輝達創始人兼CEO黃仁勳稱作是“推動物理AI和通用機器人時代的終極超級電腦”。Jetson Thor採用輝達Blackwell GPU、14核Arm Neoverse CPU和128GB視訊記憶體,視訊記憶體頻寬為273 GB/s,FP4精度下AI峰值算力為2070 TFLOPS,FP8精度下AI峰值算力為1035 TFLOPS,可在邊緣加速生成式AI與大型Transformer模型。它支援包括VLA(視覺語言動作)模型、LLM(大語言模型)、VLM(視覺語言模型)在內的各種生成式AI模型,能處理即時視訊資料流和AI推理,適用於建構可在邊緣執行視覺搜尋和總結任務的AI agents。包括CPU、GPU、SLC、DRAM連接、網路、電源管理等在內,整個Jetson Thor電腦的功率可配置在40W到130W之間。借助4個25 GbE網路、攝影機解除安裝引擎和Holoscan感測器橋接器,Jetson Thor可提取高速感測器資料,實現即時性能。全新機器人晶片專攻的重點特性,就是運行多AI工作流,讓機器人能與人類和物理世界進行即時、智能的互動,推動視覺AI agents和複雜機器人系統的發展。與上一代Jetson Orin相比,Jetson Thor的AI計算性能提升多達7.5倍,能效提升多達3.5倍,CPU性能提升多達3.1倍,I/O吞吐量提升多達10倍。如果10年前相比,性能提升就更猛了——AI性能足足提高多達7000倍。Jetson Thor與機器人AI軟體平台搭配,支援各種主流AI框架,以及字節跳動、DeepSeek、阿里Qwen、GoogleGemini、Meta、Mistral AI、OpenAI、Physical Intelligence(π)等企業的生成式AI模型。它還與輝達從雲到邊緣的軟體棧完全相容,包括用於機器人模擬和開發的Isaac平台、Isaac GR00T人形機器人基礎模型、用於視覺AI的NVIDIA Metropolis和用於即時感測器處理的NVIDIA Holoscan等。機器人需要搭載豐富的感測器來感知世界,並實現低延時的AI處理。即時控制框架通常在100Hz-1kHz頻率上運行,感知與規劃通常在30Hz頻率上運行,高級推理通常在1-5Hz頻率上運行,就像人思考一樣,可能會想幾秒鐘。在平行處理16個感測器輸入時,運行Llama 3B和Qwen 2.5 VL 3B模型,Jetson Thor生成第一個token的時間在200ms內,輸出每token的時間在50ms內,這意味著運行這些模型可以每秒生成超過25個token,相較前代翻倍提升。Jetson Thor為通用推理而設計,運行阿里Qwen 3-30B-A3B、輝達Cosmos Reason 1 7B、DeepSeek-R1-Qwen-32B等推理模型時,FP8精度下性能已經提升多達3~5倍,FP4精度下更是猛躥一大截,最多提升至10倍。輝達CUDA生態系統中的軟體在Jetson整個生命周期中不斷最佳化。例如,在整個生命周期中,通過軟體升級將Xavier的性能提高了50%,將Orin的性能提高了100%。隨著未來軟體持續最佳化,Jetson Thor將實現更大幅度的性能提升。自2014年以來,輝達Jetson平台與機器人軟體棧吸引了200多萬開發者和150多個硬體系統、軟體和感測器合作夥伴組成的生態系統。7000多家客戶已採用Jetson Orin。眾擎機器人、銀河通用、優必選、宇樹科技等明星人形機器人公司,還有聯影醫療等醫療企業、萬集科技等智能交通企業,都已經率先採用Jetson Thor。輝達Jetson AGX Thor開發者套件現已上市,全球開售,起售價3499美元(約合人民幣2.50萬元)。Jetson T5000、Jetson T4000模組可從全球分銷合作夥伴處獲得。Jetson T5000起售價2999美元(約合人民幣2.15萬元),Jetson T4000起售價1999美元(約合人民幣1.43萬元)。具體規格如下:輝達DRIVE AGX Thor開髮套件是輝達為安全自動駕駛汽車設計的開發平台,已通過安全認證,同樣搭載了內建生成式AI引擎的Blackwell GPU,有豐富的SDK套件和庫。該開髮套件已經可以預訂。比亞迪、元戎啟行、廣汽、智己、理想、文遠知行、小米、極氪、卓御等領先的智能駕駛汽車企業都在積極擁抱DRIVE AGX Thor。面向人形機器人開發,輝達提供了基礎的系統、藍圖、工具、服務、演算法及其他機器人技術,與生態系統合作,為建構機器人產品並將其帶到現實世界的四個重要步驟(資料生成、模型訓練、模擬測試、部署推理)提供端到端完整工作流。輝達機器人業務正在快速增長。今年,輝達在財報中將汽車和機器人業務合併,第一季度收入為5.67億美元,同比增長72%。目前,輝達專注於為物理AI和機器人打造3台電腦,包括用於訓練模型的NVIDIA DGX AI超算、用於合成資料生成與模擬測試的NVIDIA OVX電腦以及安裝在機器人本體上的即時電腦(如Jetson Thor)。從感知AI、生成式AI、Agentic AI到面向未來的物理AI,輝達正將其計算疆域鋪滿AI的整個生命周期。 (智東西)