#AI性能 | 熱門關鍵字 | 鉅亨號

正如期待那樣，蘋果剛剛通過「官網直接上架」+「新聞稿」的方式，推出了最新的 M5 Pro/Max 款 MacBook Pro 和一大堆 Mac 更新。這次上新的 MacBook Pro 相比昨天發佈的「鬧人」iPhone 17e，讓人興奮的元素少了一些。畢竟它和愛范兒去年測試過的 M5 MacBook Pro 的唯一區別，就是處理器新增了 M5 Pro 和 M5 Max 兩種規格，除此之外幾乎再無變化。▲ 圖｜Apple而這次的 M5 Pro 與 M5 Max 處理器，的確有一些可以讓人刮目相看的資質。M5 Pro/Max 相比標準版 M5，差異最大的自然是核心數量。根據愛范兒去年基於標準版 M5 處理器的評測，那怕僅僅 10+10 核心的 M5，在很多追求本地算力的應用中已經可以追平當年的「巨無霸」M1 Max 了。關聯閱讀：MacBook Pro M5 首發評測：蘋果最接近「遊戲本」的一次？而規模更大的 M5 Pro 與 M5 Max，毫無疑問將會成為 2026 年 Mac 家族中的性能標竿。目前我們看到，M5 Pro 的起步配置為 15 核 CPU + 16 核 GPU，最高可選配 18 核 CPU + 20 核 GPU 的組合：而 M5 Max 的核心配置則來到了 18 核 CPU + 32 核 GPU 起步、18 核 CPU + 40 核 GPU 封頂的規模。鑑於本次 N3P 工藝的進步，雙端性能再創新高不是夢：同時，本次 M5 家族的神經網路加速器規模同樣不容小覷。去年的標準版 M5 上，蘋果就為每顆 GPU 核心都內建了「新一代神經網路加速器」，讓 Msty Studio 和 VidHex 之類本地 AI 工具取得了不俗的效果：▲ 在 Msty Studio 中使用相同指令測試首詞元響應速度而相同的神經網路加速器應用到 M5 Pro 與 M5 Max 規模更加龐大的 GPU 核心之後，其在本地機器學習和 AI 加速方面的表現只會更加出色——根據蘋果的介紹，M5 Pro 在 LLM 提示詞處理工作中「相比 M1 Pro 可以實現 6.9 倍的提升」，M5 Max 則相比 M1 Max 實現了 6.6 倍的飛躍：同時我們也能看到，在程式碼編譯場景下，M5 Pro 不僅相比 M1 有接近 2.5 倍的提升，其表現甚至比 M4 Pro 都有了約 25% 的進步：這種進步幅度可不是單純堆砌 GPU 規模或者盲目提頻能夠實現的，台積電 N3P 工藝和改良過的架構設計在其中都功不可沒。同時，今年的 M5 Pro/Max 上還首次應用了一套「全新融合架構」，可以「將兩顆晶片整合到單個 Soc 中」——不出意料的話，這就是此前爆料中提到過的台積電 SoIC-MH 工藝，讓不同架構的處理器單元可以更靈活地在晶片上排布。MacBook Air：提速！此外，本次處理器升級的不止 MacBook Pro，大半年沒有更新的 MacBook Air 終於迎來了處理器升級。按照計畫，MacBook Air 從 M4 升級到了 M5，有 10+8 核與 10+10 核兩種規模，依然為 16、24 和 32GB 三款記憶體：最重要的好消息在於，這一代 MacBook Air 的硬碟起步配置來到了 512GB，價格 8499 元起（13 吋）。並且過去幾年「硬碟掉速」的問題終於得到了蘋果的重視，根據官網上的說法，「新版 MacBook Air 換用了新的 SSD」，讀寫速度提升了兩倍。蘋果顯示器：影分身！整整五年沒更新的 Studio Display 終於在這個春天得到了新生，並且還奪舍了自家大哥 Pro Display XDR——是的，你沒看錯，Pro Display XDR 沒有了，現在官網只剩下 Studio Display 和 Studio Display XDR：與預測的相同，新款用上了之前 CES 上 LG 展示的那塊高刷 5K 面板（或類似物），讓 Studio Display XDR 解鎖了 ProMotion 能力。只不過等級森嚴的傳統不能丟，雖然 Studio Display XDR 更新了 120Hz 更新頻率，但新 Studio Display 依然是 60Hz。但 5K 120Hz 絕不是個輕鬆的參數，以至於蘋果官網自己都要標明：搭載 M1、M1 Pro、M1 Max、M1 Ultra、M2 和 M3 晶片的 Mac 機型搭配 Studio Display XDR 使用時，更新頻率最高達 60Hz 。而在軟體方面，Studio Display XDR 還帶來了一樣新東西：DICOM 醫學影像校準。根據官網的介紹：Apple 發佈了全新的 DICOM 醫學影像預設和醫學影像校準器，使放射科醫生能夠直接在 Studio Display XDR 上查看診斷圖像，為單一用途的醫學影像顯示器提供了一種多功能替代方案，並支援無縫顯示模式切換。還記得醫院牆上那個用來看 CT 的背光板嗎？現在 Studio Display XDR 可以借助自己 2000 尼特的峰值 HDR 亮度來給醫生幫忙了：新版 Studio Display XDR 和 Studio Display 的起售價分別為 24,999 元和 11,999 元。儲存價格：還得漲！對於 2026 年那個逃不開的話題，新 Mac 產品家族的各項儲存規格也值得大家更密切的關注。以最具代表性的 MacBook Pro 來說，本次 M5 Pro/Max 處理器依然提供 24、36、48、64、128GB 共五種可選的記憶體規格。但與上代的 M4 Pro/Max 面臨的問題一樣，M5 Pro/Max 的記憶體依然是嚴重「叉著賣」的。換句話說，基礎 15+16 核心的 M5 Pro 只有 24 和 48GB 兩種規格可選。只想要 36GB 記憶體，就必須加一大堆錢升級到 M5 Max 才行。為了讓大家看得更直觀，我們製作了這個對照表來幫大家理解：相比劈叉的統一記憶體，新 MacBook Pro 的硬碟反而單純了許多，還是熟悉的 1TB、2TB、4TB、8TB 組合，以前的 512GB 選項被取消了：蘋果或許能夠在體量相對比較小的 iPhone 17e 上「加量不加價」。但對於 1TB 起步、8TB 封頂的 MacBook Pro 來說，儲存價格壓力依然不容小覷。比較好玩的是，目前蘋果官網的預購頁面上，仍然提供 Final Cut Pro 與 Logic Pro 的買斷制選項。在頂上，蘋果只用一行不起眼的小字列出了 Apple Creator Studio 服務：▲ 圖｜Apple需要注意：根據蘋果此前的說法，通過 ACS 訂閱的那些工具軟體（包括創意工具和 iWork 三件套）和此前買斷的版本，後續在功能性和 AI 能力上會產生版本差異。如果你計畫後面三五年都持續使用蘋果創意全家桶的話，還是直接訂閱 Apple Creator Studio 更省事一些。▲ 圖｜Apple考慮到 M5 Pro 和 M5 Max 是眼下整條 Mac 線中「無可爭議的性能之巔」，對於那些需要 MacBook Pro 出外勤去現場剪輯、臨時編譯、移動調色的「prosumer」來說，這個價格相比之前其實沒什麼大區別。也應了愛范兒之前的選購建議：明確需求，該買就買，買新不買舊。畢竟 MacBook Pro 作為一款工具屬性拉滿的產品，對於大多數人來說，如果你買它不是為了掙錢的話，那麼大機率是沒有必要買的。▲ 圖｜AppleInsider同時記得關注愛范兒，我們將在後續為大家帶來 M5 Pro/Max 款 MacBook Pro，以及本次蘋果春季發佈會上其他重點新品的完整評測。 (愛范兒)

2025/09/10

•

輝達突然發佈新GPU！單機架AI性能暴漲6500%，100TB大記憶體，專攻長上下文推理

企業每投資1億美元，即可獲得50億美元的token收益。芯東西9月10日報導，昨晚，輝達又放AI計算大招，推出專為長上下文推理和視訊生成應用設計的新型專用GPU——NVIDIA Rubin CPX。輝達創始人兼CEO黃仁勳說：“正如RTX徹底改變了圖形和物理AI一樣，Rubin CPX是首款專為海量上下文AI打造的CUDA GPU，這種AI模型可以同時處理數百萬個知識token的推理。”Rubin CPX配備128GBGDDR7記憶體，NVFP4精度下AI算力可達30PFLOPS，非常適合運行長上下文處理（超過100萬個token）和視訊生成任務。Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU，提供8EFLOPS的AI性能（NVFP4精度）和100TB的快速記憶體，記憶體頻寬達到1.7PB/s。其AI性能是輝達Vera Rubin NVL144平台的2倍多，是基於Blackwell Ultra的GB300 NVL72系統的7.5倍，相比GB300 NVL72系統還能提供3倍更快的注意力機制。Rubin CPX GPU預計將於2026年底上市。9月17日，智猩猩發起主辦的2025全球AI晶片峰會將在上海舉辦。大會設有主論壇，大模型AI晶片、AI晶片架構兩大專題論壇，以及存算一體、超節點與智算叢集兩大技術研討會，近40位嘉賓將分享和討論。IEEE Fellow王中風教授將開場，華為昇騰等國產AI晶片力量集結，華為雲、阿里雲領銜超節點與智算叢集勢力。掃碼報名~01. 全新專用GPU：128GB記憶體，30PFLOPS算力Rubin CPX基於NVIDIA Rubin架構建構，採用經濟高效的單晶片設計，配備128GB GDDR7記憶體，採用NVFP4精度，並經過最佳化，算力可達30PFLOPS，能夠為AI推理任務，尤其是長上下文處理（超過100萬個token）和視訊生成，提供了遠超現有系統的性能和token收益。與輝達GB300 NVL72系統相比，這款專用GPU還提供了3倍更快的注意力機制，從而提升了AI模型處理更長上下文序列的能力，而且速度不會降低。相比之下，今年3月發佈的Rubin GPU，在FP4精度下峰值推理能力為50PFLOPS。而輝達在今年6月才公佈創新型4位浮點格式NVFP4，這種格式的目標是在超低精度下力求保持模型性能。其分析表明，當使用訓練後量化（PTQ）將DeepSeek-R1-0528從原始FP8格式量化為NVFP4格式時，其在關鍵語言建模任務上的精準率下降幅度不超過1%。在AIME 2024中，NVFP4的精準率甚至提高了2%。Rubin CPX採用的GDDR7，價格比Rubin GPU配備的288GB HBM4高頻寬記憶體更便宜。02. 單機架AI性能達30EFLOPS，提供100TB快速記憶體、1.7PB/s記憶體頻寬Rubin CPX與全新NVIDIA Vera Rubin NVL144 CPX平台中的輝達Vera CPU和Rubin GPU協同工作，進行生成階段處理，形成一個完整的高性能分解式服務解決方案。Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU，提供8EFLOPS的AI性能（NVFP4精度）和100TB的快速記憶體，記憶體頻寬達到1.7PB/s。其AI性能是輝達Vera Rubin NVL144平台的2倍多，是基於Blackwell Ultra的GB300 NVL72機架式系統的7.5倍。輝達還在周二分享了GB300 NVL72系統的基準測試結果，其DeepSeek-R1推理性能提升到上一代的1.4倍。該系統還創下MLPerf Inference v5.1套件中加入的所有新資料中心基準測試的記錄，包括Llama 3.1 405B Interactive、Llama 3.1 8B、Whisper的記錄。輝達計畫為希望重複使用現有Vera Rubin 144系統的客戶配備專用的Rubin CPX計算托盤（tray）。Rubin CPX提供多種配置，包括Vera Rubin NVL144 CPX，可與NVIDIA Quantum‑X800 InfiniBand橫向擴展計算架構或搭載輝達Spectrum-XGS乙太網路技術和ConnectX-9 SuperNIC的Spectrum-X乙太網路網路平台結合使用。輝達預計將推出一款雙機架產品，將Vera Rubin NVL144和Vera Rubin NVL144機架結合在一起，將快速記憶體容量提升至150TB。03. 為分解式推理最佳化而生，與輝達旗艦GPU搭配用這款全新的專用GPU，跟輝達之前發佈的旗艦GPU有什麼區別？據輝達資料中心產品總監Shar Narasimhan分享，Rubin CPX將作為輝達的專用GPU，用於上下文和預填充計算，從而顯著提升海量上下文AI應用的性能。原版Rubin GPU則負責生成和解碼計算。推理由兩個階段組成：上下文階段和生成階段。這兩個階段對基礎設施的要求截然不同。上下文階段受計算能力限制，需要高吞吐量處理來提取和分析大量輸入資料，最終生成第一個token輸出結果。生成階段受記憶體頻寬限制，依賴於快速記憶體傳輸和高速互連（如NVLink）來維持逐token輸出性能。分解式推理使這些階段能夠獨立處理，從而實現對計算和記憶體資源的有針對性的最佳化。這種架構轉變可提高吞吐量，降低延遲，並提升整體資源利用率。但分解會帶來新的複雜性，需要在低延遲鍵值快取傳輸、大語言模型感知路由和高效記憶體管理之間進行精確協調。輝達打造Rubin CPX GPU，就是為了在計算密集型長上下文階段實現專業的加速，並將該專用GPU無縫整合到分解式基礎架構中。輝達通過將GPU功能與上下文和生成工作負載相結合來最佳化推理。Rubin CPX GPU專為高效處理長序列而最佳化，旨在增強長上下文性能，補充現有基礎架構，提升吞吐量和響應速度，同時提供可擴展的效率，並最大化大規模生成式AI工作負載的投資回報率（ROI）。為了處理視訊，AI模型可能需要處理1小時內容中多達100萬個token，這挑戰了傳統GPU計算的極限。Rubin CPX將視訊解碼器和編碼器以及長上下文推理處理整合在單晶片中，為視訊搜尋和高品質生成視訊等應用提供了前所未有的功能。Rubin CPX將能夠運行NVIDIA Nemotron系列最新的多模態模型，為企業級AI agent提供最先進的推理能力。對於生產級AI，Nemotron模型可以通過NVIDIA AI Enterprise軟體平台交付。04. 結語：30~50倍投資回報率，每投資1億美元可帶來50億美元收益Vera Rubin NVL144 CPX採用輝達Quantum-X800 InfiniBand或Spectrum-X乙太網路，搭配ConnectX-9 SuperNIC並由Dynamo平台協調，旨在為下一波百萬token上下文AI推理工作負載提供支援，降低推理成本。在規模化營運下，該平台可實現30~50倍的投資回報率，相當於每1億美元的資本支出即可帶來高達50億美元的token收益。輝達稱這“為推理經濟學樹立了新的標竿”。Rubin CPX將使AI程式設計助手從簡單的程式碼生成工具轉變為能夠理解和最佳化大型軟體項目的複雜系統。知名的美國AI程式設計平台Cursor、AI視訊生成創企Runway、AI程式設計創企Magic等正在探索用Rubin CPX GPU加速他們的程式碼生成、複雜視訊生成等應用。 (芯東西)

2025/08/26

•

剛剛，輝達推最強人形機器人“大腦”，AI性能暴漲7.5倍，算力飆到2070 TFLOPS

輝達將Blackwell GPU引入機器人“大腦”。地表最強機器人“大腦”，又易主了！智東西8月25日報導，今日，輝達推出專為物理AI和人形機器人打造的NVIDIA Jetson Thor，它被輝達創始人兼CEO黃仁勳稱作是“推動物理AI和通用機器人時代的終極超級電腦”。Jetson Thor採用輝達Blackwell GPU、14核Arm Neoverse CPU和128GB視訊記憶體，視訊記憶體頻寬為273 GB/s，FP4精度下AI峰值算力為2070 TFLOPS，FP8精度下AI峰值算力為1035 TFLOPS，可在邊緣加速生成式AI與大型Transformer模型。它支援包括VLA（視覺語言動作）模型、LLM（大語言模型）、VLM（視覺語言模型）在內的各種生成式AI模型，能處理即時視訊資料流和AI推理，適用於建構可在邊緣執行視覺搜尋和總結任務的AI agents。包括CPU、GPU、SLC、DRAM連接、網路、電源管理等在內，整個Jetson Thor電腦的功率可配置在40W到130W之間。借助4個25 GbE網路、攝影機解除安裝引擎和Holoscan感測器橋接器，Jetson Thor可提取高速感測器資料，實現即時性能。全新機器人晶片專攻的重點特性，就是運行多AI工作流，讓機器人能與人類和物理世界進行即時、智能的互動，推動視覺AI agents和複雜機器人系統的發展。與上一代Jetson Orin相比，Jetson Thor的AI計算性能提升多達7.5倍，能效提升多達3.5倍，CPU性能提升多達3.1倍，I/O吞吐量提升多達10倍。如果10年前相比，性能提升就更猛了——AI性能足足提高多達7000倍。Jetson Thor與機器人AI軟體平台搭配，支援各種主流AI框架，以及字節跳動、DeepSeek、阿里Qwen、GoogleGemini、Meta、Mistral AI、OpenAI、Physical Intelligence（π）等企業的生成式AI模型。它還與輝達從雲到邊緣的軟體棧完全相容，包括用於機器人模擬和開發的Isaac平台、Isaac GR00T人形機器人基礎模型、用於視覺AI的NVIDIA Metropolis和用於即時感測器處理的NVIDIA Holoscan等。機器人需要搭載豐富的感測器來感知世界，並實現低延時的AI處理。即時控制框架通常在100Hz-1kHz頻率上運行，感知與規劃通常在30Hz頻率上運行，高級推理通常在1-5Hz頻率上運行，就像人思考一樣，可能會想幾秒鐘。在平行處理16個感測器輸入時，運行Llama 3B和Qwen 2.5 VL 3B模型，Jetson Thor生成第一個token的時間在200ms內，輸出每token的時間在50ms內，這意味著運行這些模型可以每秒生成超過25個token，相較前代翻倍提升。Jetson Thor為通用推理而設計，運行阿里Qwen 3-30B-A3B、輝達Cosmos Reason 1 7B、DeepSeek-R1-Qwen-32B等推理模型時，FP8精度下性能已經提升多達3~5倍，FP4精度下更是猛躥一大截，最多提升至10倍。輝達CUDA生態系統中的軟體在Jetson整個生命周期中不斷最佳化。例如，在整個生命周期中，通過軟體升級將Xavier的性能提高了50%，將Orin的性能提高了100%。隨著未來軟體持續最佳化，Jetson Thor將實現更大幅度的性能提升。自2014年以來，輝達Jetson平台與機器人軟體棧吸引了200多萬開發者和150多個硬體系統、軟體和感測器合作夥伴組成的生態系統。7000多家客戶已採用Jetson Orin。眾擎機器人、銀河通用、優必選、宇樹科技等明星人形機器人公司，還有聯影醫療等醫療企業、萬集科技等智能交通企業，都已經率先採用Jetson Thor。輝達Jetson AGX Thor開發者套件現已上市，全球開售，起售價3499美元（約合人民幣2.50萬元）。Jetson T5000、Jetson T4000模組可從全球分銷合作夥伴處獲得。Jetson T5000起售價2999美元（約合人民幣2.15萬元），Jetson T4000起售價1999美元（約合人民幣1.43萬元）。具體規格如下：輝達DRIVE AGX Thor開髮套件是輝達為安全自動駕駛汽車設計的開發平台，已通過安全認證，同樣搭載了內建生成式AI引擎的Blackwell GPU，有豐富的SDK套件和庫。該開髮套件已經可以預訂。比亞迪、元戎啟行、廣汽、智己、理想、文遠知行、小米、極氪、卓御等領先的智能駕駛汽車企業都在積極擁抱DRIVE AGX Thor。面向人形機器人開發，輝達提供了基礎的系統、藍圖、工具、服務、演算法及其他機器人技術，與生態系統合作，為建構機器人產品並將其帶到現實世界的四個重要步驟（資料生成、模型訓練、模擬測試、部署推理）提供端到端完整工作流。輝達機器人業務正在快速增長。今年，輝達在財報中將汽車和機器人業務合併，第一季度收入為5.67億美元，同比增長72%。目前，輝達專注於為物理AI和機器人打造3台電腦，包括用於訓練模型的NVIDIA DGX AI超算、用於合成資料生成與模擬測試的NVIDIA OVX電腦以及安裝在機器人本體上的即時電腦（如Jetson Thor）。從感知AI、生成式AI、Agentic AI到面向未來的物理AI，輝達正將其計算疆域鋪滿AI的整個生命周期。 (智東西)

2024/07/18

•

AI大模型性能最新排名

今天我們來盤點一下主流AI大模型各方面性能的最新排名，分別從質量、速度、價格、對話能力、推理能力、編碼、響應時間等能力來進行對比。一、對話能力 Chatbot Arena是一個基於眾包的大型模型評測基準。它為開發者和研究者提供了一個平台，在這裡可以發佈、測試和比較各種類型的聊天機器人，下面是根據Chatbot Arena的榜單排名。我們可以看出前三名是：GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro。二、推理能力