蘋果A19 Pro跑分曝光:CPU效能提升12%,GPU效能提升37%!

9月12日消息,近日蘋果公司發表的A19系列處理器當中,作為最強的處理器A19 Pro,自然是備受外界關注。而最新的測試資料顯示,A19 Pro在CPU效能上雖然比起前代僅提升了約11%-12%,但如果只看CPU單執行緒效能,則超越了蘋果的桌上型電腦處理器M4以及AMD的銳龍9 9950X。 GPU 效能相比上一代則提升了37%,達到了與蘋果M3當中的GPU以及AMD 的Radeon 890M 整合GPU相當的效能。

CPU效能提升11%-12%

A19 Pro擁有6個CPU核心,其中包括:兩個高性能核心,運行頻率高達4.26 GHz(相比上代提升6.5%),並具有改進的分支預測(在分支繁重的工作負載下性能更高、能效更高)和增加的前端頻寬(這意味著每周期指令數更高,但並不表明核心每周期可以解碼多少個快取條);

最新的測試顯示,全新的A19 Pro處理器在Geekbench 6 基準測試中,CPU單執行緒性能得分3895,比上一代產品高出11%,比高通的驍龍8 Elite 高出36%,並且超越了蘋果自家的M4(高出5.3%)和AMD 強大的銳龍9 91.8%)。不過,由於只有6個CPU核心,因此在多執行緒效能得分為9,746 分,僅比A18 Pro 高出12%。所以,這款智慧手機SoC 在多執行緒工作負載方面仍然無法擊敗桌上型電腦和筆記本電腦的CPU。

雖然單執行緒和多執行緒CPU效能11% - 12% 的代際效能提升看起來相當穩健,但與A18 Pro 相比A17 Pro的(約18%)提升相比,這一數字相對較低。

需要指出的是,A19 Pro 處理器採用的是台積電第三大3nm(N3P) 工藝製造,N3P 是N3E 的光學縮小版,與N3E 相比,它可在相同功率下將電晶體密度提高4%,性能提高5%,或在相同頻率下將功耗降低5% - 10%。

考慮到製程工藝的提升,這也使得A19 Pro的大核心CPU主頻得益提升了6.5%,疊加一些微架構改進,因此其性能的提升幅度達到了約11%-12%。然而,考慮到蘋果在iPhone 19 Pro 上採用了均熱板散熱系統和鋁合金一體成型機身,該公司並未大幅提升CPU 主頻以獲得更高的峰值性能,這著實令人意外。或許蘋果決定專注於分支密集型工作負載,以及/或更高的IPC 效能比單一頻率更能帶來好處。目前看來,這些增強功能在Geekbench 6 中並未顯著提升效能。

GPU效能提升37%

A19 Pro擁有5核心GPU和6核心GPU兩個版本,該GPU配備了第二代動態快取,提升了浮點數學計算速率,帶來了統一的圖像壓縮。其中,5核心版本的每個GPU當中也整合了神經加速器,峰值運算能力是A18 Pro的3倍。蘋果聲稱這允許在iPhone 中實現MacBook Pro 等級的效能。

根據Geekbench 6測試的6核心GPU版本的A19 Pro資料顯示,其GPU得分為45657分,相比上代快了37%。與iPad Air中M2或M3的GPU效能以及AMD的Radeon 890M整合GPU效能相當。

此外,最新的分析稱,A19 Pro的GPU還擁有矩陣乘法加速單元(Matrix Multiplication Acceleration Units),這有助於提升AI效能。

長期以來,蘋果自研的GPU與輝達一類的顯示卡最大的差異之一,就是缺乏像NVIDIA Tensor Core這類專為張量運算設計的硬體加速核心。 這也是輝達在深度學習和大型語言模型(LLM)運算上遙遙領先的關鍵。 最新的Tensor Core不僅運算速度驚人,更原生支援多種浮點精確度(如FP64、TF32、BF16、FP16等),能與各式大模型訓練及推理引擎完美配合。

雖然蘋果這次的GPU升級包含了矩陣乘法加速單元,但這並不等於輝達的Tensor Core。 Tensor Core 是一個更為複雜且全面的運算核心,它不僅能執行矩陣乘法,更針對多種低精度浮點運算(如FP8、FP6)進行了深度最佳化,這些都是現代大模型訓練與推論的關鍵。 也就是說,蘋果的GPU雖然補上了矩陣運算這塊短板,但其原生支援的精確度與運算效率,仍有待後續的技術發展來追趕。

在深度學習的世界裡,無論是訓練或推論,最核心且最頻繁的運算就是矩陣乘法(Matrix Multiplication)。 你可以把一個神經網路想像成一系列複雜的數學運算,其中每個神經元之間的連接權重,都可以用一個巨大的矩陣來表示。 當輸入資料(例如一張圖片、一段文字)進入這個網路時,它會與這些權重矩陣進行一系列的乘法運算,以產生最終的輸出。

這就是為什麼矩陣乘法的運算速度,直接決定了AI 模型訓練與推論的快慢。 一個好的AI 晶片,其性能高低很大程度上取決於它處理這些巨型矩陣乘法的能力。

雖然,蘋果曾大力推廣其自家的“神經網路引擎(ANE)”,蘋果也試圖通過專用硬體來處理AI 任務,然而開發者實際上對於其NPU的應用卻不如預期。

首先,ANE的使用體驗極不友善,開發者必須將模型轉換成特定格式才能運行,過程繁瑣。 其次,也是最重要的,ANE 的效能遠遠落後於時代。 由於蘋果最初並未預料到以Transformer 架構為基礎的大型語言模型(LLM)會迅速崛起,這類模型對記憶體頻寬的需求極高,而ANE 的頻寬效能卻表現平平。 根據實測,ANE的最大頻寬僅約120GB/s,甚至不如2016年推出的NVIDIA GTX 1060顯示卡。 這導致在現實應用中,開發者很少會選擇使用ANE 來運行大型模型。

因此,在M4 晶片上,蘋果已經開始試水,直接提供最高512GB 統一記憶體的配置,這表明蘋果早已意識到大模型對記憶體容量的巨大需求。如果未來的M5 Max 能搭載頻寬更高的LPDDR6,其記憶體頻寬可望達到900GB/s,將足以與主流消費級顯示卡一較高下。 (芯智訊)