把記憶體當成視訊記憶體用,本地就能跑百億參數大語言模型的時代可能真的要來了!
沒錯,就在前幾天,AMD 的高級副總裁David McAfee在接受採訪時,整出了一個大新聞。
他公開表示:統一記憶體架構(Unified Memory Architecture,縮寫為 UMA)正在迅速崛起,這玩意兒開啟了“無限可能”,並且將深刻影響 AMD 未來的產品和路線圖。
David McAfee 暗示,甚至連未來的桌面級 CPU,都將用上它。
而看熱鬧不嫌事大的蘇媽,最近也給隔壁剛剛發佈 RTX Spark CPU(採用了統一記憶體架構)的黃仁勳點了個贊。
大意就是:“老黃啊,你總算跟上了我的步伐,說明我的Halo 系列統一架構思路是完全正確的!”
等等,這時候肯定有資深電友要舉手了:“統一記憶體架構(UMA)?這不就是我們用了十幾年的‘核顯偷系統記憶體’的換皮話術嗎?怎麼現在成大廠集體追捧的未來黑科技了?”
別急,今天小憶就帶大家來扒一扒,看看這個讓蘋果嘗到甜頭、讓老黃連夜入局、讓蘇媽直呼 Yes 的“統一記憶體架構”,到底是個什麼神仙玩意兒。
大家肯定也好奇,它又是怎麼從當年不太起眼的一個低端技術,變成如今的“香餑餑”的。
要理解統一記憶體,得先看看以前我們是怎麼用電腦的。
CPU(處理器)、GPU(顯示卡)、RAM(記憶體),大家都知道他們是幹啥用的了。傳統電腦裡,這哥仨是相互獨立的模組,各幹各的各司其職。
當你要玩個 3A 大作或者跑個 AI 模型時,CPU 得先把資料從硬碟載入到記憶體裡,然後通過一條叫PCIe的高速通道,把資料再複製到顯示卡視訊記憶體裡。
等 GPU 處理完了,完事兒還得再通過這條通道把結果運回來……
這種架構不光來回折騰費事兒,還要受到記憶體速率、PCIe 頻寬等影響,可以說效率是比較低下的。
何況你記憶體裡存了一份資料,視訊記憶體裡還得複製一份一模一樣的,其實這也是一種資源浪費。
而所謂的統一記憶體架構,相當於直接把這套繁瑣的流程給大幅簡化了。
CPU、GPU、記憶體這三大件不分家了,而是徹底湊在一起搭伙兒過日子。
它們直接被整合在了一起,原本 GPU 裡面的獨立視訊記憶體也砍了,現在和 CPU 共用一套高頻寬的記憶體。
這樣沒有複製,沒有傳輸,更沒有中間商轉差價!
GPU 想用資料,直接從統一記憶體中讀就行,CPU 也是直接從裡面拿 GPU 處理完的資料,延遲超低,效率那是嘎嘎提升。
不過,正如前面提到,其實統一記憶體不是什麼新概念,你的手機 SoC(驍龍、蘋果 A 系列)天天都在用。
但在高性能 PC 領域,大廠們以前是不屑一顧的。那為什麼到了 2026 年,大家突然開始瘋狂捲這個賽道了?
原因很簡單:還是我們說了無數次的那個 AI。
傳統顯示卡什麼都好,就是視訊記憶體太貴、容量太小。
你想跑一個上百億甚至更高參數的本地大語言模型?不好意思,那怕買了消費級頂級的 RTX 5090,區區 32GB 視訊記憶體,可能連模型的屁股都塞不下。
這時候統一記憶體的恐怖優勢就體現出來了!
首先,在統一記憶體架構下,記憶體有多大,視訊記憶體就能有多大。
蘋果的 M3 Ultra 動輒能支援 96GB 甚至 512GB的統一記憶體。
隔壁老黃最新發佈的 NVIDIA RTX Spark,同樣把 20 核的 Grace CPU 和 6144 個 CUDA 核心的 Blackwell GPU 用 NVLink 縫在了一起,同時還塞入了128GB的統一記憶體!
這就意味著,你可以在一台輕薄本上,本地直接跑上百 GB 的超大 3D 渲染場景,或者無壓力運行大模型。
這要換成傳統顯示卡,你得在家裡串聯好幾張昂貴的專業卡才能做到。
其次,統一記憶體的頻寬優勢也是非常明顯。
以前核顯共享系統記憶體被罵垃圾,主要還是因為記憶體頻寬太差了,比如主流雙通道 DDR4 也就 50-60GB/s,雙通道 DDR5 也就 80-100GB/s左右。
這跟視訊記憶體的動輒幾百 GB/s 甚至 1TB/s 相比,確實太拉胯了。
但今時不同往日,現在的統一記憶體,大廠們直接用上了高寬頻的LPDDR5X甚至是把HBM給封裝了進去。
還是拿蘋果 M3 Ultra 為例,記憶體頻寬最高達到了 819GB/s;NVIDIA 剛發佈的 RTX Spark 也有接近 300GB/s。
有了這兩項最明顯的優勢加持,統一記憶體架構能在 AI 時代吃香也就絲毫不奇怪了。
目前關於統一記憶體的大亂鬥,基本已經形成三足鼎立。
蘋果是最早把這玩意在 PC 端玩出花的,從 M1 到現在的 M4 系列,主打一個只要我記憶體和頻寬足夠,核顯都能硬剪 8K 視訊。
老黃這次和聯發科合作帶來的 NVIDIA RTX Spark,大家也看到了,全是狠活兒確實很頂。
至於 AMD,其 Halo 系列已經全面投入統一記憶體架構懷抱。
雖然蘇媽嘴上說著老黃學我,但身體很誠實,他們即將推出的次世代移動 APU(代號 Strix Halo,可能命名為銳龍 AI Max 400 系列)就是奔著這個去的,最高支援192GB 的統一記憶體。
而且 David McAfee 這次的表態更激進:AMD 未來桌面級 CPU 也要評估這個架構。
如果成真,今後的 DIY 市場可能真的要迎來一次大洗牌了。
但是吧,看到這兒,小憶還是要給大家潑一瓢冷水。
細心的同學已經發現了,統一記憶體架構顯然是和我們主流 DIY 的模組化相衝突的。
既然 CPU 和 GPU 要共享超高頻寬的記憶體,那這記憶體就必須離晶片足夠近,甚至直接封裝在同一個基板上。
這就意味著,傳統的插拔式記憶體條在統一記憶體架構裡將不復存在。
比如說你用個兩年想從 64G 升級 128G,或者暫時手頭緊先買個 16G 過渡後面再升級,對不起,只能整個重買。
如果連選記憶體的權利和定價權都交給了晶片廠商,那最後估計會把我們這些消費者當成韭菜狠狠收割。
不可否認,統一記憶體架構大機率會是未來幾年硬體發展的必然趨勢。
它用效率、頻寬和容量,確實硬生生打破了以往的常規,給 AI 時代注入了無限可能。
只是這個代價嘛,可能對我們普通消費者來說略微有些沉重。
那麼如果是你,你會選擇繼續堅持傳統 DIY,還是加入統一記憶體新家庭呢?
*資料、圖片來源:wccftech、AMD、NVIDIA、網路。 (芯師爺)
