聯發科的膽魄:安卓SoC性能突圍

智慧型手機行動SoC旗艦平台設計公司,殺出一匹黑馬,震撼業界。

11月6日,聯發科技(MediaTek)推出業界首個全大核心架構SoC旗艦行動平台「天璣9300」。這款旗艦晶片以從所未見的「4(超大性能核心)+4(大型能源效率核心)」CPU架構設計,刷新產業認知。同時,這也是聯發科技首款旗艦5G生成式AI行動晶片。


天璣9300架構圖


受惠於此項架構創新,天璣9300的CPU峰值效能比前代提升幅度高達40%。同時,聯發科技在旗艦晶片上一直追求的「不會為了追求高效能而放棄低功耗」原則,也在本代SoC得以體現:節省功耗達到驚人的33%。

效能升幅和功耗控制如此出色,出現最顯著的應用端變化,是天璣9300帶來的極速端側AI大模型終端無延遲的優異體驗。

這項體驗來自聯發科技剛發表的最強旗艦SoC行動平台創下的多項技術第一:這是業界首款整合硬體生成式AI引擎,首次提供端側LORA融合加速技術,首次提供硬體記憶體壓縮技術,支援10億、70億、130億和最高330億參數的端側AI大模型…

從天璣9000開始,到2022年的天璣9200,再到這次的天璣9300,聯發科技在技術創新方面亮點頻閃,比其競對蘋果和高通走得更快。

就此次推出的CPU全大核架構設計看,聯發科技無線通訊事業部產品規劃總監張耿豪很自信地認為,「從今年開始,有可能全大核就是一個新標準的規格,未來是全大核的世代。”



超強效能源自架構設計創新

天璣9300,採用台積電第三代4nm製程,與高通驍龍8 Gen 3相同。



相較於其前代天璣9200,本代CPU性能提升高達40%,GPU性能提升更超過了40%達46%;兩者的能耗控制水平,分別提升33%和45%。

這個性能出色到何等地步呢?

透過Geekbench 6.2測試平台可以發現,天璣9300單核性能得分2215,多核則飆到7733分,後者得分一舉超越目前業界所有同類旗艦。

這個表現甚至超越了摩爾定律範疇-採用台積電3nm製程的蘋果A17 Pro(號稱地表最強移動SoC),多核心效能測試分為7342(單核心得分2955);高通剛發表的驍龍8 Gen 3 ,多核心性能跑分為7114(單核得分2187)。

這麼強悍的CPU效能,得益於天璣9300在業界首次推出的全大核心架構設計。

聯發科技拋棄了安卓旗艦陣營先前採用的大中小型核心混合架構設計模式,改用「4(超大核心)+4(大核心)」全新CPU架構,以此設計震撼業界。

「天璣9300是MediaTek迄今為止最強大的旗艦行動晶片,透過我們開創性的全大核架構設計,為旗艦智慧型手機帶來令人驚嘆的運算力突破。」聯發科資深副總經理暨無線通訊事業部總經理徐敬全博士表示,「全大核CPU結合新一代APU、GPU、ISP以及MediaTek特有的前沿技術,不僅能顯著提升終端性能和能源效率,也將為消費者帶來卓越的端側生成式AI體驗。”

在此之前,最主流的旗艦SoC行動平台CPU設計採用Arm於2011年推出的big.LITTLE架構,也就是透過大小核CPU組合,以平衡效能與功耗問題。

從技術結構上看,big.LITTLE架構是將較耗電但運算能力強的CPU核心組成的“big集群”,與低耗電但運算能力弱的CPU核心組成的“LITTLE集群”封在一起,並共享記憶體區塊。

2013年,三星推出首款以big.LITTLE架構為基礎(四核心Cortex-A15+四核心Cortex-A7)的八核心手機處理器Exynos 5410。SoC行動旗艦CPU架構由此進入「大小核心時代」。

2017年5月,Arm發表DynamIQ(針對AI和ML優化)取代big.LITTLE架構,仍沿用大小核配置思想,即「DynamIQ big.LITTLE」。此後晶片設計界開始大規模採用大小核「三叢集」架構,例如高通最新推出的驍龍8 Gen 3,就採用了「1+5+2」的「三叢集」架構;而聯發科技首款採用big.LITTLE架構的處理器是MT6595,於2014年初推出。

但是,此次聯發科技推出的天璣9300,採用了「全大核心」CPU設計:1個3.25GHz頻率的超大核心Cortex-X4、3個2.85GHz的Cortex-X4超大核心和4個2.0GHz頻率的Cortex-A720大核心。

Cortex-X4超大核心和Cortex-A720大核心是Arm今年5月發布的第三代ARMv9 CPU核心。根據Arm公開資料顯示,Cortex-X4的效能相比上代提升15%+,功耗減少40%;Cortex-A720最明顯的優勢是能源效率提升20%。

天璣9300的CPU共八個大核為清一色亂序執行(Out-of-Order Execution)線程,能在短時間內並行完成多項任務。也就說,這能更好地應對資源擁擠時(例如多執行緒並行啟動)的運算效能需求,還能減少執行重要任務的等待時間。



怎麼做落地AI端側大模型

自2022年12月OpenAI推出現象級AI應用產品「ChatGPT」至今,AI商業化具象了以往「元宇宙」過於抽象的想像方向,引爆全球AI軟硬體技術創新熱情,進入全新發展階段。

但是,像是ChatGPT文字或Stable Diffusion藝術創意AGIC(生成式AI:Artificial Intelligence Generated Content)工具,其動輒上千億抑或萬億級的資料量規模,難以落地終端。這所需的內存量規模太龐大,成本和能耗均難以為C端用戶承受。

現在,有了天璣9300。與優秀的CPU效能相比,此次聯發科技推出的天璣9300,最大的亮點在​​於這是聯發科技首顆旗艦5G生成式AI行動晶片。

什麼是生成式AI?簡單一句話,即使用神經網路(NPU)識別現有資料中的模式和結構,產生新的原創內容。

5G生成式AI移動晶片的意思,通俗講,就是在智慧型手機終端,無需透過網路雲端,只依靠終端自帶的SoC行動晶片,就能運行AI大模型;再透過各種軟體和演算法,最終生成各種包括文字、圖片、音訊、視訊或3D模型等形式的新數據,從而帶給C端用戶前所未有的新體驗。

由生成式AI行動晶片帶來的新體驗的豐富程度,與該類晶片能支援多少參數的量級成正比。

聯發科技官方稱,天璣9300支援10億、70億、130億和業界最高的330億參數量級的端側AI大模型。據高通官方稱,其剛發布的驍龍8 Gen 3,能支援運行超過100億個參數的大模型。

但是,這與天璣9300相比,參數量級有所不如。

那麼聯發科技,怎麼做到支援如此規模參數量的呢?

天璣9300採用了被稱為「NeuroPilot Compression」的硬體記憶體壓縮技術,這在業界首次得以應用。這項技術能將130億參數LLM(大語言模型:Large Language Model)所需的記憶體空間,從13GB減少到5GB。

目前配置16GB內存的頂級旗艦機,內存分配結構大致是:4GB的安卓系統內存空間,各種應用所需的內存空間約6GB;透過「NeuroPilot Compression」技術,只需5GB內存,就能順利運行130億參數的LLM。據聯發科技官方稱,搭載天璣9300運行330億參數的端側LLM也已成功落地。

聯發科技透露了實現這種能力的部分技術細節。從LLM壓縮類型來看,這項技術更接近結構稀疏型。

天璣9300生成式AI真正的技術核心,是應用NeuroPilot Compression技術時無需額外編碼或開發人員設定開關,只需透過NeuroPilot工具鏈,從模型導入工程端,完成程式建置後,整合進天璣9300 (包括未來的迭代SoC版本)即可。

站在技術角度看,除了效果驚人的NeuroPilot Compression,還有transformer算子硬體加速。

天璣9300生成式AI引擎的性能,由第七代APU790支撐,整數運算和浮點運算能力是前代(第六代APU)的兩倍,速度是前代的8倍。其中,transformer算子硬體加速扮演了關鍵角色。

此外,APU 790支援生成式AI模型端側技能擴充技術NeuroPilot Fusion,這也是業界首次提供提供端側LORA 融合加速技術。

NeuroPilot Fusion能基於標準大模型持續在端側做低秩自適應(LoRA,Low-Rank Adaptation)融合;透過加持混合式AI,基於1個基礎大模型,透過雲端訓練,在端側完成N個功能的融合,賦予基礎大模型更全面、更豐富的生成式AI應用能力。

這是搭載天璣9300旗艦智慧型手機,在未來基於端側AI大模型,形成與其他旗艦SoC行動平台的全新AI體驗,最大的差異化差異所在。

有必要為搭載天璣9300的智慧終端,在端側落地生成式AI大模型做個技術小結:透過NeuroPilot Compression硬體記憶壓縮技術、端側技能擴充技術NeuroPilot Fusion和transformer算子硬體加速技術,天璣9300在端側落地AI大模型的效能,在業界實現登頂。



引領安卓SoC全大核心設計潮流

天璣9300就CPU效能、全大核心架構和逆天的端側AI效能而言,堪稱聯發科技有史以來最強晶片,同時也是業界近年來少見的技術創新先鋒擔當。

晶片製造技術發展到今天,若說摩爾定律失效,或許過於誇張,但摩爾定律放緩,確是不爭的事實。例如採用台積電3nm製程的「地表最強晶片」蘋果A17 Pro,與採用台積電4nm製程的天璣9300相比,單核性沒能實現翻倍,多核心性能甚至有所不如。

對於這個問題,業界IDM頭部公司三星電子和專業晶圓代工商台積電,不約而同,都將資源投向了先進封裝領域,以此延長摩爾定律的生命週期。當然,這兩家公司並非在摩爾定律確定放緩的今天才做的戰略佈局,而是早在十多年前就已落子。

所以說,業界巨頭之所以成為巨頭,是因為這些公司都具有洞察產業未來的眼光、改變現狀的勇氣和實用的技術創新。

例如三星電子在從台積電虎口搶單蘋果A7處理器代工時的絕招——封裝體疊層(POP:Package on Package)技術,實現了A7晶片在成本、性能和體積上的巨大迭代優勢;台積電則早在2011年就推出瞭如今大名鼎鼎的CoWoS(Chip on Wafer-on Substrate)封裝技術,對提升AI加速卡性能意義非凡。

延長摩爾定律的生命週期,除了改良封裝技術,為什麼不能改進CPU架構?

聯發科技推出的天璣9300:這款晶片最大的技術創新,就是在旗艦晶片上放棄了Arm已推出12年的big.LITTLE架構和其已落地5年的迭代版DynamIQ big.LITTLE架構,替之以全大核心CPU架構設計。

事實證明,天璣9300的CPU性能強勁。作為旗艦級行動平台,圖形處理器(GPU)效能也廣受關注。

天璣9300內建12核心的Arm Immortalis-G720圖形處理器,延續了前代Arm Immortalis-G715帶來的硬體級加速的光線追蹤能力,峰值效能提升46%,功耗節省40%。因此,天璣9300能支援60FPS(每秒傳輸幀數:Frame Per Second)高流暢度的光線追蹤遊戲。



根據聯發科公佈的官方數據顯示,以GFXBench v5.0.5 1440P Aztec Ruins Vulkan軟體測試,天璣9300的GPU性能成績99FPS,高於高通驍龍8 Gen3和蘋果A17 Pro。

最近兩年以來,聯發科技技術創新數度引領產業跟進。例如2022年11月發表的天璣9200,在行動端首次實現硬體級加速的光追技術,由此開啟行動端光線追蹤時代。隨後,高通、蘋果和三星等晶片大廠紛紛跟進。

此次發表的天璣9300,從各個測試軟體平台的測試結果來看,CPU全大核心設計架構確實大幅提升了效能和能源效率。未來AI端側大模型要落地,對SoC的效能與能源效率要求必將越來越高,傳統的DynamIQ big.LITTLE架構大機率會被天璣9300這種全大核心架構取代。

站在端側效能需求和行動端SoC具備的能力匹配度角度觀察未來,用聯發科技無線通訊事業部技術規劃總監李俊男的話來說,「我相信到明年,我們還可以證明全大核架構設計(對於行業的帶動意義),其他對手明年預計也會跟上。”

張耿豪認為,「全大核心架構,我們相信,明年大家都會採用這個設計方式。所以我們能說,我們引領了這個新潮流。蘋果也採用了類似的設計架構,全行業都會跟進。所以從今年開始,全大核很可能就是一個新標準的規格,未來是一個全大核的世代。”(華爾街見聞)