Oryon CPU 的開發進度甚至超過了我們自己的預期。”
台北時間10 月25 日凌晨,高通驍龍技術高峰會正式召開。有別於以往手機廠商排隊搶首發的循規蹈矩,這次業界把焦點放在了高通專為AI 打造的PC 處理器驍龍X Elite 上,一枚基於高通自研內核「Oryon」的CPU。
在介紹這枚晶片時,高通CEO 克里斯蒂亞諾·安蒙(Cristiano Amon)的喜悅之情也是溢於言表,蘋果的M2 Max 和英特爾的i9-13980HX 成為活動現場的“對照組”,從單線程性能到峰值效能功耗,再到GPU 算力和AI 處理速度,安蒙試圖用數據證明驍龍X Elite 是全方位領先的產品。
在行動旗艦晶片方面,雖然全新驍龍8Gen 3 被X Elite 搶了風頭,但憑藉「首款專為生成式AI 打造的移動平台」這一頭,依舊在發布會上博得滿堂彩。
透過一場發表會,高通搖身一變成為「終端AI」的代表,成功讓人們忽略了英特爾才是最早主張AI 端側運算的企業。
而就在高通技術高峰會召開前的一天,10 月24 日,路透社報道稱,英偉達和AMD 正在開發能夠用於Windows 系統的PC 處理器。雖然還不清楚上述產品的研發進展,但可以確定的是,兩家公司的PC 處理器同驍龍X Elite 一樣採用ARM 架構。
英特爾曾以x86 架構壟斷PC 處理器市場三十餘年,但眼下英特爾的產業霸主地位,似乎在一夜之間迎來變數。
高通的蛻變,有多徹底?
在發表會開始,安蒙介紹了在端側完成AI 計算的必要性,基本上還是那些老生常談的觀點:低成本、低時延、安全性高。但令人驚訝的是,高通把行動端平台的生成式AI 能力抬上了一個新的高度。
相較上代產品,驍龍8Gen 3 的CPU 效能提升了30%,GPU 效能提升了25%,NPU 效能提升25%,目前驍龍8Gen 3 已支援運行100 億參數的生成式AI 模型。如果使用搭載8Gen 3 平台的智慧型手機運行Stable Diffusion,只需不到1 秒就可以用文字產生影像。
如果只比較參數,100 億模型參數要較GPT 4 和Llama2 等雲端模型少了幾個數量級,但對於手機廠商而言,這樣的硬體能力在現階段已基本夠用。
以小米為例,該公司在今年4 月完成了大型模型團隊的搭建,8 月成功在端側跑通13 億參數大模型,但目前還未正式進入公測階段。以此推斷,在下一代驍龍移動旗艦平台發布之前,驍龍8Gen 3 足以應付手機端的訓練需求。
另外,在發表會現場,高通也拉出一票軟體公司月台,並表示驍龍平台現已支援微軟、Meta、OpenAI、安卓、百度等公司的端側大模型。根據先前高通與Meta 的合作計劃,最早在明年應該就能看到Llama 2 模型在驍龍平台上運作。
相較於多模態生成式AI 能力,驍龍8Gen 3 在其他方面則稍顯平庸,只能算是中規中矩的常規升級,但眼下行業內似乎也不關心驍龍新的移動平台,在遊戲、影像等場景下有多少提升,全場的焦點都集中在驍龍X Elite 上。
圖片來源:高通
高通方面表示,這個專為AI 打造的驍龍X Elite 其AI 處理能力是競品的4.5 倍,異構AI 引擎性能可達75TOPS,支援在端側運行超過130 億個參數的生成式AI 模型,當使用基於70 億參數的端側聊天助理時,每秒可處理30 個Token。
雖然發布會現場高通並沒有標註這個「競品」是哪款CPU,但還是以數據的形式展示了下Oryon 核心的「基礎能力」:單線程性能超過蘋果的M2 Max 和英特爾的i9-13980HX,峰值功耗比M2 Max 少30%,比i9-13980HX 少70%。而在多執行緒方面,高通也比較了英特爾的i7-1355U,表示驍龍X Elite 的效能可達其兩倍,且峰值功耗減少68%。
即便這種對比方式稍有「田忌賽馬」之嫌,但不得不說,作為Oryon 內核的首代商用產品,驍龍X Elite 的表現遠超過業界預期。
實際上,在Oryon 計畫上,高通某種意義上是沾了蘋果的光。
2021 年3 月,高通收購了新創晶片設計公司Nuvia,這家公司的主要業務就是打造高性能ARM 架構晶片,其創辦人團隊包括蘋果前CPU 首席架構師Gerard Williams 以及曾參與蘋果A7-A14 晶片研發的John Bruno、Manu Gulati 等人。
在完成對Nuvia 收購後,高通在Oryon 專案上進展神速,並於去年驍龍技術高峰會上宣布推出Oryon 核心。
值得一提的是,在高通2022 年第三季財報發布後的電話會議上,安蒙曾表示過,「我們預計,2024 年驍龍Windows PC 將出現拐點。」但在當時,考慮到高通在PC市場少得可憐的佔有率,這句話並沒有引起業界太多的關注。
三家分Intel?
驍龍X Elite 晶片的推出,讓高通在PC 領域的野心暴露無遺。儘管這家公司一度以手機晶片成為全球最大的Fabless 廠商,但在PC 產業,高通始終默默無名。
在2018 年,高通曾在驍龍855 晶片的基礎上,推出了面向PC 端的驍龍8cx 處理器,但效能十分羈弱,甚至不及當時iPhone 上的A12 晶片。以至於當時有種觀點認為,驍龍8cx 存在的意義就是為了證明,ARM 架構不適合作為電腦處理器,它注定只能是行動端架構。
此後,鮮有晶片廠商再進行ARM 架構在PC 上的嘗試。直到2020 年,基於ARM 架構的蘋果M1 晶片問世,人們才發現ARM 架構在功耗大幅領先x86 架構處理器的同時,效能同樣可以有不俗的表現。
反映在市場表現上,根據CouterPoint Research 的統計數據,自2020 年蘋果推出M1 晶片後,截至2022 年底,全球基於ARM 架構處理器的筆記型電腦市場份額從2% 迅速增長至12% 以上,其中90% 都是蘋果的產品。
需要說明的是,除了英特爾和AMD 外,大部分廠商根本沒有x86 架構授權,此前連進入PC 市場的資格都沒有,而蘋果憑藉ARM 架構在PC 市場上取得的成功,給許多晶片設計廠商打入了一針強心劑。
同時,在「端側AI」概念興起的當下,廠商們發現ARM 架構晶片的另一個優點非常適合端側大模型的場景——低功耗。
相較於雲端大模型,端側大模型最大的意義在於可以在離線狀態下使用,而在日常應用場景中,涉及離線使用的基本都是筆記型電腦、平板電腦等便攜式設備,這類產品往往因為續航的需求對CPU 耗電量有著很高的要求。
因此,過去被x86 架構「卡脖子」的晶片廠商們,現在都心照不宣的開始了對ARM 架構的研發工作,試圖在「端側AI」時代從英特爾嘴裡搶下一塊肉。
值得一提的是,過去被認為和英特爾組成「Wintel 聯盟」的微軟,在「Arm on Windows」這件事上表現得甚至比晶片廠商還要積極。10 月17 日,微軟宣布了一項名為「ARM 諮詢服務」的計劃,以幫助開發者開發基於ARM 的應用程式。
這其實也不難理解,雖然有著聯盟之名,但長久以來,微軟始終希望能擺脫單一合作方的束縛。
從上述背景來看,眼下開發基於ARM 架構的PC 處理器,似乎佔盡了天時、地利、人和。
不過,現在還遠遠沒有到能危及英特爾的時候。一方面,英特爾代表的x86 PC 處理器市場仍然有著絕對的領先優勢。
另一方面,英特爾在端側AI 上的努力同樣不遑多讓,在前不久的Intel On 大會上,英特爾宣布年底推出的代號為“Meteor Lake 的酷睿Ultra 處理器,將全系集成神經網絡處理單元(NPU),也準備通過OpenVINO 套件,幫助開發者進行AI 訓練、測試,及模型最佳化工作。
但無論如何,友商透過ARM 架構來描述端側AI 的藍圖,對英特爾來說絕對是個值得警醒的訊號。(虎嗅APP)