2025年,AI浪潮持續席捲全球,算力成為了新時代的石油,而圍繞算力的爭奪,也正改寫著整個半導體版圖。
其中,輝達憑藉GPU在AI訓練領域幾乎一騎絕塵,佔據超過九成市場份額,其市值突破4.5兆美元,成為了半導體行業新的領導者。
但輝達的地位並非牢不可破,AMD、博通、英特爾等廠商虎視眈眈,都想要從輝達這裡虎口奪勢,AI晶片產業迎來了全新的一超多強格局。輝達高築軟體與生態的護城河,幾乎壟斷了AI訓練的上游體系;而其他晶片巨頭與雲廠商,則在悄悄尋找新的突破口。
AISC和Arm,似乎成為了它們的目標。
這兩年,英特爾的日子過得不算好。
多年來,這位「藍色巨人」一直難以跟上台積電等競爭對手的晶片製造能力,其在AI市場上更是缺乏競爭力的產品線。作為對比,輝達的AI晶片大賣特賣,AMD也有自己的AI晶片組合,而英特爾的下一個「重磅炸彈」Jaguar Shores還要等到2027年首次亮相,其在AI上的落後早已暴露無遺。
身處困境的英特爾,選擇走一條差異化的路。
據報導,英特爾最近成立了中央工程集團(CEG),將公司內所有工程人才整合到一個部門,由前Cadence Systems高階主管斯里尼·艾揚格領導。這位在2024年7月從Cadence加入的高階主管,在推動定製晶片商業模式方面有著深厚的經驗,他在Cadence專注於IP業務、設計工具、設計生態系統合作夥伴關係以及定製晶片的垂直市場。他的經驗和市場人脈被認為能夠加速英特爾利用"ASIC熱潮"的能力。
英特爾執行長陳立武在第三季財報電話會議上明確表示,CEG集團將帶頭拓展新的ASIC和設計服務業務,為廣泛的外部客戶提供專用晶片。 「這不僅將擴展我們核心x86 IP的覆蓋範圍,還將利用我們的設計優勢,提供從通用到固定功能計算的一系列解決方案。」這番話揭示了英特爾的戰略雄心——從純粹的晶片製造商轉型為提供「設計+製造+封裝」的一站式服務商。
英特爾在ASIC領域的最大競爭優勢在於其完整的產業鏈。作為老牌IDM企業,英特爾擁有晶片專業知識、x86 IP以及提供製造服務的內部代工廠,尋求定製AI晶片的客戶可以獲得滿足所有需求的「一站式」服務。這是市場上任何其他ASIC設計公司都無法提供的優勢,即使是博通和Marvell也難以企及,更重要的是,憑藉CEG集團,英特爾實現了集中式的橫向工程,這意味著將設計服務與製造+封裝連接起來的開銷大幅降低。
報導指出,英特爾的ASIC業務可能會將該公司的代工廠變成一個成功的服務供應商,使其成為大型科技公司的引人注目的選擇。在人工智慧供應鏈的中間有很多機會,例如從量產製造利潤中獲得的收入,甚至是ASIC設計費。如果執行到位,定製晶片業務可能會成為英特爾的下一個主力軍,因為它將賦予英特爾系統代工廠的地位,負責供應鏈的每個環節。
然而,英特爾面臨的挑戰同樣龐大。輝達最近宣佈斥資50億美元收購英特爾約4%的股份,兩家公司將共同開發「多代定製資料中心和PC產品」。這項合作為英特爾帶來了機遇,但也帶來了複雜的競合關係。資料中心晶片將是英特爾根據輝達的規格定製的x86晶片,輝達將「將這些CPU整合到其AI基礎設施平台中,並推向市場」。在消費級市場,英特爾計畫打造整合英特爾CPU和Nvidia RTX GPU晶片組的x86 SoC,這意味著英特爾可能會在未來產品中使用輝達設計的圖形晶片,而不是自家的Arc GPU。
這帶來了一系列懸而未決的問題。英特爾幾十年來一直在開發自己的圖形產品,最近推出的Arc品牌專用顯示卡和整合GPU對Nvidia的一些低端產品構成了直接挑戰。英特爾告訴媒體,該公司“將繼續提供GPU產品”,但這可能意味著英特爾將專注於低端、低功耗的GPU,而將高端產品留給輝達。在軟體方面,英特爾一直在推廣其自有的oneAPI圖形計算堆疊,以取代Nvidia的CUDA和AMD的ROCm,但未來這個平台的命運也充滿不確定性。
更關鍵的問題是製造,輝達採用英特爾的18A製程或英特爾路線圖上的其他製程來生產部分晶片的機率其實並不高。英特爾一直在努力尋找大客戶,但黃仁勳在回答相關問題時對台積電大加讚賞,表示「台積電的能力,從工藝技術、執行節奏、產能和基礎設施的規模,到業務營運的敏捷性……所有這些魔力匯聚在一起,成就了一家世界級的代工廠,能夠支援客戶如此多樣化的需求。
對於英特爾而言,轉向ASIC設計服務是在困境中尋找新的成長曲線的必然選擇。在人工智慧炒作中錯失良機的英特爾,希望透過提供完整的設計和製造服務,在AI晶片市場中找到自己的位置。但這絕非易事,尤其是在人工智慧市場競爭激烈以及像博通這樣的ASIC設計公司不斷發展的情況下。英特爾能否抓住這一機遇,將決定這家曾經的晶片霸主能否在AI時代重新崛起。
相較於有些無奈的英特爾,高通的選擇頗有些激進。
這家迄今一直專注於無線連接和移動裝置半導體的公司,正在大舉進軍大型資料中心市場,直接挑戰輝達和AMD在AI推理領域的地位。近日,高通宣佈將發佈新的人工智慧加速器晶片AI200和AI250,消息傳出後,高通股票飆升11%,市場對這一轉型給予了高度認可。
據報導,高通將於2026年上市銷售的AI200和計畫於2027年上市的AI250均可裝入裝滿液冷伺服器機架的系統中,這標誌著高通進入資料中心領域,成為技術領域增長最快市場的新競爭者。據麥肯錫估計,到2030年,資料中心的資本支出將接近6.7億美元,其中大部分將用於基於人工智慧晶片的系統。
報導指出,高通資料中心晶片基於高通智慧手機晶片中的人工智慧零件,稱為Hexagon神經處理單元(NPU)。近年來,該公司一直在逐步改進其Hexagon NPU,因此這些處理器的最新版本已經配備了標量、向量和張量加速器(採用12+8+1配置),支援INT2、INT4、INT8、INT16、FP8、FP16等資料格式,以及用於減少記憶體流量的微塊推理 AI、64記憶體定址、Gen元用於額外安全性的虛擬模型。對於高通來說,將Hexagon擴展到資料中心工作負載是一個自然的選擇。
高通資料中心和邊緣計算總經理杜爾加·馬拉迪在與記者的電話會議上表示:「我們首先想在其他領域證明自己,一旦我們在那裡建立了實力,我們就很容易在資料中心層面更上一層樓。」這句話透露了高通的戰略邏輯——從移動端的AI能力積累,向資料中心市場延伸。
據理解,高通的AI200機架級解決方案配備768GB LPDDR內存,對於推理加速器而言,這已是相當可觀的內存容量,高於輝達和AMD的產品。該系統將使用PCIe互連實現縱向擴展,並使用以太網實現橫向擴展。該系統將採用直接液冷,每機架功率高達160kW,對於推理解決方案而言也是前所未有的功耗。此外,該系統還將支援企業部署的機密計算。該解決方案將於2026年上市。
2027年推出的AI250將保留此架構,但增加了近內存計算架構,有效內存帶寬提升了10倍以上。此外,該系統將支援分解推理功能,使計算和記憶體資源能夠在不同卡片之間動態共享。高通將其定位為更有效率、高帶寬的解決方案,針對大型Transformer模型進行了優化,同時保留了與AI200相同的散熱、散熱、安全性和可擴展性特性。
高通明確表示,其晶片專注於推理或運行人工智慧模型,而不是訓練。這是一個明智的差異化策略,避開了輝達最強大的訓練市場。 OpenAI等實驗室透過處理TB級資料來創造新的人工智慧能力,這需要強大的訓練晶片,而高通選擇專注於已訓練模型的運行和部署,這是一個同樣龐大但競爭相對較小的市場。
高通表示,其機架式系統最終將降低雲端服務供應商等客戶的營運成本,且一台機架的功耗為160千瓦,與某些Nvidia GPU機架的高功耗相當,但在推理場景中能提供更好的效能功耗比。高通還在功耗、擁有成本以及內存處理的新方法方面強調其優於其他加速器的優勢。
馬拉迪強調,高通還將單獨出售其AI晶片和其他零件,尤其是針對那些喜歡自行設計機架的超大規模資料中心客戶。他表示,其他AI晶片公司,例如輝達或AMD,甚至可能成為高通部分資料中心零件的客戶。 「我們試圖確保我們的客戶能夠選擇全部購買,或者說『我要混合搭配』。」這種靈活的商業模式為高通打開了更多市場空間。
而高通的市場驗證已然開始。 2024年5月,高通宣佈與沙烏地阿拉伯的Humain公司合作,為該地區的資料中心提供AI推理晶片。 Humain將成為高通的客戶,並承諾部署最多可使用200兆瓦電力的系統。
除了建構硬體平台,高通還在建構一個針對大規模推理優化的超大規模級端到端軟件平台。該平台將支援主要的機器學習和生成式人工智慧工具集,包括PyTorch、ONNX、vLLM、LangChain和CrewAI,同時實現無縫模型部署。該軟件堆疊將支援分解式服務、機密計算以及預訓練模型的一鍵式載入,以簡化部署。
馬拉迪表示:「我們豐富的軟件棧和開放的生態系統支援,使開發者和企業能夠比以往更輕鬆地在我們優化的AI推理解決方案上整合、管理和擴展已訓練好的AI模型。Qualcomm AI200和AI250無縫相容領先的AI框架,並支援一鍵式模型部署,旨在實現無縫應用和快速相容領先的AI框架,並支援一鍵式模型部署,旨在實現無縫應用和快速相容領先的AI框架,並支援一鍵式模型部署,旨在實現無縫應用和快速相容。
高通轉向資料中心AI推理市場的原因是多方面的。首先,該行業一直由輝達主導,其GPU迄今佔據了超過90%的市場份額,但像OpenAI這樣的公司一直在尋找替代方案。 Google、亞馬遜和微軟也在為其雲端服務開發自己的AI加速器,這為新進入者創造了機會。其次,推理市場的規模正在快速成長,隨著越來越多的AI模型部署到生產環境中,推理需求將遠遠超越訓練需求。第三,高通在行動端積累的Hexagon NPU技術為其進軍資料中心提供了技術基礎,這是一種從邊緣到雲端的自然延伸。
高通發佈全新的AI晶片,本質上是傳統的市場邊界正在模糊,移動晶片廠商可以進軍數據中心,而數據中心晶片廠商也在向邊緣裝置延伸,形成了你中有我,我中有你的新的市場競爭格局。
無獨有偶,同樣是移動晶片廠商的聯發科也在進軍AI。這家傳統的手機晶片廠商正成為雲端ASIC設計服務的重要玩家,與博通這樣的ASIC市場領導者展開面對競爭,並且已經拿下了Google、Meta等科技巨頭的訂單。
早在去年,聯發科就宣佈與輝達的達成合作,而在今年的輝達GTC大會上,聯發科介紹了其Premium ASIC設計服務,顯示聯發科與輝達的合作擴展至IP領域,更彈性的商業模式,能提供各式客製化晶片/HBM4E等,並具有豐富的Cell Library,以及先進製程設計方案。
聯發科的核心競爭力在於其SerDes技術。聯發科指出,其SerDes技術為ASIC核心優勢,涵蓋晶片互連、高速I/O、先進封裝與記憶體整合。其中,112Gb/s DSP(數字信號處理器)基於PAM-4接收器,於4奈米FinFET製程打造,實現超過52dB損耗補償,意謂更低信號衰減、更強薦之抗干擾特性。該技術不僅適用於乙太網路路、光纖長距傳輸,現在聯發科更推出專為資料中心使用的224G Serdes,並已完成矽驗證。
近日,聯發科也正式宣佈與輝達合作設計GB10 Grace Blackwell超級晶片,該晶片將為新推出的NVIDIA DGX Spark提供動力。 DGX Spark是一款個人AI超級電腦,旨在幫助開發者在桌面上建立原型、進行微調和推斷大型AI模型。
據理解,GB10 Grace Blackwell超級晶片由最新一代Blackwell GPU與Grace 20核心Arm CPU組合而成,運用了聯發科在設計節能、高效能CPU、記憶體子系統和高速介面方面的專業知識。此配置提供128GB統一內存,並提供高達1 PFLOP的AI性能,以加速模型調優和即時推理。這使得開發人員能夠在本地處理高達2000億個參數的大型AI模型。此外,該系統內建ConnectX-7網路技術,可將兩個DGX Spark系統連接在一起,從而對高達4050億個參數的模型進行推理。 DGX Spark的節能性能足以使用標準電源插座,其緊湊的設計使其能夠輕鬆放置在桌面上。
而除了與輝達的合作,聯發科也正在傚法博通和Marvell爭取在雲端服務提供者的市場。根據調研機構指出,部分CSP已在評價輝達及聯發科之IP組合的定製設計晶片。儘管GoogleTPU(張量處理器)進度稍微遞延,第七代TPU預計在明年第三季投入量產,但採用3nm打造仍有望為聯發科增加超過20億美元的貢獻。供應鏈也透露,Google進階到第八代的TPU,將開始採用台積電2nm流程,持續在先進製程領域維持領先地位。
聯發科的另一個重大突破來自Meta。聯發科和博通繼續爭奪Meta的新專用整合電路(ASIC)項目,業內人士強調,兩家公司的表現相當。然而,最近的報導表明,聯發科即將獲得Meta即將推出的一款2nm工藝ASIC的大額訂單,該晶片代號為“Arke”,專注於後訓練和推理功能,可能在2027年上半年實現量產。
據IC設計公司透露,聯發科在此次產品競賽中勝出,將是其獲得的第二筆重要的雲端服務供應商(CSP)客戶訂單。熟悉ASIC領域的業內人士指出,Arke原本並不在Meta的初始計劃中。在Iris晶片計畫於2025年底量產後,Meta曾計畫推出另一款採用N2P工藝的ASIC,名為Olympus。然而,考慮到實際需求和成本效益,Meta在產品發布計劃中途推出了一款專用於推理的晶片Arke。因此,Olympus將重新定位為一款專為訓練而設計的ASIC,以與Nvidia未來的GPU競爭,其發佈時間將推遲到2028年。
Meta之前的產品,主要由ASIC市場領導者博通開發。不過,聯發科與Meta之間已有合作關係。例如,Meta早期自主研發的智慧眼鏡晶片就是與聯發科合作開發的,這在ASIC領域奠定了堅實的基礎。因此,聯發科可能獲得Meta對新款Arke產品的青睞,這並不完全出乎意料。
業內人士表示,在與Google關係穩定後,聯發科需要擴大合作範圍,以在雲端ASIC市場建立更大的影響力。近期,市場觀察到CSP巨頭的ASIC設計策略和規劃發生了變化。儘管雲端AI的使用量依然龐大且供應緊張,但CSP已調整其策略以提升成本效益。以前,技術合規性和整合能力是優先考慮的,而往往忽略了成本。如今,隨著對雲端AI市場實際動態和晶片設計細節的洞察越來越清晰,CSP也致力於開發更實用、更經濟的產品。在這樣的大環境下,聯發科的成本優勢正逐漸顯現。
聯發科轉向ASIC的原因與其獨特的市場定位有關。作為台灣晶片設計公司,聯發科在手機晶片市場面臨激烈競爭,利潤率受到擠壓。 ASIC設計服務為聯發科提供了更高的利潤率和更穩定的客戶關係。同時,聯發科在先進流程、高速介面、記憶體整合等方面的技術積累,使其能夠為雲端服務供應商提供差異化的解決方案。更重要的是,聯發科透過與輝達的合作,獲得了進入高端AI市場的入場券,這是其獨立發展難以實現的。
與其他廠商相比,AMD在ASIC領域的動作相對低調,但其正在開發的基於Arm架構的產品顯示出這家公司對未來市場的戰略思考。根據一篇頗具深度的行業雜誌洩露的資訊,AMD正在開發一款代號為「Sound Wave」的基於Arm的APU,並將於明年晚些時候發布。
這篇題為《AMD正在開發基於Arm的APU,代號為Sound Wave》的短文被洩露,甚至還附上了部分海關申報單,顯示了包裹的尺寸。一段時間以來,一直有傳言稱AMD正在開發一款基於Arm的裝置,但這篇最新洩露的文章透露了其大致規格,包括相當小的32mm x 27mm BGA封裝,包含六個CPU核心(兩個P核心+四個E核心)和一個RDNA架構GPU,這讓它看起來更加現實。目前,用於評估電氣特性的電路板正在發貨。
從小巧的封裝來看,裝置似乎瞄準移動應用,並將充分利用Arm架構的省電特性。與英特爾共享x86架構CPU市場的AMD在PC/服務器市場競爭激烈,但近年來,AMD一直與台積電合作,按照其路線圖將基於Zen架構的高效能CPU推向市場,並穩步搶佔英特爾的市場份額。
執行長蘇姿丰長期以來一直奉行透過x86架構鞏固高端市場地位以確保更高利潤率的產品戰略,但現在似乎是時候將在移動領域市場份額不斷擴大的Arm架構融入到自己的CPU中了。為資料中心市場供應高效能CPU/GPU的AMD似乎意識到了邊緣裝置上AI工作負載的未來成長領域。
AMD先前也曾開發過採用Arm架構的CPU,但那次開發最終只是Opteron品牌下名為「A1100」的一次性伺服器CPU產品。 AMD於2003年憑藉K8架構的Opteron品牌進軍服務器市場。之後,他們進一步升級管線結構,並試圖以主打高主頻的Bulldozer核心架構鞏固其地位。然而,產品層面的實際性能並未提升,這一嚐試最終以失敗告終。結果,AMD在市場上長期缺乏足夠的產品來與英特爾競爭。
AMD重返伺服器市場的時間被推遲到2017年,直到推出Zen架構產品。 A1100 Arm架構服務器CPU是AMD在艱難時期經過反複試驗後,開發出來的節能服務器處理器。當時,Arm架構尚未在伺服器市場被接受,市場吸引力不大,但AMD推出了K12項目作為後繼架構。
K12項目旨在推出一個平台,其解碼器相容x86和Arm指令集,並且引腳相容x86和Arm。當時,AMD將其稱為"雙架構計算",甚至發布了技術概述。但最終,K12項目在發布之前就被取消了,原因是管理層決定優先開發Zen架構,以重新奪回x86市場的主導地位。現任AI處理器初創公司Tenstorrent首席執行官的Jim Keller當時負責AMD架構開發的工程工作,在一次回顧那段時光的採訪中,他表示:“那是一個嚴重的管理失誤。”
輝達近期宣佈入股英特爾,並在x86市場展開合作,這固然是對兩家的公司的利多,但與此同時,紮根x86市場的AMD也有了新的危機感。
事實上AMD所處的環境自10年前以來發生了翻天覆地的變化,一方面,技術創新的主流已經從CPU轉向GPU,另一方面,隨著chiplet架構的發展,引腳相容的概念已經過時,最重要的是,AMD現在擁有同時開發兩種不同架構的財力。
對於AMD而言,押注Arm似乎是面臨自身GPU短期難以直接與輝達競爭情況下,相對最合理的選擇之一了。
為何巨頭紛紛「變心」?
事實上,隨著如今AI發展進入深水區,GPU賴以為傲的通用性反而成了成為束縛,隨著AI模型的參數量和部署規模呈指數級上升,給了ASIC與Arm登上舞台的契機。
從底層邏輯來看,巨頭之所以紛紛押注Arm與ASIC,是因為AI時代的算力需求已經從「通用計算」轉向「專用計算」。
GPU之所以在早期稱霸,是因為它為AI訓練提供了足夠的平行運算能力,能靈活應對不同模型的訓練需求;但在AI模型進入部署和推理階段後,能耗、延遲、成本成為新的關鍵約束,通用GPU龐大的架構反而帶來了冗餘。 ASIC恰恰透過「定製化計算路徑」實現了極致的能效比,在不犧牲性能的前提下,將每一顆晶體管都用於最關鍵的運算任務。
與此同時,Arm架構成為這一趨勢的自然延伸。其低功耗、高可擴展的特性,使其在AI推理、邊緣計算、智慧終端中獲得青睞。無論是亞馬遜和微軟,還是Google和Meta,都在用事實證明:x86的霸權正在被削弱,而Arm的靈活授權模式與開放生態正成為AI基礎設施的新底座。
對傳統巨頭而言,轉向Arm和ASIC的戰略並非單純的“追風口”,而是一場突破瓶頸,力圖爭取更大市場的結構性轉型:
英特爾希望以ASIC訂製服務為突破口,彌補AI晶片代工與設計的落差,並以自身IDM模式打造設計+製造+封裝的系統型競爭力;
高通借助移動端的Hexagon NPU積累,從邊緣AI向雲端推理延伸,意圖透過低功耗ASIC系統重塑資料中心能源效率結構;
聯發科依託高速SerDes與記憶體整合優勢,切入CSP的AI ASIC供應鏈,以高效能+高性價比贏得Google與Meta訂單;
AMD則以Arm架構探索新型APU,試圖在PC與低功耗AI場景建立差異化優勢,避免被輝達與x86生態完全鎖死。
最後,更深層的原因在於:AI晶片產業的價值重心正在「去中心化」。過去,晶片公司賣的是產品,現在賣的是能力──算力、IP、設計服務、生態介面。定製化的ASIC與可授權的Arm架構,恰好構成了這種去中心化的底層載體,讓不同公司能夠在特定場景中重新定義競爭規則。
因此,當GPU的黃金時代進入瓶頸期,AI算力的競爭正悄悄分流:一條通往「更通用、更昂貴」的高端GPU計算;另一條,則走向「更專用、更有效率」的ASIC+Arm體系。
展望未來,AI基礎設施將愈來愈往專用晶片而非通用晶片靠攏,屆時誰能爭取更多的雲巨頭訂單,誰就有望在下一個半導體行業的十年裡獨佔鰲頭。 (半導體產業觀察)