#ASIC
ASIC來勢洶洶,輝達慌了嗎?
隨著各家大廠持續進行資本支出、AI競爭白熱化,市場目前盛傳兩種主流觀點,一是TPU和ASIC作為GPU替代方案崛起,使輝達(NVIDIA)護城河遭到侵蝕;另一個是Google逆襲,透過AI模型Gemini取得市佔和主導AI搜尋,最終將擊敗OpenAI。根據外媒siliconANGLE的看法,上述兩種說法都嚴重誇漲,且不一定如市場所想。理由之一是輝達將持續精進其GB300和後續Vera Rubin架構,可維持領先出貨並不斷降低成本,成為迄今最具成本效益的平台。至於Google則在壯大的同時面臨一種「創新者困境」。報導稱,由於Google搜尋業務與廣告營收高度繫結,一旦Google將廣告模式轉向類似聊天機器人的體驗,單次搜尋查詢的服務成本將暴增至原來的100倍;再者,Google必須將商業模式轉向更高度整合的購物體驗,必須連結使用者與廣告主,但即便Gemini近期取得一定成功,Google仍不具備這樣的信任基礎。相比之下,OpenAI核心在於強調可信資訊,而非推送廣告,仍有其優勢。為何TPU難以打破輝達AI護城河?該報導認為,TPU核心問題不在是否為「好晶片」,而是架構能否適配AI下一階段的發展需求。TPU是因頻寬昂貴且稀少而誕生,適合低頻寬需求的AI任務,但隨著模型規模擴大與工作負載多樣化,逐漸在擴展性等方面遇到限制。目前領先AI訓練走向為「高頻寬與大規模擴展」而改善的系統架構,並且支撐GPU工廠,這要讓大量加速器彼此連接,並長時間維持高效運轉。輝達護城河來自其端到端、為高頻寬、大規模擴展與可持續利用率而打造的整體架構,也是邁向AI工廠、大規模生產基礎設施時,最關鍵的決定因素。此外,不管是TPU等AI晶片都受制於先進封裝產能瓶頸,輝達除了掌握一定產能外,還持續推進GB200、GB300到Rubin的架構,並改善交換技術與整體系統設計,可說更有優勢。該報導認為,在供應受限的環境下,超大規模雲端業者勢必採取混合架構策略。以Google為例,它會在適合的地方使用TPU,但難以全面取代GPU。此外,像Google這樣的主要超大規模業者,不太可能大規模對外銷售自家專有加速器,讓其直接競爭對手形成真正的外部市場。該報導指出,「TPU走向開放市場」更合理的解釋是生態系夥伴(例如博通)以及Meta等公司在當前環境下尋求任何優勢所帶來的壓力,而非Google有意成為真正的商用晶片供應商。與OpenAI的競爭? Google 可能面臨「自我顛覆」困境該報導認為,Google困境在於如何以不損害其獲利引擎的前提下,讓主導模式過渡到更完善的模式。雖然Google獲利引擎建立在與搜尋行為掛鉤的廣告變現上,但如果互動模式轉向ChatGPT式的體驗,要更豐富的答案、更長的會話和更耗費運算資源的回應,會使成本結構發生巨大變化。「Google只會自我顛覆!」該報導認為,Google忽略了最重要的限制因素,即搜尋的經濟效益對Google來說是獨一無二的,從經典搜尋轉向助手式的互動模式會改變單位經濟效益,從而可能破壞盈利引擎。現階段OpenAI領先優勢明顯、 Nvidia護城河堅固該報導認為,就平台動能而言,現階段仍是OpenAI「領先一大截」,因為平台建設、開發者採用、企業使用者組合轉變以及對稀缺運算資源的掌握,目前都對OpenAI有利。從目前來看,輝達的護城河因出貨量、經驗曲線效應以及多年端到端系統工作,形成穩固護城河;OpenAI則因平台執行力及企業需求而保持領先。在這個競爭格局中,模型品質已成為基本門檻,真正的競爭焦點在於模型周邊的軟體與服務。雖然早期「Google可能顛覆OpenAI」的情境確實存在可能性,但資料與平台動態顯示,OpenAI先行者優勢正逐步轉化為更持久的競爭力,尤其隨著企業逐漸成為市場重心,加上與輝達的合作關係變得更加重要。 (半導體芯聞)
這類晶片,變了
IC 和 SoC 正在利用一系列處理元件,使它們能夠最佳化當前的工作負載,同時為未來做好準備。過去只需在ASIC、FPGA或DSP之間做出簡單選擇,如今卻演變成多種處理器類型和架構的組合,包括不同程度的可程式設計性和定製化。速度固然重要,但技術發展日新月異,如今的最佳解決方案可能在晶片投入生產時就已經過時。如果出現新的AI模型、記憶體標準或其他類型的技術升級,與成本高昂的晶片重新設計相比,可程式設計元件提供了一種更簡便的解決方案。這甚至可能包括更換一個可程式設計晶片組。晶片現場重新程式設計或重新配置的能力使設計人員能夠重新分配工作負載,並為消費者提供硬體升級,而無需他們購買昂貴的新裝置。FPGA(現場可程式設計門陣列)和DSP(數字訊號處理器)是兩種最常見的可程式設計元件,但還有其他類型的元件。Arteris公司產品管理和市場行銷副總裁Andy Nightingale表示:“最簡單的例子就是圖形處理器(GPU)。長期以來,人們一直使用大規模平行、可程式設計的GPU來完成各種任務。它可能不是最優方案,但在軟體驅動和硬體驅動方面,它與FPGA最為接近。”雖然GPU具有高度可程式設計性,但它們也極其耗電,因此設計人員會嘗試其他解決方案來開發嵌入式AI應用。一種常用的方案是使用功能相對固定的神經處理單元(NPU)和可程式設計DSP。Quadric首席行銷官Steve Roddy表示:“Nvidia的GPU採用CUDA C++程式設計方言和基於線程、線程束的程式設計模型,依賴於硬體密集型快取系統。這使得程式設計師可以忽略資料如何對應到記憶體,而將細節交給硬體處理。DSP也支援C和C++程式設計,但功耗遠低於GPU,因為DSP通常使用本地SRAM而非本地快取,並且採用DMA(直接記憶體訪問)進行資料傳輸,而不是無休止地讀取快取行。DSP在AI性能方面存在侷限性,因為它們無法高效地進行矩陣運算,並且資料平行性有限。NPU在AI核心的矩陣運算方面表現出色,但缺乏可程式設計性。我們的GPNPU(通用神經處理單元)融合了NPU的矩陣運算效率和DSP的低功耗可程式設計性,打造出一款理想的嵌入式AI處理器。”Synaptics 最新的嵌入式 AI 處理器採用 Arm CPU 和 MCU,並搭載 Helium DSP 擴展,以及基於 RISC-V 架構的 Google Coral NPU。而 Blaize 則使用專有的可程式設計圖流處理器 (GSP),利用 Arteris 的片上網路 IP 實現多模態 AI 應用。資料中心也有多種可程式設計選項。“資料處理單元 (DPU) 是一種智能網路介面,可用於路由來自系統不同部分的包,”Nightingale 說道。“資料中心領域還有 P-4 可程式設計交換機。它們是用於可程式設計封包處理流水線的網路交換機。此外還有可重構陣列。粗粒度可重構陣列 (CGRA) 執行特定功能。它們採用軟體驅動的重構,抽象等級高於 FPGA,因此能夠在流水線中實現靈活性、效率和 AI 推理之間的平衡。”CGRA 是一種新興技術,其性能介於 FPGA 和 GPU 之間,能夠實現更加融合或平衡的方案。“這可能是目前所有技術中最有趣的一個,”Nightingale 說。“他們仍在進行實驗階段,因為有些技術已經達到了可以信賴的基準,而有些新技術雖然展現出了潛力,但尚未經過全面測試。它們有可能在各自的領域內帶來顛覆性的變革。我仍然提倡針對特定任務將 FPGA、GPU 和 XPU 結合使用。這可能是我們目前所關注的最佳組合。”CGRA 和現場可程式設計模擬陣列 (FPAA) 將可重構計算的靈活性擴展到了傳統數字邏輯之外。“市場尚處於早期階段,市場需求的規模和成熟度仍存在疑問,”Altera 業務管理集團負責人 Venkat Yadavalli 表示,“尤其是在生態系統支援、工具鏈成熟度以及與現有 FPGA 和 ASIC 設計流程的整合方面,更是如此。”可程式設計性、可重構性和可定製性晶片可以是可程式設計的,也可以是可重構的,或者兩者兼具,FPGA 就是如此。Baya Systems首席商務官Nandan Nayampally表示:“整個硬體本身都是可程式設計的,這意味著我可以完全改變FPGA上的設計,這就是可程式設計性所在。下一層則表示,‘我擁有所有這些元件,我擁有所有這些互連結構,但我可以配置分配給這個裝置的頻寬和延遲。’我可以設定優先順序。這也是可程式設計性,但它有一定的侷限性,因為你並沒有完全改變功能,而只是對資源進行不同的分區和配置。”例如,有些CPU是可程式設計和可配置的,但僅限於一定程度。“在CPU層面,也就是通用的可程式設計性領域,存在像RISC-V架構或ISA架構這樣的可程式設計CPU,而且在架構方面,還有其他一些技術正在湧現,”Altera公司的Yadavalli說道。“FPGA提供了你所需的極高靈活性,可以引入並實現各種不同的工作負載。以RISC-V為例,它允許你進行一些與裝置相關的配置,你只需做出一些基本決策來幫助另一個晶片工作,或者它可能是一個可程式設計性有限的RISC-V處理器。”FPGA始終具備極高的可程式設計性。“因為你可以更改I/O,可以更改底層結構,可以根據需要隨時更改所有設定,”Yadavalli說道。“其他類型的可程式設計性探索得更加有限,也更具針對性。如果已經有了標準產品,我還能提供什麼來增加其靈活性呢?它雖然可配置性更強一些,但並非完全可程式設計。”晶片還可以通過電源基礎設施進行定製。“定製的方式有很多種,” Movellus首席執行長 Mo Faisal 表示,“一種方式是每個晶片都進行定製,擁有定製的電源網路和最佳化方案。假設有一百萬個晶片封裝在一百萬種不同的封裝中,它們都是獨一無二的。但是,我們可以讓電源基礎設施更具可程式設計性,使其與不同的封裝相匹配,因為每個封裝的諧振頻率都不同。如果可程式設計性足夠強,我就可以消除一些封裝差異帶來的影響。這可以帶來顯著的性能提升,因為封裝會導致電壓下降,進而影響最小電壓 (Vmin) 、功耗、散熱等等。”人工智慧和模擬訊號增長對 DSP 的影響現代 SoC 正在快速發展,其中一個顯著的變化是它們需要處理的模擬內容越來越多,這給 DSP 帶來了額外的負擔。Cadence公司產品管理和市場行銷高級總監、電腦視覺/人工智慧產品負責人Amol Borkar表示:“這些晶片不再僅僅是數字晶片——它們現在還整合了射頻、混合訊號和感測器介面,可用於5G、汽車雷達和物聯網裝置等領域。這聽起來功能強大,但也意味著數字訊號處理器(DSP)要處理遠非完美的訊號。現實世界中的模擬訊號存在噪聲、失真和波動,因此DSP必須付出更多努力來淨化這些訊號。這促使人們大力開發更智能的校準和補償演算法。”正因如此,數字訊號處理器(DSP)的作用範圍不斷擴大。“它們不再只是進行數值運算,而是進行模擬感知處理,”Borkar說道。“例如,自適應濾波可以降低干擾,射頻功率放大器的線性化,以及校正模數轉換器(ADC)和數模轉換器(DAC)的誤差。所有這些都增加了複雜性,因此DSP架構正變得越來越平行,並且通常包含專用加速器以滿足性能需求。”數字控制模擬賦予了DSP更強的可程式設計性。“如今,如果你有一個基本的資料流主幹,DSP通常是模擬的,但你會在傳輸過程中分出一些訊號並將其轉換為數字訊號,”Synopsys旗下Ansys的產品行銷總監Marc Swinnen說道。“現在,你可以對各種數學演算法和所有軟體程式碼進行完整的數字分析,並進行大量的數位化思考。當你考慮反饋訊號應該是什麼時,你會將其轉換回模擬訊號並反饋。這被稱為數字控制模擬,它將可程式設計性、軟體和數位電路引入到反饋流程中。它雖然速度不如模擬訊號快,也不如模擬訊號優雅,但它更易於程式設計,軟體也更易於控制。”展望未來,一些有趣的趨勢正在湧現。“人工智慧正開始在解決SoC中模擬內容增多帶來的挑戰方面發揮重要作用,”Borkar說道。“傳統上,DSP依賴固定模型來校正模擬訊號中的缺陷,但當實際情況發生變化時,這些模型往往力不從心。而這正是人工智慧的優勢所在。機器學習可以從實際裝置行為中學習,並動態調整校準,預測ADC或射頻路徑中的非線性,並即時應用校正。”人工智慧也使數字訊號處理器(DSP)更具適應性。“人工智慧驅動的演算法無需使用靜態濾波器或均衡器,就能隨著環境變化(無論是溫度變化、元件老化還是干擾)不斷自我最佳化,”博爾卡爾說。“這對於5G無線電或汽車感測器等環境瞬息萬變的系統尤為重要。”其他人則認為未來將是傳統方法與人工智慧方法的融合。“我們與一些汽車行業的客戶討論了數字訊號處理器(DSP)將繼續承擔那些功能,以及人工智慧將取代那些功能,”弗勞恩霍夫積體電路研究所(Fraunhofer IIS)自適應系統工程部門高效電子部門負責人安迪·海尼格(Andy Heinig)表示。“例如,雷達就需要三種不同的快速傅里葉變換(FFT)。雖然有一些方法可以用人工智慧來替代FFT,但我們非常肯定,傳統的FFT演算法在能效方面要好得多,因為它可以高度最佳化,而且要達到相同的精度,需要非常龐大的網路。此外,FFT演算法更具確定性,也更容易解釋。我們認為解決方案是保留FFT演算法,然後,例如,在目標識別等任務上,可以在此基礎上應用人工智慧。但要完全取代傳統DSP的所有功能,我們認為是不可能的。”在進行訊號調理時,首先使用一些經典的DSP演算法和FFT進行初步處理是合理的。“我們會看到一個短期趨勢,即所有技術都被人工智慧取代,但最終肯定會回歸這種混合方法,”海尼格說道。“找到正確的方法——那些是經典方法,那些是人工智慧方法——需要反覆迭代。”FPGA中的DSP切片和AI引擎Altera 的 Yadavalli 指出,FPGA 中內建的DSP是可重構模組,其效率已經大大提高,能夠處理定點和浮點運算,以及 AI 和機器學習工作負載。除了數字訊號處理器 (DSP) 之外,許多現代 FPGA 還配備了人工智慧引擎,這些引擎是超長指令字 (VLIW)、單輸入多資料流 (SIMD) 處理器。這樣做的一個優勢是使 FPGA 能夠與資料同步執行數字訊號處理。“與以往使用獨立的 DSP,然後再由 FPGA 從模數轉換器 (ADC) 或數模轉換器 (DAC) 採集資料不同,現在只需 DSP 切片或 AI 引擎即可,”Yadavalli 說道。“這是我們在過去幾年中一直致力於推動的新發展方向,即將這些向量計算引擎整合到單個器件中。”向量處理單元 (VPU) 與 GPU 類似,都包含用於執行處理的核心。“或者像 x86 架構一樣,它有自己的核心架構,”Yadavalli 說。“這是一種不同的架構,指令集也不同,但它針對線性代數和矩陣運算進行了最佳化。”AI引擎可以承擔一些傳統的DSP工作負載,但並非全部。“乘加運算在許多不同的操作中都非常有用,因此可程式設計邏輯仍然包含DSP切片,”AMD自適應和嵌入式產品行銷高級經理Rob Bauer表示。“但現在,我們在器件中加入了AI引擎陣列,以處理這些計算密集型負載,例如通道化器、FFT、FIR濾波器等,我們已經有一些應用案例。由於這些優勢,航空航天/國防和測試/測量市場已經大量採用了這項技術。”從射頻測試的角度來看,將ADC和DAC整合到與FPGA相同的晶片上至關重要。“這可以降低系統測試的延遲,”Bauer說道。“你不需要像其他一些方法那樣使用獨立的資料轉換器,甚至不需要獨立的晶片組。如果使用晶片組和FPGA,仍然需要在兩者之間傳輸資料。而將ADC與可程式設計邏輯整合在同一晶片上,則能帶來顯著的優勢。”Chiplets 或 eFPGA 提供靈活性對於新的、未知的和不斷變化的應用場景,可程式設計晶片允許工程師更新已部署的配置。Chiplets 也提供了一種解決方案。Arteris公司的Nightingale表示:“晶片組(Chiplet)搭載的技術能夠有效應對頻繁變化的應用場景,例如,可以隨時更換包含新協議或標準的晶片組。這在一定程度上削弱了FPGA的優勢,因為你可以說:‘在下一個晶片批次中,我可以建構一個搭載多個晶片組的SoC,然後我們將其中一個晶片組取代為剛剛升級的安全晶片組,其他部分保持不變。’然而,在原型設計方面,性能優勢和功耗之間存在著權衡。或許可以先在FPGA上進行原型設計,然後再進行替換。晶片組無疑將成為解決方案的一部分。晶片組能夠提供更多的時間或更多的變數。你甚至可以考慮使用搭載FPGA的晶片組,並將其取代為最佳化的處理單元。”這意味著帶有 FPGA 的晶片可以重新程式設計,但 SoC 的其餘部分無需再次驗證,因為只更改了一個部分。嵌入式FPGA是另一種解決方案,但由於其可重構電路的存在,會增加面積成本。“對於習慣於在最小面積內設計ASIC門電路的人來說,如果將同樣的電路設計放到FPGA中,面積就會大得多,”QuickLogic的IP銷售副總裁Andy Jaros說道。“設計人員需要謹慎思考,‘我只會把它放在真正重要的地方。’這也會影響成本。我們看到I/O靈活性方面出現了一些問題,因為沒有人願意再製作一個晶片。或者,如果新建了一個資料中心,並且對背板進行了一些改動,他們不想再製作ASIC晶片,所以他們會在那個位置放置一個嵌入式FPGA,以便能夠連接到不同的資料中心或背板。”此外,eFPGA 還為未知領域提供了靈活性。“現在未知,但未來終將知曉,” Synopsys移動、汽車和消費電子 IP 產品管理執行總監 Hezi Saar 表示。 “一旦確定了目標,就必須快速推向市場。而要保證可靠性,就必須降低功耗。我相信eFPGA可以實現一些功能,但它並非萬能的解決方案。由於存在這些未知因素,市場非常動盪。他們必須做出決策,並且會付諸行動,但他們需要有A、B、C三個備選方案,以應對可能出現的變化。根據我的觀察,他們會加快晶片的研發速度。在移動領域,這相對容易,因為他們可以快速完成。但在機器人等新興市場,挑戰更大,尤其是在他們提出“我需要從LPDDR5升級到LPDDR6。而代工廠正在將工藝節點從A更改為B。A節點對我來說已經無法使用了。我該如何快速過渡到下一個節點?”這樣的問題時。”儲存器架構是可程式設計邏輯和固定邏輯之間的關鍵區別。“ASIC 可以採用定製的儲存器層次結構來滿足特定的 AI 工作負載需求,而 FPGA 則提供了更大的靈活性,使其能夠應用於各種用例,”Rambus 的傑出發明家兼研究員 Steve Woo 表示。 “這種通用性和性能之間的權衡會影響效率,尤其是在模型規模不斷擴大、記憶體頻寬成為限制因素的情況下。”結論在人工智慧快速普及、機器人技術興起以及未來 6G 需求不斷增長的時代,可程式設計性使公司能夠跟上技術趨勢和消費者需求,即使這會犧牲 ASIC 的一些效率。西門子EDA半導體行業副總裁邁克爾·芒西表示:“我喜歡這樣描述:產品正在變得軟體定義、人工智慧驅動、矽晶片賦能。有了軟體,就需要半導體。軟體必須在某個地方運行。但隨著時間的推移,情況發生了轉變。過去,產品設計通常是先開發半導體,然後再進行軟體開發,因為很多功能和特性都是由軟體定義的。現在,軟體開發的時間大大提前,而且企業希望在產品發佈更新後實現盈利。基本上,他們希望通過軟體加入功能,並通過軟體更新產品。所有這些決策現在都必須在架構層面上做出。”然而,硬體必須能夠支援軟體的變更。以iPhone為例。“iOS 16發佈後,你把它安裝到手機上,手機性能就提升了,因為麥克風的降噪效果更好了,”芒西說道。“照片拍得更好了,因為這些都得益於可以更新的軟體和DSP演算法。電池續航時間更長了,因為他們調整了晶片的功耗曲線,並通過更新電池管理系統延長了電池壽命。除非你把整個產品架構設計成可以軟體更新的,否則這一切都無法實現。現在像特斯拉這樣的公司正在提供軟體升級,為汽車增加更多功能,所以我們可以看到這可能是一條發展之路。這就是為什麼各公司都在加大對編譯技術的投資,因為現在甚至在半導體可用之前,就必須開發出相應的軟體來進行協同設計。” (半導體芯聞)
重新洗牌!ASIC晶片破1000萬顆,中國國產AI晶片逆襲機會來了?
人工智慧正通過前所未有的硬體驅動(AI晶片)投資,以驅動全球產業和技術格局。根據專業機構資料,到2030年,用於AI最佳化資料中心的資本支出 (CapEx) 預計將超過7兆美元,這一規模是以往任何計算轉型都無法比擬的。但與過去幾年全球AI硬體以訓練為主不同,當前全球AI晶片市場正在經歷從GPU(圖形處理器)一家獨大,向“GPU與ASIC(專用晶片)共生互補”格局的深刻轉變;這與全球AI日益轉嚮應用端趨勢不謀而合。當然,目前全球人工智慧市場依然由GPU主導,其在市場價值中佔比超過80%,而ASIC僅為8%-11%。但如果以出貨量為指標的話,天平已在悄然傾斜。2025年,Google自研的TPU晶片出貨量預計達150萬-200萬台,亞馬遜AWS的Trainium 2 ASIC約為140萬-150萬台,兩者合計規模已接近同期輝達AI GPU的40%-60%。更具顛覆性的是,隨著Meta計畫2026年量產100萬-150萬顆MTIA晶片,以及微軟2027年啟動大規模ASIC部署。根據野村證券最新資料認為:ASIC整體出貨量有望在2026年某個時間點超越輝達GPU。而根據DIGITIMES預測,ASIC晶片出貨量將在2027年突破千萬規模,與GPU的出貨量相比,已在伯仲之間了。那這是否意味著輝達GPU的市場影響力下降了呢?以輝達為主導的全球GPU市場(AMD配角),其主要優勢在於通用性強、生態壁壘高(CUDA)、適合複雜和快速迭代的任務,如大模型訓練。從目前來看輝達GPU出貨量不會下降,但其市場份額將持續下滑將是必然。這從輝達第三財季的資料也可以得到印證,其第三財季營收為570.1億美元,超出市場預期的549.2億美元; 資料中心營收為512億美元,輕鬆超過分析師預測的490.9億美元,同比增長66%。這鞏固了輝達在人工智慧計算基礎設施領域的領先地位。其中,微軟、亞馬遜、Alphabet和Meta這四家公司合計佔輝達銷售額的40%以上,預計未來12個月這些公司的AI支出總額將增長34%至4400億美元。這說明輝達GPU在全球人工智慧市場中無可取代的地位。但從未來全球資料中心技術路線來看,也已從“單一引擎”進化到“混合架構”;即未來資料中心將普遍採用 “GPU訓練 + ASIC推理”的混合算力策略。這種組合既能利用GPU的靈活性進行模型開發和迭代,又能在模型部署後通過ASIC實現極致的推理能效和成本控制,最佳化整體營運成本(TCO)。從應用場景來說,隨著AI應用大規模落地,推理計算需求正呈指數級增長。有預測顯示,到2026年,推理計算需求可能佔AI總計算需求的70%以上。這種演算法相對固定的規模化場景,正是ASIC發揮其能效和成本優勢的主戰場。全球ASIC的爆發,恰好與中國的產業需求和安全訴求高度契合。這既是機遇,也帶來了獨特的挑戰。中國巨大的應用市場能提供豐富的推理場景,這正是ASIC的優勢領域。同時,外部供應的不確定性,使國產替代從“可選項”變為“必選項”,為本土ASIC創造了關鍵窗口期。何況,自研ASIC能針對特定場景最佳化,實現更好的性價比和能效比。但由於國產AI晶片在單顆晶片的絕對性能上暫時落後,中國企業開創性地將競爭維度提升到了 “系統級” ,即通過架構和互聯技術創新,用多晶片協同來彌補單卡差距。也就是說,國產晶片不再追求在單卡上對標頂級GPU,而是通過超節點(SuperPOD)等先進架構,將成千上萬顆國產晶片高效互聯,形成一個超級電腦等級的統一算力底座。目前,華為的Atlas系列超節點和阿里雲的磐久超節點伺服器已大規模部署,能支撐萬卡級叢集和千億參數大模型的訓練。業界認為,這是規避先進製程限制、持續提供算力的關鍵策略。根據弗若斯特沙利文資料,中國的AI晶片市場規模將從2024年的1425.37億元,激增至2029年的1.34兆元,2025年至2029年的年均複合增長率為53.7%。同時,國產AI晶片的滲透率也在快速提升。根據IDC資料顯示,2024年,中國本土AI晶片品牌滲透率約30%,出貨量達到82萬張,相較上年同期15%的國產品牌滲透率,呈明顯提升趨勢。甚至有分析預測,中國AI晶片市場的本土化率將快速提升至2027年的55%左右。因此,從全球AI晶片的技術趨勢來看,ASIC晶片的應用將愈發廣泛;結合中國市場對供應鏈安全、成本控制和龐大應用場景的需求,這些正推動中國產業走出一條以ASIC和專用晶片為突破口、以系統級叢集能力為槓桿、以應用生態協同為加速器的獨特發展路徑。 (飆叔科技洞察)
🎯台積電、聯發科非首選?解鎖:TPU+GPU雙核心時代台廠最賺的三大贏家!Line@連結:https://lin.ee/mua8YUP🎯台幣狂升、外資連5買下台股即將挑戰前高28554了你還在擔心AI只是曇花一現?醒醒吧!錯過的不只是「一桶金」而是整個AI產業革命的核彈級噴發看看特斯拉,放棄多年電動車策略,把巨資轉向AIMeta也抽手三成元宇宙資源, 全面ALL IN AI全球科技巨頭不是傻瓜他們用真金白銀告訴你AI浪花?不存在!這是長期、勢不可擋的浪潮GPU時代結束了嗎?過去靠輝達(GPU)就夠了但現在不是能不能做而是能不能更快、更省、更狠模型越大,訓練成本暴衝於是雙核心策略誕生:GPU+ASICGPU是萬用瑞士刀,ASIC是斬鐵武士刀Google直接雙路混用AI算力進入「雙核心時代」而台廠就是最大贏家。💥晶圓與設計服務:除了2330台積電之外3443創意、3661世芯-KY、2454聯發科成為ASIC黃金三角下一個成長引擎已啟動⚡電力×散熱:AI伺服器越多,最大瓶頸是電力1513中興電、1519華城、1503士電、1514亞力、2308台達電、2301光寶科、1609大亞、3665貿聯、6781AES-KY、4931新盛力、3211順達等全線受惠液冷時代來臨,伺服器散熱設備需求爆量:6805富世達、3017奇鋐、3324雙鴻、3653健策、8996高力💡CPO/矽光子:AI神經網路啟動!3363上詮、6442光聖、3081聯亞、4979華星光、3450聯鈞、4971IET-KY,以及3189景碩、8046南電、3037欣興、2383台光電、2368金像電、6274台燿等PCB/載板廠,都將同步受惠,訂單密度持續拉高!🔴重申:AI雙核心軍備賽才剛開始。想知道下一波暴利股是哪幾檔?想跟江江一起鎖定台股AI核彈級商機!接下來我們會在粉絲團持續幫大家鎖定+追蹤,若還不知道該如何操作?那建議你務必要鎖定江江在Line @,將有更進一步的訊息給大家了解。https://lin.ee/mua8YUP🔴想了解還未起漲的市場主流,同步了解大盤多空轉折點及學習預測技術分析,江江YT節目都會持續追蹤+預告。https://reurl.cc/02drMk********************************************************有持股問題或想要飆股→請加入Line:https://lin.ee/mua8YUP江江的Youtube【點股成金】解盤:https://reurl.cc/02drMk*********************************************************(本公司所推薦分析之個別有價證券 無不當之財務利益關係以往之績效不保證未來獲利 投資人應獨立判斷 審慎評估並自負投資風險)
AWS Trainium3發佈,對標GB300,冷板散熱,Asic液冷迎來新“金主”
01.亞馬遜發佈Trainium3,性能對標GB300亞馬遜雲服務(AWS)本周推出了新一代Trainium3加速器,用於人工智慧訓練和推理。AWS表示,這款新處理器的速度是上一代的兩倍,效率更是提升了四倍。這使其成為性價比最高的人工智慧訓練和推理解決方案之一。AWS Trainium3是一款雙晶片 AL加速器,配備 144 GB HBM3E 記憶體,採用四組記憶體堆疊,峰值記憶體頻寬高達 4.9TB/S。每個計算晶片據稱由台積電採用 3nm 工藝製造,包含四個 Neuroncore-v4 核心(與前代產品相比,其指令集架構 (ISA)有所擴展),並連接兩個 HBM3E 記憶體堆疊。兩個晶片通過專有的高頻寬介面連接,共享 128 個獨立的硬體資料傳輸引擎、用於協調晶片間流量的通訊核心,以及四個用於橫向擴展連接的 NeuronLink-v4 介面。從絕對數值來看,Trainium3可提供高達2517 MXFP8 TFLOPS的運算能力,比輝達的Blackwell Ultra低了近一半。然而,AWS的Trainium3 Ultraserver每個機架可容納144個Trainium3晶片提供0.36 ExaFLOPS的FP8性能,與輝達的NVL72 GB300的性能相當。02.Trainium3的服務器,整機櫃資料Trainium3伺服器,每個1u伺服器配置4顆Trainium3晶片,但是沒有和輝達的Blackwell一樣採用4+2方案。Trainium3的單晶片功耗約700w,整機櫃超100kw,採用冷板液冷散熱,採用小冷板方案,每個晶片上覆蓋一個小冷板。UltraServer 的架構類似輝達的Rubin 144架構,最多可擴展至 144 顆 Trainium3 晶片(總計 362 FP8 PFLOPs),並且可通過 EC2 UltraClusters 3.0 擴展至數十萬顆晶片。一台配置完整的 Trn3 UltraServer 可提供高達 20.7 TB 的 HBM3e 記憶體和 706 TB/s 的聚合記憶體頻寬。新一代 Trn3 UltraServer 採用 NeuronSwitch-v1,這是一種全連接架構,其晶片間互連頻寬是 Trn2 UltraServer 的兩倍。與 Trn2 UltraServer 相比,Trn3 的性能提升高達 4.4 倍,記憶體頻寬提升高達 3.9 倍,每瓦性能提升高達 4 倍。03.ASIC晶片部署規模逐漸擴大,Google,AWS將帶來新大波液冷需求在AI熱潮席捲全球之際,輝達作為全球晶片霸主穩居主導地位,目前佔據AI晶片80%的市場份額,但是輝達的主要競爭對手AMD HW等晶片廠商在快速崛起,搶佔輝達的AI晶片市場。除了以上主流的晶片廠商在爭奪AI晶片市場,另外以微軟,Google等公司為代表的自研ASIC晶片也在陸續推出。從富邦發佈的台積電晶片研報資料來看,ASIC晶片在台積電的晶片先進封裝份額正在快速升高,預估在AI市場的推動下,預估到明年ASIC晶片封裝將會快速升高至36%-40左右。今年 10 月,Anthropic 宣佈與Google達成合作,將使用多達 100 萬顆Google TPU 晶片,以實現除亞馬遜和輝達之外的供應多元化。Anthropic 表示,亞馬遜仍是其主要訓練合作夥伴與雲服務提供商。該公司預計,到今年年底,將使用超過 100 萬顆 Trainium 2 晶片,其中包括運行在擁有近 50 萬顆 Trainium 處理器的 Project Rainier 超級電腦之上。隨著AI的火熱競爭,ASIC晶片的研發和生產速度在加快,目前ASIC晶片推進最為積極的廠商是Google,微軟和亞馬遜,迭代速度很快,幾乎和輝達齊平,一年一個新產品,晶片性能快速上升,Google的第七代 TPU Ironwood 性能比肩輝達的B200,同時晶片的功耗也在飆升,Google的TPU今年功耗單晶片突破600w,叢集功率高達10MW,微軟的Maia 100晶片功耗高達700-900w。隨著國內外廠商加快 ASIC 晶片及液冷方案佈局,預計 ASIC 市場擴張將推動液冷需求進一步提升。(零氪1+1)
中美AI算力中盤博弈:開放與封閉之爭
近日,GoogleTPU攜Gemini3逆襲之勢大幅拓寬增量前景,Meta考慮斥資數十億美元為其買單,機構將TPU產量預期上調67%至500萬塊。基於“晶片-光交換網路-大模型-雲服務”全鏈閉環,Google智算體系重回AI賽道前沿梯隊,標誌著美式封閉壟斷路線更進一步。與此同時,以DeepSeek為代表的開源模型緊追不捨。月初,DeepSeek V3.2及其長思考增強版模型出爐,前者在性能測試中打平ChatGPT,後者直接對標閉源模型頂流Gemini。這也預示著中國開源開放路線漸入佳境,國產智算體系在應用層展現出良好的生態協同潛力。至此,中美AI產業博弈棋至中盤,“開放協同”與“封閉壟斷”對位格局愈發清晰。尤其在智算生態佈局中,兩大陣營或正醞釀著一場體系化能力的巔峰較量。從Gemini 3到TPU v7,軟硬一體閉環臻至極境毋庸置疑,GoogleTPU的突然走紅,很大程度得益於Gemini3的模型能力驗證。作為專為GoogleTensorFlow框架而生的ASIC晶片,TPU憑藉軟硬體一體化設計為其全端閉環完成奠基,同時也在上層應用高位突破時俘獲外部使用者市場,甚至一度被視為輝達GPU的最強平替。所謂“軟硬一體化”,即硬體的設計完全服務於上層的軟體和演算法需求。如Gemini 3訓練和推理過程高度適配TPU叢集,而這種定製化專用模式也在功耗能效方面展現出極高價值——TPU v5e的功耗僅為NVIDIA H100的20%-30%,TPU v7每瓦性能較前代產品翻倍增長。目前,Google通過“晶片+模型+框架+雲服務”的垂直整合,形成了一個封閉且高效的循環。一方面極大地提升了自身AI研發和應用開發效率,另一方面也在NV主流體系下裂土而治,奪得又一智算賽道主導權,Meta對TPU的採購意向則將這一體系熱度推向了高點。業內有觀點指出,從蘋果到Google,美式的垂直封閉玩法幾乎臻至極境,表現出科技巨頭為鞏固和擴張利益版圖,在產業鏈層面泛在的壟斷慾望。但從生態發展角度來看,封閉模式缺乏長期主義精神,極易導致產業長下游喪失創新活性,並形成單一主體高度集權的格局。另外,從TPU的應用場景來看,軟硬一體閉環儼然是專屬於巨頭的遊戲。某分析人士稱,Google的叢集化設計和“軟體黑盒”,需要使用者重新配置一整套異構基礎設施。如果沒有兆參數模型訓練需求,根本填不滿TPU的脈動陣列,省下的電費可能都抵消不了遷移成本。同時,由於TPU技術路線極為封閉,與主流開發環境無法相容,使用者還需要一支專業的工程團隊駕馭其XLA編譯器,重構底層程式碼。也就是說,只有像Google、Meta這種等級的企業才有資格轉向TPU路線,也只有算力規模達到一定程度才能發揮出定製化產物的能效優勢。不可否認,Google等頭部企業通過垂直整合自建閉環,在局部賽道快速實現單點突破,同時也造就了美國科技巨頭林立的蔚然氣象。但在中美AI博弈背景下,美式封閉壟斷路線憑藉先發優勢提前完成了賽道卡位,被動的追隨式趕超已很難滿足中國智算產業的發展需要。“小院高牆”之外,如何充分發揮舉國體制優勢,團結一切力量拆牆修路,成為拉近中美AI體系差距的關鍵。多元異構生態協同,開放路徑通往下一賽點相較於美式寡頭壟斷模式,中國智算產業正基於多元異構體系層層解耦,重塑開放式生態系統。從頂層設計到產業落地,“開源開放+協同創新”已然成為國產軟硬體全端共識。在政策層面,《算力基礎設施高品質發展行動計畫》提出建構佈局合理、泛在連接、靈活高效的算力網際網路,增強異構算力與網路的融合能力,實現多元異構算力跨域調度編排。並且,相關部門多次強調,鼓勵各方主體創新探索智能計算中心建設營運模式和多方協同合作機制。延伸到AI應用層,《關於深入實施“人工智慧+”行動的意見》同樣要求深化人工智慧領域高水平開放,推動技術開源可及......不難看出,國家在人工智慧和智算領域給出了截然不同的中國方案——不在封閉路線中盲目追趕封閉,要在開放格局下謀求錯位趕超。事實上,頂層設計完全基於產業現實需要。在美方科技封鎖下,中國智算產業主要面臨兩大挑戰:單卡算力性能瓶頸、算力成本高。除了在晶片、模型、基礎軟體等核心技術領域持續攻堅外,當前更有效的途徑是發展更大規模、更多元高效的智算叢集,突破AI算力瓶頸。業內調研結果顯示,國內宣佈擁有千卡規模的算力叢集不少於100個,但其中大部分是異構晶片。可以想像,假如不同硬體系統相互封閉,標準介面不統一,軟體棧互不相容,將導致難以實現智算資源的有效整合利用,更無法滿足大規模參數模型的應用需求。根據行業主流觀點,國產AI算力存在多元化、碎片化特徵,同時又具備相當的規模化優勢。當務之急並不是各自埋頭推進單一技術路線,更首要的是盡快打通“技術牆”、“生態牆”,實現產業鏈開放跨層協作,真正釋放總體算力生態潛能,從單點突破邁向整合創新。具體來看,所謂開放路線旨在基於開放的計算架構推動產業生態協同創新。比如通過制定統一的介面規範,聯動晶片、計算系統、大模型等產業鏈上下游企業共同參與生態建設,減少重複性研發和適配投入,共享技術攻關和協同創新效益。同時,隨著開放架構中的協作標準趨於統一,可以進一步打造出商品化的軟硬體技術,用以代替定製化、專有化的系統,進而降低計算產品應用成本,實現覆蓋產業全端的算力普惠。顯然,在中國式開放體系下,國產AI算力正打破GoogleTPU的泛化普及困境,將智算生態系統與各方開發者使用者廣泛連結,最終形成體系化協同戰力,更靈活高效賦能人工智慧+落地。屆時,中美AI博弈也將走出單卡競爭和單一模型比拚,全面迎來生態體系能力的終極對壘。 (伯虎財經)
GoogleTPU異軍突起,ASIC液冷將爆發,部署已超1GW !回看Google液冷進化史
01. Google TPU向輝達GPU發起衝擊,ASIC市場有望迎來爆發增長近期,AI市場火熱,Google對輝達發起最大衝擊,此前輝達的GPU一直穩居AI晶片王座,不容挑戰,但在Google發佈Gemini 3後,市場的風向開始轉變,Google的這一模型採用的是自研TPU進,而不是輝達GPU,更重要的是,業內認為其已經“超越”了OpenAI的GPT模型。除了Gemini 3,今年The Information也報導,Meta 正在與 Google 進行秘密談判,計畫大批次採購 Google 的 TPU 晶片,用於部分替代輝達的 GPU 以支援其龐大的資料中心 AI 運算。2027年Meta 可能將直接採購數十億美元的 TPU 晶片,部署於自建的資料中心此前Google有限責任公司已與人工智慧初創公司Anthropic達成一項價值數百億美元的交易。Anthropic官宣原話:宣佈計畫擴大對Google雲技術的使用,包括高達一百萬個 TPU,這將大幅提升計算資源,以持續推動人工智慧研究和產品開發的邊界。此次擴展價值數百億美元,預計將在 2026 年上線超過一吉瓦的容量。零氪認為,在Gemini 3等非GPU AI 模型推動下,近期 AI 算力需求逐步由訓練算力轉向推理算力,以Google TPU 為代表的 ASIC 在 AI 推理領域具備不遜色於輝達 GPU 的性能以及更低的功耗,有望在 AI 推理領域對 GPU 實現部分替代。02.液冷部署超1GW,Google伺服器液冷及整機方案回顧在 2024 年的 Google I/O 開發者大會上,Google CEO 桑達爾·皮查伊透露,Google的液冷裝置數量已增長至……約1吉瓦。Google的液冷技術已從晶片、伺服器、機架到資料中心基礎設施等各個層面進行了大規模開發。在晶片和伺服器層面,Google開發了冷板回路,其中冷板採用串聯和並聯配置,以滿足各個平台特定的散熱管理需求。Google的液冷故事始於 2018 年的 TPUv3,這是Google首次在量產 AI 伺服器上引入直接液冷。TPUv3 的液冷冷板採用銅材質、微通道鰭片結構,並設計了一種獨特的“中心衝擊、雙向分流(split-flow)”內部流道。這種結構相比傳統直通式流道具有更低的熱阻,更能有效覆蓋晶片中心的熱點區域。TPUv3 使用液冷的意義不僅在於溫度下降,而是直接帶來性能提升:它在同體積內實現 1.6 倍的 TDP 支援,頻率提升約 30%,並使得 TPU 超算的規模可以在相同空間內翻倍。TPUv3冷板的橫截面圖。冷板通過機械方式連接到TPUv3上。TPUv3產生的熱量通過導熱介面材料傳遞到冷板底座。Google開發的行內冷卻液分配單元,適配TPU V3。CDU 系統由泵和液-液熱交換器組成,用於將機架冷卻液回路與設施冷卻液回路隔離,從而為 IT 系統回路提供更小、化學成分更可控、更清潔的泵送冷卻液。CDU 由 6 個模組化 CDU (mCDU) 組成。在Google的 CDU 架構中,一個 mCDU 是冗餘的,這使得Google能夠實現整個機房範圍內的 CDU 可用性。約99.999 %自 2020 年以來一直如此。Google CDU 機隊從 2020 年第一季度 (Q1) 到 2024 年第四季度 (Q4) 的正常執行階段間。進入 2021 年,TPUv4 代表Google液冷技術邁向更高的工程複雜度。這一代 TPU 採用裸芯(bare die)封裝,冷板底部增加了“台階式接觸面”,精準穿過晶片封裝的機械圍框,直接觸達裸露的矽片表面。同一代還首次引入並聯液冷流道和主動流量控制閥,通過伺服器級閉環控制實現不同晶片的精準流量與溫度分配。Google特別指出,從 TPUv4 開始,液冷不再只是“去除熱量”,而變成“可控、可調的高性能熱管理系統”,直接服務於 AI 訓練過程中負載波動大、功耗變化快的特點。此時的液冷已經從被動散熱走向主動熱管理,是全新的計算架構能力組成部分。TPUv4 裸晶片封裝的橫截面示意圖。(c)帶底座的 TPUv4 冷板底座。TPU v5p也採用冷板式液冷技術,下圖為Google液冷式 AI 超級電腦方案。Google的第七代 TPU Ironwood 性能比肩輝達的B200,同時晶片的功耗也在飆升,Google的TPU今年功耗單晶片突破600w,叢集功率高達10MW。目前已經確認採用冷板式液冷技術。Ironwood晶片托盤。每個托盤包含4個Ironwood TPU晶片。該托盤採用液冷散熱。再上一層,每個機架可容納 16 個 TPU 托架,共計 64 個 TPU。該機架與另外 16 個 CPU 主機機架相連。機架內的所有互連均採用銅纜;OCS 提供與其他機架的連接。03.Google液冷CDU,加液車產品開發歷史Google開發的行內冷卻液分配單元,適配TPU V3。CDU 系統由泵和液-液熱交換器組成,用於將機架冷卻液回路與設施冷卻液回路隔離,從而為 IT 系統回路提供更小、化學成分更可控、更清潔的泵送冷卻液。CDU 由 6 個模組化 CDU (mCDU) 組成。在Google的 CDU 架構中,一個 mCDU 是冗餘的,這使得Google能夠實現整個機房範圍內的 CDU 可用性。Google發佈的第五代CDU單機可支援高達2MW的散熱能力,並且通過三塊並聯液-液換熱器、無密封高性能泵和全冗餘設計,實現了超高壓差、超高流量與極低溫差的散熱性能,同時相容風冷與液冷混合場景;更重要的是,Google還將該方案開源到OCP社區,為行業提供了一套面向AI時代超高功率資料中心的“液冷心臟”級解決方案。Google還開發了多種工具,其中包括一個相對較大的“注液套件”,用於在部署和日常維護期間向CDU裝置注液和排液。“注液套件”由一個150加侖的液體罐、泵、過濾器和其他輔助裝置組成。Google還開發了一種相對較小的推車,用於為IT托架和IT機架歧管等小型裝置注液和排液,如圖所示。IT托架注液推車由供液罐和回液罐、泵、電磁閥、空氣壓縮機和人機介面(HMI)以及其他輔助元件組成。這些工具由Google及其外部合作夥伴定製開發,並已通過認證,可在Google全球資料中心範圍內使用。Google資料中心大規模部署節能型液冷IT系統,得益於端到端供應商到資料中心模式的開發,該模式用於設計和交付IT規模和資料中心規模的液冷裝置。推薦的模式需要一個強大的多供應商供應鏈和生態系統,以確保端到端熱工水力性能、質量和可靠性達到最高標準。此外,建議資料中心所有者制定部署計畫,並考慮液冷裝置的端到端生命周期。利用開放標準可以加速資料中心液冷技術的規模化應用。04.ASIC液冷市場展望據媒體報導,預計 2025 年Google和 AWS 的 ASIC 合計出貨量將達到 400 萬片以上,後續 Meta,字節等廠商也將加快部署自研 ASIC 解決方案,ASIC 市場將迎來加速擴張,有望推動液冷需求進一步提升。此前台灣負責人在半年度財報發佈會也表示,最大客戶持續加大ASIC投入,預估明年這部分成長會滿可觀。 ASIC是高度客制化,包括水冷板數量與系統設計較GPU更複雜,儘管目前GPU水冷營收比重較高,但是高階ASIC專案投入速度快於GB系列,而且對水冷解決方案需求明顯升溫,預期將會成為後續重要成長引擎之一。從富邦發佈的台積電晶片研報資料來看,ASIC晶片目前市場份額正在快速升高,預估在AI市場的推動下,預估到明年ASIC晶片市場份額將會快速升高至36%-40左右。 (零氪1+1)
ASIC崛起,輝達的王座還穩嗎?
“我們為Google的成功感到高興——他們在AI領域取得了巨大進步,我們也將繼續向Google提供產品。輝達目前領先行業一代——我們是唯一一個可以運行所有AI模型、並在各種計算場景中通用的平台。”11月25日,輝達在社交平台X上的這番聲明,被視為對GoogleTPU近期備受關注的直接回應。就在聲明前一天,有消息傳出Meta正考慮從2027年開始在其資料中心部署Google的TPU,這一潛在交易金額可能高達數十億美元。受此影響,輝達股價一度重挫逾7%,市值蒸發近3500億美元。這一市場波動清晰地表明,AI算力領域正迎來一場靜默而深刻的變革。在輝達GPU看似壟斷的市場中,一股新生力量正悄然崛起。OpenAI開始租用Google的TPU晶片為其ChatGPT提供算力支援,亞馬遜宣佈其Trainium2晶片性能價格比優於其他硬體30%到40%,博通和Marvell的AI業務收入暴漲,一個明確的訊號正在釋放:ASIC的時代,已經到來。01ASIC晶片的崛起與繁榮2025年,全球ASIC晶片市場迎來爆發式增長。據中商產業研究院資料,2024年全球ASIC晶片市場規模已約達120億美元,到2030年,這一數字有望超過500億美元。長期以來,輝達憑藉其GPU和CUDA生態,在AI晶片市場佔據了超過90%的份額。 然而,GoogleTPU作為ASIC晶片的代表,正被視為輝達Blackwell晶片的可行低成本替代方案,逐漸改變市場競爭格局。在AI模型訓練成本呈指數級增長的今天,通用GPU雖然靈活,但其本質上仍是為圖形渲染設計的硬體,在面對神經網路的特定計算模式時,存在大量的效率損失。TPU和GPU都能處理訓練AI模型所需的大量計算,但實現方式截然不同。輝達的GPU最初為渲染視訊遊戲圖像而開發,通過數千個計算“核心”平行處理多項任務。而TPU專門為矩陣乘法這類AI相關工作而建構,這是訓練神經網路的主要操作。專用與通用,成為ASIC與GPU的核心差異。輝達在聲明中強調,其晶片相比GoogleTPU等專用積體電路晶片提供“更高的性能、多功能性和互換性”,後者通常只為單一公司或單一功能設計。Google最新版本的TPU名為Ironwood,於今年4月發佈,採用液冷設計,專為運行AI推理工作負載而設計。它有兩種配置:256個晶片的叢集,或更大的9216個晶片叢集。TPU在某些AI工作上可能表現優於GPU,因為Google可以“去除晶片上許多不適合AI的其他部分”,使其能耗更低、營運成本更低。先進封裝技術成為ASIC發展的重要支撐。根據TrendForce集邦諮詢研究,隨著雲端服務業者加速自研ASIC,為整合更多複雜功能的晶片,對封裝面積的需求不斷擴大。已有CSP開始考量從台積電的CoWoS方案,轉向英特爾的EMIB技術。EMIB擁有數項優勢:結構簡化,捨棄昂貴且大面積的中介層;熱膨脹係數問題較小;封裝尺寸也較具優勢。隨著Google決定在2027年TPUv9匯入EMIB試用,Meta亦積極評估規劃用於其MTIA產品,EMIB技術有望為英特爾IFS業務帶來重大進展。02博通與Marvell,雙足鼎立在ASIC定製晶片的繁榮背後,兩大巨頭成為最大贏家:博通和Marvell。 這兩家公司已形成近乎壟斷的雙寡頭格局,合計佔據ASIC市場超過60%的份額。博通作為絕對霸主,單獨拿下55-60%的市佔率。從業績就能直觀感受到它的強勢 ——Q2 財報裡,AI 業務收入直接突破 44 億美元,同比增長 46%,其中定製 AI 加速器還實現了兩位數增長,這種增速在成熟晶片企業裡相當亮眼。更關鍵的是它和大客戶的深度繫結,最典型的就是與Google的合作:從Google第一代 TPU 晶片開始,博通就全程參與設計和製造,現在雙方合作已經推進到 3nm 工藝的第六代 TPU,2023 年Google單在 TPU 相關合作上就給博通付了 35 億美元,2024 年這個數字預計會翻倍到 70 億美元,甚至連第七代 TPU 的供應合同都已經提前鎖定。除了Google,博通還跟 Meta 敲定了未來兩年的 AI 基礎設施合作,預計能帶來數十億美元收入;2025 年更聯手 OpenAI 啟動了 10 吉瓦級的定製 AI 加速器項目,這套系統會裝在 OpenAI 全球的資料中心裡,靠博通的乙太網路解決方案實現算力叢集擴展,整個項目估值超過千億美金。而且博通不只是靠單一產品,它 “定製加速器 + 高速互連” 的策略很見效,乙太網路、PCIe Gen6 這些配套 IP 能牢牢粘住客戶,按照規劃,2025 年它的 AI 總收入預計能突破 110 億美元,差不多是 Marvell 同期 AI 收入的 4 倍多。再看Marvell 的 “逆襲打法”。它雖然份額不如博通,但增長勢頭極猛:26Q1 資料中心營收達到 14.41 億美元,佔總營收的 76%,同比還暴增了 76%,這背後幾乎全靠 AI 定製晶片的大規模出貨。Marvell 聰明的地方在於不跟博通正面硬剛,而是走差異化路線。在客戶佈局上,它搭建了 “亞馬遜 + Google + 微軟” 的三角合作網:給亞馬遜量產 5nm 的 Trainium 訓練晶片,這款晶片佔了 AWS ASIC 出貨量的 85%,接下來還會接 Inferentia v3 推理晶片的項目;給Google代工 5nm 的 Axion ARM CPU 晶片,剛好和博通給Google做的 TPU 業務形成互補,不搶飯碗反而互相搭配;最近還拿下了微軟 Maia AI 晶片 2026 年的量產訂單,靠著這三大客戶,Marvell 甚至定下了 2028 年 AI 收入衝刺 70-80 億美元的目標。技術上,Marvell 也有自己的側重點,專門盯著 “能效 + 互聯” 做文章。它已經能用上台積電最新的 3nm 製程工藝,還握有 112G XSR SerDes 高速互連 IP、240Tbps Die-to-Die 互連技術,在雲資料中心場景裡能做到 “性能夠強、功耗夠低”—— 它和美光合作開發的 HBM 高頻寬記憶體架構,能讓 AI 加速器的算力密度提升 25%,待機功耗卻降低 66%,正好戳中雲廠商想控制總擁有成本的需求。另外,Marvell 還搞了資料中心全端佈局,除了 AI 定製晶片,儲存控製器、網路交換晶片這些配套產品也做得不錯,比如它的 112G SerDes IP,既能用在 AI 加速器上,也能裝在自家的乙太網路交換機裡,這種 “晶片 - 互連 - 儲存” 的垂直整合能力,成了它區別於博通的關鍵優勢。其實這兩家能長期壟斷,核心是有三道別人難跨的門檻。一是技術壁壘高,兩家都掌握了3nm 製程量產能力,還有超 20 年的 ASIC 設計經驗 ——Marvell 過去 25 年交付了超過 2000 個定製項目,博通手裡有覆蓋計算、儲存、網路的全場景 IP 庫,新玩家想跟上,得先闖過 “製程工藝 + 客戶驗證 + 生態適配” 這三關。二是客戶分化合理,博通主要做Google、Meta、OpenAI 這些客戶的 “訓練側” 算力需求,Marvell 聚焦亞馬遜、微軟的 “推理 + 通用計算” 場景,互不搶食,反而能覆蓋更多市場。2025 年全球雲服務提供商的 ASIC 出貨量預計超 500 萬顆,其中Google TPU 的 220 萬顆、AWS ASIC 的 180 萬顆,核心份額還是被這兩家分了。三是行業趨勢助推,現在生成式 AI 對算力的需求,正從通用 GPU 轉向定製 ASIC—— 畢竟 ASIC 在特定任務上算力成本降低了30%到40%,雲廠商為了降成本,更願意跟頭部供應商深度繫結,比如 OpenAI 既選博通做定製加速器,又用輝達的通用算力,這也說明雙寡頭在 ASIC 領域的地位很難被撼動。03生態和供應鏈,是關鍵AI算力競爭遠不止於晶片性能本身,更延伸到軟體生態和供應鏈安全。輝達憑藉CUDA生態系統建構了深厚的護城河,這是其聲明中“唯一可以運行所有AI模型”的底氣所在。Google則通過垂直整合,強化軟硬體協同優勢。Google上周發佈了公司最強大模型Gemini 3,這款廣受好評的最先進AI模型是在該公司的TPU上訓練的,而非輝達GPU。這一技術成就增強了TPU作為輝達GPU可靠替代方案的可信度。供應鏈多元化成為雲巨頭的重要考量。研究機構Gartner分析師表示,Google儘管擁有自己的晶片,仍是輝達最大客戶之一,因為它必須為客戶保持靈活性。如果客戶的演算法或模型發生變化,GPU更適合處理更廣泛的工作負載。與輝達不同,Google不向其他公司出售TPU晶片,而是將其用於內部任務,並允許企業通過Google Cloud租用。這種模式正在獲得認可,當前TPU客戶包括OpenAI聯合創始人Ilya Sutskever去年創起的初創公司Safe Superintelligence,以及Salesforce、Midjourney和Anthropic。國內市場方面,巨頭企業在ASIC 領域的佈局同樣亮眼,其中阿里巴巴自研的 PPU 晶片走在前列。據機構研判,這款 PPU 晶片在視訊記憶體容量、片間互聯頻寬等關鍵指標上已超越輝達 A800,而在視訊記憶體容量、PCIe 等核心參數上,也能與輝達 H20 比肩。上市公司中,芯原股份近年來與網際網路巨頭展開深度合作,其AI ASIC 業務在今年第三季度實現了翻倍式增長;翱捷科技則聚焦智能穿戴、端側 SOC 等細分領域,目前 ASIC 業務在手訂單充足,機構預計到 2026 年,該公司這一業務的收入將迎來大幅提升。對於國產AI 晶片的發展,多家券商也給出積極判斷。中信證券指出,當前國產 AI 晶片自主可控進展順利,除了阿里巴巴自研的含光系列 AI 推理晶片外,華為昇騰、寒武紀等企業的自研 AI 晶片也在持續迭代,這些成果有望緩解國內 AI 領域對海外算力的依賴。西部證券認為,企業擁有自研晶片可替代外部供給,能有效確保模型迭代與規模部署的連續性和可預期性。浙商證券則分析稱,相較於 GPU,ASIC 晶片在特定場景下具備低成本、高性能、低功耗的優勢,專用性和性價比更高,預計到 2028 年,ASIC 市場規模將達到 AI 晶片整體市場的 19%;同時該機構提到,ASIC 晶片單價遠低於 GPU,約為 GPU 的 1/5,隨著 Meta、微軟等企業逐步大規模部署自研 ASIC 解決方案,ASIC 總出貨量有望在 2026 年某個時點超越輝達。ASIC的崛起並不意味GPU的衰落。正如Google發言人所回應的:“我們定製的TPU和輝達GPU的需求都在加速增長。我們將一如既往地繼續支援這兩者。”這種多元化的策略,可能正是AI算力發展的未來方向——沒有單一解決方案能通吃所有場景。晶片行業“不是只有一個贏家的零和遊戲”。即使是最積極的ASIC採用者,也仍在大量採購輝達晶片。例如,Anthropic在與Google達成TPU協議幾周後,就宣佈了與輝達的重大交易。在AI技術快速迭代的今天,算力格局的重塑才剛剛開始。 (半導體產業縱橫)