今年2024年底即將發佈的ChatGPT 5.0,市場對此寄予厚望的同時,OpenAI也一直在推進定製化晶片ASIC的相關計畫,正在與博通、美滿等全球晶片設計巨頭就開發定製化晶片進行洽談。全球AI人工智慧演算法發展的現階段,行業對基於Transformer架構及其演算法變種的認可度正在加速成為主流,底層計算中由張量運算為主的演算法確定性逐漸增強,進而推高了行業面向張量運算ASIC體系發展的價值量。我們認為全球人工智慧發展的下半場,隨著AI演算法及其架構現階段的趨向穩定,定製晶片ASIC預測將重新煥發生機,輝達未來的行業發展將充滿著變數。
全球晶片品類從計算時代的 CPU 橫掃資料中心與個人電腦等全產品線,再到現如今算力時代 GPU 的崛起,行業資本開支對算力晶片持續保持高位運行,客戶需求與產品線的完美共振造就了輝達及美股自去年以來的一路高歌猛進。與此同時,大模型算力需求至今持續井噴今年也不見放緩跡象,近期輝達在算力晶片方面對台積電繼續增加高達25%的投片量,台積電下半年業績或繼續超預期。Scaling law告訴我們要不停地堆算力和資料,資料中心的算力規模如今成為了大模型迭代速度的最關鍵因素,在Transformer架構及堆料張量運算乘法核所建構的現階段高確定性行業發展設計思路支援之下,促使定製晶片ASIC重出江湖。
現階段全球算力定製晶片ASIC方面,以博通和美滿的市場佔有率為主,博通以35%的市佔率位居第一,其次美滿以12%的市佔率位居第二。據研究公司650 Group估計,資料中心定製晶片市場今年將增長至100億美元,到2025年將翻一番。博通如今的營收增速很大一部分來自於定製晶片ASIC業務,因此助力博通在下行周期的2023年成為僅有的數家能在營收增速方面實現規模正增長的公司。算力晶片方面,博通將其稱之為XPU而非GPU,同時博通認為XPU未來將不得不過渡到定製晶片,以此針對特定的AI工作負載進行最佳化,從而帶來了更低的功耗和尺寸要求。博通現階段為三個大客戶提供定製XPU服務,分別是Google、微軟、以及Meta,接下來的字節跳動將可能是第四個大客戶。定製晶片的技術門檻極高,同時設計這些領先的XPU是一項極其研發密集型的業務,成本高達數十億美元。輝達曾花費了100億美元來開發整個Blackwell平台。我們認為此項定製晶片業務將會是博通接下來營收保持高增長的關鍵,同時也將很大程度上繼續賦能博通的核心業務即網路業務的市場主導地位。
在差不多20年前,晶片發展史上就出現過定製晶片ASIC取代通用晶片GPU的過程。早年行業算力較低,平行計算較弱的 CPU 得以也能夠參與早期的比特幣挖礦,進而成為當時最主要的算力來源。2010年起,隨著比特幣持續走高,挖礦算力需求快速提升,同時由於比特幣採用 SHA256 雜湊演算法適合併行計算,因此在2010年至2012年期間,GPU算力逐漸取代晶片CPU,進而成為當時最主要的算力來源。2012年後期比特幣繼續全球暴漲,挖礦算力需求進一步增長,高性價比定製晶片ASIC開始出現在市場。我們認為雜湊演算法的確定性以及行業對下游算力需求的樂觀預期,共同造就了挖礦行業ASIC晶片快速取代通用晶片GPU的歷史處理程序,至此全球挖礦算力需求絕大部分市場皆由定製晶片ASIC所佔領。
這樣的行業趨勢,輝達也是完全有意識到自身主營業務的潛在風險,於是成立新的業務部門,專注於為雲端運算公司設計定製算力晶片,客戶群涵蓋輝達現階段的主要收入來源,包括Google、微軟、亞馬遜、Meta等,旨在搶佔定製晶片未來爆炸性的市場需求,以此提前佈局免受尋求輝達晶片替代品的潛在風險影響。產品普遍性來看,針對固定架構及演算法所設計的場景需求定製晶片,其在特定應用方面性能明顯優於通用晶片GPU,因此擁有針對某類演算法場景之下的最好性能,會比輝達主營的通用GPU更有優勢。與此同時,我們發現AI處理的重心今年起正在從雲端算力往邊緣端側場景應用轉移,預測定製晶片的高性價比優勢在全球應用推理階段將會進一步被放大,市場規模空間相較全球AI發展初期的算力訓練階段將會顯著提升,競爭格局整體走向利多全球頭部數家AI晶片設計廠商,因此輝達現階段所面臨的市場局面不容樂觀。
輝達的主要優勢在於,軟體CUDA生態長期以來所培養的全球AI開發者習以為常的設計流程慣性與Omniverse等軟體開發配套具有完備性,以及GPU互聯技術全球一枝獨秀的NVLink解決方案,上述優勢皆為輝達大模型算力訓練階段構築了極深的行業“護城河”。以規模量產的輝達HGX H100 8-GPU為例,使用高速 NVIDIA NVLink 4.0技術、NVSwitch互連,以及 NVIDIA Quantum-2 InfiniBand 與 Spectrum-4 乙太網路,從而大幅突破 AI 叢集互聯的極限。同時該伺服器內部包含NVLink、PCIe和QPI等主機板匯流排,GPU之間的互聯通過NVSwitch晶片來實現,CPU與GPU之間的互聯則通過PCIe 5.0匯流排實現,無論單晶片算力亦或是AI叢集互聯算力方面,輝達現階段皆實現了全球領先。其次,晶片議價方面,輝達在晶圓的採購量上現階段要比博通、美滿的規模大得多,進而輝達的議價能力相對較高,規模量產方面也具有優先權。沿用此邏輯來看,即使超級雲端運算廠商擁有強大的IC設計團隊,除非能與台積電簽訂有價格競爭力的長協議訂單,進而才有機會在價格上獲得優勢,打破輝達現階段的壟斷局面。
從挖礦時代定製晶片ASIC的異軍突起,進而取代通用晶片GPU成為挖礦主力,再到如今AI算力晶片ASIC的重出江湖,歷史似乎又準備開始重演。整體來看,我們認為定製晶片ASIC的出現往往是因為某一類重要的特定演算法推動了下游晶片需求的大爆發,從而使過往通用型晶片中的特定功能被分割出來,進而形成了新的定製化晶片。現階段在transformer架構下的張量堆料矩陣運算趨向穩定,也基於此穩定且特定演算法需求的出現,通用晶片中的小核心甚至是向量計算核心,逐漸成為了功耗與成本的負擔,客戶終究不會因為此單一特定的張量運算需求,而負擔通用晶片中額外的硬體成本,因此定製晶片ASIC的崛起其實是歷史的必然。
今年起預測定製晶片ASIC產品發展路線的重心將主要集中在三大方向,同時通用晶片的發展將與ASIC晶片相輔相成互相促進,現階段行業前期通用晶片探索新演算法搭建大模型,後期ASIC晶片通過高性價比將下游需求大規模釋放,特別是在接下來全球應用推理階段其價值量預測將會進一步被放大。整體發展方向來看,一是效仿Google定製晶片TPU擴大晶片面積,即在單個晶片內設計更多張量運算核心,進而定製晶片算力直接顯著提升。二是效仿定製晶片Groq所設計的sRAM、DDR高速儲存橋接產品路線,即張量運算核心將資料運算後直接轉移給相鄰的sRAM或DDR,進而實現多運算核心之間的更高效協作方案,其性價比勝過HBM方案。三是控制算核運算的編譯器相較以往更加重要,ASIC晶片架構中缺少了如通用晶片中對資料預處理的小核心,進而AI晶片設計廠商需要重塑編譯器軟體設計環節。 (新財富)