誰是中國版博通?

當聚光燈都照在輝達、AMD上的時候,有一家公司已經悄然崛起了。

2024年,博通(Broadcom)股價在上漲超60%。2024年12月13日,博通的股價更是在一天內狂飆24%,市值突破1兆美元,成為僅次於輝達和台積電的全球第三大半導體公司。如今,其市值已經超過1.1兆美元。



點燃資本市場對博通熱情的,是一個關鍵詞——ASIC。

另一方面,輝達也在ASIC領域有大動作。據悉,自2024年中起,輝達開始在台灣的半導體企業積極招聘ASIC設計工程師,涉及前段設計驗證、IP整合和PHY設計等關鍵領域,計畫在台灣開設研發中心,擬招聘1000多人。

這一切,都指向一個懸而未決的問題:GPU的時代是否已經接近尾聲?是否有一種新的、更適合AI大模型計算的硬體架構正在悄然崛起?

在這場即將上演的“GPU vs. ASIC”的硬體之戰中,輝達的GPU能否繼續保持其技術優勢?ASIC是否能真正挑戰GPU,甚至取而代之,成為下一代AI計算的主流架構?如果這一假設成立,那對於中國玩家又意味著什麼?


輝達一路走來不容易

輝達的故事始於1993年,當時,隨著個人電腦遊戲市場的興起,對圖形性能的需求急劇增加。輝達迅速瞄準這一市場,推出了圖形處理單元,專注於圖形渲染和計算。這個領域在當時有著明確的市場需求,輝達憑藉其高效能顯示卡逐步在市場上站穩了腳跟。

然而,輝達的眼光並不侷限於遊戲市場。2006年,輝達發佈了CUDA(Compute Unified Device Architecture),為GPU開闢了新的領域——通用計算。CUDA的出現讓GPU不僅僅處理圖形渲染任務,而是能夠廣泛應用於需要大量平行計算的領域。

通過這項技術,輝達成功地將GPU從單純的圖形渲染工具轉型為可以進行複雜科學計算、資料處理和機器學習的通用計算平台。CUDA的發佈,為後來的深度學習和AI應用奠定了技術基礎,標誌著輝達邁入了新的增長軌道。

隨著深度學習的崛起,尤其是摺積神經網路(CNN)的廣泛應用,GPU的優勢得到了進一步釋放。CNN的計算需求主要集中在大量的矩陣乘法和平行計算,這正是GPU最擅長的領域。2012年,隨著深度學習的廣泛興起,輝達將其CUDA平台進一步最佳化,專門針對深度學習中的計算任務進行了加速。正是深度學習對大規模資料處理的高效需求,使得GPU成為了AI計算中不可替代的工具。

尤其在2016年,輝達發佈了Volta架構,搭載了專為深度學習設計的Tensor Cores。Tensor Cores最佳化了深度學習中必不可少的矩陣運算(如摺積層的矩陣乘法),大幅提升了計算效率。相比傳統GPU,Volta架構的推出讓輝達的顯示卡在訓練AI模型時的性能得到了飛躍性的提升。輝達的GPU不再只是遊戲和圖形渲染的代名詞,而是成為了大規模AI訓練和推理的核心硬體。



到了2020年,AI訓練任務的規模已經發生了質變,特別是像GPT-3這樣的語言模型,其訓練時所需的計算量遠超此前任何AI模型。輝達發佈了A100 Tensor Core GPU,進一步升級了其硬體架構,針對深度學習、資料科學和推理任務進行了專門最佳化。

A100不僅在處理大規模AI訓練時顯示出優越的性能,而且具有更強的多工處理能力,支援更廣泛的應用場景。其內嵌的Tensor Cores在支援不同精度計算的同時,提升了AI大模型所需的吞吐量和效率,使得A100成為當時業內公認的AI訓練“黃金標準”。

與此同時,輝達還推出了DGX A100,這是一個整合了多個A100 GPU的計算平台。DGX A100不僅提供單GPU的強大性能,還通過多GPU的協同工作,提升了超大規模AI模型訓練的效率。與傳統的分散式運算平台相比,DGX A100在硬體層面的最佳化與軟體層面的協同,使得其計算能力呈指數級提升,能夠處理更大規模的模型和資料集。

儘管輝達的GPU在AI領域的表現無可挑剔,但AI大模型的計算需求不斷升級,輝達依然面臨著挑戰。2021年,輝達宣佈了即將推出的Hopper架構,該架構將進一步最佳化AI訓練中的稀疏計算能力。在AI大模型的計算過程中,很多神經網路並不是滿連接的,這就形成了稀疏計算的需求。Hopper架構將在這一點上做出突破,進一步提升AI訓練的計算密度,使得GPU能夠更高效地利用計算資源,處理更加龐大的模型。

然而,即使在不斷推出新架構的同時,輝達也意識到,AI計算面臨的不僅僅是單一硬體的挑戰。2022年,輝達推出了Grace架構,這是一款專為高性能計算(HPC)和AI任務設計的CPU架構,能夠與輝達的GPU平台無縫協作,提升資料吞吐量和頻寬,為超大規模AI模型的訓練提供更加有力的支援。

Grace的推出意味著輝達不僅僅依賴GPU的單一優勢,而是通過跨硬體架構的協同工作,進一步提升其在AI大模型計算中的競爭力。


GPU並不是為AI而生的

輝達的GPU無疑在過去幾年中通過其強大的平行計算能力,主導了深度學習和大規模AI模型的訓練與推理。但隨著AI模型,特別是像GPT-4這樣的超大規模神經網路的不斷髮展,GPU面臨的侷限性愈加明顯。從技術本質上來講,GPU是否能夠繼續滿足未來AI計算的需求,甚至是否能夠繼續維持其在AI領域的統治地位,已經開始受到質疑。

在深入分析GPU的侷限性之前,首先我們需要理解AI大模型的計算需求,尤其是這些模型如何進行工作。以GPT-4為代表的現代AI大模型,核心依賴的是深度神經網路,尤其是Transformer架構中的矩陣運算。這些矩陣運算在大規模神經網路的訓練中至關重要,正是這些計算要求對硬體提出了巨大的挑戰。

在一個像GPT-4這樣的自然語言處理模型中,當使用者提出問題時,模型背後所做的工作是通過多層的神經網路對輸入文字進行處理,逐步生成回答。這個過程本質上是通過多個數學操作,尤其是矩陣乘法和加法,來執行以下幾步:



1. 輸入嵌入(Embedding):每個輸入詞語(token)被轉化為一個高維的向量,這個向量會在網路中傳遞,代表輸入資訊的特徵。

2. 自注意力機制(Self-Attention):在Transformer架構中,每一層神經網路首先通過自注意力機制來評估每個token與其他token之間的相關性。這一過程需要進行大量的矩陣計算,以便將各個詞之間的關係融合起來。

3. 前饋神經網路(Feed-Forward Neural Network):自注意力機制處理完之後,資料會傳入前饋網路進行進一步的處理。這一過程中,模型對輸入資料進行非線性變換,並使用啟動函數來提高表達能力。

4. 反向傳播與梯度更新:神經網路的學習過程通過反向傳播演算法進行。這個過程依賴於計算每一層的梯度,並通過矩陣運算調整網路權重。反向傳播中的梯度計算同樣依賴於大量的矩陣乘法和加法運算。

可以看到,神經網路的工作原理中,最為基礎和高頻的操作就是矩陣運算,特別是大規模矩陣的乘法。在這類計算中,GPU的平行計算能力能夠起到至關重要的作用。然而,這種計算本身的特點,決定了GPU架構與AI大模型需求之間的一些契合點,同時也暴露出一些顯著的侷限性。

GPU特別擅長執行平行計算,而神經網路中的矩陣運算正是高度平行的操作。輝達的GPU通過其大量的CUDA核心和專門最佳化的Tensor Cores來加速這些計算任務。具體來說,Tensor Cores是輝達為深度學習設計的硬體單元,它們最佳化了矩陣乘法和加法運算,特別適合執行深度神經網路中常見的浮點數計算。

但是,儘管GPU在執行這些計算時非常高效,它的架構也存在與AI大模型計算需求之間的差距。尤其是在面對超大規模模型時,GPU的架構開始顯示出一些侷限性。

GPU的性能瓶頸之一就是記憶體頻寬,雖然GPU具有強大的計算能力,但它的記憶體和處理器之間的連接,尤其是記憶體訪問速度,始終是一個限制因素。在大規模AI模型的計算中,模型的參數量和訓練資料量越來越大,這就意味著需要頻繁從記憶體中讀取大量資料,並將計算結果寫回記憶體。

以GPT-4為例,模型參數量達到數百億,這導致了每次資料訪問的頻寬需求極其高。雖然HBM2(高頻寬記憶體)在輝達的A100、H100中得到了應用,但即便如此,GPU的記憶體頻寬還是無法完全滿足超大規模AI計算的要求。隨著模型規模的擴大,記憶體訪問的瓶頸問題日益嚴重,極大地影響了整體計算效率。

GPU的另一個瓶頸是功耗,隨著GPU核心數和計算頻率的增加,功耗呈現出指數級的上升。比如,輝達的H100顯示卡的功耗已接近500瓦特,這對於資料中心的能效管理提出了更高的要求。特別是在AI大模型訓練過程中,隨著計算負載的增加,GPU的功耗和熱量也隨之增加,進一步加劇了散熱問題。

此外,GPU的功耗問題也限制了其在大規模計算環境中的擴展性。當需要大量GPU叢集時,如何有效地管理能源和散熱,成了一個不容忽視的問題。在全球推動綠色計算的背景下,GPU的功耗問題顯然是其持續擴展的一個潛在制約因素。

當然,最關鍵的還是GPU的性能提升已經進入了一個瓶頸期,尤其是在面對大規模神經網路時。雖然輝達每一代GPU在性能上都有所提升,但其提升的幅度逐年放緩。

例如,Ampere A100的浮點計算能力為19.5 TFLOPS,而其前代Volta V100為15.7 TFLOPS,提升幅度為24%。然而,從Ampere到Ada Lovelace(即H100到RTX 4090),每一代的性能提升幅度已經趨於平緩,尤其在超大規模AI計算的背景下,這種提升的速度無法滿足未來AI發展的需求。

從技術本質上看,GPU的通用計算架構並不完全契合AI大模型的需求。AI大模型,尤其是像GPT-4這樣的超大規模網路,往往對某些特定操作(如矩陣乘法、前饋網路的線性變換等)有非常高效的需求,而GPU的通用性架構需要在多個計算任務之間做出平衡,導致其在某些特定操作上難以做到精細化最佳化。

這也就意味著,未來為了應對AI大模型不斷增長的計算需求,我們可能需要尋找一種能夠專門針對AI計算最佳化的硬體架構。這正是ASIC(專用積體電路)所能解決的問題,它能夠專門為AI大模型計算設計,更好地契合這些模型的需求。

如果這個假設成立,那ASIC就像是射向輝達的一顆子彈,會對其帝國產生不小的威脅。


GPU vs ASIC,勝算幾何?

在AI大模型的訓練和推理中,GPU和ASIC都展示出了強大的計算能力。然而,它們的計算架構和最佳化方法有著深刻的區別,這種區別不僅影響到計算性能,還直接關係到它們能否滿足超大規模神經網路的需求。為了深入理解這些差異,我們需要從底層原理、硬體架構和計算方式上進行詳細分析。

● 通用性與專用性:架構設計的根本差異

GPU和ASIC的核心區別首先體現在它們的架構設計上,GPU的設計初衷是為圖形渲染而生,其結構更側重於平行計算。

然而,儘管GPU在這些任務上表現出色,它的本質仍然是一個“通用計算平台”。換句話說,GPU的設計是為了處理廣泛的計算任務,包括但不限於圖形渲染、視訊處理和科學計算等。這種通用性使得GPU在處理深度學習任務時,雖然有專門的加速單元(如Tensor Cores),但依然面臨著一定的資源浪費和計算冗餘。

相比之下,ASIC的設計是為特定任務量身定製的。ASIC(專用積體電路)是針對特定應用設計的硬體,其所有計算資源和邏輯單元都圍繞一個核心任務來最佳化。比如,Google的TPU就是為深度學習任務定製的ASIC晶片,它專門最佳化了矩陣乘法、摺積操作等神經網路中的關鍵計算步驟。因此,ASIC不僅在計算能力上能做到“精準匹配”,還能夠消除不必要的冗餘計算。

矩陣運算最佳化:GPU與ASIC的差異

矩陣運算是神經網路計算中最基礎的組成部分,尤其在深度學習中,矩陣乘法的計算量龐大,精度要求高。因此,如何高效地處理這些矩陣運算,直接決定了AI計算的效率。

在GPU中,輝達通過Tensor Cores最佳化了矩陣乘法操作。Tensor Cores是專門設計的硬體單元,能夠在一個時鐘周期內執行多個浮點運算,從而加速神經網路中的矩陣計算。雖然這種最佳化對於大多數深度學習任務已經足夠有效,但它仍然是“軟體最佳化與硬體加速結合”的結果。

雖然,通過CUDA程式設計模型,開發者可以靈活地將計算任務分配到GPU的多個核心上,但這種靈活性也意味著GPU在深度學習任務中的最佳化並非盡善盡美。每一代輝達GPU都通過增加更多的CUDA核心、提高時脈頻率來提升性能,但它們依舊是在一個通用計算框架內進行最佳化,這就帶來了功耗和計算冗餘的問題。

反觀在ASIC,其矩陣運算最佳化則直接體現在硬體等級。Google的TPU就是一個很好的例子。TPU專門為深度學習任務設計,它的計算單元通過硬體等級的設計深度最佳化了矩陣乘法、摺積和其它基礎神經網路操作。與GPU不同,TPU的硬體資源和計算通路是專門為處理神經網路而定製的,這種專用化的設計使得TPU能夠在執行這些特定任務時,消除任何不必要的計算步驟和資源浪費,從而在效率和能效上遠超GPU。

這種硬體級最佳化,使得ASIC可以在特定的計算任務中達到極致的性能。例如,TPU通過數以千計的處理單元來平行處理矩陣計算,而每個處理單元都能夠直接執行神經網路中的矩陣乘法任務。這樣的設計可以大大減少資料傳輸的延遲,並最佳化計算資源的使用效率。

性能、功耗與效率:硬體定製化的優勢

另一個顯著的差異在於能效,雖然輝達的GPU通過硬體最佳化(如Tensor Cores)和軟體最佳化(如CUDA框架)有效提升了深度學習任務的性能,但其整體架構依然是為多種任務服務的,計算過程中的能效無法與ASIC相提並論。

GPU在處理深度學習任務時,雖然性能強勁,但它的功耗通常較高,尤其是在超大規模模型計算中,功耗和散熱成為限制其擴展性的瓶頸。

與之相比,ASIC的設計從根本上考慮到了高效的功耗管理。由於其專用化設計,ASIC能夠根據任務的特點最佳化計算流程,減少冗餘計算,最大限度地提升計算效率,大幅度降低功耗。

靈活性與效率的抉擇:GPU與ASIC的應用場景

儘管ASIC在效率和能效上無可比擬,但GPU的優勢在於它的靈活性。GPU可以適應各種不同的計算任務,尤其是在多個計算任務平行執行的場景中,GPU仍然是一個強大的計算平台。GPU能夠通過CUDA等軟體框架靈活地調度資源,滿足各種複雜計算的需求。它非常適合在不斷變化的AI任務中發揮作用,尤其是在需要偵錯和開發的早期階段。

然而,當AI任務變得越來越專業和規模化時,ASIC的專用性開始展現出不可替代的優勢。尤其是在超大規模AI模型訓練、推理的場景下,ASIC能夠通過精細化的硬體設計,為每個計算步驟提供最佳化的支援,從而提高計算效率,降低能耗,實現更快速、更經濟的計算。


ASIC玩家已成為一股不可忽視的力量

在現階段,GPU仍然是AI計算的主流硬體,而ASIC則作為特定任務的加速器,彌補GPU的不足。未來的AI計算格局,很可能會是在GPU與ASIC的結合使用下展開。

在目前的ASIC玩家中,博通和Google是兩個最典型的代表。

尤其是博通,在ASIC領域的發展呈現出強勁的態勢。據悉,在2024財年,博通的AI業務(網路晶片+ASIC定製晶片)營收達122億美元,同比增長220%。這一增長勢頭在未來預計將持續,預計2027年可服務潛在市場規模為600-900億美元。


博通收支拆解 資料來源:同花順


博通的核心技術產品,是基於對XPU的定製化設計和高性能互聯技術。通過定製化的ASIC晶片,滿足不同客戶在特定任務上的高效計算需求。例如在與Google合作的TPU項目中,博通為TPU提供了關鍵的晶片間互聯通訊智慧財產權,助力Google的TPU在深度學習推理和訓練中最佳化矩陣乘法等關鍵計算操作,提升了AI計算效能。

另一方面,Google在ASIC領域的發展也取得了顯著成果。Google早在2013年就開始自研晶片,2016年推出TPU v1,2024年發佈第六代TPU Trillium並向Google雲客戶開放。其核心技術產品TPU系列採用了脈動陣列等專為AI設計的晶片架構,在執行矩陣計算時具有儲存消耗少、功耗低等優勢。而且,其TPU還與Google的TensorFlow XLA生態緊密結合,能夠更好地發揮其在深度學習中的作用。

博通和Google在ASIC領域的發展,呈現出緊密的合作關係。博通為Google提供關鍵的晶片技術支援,助力Google的TPU發展。Google則通過不斷最佳化TPU的性能和應用,推動整個ASIC市場的發展。


先不要妄談超越,還有幾道難關要過

需要指出的是,儘管ASIC晶片在AI計算中蘊含著巨大的潛力,尤其是在超大規模AI模型的計算需求中,但它要想真正超越GPU,面臨的技術挑戰和生態瓶頸卻遠比想像中的複雜。

● 靈活性與適應性:ASIC的“硬傷”

ASIC的最大優勢在於它的專用性,而正是這種“為一項任務量身定製”的特性,使得它在特定應用上具備無可比擬的效率優勢。然而,這種專用性也讓它在面對AI領域的多樣化需求時顯得捉襟見肘。

AI的核心動力之一就是其無窮變化的需求——從自然語言處理到電腦視覺,再到強化學習,每一個AI任務的計算方式都可能截然不同。為了應對這些變化,GPU展現出驚人的靈活性,它的架構雖然是通用的,但卻能夠快速通過軟體框架(如CUDA、TensorRT等)進行調整,適配各種計算需求。

然而,ASIC的設計一旦固定下來,就難以快速變更。想像一下,若AI領域出現一個突破性的演算法(如自我監督學習、量子計算),ASIC是否能夠快速適應?很顯然,答案是否定的。GPU通過不斷的軟體更新和架構最佳化,已經進入了“自我進化”的循環,而ASIC依賴的是硬體本身的精確最佳化,其適應新需求的速度遠遠慢於GPU。這種靈活性的匱乏,註定了ASIC在面對不斷變化的AI場景時的短板。

開發成本與周期:在迅速發展的技術面前,ASIC的慢性病

硬體的開發,尤其是ASIC的設計,不僅僅是技術上的挑戰,更是時間和資金的考驗。與GPU相比,ASIC的設計周期長、成本高,且無法像GPU那樣依賴現有的廣泛的開發工具和生態。在GPU的世界裡,輝達的CUDA平台已成為所有開發者的“標配”,無數深度學習框架和應用都在此基礎上進行最佳化和開發。這使得輝達能夠在每一次技術迭代中,通過軟體加速架構的最佳化來提升性能,而ASIC則沒有這麼便利的“捷徑”。

例如,Google的TPU系列從發佈至今,經歷了多個迭代,每次改進都需要極其精細的硬體最佳化。而這種最佳化,往往是在有限的資源和時間窗口內進行的。ASIC的這種“硬體驅動”的進步方式,意味著它在面對市場對算力日益增長的需求時,反應速度遠不如GPU。更重要的是,AI技術的迭代速度極快,每一代的新模型、新演算法都要求計算硬體能夠提供迅速而精準的適配,而ASIC的開發周期和高成本,無疑使它在競爭中處於劣勢。

生態挑戰:沒有“CUDA”的ASIC,如何超越GPU?

當我們討論GPU的成功時,不可忽視的一個關鍵因素是輝達在全球開發者心中所建立的深厚情感和技術“粘性”。CUDA作為一個面向AI、深度學習的平行計算框架,幾乎成為了AI應用的默認標準。

它不僅是一組API,更是一個巨大而深遠的生態系統。從開源框架(如TensorFlow、PyTorch)到商業應用,再到雲端運算平台,所有主流AI工作負載都在CUDA的支援下迅速發展。輝達不僅打造了強大的硬體,還通過生態建設,為AI開發者提供了一個高效、便捷的開發環境。

但對於ASIC而言,如何打造一個類似的開發者生態?沒有類似CUDA的生態平台支援,ASIC的性能優勢將難以廣泛推廣。就像過去的GPU能在深度學習領域異軍突起,不僅是因為它的硬體能力,更因為有了一個全世界開發者都願意參與的生態系統。ASIC如果沒有強大的平台和開發者支援,註定只能是一個“孤島”,無法與GPU一爭高下。

從根本上來說,任何想要挑戰GPU主導地位的ASIC,必須擁有一個能夠跨越硬體與軟體之間鴻溝的生態支援平台。這不僅僅是一個技術問題,更是一個商業模式、開發者生態與產業合作的問題。單靠硬體的提升,顯然無法撼動GPU的江山。


中國AI晶片企業的新機會?

對於中國企業而言,輝達在GPU上的壁壘太深厚了,要突破幾乎沒什麼可能。而ASIC的出現,則給了中國企業另外的選擇。相對於被輝達稱霸的GPU,ASIC還是一塊“處女地”。

當然,中國的AI晶片企業,想要實現“彎道超車”,同樣需要付出巨大的努力。那麼,可以怎麼做呢?

在硬體層面,可以借鑑Google TPU的定製化思路,追求晶片的高度專業化,針對AI大模型訓練、推理等核心任務進行深度最佳化。這意味著,AI晶片不僅需要在算力和能效上突破現有瓶頸,還要在AI的多樣化場景中實現精準適配。

與GPU的“通用”架構不同,ASIC晶片的優勢正是源於其“專用”特性。中國的AI晶片企業可以在推理加速、低延遲計算、低功耗最佳化等方面,進行極致定製化設計。以智能醫療、自動駕駛、智慧城市為代表的垂直行業,正是ASIC晶片的“藍海”。如果能夠在這些領域實現“技術壁壘”,就能為後續的市場擴展提供強有力的支撐。

硬體產品只是第一步,未來AI晶片的競爭,決定性因素往往在於“生態”。中國的AI晶片公司,必須加速建構軟硬結合的開發者生態。例如,寒武紀、壁仞科技、華為等的AI晶片,除了硬體技術的突破外,必須要有與之匹配的軟體開發工具和平台。從深度學習框架到開發者工具,再到雲端服務的整合,只有建構起從硬體到軟體、從平台到應用的完整生態,才能真正與全球巨頭抗衡。

可以說,中國AI晶片產業正站在一個重要的歷史節點上。

以前,我們經常問“誰是中國版輝達”。現在,更合適的問題,也許是“誰是中國版博通”。 (芯師爺)