AI晶片的未來,未必是GPU

在人工智慧運算架構的佈局中,CPU與加速晶片協同工作的模式已成為典型的AI部署方案。 CPU扮演基礎算力的提供者角色,而加速晶片則負責提升運算效能,助力演算法高效率執行。常見的AI加速晶片依其技術路徑,可劃分為GPU、FPGA和ASIC三大類別。

在這場競爭中,GPU憑藉其獨特的優勢成為主流的AI晶片。那麼,GPU是如何在眾多選項中脫穎而出的呢?展望AI的未來,GPU是否仍是唯一解?


GPU如何制勝當下?

AI與GPU之間有著密切的關係。

強大的平行運算能力

AI大模型指的是規模龐大的深度學習模型,它們需要處理大量的資料和進行複雜的計算。 GPU的核心優勢就在於其強大的平行運算能力。與傳統的CPU相比,GPU能夠同時處理多個任務,特別適合處理大規模資料集和複雜運算任務。在深度學習等需要大量平行運算的領域,GPU展現出了無可比擬的優勢。

完善的生態系統

其次,為了方便開發者充分利用GPU的運算能力,各大廠商提供了豐富的軟體庫、框架與工具。例如,輝達的CUDA平台就為開發者提供了豐富的工具和函式庫,使得AI應用的開發和部署變得相對容易。這使得GPU在需要快速迭代和適應新演算法的場景中更具競爭力。

通用性好

GPU最初是用於圖形渲染的,但隨著時間的推移,它的應用領域逐漸擴大。如今,GPU不僅在圖形處理中發揮核心作用,也廣泛應用於深度學習、大數據分析等領域。這種通用性使得GPU能夠滿足多種應用需求,而ASIC和FPGA等專用晶片則局限於特定場景。

有人將GPU比喻為通用的多功能廚具,適用於各種烹飪需求。因此在AI應用的大多數情況下,GPU都被視為最佳選擇。相應的,功能多而廣的同時往往伴隨著特定領域不夠“精細”,

接下來看一下,相較其他類型的加速晶片,GPU需要面對哪些掣肘?


GPU也存在它的掣肘

文首提到,常見的AI加速晶片根據其技術路徑,可分為GPU、FPGA和ASIC三大類別。


FPGA(Field Programmable Gate Array,現場可程式閘陣列),是一種半客製化晶片。使用者可以根據自身的需求進行重複編程。 FPGA 的優點是既解決了客製化電路的不足,也克服了原有可程式元件閘電路數有限的缺點,對晶片硬體層可以靈活編譯,功耗小於CPU、GPU;缺點是硬體程式語言較難,開發門檻較高,晶片成本、價格較高。 FPGA 比GPU、CPU 更快是因為其具有客製化的結構。

ASIC(Application Specific Integrated Circuit特定用途積體電路)根據產品的需求進行特定設計和製造的積體電路,其客製化程度與GPU 和FPGA 相比更高。 ASIC 算力水準一般高於GPU、FPGA,但初始投入大,專業性強烈縮減了其通用性,演算法一旦改變,運算能力會大幅下降,需要重新自訂。

再看GPU相較於這兩類晶片有哪些劣勢。

第一點,GPU的單位成本理論效能低於FPGA、ASIC 。

從成本角度看,GPU、FPGA、ASIC 三種硬體從左到右,從軟體到硬件,通用性逐漸降低、越專用,可客製化逐漸提高,相應的設計、開發成本逐漸提高,但是單位成本理論性能越高。舉個例子,對於還在實驗室階段的經典演算法或深度學習演算法,使用GPU 做軟體方面的探索就很合適;對於已經逐漸成為標準的技術,適合使用FPGA 做硬體加速部署;對於已經成為標準的運算任務,則直接推出專用晶片ASIC。

從公司的角度來說,同樣對於大批量資料的運算任務,同等記憶體大小、同等算力的成熟GPU 和FPGA 的部署成本相近。 如果公司的業務邏輯經常變化,例如1-2年就要變化一次,那麼GPU 的開發成本低、部署速度快;如果公司業務5年左右才變化一次,FPGA 開發成本雖高、但晶片本身的成本相比GPU 低很多。

第二點,GPU的運算速度要遜於FPGA和ASIC 。

FPGA、ASIC和GPU內都有大量的運算單元,因此它們的運算能力都很強。在進行神經網路運算的時候,三者的速度會比CPU快很多。但GPU由於架構固定,硬體原生支援的指令也就固定了,而FPGA和ASIC則是可編程的,其可編程性是關鍵,因為它讓軟體與終端應用公司能夠提供與其競爭對手不同的解決方案,並且能夠靈活地針對自己所使用的演算法修改電路。

因此在許多場景的應用中,FPGA和ASIC的運算速度要大大優於GPU。

具體到場景應用,GPU 浮點運算能力很強,適合高精度的神經網路運算;FPGA 並不擅長浮點運算,但是對於網路封包、視訊串流可以做到很強的管線處理;ASIC 則根據成本有幾乎無限的算力,取決於硬體設計者。

第三點,GPU的功耗遠大於FPGA和ASIC 。

再看功耗。 GPU的功耗,是出了名的高,單片可以達到250W,甚至450W(RTX4090)。而FPGA一般只有30~50W。這主要是因為記憶體讀取。 GPU的記憶體介面(GDDR5、HBM、HBM2)頻寬極高,大約是FPGA傳統DDR介面的4-5倍。但就晶片本身來說,讀取DRAM所消耗的能量,是SRAM的100倍以上。 GPU頻繁讀取DRAM的處理,產生了極高的功耗。另外,FPGA的工作主頻(500MHz以下)比CPU、GPU(1~3GHz)低,也會使得自身功耗更低。

再看ASIC,ASIC的效能和功耗最佳化是針對特定應用進行的,因此在特定任務上效能更高、功耗更低。由於設計是針對特定功能的,ASIC在執行效率和能源效率比方面通常優於FPGA。

舉個例子,在智慧駕駛這樣的領域,環境感知、物體識別等深度學習應用要求計算響應方面必須更快的同時,功耗也不能過高,否則就會對智能汽車的續航里程造成較大影響。

第四點,GPU延遲高於FPGA、ASIC。 FPGA相對於GPU具有更低的延遲。 GPU通常需要將不同的訓練樣本,分成固定大小的“Batch(批次)”,為了最大化達到並行性,需要將數個Batch都集齊,再統一進行處理。

FPGA的架構,是無批次的。每處理完成一個資料包,就能馬上輸出,時延更有優勢。 ASIC也是實現極低延遲的另一種技術。在針對特定任務進行最佳化後,ASIC通常能夠實現比FPGA更低的延遲,因為它可以消除FPGA中可能存在的額外程式設計和設定開銷。

既如此,為什麼GPU還會成為現下AI運算的大熱門呢?

在目前的市場環境下,由於各大廠商對於成本和功耗的要求尚未達到嚴苛的程度,加之輝達在GPU領域的長期投入和積累,使得GPU成為了目前最適合大模型應用的硬體產品。儘管FPGA和ASIC在理論上具有潛在的優勢,但它們的開發過程相對複雜,目前在實際應用上仍面臨許多挑戰,難以廣泛普及。因此,眾多廠商紛紛選擇GPU作為解決方案,也導致了第五點潛在問題的浮現。

第五點,高階GPU的產能問題也令人焦慮。

OpenAI 首席科學家IlyaSutskever 表示,GPU 就是新時代的比特幣。在算力激增的背景下,輝達的B系列和H系列GPU 成為「硬通貨」。

然而,雖然該系列需求十分旺盛,但考慮到HBM和CoWos供需緊張,以及台積電先進產能吃緊的情況,GPU產能實在無法跟得上需求。

要知道“巧婦難為無米之炊”,在這種情況下,科技巨頭們需要更加靈活地應對市場變化,囤積更多的GPU產品或尋找替代方案。

現今已經有不少廠商開始另闢蹊徑,在GPU以外的道路上探索並研發更為專業化、精細化的運算設備和解決方案。那麼未來的AI加速晶片又將如何發展呢?


科技巨頭另闢蹊徑

在當下這個科技發展極快、演算法以月為單位更迭的大數據時代,GPU 確實適合更多人;但一旦未來的商業需求固定下來,FPGA 甚至ASIC 就會成為更好的底層運算設備。

各晶片龍頭與科技龍頭也早已開始研發生產專用於深度學習、DNN 的運算晶片或基於FPGA 架構的半客製化晶片,代表產品有Google 研發的張量運算處理器TPU、 Intel 旗下的Altera Stratix V FPGA等。

Google押注客製化的ASIC 晶片:TPU

Google 早在2013 年就秘密研發專注AI機器學習演算法晶片,並用於雲端運算資料中心,取代輝達GPU。

這款TPU自研晶片2016年公開,為深度學習模型執行大規模矩陣運算,如自然語言處理、電腦視覺和推薦系統模型。 Google 其實在2020 年的資料中心便建構AI 晶片TPU v4,直到2023 年4 月才首次公開細節。

值得注意的是TPU是一種客製化的ASIC 晶片,它由Google從頭設計,並專門用於機器學習工作負載。

2023年12月6日,Google官宣了全新的多模態大模型Gemini,包含了三個版本,根據Google的基準測試結果,其中的Gemini Ultra版本在許多測試中都表現出了「最先進的性能”,甚至在大部分測試中完全擊敗了OpenAI的GPT-4。

而在Gemini出盡了風頭的同時,Google還丟出了另一個重磅炸彈——全新的自研晶片TPU v5p,它也是迄今為止功能最強大的TPU。根據官方提供的數據,每個TPU v5p pod在三維環形拓撲結構中,透過最高頻寬的晶片間互聯(ICI),以4800 Gbps/chip的速度將8960個晶片組合在一起,與TPU v4相比, TPU v5p的FLOPS和高頻寬記憶體(HBM)分別提高了2倍和3倍。

隨後在今年5月,Google又宣布了第六代資料中心AI 晶片Tensor 處理器單元--Trillium,並表示將於今年稍後推出交付。 Google表示,第六代Trillium晶片的運算效能比TPU v5e晶片提高4.7倍,能源效率比v5e高出67%。這款晶片旨在為從大模型中生成文字和其他內容的技術提供動力。谷歌也表示,第六代Trillium晶片將在今年底可供其雲端客戶使用。

據悉,輝達在AI晶片市場的市佔高達80%左右,其餘20%的絕大部分由各種版本的GoogleTPU所控制。谷歌本身不出售晶片,而是透過其雲端運算平台租用存取權限。

微軟:推出基於Arm架構的通用型晶片Cobalt、ASIC晶片Maia 100

2023年11月,微軟在Ignite技術大會上發表了首款自家研發的AI晶片Azure Maia 100,以及應用於雲端軟體服務的晶片Azure Cobalt。兩款晶片將由台積電代工,採用5nm製程技術。

據悉,輝達的高階產品一顆有時可賣到3萬到4萬美元,用於ChatGPT的晶片被認為大概需要有1萬顆,這對AI公司是個龐大成本。有大量AI晶片需求的科技大廠極力尋求可替代的供應來源,微軟選擇自行研發,便是希望增強ChatGPT等生成式AI產品的效能,同時降低成本。

Cobalt是基於Arm架構的通用型晶片,具有128個核心,Maia 100是一款專為Azure 雲端服務和AI 工作負載設計的ASIC 晶片,用於雲端訓練和推理的,晶體管數量達到1050億個。這兩款晶片將導入微軟Azure資料中心,支援OpenAI、Copilot等服務。

負責Azure晶片部門的副總裁Rani Borkar表示,微軟已開始用Bing和Office AI產品測試Maia 100晶片,微軟主要AI合作夥伴、ChatGPT開發商OpenAI,也在進行測試中。有市場評論認為,微軟AI 晶片立項的時機很巧,剛好在微軟、OpenAI 等公司培養的大型語言模型已經開始起飛之際。

不過,微軟並不認為自己的AI 晶片可以廣泛地取代輝達的產品。有分析認為,微軟的這項努力如果成功的話,也有可能幫助它在未來與輝達的談判中更具優勢。

據悉,微軟預計在即將到來的Build技術大會上發布一系列雲端軟硬體技術新進展。而備受關注的是,微軟將向Azure用戶開放其自研的AI晶片Cobalt 100的使用權限。

英特爾押注FPGA晶片

英特爾表示,早期的人工智慧工作負載,例如影像識別,很大程度上依賴平行效能。因為GPU 是專門針對視訊和顯示卡設計的,因此,將其應用於機器學習和深度學習變得很普遍。 GPU 在平行處理方面表現出色,並行執行大量運算作業。換句話說,如果必須多次快速執行相同工作負載,它們可以實現令人難以置信的速度提高。

但是,在GPU 上運行人工智慧是存在局限的。 GPU 不能夠提供與ASIC 相媲美的效能,後者是一種針對給定的深度學習工作負載專門構建的晶片。

而FPGA 則能夠借助整合的人工智慧提供硬體客製化,並且可以透過程式設計提供與GPU 或ASIC 相似的工作方式。 FPGA 可重新編程、重新配置的性質使其格外適合應用於快速演進的人工智慧領域,這樣,設計人員就能夠快速測試演算法,並將產品加速推向市場。

英特爾FPGA 家族包括英特爾Cyclone 10 GX FPGA、英特爾Arria 10 GX FPGA 和英特爾Stratix 10 GX FPGA等。這些產品具備I/O 彈性、低功耗(或每次推理的能耗)和低時延,本來就可以在AI 推理上帶來優勢。這些優勢在三個全新的英特爾FPGA 和系統單晶片家族的產品中又得到了補充,使得AI 推理性能進一步獲得了顯著提升。這三個家族分別是英特爾Stratix 10 NX FPGA 以及英特爾Agilex FPGA 家族的新成員:IntelAgilex D 系列FPGA,和代號為「Sundance Mesa」的全新英特爾Agilex 設備家族。這些英特爾FPGA 和SoC 家族包含專門面向張量數學運算最佳化的專用DSP 模組,為加速AI 計算奠定了基礎。

今年3月,晶片巨擘英特爾宣布成立全新獨立營運的FPGA公司-Altera。英特爾在2015年6月以167億美元收購Altera,被收購時Altera是全球第二大FPGA公司,九年後英特爾決定讓FPGA業務獨立運營,再次選擇以Altera命名。

NPU(Neural Processing Unit)也是一種參考人體神經突觸的ASIC 晶片。隨著深度學習神經網路的興起,CPU和GPU 逐漸難以滿足深度學習的需要,專門用於神經網路深度學習的處理器NPU應運而生。 NPU 採用「資料驅動平行運算」的架構,特別擅長處理影片、影像類別的大量多媒體資料。區別於CPU 以及GPU 所遵循的馮諾依曼架構,NPU 參考人體的神經突觸結構,將儲存與運算結為一體。

Arm 近日宣布推出Ethos-U85 NPU。作為Arm 面向邊緣AI 的第三代NPU 產品,Ethos-U85 適用於工業自動化和視訊監控等場景,在效能方面提升了四倍。 Ethos-U85 較上一代產品在能源效率方面擁有20% 的提升,還可在常用神經網路上實現85% 的利用率。其在設計上適合基於Arm Cortex-M / A 處理器核心的系統,能接受較高的記憶體延遲。

協同、訓練推理融合、具備統一生態的系列化智慧晶片產品與平台化基礎系統軟體。寒武紀產品廣泛應用於伺服器廠商及產業公司,面向網路、金融、運輸、能源、電力和製造等

此外,OpenAI也正在探索自研AI晶片,同時開始評估潛在收購目標。 AWS自研AI晶片陣容包括推理晶片Inferentia和訓練晶片Trainium。 電動車製造商特斯拉也積極參與AI加速器晶片的開發。特斯拉主要圍繞在自動駕駛需求,迄今推出了兩款AI晶片:全自動駕駛(FSD)晶片和Dojo D1晶片。

去年5月Meta揭露了旗下資料中心專案支援AI工作的細節,提到已經打造一款客製化晶片,簡稱MTIA,用於加速生成式AI模型的訓練。這是Meta首次推出AI客製化晶片。 Meta稱,MTIA是加快AI訓練和推理工作負載的晶片「家族」的一分子。此外,Meta介紹,MTIA採用開源晶片架構RISC-V,它的功耗僅有25瓦,遠低於輝達等主流晶片廠商的產品功耗。值得注意的是,今年4月,Meta公佈了自主研發晶片MTIA的最新版本。分析指出,Meta的目標是降低對輝達等晶片廠商的依賴。(半導體產業縱橫)