8月8日,NVIDIA創始人黃仁勳在SIGGRAPH現場發表NVIDIA主題演講中談到,通用計算將要讓位給加速計算和AI計算。未來,大語言模型將幾乎被應用於所有前端,幾乎所有應用程序、數據庫,而當人與計算機交互時都要先通過大模型。
黃仁勳宣布推出下一代版本的GH200 Grace Hopper超級芯片,該芯片將成為世界上第一個配備HBM3e(High Bandwidth Memory 3e)內存的GPU芯片。
最新版本的GH200超級芯片內存容量增加了3.5倍,帶寬增加了3倍;相比最熱門的H100芯片,其內存增加1.7倍,傳輸頻寬增加1.5倍。
圍繞生成式AI,NVIDIA的軟件部署
關於工作整合便捷高效方面,SIGGRAPH現場黃仁勳發布了一個全新的工作空間NVIDIA Workbench ,該平台可以簡化選擇基礎模型,構建項目環境,使用戶能夠在個人電腦或工作站上快速創建測試和微調生成式AI模型,然後將這些模型擴展到幾乎所有數據中心或云中,幫助使用者構建大型語言模型。
關於為每個人提供生成式AI方面。英偉達將與初創企業Hugging Face合作,幫助使用者構建大型語言模型等高級AI應用,意味著使用者將可以免費使用GPT34 0個參數的微調和推理,生成自己的大語言模型,或將其用於生成和合成圖像等其他用途。
關於AI在虛擬世界中的應用。黃仁勳宣布,NVIDIA Omniverse的重量更新,為開發者、企業和行業帶來新的基礎應用和服務,使他們能夠使用open u SD框架和生成式AI ,優化改進3 D流程。
關於世界產業的可視化。黃仁勳發布包括R unUSD 、ChatUSD 、D eep S earch和USB - GD N Publisher在內的四款全新Omniverse Cloud API ,使開發者能夠更加流暢,實施和部署open USD流程和應用,這意味著重工業的整個生產流程,可以實現可視化,減少能源損耗以及實際製造前的數字錯誤。
預煉大模型,先囤卡
在黃仁勳發表的最新演講和發布的產品中,我們看到了英偉達在軟件部署上的野心。事實上在AI領域,英偉達GPU早已成為核心基礎設施,是各家企業大模型訓練的必要硬件工具。
自ChatGPT火爆出圈以來,國內外科技巨頭紛紛佈局大模型。
根據《中國人工智能大模型地圖研究報告》分析,中國自2020年進入大模型加速發展期,目前與美國保持同步增長態勢,湧現了盤古、悟道、文心一言、通義千問、星火認知等一批具有行業影響力的預訓練大模型。
對大模型來說,通常需要更多的計算資源進行訓練和推理,才能提供更高的性能和更好的準確性。這就意味著,隨著通用大模型的參數量和計算複雜度不斷增加,數億甚至數十億個參數的模型也變得更加常見。目前,中國10億參數規模以上的大模型已發布79個。
每一個大模型正常運轉的背後,都需要算力加持,算力需求的暴漲讓跟算力“劃等號”的高端GPU一芯難求,“算力”軍備競賽正在全球範圍內上演。
目前,高端GPU價格仍在上漲,在eBay網站上英偉達H100售價高達4.5萬美元,約合32萬人民幣,較官網售價漲幅23% (3.65萬美元,約合26萬人民幣),較4月4萬美元的價格漲幅超過10% 。
H100是英偉達2022年推出的加速卡,比上一代的A100性能高了4.5倍,考慮到訓練和推理性能,是當前最受歡迎的顯卡。
H100,有錢也不一定買得到
中國方面,受芯片出口管制影響,英偉達(輝達、NVIDIA)A100及H100兩款型號國內不能買到。所以NVIDIA推出了專供中國的A800和H800 ,實際性能只有前者的7成左右,在符合限售禁令的同時亦滿足中國市場GPU需求。
國外方面,主要是需求旺盛疊加產能不足,導致GPU短缺。根據GPU Utils關於英偉達H100顯卡供需現狀文章,分析認為全球市場對H100芯片的需求量達到43.2萬張,以每塊3.5萬美元計算,GPU的價值約為150億美元,這還未考慮國內H800的需求。
目前,H100由台積電獨家代工生產,英偉達黃仁勳在今年6月台北電腦展上表示,不會考慮新增第二家晶圓代工,因此英偉達A100 / A800及H100皆下單台積電。雖然英偉達後又追加訂單,但由於從晶圓加工到封裝測試至少需要4個月的時間,產能短期仍無法滿足暴漲的需求。
8月2日, OpenAI 已經正式為“GPT-5”提交了商標申請,此舉可能預示著OpenAI計劃推出新的大型語言模型( LLM )“GPT-5” 。馬斯克估計訓練GPT-5 ,可能需要3萬至5萬張H100顯卡。
OpenAI首席執行官奧爾特曼(Sam Altman )近日公開表示:“我們的GPU非常短缺,使用ChatGPT的人越少越好,這樣才能確保用戶有足夠的算力。”
兩條路徑:GPU和GPGPU
一開始,GPU專注於圖像渲染處理,由英偉達在1999年發布GeForce 256圖形處理芯片時率先提出,當時GPU主要面向的是遊戲和PC市場。
由於GPU架構內主要為計算單元,適合處理高度線程化、相對簡單的並行計算,在圖像渲染等涉及大量重複運算的領域擁有更強運算能力。因此,英偉達在後期又進一步將計算機程序模擬為渲染過程,將GPU應用於通用並行計算,並於2007年推出了基於CUDA的GPGPU (通用GPU )beta版。
自此,GPU不再局限於圖形處理的遊戲和PC市場,並隨著AI的興起,GPGPU在AI領域大行其道。
目前,英偉達GPU在圖形渲染領域與AMD並駕齊驅;但在通用GPU領域英偉達一騎絕塵,市場佔有率超80% ,幾乎成為該領域無可替代的存在。
在高端 GPU芯片進口受限的背景下,國內GPU廠商近些年奮力追趕,在圖形渲染GPU和高性能計算GPGPU領域上均推出了較為成熟的產品。
GPGPU方向的代表性廠商像海光、壁仞、沐曦、登臨、天數智芯等,GPU渲染路線的代表性廠商像景嘉微、摩爾線程、芯動科技等。
國內GPU廠商中壁仞、天數智芯、沐曦等均已推出採用7nm工藝的GPU ,芯瞳半導體、芯動科技、摩爾線程等公司也相繼推出GPU產品。原CPU廠商龍芯、海光等也在加註GPGPU ,不過龍芯GPGPU主要是集成在自家SOC中,預計2024年龍芯將流片。
這當中大部分企業屬於初創期,成立時間不足5年,在產品可用性及市場規模上都與國外大廠相差甚遠。如果用一句話總結,國內GPU廠商當下處於“從0到1 ”的階段,通過快速迭代,拉進與國外大廠的差距,以形成自身競爭力。
國產GPU在硬件性能上不斷追趕行業主流產品,但若細化到產業中,仍有三大難題待解。
資金、產業鏈協同、軟硬件生態的三大難題
先說資金,一級市場融資解決了一部分初創企業資金難問題。
IT桔子數據顯示,2020-2022年是國產GPU投融資大年。國產GPU融資在2021年迎來峰值,總融資額突破120億人民幣,即便2022年融資總額較前一年縮減50% ,但仍為近8年GPU行業融資金額第二的年份。
來源:IT桔子,GPU芯片融資
雖然,眾多成立2-3年的初創公司獲得多輪巨額融資,但相較GPU芯片研發燒錢程度來說,還是杯水車薪。業內人士向芯榜透露,一款GPU從設計到落地,整體花費大致需要20幾億人民幣(包含人工)。
芯榜整理了近幾年來GPU廠商融資情況,排名靠前的為摩爾線程、壁仞科技、沐曦、天數智芯。如果對照上文中“國產GPU廠商產品進展”,可以發現融資順暢的GPU廠商,產品進展也相對較快。
注意,這裡未公開的融資金額未計入。例如,登臨科技從2020年3月天使輪至今,已完成融資6輪,但由於融資金額“未公開”,因此未計數。上圖中統計融資金額,若有遺漏,歡迎指正。
資金問題相對好解決,但並不是“燒錢”就有GPU可用。除了資金問題,國產GPU真正需要解決兩大問題是產業鏈協同、軟硬件生態。
GPU產品從開發設計到流片到反片調優,最後正式發布,經歷這一完整週期,大概需要一年半或兩年甚至更長的時間,中間涉及眾多環節。
以流片為例,現階段國產GPU廠商設計的7n m芯片,國內代工廠由於技術問題尚且無法提供流片服務,那麼GPU廠商大概率還是選擇先進工藝成熟的台積電流片。
據業內人士透露,初創企業找台積電流片,不僅要付2-3億元高額代工費,流片需要的材料還需要自己找,然後帶著材料去台積電流片。流片環節處於芯片設計和芯片量產的中間階段,是芯片量產的必經之路,對GPU初創企業來說,即便請台積電流片的條件苛刻,但也無可奈何。
芯片流片前後過程至少持續三個月(包括光刻、摻雜、電鍍、封裝測試),一般要經過1000多道工藝。而若一次流片不成功,還需二次流片、三次流片……不僅燒錢,還耗費時間。
尤其是GPU作為一款數字芯片,遵循摩爾定律,約每隔18個月,機體電路上可容納的晶體數目便會增加一倍,性能也將提升一倍。而在“自己卷自己”的“黃氏定律”推出後,基於GPU的一倍性能提升只需要1年的時間。
想想看,國產GPU公司團隊可能剛組建完畢,產品demo還沒做出來,國外頭部GPU廠商產品已更新換代。所以,GPU作為一種跟時間賽跑、跟友商激烈競爭的產品,國產GPU企業在設計產品時,必須要具備一定的前瞻性,才有可能在市場中佔據一席之地。不然耗時2年,消耗幾十億的產品可能即便順利量產,最終或因性能落後無法被市場所接受。
英偉達H100採用4nm工藝,國內GPU最先進製程為7nm工藝,製程工藝的差距除了GPU設計企業需要努力外,國內供應鏈代工環節的技術差距或許短期內更難突破。半導體全產業協同作戰,才有可能逐步縮短跟國外大廠的差距。
對於國產GPU公司,產品性能是一個門檻,另一個門檻是易用性,這就涉及到生態問題。英偉達經過20多年的發展,已經形成了強大的生態護城河CUDA 。國內GPU廠商尚處於發展初期,急於攻克硬件,而忽視了軟件問題。
事實上,一款GPU是否易用、好用,軟件極為重要。好的軟件能夠驅動硬件能力,優化軟件後,硬件得以跑出更好的性能和效率。目前國產GPU生態還屬於新生狀態,硬件和軟件的相互迭代過程並不是一蹴而就,需要長時間的積累。國產GPU之路,注定是一場馬拉松式的賽跑。短期2-3年或許能攢出一個硬件,但真要做到易用、好用,還要在生態、應用層面做大量的研發和優化。(芯榜+)