輝達的“絕世武功”

誰將是AI世界的“神” ?

當大家都在猜測輝達(NVIDIA、英偉達)還有多少增長潛力時,美東時間7月13日,輝達股價再度大漲4.73%,市值達到11356億美元,再創歷史新高。

“現在公司大部分資源都集中在大模型建設,最近我們採購的一批輝達GPU馬上到貨,內部早已分配完畢。 ”近日,一家AI企業員工向記者描繪了芯片供應的緊張之勢。

眼下,算力產業鏈正面臨新一輪“缺芯”。產業鏈上的企業們要登上超高算力的舞台、要在AI江湖中立足,輝達GPU是稀缺的入場券。



當A100和H100因為美國禁令而停供後,輝達重新定制的800系列在中國被廠商瘋搶,100系列的庫存GPU價格也一路走高。有產業鏈人士告訴記者:“今年A100的價格漲了一倍左右,而一台帶NVLink的八卡服務器,去年還不到100萬元人民幣,現在可能需要170萬元。”

更令人焦慮的是,價格高漲之下芯片(晶片)仍難求,另一位產業鏈人士向記者表示,輝達今年的GPU芯片需求或是往年的7、8倍,火熱程度可見一斑。

ChatGPT徹底引爆人工智能後,AMD、Intel、以及一眾GPU企業也一同上陣競賽,但是短期來看輝達地位不可替代。

在多位AI從業者看來,當前大模型的訓練需求過於迫切,對性能的要求也很高,而GPU的適配和生態轉移都需要很長時間,因此目前大家都優先選擇英偉達,和其他廠商的測試驗證也在進行中。

一場新的算力之戰已經拉開帷幕,如果說算力是一個江湖,那麼此刻輝達就是一名絕世高手。它身懷加速計算的絕技,尤其在AI戰場上一騎絕塵,似乎每一次都能精準地踏在浪潮的節奏上。從遊戲PC市場、到深度學習的崛起、到雲計算的普及、再到生成式AI的降臨,輝達的技術所向披靡。

然而,輝達創始人黃仁勳在2017年接受媒體採訪時卻說道:“15年來,我講的都是同一個故事。我幾乎都不用修改我的幻燈片。”他說,他預測不到人工智能何時來臨,但無比堅信圖形計算的優越性。

回頭看,輝達早已超越了GPU本身的概念,AI成為最大的標籤,算力的絕世武功撐起了新的萬億帝國。



起步


1993年,常年身披黑夾克的黃仁勳不顧分析師的勸阻,毅然決定和夥伴創立輝達。那一年,黃仁勳剛好30歲,他面對的市場環境並不樂觀,在九十年代,圖形處理器、或者說圖形加速卡領域群雄混戰,上百家企業在場上短兵相接。

更重要的是,彼時圖形加速卡並未受到重視,聚光燈都投射在CPU上。在1993年前後,意氣風發的CPU戰場上,算力主角是老牌傳奇英特爾和AMD,雙方正在酣戰。

1991年英特爾成為當時全球最大的半導體企業,1993年英特爾又推出了80586芯片,為了與AMD芯片進行區別,又將其命名為奔騰;1991年的AMD推出了Am386微處理器系列,打破了英特爾的市場壟斷,在1993年,AMD又推出Am486微處理器。

而在英特爾和AMD為代表的x86架構的CPU之外,蘋果和Arm也已經聯手進入芯片界。1993年,蘋果推出Newton MessagePad(牛頓機,PAD鼻祖),就首次搭載了Arm架構處理器。與此同時,蘋果還和IBM、摩托羅拉結成聯盟,來對抗“Wintel”,三者聯合研發出芯片PowerPC,在1994年用於蘋果的台式機上。

正如黃仁勳在近期的一場採訪中所言:“30年前,個人電腦革命才剛剛開始,微處理器CPU開始起飛,當時大家認為CPU是解決計算的最好方式。”但是,黃仁勳則一直認為需要有加速計算。

後來,大家都逐漸知道圖像處理、視頻處理、遊戲處理、計算處理等等都需要GPU,不過當時輝達仍在苦苦尋求技術的應用市場。

幸運的是,輝達很快找到了計算機圖像和電子遊戲結合的場景。在研發過程中,一家日本遊戲公司世嘉向輝達投來橄欖枝,願意提供給700萬美元的資金。

視頻遊戲的風口似乎就在眼前,當時PC和遊戲是最主要的消費電子市場,輝達趕上了班次。但是好景不長,輝達在3D圖像技術上選擇了錯誤的路線,不能兼容微軟制定的新主流標準,初代產品NV1最終銷量慘淡,眼看著為世嘉研發的芯片也要面臨著被淘汰的局面。

如果不能完成芯片開發,公司將陷入絕境。黃仁勳在日前的演講中也提到了創業初期的這次危機,最終他和世嘉說明實情,而世嘉竟然同意支付研發費用,拯救了在倒閉邊緣徘徊的輝達。

經歷過此番波折後,黃仁勳在1997年提出了業界知名的“黃式定律”,其預測顯卡性能每六個月就提升一倍,遠超摩爾定律的速度。當年這更像是黃仁勳對外的一次宣言,是為自己定下的標準和目標,而現在這已經變成了現實。這也是黃仁勳在演講中多次提及的“跑得快”,他說當道路很長時,跑得快是唯一的策略。



時運


很快,輝達迎來更大的轉機。

1997年,輝達推出的新款圖形加速芯片RIVA 129成功逆襲,開售後四個月內出貨量就超過100萬台。1998年,輝達又和台積電牽手合作,在圖形加速領域更上一層樓,在競爭無比激烈的PC和遊戲市場上,輝達快跑進入了決賽圈。

1999年,輝達順利上市,並率先提出了GPU概念,推出全球首款GPU——Geforce256。這是一款關鍵性產品,至此,GPU已經不僅僅是輔助CPU的角色,其出色的並行計算能力將提供更強勁的算力。

2000年,微軟Xbox搭載了來自輝達的GPU,輝達還在2002年底和索尼達成了合作,為遊戲主機PlayStation3提供顯示芯片。可以說,接下來輝達在遊戲界大殺四方,當然這其中也歷經了兼併收購、大魚吃小魚,起起落落,最終才殺出重圍。

在遊戲、PC市場上登頂的過程中,輝達也一直在尋找新的場景,也曾在蓬勃的手機市場鎩羽而歸,也面臨著PC市場沒有那麼性感的現實。然而,在2010年後,人工智能、雲計算的浪潮在慢慢靠近,從自動駕駛到神經網絡深度學習,GPU展現出了強大而專一的加速計算能力。

深度學習崛起的過程中,GPU提供的捲積運算、並行運算等特性,恰好可以滿足AI計算的需求;在全球雲化的趨勢之下,數據中心的計算背後都需要GPU提供算力支持。

輝達又一次在新領域中崛起,就像是它碰巧有絕世的武功,武林江湖環境變換,它卻始終能以獨門秘籍開啟新路。誰能料想,後來的事實證明,GPU不僅能用於AI、還能用於挖礦。要知道,AI的概念在AlphaGo熱潮後陷入沉寂,恰逢區塊鏈站上風口,GPU憑藉礦機需求一路走高。

眾所周知,此後區塊鏈熱度下滑,瘋狂的礦機需求回落,輝達的股價也應聲而落,然而到了2022年末,人工智能重返科技舞台中心,生成式AI成為輝達市值的新動能,輝達的產品也是生成式AI的主引擎



潮起潮落間,黃仁勳也從外界眼中的“遊戲小子”成為“AI教主”。一路以來,輝達抓住了計算設備需求的關鍵時機,從圖形渲染、到人工智能、乃至區塊鏈領域的計算都表現得十分突出,應用場景也覆蓋了PC、數據中心、汽車等市場。到2023財年,輝達數據中心的營收佔比首次超過了遊戲,達55.6%。

談及數據中心業務,黃仁勳說:“儘管我們需要更多算力,但是數據中心消費並沒有那麼快速的增長,因為摩爾定律到現在已經發生變化,已經結束了,如果我們想要更多的算力,所有數據中心都需要加速,區別於ASIC芯片用於特定程序,輝達是通用加速計算平台。”



超越


輝達最初的標籤就是GPU,但僅僅是圖像領域的應用,並不足以支撐輝達後來高漲的市值。在練就絕技的過程中,輝達早已超越了最初GPU的概念,進入到更廣泛的產業之中。

其中,業內人士提及最多的兩大內功是GPGPU和CUDA,它們在為人熟知的芯片之上,為產業製定了一整套軟硬件標準,強大的軟件生態也讓輝達當前立於不敗之地。

首先,回到GPU和CPU的區別上,GPU到底有何特色?為何能從配角成為主角?

GPU和CPU是現代計算機中不可或缺的兩個組成部分,但它們在運算方式、功能等方面卻存在著明顯的差異。簡單來說,CPU主要負責執行指令集中的算術邏輯操作,而GPU則更擅長於並行計算。這是因為GPU擁有大量的核心,每個核心都可以獨立地進行計算任務,從而實現高效的計算。

做個粗糙的比喻,在電腦上繪製一張圖時,CPU的運算方式更加講究邏輯,需要按照順序去繪製像素,而GPU可以同時去繪製多個像素。而繪製背後主要是GPU在進行矩陣運算,就像一個矩陣運算界的頂尖高手。

一開始,GPU正如其名“Graphic Processing Unit”,專供圖像顯示。一個重要跨越是在2007年,輝達提出了GPGPU架構,即用於通用計算的GPU,將GPU從傳統的圖像處理器,廣泛普及應用到計算訓練當中。

GPU在圖像處理、視頻編碼等領域表現優秀,而在一些特定的應用場景中,如科學計算、工程仿真等,需要更高的計算能力和更大的內存帶寬,這時就需要使用更為強大的GPGPU進行更大規模的並行運算。

這是輝達擴大市場版圖的一個重要節點。更為重要的是,輝達還在2006年推出了自己的CUDA平台,構建了強大的AI算力生態。

CUDA是輝達的並行計算平台和編程模型,CUDA可以通過利用GPU的處理能力大幅提升計算性能,讓GPU擁有解決複雜計算問題的能力。而通過CUDA平台,開發者們可以在編程時更方便地調度底層的GPU算力。

可以說,CUDA平台是輝達建立的並行運算的一整套軟硬件生態標準,所有輝達的GPU都兼容CUDA,並且大多數AI芯片均與之匹配兼容,尤其是訓練端芯片。因此,儘管GPU或者AI的創業公司層出不窮,大多都兼容輝達的CUDA平台,要再創建自有生態的壁壘和成本都很高。

有產業鏈人士向記者表示,CUDA擁有400多萬開發者,軟件生態的護城河非常高,目前要遷移到中國較為成熟的AI芯片平台上,可能需要2、3年的時間。

當前在全球的GPU市場上,主要玩家是輝達和AMD,英特爾近年也在發力GPU產品線,而輝達目前仍佔據主要市場份額。對標CUDA來看,AMD也在打造開放的ROCm平台,ROCm平台於2016年推出,AMD也在不斷優化ROCm套件。

亞馬遜創始人傑夫·貝索斯曾在一次訪談中說道:“如果產品做得優秀,並且足夠幸運,一般會有兩年的領先優勢,在AWS業務上亞馬遜領先了七年,七年沒有勢均力敵的競爭對手。”

再看輝達和AMD,CUDA比ROCm整整超前了10年,CUDA十年磨一劍,挑戰者們仍在追趕之中。



“通吃”


回顧GPU和AI的發展史,黃仁勳說道:“2012 年,計算機視覺模型AlexNet 就使用GeForce GTX 580進行訓練,使用1400萬張圖像訓練了AlexNet ,每秒可處理262 PetaFLOPS(千萬億次浮點運算)。經過訓練的模型以壓倒性優勢贏得了ImagNet挑戰賽,並引發了AI的大爆炸。”

這時,GPU和AI的相擁就已經深埋種子,十年之後,Transformer模型面世,OpenAI基於Transformer開發了GPT-3。

此前的演講中,黃仁勳談到,GPT-3的訓練需要323 ZettaFLOPS的算力,相當於AlexNet 的100萬倍,從而創造了ChatGPT 這個震驚全世界的AI。在他看來,嶄新的計算平台已經誕生,AI 的“iPhone時刻”已經來臨,加速計算和AI技術已經走進現實。

今年的GTC大會上,黃仁勳公佈了諸多與生成式AI相關的進展,隨後又在台北國際電腦展COMPUTEX上繼續放出王炸,他宣布GH200 Grace Hopper超級芯片正式投產,並公佈由256個GH200驅動的新型DGX GH200 AI超級計算機。

而此前輝達就已經做足了功課。2022年,輝達推出了多款重磅產品,分別是基於全新Hopper架構的H100 GPU、CPU和GPU的合體Grace Hopper、兩個CPU組合的Grace CPU Superchip,CPU的產品在2023年上市。

其中,設計GPU新架構Hopper時,輝達增添了一個Transformer引擎,專門為Transformer算法做了硬件優化,加快AI計算的效率。

一位中國芯片從業者向記者直言:“H100出來,其實就是一個新時代了,Grace-Hopper再一個組合,加上高配的互聯,完全不給活路,輝達贏家通吃,AMD、Intel繼續苦追。”

同時他也表示:“目前中國一些企業還是在盯著CNN做優化,輝達已經有Transformer引擎,然後AIGC火熱,恰好能做支持。這個眼光,只能佩服他們的科學家們對這個領域深刻的認識。”

一位學術界人士也向記者分析道:“從H100上,包括專用的Transformer引擎以及對FP8格式的支持,可以看到計算硬件在向應用定制的方向前進。Grace CPU說明了整合異構計算系統的重要性。單純的加速器優化和設計已經不能夠滿足現在對於計算系統的算力和能效比的要求,需要各個部分的協同優化和設計。”

他還表示,Grace CPU通過提高通信帶寬和在CPU和GPU之間建立一致(coherent)的內存模型來解決運算中的瓶頸,這也和學界(近存計算,存內計算)與業界(CXL,CCI等等系統互聯協議)一直在關注的方向是一致的。

總而言之,在GPU和CPU的各種排列組合中,輝達又將算力提升到了新高度。正如黃仁勳所言:“我們正在重新發明計算機,加速計算和人工智能標誌著計算正在被重新定義。”

黃仁勳在採訪中還提到,數據中心需要用的CPU越來越少,不再是傳統上購買數百萬個CPU,而是轉而購買數百萬個GPU。換言之,在他看來,AI算力江湖已經是GPU的主場。



野心


輝達的佈局還不止於此。

一個現實問題是,高性能的算力也意味著高昂的價格。大模型訓練成本動輒成千上百萬美元,並不是所有公司都能承受。



而輝達同時提出了雲服務的解決方案NVIDIA AI foundations,黃仁勳表示要做“AI界的台積電”。台積電大大降低了芯片設計公司生產門檻,輝達也要做代工廠的角色,通過和大模型廠商、雲廠商合作提供高性價比的雲服務。

前述芯片從業者對記者解析道:“賣雲服務,就是聯合大模型方提供Pre training(預訓練)的模型,小企業直接Fine tuning(微調)就有自己的了。”

在幫助下游企業降低大模型訓練成本的同時,輝達還在逐步參與到上游的產業鏈升級中。今年,輝達牽手台積電、ASML、新思,發布了計算光刻庫cuLitho。

前述學術界人士向記者介紹道,計算光刻是在芯片設計和製造領域的關鍵步驟,也是最大的計算負載之一。計算光刻庫的技術突破就在於,可以通過部署有大量GPU的DGX AI計算系統對計算光刻進行加速,使其達到原有的基於CPU的計算速度的幾十倍,同時降低計算過程的總能耗。這將有助於晶圓廠縮短原型週期時間、提高產量、減少碳排放,為2nm及更先進的工藝奠定基礎,並為曲線掩模、高數值孔徑極紫外、亞原子級光刻膠模型等新技術節點所需的新型解決方案和創新技術提供更多可能性。

新思方面向記者表示,此次研發合作中,cuLitho集成了新思科技Proteus全芯片掩膜合成解決方案和新思科技Proteus ILT反向光刻圖形技術,並進行了優化,以便在最新一代NVIDIA Hopper架構GPU上運行。如今,在cuLitho平台上運行Proteus解決方案只需要500個NVIDIA DGX H100 GPU,替代此前用於計算光刻的40000台CPU服務。計算光刻過程的所有部分都可以並行運行,將電力能耗需求和運行時間從幾週減少到幾天。

在多位產業界人士看來,雖然短期內不會影響到下游的應用方面,但是這些上游的研發和升級將長期影響產業的發展,累積形成代際差。

“輝達在GPU架構的迭代上,一直都有屬於自己的發展路徑,這幾年的發展,也讓輝達躍居AI算力芯片領域的領導者,也因為領先,所以輝達會思考如何做更多元的佈局與行業內的深度合作,這樣更能了解行業的需求,比方和台積電等合作便是很好的例子。”芯片行業專家姚嘉洋向記者表示。

在2008年的電視採訪中,黃仁勳說:“希望有一天大家都認識輝達,就像大家都認識微軟、英特爾一樣。”如今,輝達幾乎是家喻戶曉,擁有絕世的武功,比大夢想更加重要。

2023年,輝達30週年之際,黃仁勳在採訪中說:“(公司)直到現在才真正起飛。”生成式AI助力輝達成為算力的新王。

當然,英特爾和AMD都已經吹響反攻的號角。7月,英特爾面向中國市場推出了AI芯片Habana Gaudi 2;6月,AMD推出AI芯片Instinct MI 300X,兩者都直接對標輝達100系列。圍繞著算力、納米的權力遊戲還將繼續。(21Tech)