可能是黃仁勳資訊量最大的採訪
(圖:shutterstock)

黃仁勳這次史丹佛兩場演講,後一場資訊量賊大,把英偉達基本面最核心的幾個點基本都帶到了,摘出了重點,給大家節省腦帶寬

關於加速計算本質

如果我一生中認為最大的技術發展突破,那就是晶體管,但它所實現的最大能力是軟體,是人類以可重複的方式在計算上表達我們的想法和演算法的能力。我們在過去致力於一種新的計算形式,稱為加速計算。通用計算並不適合每個工作領域,所以我們說為什麼不發明一種新的計算方式,解決通用計算不擅長的問題,並且有效地將計算機的計算成本降低到接近零,當你能夠將某物的邊際成本降低到接近零時,我們就能以一種新的方式做軟體,過去是人類編寫,現在電腦編寫,因為計算成本接近零。所以你可以讓電腦去找出代表人類知識的關係和模式。這個奇蹟大約在十年前發生了,我們看到了這一點,推動了這一點,將電腦的邊際成本降低到零。在過去的10年裡,我們將計算成本降低了100萬倍。很多人說,但如果你能將計算成本降低100萬倍,人們花的錢自然會更少,這恰恰相反,我們發現如果我們能將計算的邊際成本降低到接近零,我們可能會用它來做一些非常驚人的事情需求反而顯著成長。我們販售的H100伺服器是世界​​上最昂貴的計算機,每片晶片售價2萬多美元,但它所取代的系統的電纜成本就超過了晶片價格。這就是我剛剛解釋的,我們把整個資料中心壓縮成了這片晶片。

關於未來的模型訓練

現在我們訓練模型然後應用模型,再訓練、再推理,在未來,我們將有持續的訓練,甚至我們可以選擇是否把訓練的結果部署到應用中,甚至AI通過觀看視頻和文本,從所有的互動中,不斷地自我改進學習過程和訓練過程。推理過程、訓練過程、部署過程、應用過程將變得一體,這就是我們正在做的你會發現一直在訓練和推理,這種循環將是持續的。強化學習將基於真實世界數據,這些數據是透過互動以及我們即時創造的合成數據獲得的,電腦會一直在想,這是否有道理?就像當人類學習時,透過資訊片段,然後從第一原則出發,就開始在大腦中進行模擬和想像,那個未來的想像狀態以現實的形式呈現給我們。所以,未來的AI計算機也會做類似的事情,它會合成數據,再進行強化學習,再繼續以真實世界的經驗為基礎,它會想像一些事情,然後用真實世界的經驗來測試,整個循環就是一個巨大的循環。這就是當你能夠將計算成本降低到接近零時,會發生的事情。

(參考我們知識星球中的分析,訓練的需求遠遠被低估...)

關於推理晶片的競爭

今天無論你使用ChatGPT,還是Co-pilot,service now,Mid-Journey,或者Adobe的Firefly,都在進行推理,背後的100%幾乎都是用的NVIDIA的GPU,且大多數輝達被使用的場景也已經變成推理,今天世界上幾乎所有的推理都是NVIDIA。現在大家討論,推理難還是容易?當你看訓練時,你會覺得那看起來太難了,我不會去做,我只是一個晶片公司,但這個系統它看起來根本不像晶片。只是為了證明新東西是否有效,你就要先投入20億美元,然後你啟動了它,發現可能無法運作。你投入了20億美元和兩年時間,就為了證明它不wor k。探索新事物的風險對客戶來說太高了。所以很多競爭對手傾向於說,那我們不做訓練晶片,我們來做推理晶片。那我現在告訴你,推理晶片非常難。你以為,推理的回應時間必須非常快,但這還算簡單的,因為這是電腦科學部分,算是容易的部分。難得部分是,推理的困難在於,部署推理的人的目標,是吸引更多的用戶,將該軟體應用於龐大的安裝用戶基礎因此,推理是一個關於安裝基礎的問題,這與在iPhone上線APP是一樣的,他們選擇iphone開發APP的原因是iPhone有一個如此龐大的安裝基礎,幾乎每個人都有一部,所以如果你為那部手機編寫了一個應用程序,將受益於它的用戶量,能夠惠及每個人。換成Nvidia的背景板,我們的加速運算平台CUDA是唯一真正無所不在的加速運算平台,因為我們已經在這方面工作了很長時間。如果你為推理編寫了一個應用程序,並且你將模型部署在Nvidia架構上,它可以在任何地方運行,所以你能夠觸及每個人,模型能夠產生更大的影響力。所以推理的問題其實是安裝基礎問題,這需要巨大的耐心和多年的成功、以及對架構相容性的持續貢獻。

關於ASIC的競爭

我們不僅有來自競爭對手的競爭,我們還有來自客戶的競爭(雲廠),而且我是他們眼中唯一的競爭對手。而我們明明知道客戶即將設計一款晶片來取代我們,我還要繼續向他們展示我目前的晶片、下一代的晶片,以及之後的晶片,各種秘密。這樣做的原因是,你要常識讓他們相信你在這個領域是最好,他們才會不得不選擇你。因此,我們都是完全透明的。誠然你可以為特定的演算法建立一款優秀的晶片(ASIC),但記住,計算不僅僅是關於transformer,更何況我們正在不斷地發明新的transformer變種,除此之外,軟體的種類非常豐富,因為軟體工程師喜歡創造新玩意。Nvidia擅長的是加速運算,我們的架構不僅能加速演算法,而且是可編程的,這意味著你可以用它來處理SQL(SQL自20世紀60年代IBM以來就出現了,它是儲存運算中非常重要的部分,每幾年就有300ZB的資料被創造出來,其中大部分都儲存在SQL結構化資料庫中),我們可以加速量子物理學、加速所有的流體和粒子程式碼等等廣泛領域,其中之一才是生成式AI。對於那些希望擁有大量客戶的資料中心來說,無論是金融服務還是製造業等,我們都是最棒的標準。我們存在於每一個雲端服務中,存在於每一個電腦公司。因此,我們公司的架構經過大約30年成為了一種標準。這就是我們的優勢。如果客戶能夠有更具成本效益的替代方案,我甚至會為此感到驚訝。原因是,當你看到現在的電腦時,它不像筆記型電腦,它是一個資料中心,你需要運作它。因此,購買和銷售晶片的人僅僅考慮的是晶片的價格,而營運資料中心的人考慮的是整個營運成本、部署時間、性能、利用率以及在所有這些不同應用中的靈活性。總的來說,我們的總營運成本(TCO)非常好,即使競爭對手的晶片是免費的,最終算下來它也不夠便宜!我們的目標是增加如此多的價值,以至於替代品不僅僅是關於成本的問題。當然,這需要大量的努力,我們必須不斷創新,我們不能對任何事掉以輕心。我本來希望不要聽起來太有競爭性,但約翰問了一個競爭問題,我以為這是個學術論壇....這觸發了我的競爭基因,我道歉,我本可以更藝術地處理這個問題。(哄笑)

什麼時候我們能實現AGI?是50年後還是5年後​​?

我會給出一個非常具體的答案,但首先讓我告訴你一些正在發生的非常令人興奮的事情。首先,我們正在訓練的這些模型是多模態,這意味著我們將從聲音中學習,從文字中學習,從視覺中學習,就像我們所有人一樣,看電視並從中學習。這很重要,因為我們希望AI不僅僅是基於人類去grounded,當然這是ChatGPT真正創新的地方,也就是RLHF。但直到強化學習,人類將AI都錨定在我們認為好的人類價值上。現在,你能想像,你必須生成圖像和視頻,AI知道手不會穿透講台,踩在水上時你會掉進去,所以現在AI開始錨定在物理上。現在,AI觀看大量不同的例子,例如視頻,來學習這個世界被遵守的規律。它必須創建一個所謂的世界模型。所以,我們必須理解多模態性,還有其他模態,像是基因、胺基酸、蛋白質、細胞等等。

第二點,就是AI會具有更強更強的推理能力,我們人類所做的許多推理,都編碼在常識中。常識是我們所有人類認為理所當然的能力。網路上有很多我們已經編碼好的推理和知識,模型可以學習。但還有更高層次的推理能力,例如現在你問我問題,大部分的問題,我的確像生成式模型一樣快速生成,我不需要太多的reasoning,但有些問題,我需要想想,也就是規劃planning,“很有趣,讓我想想”,我可能是在腦海中循環它,我提出了多個計劃,遍歷我的知識樹tree和graph,修剪我的樹,“這個沒有意義,但這個我可以去做」也就是我會在腦海中模擬模擬運行它,也許我會做一些計算等等。我的意思是,今天的許多“long thinking”,AI並不擅長。你輸入到ChatGPT的一切,它都會立即回應。我們希望輸入到ChatGPT的某個問題,給它一個目標,給它一個使命,它可以思考一會兒。所以,這種系統,電腦科學稱之為系統2,或長思考,或規劃。我認為我們正在研究這些事情,你將會看到一些突破。所以在未來,你與人工智慧的互動方式將會非常不同。有些只是給我一個問題,我會給你答案。有些是說,這裡有個問題,去工作一會兒,明天再告訴我。它會做盡可能多的計算。(註:這種算力需求爆炸了...別算一句話平均多少token了...甚至人均多少token都是沒意義的) 你也可以說,我給你這個問題,你可以花費1000美元,但不要超過這個數額,然後它會在明天給出最好的答案。

所以,回到AGI的問題,AGI的定義是什麼?事實上,這現在是最先需要回答的問題。如果你問我,如果你說Jensen,AGI是一系列測試的列表,記住,尤其工程師最明白,任何組織中,你需要有一個規格,你需要知道產品成功的標準,你需要有一個測試。如果我給你一個AI很多數學測驗、推理測驗、歷史測驗、生物測驗、醫學考試,以及律師考試,甚至包括SAT、MCAT等等,你把這些測驗列出來,擺在電腦科學行業面前,我猜猜在5年內就會在每一個測試上都做得很好。所以,如果你對AGI的定義是通過人類的測試,那麼我會告訴你,五年我們會通過所有的測試。但如果你稍微換一種方式問我,AGI是擁有人類的智能,那麼我不確定如何具體定義人類的所有智能,沒有人真正知道,因此這很難實現,但我們都在努力讓它變得更好。

為了支持AI的成長,需要多少額外的晶片產能?

關於預測,其實我很糟糕,但我非常擅長基於第一原則推演機會的大小。我不知道有多少FAB,但我知道的是,我們今天做的計算,資訊是別人寫的、或是由某人創造的,基本上是預先記錄下來的。我說的是每件事,每個字、語音、視頻,都是檢索式的,有人寫好了它並存儲在某個地方,然後你去檢索它,你知道的每一種模態過去都是這樣。在未來,因為我們的AI可以連接到世界上所有的最新新聞等,也就是可以檢索,它理解你的上下文,意味著它理解你問什麼,關鍵是,大部分的計算將是生成式。今天的100%內容是預先錄製的。如果在未來,100%的內容將是生成式的,問題是這將如何改變計算的形態。所以,這就是我推演這個問題的方式(需要多少晶片),例如我們需要更多的網路嗎?我們需要更多的記憶體嗎?簡單說,我們是需要更多的fab 。然而,我們也在不斷改進演算法和處理過程,效率在時間上有了巨大的提升。並不是說計算的效率就是今天這樣,因此需求就是這麼多。同時,我每10年都在提高運算能力一百萬倍,而需求卻成長一兆倍,這兩者必須相互抵銷。(仔細聽了3遍,的確是這個數量級...算出來太誇張了,可能萬億只是一種形容方式...)然後還有技術擴散等等,這只是時間問題,但這並不改變這樣一個事實:總有一天,世界上所有的電腦都將100%地改變,每一個資料中心,價值數萬億美元的基礎設施,將完全改變,然後在這之上還會建造新的基礎設施。

為什麼輝達開始想做ASIC?

我們是否願意客製化?是的,我們願意。為什麼現在的門檻相對較高?因為我們平台的每一代產品先有GPU,有CPU,有網路處理器,有軟體,還有兩種類型的交換器。我為一代產品建造了五個晶片,人們以為只有GPU一個晶片,但實際上是五個不同的晶片,每個晶片的研發成本都是數億美元,僅僅是為了達到我們所說的“發布”標準,然後你必須將它們整合到一個系統中,然後你還需要網路設備、收發送器、光纖設備,以及大量的軟體。運行一個像這個房間這麼大的計算機,需要大量的軟體,所以這一切都很複雜。如果客製化的需求差異太大,那麼你必須重複整個研發過程。然而,如果客製化能夠利用現有的一切,並在此基礎上增加一些東西,那麼這就非常有意義了。也許是一個專有的安全系統,也許是一個加密計算系統,也許是一個新的數值處理方式,還有更多,我們對這些非常開放。我們的客戶知道我願意做所有這些事情,並且意識到,如果你改變得太多,你基本上就全部重置了,浪費了近千億美元。所以他們希望在我們的生態系統中盡可能地利用這些(減少重置成本)。(這個回答需要仔細揣摩,有更多思考的歡迎知識星球評論區繼續討論)

最後是幾個增量資訊:

Marvel業績會後的callback:公司澄清,預計ASIC在FY4Q25結束時的run rate將遠高於之前說的2億美元/季度,受AI的「顯著」推動,預計全年交付遠高於8億美元。AI專案中有兩個項目很重要,其中一個非常大。交換器和DSP產品推進到3nm,以及更進一步的2nm。營運商和企業市場,預計四月季度將是底部,成長將在下半年更加顯著地恢復。但提到利潤率時又略顯保守,又說企業網路和儲存的反彈情況還有點不確定。預計下一季的光學(DSP等)將年增長強勁。

關於HBM4標準放寬,影響Hybrid Bonding,Barclays的分析:據報道,HBM4的標準已經設定,這可能會推遲混合鍵合技術的採用。我們本週與韓國內存廠商的會議也表明,採用時間比之前預期的要晚,這可能會推遲HB的採用。科技媒體ZDNET Korea(2024年3月8日)通報,JEDEC已經設定了12層和16層HBM4(下一代高頻寬記憶體)的行業標準,與前一代HBM3的720微米相比,HBM封裝的厚度已放寬至775微米。如果屬實,意味著16層HBM目前不需要混合鍵合,可以使用現有的鍵合技術。我們最近舉辦了Besi公司CEO的談話,他說如果封裝高度保持不變,那麼這可能會加速混合鍵合的採用,因為這是在不超出現有高度限制的情況下,從12層增加到16層的唯一方式。但我們本週與亞洲的ODMs、供應鏈和半導體公司進行了交流,根據他們的反饋,HBM4最初將是12層,並使用現有技術,意味著內存廠商將探索所有選項,16層的混合鍵合不是唯一選擇,正在與現有技術一起探索。無論JEDEC規格是否有任何變化,看起來HBM4最初都不會採用Hybrid Bonding。當然,高度厚度只是採用HB的一個原因,另一個好處是增加互連密度,也只能透過HB實現,因此繼續看到HBM在某個時刻轉向HB。在我們看來,Besi管理層最近一直在試圖降低預期,我們預計HBM採用hybrid bonding可能會在2025年底。

某行亞洲供應鏈研究:H100的第四季銷售量約為72萬顆,預計在第一季將增加到約81萬顆,第二季預計提高到約85萬顆。測試產能預計將在第二季/第三季末從每月30萬顆增加到40萬顆,但成長將是漸進的。在下半年,H/B系列的總產能將從每月40萬顆增加到50萬顆。供應鏈尚未獲得B100的初步預測,但指出測試通常需要六個月,且已在第一季開始。ODMs預計B100的實質出貨要到2024年第四季末/2025年第一季初,這比原先預計的第三季來得晚一些。L系列之前預計在第四季度為30萬顆,第一季為60萬顆,現在預計每月約為10萬顆,並且在下半年隨著NVDA尋找向CN銷售的方法,可能會更加穩健。ODMs談到了AMD約50萬顆的銷量,而NVDA為400萬顆,代表AMD在2024年的單位份額為11%。這個數字乍看之下似乎有些過於樂觀,但ODMs越來越多地談到了AMD預計在今年下半年推出的新設計。( 資訊平權 )