#SQL
Meta、微軟掌門人巔峰對話:大模型如何改變世界?
大模型的競爭遠遠沒有結束。就在剛剛過去的4月,大模型再度經歷了新一輪諸神之戰。先是有阿里在4月29日凌晨發佈開源模型Qwen,並官宣登頂全球開源模型榜首;後又有Meta在4月30日舉辦首屆LlamaCon開發者大會,大會上不僅發佈了對標ChatGPT的Meta AI App,還面向開發者推出了Llama API預覽版。Meta的Llama 4系列模型,則是在4月6日搶先對外發佈。也是在首屆LlamaCon開發者大會上,Meta創始人祖克柏請來了現任微軟CEO薩提亞·納德拉進行了一場半小時的現場對話。在這場對話中,小扎搖身一變,成了主持人,對這位曾經挽救微軟於水火,推動微軟巨額投資了OpenAI,如今在推動微軟進行又一次改革的傳奇CEO進行了一場精彩訪談。納德拉說,我們正處於一個可以建構“深度應用”的階段;納德拉說,一些項目中,我們程式碼庫裡的程式碼可能有20%-30%是由AI編寫。祖克柏則指出,到2026年,預計會有一半的應用開發工作會由AI完成;祖克柏還指出,未來每個工程師都會是技術領導,帶領一個自己的智能體小隊。我們將這次兩大科技巨頭值得回味的對話內容整理如下:01 “深度應用”,即將到來祖克柏:你曾多次談到,當前科技領域所處的時刻,尤其是人工智慧高速發展,讓你想起了過去的技術轉型時刻,你能具體談談嗎?納德拉:我加入微軟時,正值Windows 3發佈,所以我見證了客戶端-伺服器架構的誕生,然後是網際網路、移動網際網路、雲端運算的浪潮相繼興起。你可以把現在的AI浪潮看作第四次或第五次技術轉型,每次技術轉型,技術堆疊都面臨著結構性調整,你需要回到第一性原理重新進行梳理。以我自己的經歷來看,我從07、08年開始建構雲基礎設施,主要用於Hadoop之類的資料處理,但後來我們發現,這與為AI訓練工作負載建構的核心儲存系統完全不同。資料平行、同步工作負載的需求讓我們重新自上而下思考技術堆疊的重構,這種挑戰在每次平台轉型時都會出現。就像網際網路雖然誕生於Windows,但後來網際網路的發展已經遠遠超越了Windows。祖克柏:微軟在企業業務方面表現非常出色,你如何看待AI模型的效率提升對企業的影響?納德拉:幾年前,我們還在擔憂摩爾定律是否已經終結,大家都在問:“接下來該怎麼辦?”但現在,我們進入了又一個技術大爆炸的時代。技術平台轉型從來不是單一的S曲線,而是多個S曲線的疊加。首先,晶片性能在持續提升,像Jensen(黃仁勳)或Lisa(蘇姿丰)等人推動的晶片技術革新,縮短了晶片的研發周期,這可以看作是摩爾定律的延續。但更重要的是,系統軟體最佳化、模型架構最佳化、推理核心最佳化、應用伺服器,乃至提示快取,我們在這些方面都取得了顯著的進步。把這些進步疊加起來,每6-12個月,我們就能看到10倍的性能提升。當技術以這種速度增長,價格又以同樣的速度下降時,消費必然會大幅增長。所以我非常樂觀,我們正處於一個可以建構“深度應用(deep applications)”的階段,現在,我們已經進入了多模型應用階段,可以進行編排、智能體和多個模型協同工作。早期應用高度依賴單一模型,但現在我們能建構確定的工作流,讓基於某個模型的智能體與其它智能體對話,我們甚至有了像MCP或A2A這樣的協議,這些都是很好的技術演進。人工智慧技術如果能進一步標準化,我們就能開發出更靈活且充分利用人工智慧技術的應用。我認為,開源在這一過程中將發揮巨大的作用。02 大模型顛覆平台型企業祖克柏:你認為開源生態會如何發展?為什麼這對你的客戶很重要?你在建構基礎設施時又是如何考慮的?納德拉:我早期在微軟的一個重要工作是確保Windows NT與各種Unix系統之間的互操作性,這讓我明白了一件事:客戶首先需要互操作性,如果你在這方面做得很好,這對你的業務會很有益,這是我思考開放原始碼的起點。我對閉源或開源並不教條,世界需要兩者並存。事實上,客戶也要求兩者共存,即使有人固執己見也沒關係,因為需求會推動世界朝這個方向發展。例如,我們現在有SQL Server,也有MySQL和Postgres;有Linux,也有Windows,甚至Windows上還有Linux。我最喜歡的是Windows上的WSL,因為它讓許多開發工具在Windows上部署變得簡單。總體來說,擁有一種能混合搭配這兩種模式的能力非常有用。事實上,我們很多企業客戶希望提煉他們擁有的模型,形成他們自己的智慧財產權。在這種情況下,開源模型相較閉源模型有著巨大的優勢。所以,現在的世界能更好地同時服務於優秀的閉源模型和開源模型,作為超大規模雲提供商,這對於我們來說是一件好事,我們的工作是為這些模型開發商提供服務。例如在Azure上,你可以使用Postgres、SQL Server,或者Linux和Windows虛擬機器。同樣,我們希望可以為大家提供各種模型支援。祖克柏:你認為微軟在開源方面扮演著怎樣的角色?對於剛起步的開發者,微軟能為他們提供那些差異化能力?納德拉:首先,AI工作負載不僅僅是在推理時有個AI加速器和一個模型,實際上,任何AI工作負載的底層都有儲存、計算資源和網路資源。所以核心基礎設施對Azure來說很重要。我們希望基於計算、儲存、網路加上AI加速器打造世界級基礎設施,並作為服務提供給那些想要建構下一代智能體的開發者。此外,我們還在與晶片代工廠一起建構一個應用服務平台,每次技術轉型都會出現一個應用服務平台。如何將搜尋、記憶體、安全在內的所有開發者需要的服務封裝起來,這些都是現在每個開發者在嘗試做的事情,如何將這些封裝到標準框架中,為開發者提供相應的工具,這是我們在思考的問題。我們專注在做的另一件事情是將GitHub Copilot作為工具,它的進展令我們非常興奮。優秀的工具、優秀的應用伺服器和優秀的基礎設施的結合,是加速AI應用開發的關鍵。03 生產模式將加速轉變祖克柏:你提到智能體和生產力提升,這顯然是整個生態系統的一個重要話題。我很好奇,微軟內部是如何看待這一點的?你看到的最有趣的例子是什麼?納德拉:我們最直觀的感受來自軟體開發領域的變化。以GitHub Copilot的演變為例,它最初只有程式碼補全能力,後來我們加入了聊天功能——讓開發者可以直接在工作流中解決問題,不用再去Reddit或Stack Overflow,然後,我們又引入了智能體工作流,可以直接分配任務。現在,我們還有像SWE Agent這樣的Demo,你可以給它一個高級提示詞,或者把程式碼審查分配給它。這四個方面——程式碼補全、聊天、智能體工作流和SWE Agent,共同為我們帶來了生產力的提升。這其中,我們獲得最重要的經驗是,你必須把這些工具整合到現有的程式碼庫和開發者工作流中。建構全新的應用是一回事,但我們很少能完全從零開始,通常我們需要在一個大型程式碼庫基礎上工作,面對複雜的程式碼工作流,需要整合各種工具鏈。這是每個工程團隊都要做的系統性工作,只有這樣才能真正提升生產力。這種變化同樣適用於其它知識型工作,例如在銷售領域,微軟內部在準備企業客戶會議時,以往的流程(我從1992年加入微軟以來就沒變過的流程)是:有人寫了一份公告,然後通過郵件或共享文件傳送我,我會在會議前一晚讀這封郵件。現在,我可以用Researcher和Copilot即時獲取網路、公司內部甚至CRM中的綜合資訊,這種改變不再需要有人提前做任何準備,但這需要改變工作方式、工作產物和工作流。這種轉變一開始會很慢,然後會突然加速。我在PC時代已經看到過類似的轉變,那時,人們用傳真和辦公室備忘錄做資訊記錄和傳遞,後來有人說:“我們用郵件發個電子表格吧。”數位化的引入改變了資訊記錄和傳遞的方式。我認為,我們現在正處於類似轉變的起點,客戶服務、行銷資料創作、內容創作等領域都在發生變化,我們已經看到了實實在在的進展和生產力提升。祖克柏:你有統計過現在微軟內部有多少程式碼是AI寫的嗎?納德拉:事實上我們在追蹤關於AI的兩項指標:一是大家對AI的接受率,目前大概在30%到40%,而且這個數字還在穩步上升,具體取決於程式語言。我們現在很多程式碼還是用C++寫的,但是C++語言的程式碼補全效果不太好,C#還不錯,Python則表現得很棒。隨著語言支援率的提升,程式碼補全的質量也在提高。AI寫程式碼還處於早期階段,對於新項目來說,AI寫的程式碼比例會很高,但我們的項目並不是全新的項目,我估計,在一些項目中,我們程式碼庫裡的程式碼可能有20%-30%是用AI寫的。二是程式碼審查,程式碼審查的比例也很高,我們用AI審查程式碼的使用率在不斷增加。你們那邊呢?祖克柏:我沒有現成的數字,但我們有很多團隊在研究Feed排名和廣告排名,這些領域可以通過變更歷史進行調整,這是個有趣的方向。我們更關注打造AI和機器學習工程師,推動Llama開發本身。我們預計,明年(2026年)可能有一半的開發會由AI完成,之後比例還會增加。你有類似的看法嗎?納德拉:是的,我們也在嘗試用SWE Agent解決一些任務,比如核心最佳化,這種任務更有可能實現。但提出全新的模型架構變化可能還不行,關鍵還是要看任務的性質。祖克柏:最佳化和安全改進確實是很大的機會,我們也在解決不同的問題。你們服務於很多開發者,那是你們的核心業務。而我們更多是改進內部開發流程,然後最佳化Llama模型供人們使用。我們不像你們那樣做意圖工作流,所以聽你的想法很有趣。納德拉:微軟創始人比爾·蓋茲是以工具公司起家的,所以對我來說,現在有趣的是,我們該如何概念化工具和基礎設施,尤其是給智能體用的工具和基礎設施。即使是SWE Agent也需要一堆工具,它們該是什麼形態?基礎設施該是什麼?沙盒該是什麼?所以我們要做的事還有很多,基本上是改進GitHub程式碼庫架構,看看對SWE Agent來說是什麼樣。祖克柏:這很有趣。我認為,未來每個工程師最終都會更像是技術領導,帶領著自己的智能體小隊。你提到你個人用AI的工作流,我想知道它為你帶來了怎樣的改變?如果你今天作為一個開發者開始建構智能體,你會如何考慮用AI工具的使用?納德拉:比爾反覆向我們所有人提出的一個問題是:文件、應用和網站有什麼區別?現在如果你用Meta AI、ChatGPT或Copilot,我不清楚聊天會話和頁面有什麼區別。例如,我在使用Llama 4時,實際上我只是與它進行了一堆聊天對話並將它們加入到文件中,然後可以用程式碼補全把它做成應用。這些想法,你可以從一個高級意圖開始,最終得到一個應用。過去你會將它稱作應用,我認為這會對工作流有著深遠的影響,我們正處在這個轉變的起點。作為基礎設施和工具的建構者與使用者,那些因軟體工作方式而形成的限制,也許你可以超越它。例如,我們過去常常在想,為什麼Word、Excel、PowerPoint是分開的,為什麼它們不能是一個東西?我們試了很多次。但現在你可以想像,從文字開始,可視化成像Excel那樣的東西,然後展示出來,它們都可以作為一個永久的資料結構。以前沒能實現的靈活性,現在可以實現了。04 造一座“蒸餾工廠”,讓模型能混合應用祖克柏:你曾指出,如果AI能夠帶來生產力提升,最終會反映在GDP上,但這需要很長時間才能實現。你認為未來3-5年會有怎樣的體現?納德拉:世界需要一種新的生產要素來應對挑戰。例如,發達國家想要以10%的速度增長,甚至是工業革命時期的峰值增速。要實現這一點,醫療、零售、工業等各行各業都將需要生產力的提升。我認為AI有這個潛力,但需要在軟體和管理上進行變革。人們要用不同的方式與AI合作,就像電力發展一樣,電力存在50年後,人們才通過改變工廠來真正利用它,福特就是一個很好的例子。我希望AI不會花50年,但單純把AI看作“無馬馬車”並不是解決之道。技術需要進步,同時需要融入系統,我們需要有新的工作方式、工作產物和工作流。祖克柏:接下來,我想回到“蒸餾工廠”的話題。你是怎麼把為開源建構的AI模型組合起來的?需要什麼樣的基礎設施?納德拉:我認為這是開放原始碼的最大的魅力之一。例如,在Llama家族中,你可以將一個大型模型蒸餾成更小的模型,甚至保持同樣的模型形態,這是很重要的用例。我們希望建構工具,希望將它作為服務來降低使用門檻。啟動大型模型需要大量基礎設施,不是每個人、每個企業都有這樣的能力,但如果由雲提供商來做,圍繞它提供工具,就會有突破性應用。例如,對Microsoft 365的每個使用者來說,如果他們能有一個特定的蒸餾模型,建立成智能體或工作流,然後從Copilot裡呼叫,這就會變得很強大,因為它們現在都已經支援MCP協議。所謂“蒸餾工廠”,是指一個大型模型與多個蒸餾模型之間的一對多或多對多關係,這些蒸餾模型再與GitHub Copilot或其它工作流進行組合。祖克柏:我一直對此很著迷,我認為蒸餾是開源模型最強大的部分之一。我們訓練初始的Llama模型,但沒有建造大部分開發者需要的基礎設施,像你們這樣的公司會建構複雜的基礎設施,而我們有大模型,除非蒸餾成更合理的形式,否則真的很難直接使用。Maverick就是從Llama蒸餾出的一個多模態模型,文字性能與DeepSeek這樣的領先模型相當,但在圖像和多模態上有很大的優勢。大模型預訓練完成後,我們通過後訓練和蒸餾,從20倍大的模型中提取90%到95%的智力,蒸餾出更高效的模型。這其中的問題在於,如何讓那些沒有強大技術能力的人也能用上,現在能操作這種規模模型的實驗室數量還很少。等這個願景實現時,全世界的開發者都能用上不只從單一模型蒸餾,還能混搭不同模型的智能部分,這將是最酷的事情之一。納德拉:是的,我認為這其中的另一個問題是評估和認證蒸餾模型,我們可以在這方面做更多工具和基礎設施來降低大模型的使用門檻。好消息是,這些減少智能體建構障礙的工作已經有人開始做了。此外,模型更新很快,你不能被過去的產品拖住,這也是我們需要擅長的。祖克柏:確實,開發者需要不同形態的模型。Llama的每個專家是170億參數,設計時考慮了H100的效率。但開源社區想要更小的模型,比如Llama 3的8b版本最受歡迎。我們也在做更小的版本,內部代號是Little Llama,能從大模型提取智能,蒸餾成適合筆記型電腦或手機的形態,這是最重要的方向之一。納德拉:是的,如果我們能做到混合模型,比如MOE組合加上推理模型,然後你就可以靈活地調整延遲或思考時間,那會是我們都想達到的目標。 (鋅產業)
【GTC大會】最全總結!黃仁勳140分鐘演講看這三個問題就夠了;新品B300Ultra和Rubin期貨;CUDA庫成重頭戲、Groot成MVP
今年GTC大會,老黃的主題演講聊了很長時間,一個人撐起了相當於一部電影那吒2的時長,近140分鐘。用黃仁勳開場自己的話說:“沒有指令碼,沒有提詞器,卻有很多令人難以置信的事情要跟大家談。”先說整體感受,老黃這次科普密度極大,可以說是最為賣力的一次演講。開場靈魂拷問:推動AI發展的三個問題跟去年不同的是,黃教主這次沒有上來就開大,而是在簡單介紹了感知AI、生成AI、代理AI、物理AI之後,拋出了一個靈魂拷問:究竟是什麼推動了每一波、每一階段人工智慧的發展?老黃也沒沒賣關子,他認為,這涉及三個基本問題。第一個是,如何解決資料問題?這很重要,因為人工智慧是一種資料驅動的電腦科學方法,它需要資料來學習,需要數字型驗來獲取知識。第二個問題是,如何在沒有人工干預的情況下解決訓練問題?人工干預從根本上來說是具有挑戰性的,因為我們的時間有限,而我們希望人工智慧能夠以超越人類的速度學習,以超越即時的速度學習,並且能夠以人類無法跟上的規模進行學習。第二個問題是,如何訓練模型?第三個問題是,如何實現規模化?如何找到一種演算法,使得無論提供多少資源,都能實現規模化的增長?可以說接下來的一些列的演講內容,全都是從這三個問題為經緯來展開的。CUDA為何繞不開?黃仁勳:CUDA加速庫是AI時代的SQL就像我們需要一個AI框架來建立人工智慧並加速AI框架一樣,你需要物理、生物、各種不同量子物理等計算科學的庫和框架。輝達為此開發了CUDA加速庫,為這些科學領域的加速框架。所以第一個庫是令人驚嘆的。比如大家熟知的全球下載量第一的Python庫:NumPy(去年下載量達到4億次),輝達早已做出了CUDA加速版:cuPy Numeric。cuPy Numeric是NumPy的零改動加速替代品,呼叫速度將會更快。第二個被老黃安利的是cuLitho庫,這是一個計算光刻庫。在過去的四年裡,輝達已經將整個光刻計算過程整合進來。“光刻是晶片製造的第二個工廠。一個工廠用於製造晶圓,還有一個工廠用於製造晶圓的製造資訊。每個擁有工廠的行業和公司未來都將有兩個工廠:一個用於生產產品,一個用於數學計算,人工智慧。汽車工廠、汽車人工智慧工廠、智能音箱工廠、智能音箱人工智慧工廠……所以cuLitho是我們的計算光刻庫,得到了TSMC、三星、ASML等合作夥伴以及Synopsys、Mentor等公司的大力支援。”黃仁勳補充道,光刻領域已經到了臨界點,再過五年,每一片掩膜、每一次光刻都將通過Nvidia CUDA進行處理。訊號處理是我們非常擅長的領域。一旦我們做到這一點,我們就可以在其基礎上加入AI,也就是我們所說的AI RAN(無線接入網路)。下一代無線網路將深度嵌入人工智慧。黃仁勳甚至對這項技術期望很大:為什麼我們會被資訊理論的極限所限制?因為我們只能獲取有限的資訊頻譜。但如果加入AI,進行數值或數學最佳化,情況就不一樣了。幾乎每個行業都使用這種技術,無論是規劃航班座位、庫存和客戶、工人和工廠、司機和乘客等,我們總是面臨多種約束條件、大量變數,而你需要最佳化的是時間、利潤、服務質量、資源使用等等。Nvidia在我們的供應鏈管理中也使用了這種技術。Co-Opt是一個令人驚嘆的庫。它將原本需要數小時的工作縮短到幾秒鐘。這非常重要,因為它使我們能夠探索更大的空間。宣佈將開源Co-Opt。此外,還有很多加速計算的CUDA庫。比如還有用於張量收縮的Co-Equivariance和cuTENSOR,用於基因測序和基因分析的Parabricks,以及全球領先的醫學成像庫Monai,用於高解析度局部天氣預測的Earth2,以及用於對CAE(電腦輔助工程)的cuDSS等。值得注意的是,用於量子計算的cuQuantum庫,黃仁勳透露,輝達正在與生態系統中的幾乎每個人合作,幫助他們研究量子架構、量子演算法,或者建構經典加速的量子異構架構。CUDA這個事實上的AI技術堆疊,已經通過這些加速庫被整合到生態系統的不同部分,包括軟體和基礎設施,這也造就了今天大模型領域難以繞開輝達的深層原因。老黃將CUDA庫比喻成上個IT時代的SQL——“服務提供商(CSP)喜歡我們的前沿技術,也喜歡我們完整的解決方案,因為正如我之前解釋的,加速計算不僅僅是晶片,甚至不僅僅是晶片和庫,而是晶片、程式設計模型以及在其之上的一整套軟體。整個堆疊極其複雜,每一個層級、每一個庫都相當於SQL。SQL,正如你們所知,是儲存計算領域的一場大革命,由IBM推動。SQL只是一個庫,想像一下我剛剛給你們展示的那些庫,而在人工智慧領域,還有更多。所以這個堆疊是複雜的。”輝達十年前就開始了自動駕駛的合作發佈汽車安全系統:Halos最早採用人工智慧的行業之一是自動駕駛汽車。從老黃看到AlexNet的那一刻,就已經決定輝達全力以赴地開發自動駕駛汽車。“所以,我們已經研究自動駕駛汽車超過十年了。”黃仁勳甚至把跟自動駕駛汽車具體的合作內容說了個遍。輝達開發的技術被幾乎所有自動駕駛汽車公司使用。它可能用於資料中心,例如,特斯拉在資料中心使用了大量的Nvidia GPU;也可能用於汽車本身。Waymo和Wave在資料中心和汽車中都使用了Nvidia的電腦。有時也可能只用於汽車,雖然這種情況比較少見,或者他們使用了我們所有的軟體。此外,輝達與汽車行業的合作方式取決於後者的需求。“我們建構了三種電腦:訓練電腦、模擬電腦和自動駕駛汽車電腦,以及所有在其之上的軟體棧、模型和演算法,就像我在前面提到的其他行業一樣。”黃仁勳講到這裡,丟出了一個合作的消息——通用汽車(GM)選擇與Nvidia合作,共同打造他們未來的自動駕駛汽車車隊。此外,老黃還重點花了一些時間介紹了自己非常自豪但外界卻很少關注的領域發佈:汽車安全系統“Halo”。安全需要從晶片到系統的技術,包括系統軟體、演算法、方法論,從多樣性到確保多樣性、監控和透明性、可解釋性,所有這些不同的理念都必須深深融入到系統和軟體開發的每一個環節中。“我們是世界上第一家對每一行程式碼進行安全評估的公司,700萬行程式碼經過第三方評估,以確保其設計能夠保證多樣性、透明性和可解釋性。我們還申請了超過1000項專利。”老黃還在這一part展示了如何訓練一個靠譜的自動駕駛大模型的過程,感興趣的朋友不妨一看:Nvidia正在通過Omniverse和Cosmos加速自動駕駛汽車(AV)的AI開發。Cosmos的預測和推理能力支援端到端可訓練的AI優先AV系統,採用新的開發方法,如模型蒸餾、閉環訓練和合成資料生成。首先是模型蒸餾,將策略模型適應為Cosmos的策略模型。將駕駛知識從一個較慢但更智能的教師模型轉移到一個更小、更快的學生模型,以便在汽車中進行推理。教師的策略模型展示了最佳軌跡,隨後學生模型通過迭代學習,直到其表現幾乎與教師模型相當。蒸餾過程啟動了策略模型,但複雜場景需要進一步調整。閉環訓練能夠對策略模型進行微調。日誌資料被轉化為3D場景,用於在基於物理的模擬中進行駕駛閉環,使用Omniverse神經重建。這些場景的變體被建立出來,以測試模型的軌跡生成能力。Cosmos行為評估器隨後可以對生成的駕駛行為進行評分,以衡量模型性能。新生成的場景及其評估建立了一個大型資料集,用於閉環訓練,幫助AV更穩健地應對複雜場景。最後,3D合成資料生成增強了AV對多樣化環境的適應性。從日誌資料中,Omniverse通過融合地圖和圖像建構詳細的4D駕駛環境,並生成現實世界的數字孿生,包括分割以指導Cosmos對每個像素進行分類。Cosmos隨後通過生成精準且多樣化的場景來擴展訓練資料,彌合模擬與現實之間的差距。Omniverse和Cosmos使AV能夠學習、適應並智能駕駛,推動更安全的出行。AI超級電腦:坦承向上擴展已達到了極限現在需要向外擴展關於資料中心,黃仁勳點讚了Hadoop的工作。“Hadoop是一個革命性的想法,它使超大規模資料中心能夠使用現成的電腦解決巨大的問題。”但緊接著老黃就道出了問題——我們試圖解決的問題如此複雜,如果按照那種方式擴展,成本將過高,能源消耗也會過大,深度學習將永遠不會發生。因此,我們必須先向上擴展。上一代系統架構被稱為HGX,它徹底改變了我們所知的計算,徹底改變了人工智慧。黃仁勳展示道,這是2個Blackwell GPU在一個Blackwell封裝中,兩個,下面有8個這樣的封裝,它們連接到我們稱之為NVLink 8的系統,然後連接到一個CPU機架,上面有兩個CPU,通過PCI Express連接,然後通過InfiniBand連接多個這樣的系統,形成一台人工智慧超級電腦。這就是過去的方式,這就是我們開始的方式。這就是我們在向外擴展之前能夠向上擴展的極限,但我們還想進一步向上擴展。黃仁勳表示,此前宣佈的Ranger將這個系統進一步向上擴展了4倍,所以我們有了NVLink 32,但這個系統太大了,所以我們必須做一些相當了不起的事情,重新設計NVLink的工作方式以及向上擴展的方式。因此,我們首先要做的是,需要把嵌入在這個系統主機板上的NVLink交換機與NVLIink系統分離出來。分離出來的NVLink交換機被放在機箱的中心。通過將18個這樣的交換機,分佈在9個不同的機架中。而計算部分則放在另一處,通過液體冷卻的方式,我們可以將所有這些計算節點壓縮到一個機架中。這是整個行業的重大變化。展示中的NVLink交換機是世界上性能最高的交換機,它使得每個GPU都能夠以全頻寬同時與其他每個GPU通訊。據黃仁勳透露,這樣一台機架,包含60萬個零部件,這相當於20輛車的零部件,全部整合到一台超級電腦中。而這正是輝達的實現的一個目標——整合的NVLink轉變為分離的NVLink,從風冷轉變為液冷,從每台電腦大約6萬個元件轉變為每個機架60萬個元件。120千瓦,完全液冷。所有這些難題,輝達全部搞定了。那為什麼要花如此大的力氣做這樣的機器?黃仁勳揭示了現下AI大模型在實際應用中,廠商們所面臨的二維困境:一方面希望大模型儘可能多的生成token(收入按token計費),另一方面,又希望儘可能更快地完成,因為如果你回答問題的時間過長,客戶就不會再回來了。因此,你的令牌速率很重要。而事實上,解決生產環境下最好的答案是:你應該擁有大量的浮點運算能力、大量的頻寬、大量的記憶體,還有最好的架構、最高的能效。你必須有一個程式設計模型,讓你能夠在所有這些極其複雜的裝置上運行軟體,以便實現這一切。這裡,老黃展示一個部署滿血版Deepseek R1的例子。你可以使用張量平行:你可以將模型的一層在多個GPU上運行;你可以將流水線的一部分切片,稱之為流水線平行,並將其放在多個GPU上;你可以將不同的專家放在不同的GPU上,我們稱之為專家平行。流水線平行、張量平行和專家平行的組合,其組合數量是驚人的。你有時也會針對極低的延遲進行最佳化。有時你會嘗試針對吞吐量進行最佳化。因此,你需要進行一些飛行中的批處理,許多不同的批處理和工作聚合技術。因此,這些人工智慧工廠的作業系統極其複雜。那麼,有一個觀察結果,擁有像NvLink72這樣的同構架構是一件非常棒的事情,因為每一個GPU都能做到我剛才描述的所有事情。一方面,模型廠商希望自家的token速率儘可能快,這樣就能製造出真正聰明的人工智慧,而如果有了聰明的人工智慧,人們會為其支付更多的錢。但另一方面,人工智慧越聰明,你在從volume上就越難盈利。在以Llama3和DeepSeek R1模型對比的演示中,後者輸出了20倍的token數量和150倍的計算性能。黃仁勳還提出了一個重要的觀點,未來每一個資料中心都將是功率受限的,你的收入也將是功率受限的。你可以根據你擁有的功率來計算你的收入。基於這一點,你必須確保你擁有儘可能高效的計算架構。所以,企業老闆們實質上是要在最大吞吐量和人工智慧的質量、最聰明的人工智慧、最多的產出之間找到帕累托最優。黃仁勳指出,在等功率的情況下,Blackwell遠遠優於Hopper。“這不是等晶片,也不是等電晶體,而是等功率,這是終極的摩爾定律。我們能在一個資料中心中獲得的功耗是有限的,所以在等功率的情況下,Blackwell是Hopper的25倍,這太不可思議了,這就是有趣的部分。”圖中右上方,可以看到有成千上萬的組態點,黃仁勳解釋道,這代表著我們可以將資料中心組態成不同的方式。我們可以平行化和分割工作,並以許多不同的方式分配工作,而我們找到了最佳化的答案,這就是帕累托前沿。每一種組態,因為顏色的不同,都顯示了不同的組態,這就是為什麼這張圖片非常清楚地表明,你想要一個儘可能可程式設計的架構,儘可能同質化、可互換,因為工作負載在整個前沿的變化是如此劇烈。Blackwell Ultra & Rubin 晶片氣氛已經鋪墊足了,黃仁勳終於開始帶貨了!相信大家最為期待的還是新款GPU和晶片的發佈。“今年下半年,我們將輕鬆過渡到升級版。所以,我們有Blackwell Ultra Nv Link 72,它的浮點運算性能是原來的1.5倍,增加了新的注意力指令,記憶體增加了一半。所有這些記憶體都適用於像Kv快取這樣的東西,網路頻寬增加了兩倍。既然我們有了相同的架構,我們就可以順利地過渡到這個新版本,這被稱為Blackwell Ultra。”至於為什麼又不是現貨?黃仁勳解釋道,建造AI工廠和AI基礎設施,這需要多年的規劃。“這可不是買筆記型電腦,這不是隨意的支出,這是我們必須提前規劃的支出。因此,我們必須提前規劃土地和電力供應,準備好我們的資本支出,組建工程團隊,並提前兩三年進行佈局,這也是我提前兩三年向你們展示路線圖的原因。”所以,我們計畫在未來幾年內推出多個產品。明年推出的產品是以一位天文學家的名字命名的,她的孫輩們今天也來到了現場,她的名字是Vera·Rubin(薇拉·魯賓),她發現了暗物質。Vera·Rubin,因為它的CPU性能是上一代Grace的兩倍,記憶體更多,頻寬更大,而它卻只是一個小小的50瓦CPU,這真的很令人驚嘆。Rubin主打一個全新。採用了全新的14✖️GB300、全新的網路NV Link144、全新的記憶體HBM 4e。用老黃的話說,基本上除了機箱,其他一切都是全新的。不過Rubin的發佈,得明年下半年推出。One more thing正如往期大會,黃仁勳總是喜歡在演講最後用機器人壓軸。這一次老黃用GROOT N1來結束了這場演講,憨態可掬的步伐和表情,也賺足了現場的掌聲。Isaac GR00T N1,號稱全球首個開放原始碼的、完全可定製的人形機器人基礎模型。它採用雙系統架構,靈感來自人類思考模式,包括快速思考的動作模型(System 1)和慢速思考的決策模型(System 2)。據悉,GR00T N1 現已上市,是輝達將預訓練並行布給全球機器人開發人員的一系列完全可定製模型中的第一個。Groot N1 是輝達 Project Groot 的演進版本,該公司在去年的 GTC 大會上推出了該項目。Project Groot 面向工業用例,但 Groot N1 將重點擴大到各種不同外形的人形機器人。黃仁勳最後表示:“通用機器人時代已經到來。借助 NVIDIA Isaac GR00T N1 以及新的資料生成和機器人學習框架,世界各地的機器人開發人員將開拓 AI 時代的下一個前沿。”最後,天亮了,小編看了下輝達的市值:只能說輿情向好,但市值還是小跌了。 (51CTO技術堆疊)