#CUDA
黃仁勳最新採訪:談CUDA、TPU、華為和其他
在昨日一個採訪中,Vlogger Dwarkesh Patel向輝達CEO Jensen Huang 詢問了關於 TPU 競爭、輝達如何掌控日益緊張的先進晶片供應鏈、我們是否應該向中國出售 AI 晶片、輝達為什麼不轉型為超大規模資料中心、其投資策略等等問題。以下是我們總結的的三十個重要觀點:1、所有產能問題都可以在兩三年內輕鬆解決2、CPU有點像凱迪拉克,它是一款舒適的巡航車,速度不會太快,每個人都能輕鬆駕馭;它配備了巡航控制,一切都很簡單。但在很多方面,輝達的GPU和加速器就像F1賽車3、跟Elon Musk吃過飯,但Musk沒有懇求黃仁勳優先供貨GPU4、GPU訂單遵循先來後到原則5、不喜歡“價高者得”的經營方式6、後悔錯過Anthropic7、不喜歡挑選贏家進行支援,而是雨露均霑,讓他們自由發展8、依然不看好ASIC,沒有任何一個ASIC公司有輝達可靠9、和台積電沒有法律合同10、今年的Vera Rubin將會非常出色;明年Vera Rubin Ultra將問世;後年,Feynman將橫空出世11、中國生產了全球60%的主流晶片,甚至更多12、中國擁有一些世界上最頂尖的電腦科學家13、中國擁有全球50%的人工智慧研究人員14、中國不是敵人,他們只是對手15、中國的計算能力非常龐大,中國是全球第二大計算市場。如果他們想整合計算資源,完全可以滿足需求。16、中國擁有的能源量驚人,充足的能源是中國的優勢17、如果中國願意,他們完全可以把更多的晶片集中起來18、認為中國無法製造人工智慧晶片的說法完全是無稽之談19、中國是全球最大的開放原始碼軟體貢獻國20、中國也是全球最大的開放模型貢獻國21、7nm晶片已經足夠好了22、建立兩個生態系統——一個只能運行在外國技術堆疊上的開源生態系統,另一個是運行在美國技術堆疊上的封閉生態系統——的做法是極其愚蠢的23、人工智慧本質上就是一個平行計算問題24、MoE 是一項偉大的發明25、DeepSeek 絕非無關緊要的進步,如果 DeepSeek 先在華為平台上發佈,那對美國來說將是災難性的26、x86 架構的存在是有原因的。ARM架構如此根深蒂固也是有原因的。這些生態系統難以替代。這需要耗費大量的時間和精力,而且大多數人都不願意這樣做27、輝達在中國份額大幅下降28、架構至關重要,電腦科學至關重要。半導體物理固然重要,但電腦科學才是重中之重29、即使人工智慧今天尚未出現,輝達的規模也會非常龐大30、如果沒有人工智慧,我會非常難過輝達最大的護城河是其對稀缺供應鏈的控制嗎?Q:我們已經看到許多軟體公司的估值暴跌,因為人們預期人工智慧會使軟體商品化。有一種可能過於天真的想法是:你看,輝達把GDS2檔案發給台積電。台積電製造邏輯晶片,製造交換機晶片,然後將它們與SK海力士、美光和三星生產的HBM記憶體封裝在一起。之後,台積電將封裝好的晶片發給台灣的ODM廠商,由他們組裝成機架。從本質上講,輝達製造的是其他人製造的軟體,如果軟體商品化了,輝達也會商品化嗎?黃仁勳:最終,總得有某種機制將電子轉化為tokens。將電子轉化為tokens,並隨著時間的推移提升這些tokens的價值,這很難完全商品化。從電子到tokens的轉化是一個不可思議的旅程。製造tokens就像讓一個分子比另一個分子更有價值,讓一個tokens比另一個更有價值。顯然,我們正在即時見證著tokens價值的提升,其中蘊含著大量的藝術、工程、科學和發明創造。這種轉化、製造以及所有相關的科學原理,我們遠未被完全理解,這段旅程也遠未結束。我懷疑它最終能否實現。我們當然會提高效率。你提出的問題正是我對我們公司的理解。輸入是電子,輸出是tokens。輝達位於中間。我們的工作是在必要範圍內儘可能少地干預,從而以驚人的能力實現這種轉型。我所說的“儘可能少地干預”,是指任何我不需要親自完成的事情,我都會與其他合作夥伴一起,將其納入我的生態系統。如果你看看今天的輝達,我們可能擁有規模最大的合作夥伴生態系統,涵蓋供應鏈的上下游,包括所有電腦公司、應用開發商和模型建構者。人工智慧就像一個五層蛋糕,我們的生態系統遍佈所有五個層面。我們儘量少做,但事實證明,我們必須做的那部分工作極其困難。我認為這部分工作無法商品化。(We try to do as little as possible, but the part that we have to do, as it turns out, is insanely hard)事實上,我也不認為企業軟體公司、工具製造商……如今大多數軟體公司都是工具製造商。當然,也有一些公司不是,它們開發的是工作流程編碼系統。但對很多公司來說,它們確實是工具製造商。例如,Excel 是工具,PowerPoint 是工具,Cadence開發工具,Synopsys也開發工具。實際上,我看到的恰恰與人們的看法相反。我認為代理的數量和工具使用者的數量都將呈指數級增長。所有這些工具的實例數量很可能會激增。Synopsys Design Compiler的實例數量很可能會激增,使用平面規劃器、佈局工具和設計規則檢查器的代理數量也會隨之大幅增長。如今,我們受限於工程師的數量。未來,這些工程師將得到大量agent的支援。我們將以前所未有的方式探索設計空間,並繼續使用我們今天使用的工具。我認為工具的使用將推動軟體公司蓬勃發展。之所以目前還沒有出現這種情況,是因為agents還不擅長使用這些工具。要麼這些公司會自行開發代理商,要麼agents會變得足夠熟練,能夠使用這些工具。我認為最終會是兩者的結合。Q:在你們最新的檔案中,你們與代工廠、記憶體和封裝廠商簽訂了近1000億美元的採購承諾。SemiAnalysis報導稱,你們這類採購承諾的總額將達到2500億美元。一種解讀是,輝達的護城河實際上在於你們鎖定了未來幾年這些稀缺元件的供應。其他廠商或許擁有加速器,但他們真的能獲得所需的記憶體嗎?他們真的能獲得所需的邏輯晶片嗎?這真的是輝達未來幾年最大的護城河嗎?黃仁勳:這是我們能做到而別人很難做到的事情之一。我們在上游投入了大量資源。有些是明確的,比如你提到的這些承諾。有些則是隱性的。例如,我們供應鏈上的許多上游投資都是由他們進行的,因為我曾對各位CEO說:“讓我告訴你們這個行業將會發展到多大的規模,讓我解釋一下原因,讓我和你們一起分析,讓我向你們展示我所看到的。”通過與上游各行各業的CEO們溝通、啟發和協調,他們才願意進行投資。為什麼他們願意為我而不是為其他人投資呢?原因在於,他們知道我有能力購買他們的產品,並通過我的下游管道銷售。事實上,輝達的下游供應鏈和我們的下游需求都非常龐大,因此他們願意進行上游投資。(As a result of that process of informing, inspiring, and aligning with CEOs of all different industries upstream, they’re willing to make the investments. Why are they willing to make the investments for me and not someone else? The reason for that is because they know that I have the capacity to buy their supply and sell it through my downstream. The fact is that Nvidia’s downstream supply chain and our downstream demand is so large, they’re willing to make the investment upstream.)如果你看看GTC大會,人們都會驚嘆於它的規模和參會人員之多。它涵蓋了人工智慧領域的方方面面,可謂包羅萬象。他們齊聚一堂,是因為彼此需要交流。我把他們聚集在一起,是為了讓下游企業瞭解上游,上游企業瞭解下游,讓所有人都能瞭解人工智慧的最新進展。更重要的是,他們還能與人工智慧領域的專家、正在蓬勃發展的人工智慧初創公司以及所有令人驚嘆的成果見面,親眼見證我所講述的一切。我花費大量時間,直接或間接地向我們的供應鏈、合作夥伴和生態系統傳達我們面前的機遇。有些人總是說:“Jensen,大多數主題演講都是一個接一個的公告。”但我們的主題演講總會有一部分內容讓人感覺有點“折磨”,因為它幾乎像是在進行教育。事實上,這正是我所關注的。我需要確保整個供應鏈,從上到下,整個生態系統,都瞭解即將發生的事情,它為什麼會發生,何時發生,規模有多大,並且能夠像我一樣系統地思考和分析它。關於您所描述的護城河,我們有能力為未來做好準備。如果未來幾年我們的規模達到兆美元,我們擁有相應的供應鏈。如果沒有我們的影響力,我們業務的發展速度……就像現金流、供應鏈和客戶流失一樣,如果業務流失率很低,沒有人會為一個架構建構供應鏈。我們之所以能夠維持如此龐大的規模,完全是因為下游需求巨大。他們看到了這一點,聽到了相關資訊,預見到了這一切。這使我們能夠以如此大的規模去做我們能夠做的事情。Q:我確實想更具體地瞭解上游能否跟上步伐。多年來,你們的收入每年都翻一番。你們提供給全球的flops數每年都增長三倍以上。黃仁勳:現在以這種規模翻倍真的太不可思議了。Q:沒錯。但你再看看邏輯。你是台積電N3工藝節點的最大客戶,也是N2工藝節點的最大客戶之一。今年人工智慧整體將佔N3工藝節點的60%,根據SemiAnalysis的預測,明年將達到86%。如果你已經佔據了大部分市場份額,如何才能實現翻番?又該如何逐年實現這一目標?我們現在是否正處於一個由於上游工藝的限制,人工智慧計算增長速度不得不放緩的階段?你認為有什麼辦法可以解決這個問題?最終,我們如何才能實現每年兩倍的晶圓廠建設量?黃仁勳:在某種程度上,瞬時需求大於全球上下游的供應。在任何時刻,我們都可能面臨plumbers數量不足的限制,而這種情況實際上也時有發生。Q:plumbers受邀參加明年的GTC大會。黃仁勳:順便說一句,這主意不錯。但這只是個好條件。你想要的是一個瞬時需求大於行業總供給的行業。反之則顯然不好。如果我們之間的距離太遠,如果某個特定元件的供應量太少,整個行業就會蜂擁而至。例如,你會發現現在人們很少再談論CoWoS了。原因在於,過去兩年我們全力以赴,實現了超負荷的產能擴張。我們連續數次加倍,每次都翻倍。現在我認為我們形勢相當不錯。台積電現在也意識到,CoWoS的供應必須跟上邏輯電路和儲存器的需求。他們正以與邏輯電路相同的速度擴展CoWoS和未來的封裝技術。這非常棒,因為長期以來,CoWoS和HBM儲存器都屬於小眾技術。但現在它們不再是小眾技術了。人們現在意識到它們已經成為主流的計算技術。當然,我們現在更有能力影響供應鏈的更大範圍。在人工智慧革命之初,我五年前就說過現在我說的這些話。有些人相信它並進行了投資,例如Sanjay和美光團隊。我仍然清楚地記得那次會議,會上我清楚地闡述了將會發生什麼、為什麼會發生以及今天的預測。他們確實加倍投入。我們在LPDDR和HBM記憶體領域與他們展開了合作,他們也確實投入了大量資金。這顯然對公司產生了巨大的影響。有些人加入得晚一些,但現在他們都在這裡了。這些瓶頸問題都受到了高度重視。現在,我們正在提前數年預先解決這些瓶頸問題。例如,過去幾年我們對Lumentum 、Coherent以及矽光子生態系統的投資,真正重塑了供應鏈。我們圍繞台積電建構了一條完整的供應鏈。我們與他們合作開發了COUPE 項目,發明了大量技術,並將這些專利授權給供應鏈,以保持其開放性和高效性。我們正在通過發明新技術、新工作流程、新型測試裝置(例如雙面探針測試)來建構供應鏈,同時投資於相關企業並幫助它們擴大產能。可以看出,我們正努力塑造整個生態系統,使供應鏈能夠支援規模化發展。Q:似乎有些瓶頸比其他瓶頸更容易解決。例如,擴展 CoWoS 與其他擴展方式相比。黃仁勳:順便說一句,我碰到的是難度最高的那一個。Q:那個?黃仁勳:水管工和電工。這就是我對那些描述工作終結和職業消亡的末日論者感到擔憂的原因之一。如果我們勸阻人們成為軟體工程師,我們就會面臨軟體工程師短缺的問題。十年前也出現過同樣的預測。一些末日論者告誡人們:“無論如何,千萬別當放射科醫生。”你可能還會在網上看到一些這樣的視訊,說放射科醫生將是第一個消失的職業,世界將不再需要更多的放射科醫生。猜猜我們現在缺什麼?放射科醫生。Q:回到之前關於有些東西可以規模化生產,而有些東西卻不行這一點……你究竟如何才能每年生產兩倍的邏輯電路?歸根結底,儲存器和邏輯電路的瓶頸都在於極紫外光刻(EUV)。你如何才能逐年獲得兩倍的極紫外光刻裝置?黃仁勳:這些都不是無法快速擴展的。所有這些都可以在兩三年內輕鬆實現。你只需要一個需求訊號。一旦你能造出一個,你就能造出十個;一旦你能造出十個,你就能造出一百萬個。這些都不難複製。Q:你會追溯到供應鏈的那個環節?你會去找ASML說:“嘿,如果我展望三年後,輝達的年收入達到兩兆美元,我們需要更多的EUV光刻機”嗎?黃仁勳:有些我必須直接說服,有些需要間接,還有一些……如果我能說服台積電,ASML也會被說服。我們必須考慮關鍵的瓶頸。但如果台積電被說服了,幾年後你們就會有很多EUV光刻機可用了。我的意思是,所有瓶頸都不會持續超過兩三年,一個都不會。與此同時,我們的計算效率提高了10倍、20倍,以Hopper到Blackwell為例,甚至提高了30倍到50倍。由於CUDA的靈活性,我們不斷開發新的演算法。我們正在開發各種新技術,以提高效率,同時提升產能。這些我都不擔心。真正讓我擔憂的是下游的問題。那些阻礙能源發展的能源政策……沒有能源,就無法建立任何產業。沒有能源,就無法建立一個全新的製造業。我們希望重振美國工業。我們希望恢復晶片製造、電腦製造和封裝產業。我們希望研發電動汽車和機器人等新產品。我們希望建設人工智慧工廠。所有這些都離不開能源,而且這些項目都需要很長時間。增加晶片產能,這需要兩到三年的時間。增加CoWoS產能,也需要兩到三年的時間。Q:有意思。我感覺有時候客人會跟我說完全相反的話。這種情況下,我確實缺乏相關的專業知識來判斷。黃仁勳:最妙的是,你是在和專家對話。TPU 能否打破輝達在 AI 計算領域的壟斷地位?Q:我想問問你們的競爭對手。如果你看看TPU ,可以說全球排名前三的模型中,有兩款——Claude和Gemini——都是用TPU訓練的。這對輝達未來的發展意味著什麼?黃仁勳:我們打造的是截然不同的東西。輝達打造的是加速計算,而不是張量處理單元。加速計算的應用範圍非常廣泛:分子動力學、量子色動力學、資料處理、資料幀、結構化資料和非結構化資料。它也用於流體動力學和粒子物理學。此外,我們還將其應用於人工智慧領域。加速計算的範疇遠比這廣泛得多。雖然人工智慧是當今的熱門話題,而且顯然非常重要且影響深遠,但計算的範疇遠不止於此。輝達徹底革新了計算方式,從通用計算轉向加速計算。我們的市場覆蓋範圍遠遠超過任何TPU或ASIC晶片所能企及的範圍。從我們的市場地位來看,我們是唯一一家能夠加速所有類型應用程式的公司。我們擁有龐大的生態系統。因此,各種框架和演算法都可以在輝達平台上運行。因為我們的電腦設計之初就考慮到了由他人操作,所以任何具備操作能力的人都可以購買我們的系統。而大多數自建系統則需要使用者自行操作,因為它們的設計初衷並非為了方便他人操作。由於任何人都可以操作我們的系統,因此我們的產品已部署在包括 Google、Amazon、Azure 和 OCI 在內的所有雲平台上。如果您想以租賃方式營運,最好擁有一個涵蓋多個行業的龐大客戶生態系統,以便他們成為承購方。如果您想自行營運,我們當然有能力幫助您,就像我們之前為埃隆·馬斯克提供的 xAI 服務一樣。而且,由於我們能夠賦能任何公司和任何行業的營運者,您可以利用這項技術為禮來公司建構一台用於科學研究和藥物研發的超級電腦。我們可以幫助他們營運自己的超級電腦,並將其用於我們所加速的各個藥物研發和生物科學領域。我們能夠解決很多TPU無法解決的應用問題。輝達打造CUDA的目的不僅在於使其成為一個出色的張量處理單元,它還能處理資料處理、計算、人工智慧等各個生命周期。我們的市場機會更大,覆蓋範圍也更廣。因為我們現在支援全球所有應用,所以無論你在那裡建構輝達系統,都無需擔心找不到客戶。這完全是兩碼事。Q:這將是一個很長的問題。你們的營收非常驚人,但你們每季度600億美元的收入並非來自製藥和量子計算領域。你們之所以能做到這一點,是因為人工智慧是一項前所未有的技術,而且它正以前所未有的速度發展。那麼問題就變成了:那種方案最適合人工智慧?我不太瞭解細節,但我跟我的人工智慧研究朋友聊過,他們說:“你看,我用TPU的時候,它是一個大型的脈動陣列,非常適合做矩陣乘法,而GPU則非常靈活。當你需要處理大量分支或不規則的記憶體訪問時,它就非常棒。”但人工智慧究竟是什麼?它不過是不斷重複進行這些非常可預測的矩陣乘法運算。你無需為線程束調度器或線程與記憶體庫之間的切換而犧牲任何晶片面積。而且,TPU 針對當前計算領域收入增長和應用場景的大量需求進行了最佳化。我想知道你對此有何看法。黃仁勳:矩陣乘法是人工智慧的重要組成部分,但並非全部。如果你想提出新的注意力機制、以不同的方式進行分解,或者發明一種全新的架構——例如混合SSM——你需要一個通用的可程式設計架構。如果你想建立一個融合擴散和自回歸技術的模型,你同樣需要一個通用的可程式設計架構。我們幾乎可以運行你所能想像的一切。這就是它的優勢所在。由於它是一個可程式設計系統,因此可以更輕鬆地發明新的演算法。人工智慧之所以能如此快速發展,真正的原因在於其不斷髮明新演算法的能力。與其他任何事物一樣,TPU(技術處理單元)也受到摩爾定律的影響,而摩爾定律的年增長率約為25%。要想真正實現10倍甚至100倍的飛躍,唯一的辦法就是每年從根本上改變演算法及其計算方式。這就是輝達的根本優勢。我們之所以能讓 Blackwell 的能效比 Hopper 高出 50 倍,唯一的原因是……當初我宣佈 Blackwell 的能效將比 Hopper 高出 35 倍時,沒人相信。後來Dylan寫了篇文章說我故意隱瞞,但實際上能效是 Hopper 的 50 倍。單憑摩爾定律是無法實現這一點的。我們解決這個問題的方法是採用新的模型,例如MoE(模組化執行單元),這些模型可以平行化、解耦並分佈在整個計算系統中。如果沒有能力真正深入研究並利用 CUDA 開發新的核心,這一切都很難做到。這得益於我們架構的可程式設計性,以及輝達作為一家極致的協同設計公司的優勢。我們甚至可以將部分計算任務解除安裝到架構本身(例如NVLink )或網路(例如Spectrum-X)中。我們可以同時對處理器、系統、架構、庫和演算法進行更改。如果沒有 CUDA,我真不知道該從何入手。Q:這引出了一個關於輝達客戶群的有趣問題。你們60%的收入都來自五大超大規模資料中心營運商。如果換個時代,面對不同的客戶群體——比如說進行實驗的教授——他們需要CUDA。他們無法使用其他加速器。他們只需要用CUDA運行PyTorch ,並且所有功能都得到最佳化。但這些超大規模資料中心營運商擁有編寫自有核心的資源。事實上,為了獲得其特定架構所需的最後 5% 的性能提升,他們必須這樣做。Anthropic 和 Google 大多運行著自己的加速器,或者使用 TPU 和Trainium 。即使是使用 GPU 的 OpenAI,也使用Triton ,因為他們需要自己的核心。甚至在 CUDA C++ 方面,他們也沒有使用cuBLAS和NCCL ,而是擁有自己的技術堆疊,該技術堆疊還可以編譯到其他加速器上。如果你的大多數客戶能夠並且確實找到了 CUDA 的替代方案,那麼 CUDA 在多大程度上真的能夠推動 Nvidia 平台上的前沿 AI 應用?黃仁勳:CUDA 擁有豐富的生態系統。如果您想先在任何電腦上進行建構,那麼首先基於 CUDA 進行建構是非常明智的選擇。正因為其生態系統如此豐富,我們才能支援所有框架。如果您想建立自訂核心……例如,我們為 Triton 做出了巨大貢獻。因此,Triton 的後端使用了大量的 Nvidia 技術。我們很高興能夠幫助每個框架發揮其最大潛力。框架種類繁多,例如 Triton、vLLM 、SGLang等等。現在又湧現出許多新的強化學習框架,例如verl和NeMo RL 。隨著訓練後處理和強化學習的不斷發展,整個領域正經歷著爆炸式增長。因此,如果您想基於某個架構進行開發,那麼基於 CUDA 無疑是最佳選擇,因為 CUDA 的生態系統非常完善。你知道,如果出了問題,更有可能出在你的程式碼裡,而不是底層那堆積如山的程式碼裡。建構這些系統時,別忘了你要處理的程式碼量有多大。如果出了問題,是你的問題還是電腦的問題?你肯定希望問題總是出在你身上,並且能夠信任電腦。當然,我們自己也存在很多 bug,但我們的系統已經過充分測試,至少你可以在這個基礎上繼續開發。這就是第一點:生態系統的豐富性、可程式設計性和強大功能。第二點是,如果你是一名開發者,無論開發什麼軟體,你最看重的就是使用者基數。你希望你編寫的軟體能夠在大量的其他電腦上運行。你開發軟體並非僅僅為了自己,而是為了你的伺服器群,或者其他所有人的伺服器群,因為你是一名框架建構者。輝達的 CUDA 生態系統最終是其最大的財富。現在市面上已經有數億個GPU。每個雲平台都配備了GPU。從A10 、A100 、H100 、H200 ,到L系列、P系列等等,種類繁多,尺寸和形狀也各不相同。如果你是一家機器人公司,你肯定希望CUDA協議棧能夠直接在機器人上運行。我們的產品幾乎無處不在。龐大的使用者群意味著,一旦你開發出軟體或模型,它就能在任何地方使用。這簡直太有價值了。最後,我們能夠覆蓋所有雲平台,這使我們真正獨樹一幟。如果您是一家人工智慧公司或開發者,您可能並不確定應該與那家雲服務提供商合作,或者在那裡運行。我們幾乎可以在任何地方運行,如果您願意,我們也可以為您提供本地部署服務。豐富的生態系統、龐大的使用者群以及我們靈活的部署方式,共同造就了 CUDA 的無可比擬的價值。Q:這很有道理。我好奇的是,這些優勢對你的主要客戶來說是否重要。對很多人來說,這些優勢可能很重要。能夠建構自己軟體棧的那類人貢獻了你的大部分收入。尤其是在人工智慧越來越擅長那些具有嚴格驗證循環、可以進行強化學習的領域……如何編寫一個核心,使其在規模化應用中能夠最高效地處理注意力機制或多層感知器(MLP)?這是一個非常容易驗證的反饋循環。所有超大規模資料中心營運商都能自行編寫這些定製核心嗎?輝達的性價比依然很高,所以他們可能仍然更傾向於使用輝達的產品。但問題在於,最終會不會演變成誰能以最低的價格提供最佳的規格、浮點運算能力和記憶體頻寬?歷史上,輝達憑藉CUDA的護城河,在人工智慧領域(包括硬體和軟體)一直保持著最高的利潤率,高達70%。而問題是,如果大多數客戶能夠負擔得起自行建構,而不是依賴CUDA的護城河,輝達還能維持這樣的利潤率嗎?黃仁勳:我們為這些人工智慧實驗室配備了數量驚人的工程師,他們與這些實驗室合作,最佳化他們的技術堆疊。原因在於,沒有人比我們更瞭解我們的架構。這些架構不像CPU那樣通用。CPU有點像凱迪拉克,它是一款舒適的巡航車,速度不會太快,每個人都能輕鬆駕馭。它配備了巡航控制,一切都很簡單。但在很多方面,輝達的GPU和加速器就像F1賽車。我估計每個人都能以每小時一百英里的速度駕駛它,但要將其性能發揮到極致,則需要相當豐富的專業知識。我們運用了大量的人工智慧技術來建立我們的核心。我非常肯定,在相當長的一段時間內,我們仍然會被需要。我們的專業知識通常能幫助我們的人工智慧實驗室合作夥伴輕鬆地將他們的技術堆疊性能提升兩倍。我們完成技術堆疊最佳化或特定核心最佳化後,他們的模型速度提升三倍、兩倍甚至五成的情況並不少見。這是一個巨大的數字,尤其考慮到他們龐大的裝置基數,包括他們所有的 Hopper 和 Blackwell 等計算單元。性能提升一倍,收入也會翻倍。這直接轉化為實際收益。輝達的計算堆疊是全球性價比最高的,沒有之一。目前世界上沒有任何一個平台能證明它的性能/總擁有成本比更高。沒有一家公司能做到。事實上,現有的基準測試,比如Dylan的InferenceMAX ,人人都能用,但沒有任何一家公司能做到……TPU不會推出,Trainium也不會推出。我鼓勵他們使用 InferenceMAX 來展示他們驚人的推理成本。這真的很難。沒人願意來。MLPerf 。我倒是很想聽聽 Trainium 展示一下他們一直聲稱的 40% 的成本優勢。我很想聽聽他們如何證明 TPU 的成本優勢。在我看來,這完全說不通。一點道理都沒有。從根本上來說,這根本說不通。所以我認為我們如此成功的原因很簡單,就是我們的總體擁有成本 (TCO) 非常低。其次,您提到我們 60% 的客戶是前五大企業,但其中大部分業務都是外部業務。例如,AWS 上的輝達產品大部分是為外部客戶而非內部使用者提供的。Azure 上的所有客戶也都是外部客戶。OCI 上的所有客戶也都是外部客戶,而非內部使用者。他們之所以青睞我們,是因為我們的覆蓋範圍非常廣。我們可以為他們帶來全球所有優秀的客戶。這些客戶都基於輝達的產品。而所有這些公司之所以都基於輝達的產品,正是因為我們覆蓋範圍廣、功能多樣。所以我認為真正的飛輪效應在於使用者基數、我們架構的可程式設計性、我們生態系統的豐富性,以及全球人工智慧公司數量眾多這一事實。現在有成千上萬家人工智慧公司。如果你是其中一家人工智慧初創公司,你會選擇那種架構?你會選擇最普及的架構。而我們的架構是全球最普及的。你會選擇使用者基數最大的架構。而我們的使用者基數最大。你還會選擇擁有豐富生態系統的架構。這就是飛輪效應。原因在於:首先,我們的每美元性能如此之高,以至於他們的tokens成本最低。其次,我們的每瓦性能是全球最高的。因此,如果我們的合作夥伴建造了一個1吉瓦的資料中心,那麼這個1吉瓦的資料中心必須能夠產生最大的收益和tokens數量,這直接轉化為收入。您希望它產生儘可能多的代幣,從而最大化資料中心的收益。我們擁有全球最高的每瓦代幣產量架構。最後,如果您的目標是租用基礎設施,我們擁有全球最多的客戶。這就是飛輪效應發揮作用的原因。Q:有意思。我想問題的關鍵在於,實際的市場結構究竟如何?因為即便還有其他公司……原本可能存在成千上萬家人工智慧公司,它們大致平分計算資源。但即便通過這五家超大規模資料中心,真正使用亞馬遜計算資源的仍然是 Anthropologie、OpenAI 以及那些有能力且能夠自行部署不同加速器的大型基金會實驗室。黃仁勳:不,我認為你的前提是錯誤的。Q:也許吧。不過,我想問你一個稍微不同的問題。如果價格、性能、每瓦性能等等這些說法都是真的,那麼你認為為什麼像 Anthropic 這樣的公司會在幾天前宣佈他們與 Broadcom 和 Google 達成了一項數吉瓦的 TPU 協議,用於他們的大部分計算呢?顯然,對Google來說,TPU 佔據了大部分計算資源。所以,如果我觀察這些大型人工智慧公司,會發現它們的很多計算資源……曾經有一段時間它們都依賴輝達的加速器,但現在情況並非如此。因此,我很好奇,如果這些說法在理論上成立,它們為什麼會選擇其他加速器呢?黃仁勳:Anthropic 是一個特例,而非一種趨勢。如果沒有 Anthropic,TPU 又怎會增長?它完全是 Anthropic 的功勞。如果沒有 Anthropic,Trainium 又怎會增長?它也完全是 Anthropic 的功勞。我認為這一點已廣為人知。ASIC 的機會並不多,Anthropic 只有一個。Q:但OpenAI 與 AMD 達成了協議……他們正在打造自己的Titan加速器。黃仁勳:是的,但我想我們都應該承認,它們很大程度上是輝達的產品。我們仍然會繼續合作。我不介意其他人使用其他產品或嘗試其他技術。如果他們不去嘗試,又怎麼知道我們的產品有多好呢?有時候,我們需要有人提醒自己這一點。我們必須不斷地努力才能保住現在的地位。總是有很多誇張的說法。看看有多少ASIC項目被取消就知道了。就算你打算造ASIC……你還得造出比輝達更好的產品。造出比輝達更好的產品可沒那麼容易。實際上,這根本不現實。輝達肯定漏掉了什麼,真的。因為我們的規模和速度,我們是世界上唯一一家每年都能持續產出新產品的公司。每年都有巨大的飛躍。Q:我猜他們的邏輯是,“嘿,它不需要更好。它只需要比原來的差不超過70%就行了”,因為他們付給你的是70%的利潤率。黃仁勳:不,別忘了,即使是ASIC晶片,利潤率也相當高。比如說,輝達的利潤率是70%。但ASIC晶片的利潤率只有65%。你到底能省多少錢?Q:哦,你是說博通之類的公司嗎?黃仁勳:當然,總得付錢給別人吧。就我所知,ASIC的利潤率非常高。他們自己也這麼認為,而且他們對ASIC驚人的利潤率相當自豪。所以,你問了為什麼。很久以前,我們確實沒有能力做到這一點。當時,我並沒有深刻意識到建立像 OpenAI 和 Anthropic 那樣的基礎性人工智慧實驗室有多麼困難,也沒有意識到他們需要供應商投入巨資。我們當時根本無力向 Anthropic 投資數十億美元,讓他們使用我們的計算資源。但Google和 AWS 有。他們一開始就投入了巨資,作為回報,Anthropic 可以使用他們的計算資源。而我們當時確實沒有能力做到這一點。我覺得我的錯誤在於,我沒有真正理解他們其實別無選擇,風險投資家絕不會把50億到100億美元投資到一個人工智慧實驗室,指望它能像Anthropic那樣成功。所以這是我的失誤。但即便我當時理解了這一點,我想我們當時也沒有能力這麼做。但我不會再犯同樣的錯誤了。我很高興能投資 OpenAI,也很高興能幫助他們擴大規模,而且我認為這樣做至關重要。後來,當 Anthropic 找到我們時,我也很高興能成為他們的投資者,幫助他們擴大規模。只是當時我們力不從心。如果一切可以重來——如果輝達當時就能達到現在的規模——我絕對會非常樂意這麼做。為什麼輝達不成為超大規模資料中心營運商?Q:這確實很有意思。多年來,輝達一直是人工智慧領域最賺錢的公司,賺了很多錢。現在你們開始投資人工智慧了。據報導,你們在OpenAI投資了高達300億美元,在Anthropic投資了100億美元。現在它們的估值都提高了,我相信還會繼續增長。所以,如果你這些年來一直為他們提供計算資源,並且預見到它的發展方向,而幾年前——甚至在某些情況下,一年前——他們的價值只有現在的十分之一,而你又手握大量現金——那麼,輝達完全可以轉型為基金會實驗室,進行巨額投資來實現這一目標,或者更早地以現在的估值完成你現在達成的這些交易。而且你當時也有足夠的資金這樣做。所以我很想知道,為什麼你沒有更早地這樣做呢?黃仁勳:我們儘早完成了這件事。如果可以,我甚至會更早去做。當時Anthropic需要我們做這件事的時候,我們卻無能為力。這樣做也不符合我們的本性。Q:怎麼會這樣?是現金交易之類的嗎?黃仁勳:是的,投資規模的問題。當時我們從未在公司外部投資過,而且投資額也不大。我們當時沒意識到需要投資。我一直以為他們可以像其他公司一樣,直接去風投那裡融資,我的天那。但他們想做的事情,風投是做不到的。OpenAI想做的事情,風投是做不到的。我現在明白了。當時我並不知道。但這就是他們的過人之處。這就是他們聰明的原因。他們當時意識到自己必須做這樣的事。我很高興他們這麼做了。儘管我們導致Anthropic不得不轉投他人,但我仍然為此感到高興。Anthropic的存在對世界意義重大。我為此感到欣慰。Q:我猜你仍然賺了很多錢,而且每個季度都在賺得更多。黃仁勳:有遺憾也是正常的。Q:所以問題依然存在。既然我們已經到了這裡,而且你們也一直在賺這筆錢,那麼輝達應該怎麼用呢?一個答案是,現在已經出現了一個完整的中間商生態系統,可以將這些實驗室的資本支出轉化為營運支出,以便他們能夠租用計算資源。因為晶片非常昂貴,而且由於人工智慧模型不斷改進,它們在其生命周期內能帶來巨額利潤。因此,它們創造的價值,也就是它們的代幣,正在不斷增長,但搭建這些系統成本很高。輝達有足夠的資金來承擔這些資本支出。事實上,據報導,你們為CoreWeave項目提供了高達63億美元的支援,並且已經投資了20億美元。為什麼輝達不自己做雲服務商?為什麼不自己做超大規模雲服務商,把計算資源出租出去?他們有這麼多錢可以這麼做。黃仁勳:這是公司的理念,我認為很明智。我們應該儘可能少地投入,只做必要的事情。這意味著,如果我們不去建構我們的計算平台,我相信這項工作就無法完成。如果我們不承擔現在承擔的風險——如果我們不以現在的方式建構 NVLink,如果我們不建構整個技術堆疊,如果我們不以現在的方式建立生態系統,如果我們不投入 20 年的時間,即使大部分時間都在虧損,也要致力於 CUDA 的發展——如果我們不去做,其他人就不會去做。如果我們當初沒有建立所有CUDA-X 庫,使它們都針對特定領域……十五年前,我們開始大力開發領域特定庫,因為我們意識到,如果我們不建立這些領域特定庫,無論是光線追蹤、圖像生成,甚至是早期人工智慧的模型,無論是資料處理、結構化資料處理還是向量資料處理,如果我們不建立它們,就不會有人建立。我對此深信不疑。我們建立了一個名為cuLitho的計算光刻庫。如果我們不建立它,就不會有人建立。因此,如果我們不做這些,加速計算就不會發展到今天這樣的程度。所以我們應該這樣做。我們應該傾盡全力,全心全意地投入到這項工作中。然而,世事難料。如果我不做,也會有人去做。因此,我們公司至今仍然秉持著“儘可能多做,但儘可能少做”(doing as much as needed but as little as possible)的理念。我所做的每一件事,都遵循著這個原則。就雲端運算而言,如果我們當初不支援CoreWeave ,這些 neoclouds、這些 AI 雲就不會存在。如果我們當初沒有幫助 CoreWeave 發展,它們也不會存在。如果我們當初沒有支援Nscale ,它們就不會有今天的成就。如果我們當初沒有支援Nebius ,它們也不會有今天的成就。如今,它們發展得非常出色。這算是一種商業模式嗎?我們應該儘可能多地做事,儘可能少地干預。所以我們投資於我們的生態系統,因為我希望我們的生態系統蓬勃發展。我希望架構和人工智慧能夠與儘可能多的行業、儘可能多的國家連接起來,使整個地球能夠基於人工智慧和美國的技術堆疊而運轉。這正是我們正在追求的願景。您剛才提到的一點是……有很多非常優秀的基金會模式公司,我們儘量投資所有這些公司。這也是我們所做的。我們不挑選贏家。我們需要支援所有公司。這是我們投資的樂趣所在,也是我們業務的必要組成部分。但我們也會刻意避免挑選贏家。所以,當我投資一家公司時,我也會投資所有相關的公司。Q:你為什麼刻意不去挑選贏家?黃仁勳:第一,這不是我們的職責。第二,輝達創立之初,有60家3D圖形公司。我們是唯一一家存活下來的。如果你把這60家圖形公司都列出來,問問自己那家會成功,輝達肯定排在失敗名單的首位。這事發生在你很久以前,但輝達的圖形架構一開始確實是錯的,不是一點點錯,而是我們創造了一個徹頭徹尾的錯誤架構,開發者根本無法維護。它註定失敗。我們當初的出發點是好的,但最終卻得到了錯誤的解決方案。所有人都認為我們會失敗。而我們現在卻成功了。所以我足夠謙遜,能夠認識到這一點。不要人為地挑選贏家。要麼讓他們各自發展,要麼就幫助他們所有人。Q:有一點我不明白,你說:“我們優先發展這些NeoCloud項目,並非僅僅因為它們是NeoCloud,我們想扶持它們。”但你又列舉了一堆NeoCloud項目,說如果沒有NVIDIA,它們根本不會存在。這兩件事怎麼能自相矛盾呢?黃仁勳:首先,他們必須有創業的意願,並且主動來尋求我們的幫助。當他們有創業意願,並且擁有商業計畫、專業知識和熱情時……他們顯然也必須具備一定的自身能力。但如果最終他們需要一些投資才能啟動項目,我們也會全力支援。不過,他們越早啟動自己的發展引擎越好……你的問題是:“我們是否想涉足融資業務?”答案是否定的。融資業務已經存在,我們更願意與他們合作,而不是自己成為融資者。我們的目標是專注於我們自身的核心業務,儘可能簡化我們的商業模式,並支援我們的生態系統。像 OpenAI 這樣的公司,在上市前就需要 300 億美元的投資,而我們深信他們,我也深信他們將會成為……嗯,他們現在就已經是一家非凡的公司了。他們將會成為一家了不起的公司。世界需要他們,世界希望他們存在,我也希望他們存在。他們現在順風順水。讓我們支援他們,讓他們發展壯大。我們會進行這些投資,因為他們需要我們這樣做。但我們並非試圖儘可能多地投資,而是試圖儘可能少地干預。Q:這可能是一個顯而易見的問題,但我們已經在 GPU 短缺的情況下生活了很多年,而且隨著模型性能的提高,這種情況現在變得更加嚴重了。黃仁勳:我們缺少GPU。Q:是的。眾所周知,輝達在分配稀缺資源方面並非只看出價,而是會考慮“我們想確保這些新雲平台能夠存在。所以我們給CoreWeave分配一些,給Crusoe分配一些,給Lambda分配一些。”這對輝達有什麼好處呢?首先,你是否同意這種將市場分割的說法?黃仁勳:不,不。你的前提完全錯誤。我們對這些事情非常重視。首先,如果沒有採購訂單,再多的討論也無濟於事。在拿到採購訂單之前,我們能做什麼?所以,首要任務是與所有人密切合作,努力完成預測,因為這些項目需要很長時間才能建成,資料中心的建設更是如此。我們通過預測來確保供需平衡等等。明白嗎?這是首要任務。第二,我們已盡力與儘可能多的人進行預測,但最終您仍然需要下單。或許由於某種原因,您尚未下單。我能怎麼辦?在某些情況下,我們會遵循先到先得的原則。但除此之外,如果您因為資料中心尚未準備就緒,或者某些元件尚未到位而無法搭建資料中心,我們可能會優先服務其他客戶。這只是為了最大限度地提高我們工廠的產能。我們可能會對此進行一些調整。除此之外,優先順序是先進先出。你必須下訂單。如果你不下訂單……當然,這方面有很多傳聞。比如,這一切都源於一篇關於拉里和埃隆和我共進晚餐的文章,文章裡他們懇求我提供GPU 。這事根本沒發生過(That never happened)。我們確實一起吃了頓飯。我們確實一起吃了頓飯,而且那是一頓非常棒的晚餐。他們從來沒有懇求我提供GPU。他們只需要下訂單。一旦他們下訂單,我們會盡力滿足他們的產能需求。我們的流程很簡單。Q:好的。聽起來好像有個排隊機制,然後根據你的資料中心是否準備就緒以及你何時下訂單,你才能在特定時間獲得資源。但這仍然不像是價高者得。這樣做有什麼原因嗎?黃仁勳:我們從來不那樣做。Q:為什麼不直接選擇價高者得呢?黃仁勳:因為這是糟糕的商業做法。你定好價格,然後讓別人決定買不買。我知道晶片行業的其他公司會在需求旺盛時調整價格,但我們不會。這從來都不是我們的行事方式。您可以信賴我們。我更願意做一個可靠的人,成為行業的基石。您無需猜測。如果我報了價,那就是我們報的價格。就是這樣。如果需求激增,那就順其自然。Q:另一方面,這就是為什麼你和台積電保持著良好的合作關係,對吧?黃仁勳:是的,輝達和他們合作已經快30年了。輝達和台積電之間沒有正式的法律合同。所以總會有些不公平的待遇。有時候我判斷對,有時候我判斷錯。有時候我能拿到更好的價格,有時候會拿到更差的價格。但總的來說,我們之間的關係非常棒。我完全信任他們,完全可以依靠他們。選擇輝達,有一點可以肯定:今年,Vera Rubin將會非常出色。明年,Vera Rubin Ultra將問世。後年,Feynman將橫空出世。再後年,我還沒公佈名字呢。每年,你都可以信賴我們。你得去全世界找找其他 ASIC 團隊——隨便挑一個——才能找到一個可以讓你說:“我可以把我的全部家產都押上,我可以把我的整個公司都押上,你們每年都會為我服務。你們的token成本每年都會下降一個數量級,我可以像信賴時鐘一樣信賴你們。”(“I can bet the farm, I can bet my entire business that you will be here for me every single year. Your token cost will decrease by an order of magnitude every single year. I can count on it like I can count on the clock.”)我剛才提到了台積電。歷史上沒有任何其他代工廠能做到這一點。但如今,你可以這樣評價輝達。每年你都可以信賴我們。如果你想購買價值十億美元的AI工廠計算資源,沒問題。如果你想購買價值一億美元的,沒問題。你想購買價值一千萬美元的,或者僅僅是一個機架,都沒問題。或者僅僅是一張顯示卡,好的,沒問題。如果你想訂購價值一千億美元的AI工廠,沒問題。我們是當今世界上唯一一家可以這樣說的公司。台積電的情況也一樣。我想買一台,買十億台,都沒問題。我們只需要按部就班地做好規劃,做所有成熟企業都會做的事情。所以我認為,輝達能夠成為全球人工智慧產業的基石,是我們花了二十多年才取得的成就。這需要巨大的投入和奉獻。公司的穩定性、公司的持續發展,對我們來說至關重要。我們應該向中國出售人工智慧晶片嗎?Q:好的。我想問問關於中國的問題。其實我也不知道對向中國出售晶片到底好不好有什麼看法,但我喜歡和嘉賓唱反調。所以,上次達里歐做客“誰支援出口管制”節目時,我問他,為什麼美國和中國不能都擁有資料中心領域的天才人才呢?不過既然你持相反觀點,那我就反過來問你。換個角度來看,Anthropic Games幾天前發佈了Mythos Preview 。他們甚至沒有公開發佈這款Mythos模型,因為他們說它擁有如此強大的網路攻擊能力,在確保所有零日漏洞都被修復之前,世界還沒有做好準備。但他們表示,Mythos在所有主流作業系統和瀏覽器中都發現了數千個高危漏洞。他們甚至在OpenBSD中也發現了一個漏洞,而OpenBSD正是專門設計用來避免零日漏洞的作業系統。他們發現的這個漏洞已經存在了27年。因此,如果中國能夠獲得人工智慧晶片,訓練像 Claude Mythos 這樣具有網路攻擊能力的模型,並利用更強大的計算能力運行數百萬個實例,這會構成威脅嗎?黃仁勳:首先,Mythos 的訓練所用的計算能力和計算量都相當普通,但訓練所用的卻是一家非常優秀的公司。這種計算能力和計算類型在中國非常普遍。所以你首先需要明白,晶片在中國是存在的。他們生產了全球60%的主流晶片,甚至可能更多。對他們來說,這是一個非常龐大的產業。他們擁有一些世界上最頂尖的電腦科學家。眾所周知,所有這些人工智慧實驗室中的大多數人工智慧研究人員都是中國人。他們擁有全球50%的人工智慧研究人員。所以問題是,考慮到他們已經擁有的所有資源——他們擁有豐富的能源、大量的晶片、以及絕大多數的人工智慧研究人員——如果你擔心他們,那麼創造一個安全世界的最佳方法是什麼?將他們視為受害者,把他們變成敵人,可能並非最佳方案。他們是對手。(Victimizing them, turning them into an enemy, likely isn’t the best answer. They are an adversary.)我們希望美國獲勝。但我認為,開展對話和研究性對話或許是最穩妥的做法。由於我們目前將中國視為對手的態度,這方面明顯缺失。我們的人工智慧研究人員和他們的人工智慧研究人員必須進行真正的對話。我們必須努力就人工智慧的用途達成共識。至於尋找軟體漏洞,這當然是人工智慧的職責所在。它會在很多軟體中發現漏洞嗎?當然會。軟體漏洞數不勝數。人工智慧軟體中也存在大量漏洞。這正是人工智慧的職責所在,我很高興人工智慧已經發展到能夠幫助我們大幅提高生產力的水平。網路安全、人工智慧網路安全、人工智慧安全、人工智慧隱私和人工智慧保障等領域的生態系統非常豐富,但卻常常被忽視。一個龐大的人工智慧初創企業生態系統正在努力為我們創造這樣的未來:一個功能強大的人工智慧代理被成千上萬個其他人工智慧代理環繞,共同守護著它的安全。這樣的未來必將到來。讓人工智慧代理在無人監管的情況下四處運行,這簡直是瘋了。我們非常清楚,這個生態系統需要蓬勃發展。事實證明,這個生態系統需要開源。這個生態系統需要開放的模型。他們需要開放的技術堆疊,這樣所有的人工智慧研究人員和優秀的電腦科學家才能建構強大且安全的AI系統。因此,我們必須確保開源生態系統的活力。這一點不容忽視。很多開放原始碼專案都來自中國。我們不應該扼殺它。關於中國,我們當然希望美國擁有儘可能多的計算能力。我們受限於能源,但我們已經投入大量資源來解決這個問題。我們絕不能讓能源成為國家發展的瓶頸。但我們也希望確保全世界的人工智慧開發者都基於美國的技術堆疊進行開發,並將人工智慧的貢獻和進步——尤其是在開放原始碼的情況下——貢獻給美國生態系統。如果建立兩個生態系統——一個是只能運行在外國技術堆疊上的開源生態系統,另一個是運行在美國技術堆疊上的封閉生態系統——那將是極其愚蠢的。我認為這對美國來說將是一個糟糕的結果。Q:由於事情很多,我先簡單概括一下。我認為,回到駭客攻擊中提到的浮點運算能力差距問題,沒錯,他們的確擁有計算能力,但他們實際能夠生產的浮點運算能力只有美國的十分之一。那麼,他們最終能否訓練出像 Mythos 這樣的模型呢?答案是肯定的。但問題在於,由於失敗案例更多,美國實驗室能夠率先達到這種能力水平。因為 Anthropic 公司搶先一步,他們會說:“好吧,我們先保留一個月,讓所有美國公司都有機會使用。他們會修復所有漏洞,然後我們再發佈。”此外,即便他們訓練出了這樣的模型,大規模部署的能力也至關重要……如果一個網路駭客擁有上百萬個這樣的模型,那肯定比只有一千個要危險得多。所以推理計算能力真的非常重要。事實上,他們擁有如此多優秀的AI研究人員,這才是真正令人擔憂的地方,因為是什麼讓這些工程師研究人員如此高效?答案是計算能力。如果你和美國的任何一家人工智慧實驗室交談,他們都會說瓶頸在於計算能力。無論是DeepSeek的創始人,還是Qwen的領導層,都說過類似的話。他們都認為瓶頸在於計算能力。那麼問題來了,難道不應該讓美國公司憑藉更強大的計算能力率先達到Mythos等級,為我們的社會做好準備,趕在中國之前,因為中國計算能力較弱,這樣做不是更好嗎?黃仁勳:我們應該永遠爭第一,永遠擁有更多。但要讓你描述的結果成真,就必須走極端。他們必須完全沒有計算能力。如果他們有一些計算能力,問題在於需要多少?中國的計算能力非常龐大。要知道,中國可是全球第二大計算市場。如果他們想整合計算資源,完全可以滿足需求。而且,他們擁有的能源量簡直驚人,不是嗎?人工智慧本質上就是一個平行計算問題,不是嗎?既然能源是免費的,為什麼他們不能把晶片的數量增加4倍、10倍甚至更多呢?他們擁有如此多的能源。他們的資料中心空空蕩蕩,電力卻依然充足。你知道他們有“鬼城”,他們的資料中心也一樣空置。他們的基礎設施容量如此龐大。如果他們願意,他們完全可以把更多的晶片集中起來,那怕是更落後工藝的晶片他們的晶片製造能力位居世界前列。半導體行業都知道他們壟斷了主流晶片市場。他們的產能過剩。因此,認為中國無法製造人工智慧晶片的說法完全是無稽之談。當然,如果你問我,如果全世界完全沒有計算能力,美國會不會更領先?但這根本不可能。這並非現實。他們現在的計算能力已經非常充足了。你所擔心的那個問題,他們所需的計算能力閾值,他們早已達到,甚至超過了。所以我認為你誤解了人工智慧的本質,它就像一個五層蛋糕,最底層是能源。能源充足時,晶片就足夠了;晶片充足時,能源就足夠了。例如,美國能源匱乏,這就是為什麼輝達必須不斷改進我們的架構,並進行這種極致的協同設計,以便在我們出貨的晶片數量有限的情況下——因為能源供應極其有限——實現每瓦吞吐量的驚人水平。但如果你的瓦數完全充足,而且是免費的,你又何必在意每瓦性能呢?你已經綽綽有餘了。你可以用舊晶片來做。所以7nm晶片本質上就是Hopper。Hopper的能力……我必須告訴你,如今的模型大多都是基於Hopper演算法訓練的,也就是Hopper演算法的生成。所以7nm晶片已經足夠好了。充足的能源是中國的優勢。Q:但問題在於,他們是否真的能夠生產出足夠的晶片。黃仁勳:但他們的確做到了。證據是什麼?華為剛剛經歷了公司歷史上業績最好的一年。Q:最先進的HBM一定需要EUV?黃仁勳:不對。完全不對。你可以把它們組合起來,就像我們把它們和NVL72組合起來一樣。他們已經展示了矽光子學技術,可以將所有這些計算能力連接起來,形成一台巨型超級電腦。你的前提完全錯誤。事實上,他們的AI研發進展順利。世界上最頂尖的AI研究人員,由於計算能力有限,反而創造出了極其智能的演算法。別忘了,我剛才說過摩爾定律每年大約推進25%。然而,憑藉卓越的電腦科學,我們仍然可以將演算法性能提升10倍。我的意思是,卓越的電腦科學才是關鍵所在。毫無疑問,MoE 是一項偉大的發明。毫無疑問,所有令人驚嘆的注意力機制都減少了計算量。我們必須承認,人工智慧的大部分進步都源於演算法的進步,而不僅僅是硬體的改進。既然大部分進步都來自演算法、電腦科學和程式設計,那麼他們龐大的人工智慧研究人員隊伍難道不是他們最根本的優勢嗎?我們都看到了這一點。DeepSeek 絕非無關緊要的進步。如果 DeepSeek 先在華為平台上發佈,那對我們國家來說將是災難性的。Q:為什麼會這樣?因為目前像 DeepSeek 這樣的模型,只要是開放原始碼的,就可以在任何加速器上運行。為什麼將來情況會改變呢?黃仁勳:假設並非如此。假設它是針對華為最佳化的,假設它是針對他們的架構最佳化的。那將使我們處於劣勢。你描述的情況在我看來是好消息。一家公司開發了一款軟體,開發了一個人工智慧模型,而它在美式技術堆疊上運行效果最佳。我認為這是好消息。但你卻把它設定為壞消息。現在我要告訴你壞消息:世界各地的人工智慧模型都是在非美國硬體上開發的,而它們在非美國硬體上運行效果最佳。這對我們來說是壞消息。Q:我感覺並沒有證據表明存在如此巨大的差異,足以阻止你更換加速器。美國實驗室正在所有雲平台、所有不同的加速器上運行他們的模型。黃仁勳:我就是證據。你拿一個針對輝達顯示卡最佳化的模型,然後試圖在其他顯示卡上運行它,這是行不通的。Q:但美國實驗室確實會這樣做。黃仁勳:它們的運行效果並沒有更好。輝達的成功就是最好的證明。人工智慧模型是在我們的技術堆疊上建立的,在我們的技術堆疊上運行效果也最好,這難道不合邏輯嗎?Q:Anthropic 的模型可以在 GPU 上運行,可以在 Trainium 上運行,也可以在 TPU 上運行。黃仁勳:要改變現狀,需要付出很多努力。但看看全球南方國家,看看中東地區。如果所有人工智慧模型在別人的技術堆疊上運行效果最佳,那麼你現在提出的“這對美國來說是件好事”的說法就太荒謬了。Q:但我不太明白這個論點。假設中國公司率先開發出下一代Mythos系統。他們率先發現了美國軟體的所有安全漏洞,但他們可以在輝達硬體上運行,然後把產品運往全球南方國家。他們用輝達硬體開發,這有什麼好處呢?好吧,它的確能在輝達硬體上運行——黃仁勳:這不好,這不好,我們不能讓它發生。Q:你為什麼認為它(指代輝達GPU)是完全可替代的,即使你不向他們供貨,華為也能完全替代?他們落後了,對吧?他們的晶片比你的差。黃仁勳:完全是這樣……現在就有證據。他們的晶片產業規模龐大。Q:你只要對比H200和華為910C的浮點運算能力、頻寬或記憶體容量就知道了,它們的性能大概只有前者的一半到三分之一。黃仁勳:他們用量更多。他們用的量是原來的兩倍。Q:你的論點似乎是,他們擁有巨大的能源,他們需要用晶片來填充這些能源。黃仁勳:而且他們很擅長製造業。Q:我相信最終他們肯定能在生產能力上勝過所有人。但現在還有這關鍵的幾年。黃仁勳:你所說的關鍵年份是指那一年?如果未來幾年至關重要,那麼我們必須確保在這關鍵的幾年裡,全世界所有的人工智慧模型都建立在美國的技術堆疊之上。人工智慧產業有五個層面,每個層面都必須成功。而最需要成功的層面實際上是人工智慧應用。你為什麼如此執著於那個人工智慧模型?那家公司?究竟是出於什麼原因?能源、晶片以及人工智慧研究人員的生態系統使這一切成為可能。Q:如果美國的計算能力存在瓶頸,那麼向中國出口晶片又如何能使美國保持領先地位呢?黃仁勳:我認為美國理應領先。美國的計算能力是世界其他任何地方的100倍。美國理應領先。好吧。美國確實領先。輝達致力於研發最先進的技術。我們確保美國實驗室能夠第一時間獲悉這些技術,並擁有優先購買權。如果他們資金不足,我們甚至會投資扶持他們。美國理應領先。我們希望竭盡所能確保美國保持領先地位。這一點您同意嗎?我們正在為此竭盡全力。你認為輝達是一家美國公司?好的。首先,為什麼我們不制定一個更平衡的監管政策,讓輝達能夠在全球範圍內取得成功,而不是讓美國放棄全球市場?你為什麼要讓美國放棄全球市場?晶片產業是美國生態系統的一部分,是美國技術領先地位的一部分,也是人工智慧生態系統的一部分,更是人工智慧領先地位的一部分。為什麼你們的政策和理念會導致美國放棄世界市場的大部分份額?將人工智慧與你剛才提到的任何東西相提並論都是荒謬的。Q:所以關鍵在於,現在賣晶片對我們長遠發展有何幫助?特斯拉長期以來一直向中國銷售性能卓越的電動汽車。iPhone在中國也暢銷,而且質量極佳。特斯拉並沒有造成中國市場的壟斷。中國仍然會生產自己的電動汽車,並且佔據主導地位。他們的智慧型手機也佔據主導地位。黃仁勳:今天我們開始對話時,您也承認輝達的處境非常特殊。您用了“護城河”這樣的詞。對我們公司而言,最重要的就是我們生態系統的豐富性,而這離不開開發者。全球50%的人工智慧開發者都在中國。美國不應該放棄這塊寶地。Q:但是我們在美國有很多輝達的開發者,但這並不妨礙美國實驗室未來使用其他加速器。事實上,他們現在就在使用其他加速器,這很好,也很棒。如果你向中國銷售輝達晶片,我不明白為什麼在中國就不能這樣做,就像Google可以使用TPU和輝達晶片一樣。黃仁勳:我們必須不斷創新,而且正如你可能知道的,我們的市場份額正在增長,而不是下降。那種認為即使我們在中國競爭,最終也會失去那個市場的想法……你不是在跟一個醒來就覺得自己是個失敗者的人說話。那種失敗者的態度,那種失敗者的假設,在我看來毫無道理。我們不是汽車。我們不是汽車。我可以今天買這個牌子的車,明天再買另一個牌子的車,這很容易。但電腦領域並非如此。x86 架構的存在是有原因的。ARM架構如此根深蒂固也是有原因的。這些生態系統難以替代。這需要耗費大量的時間和精力,而且大多數人都不願意這樣做。因此,我們的職責是繼續培育這個生態系統,不斷推進技術發展,從而在市場競爭中保持優勢。如果按照你描述的那種前提來劃分市場,我根本無法接受。這完全說不通。因為我不認為美國是失敗者,我們的行業也不是失敗者。這種失敗論調,這種失敗心態,在我看來毫無道理。Q:但他們之所以從你這裡購買是有原因的。我們有來自中國公司創始人的引述,他們表示公司在計算能力方面遇到了瓶頸。黃仁勳:因為我們的晶片更好。總的來說,我們的晶片更好。這一點毋庸置疑。如果沒有我們的晶片……您能承認華為今年的業績創下紀錄嗎?您能承認一大批晶片公司都上市了嗎?您能承認嗎?您是否也承認,我們過去在該市場佔據了很大的份額,而現在份額已經大幅下降?我們也可以承認,中國佔據了全球科技產業約40%的份額。為了美國科技產業的利益而放棄這個市場,是對我們國家的損害,是對我們國家安全的損害,也是對我們科技領導地位的損害。這一切僅僅是為了一家公司的利益。這在我看來毫無道理。Q:我有點糊塗了。感覺你好像在說兩件事。一是如果我們能參與競爭,我們的晶片性能會遠勝華為,所以我們肯定能贏下這場與華為的競爭。二是就算沒有我們,他們也會做同樣的事情。這兩件事怎麼可能同時成立呢?黃仁勳:這顯然是事實。如果沒有更好的選擇,你只能選擇唯一的選擇。這怎麼會不合邏輯呢?這明明很合乎邏輯。Q:他們想要輝達晶片的原因是,輝達晶片性能更好。黃仁勳:是的Q:更好的模型需要更多的計算資源。更多的計算資源意味著你可以訓練出更好的模型。黃仁勳:不,它就是更好。它更好,因為它更容易程式設計。我們擁有更好的生態系統。但無論“更好”指的是什麼,無論“更好”指的是什麼……當然,我們會把計算資源輸送給他們。那又怎樣?事實是我們能從中受益。別忘了,我們能享受到美國技術領先地位帶來的好處。我們能享受到開發者們在美國技術堆疊上工作的益處。隨著這些人工智慧模型擴散到世界各地,我們也能享受到美國技術堆疊因此成為最佳選擇帶來的好處。我們可以繼續推進和推廣美國技術。我認為這是一件好事。這是美國技術領先地位中非常重要的一部分。現在,你所倡導的政策導致美國電信行業基本上被排擠出了世界市場,以至於我們甚至無法掌控自己的電信業務。我認為這並不明智。這種做法有些目光短淺,而且導致了一些意想不到的後果,我現在正在向你描述這些後果,但你似乎很難理解。Q:好的,我們先退一步。問題的關鍵似乎在於,這裡既有潛在的收益,也有潛在的成本。我們正在努力弄清楚的是,收益是否值得付出成本?我想讓你們意識到潛在的成本。計算是訓練強大模型的輸入。強大的模型確實擁有強大的攻擊能力,例如網路攻擊。美國公司率先達到 Mythos 等級的能力是一件好事,現在他們決定暫緩發佈這些能力,以便美國公司和美國政府能夠在正式發佈該等級能力之前,更好地保護他們的軟體。如果中國擁有更強大的計算能力或更多的眾包計算資源,如果他們能夠更早地開發出類似 Mythos 那樣的計算模型並進行廣泛部署,那將會非常糟糕。這種情況沒有發生的原因之一是,由於像輝達這樣的美國公司,我們擁有了更強大的計算能力。這是將計算資源轉移到中國所要付出的代價。所以,我們暫且不談好處。您是否意識到這是一種潛在的代價?黃仁勳:我還要告訴你,潛在的代價是,我們允許人工智慧技術堆疊中最重要的一層——晶片層——拱手讓出整個市場——全球第二大市場——讓他們得以發展規模,建立自己的生態系統,從而使未來的人工智慧模型以與美國技術堆疊截然不同的方式進行最佳化。隨著人工智慧在全球擴散,他們的標準和技術堆疊將會超越我們,因為他們的模型是開放的。Q:我想我只是對輝達的核心工程師和CUDA工程師有足夠的信心,相信他們能夠進行最佳化——黃仁勳:如你所知,人工智慧不僅僅是核心最佳化。中國是全球最大的開放原始碼軟體貢獻國。這是事實。中國也是全球最大的開放模型貢獻國。這是事實。如今,它建立在美國的技術堆疊之上,也就是輝達的技術堆疊。這是事實。人工智慧技術堆疊的五個層面都至關重要。美國應該力爭拿下所有五個層面。它們都不可或缺。當然,最重要的層面是人工智慧應用層。這一層會滲透到社會各個角落,被應用最為廣泛,也將從這場工業革命中獲益最多。但我的觀點是,每一層都必須成功。如果我們嚇唬全國人民,讓他們覺得人工智慧就像核彈一樣,讓每個人都憎恨人工智慧、害怕人工智慧,我不知道這對美國有什麼好處。這只會害了美國。如果我們嚇得所有人都不敢從事軟體工程工作,因為人工智慧會扼殺所有軟體工程崗位——結果導致我們一個軟體工程師都沒有——那我們也是在害美國。如果我們因為電腦視覺完全免費,人工智慧的工作能力不會比放射科醫生差,就嚇跑所有人,讓大家都不想當放射科醫生,那我們就誤解了工作和任務之間的區別。放射科醫生的工作是照護病人,而任務是解讀掃描結果。如果我們對這一點理解如此深刻,嚇跑所有人去讀放射科,那麼我們將面臨放射科醫生短缺和醫療資源匱乏的問題。所以我的意思是,當你設定一個如此極端的前提,一切都從零到無窮大,最終只會嚇到人們,而這根本不是事實。生活並非如此。我們希望美國領先嗎?當然希望。我們需要在各個層面都保持領先地位嗎?當然需要。當然需要。今天你談到Mythos,是因為Mythos很重要。沒錯。太好了。但幾年後,我預言,當我們想要推廣美國技術體系,當我們希望美國技術走向世界——走向印度、走向中東、走向非洲、走向東南亞——當我們的國家想要出口,因為我們想要出口我們的技術,我們想要出口我們的標準時,我希望你我再次進行同樣的對話。我會詳細地告訴你今天的對話,告訴你你的政策和你的設想是如何導致美國毫無理由地拱手讓出世界第二大市場。我們不應該放棄。如果輸了,那就輸了。但我們為什麼要放棄呢?現在沒人主張非此即彼。沒人主張非此即彼,也就是說我們應該一直把所有東西都運到中國去。沒人主張那樣。我們應該始終擁有最先進的技術。我們應該始終擁有最多的技術,並且是第一。但我們也應該努力在全球範圍內競爭並取得勝利。這兩件事可以同時進行。這需要一些細緻入微的思考,一些成熟的態度,而不是絕對的。世界本來就不是絕對的。Q:因為受到各種限制(例如拿不到EUV光刻機),中國的晶片真的能出口到世界各地,從而確立行業標準嗎?黃仁勳:那我們直接看事實吧?Blackwell的光刻技術真的比Hopper先進50倍嗎?真的有50倍嗎?差遠了。我一直在重複這句話:摩爾定律已經失效了。從電晶體本身的性能來看,Hopper和Blackwell之間的差距大概是75%。兩者相隔三年,差距高達75%。Blackwell爾的性能是Hopper的50倍。我的觀點是,架構至關重要。電腦科學至關重要。半導體物理固然重要,但電腦科學才是重中之重。人工智慧的影響很大程度上源於計算棧,這也是CUDA如此高效、如此受人喜愛的原因。它是一個生態系統,一種計算架構,它提供了極大的靈活性,以至於如果你想徹底改變架構——比如建立類似MoE的架構、類似擴散的架構、或者建立解耦架構——你都能做到。這很容易。所以事實是,人工智慧不僅關乎底層架構,也關乎上層技術堆疊。如果我們擁有針對自身技術堆疊和生態系統進行最佳化的架構和軟體棧,那當然是好事,因為我們今天一開始就討論了輝達生態系統的豐富性。為什麼人們總是喜歡先寫CUDA?確實如此。中國的研究人員也是如此。但如果我們被迫離開中國,首先,這是一個政策錯誤。顯然,這會引發強烈反彈。這對美國來說後果很嚴重。它促進了中國的晶片產業發展,加速了其人工智慧生態系統的轉型升級,迫使其人工智慧生態系統專注於內部架構。現在亡羊補牢,為時未晚,但事已至此。未來你會看到,他們顯然不會止步于于此。他們的製造工藝很出色,他們會繼續在現有及更先進的工藝基礎上發展。先進工藝的差距有10倍嗎?答案是否定的。架構很重要,網路也很重要。這就是輝達收購Mellanox的原因。網路很重要,能源也很重要。所有這些都很重要。事情並不像你試圖簡化的那樣簡單。為什麼輝達不生產多種不同的晶片架構?Q:我們之前討論過台積電在記憶體等方面的瓶頸問題。所以,如果我們身處這樣一個世界:你已經佔據了N3的大部分份額——而且在某個時候你會進入N2時代,並佔據N2的大部分份額——你是否認為你可以回到N7時代,也就是利用舊工藝節點的剩餘產能,然後說:“嘿,人工智慧的需求如此巨大,而我們擴展前沿技術的能力卻無法滿足,所以我們要製造一個Hopper或Ampere架構的處理器,但要運用我們目前掌握的所有數值計算知識以及你提到的所有其他改進”?你認為這種情況會在2030年之前發生嗎?黃仁勳:沒必要。原因在於,每一代產品的架構都不僅僅侷限於電晶體的尺寸。它還涉及到大量的工程設計、封裝、堆疊、數值計算和系統架構。當產能耗盡時,想要輕易地回到之前的製程節點……那需要投入大量的研發資源,誰也負擔不起。我們有能力向前發展,但我認為我們負擔不起回頭路。現在,假設有一天,我們突然意識到:“我們再也無法擁有更多的產能了。”我會選擇回到7nm製程嗎?當然會毫不猶豫地選擇它。Q:我之前和人討論時,有人問過我一個問題:為什麼輝達不同時開展多個架構完全不同的晶片項目?比如,可以開發類似Cerebras的晶圓級晶片,也可以開發類似Dojo 的大型封裝晶片,還可以開發不使用 CUDA 的晶片。輝達擁有足夠的資源和工程人才來平行開發所有這些晶片。考慮到人工智慧和架構的未來發展方向難以預測,為什麼要把所有雞蛋都放在一個籃子裡呢?黃仁勳:哦,我們當然可以。只是我們沒有更好的辦法。我們能做所有這些事情,但效果並不理想。我們在模擬器裡模擬了所有情況,結果證明更糟。所以我們不會這麼做。我們現在做的正是我們想做的項目。如果工作負載發生巨大變化——我指的不是演算法,而是工作負載本身,而這取決於市場格局——我們可能會考慮增加其他加速器。例如,我們最近新增了Groq ,並且計畫將其整合到我們的 CUDA 生態系統中。我們現在這樣做是因為token價值飆升,可以採用不同的定價策略。就在幾年前token要麼是免費的,要麼價格非常低廉。但現在,我們的客戶群體各不相同,他們需要不同的解決方案。因為客戶收入很高——例如我們的軟體工程師——如果我能為他們提供響應速度更快的代幣,從而讓他們比現在更高效,我願意為此付費。但這個市場是最近才出現的。所以我認為我們現在有能力基於響應時間,將同一個模型劃分成不同的細分市場。這就是我們決定擴展帕累托前沿,並建立一個響應時間更快、但吞吐量更低的推理細分市場的原因。在此之前,更高的吞吐量總是更好的。我們認為,未來可能會出現平均售價(ASP)非常高的代幣,即使工廠的吞吐量較低,ASP 也能彌補這一點。這就是我們這麼做的原因。但除此之外,從架構角度來看,如果我有更多資金,我會加大對輝達架構的投入。Q:最後一個問題。假設深度學習革命沒有發生,輝達會做什麼?黃仁勳:加速計算,這和我們一直以來所做的一模一樣。我們公司的理念是摩爾定律將會……通用計算在很多方面都很出色,但對於很多計算任務來說,它並非理想之選。因此,我們將一種名為GPU(CUDA)的架構與CPU結合起來,從而加速CPU的工作負載。不同的程式碼核心或演算法可以解除安裝到GPU上執行。這樣一來,應用程式的運行速度就能提升100倍、200倍。這項技術有那些應用呢?顯然,它適用於工程、科學、物理、資料處理、電腦圖形學、圖像生成等各個領域。即使人工智慧今天尚未出現,輝達的規模也會非常龐大。原因相當根本,那就是通用計算的擴展能力已基本達到極限。而唯一的方法……或者說,實現這一目標的方法之一,就是通過領域特定加速。我們最初關注的領域之一是電腦圖形學,但還有許多其他領域。種類繁多,包括粒子物理和流體動力學、結構化資料處理,以及各種各樣能夠從 CUDA 中受益的演算法。我們的使命是真正將加速計算帶給全世界,推進通用計算無法勝任的應用,並擴展到足以幫助某些科學領域取得突破的水平。早期的一些應用包括分子動力學、用於能源勘探的地震資料處理、圖像處理等等,所有這些領域通用計算的效率都太低,無法勝任。如果沒有人工智慧,我會非常難過。但正因為我們在電腦領域取得了進步,深度學習才得以普及。我們讓任何研究人員、任何科學家、任何學生,無論身處何地,都能使用個人電腦或GeForce顯示卡,開展令人驚嘆的科學研究。這一根本承諾從未改變,絲毫未變。如果你看過GTC,就會發現它最初的部分完全與人工智慧無關。無論是計算光刻、量子化學,還是資料處理等等,都與人工智慧無關。而且這些內容仍然非常重要。我知道人工智慧非常有趣,也很令人興奮,但還有很多人在做著與人工智慧無關的重要工作,張量也不是唯一的計算方法。我們希望能夠幫助到所有人。 (半導體行業觀察)
Claude AI Agent 正在逐步瓦解輝達CUDA長達20年的生態護城河
這是一起極具行業衝擊力的AI程式設計里程碑事件:基於Claude 3.5 Sonnet的AI Agent,在30分鐘內、零手寫程式碼、不依賴傳統翻譯層,完成了CUDA到ROCm的完整後端遷移。它不僅是技術效率的飛躍,更直接衝擊了輝達CUDA長達20年的生態護城河。01 事件核心事實(2026年1月下旬,Reddit首發)主角:Anthropic的Claude Code(基於Claude 3.5 Sonnet的AI程式設計Agent)開發者:Reddit/GitHub使用者johnnytshi(跨GPU編譯領域技術愛好者)項目:國際象棋引擎Leela Chess Zero (LC0)的完整CUDA後端目標:遷移到AMD ROCm平台,支援現代Transformer注意力網路耗時:約30分鐘關鍵突破全程零手寫程式碼,僅通過CLI與AI互動不依賴Hipify等傳統翻譯層,直接語義級遷移生成完整ROCm後端,包含多頭自注意力、FFN、Embedding等核心模組自動適配rocBLAS、MIOpen等AMD庫,並做FP16/NCHW硬體最佳化最終提交可用PR,在RDNA 3.5顯示卡上可正常運行與對弈02 AI Agent的技術原理(為什麼能這麼快)Claude Code並非簡單的“關鍵詞替換”,而是在智能體框架下完成全鏈路自主遷移:語義理解:深度解析CUDA核函數的計算邏輯、資料佈局與硬體意圖架構對應:將CUDA執行模型(SM、線程塊)對應到AMD GCN/RDNA架構算子替換:自動匹配ROCm等價庫(如cublas→rocBLAS→cudnn→MIOpen )記憶體對齊:解決CUDA與ROCm在資料佈局(NCHW/NHWC)上的核心差異編譯驗證:自主生成建構指令碼、完成編譯連結與基礎功能驗證03 行業震撼點:30分鐘 vs 數月傳統遷移:複雜CUDA項目遷移到ROCm,通常需數周—數月手動編碼、偵錯與調優AI Agent:30分鐘完成全流程,且產出可直接上線的工程化程式碼AMD高管評價:AMD軟體副總裁Anush E.公開表示:GPU程式設計的未來,是AI智能體的04 對GPU生態的深遠影響瓦解CUDA壁壘:大幅降低跨GPU遷移成本,削弱輝達“軟體護城河”AMD生態加速:ROCm生態有望快速吸納海量CUDA存量程式碼開發範式革命:AI Agent從“輔助編碼”升級為自主完成複雜系統遷移的主力角色算力格局重構:未來AI訓練/推理的硬體選擇,將不再被單一生態深度繫結結 語侷限:對超深度最佳化、極致硬體親和的CUDA程式碼,仍需人工微調趨勢:隨著Claude 4.5等新一代模型的Agent能力持續增強(如連續自主程式設計30+小時、零錯誤率),此類遷移將更普遍、更高效。 (AGI星途)
巨頭加速拋棄輝達
微軟也加入了大型科技公司擺脫對輝達依賴的浪潮,推出了自己的人工智慧(AI)晶片。各大科技公司都在開發定製晶片或尋求供應商多元化,以降低對輝達的依賴——輝達佔據了AI晶片市場90%的份額。然而,輝達以其圖形處理器(GPU)為代表,正通過建構AI工廠展開反擊。它不再僅僅銷售GPU,而是通過垂直整合晶片、伺服器、軟體和模型,轉型為一家“全端AI”基礎設施公司,決心不放棄其在AI市場的領導地位。預計輝達今年將成為台積電最大的客戶。儘管一年前中國市場曾因DeepSeek晶片強調性價比而引發“衝擊”,但輝達的股價和銷售額依然大幅增長。加速擺脫輝達由於價格高昂、供應短缺以及封閉的生態系統(CUDA),大型科技公司正在加速擺脫對輝達GPU的依賴。NVIDIA GPU的高昂成本是關鍵驅動因素。它們不僅價格昂貴,而且供應常常無法滿足需求,導致及時採購困難重重。此外,儘管NVIDIA晶片用途廣泛,但它們並未針對特定公司的特定AI任務進行最佳化。因此,大型科技公司正在開發專為自身資料中心、AI模型和服務量身定製的晶片,以提高能效。當地時間26日,微軟發布了其首款商用AI晶片“Maia 200”。此前,微軟曾在2023年11月推出過“Maia 100”,該晶片用於微軟內部的Azure雲平台。這款新晶片在兩年後發佈,性能有所提升,採用台積電3奈米工藝,並整合了SK海力士的HBM3E視訊記憶體。Maia 200 專為高性能 AI 推理而設計——即訓練好的 AI 模型分析新資料以識別模式並做出預測或決策的過程。微軟表示:“在‘輕量級計算’方面,它的性能是 AWS 最新 AI 晶片的三倍,計算效率也高於Google的 AI 晶片。” 首席執行長薩蒂亞·納德拉表示:“這款產品旨在實現業界領先的推理效率,在同等預算下可提供高出 30% 的性能。” Maia 200 預計將支援 OpenAI 的最新 AI 模型 GPT-5.2 和微軟的 Copilot。為了跟上人工智慧的快速發展步伐,微軟也加快了晶片的生產和部署。“我們將從初始生產到資料中心部署的時間縮短到類似人工智慧基礎設施項目的一半以上,”該公司表示。微軟已在愛荷華州的資料中心安裝了該晶片,並計畫將其擴展到其他資料中心,以便Azure客戶能夠使用。路透社指出,“微軟可能會減少對輝達的依賴。”其他大型科技公司也在努力降低對輝達的依賴。Google使用其定製的張量處理單元 (TPU) 來訓練和運行其 Gemini AI 模型。TPU 專為 AI 而設計,在某些任務中性能優於 GPU,且功耗更低,從而降低了營運成本。AWS 上個月發佈了其 Trainium3 AI 晶片,該晶片擁有業界領先的能效。AWS 表示:“與之前的 Trainium2 相比,計算性能提升了四倍,而能耗降低了約 40%。”這款晶片用於訓練 AWS 的內部 AI 模型 Nova,並應用於面向客戶的雲服務中。Meta 開發了自己的 AI 晶片 MTIA,而 OpenAI 正在與博通合作開發一款定製晶片,計畫於今年下半年發佈。各公司也在推進供應鏈多元化。例如,Meta公司正在探討在其計畫於2027年投入營運的資料中心中使用Google的TPU。隨著人工智慧晶片需求的增長,Google——此前僅在內部使用TPU進行諸如Gemini訓練之類的任務——正計畫擴大外部銷售。Anthropic公司去年10月透露,其人工智慧模型Claude的建構和部署使用了超過100萬個AWS的Trainium2晶片。NVIDIA 的積極防禦儘管包括微軟在內的大型科技公司都是輝達的客戶,但一些分析師認為輝達的市場主導地位正在動搖。《華爾街日報》指出,“人工智慧公司正致力於實現資料中心人工智慧晶片供應商多元化”,並補充道,“他們的定製晶片對輝達構成了又一威脅。”然而,輝達的業務範圍已從人工智慧晶片擴展到人工智慧模型和機器人領域。即使其在人工智慧晶片市場的份額略有下降,該公司仍致力於保持其作為一家擁有完善人工智慧生態系統的企業的競爭力。除了GPU之外,輝達還在積極供應中央處理器(CPU),即計算的核心。就在同一天,輝達宣佈向資料中心營運商CoreWeave追加20億美元的投資,計畫在其資料中心部署自家的CPU。彭博社指出:“這是輝達首次獨立向客戶供應CPU,對英特爾和AMD構成了挑戰。”NVIDIA 在人工智慧模型開發方面也積極進取。它發佈了一款開源天氣預報人工智慧模型。此外,它還在開發用於自動駕駛汽車的 Alpamayo 和用於推理的 Cosmos。為了迎接物理人工智慧時代,NVIDIA 營運著 Omniverse 平台,這是一個數字訓練場,機器人可以在虛擬空間中進行模擬和協作。近期收購 Groq 等公司,使 NVIDIA 得以鞏固其在人工智慧推理市場的技術地位。其目標是使 NVIDIA 基礎設施即使在推理階段也至關重要,即人工智慧應用於現實世界場景的階段。預計輝達今年將超越蘋果,成為台積電最大的客戶。科技諮詢公司Creative Strategists預測,2025年台積電營收的22%(330億美元,約合48兆韓元)將來自輝達,而蘋果的貢獻為270億美元(18%)。2024年,蘋果是台積電最大的客戶(佔22%),輝達緊隨其後(12%)。短短兩年內,輝達在台積電營收中的份額將增長10個百分點,成為台積電的頭號客戶。 (半導體芯聞)
CUDA要涼?Claude 30分鐘剷平輝達護城河,AMD要笑醒了
輝達護城河要守不住了?Claude Code半小時程式設計,直接把CUDA後端遷移到AMD ROCm上了。一夜之間,CUDA護城河被AI終結了?這幾天,一位開發者johnnytshi在Reddit上分享了一個令人震驚的操作:Claude Code僅用了30分鐘,便將一段完整的CUDA後端程式碼,成功移植到AMD的ROCm上。整個過程,沒有手寫一行程式碼。這架勢,簡直是要填平這兩個生態系統之間的鴻溝。更關鍵的是,這次移植完全沒有依賴傳統的「中間轉換工具」,如Hipify翻譯層,而是一鍵通過CLI完成。就連AMD軟體副總Anush E.為之震驚,GPU程式設計的未來,是AI智能體的。消息一出,整個科技圈瞬間沸騰,很多人直呼:輝達CUDA護城河要守不住了.....這究竟是怎麼回事?Claude手撕CUDA,僅30分鐘Claude Code是在一個智能體框架運行的,這意味著它可以自己「動腦子」。在執行過程中,他不會機械地轉換關鍵詞,而去真正理解程式碼,即特定核函數的底層邏輯。開發者johnnytshi介紹,這次移植中,最棘手的資料佈局差異問題也被AI解決了,確保了核心核心計算邏輯保持一致。令人驚嘆的是,johnnytshi在短短30分鐘內,就把整個CUDA後端移植到了AMD ROCm上,而且中間沒用任何翻譯層。另外一個好處當然是,不用費勁去搭像Hipify這種複雜的翻譯環境了;直接在命令列(CLI)裡就能幹活。如今,全網都被CUDA護城河被攻破呼聲淹沒了。畢竟,輝達霸主地位,很大程度上建立在CUDA這個幾乎成為行業標準的程式設計生態上。無數AI框架、深度學習庫、科學計算工具都深度依賴它。AMD的ROCm雖然功能強大,卻一直面臨生態相容性,以及開發者遷移成本高的痛點。現在,一個Claude卻用極短時間踢碎了門檻,說不定未來更多CUDA程式碼可能輕鬆在AMD GPU跑起來了。實現細節GitHub中,johnnytshi本人也更新了日誌和說明。為AMD GPU實現了完整的ROCm後端,從而在RDNA 3.5及其他AMD架構上支援基於注意力機制的現代國際象棋網路。GitHub:https://github.com/LeelaChessZero/lc0/pull/2375在src/neural/backends/rocm/中加入了完整的ROCm後端實現了注意力網路架構(多頭自注意力、FFN、嵌入層)使用rocBLAS進行GEMM運算,使用MIOpen進行摺積運算針對RDNA 3.5上的FP16性能最佳化了NCHW佈局提供三種後端變體:rocm (FP32)、rocm-fp16 (FP16)、rocm-auto (自動檢測)MIOpen是必選依賴(類似於CUDA的cuDNN)通過rocm_agent_enumerator自動檢測AMD GPU架構編譯選項:-Drocm=true -Damd_gfx=gfx1151(或使用自動檢測)性能說明:FP16性能:在Strix Halo (Radeon 8060S, gfx1151) 上 >2000 nps自動Batch Size調優(RDNA 3.5上min_batch=64)測試過rocWMMA,但rocBLAS性能更好驗證情況(Strix Halo - Radeon 8060S, gfx1151):測試模型:768x15x24h-t82-swa-7464000.pb.gz 和 maia-1900.pb.gz後端:rocm-fp16功能正常,能生成正確的走法環境:ROCm 7.2.53150, MIOpen 3.5.1注:僅在RDNA 3.5上進行了測試;其他AMD架構暫未驗證GPU未來,是AI智能體主場當然,這次演示也有侷限性。對於簡單或中等複雜度的核心,Claude Code表現得非常出色。更重要的是,寫核函數的核心就在於搞定「深度硬體」最佳化。不過,一部分覺得Claude Code在這方面還是差點火候——如果遇到那些針對特定硬體快取層級,記憶體訪問模式做過極致最佳化的複雜核心,AI目前還難以完全取代人類專家。即便如此,這一事件釋放出的訊號已經足夠強烈。過去幾個月,ZLUDA項目、還有微軟內部的嘗試,都想要打破CUDA的壟斷。但它們大多依賴規則對應或中間層,自動化程度和智能水平有限。Claude Code代表的智能體式程式設計,直接跳過了這些環節,用「理解+自主決策」的方式填平生態鴻溝。正如AMD軟體副總所言,GPU程式設計的未來,是AI智能體主場。全員AI程式設計,濃度高達100%如今的Claude Code已經讓整個矽谷入坑了(Claude-Pilled)。兩天前,CEO Dario Amodei在達沃斯上再出暴論:軟體工程師們沒有時間了。未來6-12個月,AI能夠徹底取代這些人!甚至,Anthropic內部工程師已經不再手寫程式碼了,全是Claude完成。別不信,是真的。就在Wired最新採訪中,Claude Code之父Boris Cherny坦承,「自己100%程式碼都是AI寫的」。或許Anthropic工程師怎麼也沒有想到,一個「副業項目」竟讓矽谷如此狂熱。Boris Cherny回憶道,「一年前我們發佈Claude Code時,甚至不確定『智能體程式設計』能不能成,但火爆來得太快了」。Cherny個人經歷就是最好的縮影:剛發佈時,他只有5%程式碼是用Claude Code寫的;到了去年5月,有了Opus 4和Sonnet 4,這個比例變成了30%;而現在,有了Opus 4.5,他在過去兩個月裡100%的程式碼都是由Claude Code完成。在Anthropic內部,這種全員AI化更是到了極致。幾乎100%技術員工都在使用Claude Code,甚至連Claude Code團隊本身95%的程式碼也是由自身寫出來的。史丹佛AI教授都在用了不得不說,AI程式設計的進化速度令人咋舌。回望2021到2024年,大多數工具不過是高級版的「自動補全」,在開發者打字時卑微地建議幾行程式碼。但到了2025年初,隨著Cursor和Windsurf等初創發佈早期的Agentic程式設計產品,遊戲規則改變了——開發者只需用大白話描述功能,剩下的髒活累活全扔給AI智能體完成。Claude Code也在這個時間點,真正誕生了。Boris Cherny坦承,早期版本也曾跌跌撞撞,甚至陷入死循環。但Anthropic下了一步狠棋:不為當下的AI能力開發產品,而要為AI即將抵達的未來而建構。這一賭注押對了。隨著Anthropic下一代旗艦Claude Opus 4.5的發佈,AI程式設計迎來了真正的「拐點」。史丹佛大學AI講師、Workera CEO Kian Katanforoosh最近就把公司全員遷移到了Claude Code。他直言,對於高級工程師來說,Claude Code比Cursor、Windsurf更能打。Katanforoosh感嘆道,最近唯一讓我看到程式設計能力有階躍式提升的模型,就是Claude Opus 4.5。「它給人的感覺不像是在模仿人類寫程式碼,而是它真的找到了一種更聰明的解決路徑」。據傳,微軟內部也在大規模採用Claude Code了。年入超10億美金的「副業」Claude Code大獲成功,給Anthropic帶來了最直觀的效益。去年,AI程式設計智能體業務徹底爆發。11月,Anthropic宣佈Claude Code在上線不到一年內,年度經常性收入(ARR)就突破了10億美元。到2025年底,ARR至少又增長了1億美元。彼時,該產品約佔Anthropic總ARR(約90億美元)的12%。雖然比起向大企業提供 AI 系統的核心業務來說還算「小弟」,但它已是公司增長最快的類股之一。儘管Anthropic在AI程式設計領域看似獨孤求敗,但Claude Opus 4.5的光環其實照亮了整個賽道。競爭對手Cursor也在11月達到了10億美元ARR,OpenAI、Google和xAI更是磨刀霍霍,試圖用自研模型分一杯羹。但Anthropic沒打算停下。前幾天,他們又發佈了Cowork——這是一款面向非程式設計領域的AI智能體。它能管理你電腦裡的檔案、操作各種軟體,而且完全不需要你在程式碼終端裡敲命令。不是取代,是進化提及Cowork時,Cherny透露自己已經用瘋了。比如項目管理,他會讓Cowork盯著工程師的任務表格,誰沒填名字,AI就會自動在Slack上發消息催人。Cherny感慨道,「這是我當工程師以來最爽的時候,因為我不再需要做那些枯燥乏味的髒活了」。面對那些因不再需要親自寫程式碼而感到失落的工程師,Cherny給出了他的建議:這行業一直在變。我祖父在蘇聯用穿孔卡片程式設計;後來變成了機器碼;再後來是C語言、Java、Python。這是一條不斷抽象化的連續體,AI智能體只是這條線上的最新一個點。如今,Cherny每天早上起床會在手機上啟動3-4個程式設計智能體,到了公司再在終端裡開幾個。任何時候,他都有五到十個智能體在跑任務。Cherny總結道,「AI智能體將接管生活中所有繁瑣的事——填表、搬運資料、發郵件。這會具有顛覆性,我們必須適應」。話又說回來,Anthropic能不能先解決下Claude使用量?(新智元)
Anthropic打響「去CUDA」第一槍!210億美元豪購Google100萬塊TPU
【新智元導讀】未發先贏,也只有Anthropic了!Claude一小時寫完Google一整年程式碼震撼全網,甚至,他們豪購100萬塊GoogleTPU自建超算。AI軍備賽拐點,或許就在這一年。2026年開局,Anthropic未發一彈已佔先機!Google首席工程師Jaana Dogan連發多帖,高度讚揚Claude Opus 4.5——僅用一小時,便復現了一個曾讓Google工程師鑽研整年的AI系統。另一個前Google和Meta科學家Rohan Anil觀點更具衝擊力:若借助Opus的智能編碼能力,自己早期長達六年的探索工作,可被高度濃縮至幾個月內完成。自發佈過去一個多月,Claude Opus 4.5真正的實力爆發了。沒有圖像/音訊模型、巨大的上下文,僅有一款專注編碼的Claude,Anthropic依舊是OpenAIGoogle最有力競爭者。這究竟是什麼神仙打法?聯創Daniela Amodei給出了一個直白有力的回答,「少即是多」。一直以來,Anthropic都在押注用最少的資源,做更多的事,才不會掉隊,始終跑在AI最前沿。豪購100萬塊TPU,自建超算相較於模型發佈,更重大的一件事是,Anthropic也要自建超算了。權威機構SemiAnalysis爆出,Anthropic準備買下近100萬塊TPU v7晶片。這批晶片將從博通直接下單,並將其部署在自控基礎設施中。整個部署架構是這樣的:Anthropic持有TPU的所有權,基礎設施部分交給了TeraWulf、Hut8和Cipher Mining合作夥伴來提供。至於現場的實際落地維運,比如布線、開機測試、上線驗收和日常遠端管理這些活,都外包給了Fluidstack來全權負責。目前,Google雖暫未公佈TPU v7單價,但依據行業推測,大概在15,000–25,000美元之間。Anthropic一出手就是100萬張,此前爆料稱,這筆交易金額或達210億美元。對於輝達來說,將丟失300億美元(B200)潛在大訂單。然而,這筆交易最危險的地方不在金額,而在於結構:這意味著,Anthropic自有超算將不再依賴CUDA生態,不再被雲廠商「算力稅」抽成,將算力主權握在手中。有網友表示,這顯然是一件大事。Google現在大力推行商用晶片戰略,這將在未來催生一個基於TPU建構的生態系統。畢竟,Google已經用Gemini 3實證了,不用GPU,TPU也可以訓出強大模型。2026年AI生死局,反向押注如今進入2026年,AI行業已演變為「暴力規模與效率」的較量。作為規模派的代表,OpenAI投入1.4兆美元用於算力和基礎設施建設。相較之下,Anthropic卻選擇了一條不同的道路——「花小錢辦大事」(Do more with less),把籌碼押在了三件事上:更高品質、結構更好的訓練資料明顯加強模型推理能力的後訓練技術以及極度現實的目標:讓模型跑得更便宜、更容易被大規模採用在CNBC採訪中,Daniela Amodei強調,公司一直以來都以審慎的態度利用資源。下一階段的勝利,不會僅靠最大規模的預訓練任務來贏得,而是取決於每一美元算力能交付多少能力。Amodei稱,我們在Anthropic一直以來的目標是——在這個單純依賴大量算力的領域運作時,儘可能審慎地利用我們擁有的資源。就算力和資本而言,Anthropic擁有的資源一直只是競爭對手的一小部分。然而,在過去幾年的大部分時間裡,我們都擁有最強大、性能最好的模型,一以貫之。當然,這並不意味著Anthropic「沒錢」。恰恰相反,這家公司目前已經鎖定了約1000億美元規模的算力承諾,而且他們自己也承認,如果要繼續站在前沿,這個數字只會繼續飆升。他們並不是否認Scaling。他們賭的是:規模並不是唯一的槓桿。Anthropic並沒有把自己定位成一個面向大眾的「消費級AI明星產品」。它更像是一個企業優先的模型供應商。Claude的主要收入來源,是被嵌入到別人的產品、工作流和內部系統中。這類場景雖無噱頭,但黏性更強、更接近真實生產力。Anthropic表示,他們的收入已經連續三年實現同比十倍增長。更罕見的是,他們還建構了一張非常不尋常的銷售策略:「Claude幾乎出現在所有主流雲平台上,包括那些同時也在賣自家競爭模型的雲廠商。」Daniela Amodei對此的解釋很直白:不是緩和關係,而是被客戶需求倒逼。大型企業希望在雲廠商之間保有選擇權,而云廠商也不願意因為模型問題失去最大客戶。下一階段真正的贏家,可能不是那個燒錢最多的實驗室,而是那個能在實體經濟承受範圍內持續改進的公司。「指數級增長會持續,直到它停止。」2026年真正的問題是:如果那條被整個行業奉為信仰的曲線,真的開始失靈——這場由算力堆起來的AI軍備競賽,是否還能體面收場?Claude Opus 4.5,刷屏了如今,全網都被Claude Opus 4.5震撼到了。Helius首席執行長表示,「Opus 4.5簡直瘋狂到離譜」。本人已程式設計十年,它卻可以根據提供系統設計指導,以及明確的自我驗證路徑,完成任何要求的任務。有開發者在短短半小時內,不寫一行程式碼,建構出一款iOS應用。同樣地,還有人在20分鐘內打造了類似ESPN風格的應用。有人用Claude程式設計一個程序,用攝影機記錄下了花開的時刻。就連Karpathy幾天前發文,自己也上手Claude Code,讓其接入智能家居系統。不僅如此,Claude Code不僅適用於程式設計,Pietro Schirano還將原始DNA資料輸入,並利用它找出了一些與健康相關的基因。One More Thing去年3月12日,《紐約時報》報導,Google持有Anthropic公司14%的股份。2024年,Anthropic將亞馬遜雲服務(AWS)確定為其主要訓練合作夥伴;亞馬遜將向Anthropic追加投資40億美元。此外,Zoom也有Anthropic部分股權。最近,Google被傳出正在洽談追加投資Anthropic。新一輪融資或將使Anthropic的估值突破3500億美元。不得不讓人懷疑,Google是不是要在2026年收購Anthropic?Claude Code要併入Google了?不過,Anthropic如此成功,有必要賣給Google嗎?而且,Anthropic一貫標榜「安全AI」,一旦被收購,「Google+Anthropic」毫無疑問地將終結AI競賽,OpenAI、微軟、輝達等另一方會甘心嗎?(新智元)
澤平宏觀—輝達之路:四次進化與AI未來
摘要“抓住風口”並非簡單的運氣,而是技術在長期積累後達到奇點,並與市場需求爆發形成的共振。輝達完美詮釋了這一規律。自ChatGPT問世後,其股價上漲10倍以上。在人工智慧的數千家企業中,輝達之所以能一騎絕塵,源於其在早期逆境中形成的深刻憂患意識、扁平化的高效管理文化,以及通過全端模式形成的強大市場心智。這使其在AI時代的浪潮中歷經四次關鍵進化,牢牢抓住了機遇。第一次進化始於2008年金融危機,在巨大的經營壓力和質疑下,力排眾議投入研發CUDA。這建構了輝達最核心的護城河,為其日後成為AI生態基石奠定了基礎。第二次進化以2012年AlexNet模型的成功為標誌,輝達敏銳地捕捉到GPU在AI訓練中的巨大潛力,果斷“All in AI”。第三次進化由2022年ChatGPT的發佈引爆,大模型領域的算力需求呈指數級增長,輝達成為這場“算力軍備競賽”中獨家的“賣鏟人”。第四次進化發生在2025年初,DeepSeek等低成本、高效率AI模型的出現一度引發市場對輝達邏輯的質疑。然而,訓練成本的降低反而促進了AI的普及和部署,最終擴大了對算力的總需求。解讀輝達的崛起之路,是為了尋找大牛股的底層邏輯:唯有那些能參透技術本質、勇於開拓市場、擁抱科技進步的企業,才能立於浪潮之巔。在AI時代,中國力量——國產替代與產業鏈自主化正成為中國市場的核心趨勢。建立獨立自主、安全可控的國產算力體系已成為必然選擇,以華為昇騰等為代表的核心晶片層正在突破,同時帶動了從高規格晶圓代工到AI伺服器等整個配套產業鏈的重構。未來,具身智能、AI超級應用以及由AI賦能的醫藥等領域科研是潛力最大的三大領域。1 為什麼是輝達?2024年6月18日,輝達市值超越微軟成為全球市值最高公司。2025年7月28日,輝達成為第一家市值超4.3兆美元公司,自1999年IPO以來復合年均增長率超過37%。輝達的成功和人工智慧密不可分,但AI產業上下游企業千余家,為什麼跑出來的是輝達?許多投資者認為輝達勝在技術。從技術的角度看,AI訓練投入資源越多效果就會更強,這是大模型發展的定律Scaling Law(縮放定律),而要支撐起海量的運算就離不開算力。輝達恰好是世界上最大的GPU廠家和算力硬體裝置供應商。但另一方面,顯示卡並非輝達獨有。ChatGPT爆發後自研算力晶片也成趨勢,特斯拉(Tesla)一直在推進 D1 晶片和 Dojo 超算平台的研發, Google的 TPU(張量處理單元)在 AI 訓練領域是輝達最強勁的競爭對手之一,許多大型模型(包括Google自己的 Gemini)都是在 TPU 上訓練。這樣看來,輝達的技術優勢只是成功的結果,但不是成功的核心。輝達的成功和一個人的成功一樣,除了技能一流,更關鍵是具備一些獨特的“品質”。在經營哲學上,輝達極為強調憂患意識。由於險些在30天內破產的早期經歷,“被對手超越只是瞬息之間”,這樣的意識促使員工無法安於現狀,CEO也不斷自我鞭策和學習,避免陷入“創新者窘境”。在管理上,輝達非常扁平化。這確保了員工在自己的工作上有極大的自主權和獨立性,但同時,CEO又以最嚴格、最快速、和最高品質的標準要求員工,強調每個人都追求極致,展現出超人的努力和韌性。輝達的市場策略和蘋果相似,重視客戶的心智建設,採用“全端”銷售模式,最佳化配套的各方面來提升體驗。輝達深知低成本競爭對手是最大威脅,因此從高端旗艦到中低端衍生產品全部覆蓋,防止競爭對手復刻輝達的翻身之路,以“老黃刀法”的精準定價鎖住市場需求。輝達獨特的經營哲學、管理文化、市場策略將其打造成一艘“堅船”,在時代的浪潮中,輝達歷經四次進化,牢牢把握住了人工智慧革命兆市場的機遇。2 輝達的四次進化大多投資者瞭解到輝達這家公司是在2022年ChatGPT興起之初,其股價一路高歌在三年內登上三兆美元。如果將投資視角拉長,站在價值增長的角度看,輝達嶄露頭角則可以追溯到2008年,一共經歷了四次“進化”。通過復盤其四大歷史性投資機遇,輝達為我們詮釋了價值演變的黃金法則。2.1 金融危機價值窪地,CUDA技術穿越周期2008年11月,輝達的投資者迎來了“最黑暗”的時刻,股價跌破6美元,在一年內下跌近80%。彼時正值美國次貸危機爆發,市場處於極度恐慌,輝達這類科技股作為高風險資產被大量拋售。對於輝達而言,雖然財務上最艱難的時期已經度過,台積電也與輝達聯手,但還面臨著兩大新的危機。一是美國次貸危機演變為全球金融危機,抑制了消費者對高端電子產品的需求,輝達的營收端面臨未知的挑戰。真正讓輝達倍感壓力的是一項名為CUDA的新任務,2007年6月輝達發佈第一款CUDA程式設計模型,隨後投入了大量資源,成本端的壓力增加,三年內毛利率下降了10%,大多數投資者也轉向悲觀,股價一路下行。而輝達低谷期研發的CUDA,也正好是今天造就輝達帝國最核心的壁壘。CUDA全稱“統一計算裝置架構”,能夠讓GPU進行圖形以外的計算。1999年輝達推出了世界上首款GPU(圖形處理器),彼時的CPU(中央處理器)承擔了複雜的核心計算任務,而GPU只用於電腦圖形渲染。2002年,輝達的一位客戶另闢蹊徑,將氣象領域的問題通過程式設計“翻譯”成GPU可以理解的語言,再用GPU強大的平行計算能力模擬了氣象變化。這便是早期基於GPU的通用計算,採用軟體拓展GPU的能力邊界,讓GPU不再侷限於圖形計算,而是可以用於其他複雜領域的模擬。輝達看到了這種嘗試的潛力,並聘用了這位客戶,進一步開發了讓GPU更容易訪問非圖形應用的程式設計軟體,將其命名為CUDA。CUDA的出現讓圖形程式設計之外的領域也能最大程度利用GPU——比如科研、金融、工程領域用GPU高效運算CPU難以獨立完成的任務,由此GPU具備瞭解決現實世界問題的潛力。當時輝達面臨兩種選擇:一是讓CUDA聚焦於服務高端科學和技術的工作站,他們的需求是清晰存在的,且價格承受能力也高,CUDA為公司帶來盈利的路徑明朗。二是讓CUDA對所有人可用,這樣做的風險極大,不僅是提供軟體支援的成本會驟增,還有定價過高導致的付費意願降低、市場需求不清晰等多種因素都可能讓輝達血本無歸。2006年,在GPU計算市場幾乎是零的背景下,CEO黃仁勳確立了“將CUDA技術推向所有領域,成為基礎性技術”的方針。推行該計畫的成本巨大。同年11月推出的G80晶片為了支援CUDA功能,研發成本佔到了輝達研發總預算的1/3,開發周期比以往晶片多出了三倍,而這還只是一款產品。G80發佈後華爾街幾乎一致認為輝達誤判了市場,走上了不歸路。在巨大的壓力下,輝達從零開拓起新市場,在時代助力和自身的堅持下完成了CUDA三步走變革。第一步,輝達早期先和高校達成特定捐贈的合作,提供顯示卡和財務支援來換取學校支援GPU程式設計教學,預先培養了輝達的潛在使用者和未來的開發者生態。第二步,在學術界建立起CUDA的灘頭陣地後,輝達繼續推動CUDA在消費市場的普及,老本行——電腦遊戲。個人電腦的興起和遊戲行業爆發讓GPU的通用能力嶄露頭角,從越來越逼真的物理現象、到光影細節的表現、複雜粒子效果等,遊戲消費升級的需求和複雜科研的演算法原理不謀而合,CUDA在消費級市場迎來了用武之地。第三步是2012年的深度學習革命,AlexNet團隊用四塊輝達GPU訓練的AI模型擊敗了16,000塊CPU訓練的Google貓,轟動學術界的同時,也標誌著歷時三十年的深度學習“冰河期”結束,人工智慧研究復甦,而輝達GPU和CUDA軟體也成了AI工作者的不二之選。截至今日,CUDA生態已有超過500萬開發者,服務於全球85%以上的資料中心,90%的AI框架基於CUDA開發,95%的AI訓練任務依賴CUDA工具鏈。誕生於20年前的CUDA儘管面臨巨大的市場壓力和投資者質疑,但先發優勢讓輝達打造了成功的第一印象,使用者黏性快速形成、並呈指數級增長。開發者一旦依賴CUDA工具鏈平台,遷移成本極高,從而形成輝達的核心護城河。2007-2009年的下跌構成了輝達投資的最佳窪地,但少有投資者抓住這一波機會,一方面是對金融危機的恐慌,另一方面是忽視了這家上市9年卻“業績平平”的科技公司正在推動的技術變革。輝達在CUDA技術上的堅持可謂最重要的決策,CUDA不僅是輝達的護城河,稱其為AI發展的生態基石也不為過。2.2 深度學習復興,輝達打造AI引擎輝達並非“天生贏家”,黃仁勳意識到AI機遇來自一場偶然。1956年達特茅斯會議首次提出人工智慧概念,但在經歷短暫的黃金期後發展陷入停滯。1982年,約翰·霍普菲爾德提出新的深度學習網路,可以模擬人類的學習、記憶和資訊處理方式,但卻受限於當時的算力條件,AI發展再次進入冰河期。直到20年後,深度學習和輝達走向交集,AI發展迎來了轉折點。2012年,傑佛瑞·辛頓牽頭訓練的AlexNet模型打破了第三屆電腦視覺挑戰賽記錄。挑戰賽規則很簡單,參賽團隊訓練的視覺識別模型要對來自資料庫隨機輸入的圖片進行分類。前兩屆的冠軍精準率不到75%,而AlexNet模型精準率高達84%,比第二名“Google貓”高出近十個點,後者是實力雄厚的Google團隊投入16,000塊CPU訓練的大規模神經網路,而前者只有三個人和四張輝達遊戲顯示卡。這一顛覆式的結果震動了AI界,讓沉寂20年的深度學習領域逐漸復甦。AlexNet的勝出帶來了三項影響後世的改變:一是產業界掀起了人工智慧的技術競賽,AI進入提速發展期。科技大廠Google、微軟、百度、DeepMind圍繞傑佛瑞·辛頓教授團隊展開競標。辛頓加入Google,剩下三家也擴大AI研究陣容。辛頓團隊中的一位學生伊利亞更是成為了後來OpenAI的首席技術官和ChatGPT的締造者。二是算力在AI三要素中脫穎而出,GPU成為了算力代名詞。2007年前,深度學習普遍認為演算法越優秀結果越準確,而李飛飛團隊提出了資料集是訓練關鍵,並贊助了電腦視覺挑戰賽。辛頓團隊在此之上驗證了GPU高效運算能讓精準率再上一個高度,GPU掀起了AI革命浪潮。三是輝達走上“All in AI”,專注於支援AI發展。AlexNet的成功是輝達的最好的商業宣傳,GPU從此和人工智慧訓練深度繫結。黃仁勳和辛頓團隊多次交談後認為GPU驅動深度學習的潛力巨大,雖然多位核心高管認為AI前景不明、反對大力投入,但黃仁勳力排眾議,促成輝達轉向全面支援AI研究。股價方面,輝達在AI領域的先登也被一些投資者敏銳地捕捉到,2012~2015年底輝達股價從14.3美元到33美元,復合年均增長率達到24.18%,同期標普500回報率是12.84%,納斯達克綜指是17.8%。三年翻倍的股價在美股並不算是大新聞,許多投資者會就此滿足,畢竟AlexNet的影響力還只是在AI圈內,輝達的真正潛力還未被市場發掘。2016年3月,AlphaGo以4:1的成績擊敗李世石,標誌著人類最後的棋類運動被AI攻克。對於許多人而言,這也是AI首次進入大眾視野。AlphaGo由Google旗下的DeepMind團隊開發,是深度學習復甦後的劃時代產物。此前,IBM的“深藍”超級電腦在1997年擊敗國際象棋冠軍,其算力相當於每秒110億次的計算能力,而AlphaGo的算力是前者的三萬倍,達到每秒3.386千兆次。賦予AlphaGo跨時代算力的正是280塊輝達GPU。深度學習訓練幾乎完全依賴GPU,再加上CUDA生態和硬體性能的極高壁壘,輝達成為毋庸置疑的AI算力領導者。人工智慧前景明朗、加密貨幣的興起、遊戲市場的繁榮,三重利多因素使得輝達股價在2016年迎來了首次大爆發。從1月的33美元漲到292美元僅用時兩年半,即便2018年10月加密貨幣泡沫破滅,輝達新款顯示卡的定價過高導致股價回呼,結果看,投資輝達的收益仍十分可觀,年化回報率達92.5%,三年漲幅達到540%。2.3 ChatGPT橫空出世,大模型領域需求爆發人工智慧的機遇是意識到AI大模型的通用潛能及其對算力的海量需求。而捕捉到這一投資機遇,就是挖掘輝達的估值根本從一家遊戲顯示卡龍頭轉變為“AI淘金獨家賣鏟人”的時刻。2022年3月,輝達發佈了革命性的Hopper架構(H100 GPU)和Ada Lovelace架構(RTX 40系列),用於AI訓練和遊戲的顯示卡性能都實現了飛躍。但這沒能阻止投資者繼續拋售輝達,由於加密貨幣暴跌和遊戲市場疲軟,年初至9月,輝達的跌幅達到62.8%。誰也不會想到,兩個月後輝達的估值邏輯將徹底改變,促成科技股載入史冊的投資機會。同年11月30日,OpenAI發佈了世上第一款大語言模型ChatGPT。這是人們可以用到的第一款聊天AI,和6年前的AlphaGo相比,前者只是下棋的演算法,而後者更像是具有智慧的個體。僅一年時間,ChatGPT的每周活躍使用者(WAU)就達到1億人,達到2億又用了9個月,到2024年12月,ChatGPT的周活躍使用者已經有3億人。OpenAI是AI浪潮的主角,但市場很快發現輝達才是最大贏家。輝達股價一路反彈,率創新高,一年漲幅達到246.73%。相比之下,OpenAI最大出資方——微軟的股價在這段時間上漲僅為65.14%。這是因為,ChatGPT成功的核心在於大規模訓練。它基於的3.0版本參數量高達1750億,是2019年GPT2.0的110多倍,進行如此大規模訓練需要足夠的算力支援。分析師測算下來OpenAI訓練用了至少一萬塊輝達A100顯示卡。ChatGPT打開了前景廣闊的AI藍海,一方面是上千家初創公司加入戰局,另一方面是科技大廠鞏固陣地,一場“算力軍備競賽”不可避免。2023年,輝達H100全球出貨規模達到500億美元,微軟、Meta、Google、亞馬遜、甲骨文、特斯拉、沙烏地阿拉伯主權基金、CoreWeave採購佔比超80%。2024年,AI算力競賽升級,科技巨頭以近乎不計成本的方式加大投入,輝達新的BlackWell架構一上市就得到微軟、Meta、Google價值百億級訂單。據測算,輝達全年H100/H200出貨量約400萬張,A100等其他產品出貨月200萬張,BlackWell架構因良率低出貨僅10萬張,台積電將80%產能分配給輝達而市場仍供不應求。只是提供“鏟子”還不夠,輝達全方位精準把控了市場需求。在ChatGPT發佈的三年前,黃仁勳就預見了人工智慧發展下資料中心負載和性能提升的巨大需求。2019年3月,輝達以69億美元收購了網路互聯裝置市場第一梯隊公司邁絡思。四年後,數以千計的AI公司加入大模型領域,它們不僅需要輝達顯示卡,還離不開邁絡思的InfiniBnad技術來高效地拓展計算能力。在 2024-2025 年,輝達成功將其護城河從單一的‘計算晶片’延伸到了‘叢集連接’。當成千上萬顆 GPU 協同工作時,通訊效率成為了系統的真瓶頸。通過 NVLink 和 InfiniBand 這種‘卡與卡、櫃與櫃’的超強連接,輝達實際上定義了‘叢集即電腦’(Cluster as a Computer)的行業標準,使得競爭對手即便能造出單顆性能相近的晶片,也無法在萬卡叢集的效率上與其抗衡。AI訓練的需求爆發讓輝達估值邏輯徹底轉變,抓住這一投資機遇的關鍵節點在2023年初。2022年12月,市場起初對ChatGPT維持將信將疑的態度,在發佈後的45天內,輝達漲幅僅25%,還經歷了25%的最大回撤。但在2023年1月底,形勢開始反轉,輝達發佈2023財年業績(2022年),其智算業務收入首次超過了遊戲顯示卡成為第一大營收來源,達到150億美元,這意味著ChatGPT發佈前智算訂單就大幅增長,外部AI需求前景已經明朗,而輝達作為GPU領域龍頭,未來業績極有可能迎來爆發。果然,2023年,輝達營收同比增長125.85%,2024年同比增長114.2%,營收突破1300億美元。在市場主力猶豫時,勇於買入輝達的投資者也收穫了驚人的回報,兩年內,輝達的股價上漲925.24%,年化收益率達到205.63%。2.4 DeepSeek衝擊估值回呼,產業擴容再創新高2024年末,輝達被買成了全球最受歡迎的公司,不僅市值超越微軟成為第一,兩年來的總成交額也達到14.13兆美元,相當於同年的日本、德國、英國、法國GDP之和。市值屢創新高的同時,輝達面對的質疑也越來越多,主要來自三方面:一是輝達業績高速增長的可持續性存疑。2023到2024年,主要科技大廠都完成算力基建部署,2025年之後訂單實現翻倍式增長很難。二是輝達的技術壁壘可能在鬆動。算力軍備競賽也掀起了自研AI晶片的趨勢,輝達的市場份額可能在未來被後發者蠶食。三是輝達估值的整體想像空間或已見頂。從常規的企業發展周期來看,“成功者困境”無法避免,許多龍頭企業在到達巔峰後都面臨著成長困境,輝達的進步空間似乎不多了。2025年1月20日,DeepSeek R1模型開源,引發美國科技股震動,一度跌去一兆美元。其中,輝達股價跌去近17%,市值蒸發近6000億美元,創下美股史上最大單日市值下跌紀錄。DeepSeek的出現似乎印證了投資者對輝達的質疑。為何市場擔心這會撼動輝達的市場根基?DeepSeek出現前算力是第一要素。AI能力的提高依賴於參數量的增加,而更大參數量的訓練則需要匹配的算力規模。在2023~2024年,AI巨頭通過堆算力來堆大模型性能,形成了“打造比GPT更好的AI等同於比OpenAI有更多算力”的共識,比如,馬斯克為了xAI彎道超車,建構了全球最大的20萬張GPU算力群。DeepSeek跨越了算力壁壘,實踐了以低成本達成高效率的全新架構。其V3模型與GPT-4o和Llama-3.1表現不相上下;而R1模型達到了ChatGPT-o1級的表現,但訓練成卻僅相當於後者的十分之一。DeepSeek在GPU數量和質量上都落後於美國企業,卻通過演算法最佳化、架構創新打造了實力相當的模型,顛覆了“AI訓練必依賴強大算力”的認知。這場AI訓練變革削弱了算力的重要性。當AI訓練不再需要高成本、大規模的算力投入,輝達GPU需求預期減少,資本市場也快速改變了對輝達的估值,在歷史高點的輝達股價十分脆弱。“擊敗”輝達的不是業績減速,也不是更先進的GPU,而是AI訓練的變革,但變革自身也在發展中變化。舊的壁壘被瓦解,新的藍海在湧現。從長期維度看,DeepSeek出現是對輝達的一次空前利多。一是訓練變革會帶來AI部署降本,市場總量擴容。AI的訓練成本下降會在短期內造成上游的營收下降,但也意味著AI部署和使用成本同步下降,更多的廠商加入賽道,促進AI技術迭代。同時,更多使用者能以低成本使用AI服務,訪問增加推動需求總量增加,加速AI商業化和大規模普及處理程序,這是產業生態迎來爆發的前兆。二是訓練變革只是降低現階段成本,無法提高上限。DeepSeek模型在性能和當代主流模型不相上下,但沒有突破現有邊界。換言之,“再造一個GPT”對算力的需求大幅下降,但超越GPT在根本上還是離不開更強大的算力支援。因此,那些希望掌握行業主導權的AI科技巨頭對輝達GPU的需求依然會穩定增長。事實也確實如此,DeepSeek的火爆後,雲端和本地部署需求激增,推理服務的火爆引發了對輝達GPU的更大需求。同時,科技巨頭一邊效仿DeepSeek開源和最佳化,另一邊卻並未停止算力軍備競賽。DeepSeek 的邏輯在於:它證明了‘重演算法、輕訓練’的可行性,這標誌著 AI 產業正式從‘算力密集型訓練階段’轉向‘規模化推理應用階段’。雖然單次訓練成本降低了,但隨著 AI Agent(智能體)和超級應用的普及,全社會對推理算力的總需求量呈幾何級數增長。輝達通過推出專為推理最佳化的晶片和軟體棧(如 TensorRT-LLM),精準吃掉了這一增量市場。市場對輝達的判斷很快迎來反轉。2025年1~4月輝達跌去18.9%,5~7月反彈漲幅達到64.13%,市值突破了2024年底來到4.3兆美元,超過特斯拉、AMD、英特爾和帕蘭提爾四家市值的總和。輝達的這次逆境反轉是重要的一課:投資是動態的過程,對行業和公司投資邏輯的推導不能停留在短期事件的後果上。2025年初,許多分析師將DeepSeek描述成輝達的“掘墓人”,但卻忽視了訓練效率的提升是行業進化的催化劑,輝達從估值瓦解到登上新高不過半年。3 AI浪潮:未來十年有那些機會?3.1 AI時代的關鍵能力AI在許多領域的工作效率已經遠超人類,直覺上,人工智慧似乎必定會勝任各種職業和場景,逐漸取代人類。事實上,淘汰與否的關鍵在於“主動價值原則”:一個人產出價值的過程越主動,意味著自主決策佔比高、思考多、創造性強,越難以被新工具所替代。歷史上,雖然每次技術進步的方向不同,但無一例外都遵循這一原則。第一次工業革命,船伕被蒸汽機替代,但舵手卻保留了下來。即便在今天,舵手也無法被AI取代,AI可以協助觀測等任務,但決策核心仍在船長(首席舵手)手中。技術革命中,最容易被淘汰的是價值創造被動的人。在AI時代,價值創造被動的人無法主導決策,使用AI越多就會越依賴AI系統,逐漸失去自主思考能力。而那先原本就擅長思考、創新、自主判斷的人,只會因為使用AI變得思維更迅捷、效率更高。黃仁勳本人也分享:他用AI不是讓AI替自己思考,而是用AI教會他新東西。這也引出了一項AI時代的重要能力——提問和引導的能力。人和AI互動靠的是幾行提示語、提問句還有後續的引導詞。雖然AI能快速寫文案、做視訊、編程式碼,但產出的質量高低完全取決於人的水平。同樣一類AI畫作,在業餘愛好者和專業畫師的提示詞下生成的作品差距極大,AI實際上是折射了不同人的想像力和對藝術理解深度。換言之,人要擁抱“建構想法的創造力”,放下“把事情做出來的能力”。AI時代,人們要更多的閱讀、學習技能、深度思考,以此拓寬創造力邊界。因為向AI提要求,本質上也是對自身能力深淺的檢驗。比如,AI程式設計的出現讓一些初級程式設計師如獲至寶,但隨即而來的是面臨失業。與此同時,成熟的軟體工程師卻在新鮮感後抱怨AI程式設計的“愚蠢”,因為AI程式設計的能力十分基礎,遠達不到成熟開發的要求。由此可見,AI篩選的不是崗位,而是人。同一崗位、同一工作,也存在價值創造的主動和被動之分。有的人主動學習,提升自己,參透了規律和本質,善於向AI提問,充分發揮AI的效率優勢。還有的被動依賴AI投喂答案,缺乏自主思考,雖然短期產出提升,但也終將被淘汰。在瞬息萬變的AI時代,投資者抓住風口的核心也是在於學習,否則只會在時代的篩選中退場。3.2 國產替代和產業鏈自主化潛力對於晶片這個特殊行業,必須注重外部供應的特殊性和產業本土化安全性權衡。比如美方或通過試圖在出口晶片中加入“追蹤定位”和“遠端關閉”等功能,這未來對資料安全是一種威脅。另一方面,H20確實作為“特供版”晶片,有性能被削弱的問題,從技術和經濟效益角度看,無法支撐中國兆級大模型訓練的長遠需求。這雙重壓力共同將一條路清晰地擺在了所有中國科技企業和投資者的面前:建立獨立自主、安全可控的國產算力體系。這也正是未來幾年中國最重要的產業趨勢和投資機遇。機會一:國產替代國產替代已是在中國晶片領域的“必答題”。這不僅是政策驅動,更是市場求生的內在需求。圍繞國產晶片的生態正在加速形成:比如在核心晶片層,以華為昇騰、寒武紀、海光資訊等為代表的ASIC和GPU廠商,正在從不同技術路線進行突破。特別是華為昇騰910B在部分場景下據稱已達到輝達A100的80%性能,並正通過全端的軟硬體生態CANN、MindSpore等建構護城河。在配套產業鏈方方面,從中芯國際的晶圓代工,浪潮資訊的AI伺服器,到兆易創新等的儲存環節,整個產業鏈條正在圍繞國產核心進行重構。關注國產替代,就是要尋找那些技術領先、生態建構能力強、且已經獲得頭部廠商驗證的。機會二:尋找“下一個輝達”必須客觀認識到,輝達的護城河不僅僅是一塊GPU晶片,而是其耗費十餘年心血打造的CUDA生態系統。全球絕大多數AI開發者、深度學習框架如TensorFlow, PyTorch都深度繫結CUDA。這是一個贏者通吃的網路效應。中國公司想要突圍,不能僅僅是硬體性能的追趕,更關鍵在於軟體生態的建構。目前來看,華為昇騰是中國最有可能率先突圍的。正建構從底層硬體、晶片使能、AI框架到應用使能的全端解決方案。通過與國內高校、科研機構和企業的合作,昇騰正在努力擴大其“朋友圈”,培養開發者習慣,這是追趕CUDA生態最現實的路徑。在後摩爾定律時代,通過Chiplet芯粒結構、存內計算等新架構創新,有可能在特定領域實現對傳統GPU架構的性能超越。這是技術驅動型的顛覆機會。尋找“下一個輝達”的邏輯,要求具備更長遠的眼光和對技術生態更深刻的理解。3.3 AI潛力最大的三大領域從第一性原理來出發:人工智慧是資料驅動的機率關聯,目標是完成對自然法則和因果規律的掌握。理論上AI適用於所有行業和領域。但在不同領域存在落地先後之分。將AI應用潛力最大的領域分為三大類:一是具身智能,讓AI擁有感知世界能力的路線。從多模態大模型、到自動駕駛、人形機器人和無人機等,賦予AI物理形態和感知學習能力的具身智能會加速落地。長期看,具身智能的商業化鋪開需要多方面技術進步來實現,主要是資料訓練演算法的周期長、硬體成本高、工程設計的難度大。當下智能駕駛的技術離成熟應用最接近,在監管適配的過程中大規模普及只是時間問題。人形機器人在2025年概念火熱,但受限於續航、靈巧手、環境資料等因素還難以滿足大規模落地條件。二是超級應用,在C端開啟新互動革命,在B端打造高效率工具。比如,消費電子端的AI眼鏡、AI手機、AI PC等升級成為互動載體。在此基礎上,AI Agent、AI作圖、AI助力等原生AI應用構成AI生態,AI功能融入日常生活。在B端也賦能專業領域,AI教育上實現遠端教學,AI醫療輔助手術,工程領域協助設計搭建等,比如B端AI賦能的半導體設計行業。晶片工程師在AI的幫助下可以僅用高級抽象概念來設計和模擬晶片。三是AI科研,解決傳統科研處理程序中的瓶頸。相比於傳統科研,AI在探索廣度、計算深度、實驗速度、跨學科能力四個方面都更強,因此在科研上極具優勢。比如AI用於對環境要求嚴苛的氣象領域,研究耗時長的分子領域;成本高、涉及跨學科多的生物醫學、以及人類還在攻堅的量子系統領域。黃仁勳也曾在2023年預測數字生物學是未來方向。AI使得人類可以首次對生物學進行數位化設計,科學界可以更深入地模擬生物系統的結構,開發非自然形成的新分子結構和蛋白質藥物。此外,AI上游的關聯產業也充滿機遇。比如半導體製造,中國的自主化處理程序在加快,而國際上先進製程也在2025年迎來了2nm突破,新一輪半導體革命未來可期。再比如能源領域,全球資料中心增長正面臨供需錯配問題,一方面擴大綠電體系建設為AI基建保駕護航,同時提高能源利用率,降低能耗成為共識。輝達的崛起是一場長達 20 年的“非對稱競爭”的勝利——用全端的軟體生態鎖死硬體競爭,用極度的憂患意識跑贏摩爾定律。在大航海時代,財富流向了擁有指南針和堅船的一方;在 AI 時代,財富正流向那些能定義算力標準、並不斷突破自然科學邊界的企業。對於我們,國產替代不是為了重複造輪子,而是為了在新的技術高地上,拿回屬於我們的數字主權。 (澤平宏觀展望)
“20年來最大更新”,輝達CUDA帶來了什麼?
2025 年 12 月,NVIDIA 推出 CUDA 13.1,此次更新被官方定位為“自 2006 年 CUDA 平台誕生以來最大、最全面的升級”。其核心亮點之一,是引入了新的程式設計模型 CUDA Tile。這個變化,有可能不僅僅是一項技術迭代,而是標誌著 GPU 程式設計範式邁入一個新的階段。CUDA 13.1 + CUDA Tile:到底帶來了什麼新東西?CUDA Tile 是一種基於 tile(瓦片、資料區塊)的 GPU 程式設計模型。與傳統的 SIMT(single-instruction, multiple-thread,多線程單指令流)方式不同,Tile 程式設計允許開發者將資料組織為tile (例如矩陣塊、張量塊、資料區塊),然後對這些 tile 進行操作,由編譯器和執行階段負責將它們對應到底層線程、記憶體佈局、專用硬體等資源。換句話說,開發者只需專注對塊做什麼計算,無需關心那個線程做那一部分、怎樣同步的問題。為了支援 Tile,NVIDIA 在 CUDA 13.1 中引入了虛擬指令集 (Tile IR),並配套提供 cuTile。這是一個允許用高級語言編寫 tile-based kernel 的工具,通過 cuTile,開發者可以用熟悉的 Python 編寫 GPU kernel,從而極大降低 GPU 程式設計的門檻。根據官方描述,Tile 程式設計並不是要取代 SIMT,而是作為一種並存或可選的程式設計路徑。也就是說,開發者根據需求,可以繼續使用傳統 SIMT,也可以在適合場景下使用 Tile。CUDA 13.1 除了 Tile,還對執行階段(runtime)和工具鏈進行了升級,例如對 GPU 資源調度與管理機制進行了增強,使 GPU 的多工、並行、異構任務支援更靈活可靠。官方同時對數學計算庫(如矩陣、張量庫)與底層支援的相容性進行了最佳化,以更好支援未來 GPU 特性(例如 tensor core、多級快取、異構資源分配等)。由此看來,這次更新不僅是對程式設計模型的改變,也為建構新一代高層、跨架構 GPU 的計算庫、框架和DSL 奠定了基礎。綜合來看,CUDA 13.1 + CUDA Tile 的意義,不僅在於新增一個功能或對性能進行最佳化,而更在於為 GPU 程式設計提供了一個新的、更高層、更抽象、更便捷,且可維護和可移植的選項。GPU 越來越複雜,手動管理變得不足夠隨著 GPU 架構不斷演進,引入越來越多專用硬體(例如 tensor core、混合精度加速、多級快取與記憶體層次、異構資源、多流或多工支援等),底層硬體複雜度大幅增加。對開發者而言,手動管理線程、同步、記憶體佈局、調度、硬體相容性等負擔越來越重。傳統 SIMT 模型雖然靈活,但對高性能、可移植、可維護的要求而言,其複雜性和維護成本日益凸顯。在這種背景下,Tile 程式設計所引入的高層抽象、由系統負責的資來源對應、調度、硬體利用,恰好切中了現實需求。對於AI、大規模矩陣、張量計算、科學計算、深度學習等領域,非常具有吸引力。NVIDIA 官方也明確指出,Tile 的設計初衷是為了幫助建立適用於當前和未來 GPU 的軟體。借助 cuTile (Python DSL),許多過去因為不擅長 CUDA C、對底層 GPU 程式設計不熟悉的資料科學家、研究者,也可能開始編寫 GPU 加速程式碼。對於深度學習、科學計算、AI 團隊或高校研究機構來說,這意味著 GPU 加速不再只屬於少數 GPU 專家核心團隊,而可能被更多人使用。此外,對於那些需要跨 GPU 架構的團隊來說,一次編寫、多代相容的可能性,將大大降低重構、最佳化和維護的成本。(來源:輝達)同時,Tile 提供了一條新的 GPU 程式設計路徑。這條路徑不僅對單個項目或團隊有利,也可能促使整個 GPU 軟體生態走向更高層、更抽象、更通用、更易維護和跨架構相容。這種變化對未來 GPU 程式設計規範化、標準化以及廣泛應用具有潛在推動力。這次更新可能不僅僅是一個版本號的提升,而是 GPU 程式設計範式的一次質變。從硬核到普惠的轉折點在技術社區中,CUDA 13.1 的發佈引發了截然不同的兩種情緒,而這恰恰印證了這次更新的變革性。對於資深的高性能計算(HPC)工程師而言,反應是複雜的。一方面,他們習慣了對每一個暫存器、每一塊共用記憶體(Shared Memory)的精細控制,CUDA Tile 這種將細節交給編譯器的做法,不可避免地引發了關於性能上限的討論。正如在 Reddit 和 Hacker News 上一些硬核開發者所擔憂的:“我們是否正在用極致的性能換取開發的便利性?”然而,對於更廣泛的資料科學家和 AI 演算法工程師群體,這無疑是一個好消息。長期以來,將 PyTorch 或 TensorFlow 中的高層邏輯轉化為高效的 CUDA 核心程式碼,是一道難以踰越的技術鴻溝。cuTile Python 的出現,實際上是在填平這道鴻溝。它意味著開發者不再需要精通 C++ 和電腦體系結構,僅憑 Python 就能觸達 GPU 80% 甚至 90% 的理論性能。這種性能平權可能會引爆新一輪的 AI 算子創新。當編寫一個高效的 Attention 變體不再需要兩周的 C++ 偵錯,而只需一下午的 Python 指令碼時,創新的飛輪將轉得更快。(來源:Shutterstock)競爭格局的深層變化:從程式碼相容到架構抽象在 CUDA 13.1 之前,競爭對手(如 AMD 的 ROCm 或 Intel 的 OneAPI)主要的追趕策略,是通過相容層(如 HIP)來轉譯現有的 CUDA 程式碼。這種策略主要基於 C++ 語法的相似性。然而,CUDA Tile 的出現改變了這種競爭的維度。通過引入 Tile IR(虛擬指令集)和高層抽象,NVIDIA 實際上是在硬體和軟體之間增加了一個更厚的中間層。當開發者開始習慣使用 Tile 程式設計模型,更多地關注資料區塊的邏輯而非底層線程調度,程式碼與底層硬體的解耦程度變得更高。這意味著,程式碼的執行效率將更多地依賴於編譯器如何理解和最佳化這些 Tile 操作。對於競爭對手而言,要支援這種新模式,僅僅做程式碼轉譯是不夠的,還需要建構一個同樣智能的編譯器來處理這些高層抽象,這無疑增加了技術對齊的難度,也客觀上提高了生態系統的粘性。面向雲環境的演進:Green Contexts 的實際價值除了程式設計模型,CUDA 13.1 在執行階段環境上的改進,特別是 Green Contexts 從驅動層走向執行階段 API,反映了 GPU 使用場景的結構性變化。在 Blackwell 架構時代,GPU 已經從單純的加速卡轉變為資料中心的核心算力單元。隨著單卡算力(如 B200 系列)的大幅提升,對於許多單一任務來說,獨佔整塊 GPU 往往是一種資源浪費。Green Contexts 允許開發者或系統管理員在執行階段更安全、更細粒度地劃分 GPU 資源(SM)。這在技術上解決了多工平行時的干擾問題,使得 GPU 能夠像 CPU 一樣,高效、穩定地同時處理多個使用者的任務。對於雲服務商和企業內部的算力調度來說,這直接提升了昂貴硬體的利用率和投資回報率。新的挑戰:抽象化帶來的黑盒隱憂當然,這種向高層抽象的演進也並非沒有代價。CUDA Tile 帶來的最大挑戰在於偵錯與性能最佳化的透明度降低。在傳統的 SIMT 模式下,開發者清楚地知道每一行程式碼對應什麼指令,資料在暫存器和記憶體間如何移動。而在 Tile 模式下,編譯器接管了大量的資料佈局和對應工作。一旦性能不如預期,或者出現非功能性 Bug,開發者可能會發現很難像以前一樣精準定位問題。雖然 NVIDIA 在 Nsight 工具鏈中增加了對 Tile 的支援,但如何讓開發者理解編譯器的最佳化邏輯,而不是面對一個無法干預的“黑盒”,將是這一新模式能否被資深開發者廣泛接受的關鍵。此外,這也意味著軟體性能將更加依賴於 NVIDIA 編譯器團隊的最佳化水平,而非開發者個人的微調能力。CUDA 13.1 的發佈,本質上是 NVIDIA 應對硬體複雜度爆發的解決方案。通過 CUDA Tile,NVIDIA 試圖建立一種新的分工模式:開發者專注於高層的演算法邏輯與資料流,而將複雜的硬體適配工作交給編譯器和執行階段環境。這不僅降低了高性能計算的門檻,也讓 CUDA 平台在異構計算和雲原生時代,具備了更強的適應性和生態掌控力。對於開發者而言,這或許意味著是時候調整思維習慣,從微觀的線程管理,轉向宏觀的資料區塊編排了。 (問芯)
或許CUDA不再是唯一:詳解輝達的兆帝國與GoogleTPU的十年暗戰
最近美股金融市場風雲變化,疊加DIY市場儲存晶片大幅漲價,所以我們暫時拋開開源和閉源模型不談,聊聊美國最大的AI鏟子售賣商-輝達和Google的角色關係01. 歷史復盤:一場持續17年的“豪賭”很多非技術出身的投資者認為輝達的爆發是運氣,正好趕上了ChatGPT的風口。但其實這是一場長達17年的蓄謀已久的策劃。故事的轉折點不在1993年的創立,而在2006年。那一年,輝達推出了CUDA(Compute Unified Device Architecture)。在當時,這被視為一個瘋狂的決定——在每一塊GPU上增加專門的邏輯電路,允許程式設計師呼叫顯示卡進行通用計算(GPGPU)。這意味著輝達在硬體成本上升的同時,還要投入巨資去維護一套當時沒人用的軟體生態。華爾街當時對此嗤之以鼻,認為黃仁勳瘋了。但正是CUDA,將GPU從單純的“圖形渲染器”變成了“數學加速器”。2012年的伏筆: AlexNet在兩塊GTX 580顯示卡上訓練了6天,碾壓了傳統演算法。深度學習(Deep Learning)的大門被踹開,科學家們驚訝地發現:原來GPU這種幾千個核心平行計算的架構,天生就是為了跑神經網路而生的。從那以後,輝達就不再是一家遊戲硬體公司,它變成了一家AI計算平台公司。當2017年Transformer架構提出,2022年ChatGPT爆發時,輝達是全場唯一一個準備好了全套“軟硬一體”方案的玩家。02. 護城河:不僅是晶片,是“全端”現在的輝達,強在那裡?如果你只盯著它的主營業務——資料中心(Data Center),你會看到驚人的財務資料。在最新的財報中,資料中心業務營收佔比已超八成,毛利率一度突破75%。這在硬體行業是違反常識的。之所以能做到這一點,是因為輝達賣的從來不是裸片(Silicon)。它賣的是DGX系統,是NVLink(讓成千上萬塊顯示卡像一塊顯示卡那樣工作的高速互連技術),更是NVIDIA AI Enterprise軟體套件。在AI開發者的世界裡,CUDA構成了最深的護城河。所有的主流框架(PyTorch, TensorFlow)、所有的開源模型(Llama, Mistral),默認的第一適配對像永遠是輝達。這種“開發者習慣”的粘性,比硬體本身的性能差距更難被踰越。03. 房間裡的巨象:GoogleTPU與CSP的起義然而,盛世之下,危機四伏。輝達的統治力並非牢不可破。 而撕開這道口子的,正是它最大的客戶之一—Google。早在2015年,Google就敏銳地意識到:如果不自研晶片,未來將被輝達卡死。 於是,TPU(Tensor Processing Unit) 誕生了。這就引出了輝達目前面臨的最大困境:通用GPU vs 專用ASIC的路線之爭。GPU(輝達)的邏輯: 我是通用的,我什麼都能算,從天氣預報到大模型訓練,靈活性無敵。但代價是功耗高、價格貴。ASIC(如GoogleTPU)的邏輯: 我專門為矩陣乘法設計,專門為TensorFlow/JAX框架最佳化。我不做圖形渲染,我就跑AI。因此,我在特定場景下能效比更高,成本更低。GoogleTPU的威脅有多大?如果你看DeepMind的Gemini、阿法狗(AlphaGo),甚至蘋果最新的Apple Intelligence伺服器端訓練,它們很多並沒有依賴輝達,而是建構在Google的TPU叢集之上。不僅是Google,這是一場“CSP(雲服務提供商)的起義”。亞馬遜 AWS 有 Trainium 和 Inferentia;微軟 Azure 推出了 Maia 100;Meta 也在推自研 MTIA 晶片。這些科技巨頭每年向輝達採購數百億美元的晶片,但他們內心極度渴望擺脫這種“被收稅”的狀態。這種客戶即對手的博弈,將是未來3-5年AI硬體領域的主旋律。04. 未來的困境:推理(Inference)市場的變數其實對於輝達來說,另一個隱憂在於AI工作流的重心轉移。過去幾年是訓練(Training)的時代,大家都在拚命燒錢練大模型,這時候必須用輝達,因為只有它能提供萬卡叢集的穩定性。但未來5年,我們將進入推理(Inference)時代。也就是模型練好了,大家開始大規模呼叫API,開始在手機、PC、邊緣裝置上運行模型。在推理市場上,輝達的優勢會被削弱。成本敏感: 推理不需要訓練那麼大的算力,企業更看重性價比。專用的推理晶片(如Groq、各大廠自研晶片)可能會比昂貴的H100/B200更具吸引力。軟體解耦: 隨著PyTorch 2.0和OpenAI Triton等編譯器的發展,開發者正在試圖打破CUDA的壟斷。如果有一天,程式碼可以無痛地遷移到AMD或自研晶片上,輝達的高溢價還能維持嗎?05. 結語目前的輝達,依然是當之無愧的王者。Blackwell架構的推出,再次拉大了它與競爭對手的代差。在“訓練超大模型”這個塔尖領域,它依然沒有替代品。但從產業演進的角度看,任何單一公司的壟斷都是暫時的。金融市場上,巴菲特管理的‌波克夏公司斥資43億美元首次建倉Google母公司‌Alphabet,使其成為第十大重倉股,這再次證明了,Google在AI發展路徑走在了更符合投資者期待的路徑上,足夠的落地應用轉化,才是AI最終的歸宿。AI產業正在從“輝達一家獨大”走向“一超多強、專用晶片遍地開花”的戰國時代。GoogleTPU已經證明了ASIC路線的可行性,而開源社區正在努力填平軟體鴻溝。或許對於輝達而言,未來的敵人不是AMD,而是那些正在試圖用更高效、更廉價的算力架構,去重構整個AI成本模型的“前戰友”們。 (Diffusion Atlas擴散圖譜)