#摩爾定律
ASML EUV光刻機背後的神奇故事
2015年,摩爾定律戛然而止在過去的50多年裡,電晶體變得越來越小,晶片上能容納的數量每兩年翻一番。這就是著名的摩爾定律,由英特爾聯合創始人戈登·摩爾在1965年發現這一規律後命名,它一直是科技行業的主要驅動力之一。但在2015年左右,這一處理程序戛然而止。如果沒有一家製造公司能挺身而出,我們可能永遠無法突破這個瓶頸。對EUV光刻機的嚴格要求想像你被縮小到螞蟻大小,並獲得一把強力雷射,能像切黃油一樣熔化金屬。接著,一滴約白細胞大小的熔融錫滴以每小時250公里的速度從你面前飛過。你的任務是:在20微秒內,用你的雷射連續擊中這個錫滴三次。這正是EUV光刻機所做的:它連續三次擊中一個小錫滴,將其加熱到超過22萬開爾文。這大約是太陽表面溫度的40倍。而且它不只是擊中一個液滴,它每秒鐘要擊中5萬個液滴。光刻機還需要包含可能是全宇宙最平滑的鏡子。如果將其中一面鏡子放大到地球大小,那麼最大的凸起也不會超過一張撲克牌的厚度。除此之外,它能將晶片的一層完美地疊加在另一層之上,誤差不超過五個原子。晶片製造第一步:提取二氧化矽製造微晶片的第一步是取二氧化矽(通常來自沙子),並將其提純為純度接近100%的矽塊,然後在特製熔爐中熔化。接著,將一顆微小的種子晶體放入熔池中。矽原子附著在晶體上,延伸其結構。然後慢慢提升並旋轉種子晶體,最終形成一個巨大的單晶矽錠。單層晶片的製造過程之後用金剛石線鋸將矽錠切割成圓片(晶圓),最多可切成5000片,然後對每一片晶圓進行精細拋光。下一步,塗覆一種稱為光刻膠的光敏材料。在正性光刻膠中,暴露在光線下的區域會變弱且更易溶解。如果讓光線穿過帶圖案的掩範本,就可以選擇性地弱化部分塗層。隨後用鹼性溶液沖洗晶圓,洗掉曝光的光刻膠,留下印刻的圖案。為了將這些圖案轉化為物理結構,通常使用學藥品或電漿體蝕刻裸露的矽,然後沉積銅等金屬來填充這些蝕刻線。最後一步是洗掉剩餘的光刻膠,至此,就完成了一層晶片的製作。晶片製造的四個步驟晶片製造的過程可以簡化為四個主要步驟:塗膠、曝光、蝕刻和沉積。每一層晶片都會重複這個循環,根據晶片的不同,可能會有10到100層。底層是電晶體,這是最複雜的一層,需要數百個必須完美的步驟。高層則容易一些,主要是傳輸訊號和電力的金屬線。最後,完成後的晶圓會有數百個晶片,它們隨後被切割成獨立的塊狀,進行封裝並裝入產品中。光刻中的衍射現象在整個過程中,最困難也最關鍵的一步是光線穿過掩範本照射到晶圓上的過程。這就是光刻,因為這一步決定了能把晶片特徵做得多小。當試圖列印越來越小的特徵時,掩範本上的縫隙開始接近光的波長,這就會產生問題。光的衍射變得不可避免。當一個波的波峰與另一個波的波谷對齊時,它們會互相抵消形成了暗點;而當波峰與波峰對齊時,兩波同相,它們會疊加得到亮點。特徵尺寸和數值孔徑設計者不僅不與衍射對抗,反而利用它來獲得所需的圖案。他們根據最終想要在晶圓上得到的圖案進行逆向推導,設計縫隙,使衍射以特定的方式發生。特徵尺寸越小,零級和一級光之間的夾角 α 就越大。因此,透鏡就需要更大,才能捕捉到光線。透鏡的大小由數值孔徑NA描述,即該角度的正弦值。數值孔徑越大,能列印的特徵就越小。縮小波長可以實現更高的特徵尺寸幸運的是,我們還可以通過改變波長來實現更小的特徵尺寸。紅色雷射波長約為650奈米,如果換成波長532奈米的綠色雷射,會發現衍射後綠色的點比紅色的點靠得更近。這是因為來自兩個不同間隙的光不需要移動那麼遠就能再次達成同相。於是衍射級次靠得更近。因此,使用較短的波長,可以用同樣的透鏡列印更小的圖案。DUV之後,遭遇特徵尺寸極限所有這些都被瑞利方程所涵蓋,它決定了最小特徵尺寸或關鍵尺寸。增加數值孔徑有極限(最大為1),繼續縮小特徵的唯一方法就是使用越來越短的波長。這正是直到1990年代後期所發生的事情,當時行業定格在193奈米的深紫外光DUV,這種光被用於製造直到2015年左右所有最先進的晶片。但到那時,科學家們在縮小特徵尺寸方面已經達到了極限。摩爾定律即將撞上一堵磚牆。因此需要一個徹底的變革,一個已經醞釀了大約30年的變革。木下博雄的想法:使用X射線進行光刻早在1980年代,日本科學家木下博雄提出了一個瘋狂的想法:使用更短的波長,比如10奈米左右的X射線。理論上,這能列印更小的特徵。但這種波長的X射線具有足夠的能量將電子從原子中打出來,所以大多數材料都會吸收它們。與波長小於1奈米的醫療用X射線不同,這些波長仍長到足以與空氣發生相互作用,所以空氣也會吸收它們。這意味著木下的裝置必須處於真空中。更糟的是,透鏡也會吸收它。所以看起來這個想法永遠行不通。但在1983年左右,木下偶然看到了一篇由Jim Underwood和Troy Barbee發表的論文。他們的工作集中在能反射4.48奈米波長X射線的特殊鏡子上。這引起了木下的興趣。曲面鏡可以像透鏡一樣聚焦光線。如果他能弄清楚如何為他使用的波長製造這些特殊的鏡子,那麼這可能是進行光刻的另一種方式。Underwood和Barbee的X射線反射實驗鏡子的工作原理大致如下:當光線從一種介質進入另一種介質時(比如從空氣到玻璃),它會發生折射。部分光穿過去,部分反射回來。反射量的多少取決於角度、光的偏振,以及兩種介質折射率之間的差異。差異越大,反射的光就越多。Underwood 和 Barbee 利用了這一原理。他們製造了不到1奈米厚的超薄鎢層,使透射X射線的路徑長度恰好為其波長的四分之一。接著他們加入了另一層碳,它對4.48奈米波長的折射率比鎢高。X射線撞擊介面後部分被反射,相位改變了半個波長。當新的反射波到達鎢層邊界時,它又行進了四分之一波長,總共行進了半個波長。這樣兩個相位相匹配,波發生了相長干涉。他們總共疊加了76個交替層,從而能反射回更多的X射線。雖然他們當時只設法反射了約6%的光,但這是一個原則性的證明,說明了可以反射X射線。木下設計了發射11奈米光多層膜鏡,不被主流認可木下看到了其中的可能性。大約兩年後,他的團隊設計並製造了三面由鎢和碳組成的彎曲多層膜鏡,用於反射11奈米的光。利用這些鏡子,他成功列印出了4微米(4000奈米)厚的線條,證明了在理論上X射線光刻是可行的。一年後,即1986年,他去日本應用物理學會發表了他的研究結果。他既自豪又興奮地解釋了他的裝置並展示了圖像。但聽眾拒絕相信這一切。木下深受打擊。他後來回憶道,人們傾向於把整件事看作是天方夜譚。沒人相信這是一條可行的道路。來自光源和鏡面的雙重挑戰這種反應至少在某種程度上是有道理的。首先,地球上沒有任何自然物能產生這種光,最近的天然來源是太陽。大多數科學家(包括木下)使用粒子加速器或同步輻射裝置來產生X射線。它們能提供巨大的能量,大到像足球場一樣。因此,每台機器都需要自己的動力源。但即便你能產生這種光,還需要製造極其平滑的鏡子來聚焦並列印那些細小的特徵。如果鏡子表面相對於波長非常粗糙,光線就會發生漫反射。對於普通的家用鏡子,凸起的平均高度大約是4000個矽原子的厚度。但對於需要反射X射線的鏡子,需要達到原子級的平滑。平均凸起只能有約2.3個矽原子厚。如果一面鏡子有德國那麼大,那麼最大的凸起也就大約1毫米高。來自美國的技術支援但木下拒絕放棄。很快,援軍從一個意想不到的地方趕到了。太平洋彼岸,舊金山東邊約70公里處是勞倫斯利弗莫爾國家實驗室。這是一個誕生於冷戰時期的實驗室,由美國政府巨額資助,其唯一目標就是核武器。該實驗室由迴旋加速器的發明者歐內斯特·勞倫斯和氫彈之父愛德華·泰勒共同創立。在其整個生命周期中,他們設計了10多種聚變核彈頭。因此,他們的部分研究集中在核聚變反應內部發生了什麼。聚變反應釋放出大量的X射線,那是他們以前從未能捕捉和分析的光。但現在,利用那些特殊的多層膜鏡,他們有了一個機會。Andrew Hawryluk利用多層膜鏡實現X射線反射Andrew Hawryluk是負責這項工作的科學家之一。幾年內,他和他的團隊利用多層膜鏡反射了一些X射線。1987年聖誕,他寫了一篇白皮書,將這些鏡子應用到光刻中,大約五個月後提出了用X射線印刷晶片的發現。他在一次會議上發表了他的研究。但和木下一樣,他也沒得到預期的回應,觀眾的反應極其負面。他感覺自己走到了職業的低谷。但三天後,他接到了貝爾實驗室Bill Brinkman的電話,他是AT&T的執行副總裁,邀請Hawryluk去紐澤西做個報告。在貝爾實驗室,他找到了志同道合的人。在過去的30年裡,美國政府向國家實驗室投資了數十億美元,以在冷戰期間保持國家的技術領先地位。但之後冷戰趨於緩和,這些實驗室掌握著具有商業潛力的研究成果。因此政府鼓勵實驗室與美國公司合作,將研究轉化為產品以刺激經濟。2000年,EUV原型機產生9.8W的EUV光1996年,美國政府削減了EUV項目的資金。這對英特爾這樣的大型晶片公司來說是一場災難。行業估計,193奈米的光刻工具到2005年將落後於摩爾定律,而且當時沒有其他替代方案。於是,英特爾、摩托羅拉、AMD等公司聯合起來投資了2.5億美元以維持項目運轉,這是私營工業界對美國能源部研究項目進行過的最大規模投資。到2000年,實驗室研製出了工程測試台。它是第一台功能齊全的EUV原型機。它能產生9.8瓦、13.4奈米的EUV光,經過八面鏡子從光源反射到掩模再到晶圓。它能列印70奈米的特徵,並證明了EUV是可行的。原型機一小時智能列印10片晶圓但原型機有一個重大缺陷。它每小時只能列印約10片晶圓。而要使EUV具有經濟可行性,它必須每小時列印數百片,且全年全天候運行。產量如此低的主要原因是光線要經過八面鏡子和掩模(掩模也是一面刻有圖案的鏡子)。傳統的透射式掩模行不通,因為它們會吸收所有的光。每面鏡子的反射率約為70%,這已接近極限,但經過九次反射後,最後只剩下4%的光。這意味著每100個光子中只有4個能到達晶圓。少用幾面鏡子只在一定範圍內有效,今天的EUV系統有六面鏡子。但在經過六面鏡子和掩模反射後,仍然只剩大約8%的光。因此,他們需要將光源功率大幅提高到至少100瓦。對大多數公司來說,這十倍的增長似乎是不可能的。甚至參與工程測試的人也指出,雖然EUV技術本身已成定局,但要讓其成為晶片生產線上的現實,還面臨著無數個工程挑戰。美國公司退出EUV開發,ASML獨自前行於是,美國公司一個接一個地退出了完整EUV光刻機的開發。最後只剩下一家公司:阿斯麥ASML。ASML位於荷蘭一個不起眼的小鎮。它在80年代從飛利浦拆分出來時,只有一間簡陋的廠房和一台幾乎無法工作的晶圓步進機。但飛利浦也給了他們人才,ASML 的第一位研究員Jos Benschop和最終成為ASML首席技術官、EUV最堅定支持者的Martin van den Brink。他就是光刻界的史蒂夫·賈伯斯,預見到了EUV的到來。ASML之前加入了美國的 EUV 財團,現在的任務是找到商業化 EUV 的方法。他們將與德國合作夥伴蔡司(Zeiss)合作,蔡司負責鏡子,ASML 負責光源。矽和鉬在13奈米下的最高反射率70%製造任何光刻系統時,首要決定就是使用那種波長。Underwood和Barbee已經製造出了能反射約4奈米光線的鏡子。因為那些鏡子的最高反射率僅為20%左右,經過六面鏡子和掩模後,光線只剩下 0.00128%,這顯然太低了。幸運的是,研究人員還考察了另外兩對組合:矽和鉬,在13奈米波長下理論最高反射率為70%;以及鉬和鈹,在11奈米波長下理論最高反射率為80%。因為鈹具有極高的毒性,且極難處理。因此,科學家們轉而專注於矽和鉬。蔡司使用濺射工藝製造鏡子為了製造鏡子,蔡司使用了一種稱為濺射的工藝。塗層材料的靶材受到電漿體或離子的轟擊,導致原子被彈出、飛出並粘附在鏡面上。這是一個混亂的過程,所以層表面會產生凸起和縫隙。他們完善了一個巧妙的技巧,利用離子束輔助。只需稍微‘搖晃’一下,直到原子掉進它該去的小孔裡,然後整個表面就平整了。放電產生電漿體的方法功率受限鏡子設計確定後,ASML需要一個特定波長的光源。基本上有三種方法來產生EUV。早期研究人員使用的第一種方法是同步輻射,但由於每台機器都需要自己的獨立光源,它很快就被排除了。另外兩種方法基於相同的原理。當電子與離子復合時,離子會下降到較低的能級,並以光子的形式釋放多餘能量。如果選對了離子,那麼光子的波長恰好就是你需要的。有兩種方法可以產生這些離子。第一種是將金屬加熱直至產生金屬蒸汽,然後在其兩端施加強電場。這會導致自由電子撞擊附近的原子並使其電離。如果此時關閉電場,電子與離子復合產生光。這就是放電產生電漿體DPP。這是ASML最初使用的概念,因為它相對簡單。但只能達到了幾瓦的功率,無法達到期望的100瓦。最終選擇高功率雷射撞擊目標材料產生EUVASML需要徹底改變方案,於是轉而採用第二種方法。這種方法使用高功率雷射撞擊目標材料,產生超過22萬℃的高溫電漿體。電子能量極大,以至於原子核再也無法束縛它們,多達14個電子脫離軌道。雷射關閉後,電子和離子復合產生光。這就是雷射產生電漿體LPP,也是唯一看起來具有可擴展性的方法。事實上,這正是之前工程測試台所使用的方法,用一台1700瓦的雷射器射入氙氣流中,產生13.4奈米的光。使用錫滴替代氙氣但氙氣有一個大問題:轉換效率非常糟糕,只有約0.5%。這是因為氙雖然在13到14奈米範圍內發光,但它在11奈米左右釋放的光更多。所以大部分能量都用來製造鏡子無法反射的光了。此外,雷射並沒有電離所有原子,剩餘的中性氙原子會強烈吸收部分13.4奈米的EUV光。於是 ASML開始研究另一種材料:錫。錫在13.5奈米左右有一個高得多的發射峰,其轉換效率比氙高出5到10倍。但與氙一樣,中性錫原子也會吸收EUV光。於是他們想出了一個瘋狂的主意:每次只發射一個微小的錫滴。但為了獲得所需的功率,必須每秒製造並擊中數萬個錫滴,且所有液滴的形狀和大小必須完全一致。通過精密調製,產生完美的錫滴事實證明,無法瞬間製造出數千個完全相同的錫滴。於是他們找到了一個折中方案。為了製造液滴,極純的錫被熔化,並通過高壓氮氣推過一個微型噴嘴。這個噴嘴以高頻振動,將液流破碎成微小的液滴。這些液滴起初在大小、形狀、速度和間距上都是不規則的,整個過程非常混亂。他們的秘密武器就是如何調製這股錫噴流,使其形成想要的、穩定的液滴。看起來噴嘴射出的所有液滴最初都是不規則的,但在到達雷射擊中點之前,這些不規則的小液滴會聚合在一起,形成間距完美、規則且大小形狀一致、速度相同的液滴。每秒產生5萬個高速錫滴這些液滴不僅必須完全相同,還必須移動得飛快。如果下一個飛來的液滴離得太近,它就會受到干擾並破壞下一次電漿體激發。所以ASML既要求每秒產生5萬個液滴,又要求它們飛行速度極快。到2011年,他們的雷射產生電漿體光源達到了11瓦,比之前的光源翻了一番。但他們仍受限於每小時僅5片晶圓的產出。他們需要快速提高功率,因為他們承諾到2011年底達到每小時60片晶圓的產出。使用氫氣處理剩餘的錫,保證鏡面清潔ASML這種新方法有一個重大缺陷。錫的問題在於,雖然能以很高的效率產生EUV光。需要處理剩下的錫,因為就在30釐米外,就放著蔡司製造的原子級平滑、非常精美且昂貴的鏡子。那怕只有1奈米厚的錫掉在集光鏡上,那面鏡子就報廢了。這些機器需要運行一年,ASML需要讓它在一年內保持近乎完美的清潔。他們用到的主要的工具實際上是氫氣。他們在腔體中充入低壓氫氣,可以減緩並冷卻錫顆粒。即使有些錫落到了集光鏡上,氫氣也會將其剝離,形成一種叫做甲錫烷的氣體。這樣機器在運行的同時也在進行自我清潔。但這些氫氣也會因為那些錫爆炸而變熱。因此,他們需要不斷向系統中注入新的、更涼爽的氫氣,同時排出甲錫烷和過熱的氣體。壓力和流速控制必須恰到好處。氫氣太少,鏡子會變髒;氫氣太多,不僅會吸收過多的EUV光,還會導致系統過熱。需要以360km/s的速度沖洗氫氣為了搞清楚有多少能量沉積在氣體中,我們買了一個超高速攝影機。他們觀察到,在每次電漿體激發後,都有一道衝擊波傳播到氫氣中,而且重複性極高。於是有了泰勒-馮·諾依曼-謝多夫公式,它能解釋從核爆炸到超新星爆發等各種環境下的點源爆炸。ASML團隊用這個公式,完美契合了資料。EUV光源每秒發生5萬次這種微型超新星爆發。利用這些能量計算,他們發現需要以約每小時360公里的速度沖洗氫氣,那比五級颶風還要快。“ASML EUV光刻機背後的神奇故事”蔡司即時測量鏡面角度,實現高精度控制但2012年過去了,他們仍然沒有足夠的功率。事實上,到2013年,ASML通過每秒射擊5萬個錫滴才剛達到50W。但功率增加也帶來了代價:功率越高,熱量越高。熱量最終會導致鏡子發生輕微偏移,導致光線失準和晶片層錯位。於是蔡司直接在光學系統中內建了一套神經系統,利用機器人引導的感測器即時測量每面鏡子的精確位置和角度,精度達到奈米級和皮弧度級。這種精度相當於在地面發射移到雷射到月球表面,控制雷射從月球表面一枚硬幣的一側移到另一側。這讓他們在功率增加的情況下也能控制光線。在EUV尚未成功時,就押注High NA EUV儘管蔡司在光學方面做得極其出色,ASML仍在為動力源苦苦掙扎。問題在於錫滴密度太大,這意味著大部分發射出的EUV光在到達集光鏡之前就被中性原子重新吸收了。他們轟擊液滴的方式光線不夠,碎片太多。更糟糕的是,他們預見到大約10年後將需要新一代機器——高數值孔徑(High-NA)EUV機,這種機器擁有更大的光學系統,能列印更小的特徵。他們不僅全部押注在EUV上,而且在還沒確定它能否成功之前就加倍下注。要求主要客戶投資研發但為了維持開發,他們需要巨額資金。於是ASML 聯絡了它的主要客戶,告訴他們得通過向ASML投資來讓他們能投更多錢。英特爾投資了約41億美元,三星和台積電合起來又投資了13億美元。研發得以繼續,但由於拿不出產品,客戶的耐心正在耗盡。他們在每次會議上都被‘公開處刑’,因為去年承諾的事情沒能兌現。他們會說:這是你兩年前展示的,這是你去年展示的,這是你今年告訴我的。我憑什麼相信你?”轉機:兩次雷射打擊錫滴開發團隊開始變得絕望,2013年ASML仍掙紮著提高EUV功率。最終轉機來自於改變雷射擊中錫滴的方式:不再只打液滴一次,而是打兩次。“第一槍擊中液滴,使其膨脹成薄餅狀。然後才發第二槍,即更強大的主脈衝,將其蒸發並轉化為電漿體。”這是一個重大突破。通過將目標從液滴改為薄餅狀,為雷射蒸發提供了更大的表面積,且沒有增加額外碎片或中性原子的代價,因為現在錫滴是一次性被蒸發的。到2014年,他們終於達到了夢寐以求的100W大關。使用雷射幕簾,精確擊中每個錫滴但隨著193奈米多重曝光技術的改進,意味著EUV只有在達到200瓦且每小時產出125片晶圓時才有價值。其中一個問題是,如何完美計時雷射以擊中每個液滴。這就像是你要讓一個高爾夫球落在200米外的小洞裡,不是落在果嶺上滾進去,而是直接空心入洞,每一次都要中。那些錫滴穿行在氫氣流的大漩渦中,速度極快,就像在龍捲風中射高爾夫球,然後在它降落在洞口的一瞬間被雷射擊中。為了追蹤液滴,ASML使用了雷射幕簾,可以監測液滴何時穿過。那些散射的光子會告訴他們液滴何時何地出現。從而精準告知何時發射雷射。通過真空中注入適量氧氣,讓集光鏡保持更久的清潔隨著光源功率的提升,在開始製造機器之前還有一個最後的問題需要解決。雖然氫氣保護了集光鏡免受碎片的侵害,但它並不完美。密集的高能光子和氫離子到處亂竄,損壞了集光鏡上的一種特殊頂層塗層。導致他們每10小時就得清洗一次鏡子,這對生產效率來說太糟糕了。Martin van den Brink每天都詢問進度。後來一位工程師注意到,每次他們打開機器時,鏡子突然顯得乾淨了一些。他由此受到啟發,提出給系統加入一點點氧氣,或許就能確保集光鏡能保持更久的清潔。於是他們開始實驗真空環境下所需的氧氣量,最後得出了結論:加入特定量氧氣,就能讓集光鏡保持更久的清潔。有了這個修正方案,ASML的機器可以連續運行更長時間,終於具備了商業可行性。2016年,開始交付EUV到2016年,訂單開始接踵而至。現在所有最先進的晶片都需要ASML的機器,這使他們或許成為了世界上最重要的科技公司。ASML的首批商業化機器數值孔徑為0.33,可以列印13奈米的線條。這些被稱為低數值孔徑機器,ASML目前仍在製造。但Jan的團隊早在2012年就開始研究的是下一代,它擁有更大的光學系統,能列印更小的特徵。這就是高數值孔徑EUV,數值孔徑達到0.55。單台價格超過3.5億歐元。人類第一台High NA EUV這是人類建造過最先進的機器。歷經多年、數十年的研發和數百億美元的投入,才造就了這個龐然大物。這是第一台High-NA機器。人類歷史上列印出的第一批8奈米線條,就是出自這台機器。地球上最平滑的物體全都在這台機器裡面。雷射系統被棕色的櫃子蓋住,但ASML展示了一個模型版本。一個功率僅幾瓦的二氧化碳雷射器進入這個放大器,在裡面來回反射,直到功率增加到原來的五倍。隨後它要經過總共四個不同的放大器,使最終的雷射達到20000瓦,這比切割鋼材的雷射還要強四倍。實現每秒10萬錫滴的雷射打擊ASML第一代EUV機器與最新一代之間的一個改進是擊中液滴的脈衝數量。第一個預脈衝仍將液滴壓扁成薄餅狀,但現在有了第二個預脈衝進一步降低其密度。它基本上將其變成了低密度氣體,使其稀疏化。然後最後的脈衝基本上將其全部電離。這樣,對於驅動雷射器輸出的相同功率,他們能獲得更多的EUV光。ASML目前出貨的最新EUV光源大約在500W水平,他們將頻率提高到了每秒60000次。他們的路線圖是朝著每秒10萬個液滴進發。他們現在已經在實驗室演示了每秒10萬個液滴。所以這不再是是否的問題,而是何時的問題。太瘋狂了。目前出貨的高數值和低數值孔徑機器都使用三個脈衝,並最終將擊中更多的液滴。EUV光源只是完整機器的一小部分但光源只是完整機器的一小部分。EUV光在集光鏡反射後,進入照明器。一組鏡子在光線撞擊掩範本之前對其進行整形和聚焦。掩範本位於上半部分,這個模組是在單獨的設施中建造並稍後安裝的。接著光線進入投影光學箱,這是一組縮小光線的鏡子。高數值孔徑機器可以在垂直方向將圖案縮小八倍,在水平方向縮小四倍。鏡子也更加平滑。如果低數值孔徑的鏡子有德國那麼大,最高的凸起約1毫米。但如果高數值孔徑的鏡子有世界那麼大,最高的凸起只有一張撲克牌的厚度。通過這些改進的結合,ASML將數值孔徑從0.33提升到了0.55。最後,光線撞擊晶圓。為了達到每小時列印185片晶圓的速度,掩範本以超過20g的加速度來回抽動。這超過了F1賽車加速度的五倍。這是機器內部的實際影像,不是加速播放。EUV機器需要實現驚人的精度,層間偏差小於1奈米這台機器最瘋狂的地方不在於掩範本移動得有多快,甚至不在於它能列印多小,而是它必須達到的驚人的精確度。任意兩層之間允許的最大偏差(即套刻精度)是1奈米。這是五個矽原子的精度。通常ASML系統工程師會做一個預算。整體允許誤差一奈米,然後他們將這一奈米再細分下去到每個小組。每個小組為屬於他們的那部分奈米而奮鬥。EUV光刻機充滿了迷人的反差感:如此巨大的機器、這麼多的基礎設施,只為了製造人類能規模化製造的最小的東西。你想去的地方越微觀,周圍的一切就變得越宏觀。需要7架波音747、25輛卡車運輸機器組裝、測試並獲批後,會被拆解運往世界各地。5000家供應商提供10萬個零件、3000根電纜、4萬個螺栓和2公里的軟管。ASML運輸一台高數值孔徑機器需要250個集裝箱,分裝在25輛卡車和7架波音747貨機中。儘管充滿了懷疑和挫折,EUV終於在木下博雄拍下第一張圖像30年後進入了製造領域。但即便在全世界幾乎都不相信它能成功的時候,ASML的一些人早在2001年就預見到它能行。為了讓EUV成功,他們克服了成千上萬個障礙,奮鬥了30多年。這不由得讓人想起一句話:理性的人讓自己適應世界;而不理性的人堅持讓世界適應自己。因此,所有的進步都取決於那些不理性的人。 (梓豪談芯)
超越摩爾定律的晶片新世界
超越摩爾定律的晶片新世界:先進封裝More than Moore:-- “ from Words to Worlds”的晶片新世界你有沒有想過,我們日常使用的AI工具,比如能寫詩的ChatGPT,能畫圖的Midjourney,它們把我們的“想法”(Words)變成真實可見的“內容”(Worlds),到底需要什麼?答案是:超乎想像的算力!在過去的半個世紀裡,晶片工業只做一件事:把電晶體做得越來越小。這就像在一張無限大的紙上,把文字越寫越密,這就是著名的摩爾定律(Moore)。但現在,這張“紙”快寫滿了,筆尖也細無可細。我們的晶片,正在撞上一堵物理之牆。去年11月,我讀了李飛飛發表的文章《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》並分享了學習筆記。在李飛飛的長文中,將空間智能定義為 AI 的下一個前沿,然而單純依靠現有技術遠遠不夠。為了讓AI的“from Words to Worlds”之旅繼續下去,晶片工業必須找到新的出路。於是,一場從“平面鋪開”到“立體堆疊”的革命悄然發生。我們不再死磕“更小”,而是走向“更高”、“更密集”——這,就是超越摩爾定律(More than Moore)的時代。一、 物理學的牆:為什麼晶片“玩不動”了?AI就像一個永不滿足的“大胃王”,它吃的資料量和需要的計算力,正在把傳統晶片逼到崩潰邊緣。具體來說,晶片遇到了三堵“難關”:1.  “發燒牆”:晶片熱得快熔化了想像一下,在指甲蓋大小的面積上,擠著幾百億個微型“CPU”,它們同時全速運轉,產生的熱量密度比家裡的電熨斗還高!傳統的晶片基底(就像晶片的“底板”)導熱能力有限,根本來不及散熱。晶片一旦過熱,就會變慢甚至“罷工”。這嚴重限制了AI算力的進一步提升。2.  “堵車牆”:資料跑得太慢了晶片內部就像一座繁忙的城市,CPU是市中心,記憶體是郊區倉庫。傳統上,CPU取資料要跑很遠的路,就像城市交通經常“堵車”一樣。資料傳輸耗時又耗電,拖慢了整個AI計算的速度。3.  “原子牆”:小到不能再小了當電晶體小到奈米等級,已經接近原子的尺寸。電子不再老老實實地待在電路里,而是會像“幽靈”一樣隨意“穿牆而過”(專業術語叫“量子隧穿”)。這會導致電路不穩定,性能反而下降。所以,光靠“縮小”這條路,真的走到頭了。二、 結構學的解:給晶片“蓋摩天大樓”既然“平面鋪開”不行,那就“向天空要空間”!先進封裝,就是給晶片“蓋摩天大樓”。它不再是簡單地把晶片“包起來”,而是通過精巧的設計,把不同的晶片垂直堆疊、緊密連接起來。(配圖:“摩爾定律極限”的擁擠與過熱 Vs“超越摩爾定律”的先進封裝帶來的清涼與高效)從“平房”到“摩天大樓”:垂直堆疊的魔術我們把CPU(處理器)、GPU(圖形處理器)、HBM(高頻寬記憶體)這些原本平鋪的晶片,像樂高積木一樣一層層“蓋”起來。這靠的是什麼技術呢?矽通孔(TSV):可以想像成在晶片之間打通無數根微型“電梯井”,讓資料可以直接“上上下下”,傳輸距離從幾釐米縮短到幾微米!混合鍵合(Hybrid Bonding):這是一種超精密的“銲接”技術,能把不同晶片嚴絲合縫地粘在一起,讓它們工作起來就像一個整體。通過這種“垂直進化”,資料傳輸速度提升了百倍,功耗也大幅降低,完美解決了“堵車牆”的問題。從“水泥”到“特種鋼”:為“摩天大樓”選新材料傳統的晶片底板(矽中介層)就像普通水泥,扛不住AI計算的“高燒”。所以,我們正在尋找更耐熱、更穩定的“特種鋼”來做“地基”:碳化矽(SiC):它的導熱能力是傳統矽的3倍多!就像給晶片穿上了一層“特種盔甲”,特別適合那些超級發燒的AI晶片,能把熱量迅速導走。玻璃基板(TGV):別小看玻璃,這種特殊玻璃不僅平整度極高,絕緣性好,還能做得更薄,承載更多更密的電路。像英特爾(Intel)這樣的巨頭,就看好它成為下一代晶片的“超級底板”。三、 經濟學的帳:誰在為AI的“新世界”鋪路?在以前,封裝只是晶片製造流程中不起眼的“收尾工作”。但現在,它已成為AI晶片性能的關鍵。如果說在“More Moore”時代,光刻機是晶片行業的“皇冠”;那麼在“More than Moore”時代,先進封裝就是皇冠上那顆越來越閃耀的明珠。當一顆AI晶片近一半的性能提升和成本增量,都來自於先進封裝時,這個賽道自然成了兵家必爭之地。這正是中國半導體企業,在某些領域實現“彎道超車”的關鍵機遇!以下是A股在這個領域有硬實力的代表企業(僅為行業觀察,不構成投資建議):1. 蓋樓的總包商:晶片封裝的“國家隊”長電科技 (600584):國內晶片封裝龍頭老大,全球排名前三。他們掌握了XDFOI等最先進的2.5D/3D封裝技術,就像擁有了給晶片蓋“超級摩天大樓”的全套圖紙和施工能力。通富微電 (002156):它跟AI晶片巨頭AMD深度合作。AMD的AI晶片賣得越好,通富微電的訂單就越多,就像繫結了一個“大客戶”,旱澇保收。2. 蓋樓的材料商:晶片“底板”的創新者深南電路 (002916) / 興森科技 (002436):它們生產的ABF載板,是連接晶片和電路板的關鍵“底板”,就像摩天大樓的堅實地基。目前全球高端載板主要被日韓台壟斷,這兩家公司正在努力打破這種局面。沃格光電 (603773):他們正在研究玻璃基板技術。如果說傳統的晶片底板是“普通磚頭”,那麼玻璃基板就可能是未來的“透明鋼材”,代表著行業最前沿的技術方向。3. 蓋樓的裝置商:晶片“連接”的“超級工匠”拓荊科技 (688072):在晶片製造中,有一類裝置叫“薄膜沉積裝置”,是用來在晶片表面“刷油漆”的,非常精密。拓荊科技就是這個領域的專家,他們的裝置是實現晶片間“無縫連接”的關鍵工具。芯源微 (688037):在晶片封裝中,需要把很多微小的“點點”連接起來。芯源微就是提供這種“點膠”和“顯影”裝置的,它們能把晶片之間的連接做得更精細、更可靠。 (晚笙筆記)
【CES 2026】黃仁勳的推理戰爭-AI推理成本暴跌90%
上一會還在沉浸在機器人,車機在 CES 的震撼(見當科技停止講故事,開始拼執行力:從 CES 2026,看全球科技進入“現即時代”),下一秒拉斯維加斯的CES展會剛結束,那個永遠穿黑色皮衣的老黃——黃仁勳,又讓整個科技圈坐不住了。這次他沒有再站在台上喊"我們的算力有多強",而是拋出了一個更實在的問題:"用AI太貴了,得降價。"聽起來有點像淘寶商家的思路?但這次不一樣。當大家還在為搶到NVIDIA上一代晶片擠破頭時,他直接甩出了下一代平台——Rubin。更關鍵的是,他喊出了一句話:訓練AI的戰爭結束了,接下來打的是推理戰爭。(圖片來源@dotey)01 什麼是"推理戰爭"?先說個簡單的例子。想像你在學開車。"訓練"就是駕校教練一遍遍教你的過程,需要時間和教練的精力。AI公司這幾年就是這麼幹的——砸錢買幾萬塊GPU,沒日沒夜地訓練模型。"推理"就是你自己開車上路,每次看到紅綠燈做判斷、遇到行人踩剎車。這才是AI真正被使用的時候。過去三年,科技巨頭們瘋狂干的事就是"訓練"——花大錢、用成千上萬塊GPU,把ChatGPT、Claude這些模型訓練得越來越聰明。但問題來了:模型是聰明了,真正用的時候太貴了。就像你花100萬請了個世界冠軍教你開車,結果每次出門還得再付100塊"使用費"。出門一趟兩趟還好,天天誰受得了?這就是黃仁勳要解決的問題:讓AI真正用得起。這次CES上,他沒再吹"我們的晶片有多牛",而是一直在講"怎麼把成本打下來"。Rubin平台這次能做到什麼程度?同樣的AI任務,成本只要原來的十分之一。以前花1美元能做的事,現在10美分就夠了。什麼概念?就像你原來打一次車要100塊,現在降到10塊,原本偶爾打打車,現在可能天天打都無所謂。只有算力便宜到這個份上,AI應用才能真正爆發。02 Rubin是怎麼做到的?NVIDIA這次玩了個新花樣。以前顯示卡時代,大家都想著怎麼把單塊顯示卡做更強。有點像小時候搭積木,總想著搭個最高的塔。但黃仁勳說:單塊積木再高也有限制,不如搭個"團隊"。所以Rubin平台一口氣放出了6塊不同的晶片:Rubin GPU:負責"計算"的大腦Vera CPU:負責調度的管家NVLink 6:連接所有晶片的高速公路還有其他幾塊專門負責網路、資料流動的晶片這6塊晶片不是隨便湊一起,而是像一支配合默契的足球隊——前鋒、中場、後衛、守門員各司其職,比一個人單打獨鬥強多了。最終結果呢?整個平台的推理性能達到上一代的5倍。成本反而降到了1/10。這就是"團隊作戰"的威力。特別要說一下NVLink 6。精準地說:NVLink 6是連接多塊GPU的"高速公路",頻寬達到3.6TB/s。它讓多塊GPU能像一塊一樣協同工作,是實現相較於上一代有"5倍性能提升"的關鍵一環,但不是唯一因素。整個5倍提升是6塊晶片一起發力的結果。有點像裝修房子:NVLink 6是寬敞的走廊,讓各房間連接順暢但房子好不好用,還得看客廳、臥室、廚房怎麼配合03 讓AI學會"思考"光有便宜的算力還不夠,AI還得"聰明"。之前很多自動駕駛AI像什麼?像只會條件反射的蟲子。看到紅燈停,看到綠燈行,遇到沒見過的情況就懵了。NVIDIA這次開放原始碼的Alpamayo模型,想教AI學會"思考"。什麼意思?想像你在開車,突然遇到一個壞掉的紅綠燈——既不紅也不綠,就那麼黃燈閃啊閃的。條件反射式的AI會怎麼做?可能直接卡住,因為"題庫"裡沒這題。但真正會"思考"的AI會琢磨:周圍的車在幹嘛?大家都在慢慢通過,看來可以走。但要小心點,隨時準備剎車。這種"琢磨"的過程,就是Alpamayo想教給AI的能力。它加入了"思維鏈"功能,讓AI不再是死記硬背,而是學會像人一樣推理。有人說得挺形象:以前的AI是背題庫,Alpamayo是教機器解題的方法。更關鍵的是,NVIDIA把這個模型開源了——相當於把解題思路免費公開,讓誰都能拿去用。為何這麼做?用黃仁勳的話說:軟體都免費了,開發者想用好,自然就得買NVIDIA的硬體來跑它。這招挺聰明的。就像印表機廠家把印表機賣得很便宜,靠賣墨盒賺錢。NVIDIA是把"墨盒"免費了,但你要用還得買它的"印表機"。04 這對普通人意味著什麼?說了這麼多,跟普通人有啥關係?如果你是個使用者:以後你用的AI應用可能會更便宜。因為算力成本降了,那些靠AI生成的圖片、視訊、客服聊天,價格都可能跟著降。如果你是個開發者:搭AI應用的成本會大幅降低。以前可能因為太貴不敢做的項目,現在可以試試了。而且NVIDIA開源了Alpamayo,你可以直接拿去用,不用從零開始。如果你是投資者:NVIDIA在賭下一個大方向:AI從"實驗室"走向"真實世界"。你看它這次和奔馳合作,直接把整套自動駕駛系統裝到2026年上市的CLA車型上。還在往人形機器人領域使勁。ChatGPT只是AI的開始,真正的大市場是那些能跑、能跳、能幹活的機器。總之,AI可能真的要從"昂貴的高科技玩具"變成"像水電一樣的基礎設施"了。至於這一天什麼時候真正到來?那就看Rubin平台2026年下半年正式出貨後的表現了。05 摩爾定律慢下來了,黃仁勳沒有摩爾定律說的是晶片性能每18個月翻一番。但現在這個定律已經明顯慢下來了——物理快到極限了。但黃仁勳沒有等。從Hopper到Blackwell,再到現在的Rubin,NVIDIA的節奏從來不是等摩爾定律來推自己,而是自己去推摩爾定律。這次CES傳達的訊號很明確:造更聰明的AI時代過去了,接下來要讓AI用得起。這才是AI真正走進千家萬戶的開始。 (白羊武士弗拉明戈)
系統級摩爾定律:推理時代 NVIDIA×Groq 的真實含義,光進銅退的再加速
過去半個世紀,“摩爾定律”幾乎是科技行業最強的敘事武器:把更多電晶體塞進一顆晶片,性能更強、成本更低,世界自動向前滾動。但到了 AI 時代,尤其進入大模型推理成為主戰場之後,這套敘事正在發生一次深刻升級——摩爾定律從“晶片內部”擴展為“系統工程”。如果說過去的摩爾定律在追求“每平方毫米更多電晶體”,那麼 AI 時代的摩爾定律更像是在追求:單位時間產出更多 token(token throughput),並且這條曲線要能持續向上。而 token throughput 的提升,早就不再是單顆 GPU 的問題,它是一整座“AI 工廠”的問題:晶片、HBM、封裝、PCB、供電散熱、機櫃內互聯、機櫃外網路,以及軟體如何把這些組織起來、調度起來,讓系統始終跑在“最短板”之上。在這個框架下,NVIDIA×Groq 的合作/交易(無論最終形態是什麼)更值得被理解為:推理時代的一次“系統級加碼”,而不是“解決某個供應鏈瓶頸”的神蹟。一、先把交易定性:不是“買產能”,更像“推理能力授權 + 關鍵人才併入 + 生態介面補強”市場上最常見的誤讀,是把這類交易想像成“為了補齊 CoWoS、HBM、電力”等供給瓶頸而做的資本動作。現實更複雜。公開披露資訊顯示,這一合作/交易的核心是推理技術的非獨家授權,並伴隨 Groq 核心人員加入 NVIDIA 推進相關技術的規模化落地,Groq 公司仍獨立營運。換句話說,它更像是在為 NVIDIA 增加一條推理時代的“技術路線選項”,並把關鍵經驗與人才納入自己的產品化體系,而不是直接改變封裝產能、HBM 供給這類供應鏈事實。這一定性非常關鍵:因為它將討論重心從“供給約束”拉回到“推理範式”。二、AI 時代的“系統級摩爾定律”:為什麼摩爾定律必然外溢到 PCB、機櫃和互聯?推理系統的吞吐,本質上受制於一個非常樸素的三角形:算、存、傳。算(Compute):算力夠不夠、計算單元是否被喂飽存(Memory):權重/啟動/KV 的訪問是否形成記憶體牆傳(Communication):跨卡、跨 tray、跨機櫃的資料交換是否堵塞這個三角形的殘酷之處在於:只要把其中一條邊推上去,瓶頸就會遷移到另一條邊。因此推理時代的競爭,必然從 GPU 單點性能擴展到系統工程能力:互聯拓撲、網路頻寬密度、功耗與可靠性、軟體抽象與調度策略,都會變成吞吐曲線的一部分。這也解釋了為什麼 NVIDIA 的“摩爾定律”會被改寫成系統級版本:它追求的不是單晶片 transistor scaling,而是整座 AI 工廠的 token scaling。三、MoE 推理的結構性事實:天然需要“權重分層”(Weight Hierarchy)如果要理解“Groq 的 SRAM 路線”為什麼會在推理時代顯得格外有價值,必須先抓住當下主流模型架構之一:MoE(Mixture of Experts)。MoE 在推理側的關鍵特徵是:權重訪問天然分成兩類。1)always-on 的熱權重:每個 token 都必須執行的部分dense 層shared experts(共享專家,層層必跑)2)sparse-on 的冷權重:按路由稀疏啟動的部分routed experts(例如從 256 個裡選 top-8)啟動更隨機、訪問更像“按需取用”於是,一個極其工程化、極其自然的推理加速方向出現了:把 always-on 的熱權重常駐在更近、更低延遲、更高頻寬的儲存層(比如 SRAM/近儲存),把 routed experts 留在 HBM 或更遠端,並用熱度快取/複製策略最佳化。這件事的目標不是“省 HBM”,而是更直接的兩件事:降低 latency(減少權重搬運等待)提高穩定吞吐(HBM 頻寬從“啥都搬”變成“只搬稀疏部分”)可以把它理解為:CPU 時代的 cache hierarchy,在 MoE 時代升級為 weight hierarchy。四、用 DeepSeek V3 做一次“量級校驗”:為什麼“3–4GB FP8 熱權重集合”是硬體形態演化的抓手?推理討論最怕缺乏量級感。這裡用 DeepSeek-V3(總參 671B、每 token 啟動 37B,MoE 架構)做一次可復算的量級校驗。結合典型實現參數(hidden=7168,MoE FFN 的 intermediate=2048,約 58 個 MoE 層 + 3 個 dense 層;每 MoE 層 1 shared + 256 routed;每 token top-8 路由),可以得到一個關鍵結論:always-on 的熱權重集合本身就是 GB 級。1)shared experts(跨 58 層)的 FFN 主權重規模門控 FFN(如 SwiGLU)的一個 expert,近似包含三塊矩陣:up、gate、down。每層 shared expert 參數量約為:Params ≈ 3 × hidden × moe_intermediate= 3 × 7168 × 2048≈ 44M / 層58 層合計:44M × 58 ≈ 2.55B 參數2)3 個 dense 層的 FFN 主權重規模dense 的 intermediate 更大(約 18432):Params ≈ 3 × 7168 × 18432≈ 396M / 層3 層合計 ≈ 1.19B 參數3)合計熱權重集合(FFN 主體)≈ 3.74B 參數2.55B + 1.19B ≈ 3.74B 參數按 FP8 粗算 1 byte/參數:≈ 3–4GB 量級(不同實現是否包含量化中繼資料會有小幅偏差)這個量級的意義非常關鍵:大到:普通意義上的 L2/L3 cache 解決不了問題小到:如果系統存在某種近儲存層/推理專用駐留層,讓這 3–4GB 常駐,就非常有吸引力換句話說,MoE 推理天然提供了一個“熱權重集合”的明確對象——這就是推理硬體形態演化最容易抓住的把手。註:估算聚焦 FFN/expert 權重,是因為 MoE 推理權重搬運的大頭集中在專家 FFN;注意力部分在不同架構(如低秩投影/MLA 等)下可顯著壓縮,不改變熱權重集合為 GB 級這一判斷。五、“Groq 式 SRAM/近儲存能力”的合理落點:推理專用“熱權重層”,不是取代 GPUGroq 長期強調片上 SRAM 帶來的高頻寬與流水線式推理執行。把這一點放到 NVIDIA 的系統工程語境裡,最符合邏輯的推斷並不是“把 NVIDIA 變成 Groq”,而是:為推理系統增加一層 熱權重近儲存/專用駐留層讓 GPU 更容易被喂飽,提高有效 token/s通過軟體抽象層把這種形態納入 NVIDIA 生態,降低開發與遷移成本這裡關鍵不是“SRAM 這個名詞”,而是:更近、更低延遲、更高頻寬的權重層。至於它長在 GPU 封裝裡、長在板上、長在 tray 上,或者以某種異構加速單元形態出現,都屬於工程實現的分叉路線;但動機與收益目標是清晰的:推理提速。六、最重要的鏈式反應:計算效率上升 → 互聯壓力上移 → 光進銅退可能再加速一旦熱權重常駐近儲存,使推理端的“記憶體牆”變薄,系統會進入典型的再平衡過程:單節點有效 token/s 上升(等待變少、計算更“吃飽”)同時間裡生成更多 token,平行請求更大MoE 路由與跨卡/跨節點組織開銷佔比上升為繼續擴吞吐,系統平行度向外擴:卡內 → tray 內 → 機櫃內 → 機櫃間互聯成為新短板:頻寬密度、距離、功耗與可管理性壓力增大銅在更高頻寬與更長距離下更快觸頂,光的滲透被動加速因此,“推理提速→互聯升級→光進銅退”的邏輯並不是口號,而是一條相對自洽的系統工程鏈條:推理加速的盡頭往往不是算力,而是互聯;當計算更快,互聯必須更快。這也解釋了為什麼很多人只盯著 GPU 出貨,會低估光通訊的“二階彈性”:計算端效率提升,會讓通訊需求斜率變陡,從而推高機櫃內/機櫃間頻寬升級的緊迫性。七、投資對應:系統級摩爾定律下,那些環節更容易成為“增量受益”?如果把“推理吞吐持續提升”作為主線,那麼產業鏈受益往往不是單點,而是鏈式擴散。1)機櫃內互聯:從“銅還能撐一撐”走向“更早換光”頻寬密度更快觸頂距離、損耗、功耗與可維護性讓銅在高階速率下更尷尬光在機櫃內滲透有可能被動加速2)機櫃間網路:更高階速率光模組與交換體系token/s 上升帶動跨節點平行更深scale-out 網路更容易成為系統短板交換晶片、光模組速率升級與拓撲最佳化的需求更強3)PCB/連接器/電源散熱:系統密度提升的“基礎設施”計算更密,供電散熱與板級設計更關鍵可靠性與可維運性成為規模化推理的隱性門檻4)軟體與調度:最終決定“硬體是否兌現吞吐”MoE 路由、批處理、快取/複製策略跨卡/跨節點通訊編排統一抽象層(生態介面)帶來的鎖定效應如果說訓練時代的核心是“買更多 GPU”,那麼推理時代的核心越來越像“買系統、買網路、買軟體”。八、風險提示與可證偽點:那些前提不成立,推演就要改寫?為了避免過度演繹,有必要把邊界條件講清楚:MoE 未必長期絕對主導:結構變化會改變“熱權重集合”的形態近儲存不必然是 SRAM:實現路徑可能多樣,關鍵是“更近的權重層”專家不必然跨機櫃:現實系統會優先局部化、熱專家複製,跨櫃更多是邊界情況收益受制於軟體調度:硬體再優,調度若跟不上,吞吐不會線性提升TCO 約束:電力、散熱、網路、維運、良率與供給鏈會共同決定最優點這些因素決定了:相關判斷應被視作“方向與機制”,而不是確定性預告。結語:NVIDIA×Groq 更像推理時代的“系統級選項”,而不是供應鏈神話當摩爾定律升級為系統級摩爾定律,推理競爭的核心就從“單點性能”轉向“系統吞吐曲線”。MoE 推理所暴露出的“熱權重集合”與“權重分層”需求,為近儲存/推理專用駐留層提供了清晰抓手;一旦推理效率上升,互聯壓力上移,機櫃內與機櫃間的頻寬升級與光滲透加速也更可能成為連鎖反應。因此,NVIDIA×Groq 的意義更接近:推理時代的一次系統級加碼——未必立刻改變供給,卻可能在下一代推理範式與異構硬體生態的介面層與方法論層面,提前佔住高地。(彼得全球科技觀察)
黃仁勳沒瞎說,摩爾定律的喪鐘響了?但有4條路能破局...
2025年底的輝達發佈會上,黃仁勳一句“摩爾定律已死”,讓台下的行業大佬們集體沉默。不是質疑,是默認。那種複雜的沉默裡,藏著對一個時代落幕的悵然,也藏著對未知的忐忑。我們這代人,早已習慣了算力的“免費午餐”。手機一年比一年快,電腦效能翻番價格卻降半,甚至當年登月用的超級電腦,算力還不如現在口袋裡的手機。這一切,都源於摩爾定律。可它真的停了嗎?新的算力時代,又該靠什麼撐起來?我們薅了幾十年的摩爾定律紅利,到底是什麼?1965年,英特爾創始人戈登·摩爾隨手畫了條曲線,提出一個大膽預測:積體電路上的電晶體數量,每18到24個月就翻一番。沒人想到,這條曲線成了現代科技的增長密碼。它不只是數位遊戲,更是一場全民受益的技術狂歡。電晶體越做越小,晶片性能指數級暴漲,成本卻斷崖式下跌。曾經幾百萬美元的大型電腦,如今幾千塊就能買到同款算力的筆記本;以前只能存幾張照片的記憶體卡,現在能裝下整部高畫質電影庫。過去幾十年,我們就坐在這趟高速列車上,不費吹灰之力就享受到了技術進步的紅利。可列車跑得再快,也終有撞牆的一天。不是不想續,是物理和錢包都不允許了摩爾定律的退場,不是技術停滯,是被三道無形的牆攔住了去路。第一道是物理的硬邊界。現在晶片製程已捲到3nm,一根頭髮絲的直徑,差不多是它的2萬倍。到了這個尺度,微觀世界的規則徹底變了。電晶體柵極薄到只有幾十個原子,電子不再乖乖聽話,會直接“穿牆而過”——這就是量子隧穿效應。關不住電子,晶片就會漏電、發熱,甚至徹底罷工。再往小做,已經不是技術問題,是違背物理規律。第二道是散熱的噩夢。以前電晶體縮小,功耗也會跟著降。這個紅利,15年前就被吃乾抹淨了。指甲蓋大的晶片裡,塞了幾百億個電晶體。要是讓它們全力運轉,產生的熱量能瞬間熔化晶片。這也是高端CPU、GPU主頻,死活難突破6GHz的核心原因。第三道是錢的無底洞。造3nm晶片,台積電、三星得買ASML的EUV光刻機,一台就超過1.5億美元,運它要好幾架波音747。更諷刺的是,最先進工藝的晶體管成本不僅沒降,反而在漲。3nm晶片的製造成本,已經是45nm晶片的15倍。花錢換性能的遊戲,越來越玩不起了。後摩爾時代,算力靠這4招續命摩爾定律停了,但行業不會坐以待斃。聰明的工程師們換了思路,不走“平面堆料”的老路,改玩起了立體、模組化的新花樣。1.3D堆疊:把平房改成多層公寓既然平面空間不夠用,就往垂直方向要效益。3D堆疊技術,就是把不同功能的晶片層疊起來,用矽通孔、混合鍵合技術打通連接。這就像把平房改成多層公寓,不擴大佔地面積,卻能大幅提升使用效率。三星的238層3D NAND晶片,單顆容量就能到2TB,我們用的高速SSD,背後就是這技術撐著。AMD的3D V-Cache技術更直接,在CPU核心上方堆疊快取,遊戲性能一下提升15%-25%。目前這技術已大規模商用,預計2028年全球市場規模將突破千億美元。當然難題還在,層數越多散熱越棘手。好在西門子EDA推出了專用散熱分析軟體,能提前模擬熱分佈,幫工程師最佳化設計。2.Chiplet:半導體界的樂高積木傳統晶片是個“整體積木”,一處出錯整個報廢。Chiplet技術則把它拆成多個獨立模組,像樂高一樣按需拼接。不同模組可以用不同製程生產,平行研發測試,既降低成本又提升良率。AMD MI300晶片就用了13個Chiplet模組,整合1460億電晶體,頻寬突破5TB/s。2022年英特爾、ARM等推出的UCIe標準,解決了不同廠商模組的相容問題。但整合時的氣泡殘留的難題,曾長期困擾行業。南京屹立芯創給出了答案,他們的除泡系統靠“震盪式真空壓力”技術,能精准消除氣泡,已在頭部封測企業產線落地。3.新材料:繞開EUV的破局者既然矽基晶片快到頂了,就換種材料接著玩。二維材料成了新寵,原子級厚度的特性,讓電子能“暢行無阻”。復旦大學研發的“長纓(CY-01)”快閃記憶體晶片,擦寫速度比傳統快閃記憶體快100萬倍,還不用EUV光刻機,28nm成熟工藝就能量產。北大團隊更厲害,研發出的硒化銦晶圓,電子遷移率是矽的數倍,10nm溝長電晶體的開關速度,是3nm矽基技術的3倍。未來手機續航、電腦速度,都靠這些新材料突破。4.量子計算:還在修煉的未來王牌量子計算走的是完全不同的路線,靠量子位元的疊加態和糾纏態,實現平行計算。它不用跟矽基晶片比精度,而是在特定領域實現降維打擊。微軟的拓撲量子晶片提升了穩定性,中科大的“祖沖之三號”有105個量子位元,性能比肩Google同類產品。最新的“祖沖之3.2號”更實現了關鍵突破,達到“越糾越對”的糾錯閾值。雖然現在還處於實驗室向商用過渡的階段,但在藥物研發、材料設計等領域,量子計算已經展現出巨大潛力。最後後摩爾時代的技術路線,沒有那條是一帆風順的。3D堆疊要解決散熱和應力問題,Chiplet需完善介面標準,新材料要突破量產瓶頸,量子計算還得攻克糾錯難題。但比起摩爾定律末期的束手無策,現在的行業更有活力。不再是所有人擠在“製程微縮”的獨木橋,而是多路並進、各顯神通。黃仁勳喊出“摩爾定律已死”,不是宣告算力革命終結,而是提醒大家換道前行。未來的手機、電腦,或許不會再靠單純堆性能取勝,但體驗只會更好。這場不靠電晶體數量的算力革命,才剛剛拉開序幕。 (半導體工師瀟威)
從晶片巨頭到AI生態的生死轉型,拆解黃仁勳的雙重預判
在2022年GTC的技術大會上,輝達首席執行官黃仁勳(Jensen Huang)一句 “摩爾定律已死” 的斷言震動業界。彼時半導體行業仍在3奈米製程的賽道上競速,英特爾、台積電等巨頭尚未公開承認技術迭代的疲態。近期,黃仁勳通過播客節目進一步拋出驚人預測,認為"OpenAI很有可能成為下一個兆美元等級的超大規模企業",同時宣佈了一項規模達千億美元的合作計畫,共同建設10吉瓦(GW)的AI資料中心。這兩條看似獨立的論斷,實則構成黃仁勳對技術革命的完整預判:當傳統晶片迭代邏輯崩塌,以 OpenAI 為代表的 AI 力量將重構計算產業的底層規則。訪談播客節目/Youtube視訊截圖摩爾定律的失效摩爾定律由英特爾創始人戈登·摩爾提出,其核心在於承諾"晶片性能定期倍增而成本減半"。然而,行業資料表明這一良性循環已被打破。根據Google在國際電子器件大會上的研究報告,電晶體成本在台積電28奈米工藝量產後便停止下降趨勢,到7奈米、5奈米節點時甚至出現回升。目前,5奈米晶片的設計成本已突破5億美元,相比28奈米工藝增長25倍,而建設3奈米晶圓廠所需投資高達200-300億美元。在2022年GTC大會上,黃仁勳展示的對比資料更具說服力:過去十年間,單顆CPU性能提升僅3倍,而GPU通過架構創新實現了317倍的AI計算性能突破。台積電的最新財報進一步印證了技術迭代的收益遞減:3奈米工藝雖然達到85%的良率,但性能提升幅度從早期製程的60%降至30%,製造成本反而增加40%。技術層面的制約同樣不容忽視。台積電3奈米工藝中電晶體間距已縮小至12奈米,量子隧穿效應導致的漏電問題日益突出。更關鍵的是,儲存與邏輯晶片的工藝發展路徑出現分化。研究表明,SRAM儲存單元在5奈米節點已基本停止微縮。正如北京大學積體電路專家蔡一茂所言:"傳統儲存器的微縮瓶頸正成為算力提升的主要制約因素。"AI計算需求的爆發式增長與晶片技術進步放緩形成鮮明對比的是AI算力需求的爆發式增長。黃仁勳提出的"AI三大擴展定律"——涵蓋預訓練(Pre-training)、訓練後最佳化Post-training)和推理應用(Inference)的全周期算力需求增長,正獲得業界廣泛認同。他強調:"模型訓練是階段性的,但推理應用是持續性的——從智能對話到視訊生成,每個AI互動都在產生持續的算力消耗。"OpenAI公佈的資料顯示,GPT-4的訓練算力需求達到1.3×10²⁵次浮點運算,是前代模型的百倍之多。更值得注意的是推理階段的算力消耗:2025年第二季度,其全球API日呼叫量突破百億次,相當於每秒需要十萬台高端伺服器同時運行。黃仁勳進一步闡釋,傳統AI推理是"即時響應",而新一代推理則是"深度思考"過程。AI系統在回答前需要進行研究分析、事實核驗和多輪計算,這使得單次互動的算力需求提升10-100倍。他預計推理階段的算力總需求將實現"十億倍"增長,並承認此前(一年前)的預測顯得“過於保守”。OpenAI及其GPT-4的logo/百度圖片輝達的戰略轉型面對摩爾定律的失效,黃仁勳推動輝達實施"全端創新"戰略——通過晶片、系統和演算法的協同突破實現跨越式發展。這一戰略在輝達的產品演進中得到充分體現:從單純追求製程進步,轉向通過GPU架構革新、軟體生態最佳化和系統整合能力建構綜合競爭優勢。最新資料顯示,採用Blackwell架構的H200 圖形處理器(GPU)在FP8精度下實現每秒32千兆次(PFlops)運算性能,較前代提升3倍。這種貫穿資料中心等級的整體最佳化,使新架構在推理性能上實現30倍躍升,遠超依靠傳統製程進步所能達到的成效。黃仁勳將這種策略稱為“極致協同設計”(Extreme Co-design)。由於電晶體性能提升趨緩,輝達選擇在系統層級同時革新所有環節:“我們同時改變中央處理器(CPU)、圖形處理器(GPU)、網路晶片、NVLink擴展(Scale up)、Spectrum-X橫向擴展(Scale out)以及所有相關軟體堆疊。”這一戰略重新定義了輝達的產業定位。黃仁勳在該訪談中強調:“市場將我們視為晶片公司,但輝達本質上是一家AI基礎設施企業。”與OpenAI的合作正是這一定位的體現:除了提供晶片,更在系統架構、軟體平台和人工智慧(AI)工廠建設等層面深度協同,共同建構新一代AI基礎設施。黃仁勳在發佈會上介紹Blackwell架構的晶片/輝達官網報導圖OpenAI的兆級潛力黃仁勳對OpenAI的看好,本質是押注AI成為算力需求的“永動機”。他在合作聲明中指出,OpenAI正經歷“雙重增長浪潮”: 使用者規模隨著應用場景拓展而指數級擴大,單使用者算力消耗隨著推理複雜度提升而同步增長。這兩股趨勢的疊加,創造了持續旺盛的算力需求。OpenAI的核心優勢在於其“持續思考”推理模式。以GPT-4 Turbo為例,其處理複雜數學問題需呼叫上千次圖形處理器(GPU)計算單元,通過多輪計算最佳化答案質量,使響應精準率提升至使用者滿意度89%。此外,其訓練資料池涵蓋15兆單詞文字、1億小時視訊與5000萬份學術文獻,配合自研的資料清洗技術實現99.2%的噪聲過濾效率,構築了資料層面的壁壘。商業變現路徑同樣清晰。OpenAI收入結構已從單一應用程式程式設計介面(API)服務拓展為企業端與消費端雙輪驅動:微軟Azure OpenAI服務2025年上半年營收達120億美元,OpenAI分得30%分成;消費端ChatGPT Plus訂閱使用者突破1億,月均付費20美元,疊加DALL·E 4等圖像生成服務,年化直接收入達240億美元。據黃仁勳估算,如果AI能夠提升全球50兆美元智力產出的10%,其中一半轉化為基礎設施投入,年度資本支出將達5兆美元,足以讓OpenAI成為“下一個Meta或Google”。電力瓶頸與地緣政治新格局隨著AI計算規模持續擴大,電力供應成為關鍵制約因素。黃仁勳指出,單個資料中心功耗已達250兆瓦(MW),未來可能突破1吉瓦(GW)。在此背景下,"能效比"直接決定了"營收效率"。黃仁勳甚至語出驚人地提出:即使競爭對手免費提供晶片,客戶仍會選擇輝達的解決方案。他解釋道:"在2吉瓦的電力配額下,如果我們的系統能效是對手的兩倍,意味著客戶能夠獲得雙倍的業務收益。"在電力成為硬性約束的時代,總體擁有成本的重要性已超越晶片單價。地緣政治層面,“主權AI”成為各國戰略焦點。通過頻繁與各國領導人交流,黃仁勳深切體會到"擁有自主AI基礎設施已成為國家競爭力的關鍵"。他強調,AI與核武器不同——“沒有人需要原子彈,但人人都需要AI”。這一趨勢下,美國對華晶片出口管制持續加碼,而中國通過全鏈路自主可控技術積極應對。這一趨勢下,美國持續加強對華晶片出口管制,而中國則通過全鏈路自主創新積極應對。近日,黃仁勳曾形象地比喻中美技術差距僅在"納秒之間",認為中國半導體產業"充滿創新活力",並建議美國通過開放競爭保持領先地位。挑戰與未來展望然而,黃仁勳的樂觀預期也面臨諸多質疑。OpenAI首席執行官薩姆·奧爾特曼近期表示:"大量資金湧入尚未驗證的AI項目,存在泡沫化風險。"市場資料顯示,2025年全球AI初創企業融資總額達1800億美元,但八成企業尚未實現營收,僅一成能夠覆蓋算力成本。技術層面,量子計算可能帶來顛覆性變革:Google研發的千量子位原型機在特定任務上的算力相當於十萬台H200 GPU。產業生態方面,微軟、Google等巨頭加速追趕,亞馬遜雲服務(AWS)推出自研訓練(Trainium)晶片,競爭加劇可能壓縮輝達的利潤空間。儘管如此,黃仁勳認為AI革命與網際網路泡沫有本質區別。他引用輝達財報資料:2025年第二季度資料中心業務同比增長110%,毛利率維持在78%,顯示需求的真實性。更重要的是,推理算力佔比從2023年的20%升至2025年的55%,標誌著剛性需求正在形成。對於未來,黃仁勳預計五年內AI與機器人技術將深度融合,出現能夠自主行動的智能實體。每個人都有可能擁有個性化的AI助手和雲端數字孿生(Digital Twin)。他給企業的建議異常簡潔:“當面對指數級增長的技術浪潮時,最明智的選擇就是積極參與其中。”輝達與OpenA的合作插圖/矽谷新聞報導圖黃仁勳的雙重預判,清晰地勾勒出計算產業範式轉移的軌跡:摩爾定律的終結,宣告了“製程驅動時代”的落幕;而OpenAI的崛起,則標誌著“AI驅動時代”的正式開啟。Google的成本資料、台積電的工藝瓶頸、OpenAI的指數級算力需求,共同構成了這一歷史性轉折的完整證據鏈。輝達以“晶片+生態”深度繫結OpenAI,這不僅是對其成功路徑的復刻——如同昔日憑藉GPU定義遊戲與圖形市場——更是對未來產業規則的重新定義:得AI算力供需者,得天下。 (MGClouds蘑菇雲)
黃仁勳最新訪談:AI泡沫?不存在的
近期,輝達(NVDA.US)投資“出手”頻繁,先是宣佈50億美元投資英特爾,隨後斥資至多1000億美元投資OpenAI,而受此前OpenAI與甲骨文的合作,市場均在股價層面給予了積極反饋。但市場也出現了質疑聲音——稱輝達、OpenAI與甲骨文存在“收入循環”,財務數字“操作”大於實際營收。9月25日,在播客BG2最新一期節目中,BG2主播、Altimeter Capital創始人Brad Gerstner,Altimeter Capital合夥人Clark Tang與輝達CEO黃仁勳展開了一次對話。黃仁勳在對話中回應了當下市場關心的問題。黃仁勳認為,投資OpenAI實際上是一個很好的機會,並認為OpenAI將是下一家數兆美元等級的Hyperscaler。此外,黃仁勳也特別解釋了為什麼ASIC晶片並不完全和輝達GPU是競爭關係——因為輝達是AI基礎設施提供商,其提供的能力範圍已經不僅僅是硬體和軟體層面,也包括其不斷迭代的速度、規模優勢帶來的可靠性,以及整體能源效率等綜合因素。因此,黃仁勳認為輝達目前的護城河比三年前“更寬”,而Brad Gerstner甚至認為,輝達將是史上第一家達到十兆美元的公司。以下為“明亮公司”編譯的訪談正文(有刪節):Brad Gerstner:Jensen,再次歡迎你。你的紅色眼鏡很好看,真的很適合你。距離上次上播客,已過去一年多。你們如今超過40%的收入來自推理(inference),而且推理正因為chain of reasoning鏈式推理而要起飛了。黃仁勳:大多數人還沒真正內化這一點,這其實就是一場工業革命。一、投資OpenAI不是合作的前提,是因為有機會能投Brad Gerstner:說真的,從那次之後,感覺你我每天都像在驗證那期播客。在AI的時間尺度上,這一年像過了一百年。我最近重看了那期,很多觀點讓我印象深刻。最打動我的是你當時拍著桌子說——當時大家覺得預訓練進入低潮(pre-training),很多人說預訓練要完蛋了,硬體建設過度。那是大約一年半前。你說推理不會只是一百倍、一千倍。會是十億倍。這把我們帶到今天。你剛宣佈了一項巨大合作,我們應該從這裡聊起。黃仁勳:我想正式說下,我認為我們現在有三條Scaling Law。第一是預訓練的Scaling Law。第二是後訓練(post-training)的Scaling Law。後訓練基本上就是讓AI練習一種技能,直到做對,它會嘗試很多不同方法。要做到這一點,就必須進行推理(inference)。所以訓練與推理如今以強化學習的方式整合在一起,非常複雜,這就是後訓練。第三是推理(inference)。過去的推理是“一次出手”,而我們現在理解的新推理,是“先思考再作答”。先想,再回答,想得越久,答案質量越高。思考過程中你會檢索、查證事實、學到東西,再繼續思考、繼續學習,最後輸出答案,而不是上來就生成。所以思考、後訓練、預訓練,如今我們有三條Scaling Law,而不是一條。Brad Gerstner:這些你去年就提過,但你今年說“推理會提升十億倍,並由此帶來更高水平智能”的信心更高了嗎?黃仁勳:我今年更有把握。原因是看看如今的智能體系統。AI不再是單一語言模型,而是由多個語言模型組成的系統,它們並行運行。有的在用工具,有的在做檢索,事情非常多,而且是多模態。看看生成的視訊,簡直令人難以置信。Brad Gerstner:這也引到本周的關鍵時刻,大家都在談你們與OpenAI的重磅合作Stargate。你們將成為首選合作夥伴,並在一段時間內向公司投資1000億美元。他們會建10個“gig“(Gigawatt,吉瓦)。如果這10個“gig”都用輝達,那對你們的收入貢獻可能高達4000億美元。幫我們理解一下這個合作,對你意味著什麼?以及為何這項投資是合理的?黃仁勳:我先回答後一個問題,再回到我的敘述。我認為OpenAI很可能成為下一家數兆美元級的hyperscale公司。就像Meta是hyperscale,Google也是,他們會同時擁有C端與企業服務。他們非常可能成為下一家多數兆美元級的hyperscale公司。如果是這樣,能在他們達到那個規模之前投資進去,是我們能想像到的最聰明的投資之一。你必須投資你熟悉的東西,恰好我們熟悉這個領域。所以這筆錢的回報會非常出色。我們很樂意投資,但不是必須的,也不是合作的前提;是他們給了投資機會,這太好了。我們與OpenAI在多個項目上合作。第一,Microsoft Azure的建設,我們會持續推進,這個合作進展非常順利,未來還有數年的建設;第二,OCI(Oracle Cloud Infrastructure)的建設,我想大概有5-7個GW要建。我們與OCI、OpenAI、軟銀一道推進。這些項目都已簽約,正在實施,工作量很大。第三是CoreWeave。所有與CoreWeave相關的……我還在講OpenAI,對,一切都在OpenAI語境裡。所以問題是,這個新夥伴關係是什麼?它是幫助OpenAI首次自建AI基礎設施。也就是我們直接與OpenAI在晶片、軟體、系統、AI工廠層面協作,幫助他們成為一家完全自營運的hyperscale公司。這會持續相當一段時間,是對他們現有建設的補充。他們正經歷兩個指數曲線:第一個指數是客戶數量在指數級增長,因為AI在變好、用例在變好,幾乎每個應用現在都連到OpenAI,所以他們正經歷使用指數;第二個指數是計算量的指數增長。每個使用場景的算力在暴漲。過去是一鍵式推理,現在要先思考再回答。這兩個指數疊加,大幅抬升了計算需求。我們會推進所有這些建設。因而這個新合作是對既有所有合作的“增量”,去支撐這股驚人的指數增長。Brad Gerstner:你剛說到一個很有意思的點,你認為他們極大機率會成為數兆美元公司,是很好的投資;同時你們還在幫助他們自建資料中心。過去他們把資料中心外包給微軟,現在他們要自建“全端工廠”,就像Elon和X那樣,對吧?Brad Gerstner:想想Colossus的優勢,他們建構全端,就是hyperscaler,即便自己用不完容量,也能賣給別人。同樣的,Stargate在建設海量容量,他們覺得會用掉大部分,但也能售賣出去。這聽起來很像AWS、GCP(Google雲)或Azure,是這意思嗎?黃仁勳:我認為他們很可能自己用掉,就像X大多會自用。但他們希望與我們建立直接關係——直接工程協作和直接採購關係。就像Zuck、Meta與我們之間的直接關係。我們與Sundar和Google的直接關係,我們與Satya和Azure的直接夥伴關係。他們規模足夠大了,認為該建立這些直接關係了。我很樂意支援,而且Satya(微軟CEO)知道,Larry(Google聯合創始人)知道,大家都知道。二、華爾街與輝達之間預期背離:如何理解AI的需求規模Brad Gerstner:這兒有件事我覺得頗為神秘。你剛提到Oracle 3000億、Colossus的建設,我們知道一些主權國家在建(AI基礎設施),hyperscaler也在建。Sam正以兆美元的口吻來談這一切。可覆蓋你們股票的華爾街25位賣方分析師的共識卻顯示,你們從2027年開始增長放緩,預計2027-2030年年化增速8%。這些人的唯一工作就是給輝達做增長預測。顯然……黃仁勳:我們對此很坦然。看,我們經常能輕鬆超預期。輝達資料中心營收的增長預期(來源:BG2)Brad Gerstner:我明白。但這仍是個有趣的“背離”。我每天都在CNBC、彭博上聽到。很多人擔心短缺會轉向過剩,他們不相信持續高增長。他們說,行,我們姑且信你們的2026年,但2027年可能供給過剩、不再需要那麼多。但共識預測其實顯示這不會發生。我們也做了自己的預測,納入了所有這些數字。結果是,即便進入“AI時代”兩年半,各方的信念仍然分歧巨大,Sam Altman、你、Sundar、Satya的看法,與華爾街仍然相信的相去甚遠。對此,你依舊感到從容嗎?黃仁勳:我也不認為這不一致。首先,我們這些“建設者”應該為“機會”而建。我們是建設者。讓我給你三個思考點,有助於你對輝達的未來更放心。第一點,是物理定律層面的、最關鍵的一點,通用計算已到盡頭,未來屬於加速計算與AI計算。這是第一點。你可以這樣想:全球有多少兆美元的計算基礎設施要被更新換代。所以首先你得認識到通用計算的終結。沒人反對這一點。摩爾定律已死,人們常這麼說。那麼這意味著什麼?通用計算會轉向加速計算。我們與Intel的合作就是在承認通用計算需要與加速計算融合,為他們創造新機會。通用計算正遷移到加速計算與AI。第二點,AI的首要用例其實已無處不在——在搜尋、在推薦引擎等等。基礎的hyperscale計算基礎設施過去由CPU執行推薦,如今要由GPU執行AI。你把傳統計算換成加速計算與AI;你把hyperscale計算從CPU換到加速計算與AI。這是第二點。僅僅滿足Meta、Google、字節跳動、Amazon,把它們傳統的hyperscale方式搬到AI,就是數千億美元的市場。所以,那怕先不談AI創造新機會,僅僅是AI改變了舊做法到新做法。然後再談未來。是的,到目前為止我其實只談了“平凡”的事。舊方式不對了。你不會再用煤油燈,而要用電。這就夠了。然後是更不可思議的,當你走向AI、走向加速計算,會出現什麼新應用?就是我們在談的所有AI相關,機會巨大。怎麼理解?簡單想想,過去電機替代了體力勞動;現在我們有AI——我稱之為AI超級電腦、AI工廠——它們會生成tokens來增強人類智能。而人類智能佔全球GDP的55%-65%……我們就算50兆美元吧,這50兆將被某種東西增強。回到個人層面,假如我雇一位工資10萬美元的員工,再給TA配一個1萬美元的AI,如果這個AI讓那位員工產能翻倍、三倍?我會不會做。一定會做。我現在就在給公司裡每個人配,沒錯,每位協作智能體(co-agents)、每位軟體工程師、每位晶片設計師都已有AI與其協作智能體,覆蓋率100%。結果是我們做的晶片更好,數量在增長,推進速度更快。公司因此增長更快、招聘更多、生產率更高、營收更高。利潤更高。現在把輝達的故事套到全球GDP上,很可能發生的是,這50兆會被……我們取個數,10兆美元所增強。而這10兆需要跑在一台機器上。AI與過去IT的不同在於,過去軟體是事先寫好,跑在CPU上,不怎麼自己“動”。未來,AI要生成tokens,而機器要生成這些tokens、它“在思考”,所以軟體一直在運行;過去是一次性編寫,現在是持續編寫、持續思考。要讓AI思考,就需要工廠。假設這10兆token的毛利率是50%,其中5兆需要工廠、需要AI基礎設施。所以如果你告訴我全球每年的資本開支大概是5兆美元,我會說這個數看起來說得通。這大概就是未來的輪廓——從通用計算到加速計算;把所有hyperscale都換成AI;然後用AI去增強人類智能,覆蓋全球經濟。Clark Tang:以今天而言,我們估算年市場規模大約4000億美元,所以TAM從現在到目標是四到五倍的提升。黃仁勳:沒錯。昨晚(台北時間9月24日)阿里巴巴的吳泳銘(Eddie Wu)說,從現在到20年代末,他們要把資料中心電力(消耗)提升十倍。對吧?你剛才說四倍?這就對上了。他們要把電力提升十倍,而我們的收入與電力幾乎是正相關。(註:吳泳銘表示,對比2022年GenAI元年,到2032年阿里雲全球資料中心能耗規模將提升10倍)他還說token生成量每幾個月就翻倍。這意味著什麼?單位能耗性能(perf per watt)必須指數級提升。這就是為什麼輝達要瘋狂推進單位能耗性能提升,而單位能耗收入(revenue per watt)基本就是收入。Brad Gerstner:在這個未來裡,有個假設從歷史角度看我覺得很迷人。兩千年裡,全球GDP基本不增長。然後工業革命來了,GDP加速;接著數字革命,GDP又加速。你現在的意思和Scott Bessent(美國現任財長)說的一樣——他認為明年全球GDP增長會到4%。你其實是在說全球GDP增速將加快,因為我們正在給世界提供“數十億同事”來為我們工作。而如果GDP是在既定勞動與資本下的產出,那麼它必須……黃仁勳:一定會增長。看看AI正在發生的事,AI的技術形態、可用性,諸如大語言模型與AI智能體,都在推動一個新的“智能體行業”。這點毫無疑問。OpenAI就是歷史上收入增長最快的公司,他們在指數級增長。所以AI本身是個高速增長的行業,因為AI需要背後的工廠與基礎設施,這個行業在增長,我的行業也在增長;而因為我的行業在增長,在我們之下的行業也在增長——能源在增長、電力與廠房在增長。這簡直是能源產業的復興。核能、燃氣輪機……看看我們生態之下的那些基礎設施公司,他們做得很棒,大家都在增長。Brad Gerstne:這些數字讓大家都在談是否會“供給過剩”或“泡沫”。Zuckerberg上周在一個播客說了,可能會有短期的“氣阱”(Airpocket),Meta可能會多花個100億美元之類的。但他說,這不重要。對他業務的未來而言太關鍵了,這是必須承擔的風險。但從博弈角度看,這有點像“囚徒困境”。黃仁勳:開心的囚徒。Brad Gerstner:再捋一遍。今天我們估算到2026年,會有1000億美元的AI收入,不含Meta,也不含跑推薦引擎的GPU還有搜尋等其他工作負載,我們就先算1000億。黃仁勳:但hyperscale行業本身到底有多大?這個行業現在的基數是多少?Brad Gerstner:以兆美元計。黃仁勳:對。這個行業會先部署AI,不是從零起步,你得從這裡開始。Brad Gerstner:不過懷疑者會說,我們必須從2026年的1000億,長到2030年至少1兆的AI收入。你剛才還談到5兆。從全球GDP的自下而上推演看,你能看到從1000億到1兆在未來五年實現嗎?黃仁勳:能,而且我會說我們其實已經到了。因為Hyperscalers已經把CPU遷到AI,他們的整個收入基座如今都由AI驅動。Brad Gerstner:是的。黃仁勳:沒有AI就沒有TikTok,對吧?沒有AI就沒有YouTube Shorts。Meta做的為你定製、個性化的內容,沒有AI就做不到。以前那些事情,靠人類事先創作、提供幾個選項,再由推薦引擎挑選。現在是AI生成無限多的選項。Brad Gerstner:這些轉變已經發生:我們從CPU遷到GPU,主要是為了那些推薦引擎。黃仁勳:對。Zuck會告訴你,我在SIGGRAPH時他也說過,他們其實到得有點晚。Meta用GPU也就一年半、兩年的事。搜尋上用GPU更是嶄新的、剛剛開始的。Brad Gerstner:所以論證是,到2030年我們有1兆AI收入的機率幾乎確定,因為我們幾乎已經達到了。接著我們只談“增量”。不管你做自下而上還是自上而下,我剛聽了你按全球GDP佔比的自上而下的分析。那你覺得,未來三到五年內,出現“供給過剩(glut)”的機率有多大?黃仁勳:在我們把所有通用計算徹底轉換為加速計算與AI之前,我認為出現過剩的機率極低。Brad Gerstner:會花幾年?黃仁勳:直到所有推薦引擎都基於AI,直到所有內容生成都基於AI。因為面向消費者的內容生成很大程度就是推薦系統之上的,所以所有這些都會轉向AI生成。直到傳統意義上的hyperscale全部遷到AI,從購物到電商等一切都遷過去。Brad Gerstner:但所有這些新建項目,我們談的是“兆級”,總是提前投資。那如果你們看到了放緩或過剩,是不是還“不得不”把錢投進去?還是說,一旦看到放緩跡象,再隨時收縮?黃仁勳:實際上正相反,因為我們在供給鏈的末端,我們按需響應。現在,所有VC都會告訴你——你們也知道——全球短缺的是“計算”,不是GPU的數量短缺。只要給我訂單,我就造。過去兩年我們把整個供應鏈都打通了,從晶圓啟動、到封裝、到HBM記憶體等等,我們都加足了馬力。需要翻倍,我們就翻倍,供應鏈已備好。我們現在等的是需求訊號。當雲服務商、hyperscaler和客戶做年度計畫給我們預測時,我們就響應,並按那個預測去建。問題是,他們每次給我們的預測都會錯,因為預測都偏低。於是我們總處於“緊急追趕”模式,已經持續了好幾年,每一輪預測都比上一年顯著上調。Brad Gerstner:但還不夠。比如去年,Satya看起來稍微收斂了一點,有人說他像房間裡那個“更穩重的成年人”,壓一壓預期。但幾周前他又說,我們今年也建了兩個“gig”,未來還會加速。你是否看到那些傳統hyperscalers——相較於Core Weave或Elon的X,或者相較於StarGate——此前略慢一些的,現在都在加倍投入,而且……黃仁勳:因為第二條指數來了。我們已經有一條指數在增長,AI的應用和滲透率指數級增長。第二條指數是“推理與思考”,這就是我們一年前討論的。我當時說,一旦你把AI從“一次性出手、記憶並泛化”推進到“推理、檢索與用工具”,AI就在思考,它會用更多算力。Clark Tang:回到你剛才的點,hyperscale客戶無論如何都需要把內部工作負載從通用計算遷到加速計算,他們會穿越周期持續建設。我想部分hyperscalers的負載結構不同,不確定消化速度,現在大家都認定自己嚴重低配了。黃仁勳:我最喜歡的應用之一就是傳統的資料處理,即結構化與非結構化資料處理。很快我們會宣佈一個關於“加速資料處理”的重大計畫。資料處理佔據了當今世界絕大多數CPU,它仍然完全跑在CPU上。去Databricks,大多是CPU;去Snowflake,大多是CPU;Oracle的SQL處理,大多是CPU。大家都在用CPU做SQL/結構化資料。未來,這一切都會遷到AI資料。這是一個極其龐大的市場,我們會推進過去。但你需要輝達的全部能力——加速層與領域專用的“配方”。資料處理層的“配方”需要我們去建構,但它要來了。三、“循環營收”質疑:投資機會不繫結任何條件Brad Gerstner:還有一個質疑點。昨天我打開CNBC,他們說的是“過剩、泡沫”。換到彭博,是“循環交易與循環營收(round-tripping、circular revenues)”。給在家觀看的觀眾解釋下,這指公司之間締結看似交易、實則缺乏真實經濟實質的安排,人為抬高營收。換言之,增長不是來自真實的客戶需求,而是財務數字上。所以當你們、微軟或亞馬遜投資那些同時也是你們大客戶的公司時,比如你們投資OpenAI,而OpenAI又購買數百億美元的晶片。請提醒我們、也提醒大家:當彭博等媒體分析師拿“循環營收”大做文章時,他們到底誤解了什麼?黃仁勳:建10GW的(資料中心)規模大概就是4000億美元左右吧。那4000億主要由他們的offtake(消納能力/下游需求)來支撐,它在指數增長。(支出)這得由他們自有資本、股權融資和可獲得的債務來支援,這是三種工具。能融到多少股權與債務,取決於他們對未來收入的把握程度。精明的投資人與授信人會綜合權衡這些因素。這是他們公司的事,不是我的。我們當然要和他們緊密合作,以確保我們的建設能支援他們持續增長,但收入端與投資端無關。投資機會不是繫結任何條件的,是一個純投資機會。正如前面說的,這家公司很可能成為下一家多兆美元級的hyperscale公司。誰不想持有它的股權?我唯一的遺憾是,他們早年就邀請我們投資,當時我們太“窮”了,投得不夠,真該把所有錢都投進去。Brad Gerstner:而現實是,如果你們不把本職工作做到位,比如Vera Rubin最終不成好晶片,他們也可以去買別家的。對吧?他們沒有義務必須用你們的晶片。正如你說的,你們看待這件事是機會性的股權投資。黃仁勳:我們投了xAI、投了CoreWeave,這都是很棒的投資。Brad Gerstne:回到“循環營收”的討論,還有一個根本點是,你們把一切都擺在檯面上,告訴大家你們在做什麼。而其背後的經濟實質是什麼?並不是雙方互相倒騰營收。我們看到有使用者每月為ChatGPT付費,有15億月活在用這個產品。你剛說世界上每家企業要麼擁抱這一切,要麼被淘汰。每個主權國家都把這視為其國防與經濟安全的“生死攸關”,就像核能一樣。黃仁勳:問問看,有那一個人、公司、國家會說“智能”對我們是可選項?沒有。這就是基礎。關鍵在於“智能的自動化”。四、摩爾定律已死,現在需要極致的軟硬體協同設計Brad Gerstner:需求問題我問得夠多了,我們聊系統設計。我接下來會把話題遞給Clark。2024年你們切換到了年度發佈節奏,對吧?Hopper之後,2025年的Grace Blackwell是一次巨大升級,需要資料中心進行重大改造。26年下半年會有Vera Rubin,27年有Rubin Ultra,28年有Feynman。年度發佈節奏進行得如何?為什麼要改為年度發佈?輝達內部的AI是否讓你們能落實年度發佈?輝達未來晶片架構的發展脈絡(來源:BG2)黃仁勳:是的,答案是肯定的。沒有它,輝達的速度、節奏和規模都會受限。現在沒有AI,根本不可能建出我們如今的產品。為什麼這麼做?記得Eddie(吳泳銘)在財報或大會上說過、Satya說過、Sam也說過……token生成速率在指數級上升,使用者使用在指數級上升。我記得OpenAI說周活躍使用者有8億左右,對吧?從ChatGPT推出才兩年。Brad Gerstner:而且這些使用者的每次使用都在生成更多token,因為他們在使用“推理時思考”(inference-time reasoning)。黃仁勳:沒錯。所以第一點是:在兩個指數疊加的情況下,除非我們以不可思議的速度提升性能,否則token生成成本會持續上升。因為摩爾定律已死,電晶體的單位成本每年幾乎不變,電力也大致不變。在這兩條“定律”約束下,除非我們發明新技術降成本,否則即便給對方打個幾個百分點的折扣,也無法抵消兩個指數增長的壓力。因此我們必須每年以跟上這個指數的節奏去提升性能。比如從Kepler(註:2012年4月發佈)一路到Hopper(註:2022年3月發佈),大概實現了100000的提升。那是輝達 AI旅程的開端,十年十萬倍。Hopper到Blackwell,因為NVLink等,我們在一年內實現了30×的系統級提升;接下來Rubin還會再來一波“x”(數倍),Feynman再一波“×”……之所以能做到,是因為電晶體本身幫不上太多忙了。摩爾定律基本只剩密度在漲,性能沒有相應提升。所以我們必須把問題在系統層面完全拆開,所有晶片同步升級,軟體棧與系統同步升級,這是極致的“協同設計(co-design)”。以前沒人做到這個層級。我們同時改變CPU、重塑CPU,與GPU、網路晶片、NVLink縱向擴展、Spectrum-X橫向擴展。當然還要去建構更大的系統,在多個AI工廠之間做跨域互聯。並且以年度節奏推進。所以我們自身也在技術上形成了“指數疊指數”。這讓客戶能持續拉低token成本,同時通過預訓練、後訓練與“思考”讓token更聰明。AI變聰明,使用就更多,使用更多就指數增長。Brad Gerstner:極致的協同設計是什麼?黃仁勳:極致協同設計,意味著你要同時最佳化模型、演算法、系統與晶片。當摩爾定律還能推動時,只要讓CPU更快,一切都會更快。那是在“盒子裡”創新,只需把那顆晶片做快。但如果晶片不再變快,你怎麼辦?就要跳出原有框架來創新。輝達改變了行業,因為我們做了兩件事——發明了CUDA、發明了GPU,並把大規模協同設計的理念落地。這就是為什麼我們覆蓋這麼多行業。我們在建構大量庫與協同設計。第一,全端的極致不僅在軟體與GPU,還延伸到資料中心層面的交換與網路,以及它們內部的所有軟體:交換機、網路介面、縱向擴展與橫向擴展,跨全部層面最佳化。其結果就是Blackwell對Hopper的30×提升。摩爾定律根本做不到,這是極致協同設計的成果。輝達全部技術堆疊(來源:BG2)Brad Gerstner:這些都源自極致協同設計。黃仁勳:是的,這就是為什麼我們要做網路、做交換、做縱向/橫向/跨域擴展,做CPU、做GPU、做NIC。也是為什麼輝達的軟體如此豐富。我們在開放原始碼軟體上的貢獻提交量,全球能比的沒幾家。而且這還只是AI領域。別忘了我們在電腦圖形、數字生物學、自動駕駛等。我們產出的軟體規模極其可觀,這讓我們能做深度且極致的協同設計。Brad Gerstner:我從你一位競爭對手那裡聽說,你們這麼做能降低token生成成本。但與此同時,你們的年度發佈節奏讓競爭者幾乎很難跟上。因為你們給供應鏈三年的可見性,供應鏈鎖定更深,心裡有底該供到什麼規模。黃仁勳:你不妨這樣想:要讓我們一年做幾千億美元級的AI基礎設施建設想想我們在一年前就必須提前預備多少產能。我們說的是數千億美元級的晶圓啟動量、DRAM採購量。這個規模,幾乎沒有公司能承接。五、輝達的護城河為什麼更寬了:如何看ASIC的競爭力Brad Gerstner:你們今天的護城河比三年前更寬了嗎?黃仁勳:是的。首先,競爭者比以往更多,但難度也比以往更大。因為晶圓成本在上升。除非你在極致規模上做協同設計,否則你交不出那個“數倍”級的增長,這是第一點。所以,除非你一年同時做6-8顆晶片,否則不行。重點不是做一顆ASIC,而是建構一座AI工廠系統。這座系統裡有很多晶片,它們都協同設計。它們共同交付我們幾乎固定節奏能拿到的那個“10×”。所以第一,協同設計必須極致。第二,規模必須極致。當你的客戶部署1個GW,那就是四五十萬顆GPU,要讓50萬顆GPU協同工作,這就是個奇蹟。所以客戶是在承擔巨大的風險來購買這些。你得想,有那個客戶會在一個架構上下500億美元的採購訂單?一個全新的、未經大規模驗證的架構?你再興奮、大家再為你喝彩,當你剛剛展示第一個矽片的時候,會有誰給你500億美元的訂單?你又為何敢在一顆剛剛流片的晶片上啟動500億美元的晶圓?但對輝達來說,我們敢,因為我們的架構高度成熟與積累的信用。其二,我們客戶的規模極其驚人。再者,我們供應鏈的規模也極其驚人。誰會替一家企業去提前啟動這些、預建構這麼多,除非他們確信輝達能把它交付到底?對吧?他們相信我們能交付到全球所有客戶手裡,願意一次性啟動數千億美元的供應。這就是“規模”的故事。Clark Tang:順著這個點,全球一個最大的爭論是“GPU vs ASIC”,比如Google的TPU、Amazon的Trainium。Arm到OpenAI、Anthropic在傳出自研……你去年說過我們建構的是“系統”,不是“晶片”,而你們在堆疊的每一層都驅動性能提升。你還說過這些項目裡很多可能永遠到不了生產規模,事實上…大多數都到不了。在TPU看似成功的前提下,你今天如何看這片正在演進的版圖?黃仁勳:Google的優勢在“前瞻”。記得他們在一切開始之前就做了TPU v1。這跟創業沒區別。你應當在市場尚未做大之前去創業,而不是等市場漲到兆級再來。所有VC都懂一個謬誤:市場很大,只要拿到幾個百分點就能做成大公司。這是錯的。你該在一個很小的領域拿到“幾乎全部份額”,這就是輝達當年做的,也是TPU當年做的。所以今天那些做ASIC的人的挑戰在於:市場看起來很“肥”,但別忘了,這個“肥市場”已經從一顆叫GPU的晶片,演化為我剛描述的“AI工廠”。你們剛看到我宣佈了CPX(註:Rubin CPX GPU,輝達專為長語境推理設計的晶片),這是一顆用於“上下文處理與擴散式視訊生成”的晶片,是很專門但很重要的資料中心負載。我剛才也暗示,也許會有“AI資料處理”處理器。因為你需要“長期記憶”和“短期記憶”。KVCache的處理非常重,AI記憶是大事。你希望你的AI有好記憶。圍繞整個系統處理KVCache非常複雜,也許它也需要一顆專屬處理器。你可以看到,輝達今天的視角,是俯瞰全體AI基礎設施——這些了不起的公司要如何讓多元且變動的工作負載流經系統?看看Transformers,這個架構在快速演化。若非CUDA如此好用、易於迭代,他們要如何進行如此海量的實驗,來決定採用那種Transformer變體、那類注意力演算法?如何去做“解耦/重構(disaggregate)”?CUDA之所以能幫你做這一切,是因為它“高度可程式設計”。所以看我們的業務,你得回到三五年前那些ASIC項目啟動之時,那會兒的行業“可愛而簡單”,只有GPU。一兩年後,它已巨大且複雜;再過兩年,它的規模會非常之大。所以,作為後來者要殺入一個巨量市場,這仗很難打。Clark Tang:即便那些客戶在ASIC上成功了,他們的算力機隊裡也應該有個“最佳化配比”,對吧?我覺得投資人喜歡非黑即白,但其實即便ASIC成功了,也要有個平衡。會有很多不同的晶片或部件加入輝達的加速計算生態,以適配新生的負載。Brad Gerstner:換句話說,Google也是你們的大客戶。黃仁勳:Google是我們的大GPU客戶。Google很特殊,我們必須給予尊重。TPU已經迭代到v7了,對吧?這對他們也是極大挑戰。他們做的事情極難。所以我想先理順一下晶片的分類。一類是“架構型”晶片:x86CPU、ArmCPU、輝達GPU,屬於架構級,有豐富的IP與生態,技術很複雜,由架構的擁有者建構。另一個是ASIC,我曾就職於發明ASIC概念的公司LSI Logic。你也知道,LSI早已不在。原因在於,當市場規模不太大時,ASIC很棒,找一家代工/設計服務公司幫你封裝整合併代工生產,他們會收你50-60個點的毛利。但當ASIC面向的市場變大後,會出現一種新方式叫COT(Customer-Owned Tooling,客戶自有工具),誰會這麼做?比如Apple的手機晶片,量級太大,他們絕不會去付給別人50%-60%的毛利做ASIC,他們會自己掌握工具。所以,當TPU變為一門大生意時,它也會走向COT,這毫無疑問。話說回來,ASIC有它的位置——視訊轉碼器的市場永遠不會太大;智能網路卡(Smart NIC)的市場也不會太大。所以當你看到一家ASIC公司有十來個甚至十五個ASIC項目時,我並不驚訝,因為可能其中五個是Smart NIC、四個是轉碼器。它們都是AI晶片嗎?當然不是。如果有人做一顆為某個特定推薦系統定製的處理器,做成ASIC,當然也可以。但你會用ASIC來做那顆“基礎計算引擎”嗎?要知道AI的工作負載變化極快。有低延遲負載,有高吞吐負載;有聊天token生成,有“思考”負載,有AI視訊生成負載,現在你在談的是……Clark Tang:算力機群的 “主力骨幹”。黃仁勳:這才是輝達的定位。Brad Gerstner:再通俗點講,就像“象棋vs跳棋”。那些今天做ASIC的人,不管是Trainium還是別的某些加速器,本質是在造一顆“更大機器中的一個部件”。而你們造的是一個“非常複雜的系統、平台、工廠”,現在你們又開始做一定程度上的“開放”。你提到了CPX GPU,在某種意義上,你們在把工作負載“拆分”到最適合它的硬體切片上。黃仁勳:沒錯。我們發佈了一個叫“Dynamo”的東西——解耦後AI負載編排(disaggregated orchestration),而且開源了它,因為未來的AI工廠就是解耦的。Brad Gerstner:你們還發佈了NVLink Fusion,甚至對競爭對手開放,包括你們剛剛投資的Intel,這就是讓他們也能接入你們正在建的工廠——沒人瘋狂到要獨自建完整工廠。但如果他們有足夠好的產品、足夠有吸引力,終端客戶說我們想用這個替代某個Arm GPU,或者替代你們的某個推理加速器等,他們就可以插進來。黃仁勳:我們非常樂意把這些接上。NV Fusion是個很棒的主意,我們也很高興與Intel合作——它把Intel的生態帶進來,全球大多數企業工作負載仍跑在Intel上。它融合了Intel生態與輝達的AI生態與加速計算。我們也會與Arm做同樣的融合。之後還會與更多人做。這為雙方都打開了機會,是雙贏、非常大的雙贏。我會成為他們的大客戶,他們也會把我們帶到更大的市場機會前。Brad Gerstner:與此緊密相關的,是你提出一個讓人震驚的觀點:就算競爭者造的ASIC晶片今天已經更便宜,甚至就算他們把價格降到零,也依然會買輝達的系統。因為一個系統的總營運成本——電力、資料中心、土地等——以及“智能產出”,選擇你們仍然更划算,即使對方的晶片白送。Blackwell 和 ASIC成本分析(來源:BG2)黃仁勳:因為單是土地、電力、廠房等設施就要150億美元。Brad Gerstner:我們試著做過這背後的數學題。對很多不熟悉的人來說,這聽起來不合邏輯,你把競品晶片定價為零,考慮到你們晶片並不便宜,怎麼可能還是更划算?黃仁勳:有兩種看法。一是從營收角度。大家都受“電力”約束。假設你拿到了新增2GW的電力,那你希望2GW能被轉化為營收。如果你的“token單位能耗(token per watt)”是別人的兩倍,因為你做了深度且極致的協同設計,你的單位能耗性能更好,那你的客戶就能從他們的資料中心產出兩倍營收。誰不想要兩倍營收?而就算有人給他們15%的折扣——比如我們75%的毛利,別人50%-65%的毛利——這點差距也絕不可能彌補Blackwell與Hopper之間30×的差距。過去10年大模型單位能效提升了10萬倍(來源:BG2)就算我們把Hopper和別人的ASIC看作同級,Blackwell也有30×的空間。所以在同一個GW上,你要放棄30×的營收。這代價太大了。就算對方白送晶片,你也只有2GW的電力可用,你的機會成本高得離譜——你永遠會選擇“單位能耗”最強的那套系統。Brad Gerstner:我從一家hyperscaler的CFO那裡聽說過,鑑於你們晶片帶來的性能提升,特別是以單位能耗(token/gigawatt)和“電力供給”為硬約束,他們不得不升級到新的周期。展望Rubin、Rubin Ultra、Feynman,這條曲線會延續嗎?黃仁勳:我們現在一年做六七顆晶片,每一顆都是系統的一部分。系統軟體無處不在。要實現Blackwell的30×,需要跨這六七顆晶片的聯調與最佳化。想像一下,我每年都這麼做,砰、砰、砰地連發。如果你在這鍋“晶片大雜燴”裡只做一顆ASIC,而我們卻在整鍋裡到處最佳化,這就是個很難的問題。Brad Gerstner:這讓我回到開頭的護城河問題。我們做投資許久了,在整個生態投資,也投了你的競爭對手,比如Google、博通。但當我從第一性原理出發,你們改為以年為單位的發佈節奏、跟供應鏈共研、規模遠超所有人預期,這對資產負債表與研發有雙重規模要求,你們通過收購與自研推進了NVFusion、CPX等。因此,你們的護城河在拓寬,至少在“建構工廠或打造系統”這件事上是如此。但有趣的是,你們的估值倍數比那些人都低。我認為部分源自“大數定律”——一家4.5兆美元的公司不可能再變更大了。但一年半前我也問過你,如果市場會把AI負載提升10×或5×,我們也知道Capex的走勢。在你看來,結合剛才談到的優勢下,營收“不大幅更高”的機率有多大?黃仁勳:我這樣回答,我們的機會遠大於市場共識。Brad Gerstner:我認為輝達很可能成為第一家10兆美元的公司。我在這行待得夠久了。十年前,大家還說世上不可能有1兆美元公司。現在我們有十家。今天的世界更大了,對吧?黃仁勳:世界變大了。而且人們誤解我們在做什麼。大家記得我們是“晶片公司”——沒錯,我們造晶片,造的是全球最驚人的晶片。但輝達實際上是一家AI基礎設施公司。我們是你的“AI基礎設施合作夥伴”。我們與OpenAI的夥伴關係就是最好證明。我們是他們的AI基礎設施夥伴。我們以很多方式與客戶合作。我們不要求任何人買我們的一切。我們不要求你買整機櫃,你可以買一顆晶片、一個部件、我們的網路,或僅僅買我們的CPU。也有人只買我們的GPU,配別家的CPU和網路。我們基本上是按你喜歡的方式賣。我的唯一請求是,買點兒我們的東西就行。Brad Gerstner:你說過,不只是更好的模型,還要有“世界級建造者”。你說,也許全國最強的建設者是Elon Musk。我們聊過Colossus One,他在那裡把二十幾萬顆H100/H200組成一個“相干”的大叢集。現在他在做Colossus Two,可能是50萬顆GPU、相當於幾百萬H100的“等效”相干叢集。黃仁勳:如果他先於所有人做到1GW,我不驚訝。Brad Gerstner:既能做軟體與模型,又懂如何打造這些叢集的“建造者”有什麼優勢?黃仁勳:這些AI超級電腦極其複雜。技術複雜,採購複雜(融資),拿地、拿電力與廠房複雜,建設複雜、點亮複雜。這恐怕是人類史上最複雜的系統工程之一。Elon的優勢在於:在他腦子裡,這些系統是一體協同的,所有相互依賴關係都在他一個人腦中,包括融資。是的,而且……Brad Gerstner:他自己就是個“大GPT”、一台“大超算”。黃仁勳:對,終極“GPU”。他有很強的緊迫感,他非常想把它建出來。當“意志”與“能力”相遇時,不可思議的事會發生。六、主權AI:AI正在成為每個國家的基礎設施Brad Gerstner:你深度參與的另一塊是主權AI……回看30年前,你大概難以想像如今你經常出入白宮。總統說你與輝達對美國國家安全至關重要。面對這些,先給我個背景——若不是各國把這件事視為“生死攸關”,至少不亞於我們在1940年代看待“核”,你也不會出現在那些地方。如今如果沒有一個由政府出資的“曼哈頓計畫”,那它也由輝達、OpenAI、Meta、Google來出資。黃仁勳:沒有人需要原子彈,但人人都需要AI。這就是巨大的不同。AI是現代軟體。這是我一開始就說的:從通用計算到加速計算,從人寫程式碼到AI寫程式碼,這個根基不能忘,我們已經重塑了計算。它需要被普及,這就是所有國家都意識到必須進入AI世界的原因,因為每個國家都必須在計算中保持現代化。不會有人說:你知道嗎,我昨天還用電腦,明天我就靠木棍和火種了。所以每個人都得繼續向前,只是計算被現代化了而已。第二,為了參與AI,你必須把自己的歷史、文化、價值觀寫進AI。隨著AI越來越聰明,核心AI學這些的速度很快,不必從零開始。所以我認為每個國家都需要一定的主權能力。我建議大家都用OpenAI、用Gemini、用Grok、用Anthropic……用各類開放模型。但他們也應該投入資源去學習如何“建構”AI,這不僅是為了語言模型,也是為了工業模型、製造模型、國家安全模型。他們要培養一整套“自己的智能”。因此,每個國家都應具備主權能力。Brad Gerstner:這是否也是你在全球聽到與看到的?黃仁勳:是的。他們都會成為OpenAI、Anthropic、Grok、Gemini的客戶,但同時也需要建設自己的基礎設施。這就是輝達在做的大想法——我們在建構“基礎設施”。就像每個國家需要能源基礎設施、通訊與網際網路基礎設施,現在每個國家都需要AI基礎設施。 (虎嗅APP)
新·摩爾定律誕生:AI智能體能力每4個月翻一番!智能爆炸在即
【新智元導讀】AI編程智能體的能力正在飛速增長,最新研究揭示了這一「新摩爾定律」,如果AI智能體的任務時長繼續以每4個月翻倍的速度增長,到2027年它們可能完成長達167小時的月級任務!程式設計智能體能完成的任務量,正以爆炸式的速度增長!而且,這一趨勢還在加速。2024到2025年,它們的任務處理能力每4個月翻一倍;而在2019到2025年,這個翻倍周期則是7個月。22號,AI研究網站AI Digest發表了上述觀點,揭示了一個AI智能體的新摩爾定律。部落格地址:https://theaidigest.org/time-horizons從圖表中可以清晰地看到這一趨勢,任務時長的增長軌跡幾乎是一條陡峭的指數曲線。2019年,GPT-2隻能處理不到1秒的簡單任務;2022年ChatGPT發佈時,AI已經可以完成30秒的程式設計任務。現在,智能體可以自主完成人類需要一小時才能完成的程式設計任務。頂尖的AI系統可以完成的任務長度正在呈指數級增長——每7個月翻一番。這個趨勢是METR的研究人員發現的。他們選取了2019到2025年間最強的AI模型,測試了它們在大約200個任務上的表現。主要是程式設計任務,也有一些邏輯推理任務。然後,他們把AI的成功率和每個任務的長度做了對比——任務長度指的是專業人士完成這些任務需要的時間,從不到30秒到超過8小時不等。測試過所有模型後,出現了兩個明顯的規律:任務長度和AI成功率高度相關(相關係數R²=0.83)。AI成功率達到50%的任務長度——即「時間跨度」——正在呈指數增長。接下來是什麼?這個指數增長的趨勢看起來很穩健,沒有停下來的意思。如果按照這個趨勢推算下去,AI智能體將能夠完成:2026年:2小時的任務;2027年:1個工作日(8小時)的任務;2028年:1個工作周(40小時)的任務;2029年:1個工作月(167小時)的任務。最近,這一趨勢還在加速。2024-2025年間,時間跨度是每4個月任務長度翻一番,而2019-2025年間則是每7個月翻一番。如果按照2024-2025年加速的趨勢(每4個月翻倍)推算,AI智能體可能在2027年就能完成月級任務(167小時)。然而,僅觀察一年的資料給出預測可能會不太穩定,實際的進步速度也可能會放緩。不過,考慮到這個趨勢已經開始加速,它很可能處於一個比指數增長還要快的增長軌道上。這也很符合直覺:隨著增長軌道直線上升,1周和2周任務之間所需技能的差距,可能比1年和2年任務之間的差距更大。此外,隨著AI能力的提升,它們在開發更強大AI方面的作用會越來越大,可能導致超指數級增長。智能爆炸AI智能體的能力提升會反過來加速更強大AI的研發,形成飛輪效應:更強大的AI智能體能夠更快地開發出更先進的AI系統,從而進一步提升能力。這種正反饋循環可能導致超指數增長,甚至觸發「軟體智能爆炸」(software intelligence explosion),即AI能力在短時間內急劇提升,遠遠超過人類的水平。此外,演算法進步也在推動這一趨勢。METR的研究表明,近年來AI在演算法效率上的提升,顯著降低了計算資源需求。通過更高效的預訓練和後訓練方法,即使硬體資源不增加,AI智能體的能力也能快速提升。AI智能體任務時長的指數增長,可能成為人類歷史上最具變革性的趨勢之一。它能在短時間內完成複雜任務,將徹底改變軟體開發、科學研究、醫療診斷等多個領域。例如,一個能夠自主完成月級任務的AI智能體,可以完全自動化軟體工程項目,甚至獨立進行科學研究,從而大幅提高生產效率。這一趨勢也帶來了潛在的社會挑戰。隨著AI智能體能力的快速提升,人類社會可能難以適應這種變化。許多傳統職業可能面臨自動化,人類可能需要轉向更具創造性和策略性的角色。 (新智元)