登入
關鍵字
#摩爾定律
官方認證
北風窗
昨天 11:52
•
華為“韜(τ)定律”,提出在摩爾定律即將失效時
一條新定律,讓華為晶片沖上熱搜。 5月25日,在上海2026國際電路與系統研討會(ISCAS)上,華為正式發佈了一套全新的半導體理論——韜 (τ) 定律。這也是中國企業第一次,在全球半導體領域,拿出一套完整的、可指導行業發展的底層新規則。 華為半導體業務部總裁何庭波署名的同主題論文,提交於中國科學院科技論文預發佈平台 韜 (τ) 定律的公式, 其中,τ_transistor、τ_circuit、τ_chip和τ_system分別表示電晶體層、電路層、晶片層和系統層的時間常數
#華為
#韜定律
#摩爾定律
34人
讚
留言
分享
官方認證
北風窗
昨天 10:46
•
看不懂華為“韜定律”?我們用大白話給何庭波論文做了全解讀!
你也被“華為發表‘韜(τ)定律’”的消息刷屏了麼? 今天上午,國際電路與系統研討會在上海舉行。華為公司董事、半導體業務部副總裁何庭波發表演講,正式發表“韜(τ)定律”。隨後,何庭波關於“韜(τ)定律”的系統闡釋文章《A Time Scaling Theory for Multi-Layer Electronic Systems(多層電子系統的時間縮放理論)》發表在中國科學院科技論文預發佈平台。 研讀完這篇文章,記者發現:“韜(τ)定律”的提出將對中國半導體產業格局帶來顛覆性的影響。本篇文章有點長,我們將用大白話詳細解讀何庭波的這篇論文,同時解釋這個理論的推出將如何影響中國半導體產業發展格局。如果你能耐心讀完,相信一定有所收穫。 01 “韜(τ)定律” 提出,源自摩爾定律放緩
#華為
#韜定律
#半導體
32人
讚
留言
分享
官方認證
北風窗
昨天 10:04
•
華為韜(τ)定律憑什麼掀翻摩爾牌桌?!附何庭波演講全文
2026年5月25日,在上海國際電路系統研討會(ISCAS 2026)上,華為公司董事、半導體業務部總裁何庭波發表主旨演講,正式向全球提出了一個足以載入史冊的全新晶片演進理論——“韜(τ)定律”。這不僅僅是一場學術演說,更標誌著全球半導體產業在歷經半個多世紀的“摩爾時代”後,迎來了從物理極限制約邁向拓撲性能革命的範式轉折。 01 當“幾何縮微”觸及物理與經濟的雙重天花板 理解“韜定律”,首先需要正視其誕生的時代背景。自1965年以來,摩爾定律(電晶體密度每18-24個月翻倍)與登納德縮放定律(Dennard Scaling)構成了晶片產業的金科玉律。在過去的幾十年裡,全球晶片產業通過不斷縮小電晶體尺寸,以近乎零成本的方式換取了指數級增長的性能。
#華為
#韜定律
#摩爾定律
43人
讚
留言
分享
官方認證
北風窗
前天 10:54
•
華為發表半導體演進新定律
摩爾定律面臨物理極限和經濟效益雙重挑戰,全球晶片行業迫切需要探索新的演進路線。 5月25日,電氣電子工程師學會(IEEE)在上海舉辦的國際電路與系統研討會上,華為公司發表了韜(τ)定律,提出以“時間 (τ) 縮微”替代“幾何縮微”,作為半導體與電子系統演進的新指導原則。通過邏輯折疊等創新技術,持續壓縮訊號傳播時延,不斷提升電晶體密度,從而實現半導體與電子系統的持續演進。 華為公司董事、半導體業務部總裁何庭波表示,在過去六年的探索實踐中,華為公司設計並量產了381款遵循韜(τ)定律的晶片。即將於2026年秋季面世的麒麟晶片,更進一步採用了基於韜(τ)定律的邏輯折疊技術,性能有望大幅提升。華為公司預計,到2031年,基於韜(τ)定律的高端晶片電晶體密度有望達到1.4奈米製程的同等水平。 具體來看,邏輯折疊等核心技術,建構了貫穿器件、電路、晶片到系統層面的多層級協同最佳化體系。包括但不限於最佳化電晶體和互連電阻及寄生電容,突破傳統平面佈局的物理邊界,“軟體、架構、晶片”全端軟硬芯協同設計,重構計算系統互聯協議等。
#華為
#半導體
#晶片行業
89人
讚
留言
分享
官方認證
RexAA
2026/01/19
•
ASML EUV光刻機背後的神奇故事
2015年,摩爾定律戛然而止在過去的50多年裡,電晶體變得越來越小,晶片上能容納的數量每兩年翻一番。這就是著名的摩爾定律,由英特爾聯合創始人戈登·摩爾在1965年發現這一規律後命名,它一直是科技行業的主要驅動力之一。但在2015年左右,這一處理程序戛然而止。如果沒有一家製造公司能挺身而出,我們可能永遠無法突破這個瓶頸。對EUV光刻機的嚴格要求想像你被縮小到螞蟻大小,並獲得一把強力雷射,能像切黃油一樣熔化金屬。接著,一滴約白細胞大小的熔融錫滴以每小時250公里的速度從你面前飛過。你的任務是:在20微秒內,用你的雷射連續擊中這個錫滴三次。這正是EUV光刻機所做的:它連續三次擊中一個小錫滴,將其加熱到超過22萬開爾文。這大約是太陽表面溫度的40倍。而且它不只是擊中一個液滴,它每秒鐘要擊中5萬個液滴。光刻機還需要包含可能是全宇宙最平滑的鏡子。如果將其中一面鏡子放大到地球大小,那麼最大的凸起也不會超過一張撲克牌的厚度。除此之外,它能將晶片的一層完美地疊加在另一層之上,誤差不超過五個原子。晶片製造第一步:提取二氧化矽製造微晶片的第一步是取二氧化矽(通常來自沙子),並將其提純為純度接近100%的矽塊,然後在特製熔爐中熔化。接著,將一顆微小的種子晶體放入熔池中。矽原子附著在晶體上,延伸其結構。然後慢慢提升並旋轉種子晶體,最終形成一個巨大的單晶矽錠。單層晶片的製造過程之後用金剛石線鋸將矽錠切割成圓片(晶圓),最多可切成5000片,然後對每一片晶圓進行精細拋光。下一步,塗覆一種稱為光刻膠的光敏材料。在正性光刻膠中,暴露在光線下的區域會變弱且更易溶解。如果讓光線穿過帶圖案的掩範本,就可以選擇性地弱化部分塗層。隨後用鹼性溶液沖洗晶圓,洗掉曝光的光刻膠,留下印刻的圖案。為了將這些圖案轉化為物理結構,通常使用學藥品或電漿體蝕刻裸露的矽,然後沉積銅等金屬來填充這些蝕刻線。最後一步是洗掉剩餘的光刻膠,至此,就完成了一層晶片的製作。晶片製造的四個步驟晶片製造的過程可以簡化為四個主要步驟:塗膠、曝光、蝕刻和沉積。每一層晶片都會重複這個循環,根據晶片的不同,可能會有10到100層。底層是電晶體,這是最複雜的一層,需要數百個必須完美的步驟。高層則容易一些,主要是傳輸訊號和電力的金屬線。最後,完成後的晶圓會有數百個晶片,它們隨後被切割成獨立的塊狀,進行封裝並裝入產品中。光刻中的衍射現象在整個過程中,最困難也最關鍵的一步是光線穿過掩範本照射到晶圓上的過程。這就是光刻,因為這一步決定了能把晶片特徵做得多小。當試圖列印越來越小的特徵時,掩範本上的縫隙開始接近光的波長,這就會產生問題。光的衍射變得不可避免。當一個波的波峰與另一個波的波谷對齊時,它們會互相抵消形成了暗點;而當波峰與波峰對齊時,兩波同相,它們會疊加得到亮點。特徵尺寸和數值孔徑設計者不僅不與衍射對抗,反而利用它來獲得所需的圖案。他們根據最終想要在晶圓上得到的圖案進行逆向推導,設計縫隙,使衍射以特定的方式發生。特徵尺寸越小,零級和一級光之間的夾角 α 就越大。因此,透鏡就需要更大,才能捕捉到光線。透鏡的大小由數值孔徑NA描述,即該角度的正弦值。數值孔徑越大,能列印的特徵就越小。縮小波長可以實現更高的特徵尺寸幸運的是,我們還可以通過改變波長來實現更小的特徵尺寸。紅色雷射波長約為650奈米,如果換成波長532奈米的綠色雷射,會發現衍射後綠色的點比紅色的點靠得更近。這是因為來自兩個不同間隙的光不需要移動那麼遠就能再次達成同相。於是衍射級次靠得更近。因此,使用較短的波長,可以用同樣的透鏡列印更小的圖案。DUV之後,遭遇特徵尺寸極限所有這些都被瑞利方程所涵蓋,它決定了最小特徵尺寸或關鍵尺寸。增加數值孔徑有極限(最大為1),繼續縮小特徵的唯一方法就是使用越來越短的波長。這正是直到1990年代後期所發生的事情,當時行業定格在193奈米的深紫外光DUV,這種光被用於製造直到2015年左右所有最先進的晶片。但到那時,科學家們在縮小特徵尺寸方面已經達到了極限。摩爾定律即將撞上一堵磚牆。因此需要一個徹底的變革,一個已經醞釀了大約30年的變革。木下博雄的想法:使用X射線進行光刻早在1980年代,日本科學家木下博雄提出了一個瘋狂的想法:使用更短的波長,比如10奈米左右的X射線。理論上,這能列印更小的特徵。但這種波長的X射線具有足夠的能量將電子從原子中打出來,所以大多數材料都會吸收它們。與波長小於1奈米的醫療用X射線不同,這些波長仍長到足以與空氣發生相互作用,所以空氣也會吸收它們。這意味著木下的裝置必須處於真空中。更糟的是,透鏡也會吸收它。所以看起來這個想法永遠行不通。但在1983年左右,木下偶然看到了一篇由Jim Underwood和Troy Barbee發表的論文。他們的工作集中在能反射4.48奈米波長X射線的特殊鏡子上。這引起了木下的興趣。曲面鏡可以像透鏡一樣聚焦光線。如果他能弄清楚如何為他使用的波長製造這些特殊的鏡子,那麼這可能是進行光刻的另一種方式。Underwood和Barbee的X射線反射實驗鏡子的工作原理大致如下:當光線從一種介質進入另一種介質時(比如從空氣到玻璃),它會發生折射。部分光穿過去,部分反射回來。反射量的多少取決於角度、光的偏振,以及兩種介質折射率之間的差異。差異越大,反射的光就越多。Underwood 和 Barbee 利用了這一原理。他們製造了不到1奈米厚的超薄鎢層,使透射X射線的路徑長度恰好為其波長的四分之一。接著他們加入了另一層碳,它對4.48奈米波長的折射率比鎢高。X射線撞擊介面後部分被反射,相位改變了半個波長。當新的反射波到達鎢層邊界時,它又行進了四分之一波長,總共行進了半個波長。這樣兩個相位相匹配,波發生了相長干涉。他們總共疊加了76個交替層,從而能反射回更多的X射線。雖然他們當時只設法反射了約6%的光,但這是一個原則性的證明,說明了可以反射X射線。木下設計了發射11奈米光多層膜鏡,不被主流認可木下看到了其中的可能性。大約兩年後,他的團隊設計並製造了三面由鎢和碳組成的彎曲多層膜鏡,用於反射11奈米的光。利用這些鏡子,他成功列印出了4微米(4000奈米)厚的線條,證明了在理論上X射線光刻是可行的。一年後,即1986年,他去日本應用物理學會發表了他的研究結果。他既自豪又興奮地解釋了他的裝置並展示了圖像。但聽眾拒絕相信這一切。木下深受打擊。他後來回憶道,人們傾向於把整件事看作是天方夜譚。沒人相信這是一條可行的道路。來自光源和鏡面的雙重挑戰這種反應至少在某種程度上是有道理的。首先,地球上沒有任何自然物能產生這種光,最近的天然來源是太陽。大多數科學家(包括木下)使用粒子加速器或同步輻射裝置來產生X射線。它們能提供巨大的能量,大到像足球場一樣。因此,每台機器都需要自己的動力源。但即便你能產生這種光,還需要製造極其平滑的鏡子來聚焦並列印那些細小的特徵。如果鏡子表面相對於波長非常粗糙,光線就會發生漫反射。對於普通的家用鏡子,凸起的平均高度大約是4000個矽原子的厚度。但對於需要反射X射線的鏡子,需要達到原子級的平滑。平均凸起只能有約2.3個矽原子厚。如果一面鏡子有德國那麼大,那麼最大的凸起也就大約1毫米高。來自美國的技術支援但木下拒絕放棄。很快,援軍從一個意想不到的地方趕到了。太平洋彼岸,舊金山東邊約70公里處是勞倫斯利弗莫爾國家實驗室。這是一個誕生於冷戰時期的實驗室,由美國政府巨額資助,其唯一目標就是核武器。該實驗室由迴旋加速器的發明者歐內斯特·勞倫斯和氫彈之父愛德華·泰勒共同創立。在其整個生命周期中,他們設計了10多種聚變核彈頭。因此,他們的部分研究集中在核聚變反應內部發生了什麼。聚變反應釋放出大量的X射線,那是他們以前從未能捕捉和分析的光。但現在,利用那些特殊的多層膜鏡,他們有了一個機會。Andrew Hawryluk利用多層膜鏡實現X射線反射Andrew Hawryluk是負責這項工作的科學家之一。幾年內,他和他的團隊利用多層膜鏡反射了一些X射線。1987年聖誕,他寫了一篇白皮書,將這些鏡子應用到光刻中,大約五個月後提出了用X射線印刷晶片的發現。他在一次會議上發表了他的研究。但和木下一樣,他也沒得到預期的回應,觀眾的反應極其負面。他感覺自己走到了職業的低谷。但三天後,他接到了貝爾實驗室Bill Brinkman的電話,他是AT&T的執行副總裁,邀請Hawryluk去紐澤西做個報告。在貝爾實驗室,他找到了志同道合的人。在過去的30年裡,美國政府向國家實驗室投資了數十億美元,以在冷戰期間保持國家的技術領先地位。但之後冷戰趨於緩和,這些實驗室掌握著具有商業潛力的研究成果。因此政府鼓勵實驗室與美國公司合作,將研究轉化為產品以刺激經濟。2000年,EUV原型機產生9.8W的EUV光1996年,美國政府削減了EUV項目的資金。這對英特爾這樣的大型晶片公司來說是一場災難。行業估計,193奈米的光刻工具到2005年將落後於摩爾定律,而且當時沒有其他替代方案。於是,英特爾、摩托羅拉、AMD等公司聯合起來投資了2.5億美元以維持項目運轉,這是私營工業界對美國能源部研究項目進行過的最大規模投資。到2000年,實驗室研製出了工程測試台。它是第一台功能齊全的EUV原型機。它能產生9.8瓦、13.4奈米的EUV光,經過八面鏡子從光源反射到掩模再到晶圓。它能列印70奈米的特徵,並證明了EUV是可行的。原型機一小時智能列印10片晶圓但原型機有一個重大缺陷。它每小時只能列印約10片晶圓。而要使EUV具有經濟可行性,它必須每小時列印數百片,且全年全天候運行。產量如此低的主要原因是光線要經過八面鏡子和掩模(掩模也是一面刻有圖案的鏡子)。傳統的透射式掩模行不通,因為它們會吸收所有的光。每面鏡子的反射率約為70%,這已接近極限,但經過九次反射後,最後只剩下4%的光。這意味著每100個光子中只有4個能到達晶圓。少用幾面鏡子只在一定範圍內有效,今天的EUV系統有六面鏡子。但在經過六面鏡子和掩模反射後,仍然只剩大約8%的光。因此,他們需要將光源功率大幅提高到至少100瓦。對大多數公司來說,這十倍的增長似乎是不可能的。甚至參與工程測試的人也指出,雖然EUV技術本身已成定局,但要讓其成為晶片生產線上的現實,還面臨著無數個工程挑戰。美國公司退出EUV開發,ASML獨自前行於是,美國公司一個接一個地退出了完整EUV光刻機的開發。最後只剩下一家公司:阿斯麥ASML。ASML位於荷蘭一個不起眼的小鎮。它在80年代從飛利浦拆分出來時,只有一間簡陋的廠房和一台幾乎無法工作的晶圓步進機。但飛利浦也給了他們人才,ASML 的第一位研究員Jos Benschop和最終成為ASML首席技術官、EUV最堅定支持者的Martin van den Brink。他就是光刻界的史蒂夫·賈伯斯,預見到了EUV的到來。ASML之前加入了美國的 EUV 財團,現在的任務是找到商業化 EUV 的方法。他們將與德國合作夥伴蔡司(Zeiss)合作,蔡司負責鏡子,ASML 負責光源。矽和鉬在13奈米下的最高反射率70%製造任何光刻系統時,首要決定就是使用那種波長。Underwood和Barbee已經製造出了能反射約4奈米光線的鏡子。因為那些鏡子的最高反射率僅為20%左右,經過六面鏡子和掩模後,光線只剩下 0.00128%,這顯然太低了。幸運的是,研究人員還考察了另外兩對組合:矽和鉬,在13奈米波長下理論最高反射率為70%;以及鉬和鈹,在11奈米波長下理論最高反射率為80%。因為鈹具有極高的毒性,且極難處理。因此,科學家們轉而專注於矽和鉬。蔡司使用濺射工藝製造鏡子為了製造鏡子,蔡司使用了一種稱為濺射的工藝。塗層材料的靶材受到電漿體或離子的轟擊,導致原子被彈出、飛出並粘附在鏡面上。這是一個混亂的過程,所以層表面會產生凸起和縫隙。他們完善了一個巧妙的技巧,利用離子束輔助。只需稍微‘搖晃’一下,直到原子掉進它該去的小孔裡,然後整個表面就平整了。放電產生電漿體的方法功率受限鏡子設計確定後,ASML需要一個特定波長的光源。基本上有三種方法來產生EUV。早期研究人員使用的第一種方法是同步輻射,但由於每台機器都需要自己的獨立光源,它很快就被排除了。另外兩種方法基於相同的原理。當電子與離子復合時,離子會下降到較低的能級,並以光子的形式釋放多餘能量。如果選對了離子,那麼光子的波長恰好就是你需要的。有兩種方法可以產生這些離子。第一種是將金屬加熱直至產生金屬蒸汽,然後在其兩端施加強電場。這會導致自由電子撞擊附近的原子並使其電離。如果此時關閉電場,電子與離子復合產生光。這就是放電產生電漿體DPP。這是ASML最初使用的概念,因為它相對簡單。但只能達到了幾瓦的功率,無法達到期望的100瓦。最終選擇高功率雷射撞擊目標材料產生EUVASML需要徹底改變方案,於是轉而採用第二種方法。這種方法使用高功率雷射撞擊目標材料,產生超過22萬℃的高溫電漿體。電子能量極大,以至於原子核再也無法束縛它們,多達14個電子脫離軌道。雷射關閉後,電子和離子復合產生光。這就是雷射產生電漿體LPP,也是唯一看起來具有可擴展性的方法。事實上,這正是之前工程測試台所使用的方法,用一台1700瓦的雷射器射入氙氣流中,產生13.4奈米的光。使用錫滴替代氙氣但氙氣有一個大問題:轉換效率非常糟糕,只有約0.5%。這是因為氙雖然在13到14奈米範圍內發光,但它在11奈米左右釋放的光更多。所以大部分能量都用來製造鏡子無法反射的光了。此外,雷射並沒有電離所有原子,剩餘的中性氙原子會強烈吸收部分13.4奈米的EUV光。於是 ASML開始研究另一種材料:錫。錫在13.5奈米左右有一個高得多的發射峰,其轉換效率比氙高出5到10倍。但與氙一樣,中性錫原子也會吸收EUV光。於是他們想出了一個瘋狂的主意:每次只發射一個微小的錫滴。但為了獲得所需的功率,必須每秒製造並擊中數萬個錫滴,且所有液滴的形狀和大小必須完全一致。通過精密調製,產生完美的錫滴事實證明,無法瞬間製造出數千個完全相同的錫滴。於是他們找到了一個折中方案。為了製造液滴,極純的錫被熔化,並通過高壓氮氣推過一個微型噴嘴。這個噴嘴以高頻振動,將液流破碎成微小的液滴。這些液滴起初在大小、形狀、速度和間距上都是不規則的,整個過程非常混亂。他們的秘密武器就是如何調製這股錫噴流,使其形成想要的、穩定的液滴。看起來噴嘴射出的所有液滴最初都是不規則的,但在到達雷射擊中點之前,這些不規則的小液滴會聚合在一起,形成間距完美、規則且大小形狀一致、速度相同的液滴。每秒產生5萬個高速錫滴這些液滴不僅必須完全相同,還必須移動得飛快。如果下一個飛來的液滴離得太近,它就會受到干擾並破壞下一次電漿體激發。所以ASML既要求每秒產生5萬個液滴,又要求它們飛行速度極快。到2011年,他們的雷射產生電漿體光源達到了11瓦,比之前的光源翻了一番。但他們仍受限於每小時僅5片晶圓的產出。他們需要快速提高功率,因為他們承諾到2011年底達到每小時60片晶圓的產出。使用氫氣處理剩餘的錫,保證鏡面清潔ASML這種新方法有一個重大缺陷。錫的問題在於,雖然能以很高的效率產生EUV光。需要處理剩下的錫,因為就在30釐米外,就放著蔡司製造的原子級平滑、非常精美且昂貴的鏡子。那怕只有1奈米厚的錫掉在集光鏡上,那面鏡子就報廢了。這些機器需要運行一年,ASML需要讓它在一年內保持近乎完美的清潔。他們用到的主要的工具實際上是氫氣。他們在腔體中充入低壓氫氣,可以減緩並冷卻錫顆粒。即使有些錫落到了集光鏡上,氫氣也會將其剝離,形成一種叫做甲錫烷的氣體。這樣機器在運行的同時也在進行自我清潔。但這些氫氣也會因為那些錫爆炸而變熱。因此,他們需要不斷向系統中注入新的、更涼爽的氫氣,同時排出甲錫烷和過熱的氣體。壓力和流速控制必須恰到好處。氫氣太少,鏡子會變髒;氫氣太多,不僅會吸收過多的EUV光,還會導致系統過熱。需要以360km/s的速度沖洗氫氣為了搞清楚有多少能量沉積在氣體中,我們買了一個超高速攝影機。他們觀察到,在每次電漿體激發後,都有一道衝擊波傳播到氫氣中,而且重複性極高。於是有了泰勒-馮·諾依曼-謝多夫公式,它能解釋從核爆炸到超新星爆發等各種環境下的點源爆炸。ASML團隊用這個公式,完美契合了資料。EUV光源每秒發生5萬次這種微型超新星爆發。利用這些能量計算,他們發現需要以約每小時360公里的速度沖洗氫氣,那比五級颶風還要快。“ASML EUV光刻機背後的神奇故事”蔡司即時測量鏡面角度,實現高精度控制但2012年過去了,他們仍然沒有足夠的功率。事實上,到2013年,ASML通過每秒射擊5萬個錫滴才剛達到50W。但功率增加也帶來了代價:功率越高,熱量越高。熱量最終會導致鏡子發生輕微偏移,導致光線失準和晶片層錯位。於是蔡司直接在光學系統中內建了一套神經系統,利用機器人引導的感測器即時測量每面鏡子的精確位置和角度,精度達到奈米級和皮弧度級。這種精度相當於在地面發射移到雷射到月球表面,控制雷射從月球表面一枚硬幣的一側移到另一側。這讓他們在功率增加的情況下也能控制光線。在EUV尚未成功時,就押注High NA EUV儘管蔡司在光學方面做得極其出色,ASML仍在為動力源苦苦掙扎。問題在於錫滴密度太大,這意味著大部分發射出的EUV光在到達集光鏡之前就被中性原子重新吸收了。他們轟擊液滴的方式光線不夠,碎片太多。更糟糕的是,他們預見到大約10年後將需要新一代機器——高數值孔徑(High-NA)EUV機,這種機器擁有更大的光學系統,能列印更小的特徵。他們不僅全部押注在EUV上,而且在還沒確定它能否成功之前就加倍下注。要求主要客戶投資研發但為了維持開發,他們需要巨額資金。於是ASML 聯絡了它的主要客戶,告訴他們得通過向ASML投資來讓他們能投更多錢。英特爾投資了約41億美元,三星和台積電合起來又投資了13億美元。研發得以繼續,但由於拿不出產品,客戶的耐心正在耗盡。他們在每次會議上都被‘公開處刑’,因為去年承諾的事情沒能兌現。他們會說:這是你兩年前展示的,這是你去年展示的,這是你今年告訴我的。我憑什麼相信你?”轉機:兩次雷射打擊錫滴開發團隊開始變得絕望,2013年ASML仍掙紮著提高EUV功率。最終轉機來自於改變雷射擊中錫滴的方式:不再只打液滴一次,而是打兩次。“第一槍擊中液滴,使其膨脹成薄餅狀。然後才發第二槍,即更強大的主脈衝,將其蒸發並轉化為電漿體。”這是一個重大突破。通過將目標從液滴改為薄餅狀,為雷射蒸發提供了更大的表面積,且沒有增加額外碎片或中性原子的代價,因為現在錫滴是一次性被蒸發的。到2014年,他們終於達到了夢寐以求的100W大關。使用雷射幕簾,精確擊中每個錫滴但隨著193奈米多重曝光技術的改進,意味著EUV只有在達到200瓦且每小時產出125片晶圓時才有價值。其中一個問題是,如何完美計時雷射以擊中每個液滴。這就像是你要讓一個高爾夫球落在200米外的小洞裡,不是落在果嶺上滾進去,而是直接空心入洞,每一次都要中。那些錫滴穿行在氫氣流的大漩渦中,速度極快,就像在龍捲風中射高爾夫球,然後在它降落在洞口的一瞬間被雷射擊中。為了追蹤液滴,ASML使用了雷射幕簾,可以監測液滴何時穿過。那些散射的光子會告訴他們液滴何時何地出現。從而精準告知何時發射雷射。通過真空中注入適量氧氣,讓集光鏡保持更久的清潔隨著光源功率的提升,在開始製造機器之前還有一個最後的問題需要解決。雖然氫氣保護了集光鏡免受碎片的侵害,但它並不完美。密集的高能光子和氫離子到處亂竄,損壞了集光鏡上的一種特殊頂層塗層。導致他們每10小時就得清洗一次鏡子,這對生產效率來說太糟糕了。Martin van den Brink每天都詢問進度。後來一位工程師注意到,每次他們打開機器時,鏡子突然顯得乾淨了一些。他由此受到啟發,提出給系統加入一點點氧氣,或許就能確保集光鏡能保持更久的清潔。於是他們開始實驗真空環境下所需的氧氣量,最後得出了結論:加入特定量氧氣,就能讓集光鏡保持更久的清潔。有了這個修正方案,ASML的機器可以連續運行更長時間,終於具備了商業可行性。2016年,開始交付EUV到2016年,訂單開始接踵而至。現在所有最先進的晶片都需要ASML的機器,這使他們或許成為了世界上最重要的科技公司。ASML的首批商業化機器數值孔徑為0.33,可以列印13奈米的線條。這些被稱為低數值孔徑機器,ASML目前仍在製造。但Jan的團隊早在2012年就開始研究的是下一代,它擁有更大的光學系統,能列印更小的特徵。這就是高數值孔徑EUV,數值孔徑達到0.55。單台價格超過3.5億歐元。人類第一台High NA EUV這是人類建造過最先進的機器。歷經多年、數十年的研發和數百億美元的投入,才造就了這個龐然大物。這是第一台High-NA機器。人類歷史上列印出的第一批8奈米線條,就是出自這台機器。地球上最平滑的物體全都在這台機器裡面。雷射系統被棕色的櫃子蓋住,但ASML展示了一個模型版本。一個功率僅幾瓦的二氧化碳雷射器進入這個放大器,在裡面來回反射,直到功率增加到原來的五倍。隨後它要經過總共四個不同的放大器,使最終的雷射達到20000瓦,這比切割鋼材的雷射還要強四倍。實現每秒10萬錫滴的雷射打擊ASML第一代EUV機器與最新一代之間的一個改進是擊中液滴的脈衝數量。第一個預脈衝仍將液滴壓扁成薄餅狀,但現在有了第二個預脈衝進一步降低其密度。它基本上將其變成了低密度氣體,使其稀疏化。然後最後的脈衝基本上將其全部電離。這樣,對於驅動雷射器輸出的相同功率,他們能獲得更多的EUV光。ASML目前出貨的最新EUV光源大約在500W水平,他們將頻率提高到了每秒60000次。他們的路線圖是朝著每秒10萬個液滴進發。他們現在已經在實驗室演示了每秒10萬個液滴。所以這不再是是否的問題,而是何時的問題。太瘋狂了。目前出貨的高數值和低數值孔徑機器都使用三個脈衝,並最終將擊中更多的液滴。EUV光源只是完整機器的一小部分但光源只是完整機器的一小部分。EUV光在集光鏡反射後,進入照明器。一組鏡子在光線撞擊掩範本之前對其進行整形和聚焦。掩範本位於上半部分,這個模組是在單獨的設施中建造並稍後安裝的。接著光線進入投影光學箱,這是一組縮小光線的鏡子。高數值孔徑機器可以在垂直方向將圖案縮小八倍,在水平方向縮小四倍。鏡子也更加平滑。如果低數值孔徑的鏡子有德國那麼大,最高的凸起約1毫米。但如果高數值孔徑的鏡子有世界那麼大,最高的凸起只有一張撲克牌的厚度。通過這些改進的結合,ASML將數值孔徑從0.33提升到了0.55。最後,光線撞擊晶圓。為了達到每小時列印185片晶圓的速度,掩範本以超過20g的加速度來回抽動。這超過了F1賽車加速度的五倍。這是機器內部的實際影像,不是加速播放。EUV機器需要實現驚人的精度,層間偏差小於1奈米這台機器最瘋狂的地方不在於掩範本移動得有多快,甚至不在於它能列印多小,而是它必須達到的驚人的精確度。任意兩層之間允許的最大偏差(即套刻精度)是1奈米。這是五個矽原子的精度。通常ASML系統工程師會做一個預算。整體允許誤差一奈米,然後他們將這一奈米再細分下去到每個小組。每個小組為屬於他們的那部分奈米而奮鬥。EUV光刻機充滿了迷人的反差感:如此巨大的機器、這麼多的基礎設施,只為了製造人類能規模化製造的最小的東西。你想去的地方越微觀,周圍的一切就變得越宏觀。需要7架波音747、25輛卡車運輸機器組裝、測試並獲批後,會被拆解運往世界各地。5000家供應商提供10萬個零件、3000根電纜、4萬個螺栓和2公里的軟管。ASML運輸一台高數值孔徑機器需要250個集裝箱,分裝在25輛卡車和7架波音747貨機中。儘管充滿了懷疑和挫折,EUV終於在木下博雄拍下第一張圖像30年後進入了製造領域。但即便在全世界幾乎都不相信它能成功的時候,ASML的一些人早在2001年就預見到它能行。為了讓EUV成功,他們克服了成千上萬個障礙,奮鬥了30多年。這不由得讓人想起一句話:理性的人讓自己適應世界;而不理性的人堅持讓世界適應自己。因此,所有的進步都取決於那些不理性的人。 (梓豪談芯)
#ASML
#摩爾定律
#EUV光刻機
273人
讚
留言
分享
官方認證
RexAA
2026/01/19
•
超越摩爾定律的晶片新世界
超越摩爾定律的晶片新世界:先進封裝More than Moore:-- “ from Words to Worlds”的晶片新世界你有沒有想過,我們日常使用的AI工具,比如能寫詩的ChatGPT,能畫圖的Midjourney,它們把我們的“想法”(Words)變成真實可見的“內容”(Worlds),到底需要什麼?答案是:超乎想像的算力!在過去的半個世紀裡,晶片工業只做一件事:把電晶體做得越來越小。這就像在一張無限大的紙上,把文字越寫越密,這就是著名的摩爾定律(Moore)。但現在,這張“紙”快寫滿了,筆尖也細無可細。我們的晶片,正在撞上一堵物理之牆。去年11月,我讀了李飛飛發表的文章《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》並分享了學習筆記。在李飛飛的長文中,將空間智能定義為 AI 的下一個前沿,然而單純依靠現有技術遠遠不夠。為了讓AI的“from Words to Worlds”之旅繼續下去,晶片工業必須找到新的出路。於是,一場從“平面鋪開”到“立體堆疊”的革命悄然發生。我們不再死磕“更小”,而是走向“更高”、“更密集”——這,就是超越摩爾定律(More than Moore)的時代。一、 物理學的牆:為什麼晶片“玩不動”了?AI就像一個永不滿足的“大胃王”,它吃的資料量和需要的計算力,正在把傳統晶片逼到崩潰邊緣。具體來說,晶片遇到了三堵“難關”:1. “發燒牆”:晶片熱得快熔化了想像一下,在指甲蓋大小的面積上,擠著幾百億個微型“CPU”,它們同時全速運轉,產生的熱量密度比家裡的電熨斗還高!傳統的晶片基底(就像晶片的“底板”)導熱能力有限,根本來不及散熱。晶片一旦過熱,就會變慢甚至“罷工”。這嚴重限制了AI算力的進一步提升。2. “堵車牆”:資料跑得太慢了晶片內部就像一座繁忙的城市,CPU是市中心,記憶體是郊區倉庫。傳統上,CPU取資料要跑很遠的路,就像城市交通經常“堵車”一樣。資料傳輸耗時又耗電,拖慢了整個AI計算的速度。3. “原子牆”:小到不能再小了當電晶體小到奈米等級,已經接近原子的尺寸。電子不再老老實實地待在電路里,而是會像“幽靈”一樣隨意“穿牆而過”(專業術語叫“量子隧穿”)。這會導致電路不穩定,性能反而下降。所以,光靠“縮小”這條路,真的走到頭了。二、 結構學的解:給晶片“蓋摩天大樓”既然“平面鋪開”不行,那就“向天空要空間”!先進封裝,就是給晶片“蓋摩天大樓”。它不再是簡單地把晶片“包起來”,而是通過精巧的設計,把不同的晶片垂直堆疊、緊密連接起來。(配圖:“摩爾定律極限”的擁擠與過熱 Vs“超越摩爾定律”的先進封裝帶來的清涼與高效)從“平房”到“摩天大樓”:垂直堆疊的魔術我們把CPU(處理器)、GPU(圖形處理器)、HBM(高頻寬記憶體)這些原本平鋪的晶片,像樂高積木一樣一層層“蓋”起來。這靠的是什麼技術呢?矽通孔(TSV):可以想像成在晶片之間打通無數根微型“電梯井”,讓資料可以直接“上上下下”,傳輸距離從幾釐米縮短到幾微米!混合鍵合(Hybrid Bonding):這是一種超精密的“銲接”技術,能把不同晶片嚴絲合縫地粘在一起,讓它們工作起來就像一個整體。通過這種“垂直進化”,資料傳輸速度提升了百倍,功耗也大幅降低,完美解決了“堵車牆”的問題。從“水泥”到“特種鋼”:為“摩天大樓”選新材料傳統的晶片底板(矽中介層)就像普通水泥,扛不住AI計算的“高燒”。所以,我們正在尋找更耐熱、更穩定的“特種鋼”來做“地基”:碳化矽(SiC):它的導熱能力是傳統矽的3倍多!就像給晶片穿上了一層“特種盔甲”,特別適合那些超級發燒的AI晶片,能把熱量迅速導走。玻璃基板(TGV):別小看玻璃,這種特殊玻璃不僅平整度極高,絕緣性好,還能做得更薄,承載更多更密的電路。像英特爾(Intel)這樣的巨頭,就看好它成為下一代晶片的“超級底板”。三、 經濟學的帳:誰在為AI的“新世界”鋪路?在以前,封裝只是晶片製造流程中不起眼的“收尾工作”。但現在,它已成為AI晶片性能的關鍵。如果說在“More Moore”時代,光刻機是晶片行業的“皇冠”;那麼在“More than Moore”時代,先進封裝就是皇冠上那顆越來越閃耀的明珠。當一顆AI晶片近一半的性能提升和成本增量,都來自於先進封裝時,這個賽道自然成了兵家必爭之地。這正是中國半導體企業,在某些領域實現“彎道超車”的關鍵機遇!以下是A股在這個領域有硬實力的代表企業(僅為行業觀察,不構成投資建議):1. 蓋樓的總包商:晶片封裝的“國家隊”長電科技 (600584):國內晶片封裝龍頭老大,全球排名前三。他們掌握了XDFOI等最先進的2.5D/3D封裝技術,就像擁有了給晶片蓋“超級摩天大樓”的全套圖紙和施工能力。通富微電 (002156):它跟AI晶片巨頭AMD深度合作。AMD的AI晶片賣得越好,通富微電的訂單就越多,就像繫結了一個“大客戶”,旱澇保收。2. 蓋樓的材料商:晶片“底板”的創新者深南電路 (002916) / 興森科技 (002436):它們生產的ABF載板,是連接晶片和電路板的關鍵“底板”,就像摩天大樓的堅實地基。目前全球高端載板主要被日韓台壟斷,這兩家公司正在努力打破這種局面。沃格光電 (603773):他們正在研究玻璃基板技術。如果說傳統的晶片底板是“普通磚頭”,那麼玻璃基板就可能是未來的“透明鋼材”,代表著行業最前沿的技術方向。3. 蓋樓的裝置商:晶片“連接”的“超級工匠”拓荊科技 (688072):在晶片製造中,有一類裝置叫“薄膜沉積裝置”,是用來在晶片表面“刷油漆”的,非常精密。拓荊科技就是這個領域的專家,他們的裝置是實現晶片間“無縫連接”的關鍵工具。芯源微 (688037):在晶片封裝中,需要把很多微小的“點點”連接起來。芯源微就是提供這種“點膠”和“顯影”裝置的,它們能把晶片之間的連接做得更精細、更可靠。 (晚笙筆記)
#摩爾定律
#先進封裝
#晶片
248人
讚
留言
分享
官方認證
美股艾大叔
2026/01/11
•
【CES 2026】黃仁勳的推理戰爭-AI推理成本暴跌90%
上一會還在沉浸在機器人,車機在 CES 的震撼(見當科技停止講故事,開始拼執行力:從 CES 2026,看全球科技進入“現即時代”),下一秒拉斯維加斯的CES展會剛結束,那個永遠穿黑色皮衣的老黃——黃仁勳,又讓整個科技圈坐不住了。這次他沒有再站在台上喊"我們的算力有多強",而是拋出了一個更實在的問題:"用AI太貴了,得降價。"聽起來有點像淘寶商家的思路?但這次不一樣。當大家還在為搶到NVIDIA上一代晶片擠破頭時,他直接甩出了下一代平台——Rubin。更關鍵的是,他喊出了一句話:訓練AI的戰爭結束了,接下來打的是推理戰爭。(圖片來源@dotey)01 什麼是"推理戰爭"?先說個簡單的例子。想像你在學開車。"訓練"就是駕校教練一遍遍教你的過程,需要時間和教練的精力。AI公司這幾年就是這麼幹的——砸錢買幾萬塊GPU,沒日沒夜地訓練模型。"推理"就是你自己開車上路,每次看到紅綠燈做判斷、遇到行人踩剎車。這才是AI真正被使用的時候。過去三年,科技巨頭們瘋狂干的事就是"訓練"——花大錢、用成千上萬塊GPU,把ChatGPT、Claude這些模型訓練得越來越聰明。但問題來了:模型是聰明了,真正用的時候太貴了。就像你花100萬請了個世界冠軍教你開車,結果每次出門還得再付100塊"使用費"。出門一趟兩趟還好,天天誰受得了?這就是黃仁勳要解決的問題:讓AI真正用得起。這次CES上,他沒再吹"我們的晶片有多牛",而是一直在講"怎麼把成本打下來"。Rubin平台這次能做到什麼程度?同樣的AI任務,成本只要原來的十分之一。以前花1美元能做的事,現在10美分就夠了。什麼概念?就像你原來打一次車要100塊,現在降到10塊,原本偶爾打打車,現在可能天天打都無所謂。只有算力便宜到這個份上,AI應用才能真正爆發。02 Rubin是怎麼做到的?NVIDIA這次玩了個新花樣。以前顯示卡時代,大家都想著怎麼把單塊顯示卡做更強。有點像小時候搭積木,總想著搭個最高的塔。但黃仁勳說:單塊積木再高也有限制,不如搭個"團隊"。所以Rubin平台一口氣放出了6塊不同的晶片:Rubin GPU:負責"計算"的大腦Vera CPU:負責調度的管家NVLink 6:連接所有晶片的高速公路還有其他幾塊專門負責網路、資料流動的晶片這6塊晶片不是隨便湊一起,而是像一支配合默契的足球隊——前鋒、中場、後衛、守門員各司其職,比一個人單打獨鬥強多了。最終結果呢?整個平台的推理性能達到上一代的5倍。成本反而降到了1/10。這就是"團隊作戰"的威力。特別要說一下NVLink 6。精準地說:NVLink 6是連接多塊GPU的"高速公路",頻寬達到3.6TB/s。它讓多塊GPU能像一塊一樣協同工作,是實現相較於上一代有"5倍性能提升"的關鍵一環,但不是唯一因素。整個5倍提升是6塊晶片一起發力的結果。有點像裝修房子:NVLink 6是寬敞的走廊,讓各房間連接順暢但房子好不好用,還得看客廳、臥室、廚房怎麼配合03 讓AI學會"思考"光有便宜的算力還不夠,AI還得"聰明"。之前很多自動駕駛AI像什麼?像只會條件反射的蟲子。看到紅燈停,看到綠燈行,遇到沒見過的情況就懵了。NVIDIA這次開放原始碼的Alpamayo模型,想教AI學會"思考"。什麼意思?想像你在開車,突然遇到一個壞掉的紅綠燈——既不紅也不綠,就那麼黃燈閃啊閃的。條件反射式的AI會怎麼做?可能直接卡住,因為"題庫"裡沒這題。但真正會"思考"的AI會琢磨:周圍的車在幹嘛?大家都在慢慢通過,看來可以走。但要小心點,隨時準備剎車。這種"琢磨"的過程,就是Alpamayo想教給AI的能力。它加入了"思維鏈"功能,讓AI不再是死記硬背,而是學會像人一樣推理。有人說得挺形象:以前的AI是背題庫,Alpamayo是教機器解題的方法。更關鍵的是,NVIDIA把這個模型開源了——相當於把解題思路免費公開,讓誰都能拿去用。為何這麼做?用黃仁勳的話說:軟體都免費了,開發者想用好,自然就得買NVIDIA的硬體來跑它。這招挺聰明的。就像印表機廠家把印表機賣得很便宜,靠賣墨盒賺錢。NVIDIA是把"墨盒"免費了,但你要用還得買它的"印表機"。04 這對普通人意味著什麼?說了這麼多,跟普通人有啥關係?如果你是個使用者:以後你用的AI應用可能會更便宜。因為算力成本降了,那些靠AI生成的圖片、視訊、客服聊天,價格都可能跟著降。如果你是個開發者:搭AI應用的成本會大幅降低。以前可能因為太貴不敢做的項目,現在可以試試了。而且NVIDIA開源了Alpamayo,你可以直接拿去用,不用從零開始。如果你是投資者:NVIDIA在賭下一個大方向:AI從"實驗室"走向"真實世界"。你看它這次和奔馳合作,直接把整套自動駕駛系統裝到2026年上市的CLA車型上。還在往人形機器人領域使勁。ChatGPT只是AI的開始,真正的大市場是那些能跑、能跳、能幹活的機器。總之,AI可能真的要從"昂貴的高科技玩具"變成"像水電一樣的基礎設施"了。至於這一天什麼時候真正到來?那就看Rubin平台2026年下半年正式出貨後的表現了。05 摩爾定律慢下來了,黃仁勳沒有摩爾定律說的是晶片性能每18個月翻一番。但現在這個定律已經明顯慢下來了——物理快到極限了。但黃仁勳沒有等。從Hopper到Blackwell,再到現在的Rubin,NVIDIA的節奏從來不是等摩爾定律來推自己,而是自己去推摩爾定律。這次CES傳達的訊號很明確:造更聰明的AI時代過去了,接下來要讓AI用得起。這才是AI真正走進千家萬戶的開始。 (白羊武士弗拉明戈)
#CES 2026
#黃仁勳
#AI
274人
讚
留言
分享
官方認證
RexAA
2025/12/27
•
系統級摩爾定律:推理時代 NVIDIA×Groq 的真實含義,光進銅退的再加速
過去半個世紀,“摩爾定律”幾乎是科技行業最強的敘事武器:把更多電晶體塞進一顆晶片,性能更強、成本更低,世界自動向前滾動。但到了 AI 時代,尤其進入大模型推理成為主戰場之後,這套敘事正在發生一次深刻升級——摩爾定律從“晶片內部”擴展為“系統工程”。如果說過去的摩爾定律在追求“每平方毫米更多電晶體”,那麼 AI 時代的摩爾定律更像是在追求:單位時間產出更多 token(token throughput),並且這條曲線要能持續向上。而 token throughput 的提升,早就不再是單顆 GPU 的問題,它是一整座“AI 工廠”的問題:晶片、HBM、封裝、PCB、供電散熱、機櫃內互聯、機櫃外網路,以及軟體如何把這些組織起來、調度起來,讓系統始終跑在“最短板”之上。在這個框架下,NVIDIA×Groq 的合作/交易(無論最終形態是什麼)更值得被理解為:推理時代的一次“系統級加碼”,而不是“解決某個供應鏈瓶頸”的神蹟。一、先把交易定性:不是“買產能”,更像“推理能力授權 + 關鍵人才併入 + 生態介面補強”市場上最常見的誤讀,是把這類交易想像成“為了補齊 CoWoS、HBM、電力”等供給瓶頸而做的資本動作。現實更複雜。公開披露資訊顯示,這一合作/交易的核心是推理技術的非獨家授權,並伴隨 Groq 核心人員加入 NVIDIA 推進相關技術的規模化落地,Groq 公司仍獨立營運。換句話說,它更像是在為 NVIDIA 增加一條推理時代的“技術路線選項”,並把關鍵經驗與人才納入自己的產品化體系,而不是直接改變封裝產能、HBM 供給這類供應鏈事實。這一定性非常關鍵:因為它將討論重心從“供給約束”拉回到“推理範式”。二、AI 時代的“系統級摩爾定律”:為什麼摩爾定律必然外溢到 PCB、機櫃和互聯?推理系統的吞吐,本質上受制於一個非常樸素的三角形:算、存、傳。算(Compute):算力夠不夠、計算單元是否被喂飽存(Memory):權重/啟動/KV 的訪問是否形成記憶體牆傳(Communication):跨卡、跨 tray、跨機櫃的資料交換是否堵塞這個三角形的殘酷之處在於:只要把其中一條邊推上去,瓶頸就會遷移到另一條邊。因此推理時代的競爭,必然從 GPU 單點性能擴展到系統工程能力:互聯拓撲、網路頻寬密度、功耗與可靠性、軟體抽象與調度策略,都會變成吞吐曲線的一部分。這也解釋了為什麼 NVIDIA 的“摩爾定律”會被改寫成系統級版本:它追求的不是單晶片 transistor scaling,而是整座 AI 工廠的 token scaling。三、MoE 推理的結構性事實:天然需要“權重分層”(Weight Hierarchy)如果要理解“Groq 的 SRAM 路線”為什麼會在推理時代顯得格外有價值,必須先抓住當下主流模型架構之一:MoE(Mixture of Experts)。MoE 在推理側的關鍵特徵是:權重訪問天然分成兩類。1)always-on 的熱權重:每個 token 都必須執行的部分dense 層shared experts(共享專家,層層必跑)2)sparse-on 的冷權重:按路由稀疏啟動的部分routed experts(例如從 256 個裡選 top-8)啟動更隨機、訪問更像“按需取用”於是,一個極其工程化、極其自然的推理加速方向出現了:把 always-on 的熱權重常駐在更近、更低延遲、更高頻寬的儲存層(比如 SRAM/近儲存),把 routed experts 留在 HBM 或更遠端,並用熱度快取/複製策略最佳化。這件事的目標不是“省 HBM”,而是更直接的兩件事:降低 latency(減少權重搬運等待)提高穩定吞吐(HBM 頻寬從“啥都搬”變成“只搬稀疏部分”)可以把它理解為:CPU 時代的 cache hierarchy,在 MoE 時代升級為 weight hierarchy。四、用 DeepSeek V3 做一次“量級校驗”:為什麼“3–4GB FP8 熱權重集合”是硬體形態演化的抓手?推理討論最怕缺乏量級感。這裡用 DeepSeek-V3(總參 671B、每 token 啟動 37B,MoE 架構)做一次可復算的量級校驗。結合典型實現參數(hidden=7168,MoE FFN 的 intermediate=2048,約 58 個 MoE 層 + 3 個 dense 層;每 MoE 層 1 shared + 256 routed;每 token top-8 路由),可以得到一個關鍵結論:always-on 的熱權重集合本身就是 GB 級。1)shared experts(跨 58 層)的 FFN 主權重規模門控 FFN(如 SwiGLU)的一個 expert,近似包含三塊矩陣:up、gate、down。每層 shared expert 參數量約為:Params ≈ 3 × hidden × moe_intermediate= 3 × 7168 × 2048≈ 44M / 層58 層合計:44M × 58 ≈ 2.55B 參數2)3 個 dense 層的 FFN 主權重規模dense 的 intermediate 更大(約 18432):Params ≈ 3 × 7168 × 18432≈ 396M / 層3 層合計 ≈ 1.19B 參數3)合計熱權重集合(FFN 主體)≈ 3.74B 參數2.55B + 1.19B ≈ 3.74B 參數按 FP8 粗算 1 byte/參數:≈ 3–4GB 量級(不同實現是否包含量化中繼資料會有小幅偏差)這個量級的意義非常關鍵:大到:普通意義上的 L2/L3 cache 解決不了問題小到:如果系統存在某種近儲存層/推理專用駐留層,讓這 3–4GB 常駐,就非常有吸引力換句話說,MoE 推理天然提供了一個“熱權重集合”的明確對象——這就是推理硬體形態演化最容易抓住的把手。註:估算聚焦 FFN/expert 權重,是因為 MoE 推理權重搬運的大頭集中在專家 FFN;注意力部分在不同架構(如低秩投影/MLA 等)下可顯著壓縮,不改變熱權重集合為 GB 級這一判斷。五、“Groq 式 SRAM/近儲存能力”的合理落點:推理專用“熱權重層”,不是取代 GPUGroq 長期強調片上 SRAM 帶來的高頻寬與流水線式推理執行。把這一點放到 NVIDIA 的系統工程語境裡,最符合邏輯的推斷並不是“把 NVIDIA 變成 Groq”,而是:為推理系統增加一層 熱權重近儲存/專用駐留層讓 GPU 更容易被喂飽,提高有效 token/s通過軟體抽象層把這種形態納入 NVIDIA 生態,降低開發與遷移成本這裡關鍵不是“SRAM 這個名詞”,而是:更近、更低延遲、更高頻寬的權重層。至於它長在 GPU 封裝裡、長在板上、長在 tray 上,或者以某種異構加速單元形態出現,都屬於工程實現的分叉路線;但動機與收益目標是清晰的:推理提速。六、最重要的鏈式反應:計算效率上升 → 互聯壓力上移 → 光進銅退可能再加速一旦熱權重常駐近儲存,使推理端的“記憶體牆”變薄,系統會進入典型的再平衡過程:單節點有效 token/s 上升(等待變少、計算更“吃飽”)同時間裡生成更多 token,平行請求更大MoE 路由與跨卡/跨節點組織開銷佔比上升為繼續擴吞吐,系統平行度向外擴:卡內 → tray 內 → 機櫃內 → 機櫃間互聯成為新短板:頻寬密度、距離、功耗與可管理性壓力增大銅在更高頻寬與更長距離下更快觸頂,光的滲透被動加速因此,“推理提速→互聯升級→光進銅退”的邏輯並不是口號,而是一條相對自洽的系統工程鏈條:推理加速的盡頭往往不是算力,而是互聯;當計算更快,互聯必須更快。這也解釋了為什麼很多人只盯著 GPU 出貨,會低估光通訊的“二階彈性”:計算端效率提升,會讓通訊需求斜率變陡,從而推高機櫃內/機櫃間頻寬升級的緊迫性。七、投資對應:系統級摩爾定律下,那些環節更容易成為“增量受益”?如果把“推理吞吐持續提升”作為主線,那麼產業鏈受益往往不是單點,而是鏈式擴散。1)機櫃內互聯:從“銅還能撐一撐”走向“更早換光”頻寬密度更快觸頂距離、損耗、功耗與可維護性讓銅在高階速率下更尷尬光在機櫃內滲透有可能被動加速2)機櫃間網路:更高階速率光模組與交換體系token/s 上升帶動跨節點平行更深scale-out 網路更容易成為系統短板交換晶片、光模組速率升級與拓撲最佳化的需求更強3)PCB/連接器/電源散熱:系統密度提升的“基礎設施”計算更密,供電散熱與板級設計更關鍵可靠性與可維運性成為規模化推理的隱性門檻4)軟體與調度:最終決定“硬體是否兌現吞吐”MoE 路由、批處理、快取/複製策略跨卡/跨節點通訊編排統一抽象層(生態介面)帶來的鎖定效應如果說訓練時代的核心是“買更多 GPU”,那麼推理時代的核心越來越像“買系統、買網路、買軟體”。八、風險提示與可證偽點:那些前提不成立,推演就要改寫?為了避免過度演繹,有必要把邊界條件講清楚:MoE 未必長期絕對主導:結構變化會改變“熱權重集合”的形態近儲存不必然是 SRAM:實現路徑可能多樣,關鍵是“更近的權重層”專家不必然跨機櫃:現實系統會優先局部化、熱專家複製,跨櫃更多是邊界情況收益受制於軟體調度:硬體再優,調度若跟不上,吞吐不會線性提升TCO 約束:電力、散熱、網路、維運、良率與供給鏈會共同決定最優點這些因素決定了:相關判斷應被視作“方向與機制”,而不是確定性預告。結語:NVIDIA×Groq 更像推理時代的“系統級選項”,而不是供應鏈神話當摩爾定律升級為系統級摩爾定律,推理競爭的核心就從“單點性能”轉向“系統吞吐曲線”。MoE 推理所暴露出的“熱權重集合”與“權重分層”需求,為近儲存/推理專用駐留層提供了清晰抓手;一旦推理效率上升,互聯壓力上移,機櫃內與機櫃間的頻寬升級與光滲透加速也更可能成為連鎖反應。因此,NVIDIA×Groq 的意義更接近:推理時代的一次系統級加碼——未必立刻改變供給,卻可能在下一代推理範式與異構硬體生態的介面層與方法論層面,提前佔住高地。(彼得全球科技觀察)
#摩爾定律
#NVIDIA
#Groq
191人
讚
留言
分享