何庭波萬字論文,詳述華為“韜定律”

5月25日,華為公司董事、半導體業務部總裁何庭波在中國科學院科技論文預發佈平台上發表署名論文《多層電子系統的時間縮微理論(A Time Scaling Theory for Multi-Layer Electronic Systems)》。

論文解釋了今日何庭波在國際電路系統研討會ISCAS 2026上的題為“半導體新路徑探索與實踐”的主旨演講中,發表的“韜(τ)定律”如何破解摩爾定律面臨的物理和經濟困局。

論文還披露了未來華為部分麒麟晶片、昇騰晶片的路線規劃:

麒麟2026將引入邏輯折疊架構,CPU性能核心頻率提升至3.1GHz,並進入矽片驗證階段;2027年的麒麟2027將繼續採用邏輯折疊,頻率提升至3.39GHz;2028年的麒麟2028預計達到3.71GHz,進入矽前驗證階段;到2029年,麒麟2029的CPU性能核心頻率將突破4GHz。沿此路徑,麒麟SoC在典型使用場景下的效率預計將在3至5年內提升1倍以上,AI硬體整合度預計到2035年增長100倍以上。

昇騰晶片方面,2026年的昇騰950以及隨後的昇騰990將採用成熟技術的組合:Chiplet、2.5D扇出和通過微凸塊及標準間距混合鍵合的3D堆疊。到2030年前後,昇騰990將把邏輯折疊引入AI晶片類別,從那時起3D折疊成為2035年前α的主要載體。沿此路徑,到2035年其硬體整合度預計將增長100倍以上。

何庭波透露,預計到2031年,基於韜定律的高端晶片電晶體密度將達到1.4奈米製程的同等水平。

以下為何庭波論文全文翻譯:

多層電子系統的時間縮放理論

作者:何庭波
單位:華為

摘要:

華為摘要過去六十年,摩爾定律所代表的幾何縮微推動了半導體產業的持續進步。然而,這一產業共識已經難以延續:單純依靠尺寸縮小所帶來的回報趨於平緩,先進製程晶片的設計預算已經超過單顆十億美元,最先進節點上的每電晶體成本也不再下降。

本文提出一種後摩爾時代的繼任縮微原則——τ縮微。這一原則將“時間”本身,而非電晶體面積,作為衡量進步的核心指標,並以單一特徵時間常數τ作為貫穿全端的統一最佳化目標,覆蓋從電晶體開關到資料中心工作負載約十二個量級的尺度。文章展示了兩個量產級驗證案例。

在移動SoC中,LogicFolding(邏輯折疊)通過把數位電路、模擬電路和儲存電路分配到垂直堆疊的有源層中,在固定器件節點下實現了55%的電晶體密度躍升,以及41%的功耗能效提升。

在AI系統中,由記憶體語義的Unified Bus(統一匯流排)架構、近封裝Hi-ONE光I/O以及邊緣到表面的3D Folding(三維折疊)共同構成的系統堆疊,預計到2035年可推動硬體整合度增長超100倍。

更深層的主張在於方法論:τ縮放是自Dennard縮放以來,第一個能夠為整個計算棧建立共同最佳化目標的縮微原則。導言自 20世紀60年代中期以來,半導體產業一直以奈米作為衡量進步的單位。大約每十八個月,電晶體尺寸縮小,頻率上升,單位邏輯閘的成本下降。

摩爾定律既是一種經驗觀察,也幫助建立了整個計算堆疊的一種產業共識。如今,這一產業共識已經失效。進入7nm節點之後,幾何縮微不再提供歷史上那樣的紅利。

光刻裝置正在接近圖形化的物理極限,EUV裝置折舊主導了主導晶圓成本,單位電晶體價格曲線趨於平坦,在某些情況下甚至出現反轉。對於那些先進光刻裝置獲取受限的組織而言,這一約束更早成為現實,也更加嚴峻。

因此,產業面臨的核心問題已經發生變化。問題不再是“電晶體還能縮小多少”,而是“究竟應該縮小什麼,又應該針對什麼目標?”。

過去六年,作者所在的華為半導體團隊在移動SoC、AI加速器、系統互連和封裝等多個方向上,通過矽片實踐研究了這一問題。得到的結論是,答案不在於另一個製程節點,也不在於另一種電晶體結構,而在於改變主要最佳化目標本身。

本文主張,未來十年電子系統的演進應由幾何縮微轉向時間縮微,即在整個技術堆疊中系統性降低單一特徵時間常數τ,從皮秒級開關的電晶體,到秒級響應的資料中心工作負載來引導——而非幾何縮微。

下文將結合2020年5月至2026年5月間進入量產的381款晶片所積累的經驗基礎,從科學方法論和產業路線圖兩個層面展開τ 縮放的論證。

1. 幾何時代的終結

在半導體產業的大部分歷史中,它只有一個核心任務:讓電晶體變得更小。

戈登·摩爾(Gordon Moore)在1965年提出,電晶體密度大約每兩年翻一番。十年後,羅伯特·登納德(Robert Dennard)提出了縮微理論,指出電壓和尺寸按比例縮小時,可以維持恆定電場。幾何縮放與Dennard縮放共同推動了近五十年裡每瓦性能和每美元性能的指數級提升。

這一格局分兩個階段瓦解。大約在2005年,Dennard微縮率先失效:電壓無法再隨特徵尺寸同比例下降,“暗矽”時代由此開啟。幾何微縮維持得更久,先後依靠FinFET和全環柵極(GAA)等器件結構繼續延展。

然而,進入7nm之後,單純依賴尺寸微縮所獲得的收益已經趨於平緩。其原因已經相當明確:速度飽和使本征延遲對溝道長度的依賴從平方關係降為線性關係;局部互連中的寄生電阻和電容越來越主導標準單元延遲預算;掩膜成本、EUV折舊以及設計規則複雜度,使2nm節點的先進晶片設計預算超過單顆十億美元。

經濟後果同樣無法迴避。先進節點上的單位電晶體成本已經趨於平坦,在最前沿節點上甚至開始上升。過去五十年支撐產業運轉的共識——每一代都能以更低成本獲得更多電晶體——已經不再成立。

對於華為半導體而言,這一轉變還疊加了另一項約束:獲取最先進光刻裝置管道受限。繼續假設“下一個節點會解決問題”已不再可行。

六年前,幾何微縮路線圖進入平台期,迫使團隊面對一個更根本的問題。回頭看,這也是整個行業遲早都必須面對的問題。

2. 時間,而非空間:摩爾時代真正的貨幣

如果從終端使用者所感知的本質影響來看,摩爾定律根本上從來都不只是關於幾何尺寸。更小的電晶體之所以提升系統性能,是因為它們切換更快。更密集的互連之所以能提升性能,是因為訊號傳播距離更短。更高的整合度之所以能提升性能,是因為資料跨越的邊界更少。

每一代技術所帶來的本質,其實都是時間的壓縮:在器件層面從皮秒到納秒,在晶片層面從納秒到微秒,在系統層面從微秒到秒。空間微縮只是壓縮時間的工具。

認識到這一點後,一個顯而易見的重構思路便出現了:應當把時間本身作為主要指標。在堆疊的每一層——電晶體、電路、晶片和系統——都可以定義一個特徵時間常數τ,並將其縮減為統一最佳化目標。這樣一來,幾何微縮只是成為縮減τ的多種技術之一,不再是唯一途徑。

這一原則被稱為τ微縮。本文提出,應將其作為繼幾何摩爾微縮之後,指導半導體演化的新原則。形式上,τ被視為一個分層結構,可以分解為:

其中,τ_transistor、τ_circuit、τ_chip和τ_system分別表示電晶體層、電路層、晶片層和系統層的時間常數。每一層的τ都由其下層結構以及該層引入的組織和通訊開銷共同構成。τ的工作空間在時間上大約橫跨十二個數量級,從皮秒到秒;在空間上也覆蓋從奈米到千米的相似尺度。

每一層都有不同的τ降低機制:

電晶體層:核心是本征開關延遲,可通過遷移率提升、應變工程、高κ/金屬柵、GAA架構等方式改善。與此同時,局部互連的寄生電阻和電容正在變得越來越重要,還需要進一步降低局部互連的寄生R和C。如今,這些寄生參數所造成的延遲已經達到本征渡越時間的數倍。

電路層:核心是訊號路徑上的RC傳播延遲,可通過低電阻率導體、低κ介質,以及更重要的垂直整合來縮短線長。

晶片層:核心是計算延遲和儲存訪問延遲,可通過架構選擇、流水線深度、儲存層級結構和片上互連網路進行最佳化。

系統層:核心是端到端消息傳輸和同步時間,可通過互連拓撲、協議棧和網路結構設計來降低。

從這一分層表述中,可以得到一個有用的代際規則:

其中微縮因子α並非通用常數,而與應用場景相關。迄今為止的量產經驗顯示,在功耗受限的移動裝置中,α約為每年1.3倍;在安全關鍵型自動駕駛系統中,α約為每年1.5倍;在AI工作負載中,α最高可達每年10倍,因為吞吐量會直接轉化為經濟價值。

τ之所以能夠成為一個有效的核心指標,而不是對既有指標的重新命名,是因為它在整個堆疊中具有一致性。頻率、延遲、頻寬和吞吐量在各自層級上都受τ支配。工藝技術人員、電路設計人員和系統架構師可以圍繞同一個量、用相同單位展開討論。

τ是實現端到端全端協同最佳化的共同語言。過去那種各層獨立最佳化、時序作為殘差的時代已經結束。

3. 邏輯折疊:移動SoC的驗證案例

τ微縮的第一個量產規模驗證是在移動領域完成的。智慧型手機SoC是一種特殊案例:一顆晶片幾乎構成了整個系統。它無法依靠多插槽平行來彌補性能短板,也無法用千節點互聯架構來掩蓋慢速鏈路。使用者最終感知到的全部性能,都來自單顆晶片,同時還受幾瓦功耗包絡和手持裝置熱設計約束。

2020年以後,先進節點獲取受限,實際問題變成了:在節點固定的情況下,如何繼續在單顆晶片上實現代際性能改進?

由此產生的答案就是邏輯折疊(LogicFolding)。

定義:邏輯折疊是一種設計方法。它按照時間尺度微縮原則,將數位電路、模擬電路和儲存電路劃分到垂直堆疊的有源層中,以聯合最佳化性能、功耗和面積。

數位電路可分為組合邏輯和時序邏輯。組合邏輯是暫存器之間的布林網路,時序邏輯則是保持狀態的觸發器。數字系統的性能上限由相鄰觸發器階段之間的關鍵路徑延遲決定,而關鍵路徑延遲又主要受到路徑上的互連RC和門級數量影響。

傳統最佳化把門電路放置在二維平面中,並通過其上方的金屬層布線。線越長,寄生RC越大,關鍵路徑越慢。

邏輯折疊放棄了平面假設。關鍵路徑上的門電路被分佈到兩個,未來甚至更多個垂直堆疊的有源層中,並通過超細間距混合鍵合連接。

從電路設計者的視角看,這兩個層表現為一個連續的佈局基底,單元可以跨越晶圓邊界分佈,就像晶圓邊界成為額外的一層金屬層。訊號布線顯著縮短,寄生RC大幅下降,時鐘偏斜收緊,同一器件節點下晶片可以更高的時脈頻率運行。

為了讓邏輯折疊發揮這些收益,需要使混合鍵合間距與頂層金屬間距之間的齒輪比保持較低。實踐中這一比例大致需要低於3,越低越好。

以當前約720nm的頂層金屬間距為例,這意味著混合鍵合間距需要低於2μm,理想狀態下齒輪比接近1,此時鍵合介面處的鳥籠式布線開銷基本消失。

要達到這一間距,同時滿足覆蓋精度低於0.5μm、TSV縮微(CD和KOZ低於1.5μm、TSV間距低於6μm),以及通過智能冗餘實現接近100%良率,需要供應商和合作夥伴生態經歷多年工藝開發。

在麒麟2026上測得的結果是具體的:

·電晶體密度在一代內從155MTr/mm²階躍式提升至238MTr/mm²。該密度按公式

計算,麒麟SoC設計的面積利用率為68%。這一提升幅度在過去通常需要三年的幾何微縮才能實現。

  • SoC性能核心的能效提升41%,最高時脈頻率提高接近13%。
  • 一個跨越上下兩層建構的高速全域NoC資料通路,使資料路徑佔用面積降低55%,同時提升了供電穩定性。
  • 後矽時鐘偏斜調整方案獨立貢獻了超過5%的SoC性能提升。
  • 在SRAM上,由於訪問速度、每位元能耗和面積強烈依賴位線和字線長度,邏輯折疊縮短了關鍵路徑,降低了每位元能耗,並使工作頻率提升超過40%。
  • 在一個代表性處理核心上,雙層折疊架構使時鐘緩衝器數量減少超過50%,時鐘偏斜降低25%,線長減少約30%。

這些收益是在固定器件節點上實現的,來源並非新的光刻步驟,而是邏輯在三維空間中的拓撲重組。

麒麟2026中搭載的邏輯折疊實現有意保持保守策略。混合鍵合間距達到1.5μm;TSV著陸僅比頂層金屬向下推進一步;折疊也只是選擇性應用於關鍵路徑,而非整個設計。即便如此,今年CPU性能核心頻率已經回到3.1GHz。

未來十年,邏輯折疊預計將從局部關鍵路徑折疊發展為全規模、多層折疊,即每個封裝內包含三層、四層甚至更多有源層。這一演進將受到更低溫度混合鍵合,以及TSV著陸從頂層金屬下移至M6的支援。後者能夠釋放超過30% 的高層布線資源。2026年至2035年期間,電晶體密度預計將提升至400MTr/mm²及以上。

與此同時,邏輯折疊使 麒麟能夠顯著提高CPU核心頻率,並朝4GHz及更高目標推進。該路線圖在技術上可行,在成本上也具備經濟合理性。

表1Kirin CPU性能核心工作頻率趨勢<span font-size:12px;"="" style="box-sizing: border-box; outline: 0px; -webkit-tap-highlight-color: transparent; color: rgb(102, 102, 102); margin-left: 12px; word-break: keep-all; font-size: 14px; font-family: SimSun, STSong, "Songti SC", 宋體, sans-serif;">

邊欄A:邏輯折疊概覽

  • 混合鍵合間距:低於2μm;Kirin2026為1.5μm;目標齒輪比約為1。
  • 覆蓋精度:低於0.5μm。
  • TSV CD / KOZ:低於1.5μm;間距低於6μm;失效率低於100ppm;修復率99.9%。
  • 良率:通過智能冗餘接近100%。
  • 電晶體密度:155 → 238MTr/mm²,單步實現。
  • SoC性能核心能效 / 頻率增益:+41% / +13%。
  • SRAM工作頻率:提升超過40%。
  • 代表性核心上的時鐘緩衝器數量 / 時鐘偏斜 / 線長:-50% / -25% / -30%。

4. 從皮秒到微秒:AI資料中心中的τ縮微

一個自然的問題是,在毫瓦級智慧型手機場景中形成的原則,是否能夠遷移到吉瓦級AI訓練和推理系統中。AI工作負載位於τ光譜的另一端:它面對的並非單顆晶片,而是數百乃至數千顆晶片像一台機器一樣協同運行。過去十年,AI系統的總算力大約增長了六個數量級。

答案是肯定的,前提是將τ作為系統級目標,並把它應用於整條鏈路,而不是侷限在單個加速器內部。

兩個事實塑造了AI場景中的τ論證。

其一,AI系統仍在持續擴張,從一顆晶片到數十顆、數百顆,並越來越多地走向數萬顆。

其二,現代AI系統的能耗預算和材料預算主要由資料主導,而非由計算主導。在大型AI叢集中,超過80% 的能量被消耗在資料移動上;超過70% 的系統成本分配給資料儲存。

其含義十分直接:減少資料在晶片之間、機架之間以及封裝內部傳輸所花費的時間,至少與減少計算本身所花費的時間同等重要。

在AI規模上,τ尺度微縮通過三個協同層實現:系統互連結構Unified Bus、近封裝光引擎Hi-ONE,以及封裝本身的拓撲重組3D Folding。

4.1 Unified Bus:以τ為優先的系統互連架構

傳統的多節點、多加速器架構需要讓資料穿過多層疊加協議: PCIe連接主機,機箱內部的NVLink或專有互連,機箱之間的Ethernet或InfiniBand,以及其上的軟體棧遠端記憶體訪問。每一層都會帶來協議轉換、額外序列化、額外DMA緩衝和進一步握手。每一次轉換都會增加延遲,降低可靠性,並帶來額外成本。

Unified Bus,簡稱UB,用單一協議取代這一堆疊。該協議可在機箱內部和機箱之間運行,是一種完全點對點的互連結構,能夠在整個系統內原生暴露記憶體語義。資料移動被簡化為記憶體語義層上的無轉換點對點傳輸,並用硬體管理一致性取代軟體棧消息傳遞。

測得收益約為兩個數量級:端到端遠端訪問延遲從TCP/IP類協議棧中常見的數十微秒,下降到約100ns。沿主導通訊軸的系統τ約降低500倍。在機架尺度上,這使系統逐漸接近一台具備結構一致性的單體機器,內部稱為System-as-One-Chip(系統即單晶片)。

4.2 Hi-ONE:封裝級光I/O

當通訊延遲被降低後,新的瓶頸會發生轉移。提高單個機架內晶片密度會把功率密度和可靠性推至極限,也會把電氣SerDes推至極限。在每顆AI晶片400Gb/s的速率下,銅纜仍然是成熟可靠的方案。但進入每顆晶片多Tb/s等級後,銅纜在物理上變得不切實際:SerDes傳輸距離縮短,線纜變得過於笨重,面板安裝難以實現,散熱與供電裕量也會被耗盡。

華為半導體開發的方案是 高密度光互連節點引擎Hi-ONE(High-density Optical-interconnect-Node Engine),一種近封裝光引擎,每個模組可提供8Tb/s頻寬,使單條光鏈路就能夠匹配一顆AI晶片的UB頻寬。它將所需SerDes傳輸距離從約100cm縮短至約5cm,消除了笨重線纜,並將傳輸距離從不足1米擴展至100米,使分佈式、吉瓦級資料中心的高密度互連在物理上成為可能。

Hi-ONE背後的設計哲學本身也是一種τ尺度微縮論證。它沒有採用重型DSP來追求高訊號保真度,而是採用線性方案,即增強型模擬均衡驅動器和跨阻放大器,並允許UB協議容忍一個有意放寬的誤位元率。

協議層與物理層之間的這種跨層取捨,降低了功耗、成本和整合複雜度,也體現了以τ為優先目標的方法論所鼓勵的跨層權衡。4.3N²與N的困境,以及3D Folding的必然性AI加速器不會停留在2.5D扇出封裝的最深層原因是幾何性的。這一點值得明確說明,因為它決定了2030年之後的路線圖。

在傳統2.5D AI晶片中,邏輯裸片位於封裝中心,HBM堆疊和SerDes排布在邊緣,電壓調節器圍繞封裝佈置。每一條記憶體訊號、每一條互連訊號以及每一安培供電電流,都必須穿過裸片邊緣才能到達內部計算資源。若裸片邊長為N,則:

  • 計算能力按N²(面積)縮微
  • 但記憶體頻寬、互連和供電都沿邊緣通過2.5D扇出承載,只能按N(周長)縮微。

平方增長曲線與線性增長曲線之間不斷擴大的背離,構成了扇出困境。無論底層邏輯節點多麼激進,2.5D微縮都會因此停滯。電晶體層面的改進無法彌補拓撲結構上的缺陷。

3D折疊通過把原本受邊緣限制的資源遷移到表面來解決這一困境。供電通過背面供電和整合電壓調節器實現,高速記憶體通過混合鍵合連接邏輯,光I/O通過近封裝Hi-ONE實現,它們全都從周長遷移到垂直表面。一旦資源位於表面上,就可以按N²縮微,從而匹配計算能力的平方增長。封裝不再是一個由記憶體和SerDes周邊帶環繞的邏輯裸片,而變成一個垂直整合的堆疊,記憶體、互連、供電和邏輯共同微縮。

該路線圖給出了明確時間線。大約到2030年之前,AI加速器,即Ascend SuperPoD系列,包括2025年的Ascend910C、2026年的Ascend950,以及後續Ascend990,將依賴成熟技術組合:chiplet、2.5D扇出,以及基於微凸點和標準間距混合鍵合的3D堆疊。大約在2030年,Ascend990將把邏輯折疊引入AI加速器類別。此後,3D折疊將成為2035年之前承載 α 增長的主要機制。沿著這一路徑,到2035年,硬體整合度預計增長超過100倍,τ的降低將分佈在技術堆疊的每一層,而不再集中在器件層。

邊欄B:AI系統尺度上的τ

  • UB遠端訪問延遲:約數十μs → 約100ns(≈500倍τ縮減)
  • Hi-ONE單模組頻寬:8Tb/s,與單晶片UB頻寬匹配。
  • Hi-ONE SerDes傳輸距離:從約100cm縮短至約5cm;面板到面板傳輸距離從<1m → 100m
  • 扇出困境:計算 ∝ N²,而受周邊限制的頻寬、I/O和供電 ∝ N。
  • 3D Folding:把頻寬、光I/O和供電從邊緣遷移到表面,恢復N²對等增長。
  • 2026年至2035年預計硬體整合度增長:超過100倍。

5. 邏輯與儲存:從解耦到重新融合

τ微縮的一個含義值得單獨討論,因為它既有技術後果,也有產業後果。

在8086時代,產業通過標準化記憶體匯流排,有意將處理器和儲存器解耦。解耦使兩個產業能夠獨立微縮與演進:處理器性能沿摩爾曲線快速提升,儲存廠商也在其旁邊發展出一個龐大的獨立市場。

AI時代正在逆轉這種解耦。計算密度的持續擴張正在把儲存頻寬、延遲、功耗和封裝推向極限。HBM、混合鍵合和3D堆疊SRAM都是同一底層事實的表現:對於現代AI工作負載而言,資料移動與計算本身同樣關鍵,邏輯和儲存正在重新被推向緊密的物理整合。隨著二者融合,供應鏈中的影響力平衡也正在轉向儲存和封裝廠商。

技術方向十分明確,但經濟層面的解決方案尚未確定。AI硬體時代的長期成功,將屬於那些既能在技術上融合邏輯與儲存,又能建立經濟合作機制、讓兩個產業長期共享融合收益的企業。

這不僅是一個研究問題,也是未來十年產業必須處理的結構性問題。τ微縮使每一次分離所帶來的跨層成本變得可見,也使這個問題無法再被推遲。

6. 開放性挑戰

如果把τ微縮描述成一個完善的系統,將會產生誤導。仍有若干實質問題有待解決。本文列出這些問題,既是為了說明正在推進的工作,也是在邀請合作。

工具鏈與方法論:今天的EDA誕生於一個將面積、時序和功耗作為三個獨立軸進行最佳化的時代,系統τ僅作為殘差。

全面邏輯折疊要求工具鏈把多個堆疊裸片視為一個連續設計實體,在單元粒度而非模組粒度上劃分邏輯,在統一成本函數下對整個三維體積進行佈局,並在跨裸片路徑上完成時序收斂。垂直互連寄生參數、KOZ排斥區和晶圓間工藝變化會在這些路徑上發生互動,這是傳統2D工具無法充分處理的。

初步內部工具已經開發出來,並產生了有效結果。方法論細節將在未來幾個月發表。面向τ的原生工具鏈,需要具備開放性、多物理場能力和三維原生能力,這是未來十年最重要的賦能投資。

晶圓間工藝偏差:邏輯折疊會把來自潛在不同批次,某些情況下甚至不同節點的晶圓鍵合在一起。晶圓間的閾值電壓、驅動電流和互連RC變化顯著大於晶圓內部偏差,而且最集中地影響時鐘分配和保持時間裕量。智能冗餘、自適應補償和τ感知的簽核流程,都是應對這一問題的必要組成部分。

垂直互連開銷:每一個混合鍵合點和每一個TSV都會帶來有限電阻和電容懲罰,TSV的KOZ還會佔用標準單元區域。因此,邏輯折疊必須在每一層上通過一個簡單不等式逐層證明:

這一閾值已經在移動關鍵路徑和儲存上被跨越。不同工作負載下閾值並不相同,隨著鍵合間距縮小,這一邊界還會移動。

能源:τ是時間定律,而非焦耳定律。一個運行速度快10倍但功耗高10倍的超級節點,並沒有違反縮微原理,卻可能超出電網承載能力。

因此,τ尺度微縮需要一個能源層面的伴侶原則:採用記憶體語義互連架構以消除堆疊開銷,採用近封裝或共封裝光學器件以按數量級降低每位元皮焦能耗,採用背面供電,採用存內或近存計算,並在實踐中審慎地把τ裕度轉化為功耗收益。這類似於資料中心尺度上的DVFS,與智慧型手機延長續航的機制相同。

重要的是,τ裕度本身在被分配到能耗方向時,也會提供能源裕度。

基準測試:當前行業中的性能基準,如Linpack、MLPerf和SPEC,是為一個工作負載只需要一個標量指標的時代設計的。τ縮微所要求的產業基準應為τ剖面基準,即以向量形式暴露系統每一層的主導τ,以及該層剩餘最佳化空間。主導τ層,按定義就是下一輪投資方向。

7. 六年回顧,十年展望

2020年5月至2026年5月期間,華為半導體設計並量產了381顆晶片,服務於移動、AI、汽車、工業和基礎設施市場。在整個產品組合中,τ縮微論點經受住了考驗:

  • 在器件和電路層,電晶體密度已從155向400+MTr/mm²(到2031年)提升。
  • 在晶片層,LogicFolding在前沿移動SoC上已經證明,關鍵路徑頻率、功耗效率和密度可以在固定的器件節點上持續提升。
  • 在系統層,Unified Bus和Hi-ONE已經證明,數百微秒的通訊τ可以被壓縮至數百納秒,多機架AI叢集可以表現為單一的一致性機器。

展望未來,CPU性能核心頻率預計到2029年將邁向4GHz及以上,麒麟SoC效率預計在三到五年內在典型使用下將提升1倍以上,AI硬體整合度預計到2035年將增長100倍以上。

超越任何單一產品的更深層主張是方法論層面的。τ縮微是自Dennard以來第一個為整個堆疊提供共享最佳化目標的縮微原則。

它向工藝技術人員、電路設計師、架構師、系統工程師和軟體團隊發出訊號:這些群體現在正在以相同的單位最佳化相同的量,任何單層的改進必須傳導至系統τ才算有效。

它也向行業戰略家和資本配置者表明,下一筆投資應跟隨τ而非節點——競爭性的性能不再要求常駐在光刻技術的最前沿,而封裝、儲存頻寬和互連架構設計現在承載著此前僅由前沿邏輯節點所擁有的戰略權重。

對於在成長過程中將“摩爾定律”等同於“進步”的一代工程師而言,這是一個困難的轉變。幾何時代事實上已經結束;否認這一事實不是可行的策略。通過縮微實現加速的時代正在讓位於通過多層電子系統的τ最佳化實現加速的時代——而在未來六到十年中以τ為首要目標的公司、研究團體和生態系統,將決定此後十年計算的面貌。

未來十年的工作範圍已經劃定。許多開放問題仍然存在,沒有任何單一組織可以獨自解決——工具鏈、標準、基準、器件物理和經濟模型都需要超越任何單一公司的貢獻。

因此,本文既是一份來自前線的報告,也是一份邀請。前方的路線圖要求苛刻,但方向是明確的。 (觀網財經)