以華為何庭波的署名論文來理解“韜(τ)定律”,從論文能看到“韜(τ)定律”在縮放時間理論上的五個核心要點
但是似乎本質上華為、輝達、台積電幾家在未來的演化迭代路徑上的底層邏輯是一致的。
1、“韜(τ)定律”的五個核心要點
1)LogicFolding / 邏輯折疊。
文中給出的定義是:LogicFolding 是一種設計方法,把數位電路、模擬電路和儲存電路劃分到垂直堆疊的有源層中,通過縮短關鍵路徑走線來最佳化性能、功耗和面積。它不是簡單把封裝做厚,也不是普通 2.5D Chiplet,而是更接近“把原本二維平鋪的邏輯電路折到垂直方向
2)Unified Bus統一匯流排,
傳統 AI 叢集需要多層協議棧:PCIe、NVLink 或專有互聯、乙太網路或 InfiniBand、RDMA、軟體消息傳遞等。每一層協議轉換都會增加序列化、DMA 緩衝、握手和延遲。
Unified Bus 的目標是用一個在機箱內和機箱間都運行的單一協議,替代這些協議棧,並在整個系統中暴露原生記憶體語義。論文稱,這能把遠端訪問延遲從傳統協議棧的幾十微秒級降到約 100 納秒,沿主要通訊軸線的系統 τ 降低約 500 倍;在機架規模上,使系統更接近一台結構一致的單一機器,內部稱為 System-as-One-Chip / 系統即晶片。這其實就是晶片—伺服器—機櫃—資料中心等級的系統協同。
3)Hi-ONE近封裝光引擎
何庭波的論文認為,當單個 AI 晶片頻寬進入 Tb/s 等級時,銅纜布線會遇到體積、SerDes、散熱、供電和可靠性限制。華為提出的Hi-ONE是一種近封裝光互連節點引擎。文中稱單 Hi-ONE 模組可提供 8 Tb/s 頻寬,把 SerDes 傳輸距離從約 100 釐米縮短到約 5 釐米,同時把面板間傳輸距離從不足 1 米擴展到 100 米。
華為的系統級路線也把光互連納入核心架構,不只是外部光模組,而是更接近 near-package optical I/O / 近封裝光 I/O。
4)3D Folding
論文認為,傳統 2.5D AI 晶片存在一個幾何矛盾:邏輯晶片面積按 N² 增長,所以計算能力按面積增長;但 HBM、SerDes、供電等資源主要沿封裝邊緣進入,頻寬、I/O 和電源能力只按周長 N 增長。計算能力按 N² 擴,邊緣資源按 N 擴,二者差距會越來越大。
3D Folding的作用是把原來位於邊緣的資源轉移到表面或垂直方向:電源通過背面供電和整合電壓調節器,高速儲存通過與邏輯混合鍵合,光 I/O 通過近封裝 Hi-ONE,從而讓記憶體、互連、電源和邏輯同步擴展。
華為把3D折疊視為 AI 加速器在 2030 年後繼續擴展的核心拓撲。
5)邏輯與記憶體重新融合
論文有一個重要產業判斷:過去幾十年,CPU 和記憶體是解耦發展的;但 AI 時代正在逆轉這種解耦。
原因是AI工作負載對記憶體頻寬、延遲、功耗和封裝的要求極高。HBM、混合鍵合、3D 堆疊 SRAM 都說明:資料傳輸和計算本身一樣重要,邏輯和記憶體正在重新走向緊密物理整合。論文進一步判斷,隨著邏輯和記憶體融合,供應鏈中的影響力會向記憶體和封裝供應商傾斜。
2、論文列舉“韜(τ)定律”未來的挑戰在於:
1)EDA 工具鏈不夠。
傳統 EDA 是二維時代的工具,主要在面積、時序、功耗之間最佳化。全尺寸 LogicFolding 需要工具把多個堆疊晶片視為一個連續設計實體,在單元粒度而不是模組粒度上跨層佈局,並對垂直互連、TSV、KOZ 排除區、晶圓間工藝偏差做統一簽核。論文稱華為已有初步內部工具,但 τ 原生、開放、多物理場、3D 原生工具鏈仍是未來十年最重要的賦能投資之一。
2)晶圓間工藝偏差。
LogicFolding 可能把不同批次甚至不同節點的晶圓進行鍵合,閾值電壓、驅動電流、互連 RC 偏差會影響時鐘分佈和保持時間裕量,需要智能冗餘、自適應補償和 τ 感知簽核。
3)垂直互連不是免費的。
混合鍵合和 TSV 都會帶來電阻、電容和面積開銷,TSV 的 keep-out zone 還會擠佔標準單元,所以邏輯折疊必須證明“縮短水平連線獲得的收益”大於“增加垂直互連的成本”。
4)τ 是時間定律,不是能耗定律。
論文表示如果速度提升 10 倍但功耗也提升 10 倍,系統仍可能超出電力約束。因此,τ 縮放必須和能量最佳化配套,包括近封裝/共封裝光學、背面供電、記憶體內計算、動態電壓頻率調節等。
整體上論文指引,“韜(τ)定律”是體系化設計創新 + 三維整合 + 封裝/鍵合工藝,而不是傳統意義上的“製程節點突破”。“韜定律”更像是從單點工藝創新,轉向體系化、系統級提升。
在先進製程受限、摩爾定律經濟性下降的背景下,華為提出一種後摩爾時代的系統級縮放路線:以 τ 時間常數為統一指標,通過 LogicFolding、Unified Bus、Hi-ONE、3D Folding、邏輯—記憶體融合和 τ 原生 EDA,把性能提升從單點製程競爭轉向全端系統工程。
3、為什麼說華為、輝達、台積電幾家在未來的演化迭代路徑上的底層邏輯是一致的?
與台積電先進封裝、輝達NVLink/HBM/CPO/AI Factory 的方向本質相通。
大家都在解決同一個問題:資料移動太慢、太貴、太耗電。
這其實是全球半導體巨頭共同邁向“後摩爾時代”的終極共識。 無論是華為的“韜定律”,還是國際巨頭的動向,都在整體系統上升級:
1)台積電: 早就意識到先進製程太貴且良率存在物理瓶頸,因此大力發展 CoWoS 和 SoIC 等先進封裝技術,像搭積木一樣把多個小晶片(Chiplet)拼在一起。
2)輝達: 現在的 AI 算力怪獸(如 Blackwell 架構及後續產品),其優勢不僅在於單顆 GPU 核心的製程,更在於它通過 NVLink 高速互連技術,把海量的高頻寬記憶體(HBM)和光晶片高度整合在一起,打破了“記憶體牆”和“通訊牆”。
3)華為: 面臨外部環境的極限施壓,必須在缺乏最尖端製造裝置的情況下,依靠先進封裝、新材料、光電共封裝(CPO)和極其強大的系統工程能力,來硬生生“拼”出等效於 1.4nm 的綜合性能。
當然差異也是有的。例如台積電的先進封裝回答的是:“我如何把多個 die、HBM、chiplet、矽中介層、RDL、混合鍵合做成可量產、可測試、可良率控制的產品?”
華為“韜定律”回答的是:“在製程縮微受限時,我如何從器件、電路、晶片、系統全鏈路降低 τ,讓性能、能效、密度繼續提升?”
兩者本質相通,因為都在解決:資料搬運太慢、太耗電、太佔面積。但它們不是同一層級的東西。台積電更像是底層製造/封裝能力平台,華為更像是系統架構與設計方法論。
輝達這幾年最典型的路線,就是“不只做 GPU,而是做整套 AI 計算系統”。輝達 GB200 NVL72 就不是單顆 GPU 的故事,而是 rack-scale 架構:72 顆 Blackwell GPU、36 顆 Grace CPU,通過 NVLink 組成一個 72-GPU domain,對外表現得像一個巨大的 GPU,並通過 NVLink Switch 提供 130TB/s 的低延遲 GPU 通訊頻寬。
輝達這套模式和“韜定律”的系統級思路非常接近:不要只看單顆晶片峰值算力,而要看 GPU—GPU、GPU—CPU、GPU—記憶體、機櫃—機櫃之間的資料移動效率。
4、後摩爾時代系統級工程路線的基礎設施。
華為“韜定律”不是單一晶片製造突破,而是後摩爾時代的系統級工程路線。它利多的不是單一晶圓廠,而是先進封裝、探針測試、EDA、裝置材料、高速互連、光互連、散熱、電源、系統軟體這一整套基礎設施。
為何?因為一旦目標從“電晶體做小”變成“路徑做短、系統更快”,產業鏈價值就會從單點晶圓製造擴散到:
- 先進封裝:把 chiplet、HBM、邏輯晶片靠近;
- 探針卡/測試裝置:多 die、多層、複雜封裝對測試要求更高;
- 封裝基板/PCB/連接器:高速訊號完整性更關鍵;
- 光模組/矽光/CPO:板級和機櫃級資料傳輸從電走向光;
- EDA/IP:二維佈局不夠,需要 2.5D/3D/封裝/熱/功耗協同設計;
- 散熱/液冷/電源:整合度越高,熱和供電越難;
- 系統軟體/匯流排/互聯協議:硬體堆起來還不夠,調度和通訊協議也要重構。
投資中,或許需尋找:誰能讓晶片之間、晶片內部、晶片與記憶體、伺服器與伺服器之間的資料路徑變短,誰就能在產業鏈上佔據優勢。
未來先進性更多看“資料走多遠、走多快、耗多少電、系統能否協同”。華為“韜定律”、台積電先進封裝、輝達 AI Factory,本質上都在圍繞這個問題做文章 (機構調研記)
