Hot Chips,晶片瘋狂




Hot Chips 向來都是晶片領域的盛會。2024 年的 Hot Chips 在美國斯坦福大學紀念禮堂隆重舉行。迄今為止,Hot Chips 展會已成功舉辦了 36 屆。

數十年來,該展會一直是探討英特爾、AMD、IBM 以及眾多其他供應商最前沿晶片的熱門之地,各公司也常常借此展會發佈新產品。

  • 輝達:公佈Blackwell架構細節,2024年至2028年的產品路線圖
  • IBM:下一代 AI 加速器Telum II
  • 英特爾:下一代英特爾至強 6 SoC、Lunar Lake客戶端處理器
  • AMD:Zen 5 核心架構解析
  • 高通:Oryon核心解析
  • 特斯拉:TTPoE,即特斯拉乙太網路傳輸協議
  • 中國香山高性能RISC-V處理器亮相


01 輝達:公佈Blackwell架構細節


輝達公佈了下一代GPU架構Blackwell的更多細節資訊,以及未來的產品路線圖。

輝達Blackwell是通用計算全端矩陣的終極解決方案,由多個輝達晶片組成,包括Blackwell GPU、Grace CPU、BlueField資料處理單元、ConnectX網路介面卡、NVLink交換機、Spectrum乙太網路交換機和Quantum InfiniBand交換機。



它涵蓋了從CPU和GPU計算,到用於互連的不同類型的網路。這是晶片到機架和互連,而不僅僅是GPU。它是有史以來單個GPU所擁有的最強AI計算、記憶體頻寬和互連頻寬。通過使用高頻寬介面(NV-HBI),可在兩個GPU晶片之間提供10TB/s的頻寬。

此外,輝達還引入了新的FP4和FP6精度。降低計算精度是提高性能的一種眾所周知的方法。通過輝達的Quasar量化系統,可以找出那些方面可以使用較低的精度,從而減少計算和儲存。輝達表示,用於推理的FP4在某些情況下可以接近BF16性能。


NVLink交換機晶片和NVLink交換機托盤(tray)旨在以更低的功耗推送大量資料。輝達演示了GB200 NVL72和NVL36。其中,NVL72包含36個Grace GPU和72個Blackwell GPU,專為兆參數AI而設計。GB200 NVL 72作為一個統一系統,對大語言模型(LLM)推理性能提升高達30倍,釋放了即時運行數兆個參數模型的能力。

輝達表示,隨著AI模型尺寸的增加,在多個GPU上拆分工作負載勢在必行。而Blackwell足夠強大,可以在一個GPU中處理專家模型。


輝達還展示了2024年至2028年的產品路線圖。2026年的1.6T ConnectX-9似乎表明了輝達對PCIe Gen7的需求,因為PCIe Gen6 x16無法處理1.6T的網路連線。

02 IBM:下一代 AI 加速器,Telum II


2021 年,IBM推出了IBM Telum 處理器,這是 IBM 首款用於推理的先進處理器晶片 AI 加速器。Telum 處理器實現業務成果的能力一直是 IBM z16大型機計畫成功的關鍵驅動因素。隨著客戶需求的發展,IBM 不斷創新並突破新興技術的極限。


在今年的Hot Chips 2024大會上,IBM 宣佈推出面向 AI 時代的下一代企業計算,即 IBM Telum II 處理器和 IBM Spyre Accelerator 預覽版。預計兩者將於 2025 年上市。

採用三星 5nm 技術開發的全新 IBM Telum II 處理器將配備八個高性能核心,運行頻率為 5.5GHz。Telum II 的片上快取容量將增加 40%,虛擬 L3 和虛擬 L4 分別增加到 360MB 和 2.88GB。該處理器整合了專門用於 IO 加速的全新資料處理單元 (DPU) 和下一代片上 AI 加速。這些硬體增強旨在為客戶提供比前幾代產品顯著的性能改進。


每個加速器的計算能力預計將提高 4 倍,達到每秒 24 兆次運算 (TOPS)。但僅憑 TOPS 並不能說明全部情況。這完全取決於加速器的架構設計以及位於加速器之上的 AI 生態系統的最佳化。當談到生產企業工作負載中的 AI 加速時,適合用途的架構至關重要。Telum II 旨在使模型執行階段能夠與最苛刻的企業工作負載並駕齊驅,同時提供高吞吐量、低延遲推理。此外,還增加了對 INT8 作為資料類型的支援,以增強首選 INT8 的應用程式的計算能力和效率,從而支援使用較新的模型。

還加入了新的計算原語,以更好地支援加速器內的大型語言模型。它們旨在支援越來越廣泛的 AI 模型,以便對結構化資料和文字資料進行全面分析。

Spyre 核心的框圖

在 Hot Chips 2024 上,IBM 還展示了 IBM Spyre 加速器,它是與 IBM Research 和 IBM Infrastructure Development 聯合開發的。Spyre 加速器將包含 32 個 AI 加速器核心,這些核心將與整合在 Telum II 晶片中的 AI 加速器共享類似的架構。多個 IBM Spyre 加速器可以通過 PCIe 連接到 IBM Z 的 I/O 子系統中。將這兩種技術結合起來可以大幅增加可用的加速量。


Spyre 加速卡的外觀

Spyre 晶片上有一個 32 字節雙向環連接 32 個核心(我們認為是 34 個核心,但只有 32 個處於活動狀態),還有一個單獨的 128 字節環連接與核心相關的暫存器記憶體。核心支援 INT4、INT8、FP8 和 FP16 資料類型。


03 英特爾:下一代英特爾至強 6 SoC、Lunar Lake 客戶端處理器


在 Hot Chips 2024 上,英特爾發表了四篇技術論文,重點介紹了英特爾至強 6 SoC、Lunar Lake 客戶端處理器、英特爾 Gaudi 3 AI 加速器和 OCI 晶片組。





英特爾至強 6 SoC 將英特爾至強 6 處理器的計算晶片組與基於intel 4 工藝技術建構的邊緣最佳化 I/O 晶片組相結合。與之前的技術相比,這使 SoC 在性能、能效和電晶體密度方面實現了顯著提升。其他功能包括:

  • 最多 32 條通道 PCI Express (PCIe) 5.0。
  • 最多 16 條通道 Compute Express Link (CXL) 2.0。
  • 2x100G 乙太網路。
  • 相容 BGA 封裝中的四個和八個記憶體通道。

lEdge 特定的增強功能,包括擴展的工作溫度範圍和工業級可靠性,使其成為高性能堅固裝置的理想選擇。




英特爾至強 6 SoC 還包括旨在提高邊緣和網路工作負載性能和效率的功能,其中包括新媒體加速,可增強即時 OTT、VOD 和廣播媒體的視訊轉碼和分析;英特爾高級向量擴展和英特爾高級矩陣擴展,可提高推理性能;英特爾QuickAssist 技術,可實現更高效的網路和儲存性能;英特爾 vRAN Boost,可降低虛擬化 RAN 的功耗;並支援英特爾Tiber 邊緣平台,讓使用者能夠以類似雲的簡便性在標準硬體上建構、部署、運行、管理和擴展邊緣和人工智慧解決方案。

Lunar Lake 客戶端處理器。與上一代相比,新的性能核心 (P 核心) 和高效核心 (E 核心) 可提供驚人的性能,而系統級晶片功耗降低了 40%。與上一代相比,新的神經處理單元速度提高了 4 倍,從而實現了生成式 AI (GenAI) 的相應改進。此外,新的 X e 2 圖形處理單元核心將遊戲和圖形性能提高了 1.5 倍。有關 Lunar Lake 的更多詳細資訊將於9 月 3 日在英特爾酷睿超極本發佈會期間公佈。

英特爾 Gaudi 3 AI 加速器。人工智慧加速器首席架構師 Roman Kaplan 介紹了需要大量計算能力的生成式人工智慧模型的訓練和部署。隨著系統規模的擴大(從單個節點擴展到龐大的數千個節點叢集),這會帶來巨大的成本和功耗挑戰。





英特爾 Gaudi 3 OAM 工作示例包

英特爾 Gaudi 3 AI 加速器通過最佳化計算、記憶體和網路架構來解決這些問題,同時採用高效矩陣乘法引擎、兩級快取整合和廣泛的 RoCE(融合乙太網路上的 RDMA)網路等策略。這使 Gaudi 3 AI 加速器能夠實現顯著的性能和能效,使 AI 資料中心能夠更經濟高效、更可持續地運行,解決部署 GenAI 工作負載時的可擴展性問題。

04 AMD:Zen 5 核心架構解析


在 Hot Chips 上,AMD 深入介紹了其全新的 Zen 5 核心架構,該架構將為其下一次高性能 PC 之旅提供動力。

AMD 的 Zen 1 核心架構於 2017 年首次推出,此後,該公司推出了五種新架構(Zen+、Zen 2、Zen 3、Zen 4、Zen 5)。AMD 在本世紀初推出了 Zen 3 架構,該架構在利用 7nm/6nm 工藝技術的同時,將 IPC 提高了 19%,具有 8 核覆合體,並增加了每個 CCX 的 L3 快取。

該公司隨後發佈了 Zen 4,帶來了另外 14% 的 IPC 改進、AVX-512(FP-256)指令、將 L2 快取增加一倍至 1 MB、支援 VNNI/BFLOAT16 並採用 5nm 和 4nm 工藝技術。


今年,AMD 推出了其最新的高性能核心架構 Zen 5,該架構通過 AVX-512 和 FP-512 變體將 IPC 提升了 16%,具有 8 寬調度、6 個 ALU、雙管道提取/解碼和 4nm/3nm 技術利用率。今天,AMD 正在 Hot Chips 上深入研究其 Zen 5 的完整架構。


AMD 首先闡述了 Zen 5 的設計目標。在性能方面,Zen 5 旨在實現 1T 和 NT 性能的又一次重大提升,平衡跨核 1T/NT 指令和資料吞吐量,建立前端平行性,提高執行平行性,提高吞吐量,實現高效的資料移動和預取,並支援 AVX512/FP512 資料路徑以提高吞吐量和 AI。同時,AMD 希望通過其 Zen 5 和 Zen 5C 核心變體新增新功能,例如額外的 ISA 擴展和新的安全功能,以及擴展平台支援。




產品方面,AMD 的 Zen 5 核心將在三輪產品中率先亮相,包括 Ryzen 9000 “Granite Ridge” 桌上型電腦 CPU、Ryzen AI 300 “Strix” 筆記型電腦 CPU 和第五代 EPYC "Turin" 資料中心 CPU。

總而言之,AMD 表示 Zen 5 再次以大幅提升性能的節奏交付,AVX512 具有 512 位 FP 資料路徑,可提高吞吐量和 AI 性能。高效、高性能、可擴展的可組態解決方案:Zen 5 可實現峰值性能,Zen 5c 可實現效率,支援 4nm 和 3nm 工藝節點。


05 高通:Oryon 核心解析


在 Hot Chips 2024 上,高通詳細展示了驍龍 X Elite 中的 高通Oryon CPU。高通 Snapdragon X Elite 是該公司進軍基於 Arm 的 PC SoC 的嘗試。


高通Oryon 是該公司為 Snapdragon X Elite SoC 提供動力的 CPU。這是 Nuvia 團隊基於 Arm 的核心。這裡的叢集是相同的,但出於功率目的,它們的運行方式不同。


高通重點關注的 CPU 核心領域包括指令獲取單元 (IFU)、向量執行單元 (VXU)、重新命名和退出單元 (REU)、整數執行單元 (IXU)、記憶體管理單元 (MMU) 以及載入和儲存單元 (LSU)。

以下是 Oryon 的提取和解碼規格。13 周期分支預測錯誤延遲並非業界最佳,但高通表示,該設計已“平衡”。


向量和標量引擎都具有類似的總體佈局和物理暫存器檔案。兩者都有來自載入/儲存單元的四個資料饋送,因此每個周期可以進行四次載入。相比之下,AMD 的 Zen 4 在整數方面每個周期只能處理三次載入,在向量方面每個周期只能處理兩次載入。


高通選擇了分佈式調度模型。雖然統一調度器有其優勢,但拆分佇列可以更輕鬆地選擇最早就緒的指令。

Oryon 的載入/儲存單元擁有大型 64 個條目保留站或調度器。核心的調度容量大於載入/儲存佇列容量,這與我們在其他架構中看到的情況相反。


高通指出,更大的調度器仍能滿足時序要求,並緩解一些瓶頸。此外,調度器可以執行除載入/儲存之外的其他操作(可能是儲存資料操作),額外的容量有助於吸收這些操作。

Oryon 的 L1 資料快取容量為 96 KB。它是多連接埠的,並使用代工廠的標準位單元設計。高通確實評估了使用更巨量資料快取的可能性,但選擇了 96 KB 的設計以滿足時序(時鐘速度)要求。


這是使用單執行緒的記憶體頻寬圖表。單核能夠以略低於 100GB/s 的範圍進行傳輸,考慮到 LPDDR5x 記憶體的 135GB/s 平台頻寬,這非常了不起。


預取在任何現代核心中都扮演著重要角色。Oryon 特別強調預取,各種標準和專有預取器都會查看訪問模式,並嘗試在指令請求資料之前生成請求。高通通過使用各種訪問模式測試軟體可見的載入延遲來展示這一點。預取器拾取的模式具有較低的延遲。對於簡單的線性訪問模式,預取器運行得足夠靠前,幾乎可以完全隱藏 L2 延遲。


在系統層面,驍龍 X Elite 擁有 12 個核心,分為三個四核叢集。之所以沒有使用更大的核心叢集,是因為在開發生命周期的早期,L2 互連不支援超過四個核心的叢集。該功能後來被新增,但並未出現在驍龍 X Elite 中。之前有測試指出,在測試的筆記型電腦中,12 個核心受到功率和散熱限制的嚴重限制。在與產品經理的對話中,他們表示,擁有 12 個核心讓驍龍 X Elite 能夠擴展到更高的功率目標,並在具有更好散熱的裝置中提供額外的多執行緒性能。該策略與英特爾和 AMD 形成鮮明對比,後者使用不同的核心數量來實現廣泛的功率目標。


高通希望將 Oryon 的用途拓展到筆記型電腦以外的領域。


06 特斯拉:TTPoE,即特斯拉乙太網路傳輸協議


去年在 Hot Chips 2023 上,特斯拉推出了他們的 Dojo 超級電腦。對於特斯拉來說,機器學習專注於自動駕駛汽車等汽車應用,訓練涉及視訊,這可能需要大量的 IO 頻寬。例如,對於公司的視覺應用,單個張量的大小可能為 1.7 GB。特斯拉發現,即使主機只是通過 PCIe 複製資料,他們的 Dojo 超級電腦的吞吐量也可能受到主機將資料推送到超級電腦的速度的限制。


特斯拉通過增加更多主機和將這些額外主機連接到超級電腦的廉價方式解決了這個問題。特斯拉沒有使用像 Infiniband 這樣的典型超級電腦網路解決方案,而是選擇通過修改傳輸層來適應乙太網路的需求。TCP 被特斯拉乙太網路傳輸協議 (TTPoE) 取代。TTPoE 旨在提供微秒級延遲並允許簡單的硬體解除安裝。較低等級的層保持不變,讓協議在標準乙太網路交換機上運行。


TTPoE 的設計完全由硬體處理,並提供比標準 TCP 協議更好的延遲。因此,與 TCP 相比,TTPoE 的狀態機大大簡化。


通過消除 TCP 中的等待狀態,可以減少延遲。在 TCP 中關閉連接涉及傳送 FIN、等待該 FIN 的確認,並確認該確認。此後,連接進入 TIME WAIT 狀態,這需要實現等待一段時間,允許任何無序封包安全耗盡,然後新連接才能重用該連接埠。TTP 刪除 TIME_WAIT 狀態,並將關閉順序從三次傳輸更改為兩次。可以通過傳送關閉操作碼並接收確認來關閉 TTP 連接。Tesla 的目標是微秒級的延遲,因此即使是毫秒級的 TIME_WAIT 持續時間也可能導致嚴重問題。


TCP 以三向 SYN、SYN-ACK、ACK 握手打開連接。TTP 應用了與關閉端類似的最佳化,將握手更改為雙向握手。同樣,打開連接時傳輸次數越少,延遲就越低。這些簡化的打開和關閉序列是在硬體中實現的,這也使其對軟體透明。這意味著軟體不必明確建立連接,而是可以告訴硬體它想要向那個目的地傳送資料或從那個目的地接收資料。


與 TCP 一樣,特斯拉使用封包丟棄來進行擁塞控制。但由於 TTP 設計為在低延遲底層網路上運行,因此特斯拉能夠採取蠻力方法解決問題。傳統的 TCP 實現會維護一個滑動擁塞窗口,該窗口限制可以傳送的未確認資料量。您可以將其視為網路中正在傳輸的流量。如果封包得到及時確認,則擁塞窗口會擴大,從而增加頻寬。如果封包被丟棄並且在時間閾值內未收到確認,則擁塞窗口會迅速縮小。這讓 TCP 能夠優雅地處理各種不同的連接。頻寬將在低延遲、低損耗的家庭本地網路中擴大,並自然地在與您的網際網路服務提供商及其他網路的高延遲、高封包丟失連結中縮小。


特斯拉不打算在開放網際網路的低品質鏈路上運行 TTP,因此採取了強力擁塞控制方法。擁塞窗口不會根據封包丟失進行縮放。硬體跟蹤 SRAM 緩衝區中傳送的資料,這定義了擁塞窗口大小。當緩衝區填滿時,傳送停止,封包丟失通過重新傳輸 SRAM 緩衝區中保存的資料來處理。當相應的確認從另一端返回時,資料將從 SRAM 緩衝區中釋放,從而自然地將滑動窗口向前移動。


特斯拉證明這種方法的合理性是,傳統 TCP 擁塞控制演算法(如 Reno)的工作時間尺度太長,因此對其 Dojo 超級電腦應用程式無效。


擁塞管理在每個端點上獨立處理,這是 TCP 擁塞愛好者所熟悉的模型。Tesla 提到這一點主要是為了與其他低延遲網路(如 Infiniband)形成對比,在這些網路中,擁塞控制是在交換機等級處理的。Infiniband 使用在交換機等級控制的信用系統,不會丟棄封包。如果端點用盡信用,它就會停止傳送。TCP 和 TTP 通過簡單地丟棄封包來處理擁塞,從而消除了單獨傳送信用的需要,並降低了網路交換機的複雜性。


Tesla 在位於晶片和標準乙太網路硬體之間的硬體塊中處理其 TTP 協議。此 MAC 硬體塊由 CPU 架構師設計,並引入了許多 CPU 設計功能。演示者將其描述為像共享快取一樣,其中仲裁器在考慮排序風險的情況下在請求之間進行選擇。


傳輸中的封包在被確認後會按順序“退出”,這種機制讓人想起 CPU 從重新排序緩衝區按順序退出指令。最突出的資源之一是 1 MB 傳輸 SRAM 緩衝區,它定義了上述擁塞窗口。特斯拉表示,這個大小足以容忍大約 80 微秒的網路延遲,而不會造成明顯的頻寬損失。根據利特爾定律,假設 1 MB 的傳輸資料和 80 微秒的延遲,則會產生 97.65Gbps。這剛好足以使 100 千兆位網路介面飽和。

TPP MAC 是在 Tesla 所謂的“Dumb-NIC”上實現的。NIC 代表“網路介面卡”。之所以被稱為“Dumb”,是因為它儘可能便宜和簡單。Tesla 希望部署大量主機節點來為他們的 Dojo 超級電腦提供資料,而廉價的網路卡有助於以經濟高效的方式實現這一目標。


除了 TPP MAC,Mojo 還整合了帶有 PCIe Gen 3 x16 介面的主機晶片以及 8 GB 的 DDR4。PCIe Gen 3 和 DDR4 並非尖端技術,但有助於控製成本。Mojo 這個名字源於這樣一種理念:額外的主機節點會為 Dojo 提供更多的 Mojo,從而保持高性能。



這些 Mojo 卡安裝在遠端主機上。當工程師需要更多頻寬來將資料輸入 Dojo 超級電腦時,可以從池中拉出遠端主機。這些機器的額外頻寬疊加在現有主機提供的入口頻寬之上,這些主機使用去年 Hot Chips 會議上展示的更高成本介面處理器。


總體而言,Mojo 和 TTPoE 協議提供了一個有趣的視角,展示了如何簡化眾所周知的傳輸控制協議 (TCP),以用於更高品質的超級電腦內部網路。雖然該協議理論上可以在網際網路上運行,但諸如固定擁塞窗口之類的簡化在網際網路服務提供商及其他低品質鏈路上效果不佳。

與 Infiniband 等其他超級計算網路解決方案相比,乙太網路上的自訂傳輸協議可能提供足夠的額外頻寬來滿足 Dojo 的需求。


07 中國香山高性能 RISC-V 處理器亮相



“香山”開源高性能RISC-V處理器核源於中國科學院在2019年佈局的“中國科學院先導戰略專項”。作為該項目的承擔單位,中國科學院計算技術研究所於2021年成功研製了第一代開源高性能RISC-V處理器核“香山(雁棲湖)”,是同期全球性能最高的開源處理器核。


第二代“香山”(南湖)開源高性能RISC-V處理器核發佈,是中國首款對標A76的高性能開源RISC-V處理器核。第三代“香山”(微架構代號是昆明湖)生產線瞄準的是 Arm Neoverse N2。


以上是“昆明湖”和“南湖”晶片與Arm Neoverse N2和 Arm Cortex A76 的比較。(半導體產業縱橫)