一家晶片初創公司,單挑Nvidia和Intel

在2024 年 10 月推出隱身模式的時候,以色列晶片初創公司NextSilicon 表示,即將推出的Maverick-2 是世界上第一款智能計算加速器 (ICA:Intelligent Compute Accelerator),旨在滿足高性能計算人工智慧 (HPC-AI) 應用的需求,是一種“新穎且原創的計算架構”,可在降低功耗和成本的同時提高性能。

剛剛。經過八年時間、3.03 億美元的種子資金和三輪風險投資的NextSilicon 終於推出了其 64 位資料流引擎的多個版本。與此同時,該公司還將推出一款名為 Arbel 的自主研發 RISC-V 處理器,該晶片或將與 Maverick-2 搭配使用,打造諸如輝達“Superchip”類型的產品。

從左到右:NextSilicon Arbel RISC-V CPU、Maverick-1 DFP、Maverick-2 DFP 和用於 OAM 插座的雙晶片 Maverick-2。

NextSilicon 成立於 2017 年,遠早於 GenAI 熱潮興起之時,但當時人們已經意識到 HPC 和 AI 計算引擎架構即將分道揚鑣——而且不利於專注於 64 位和 32 位浮點計算的 HPC 模擬和建模領域。即使沒有像 Cerebras Systems、Graphcore、Groq、Habana Labs、Nervana Systems、SambaNova Systems 等公司那樣直接進軍 AI 市場的初步計畫,NextSilicon 也已在三輪融資中籌集了 2.026 億美元,其中 C 輪融資於 2021 年 6 月完成,融資金額為 1.2 億美元。

當時,NextSilicon 的估值約為 15 億美元,這筆資金和原型設計工作的完成意味著美國能源部可以瞭解 NextSilicon 的動向。彼時,桑迪亞國家實驗室還和 NextSilicon 合作設計和測試了 Maverick-1 資料流引擎,目前桑迪亞正在建構一款名為“Spectra”的新型架構超級電腦,這是其 Vanguard-II 計畫的一部分。據推測,這台超級電腦將使用今天發佈的 Maverick-2 資料流引擎建構。

一條全新的道路

在輝達已經牢牢把持市場的當下,為什麼需要建構一個新的晶片?“這主要是因為沒有專門用於高性能計算的加速器,”NextSilicon 創始人兼首席執行官 Elad Raz在去年接受媒體採訪的時候如此說。他指出,我們有數百家公司在為人工智慧和機器學習做加速,大多數大型供應商都在轉向人工智慧機器學習。你可以看到大型超級電腦對他們意味著什麼——他們只需建構一個新的 GPU 叢集,成但本是原來的兩倍,功耗是原來的兩倍,但得到的卻是相同的 FP64 浮點運算能力。而NextSilicon 是一家以高性能計算 (HPC) 為先的公司。”

他們打算走上的是一條全新的道路。

眾所周知,儘管 GPU 和 CPU 助力了高性能計算 (HPC) 和人工智慧 (AI) 領域的重大科學和社會突破,但它們正面臨著收益遞減的未來。NextSilicon 的創始人沒有繼續走老路,沒有投入巨資打造規模越來越大的人工智慧工廠,配備越來越強大的 GPU(以及更先進的電源和冷卻系統),而是決定嘗試一條不同的道路。

Elad Raz 指出,儘管擁有 80 年歷史的馮·諾依曼架構為我們提供了通用可程式設計的計算基礎,但它也帶來了巨大的開銷。他表示,98% 的晶片用於控制開銷任務,例如分支預測、亂序邏輯和指令處理,而只有 2% 的晶片用於執行應用程式核心的實際計算。

於是,Raz 和他的團隊構想了一種名為“智能計算架構”(ICA)的新架構,該架構使晶片能夠自我重構,以適應不斷變化的工作負載,從而將開銷降至最低,並最大限度地提升計算能力,用於處理高要求的 AI 和 HPC 應用背後的數學運算。這便是 NextSilicon 專利“可重構硬體的執行階段最佳化”的基礎,也是其 Maverick-2 處理器中使用的非馮·諾依曼資料流架構的指導原則。

“NextSilicon 的宗旨是使用軟體來加速你的應用程式,”Raz 解釋道。“其核心是一種複雜的軟體演算法,它能夠理解程式碼中的重要內容並對其進行加速。相比之下,大多數 CPU 和 GPU 都是某種形式的處理器核心組。它們接收指令,並試圖建構複雜的流水線和向量指令集,並採用亂序執行來減少延遲。我們認為這是錯誤的方法。更好的方法是應用帕累托原則,看看那些 20% 的程式碼佔用了 80% 的執行階段間。為什麼我們不對計算和記憶體應用 80/20 規則呢?為什麼我們不能自動識別重要的計算核心並嘗試只關注它們呢?”

Raz 隨後描述了其中的秘訣:“應用程式開始在主機上運行,然後我們會自動識別程式碼中計算密集型的部分。我們保留計算圖的中間表示。我們不會將計算圖轉換為指令。你需要將其視為硬體的即時編譯器。我們保留程序的計算圖,並將其放置在資料流硬體上。我們從硬體獲取遙測資料,並以遞迴方式進行,因此我們始終在程式執行時最佳化計算和記憶體。”

“先進的軟體分析器就像一個精準定位系統,持續監控您的應用程式。它會精準定位出那些佔用性能的關鍵程式碼片段,然後以納秒級的粒度重新配置硬體本身,建構針對該特定程式碼最佳化的自訂資料流水線。這種非對稱執行模型能夠將卓越的效率精準地引導到能夠發揮最大效能的地方,同時讓您的大部分程式碼保持正常運行。”Raz總結說。

Raz同時指出,輝達的CUDA生態,也在將大家綁死在其GPU上,喪失了主動性和議價權。為此,NextSilicon 制定了不是迭代的願景,而是推動一場革命。公司不會墨守成規,而是建構一個全新的遊戲規則,其中計算基礎設施:

1、運行一切,毫不妥協:您現有的 CPU 程式碼、複雜的 GPU 核心、要求苛刻的 HPC 任務以及尖端的 AI/ML 模型——無需修改程式碼即可運行它們。

2、提供極致速度:體驗高達 10 倍的加速,功耗僅為原來的四分之一。如何實現?通過即時動態最佳化晶片,最佳化應用程式最熱門、資源最密集的程式碼路徑。

3、消除供應商鎖定:告別專有領域特定語言 (DSL)。告別繁瑣的移植流程。告別框架維護的噩夢。您的程式碼,您的語言,加速開發。

4、讓您的創新永不過時: ICA 能夠隨著工作負載的演變而不斷調整。您再也不會遇到“重寫瓶頸”。

總結而言,NextSilicon 的資料流架建構立在圖形結構之上。資料流處理器並非像馮·諾依曼那樣逐條處理指令,而是由一系列計算單元(稱為 ALU)組成,這些單元以圖形結構互連。每個 ALU 處理特定類型的函數,例如乘法或邏輯運算。當輸入資料到達時,計算會自動觸發,結果將流向圖形中的下一個單元。與序列資料處理相比,這種新方法具有很大的優勢,因為晶片不再需要處理資料提取、解碼或調度,這些是消耗計算周期的開銷任務。

在預告Maverick-2 一年之後,NextSilicon終於帶來了這顆革命性晶片的詳細細節披露。

一顆與眾不同的晶片

如下圖所示,Maverick-2 晶片有四個計算區域,32 個 RISC-V E 核位於晶片左右兩側的外緣。據統計,計算塊網格由七列組成,每列八個計算塊,晶片上總共有 224 個計算塊。每個計算塊有數百個 ALU,因此可以輕鬆獲得數萬到近十萬個 ALU。對於這顆採用台積電 5 奈米工藝製造,擁有540 億個電晶體的 Maverick-2 晶片來說,這樣的資料似乎並不合理。

但如果我們按照 NextSilicon 的圖表所示做一個 14 x 14 的網格,那麼每個計算塊有 196 個 ALU;我們不知道一個計算塊中有多少個浮點單元。每個 ALU 都有一個 FPU 是有道理的。

作為對比,輝達的“Ampere” A100 GPU 採用台積電 7 奈米工藝製造,擁有 542 億個電晶體和 6912 個 FP32 CUDA 核心;而“Hopper” H100 和 H200 GPU 採用 4 奈米工藝製造,擁有 800 億個電晶體和 18432 個 FP32 核心。Blackwell B200 插槽有兩個晶片組,每個晶片組包含 1040 億個電晶體,但每個晶片組僅包含 16896 個 CUDA 核心,採用 4 奈米工藝製造。我們推測,ALU 比 CUDA 核心更小,並且 Maverick-2 晶片上的 ALU 數量比輝達 GPU 上的 CUDA 核心數量更多。

歸根結底,ALU 數量不如一組 mill 核心所能支援的執行緒數量重要。NextSilicon 聯合創始人兼架構副總裁、前 Mellanox(現為 Nvidia 網路部門)軟體總監 Ilan Tayari 表示,典型的 CPU 有兩個執行緒,GPU 有 32 到 64 個執行緒,但一個 mill 核心可以同時支援數百個執行緒。當然,mill 核心的大小和形狀會有所不同,但每個計算塊可能有數十個 mill 核心,每個 Maverick-2 有 224 個計算塊,因此可以輕鬆支援數千個執行緒,所有執行緒都以 1.5 GHz 的頻率運行——大約相當於一個慢速 CPU 或一個普通 GPU 的速度——並且所有執行緒都連接到 HBM3E 視訊記憶體以獲得快速頻寬。

如上圖右側所示,這個主邏輯單元連接到一條記憶體匯流排,該匯流排上有一個保留站,用於在 ALU 呼叫資料之前臨時儲存資料。(NextSilicon 已獲得這種保留站、調度器和資料流計算塊組合的專利。)與常規 CPU 一樣,Maverick ICA 也使用記憶體管理單元和表後備緩衝區,但這些單元的使用頻率很低,並且僅在 ALU 呼叫特定資料時才會使用。它不進行推測或預測,只進行資料提取。

Tayari 自豪地說:“NextSilicon 的資料流架構使我們能夠顯著降低與傳統 CPU 和 GPU 相比的開銷。我們調整了矽片的分配比例。我們將大部分資源用於實際計算,而不是控制開銷。我們獨特的方法消除了指令處理開銷。我們最大限度地減少了不必要的資料移動,從而使計算單元保持充分利用。我們並非試圖隱藏延遲,而是通過設計來容忍並最小化延遲。”

當應用程式為資料流引擎編譯時,它實際上被對應到資料流引擎上,形成一個稱為 mill core(看起來像一個圖)的東西。它看起來像程序在編譯之前的中間表示圖,並被放置在 ALU 上。NextSilicon 聯合創始人兼首席執行官 Elad Raz 表示,多個 mill core 可以像俄羅斯方塊一樣放置在同一個計算塊上,並且可以根據工作負載的需要,在幾納秒內載入和刪除 mill core。

據介紹,Maverick-2 提供單晶片和雙晶片兩種配置。單晶片 Maverick-2 擁有 32 個 RISC-V 核心,採用台積電 5nm 奈米工藝製造,主頻為 1.5GHz。該卡支援 PCIe Gen5x16,配備 96GB HBM3E 記憶體,記憶體頻寬高達每秒 3.2TB。它擁有 128MB 的一級快取,配備 100GbE 網路卡,熱設計功耗 (TDP) 為 400W,並採用風冷散熱。雙晶片 Maverick-2 則有效地將所有這些功能翻倍,但它需要接入 OAM(OCP 加速器模組)匯流排,配備兩個 100GbE 網路卡,支援風冷或液冷散熱,熱設計功耗為 750W。

NextSilicon 還分享了 Maverick-2 的一些內部基準測試資料。就每秒千兆次更新 (GUPS) 而言,Maverick-2 能夠以 460 瓦的功耗提供 32.6 GUPS,據稱這比 CPU 快 22 倍,比 GPU 快近 6 倍。在 HPCG(高性能共軛梯度)類別中,Maverick-2 以 750 瓦的功耗實現了 600 GFLOPS 的計算能力,據稱這與領先的 GPU 相當,但功耗僅為後者的一半。

NextSilicon 研發副總裁 Eyal Nagar 表示:“我們今天詳細討論的不僅僅是晶片,而是一個基礎,一種思考計算的新方式。它為工程師和科學家打開了一個充滿可能性和最佳化的全新世界。”

一顆意外的RISC-V晶片

NextSilicon 在發佈會上,還同時披露了一顆名為Arbel 的RISC-V CPU。該公司對 RISC-V CPU 設計其實並不陌生。如上面提到的Maverick-2 就使用了一個定製的 RISC-V 核心來處理難以平行化的序列程式碼。該晶片性能出色,因此該組織選擇採用獨立核心。


NextSilicon 表示,該核心顯然已經在台積電 5nm 工藝中實現,將支援高達 2.5 GHz 的時鐘速度,具有 10 寬的發射管道、480 條目的重新排序緩衝區,支援 16 條縮放器指令,並整合四個 128 位向量單元用於單指令多資料 (SIMD) 工作負載。

具體而言,Arbel 核心在整數端擁有一個 10 位寬的發射解碼器和 6 個 ALU,在向量端擁有 4 個 128 位 FPU。該核心可以平行支援 16 條標量指令。它擁有靠近 ALU 的 64 KB L1 指令快取和 64 KB L1 資料快取,以及靠近 FPU 的 1 MB L2 快取。(這兩個快取顯然都與所有計算單元交叉連結。)每個核心有 2 MB 的快取,但同樣,我們不知道 Arbel 晶片上有多少個核心。

NextSilicon 表示 Arbel 核心可以與英特爾的“LionCove”Xeon 核心和 AMD 的“Zen5”Epyc 核心“相媲美”。

NextSilicon 強調,能實現這樣的突破,主要歸功於Arbel 通過四項關鍵架構創新:

1、大規模指令流水線具有 10 寬的發射寬度和 480 條目的重新排序緩衝區,使 Arbel 能夠一次發現更多問題並最大限度地提高核心利用率。

2、2.5 GHz 的核心頻率可提供高單執行緒性能,同時保持功率效率。

3、寬執行單元支援平行 16 條標量指令,加上四個整合的 128 位向量單元,可在資料平行工作負載上實現卓越的性能。

4、先進的記憶體子系統具有 64KB L1 快取和大型共享 L3,可保持資料接近且核心持續供電 - 解決限制現代應用程式的記憶體頻寬和延遲瓶頸。

5、Elite TAGE 分支預測器可確保更快、更準確的決策,減少錯誤預測和浪費的工作。

“這是基於台積電 5 奈米工藝打造的真正矽片——這是我們自主研發的專利 IP,並非授權或借用。由 NextSilicon 工程師打造,旨在實現 NextSilicon 的未來願景。”他們強調。

那麼,這是否意味著NextSilicon 將會成為一家 CPU 公司?

該公司回應道:“不完全是,但我們正在探索一些更有趣的東西。”

NextSilicon表示,公司看到客戶對 Arbel 表現出濃厚的興趣,這讓其看到了 AMD 和 NVIDIA 所意識到的機遇:CPU 和加速器技術之間垂直整合的強大力量。當你同時掌控通用計算和專用加速時,你就能以依賴其他 CPU 架構時無法實現的方式最佳化整個堆疊。

這種做法類似於 Nvidia 在其 GH200 和 GB200 超級晶片中對 Grace CPU 所做的那樣。

“當你同時控制通用計算和專用加速時,你可以最佳化整個堆疊,而當你依賴其他人的 CPU 架構時,這是不可能的,”Raz 解釋道。

NextSilicon聲稱,對於正在應對現代人工智慧和高性能計算 (HPC) 基礎設施複雜性的企業來說,計算難題已不再是不可避免的。Maverick-2 代表了最佳平衡:工作負載最佳化的性能與通用可程式設計性、ASIC 級效率(無需多年的開發周期)以及即時加速,無需數十年來困擾業界的供應商鎖定。

Maverick-2 的資料流架構已經徹底改變了計算領域,而 Arbel 也展現了我們從零開始設計世界一流晶片的能力,我們正在證明,計算的未來並不需要你做出妥協,而是需要從頭開始重新思考架構。 (半導體行業觀察)