Tachyum一顆2nm晶片發佈,理論上可輕鬆應對 NVIDIA 的 Rubin Ultra
今天,又一家公司要吊打輝達。
據一家名為Tachyum公司透露,公司新發佈的 2nm Prodigy 晶片能提供 1024 個核心、6GHz 時脈頻率、1GB 組合快取,並支援超高速 DDR5 記憶體,理論上可以輕鬆應對 NVIDIA 的 Rubin Ultra,
Tachyum表示, 公司的 Prodigy 2nm 處理器將在單個插槽上實現多達 1024 個 64 位核心,從而將性能提升到一個新的水平。這些核心的運行頻率最高可達 6.0 GHz,並且可以擴展到 16 插槽系統,最多可容納 8192 個 CPU 核心(1024 核心 SKU 支援 8 插槽配置)。
Tachyum 聲稱, Prodigy 2 將是首款推理性能超過 1000 PFLOPs 的晶片,而 NVIDIA Rubin 的推理性能為 50 PFLOPs。換而言之,該公司的晶片速度比 NVIDIA Rubin Ultra 快 21 倍。
他們還指出,Prodigy Ultimate 的 AI 機架性能比 NVIDIA Rubin Ultra (NVL756) 高 21.3 倍,而 Prodigy Premium 的 AI 機架性能比 NVIDIA Rubin (NVL144) 高 25.9 倍。但他們並未詳細說明 Prodigy Premium 和 Prodigy Ultimate 的具體區別。
下面我們瞭解一下這顆預告了多次,並延期了多次的晶片。
解碼Tachyum的晶片
雖然他們並沒有詳細講述這顆晶片,但我們可以從相關報導中,獲得更多蛛絲馬跡。
Tachyum也強調,過去幾年,公司不斷升級其 Prodigy 設計,以滿足伺服器、人工智慧和高性能計算市場不斷變化的需求,其整數性能提升高達 5 倍,人工智慧性能提升高達 16 倍,DRAM 頻寬提升 8 倍,晶片間和 I/O 頻寬提升 4 倍,通過支援 16 個插槽實現 4 倍的可擴展性,以及 2 倍的能效,同時降低了每個核心的成本。
現在,隨著Prodigy晶片升級至2nm工藝,顯著降低了功耗。儘管2nm晶圓成本高昂,但縮小晶片尺寸仍能降低成本。Prodigy封裝中的每個晶片都整合了256個高性能定製64位核心。由於多個晶片共用一個封裝,因此降低功耗至關重要。在近期2.2億美元投資的支援下,2nm Prodigy晶片正準備進行流片。
接下來,我們看一下這顆晶片的規格:規格概覽:2nm架構(尚未製造)、最多可達 1024 個 64 位核心、最高可達 6 GHz 時脈頻率、最多 1 GB 的 LLC、最高可達 1600W TDP、支援高達 DDR5-17,600 MT/s 的速度、每個插槽最高支援 48 TB DDR5 記憶體容量、最多支援 128 條 PCIe 7.0 通道。
Tachyum介紹說,其用於Prodigy 2nm晶片的64位微架構將支援最新的矩陣和向量擴展,專為高性能人工智慧和高性能計算應用而設計。它採用亂序執行架構,每個時鐘周期可執行8條指令。
他們指出,該晶片本身整合了 128 KB 指令快取 (I-Cache)、64 KB 資料快取 (D-Cache)(均支援 ECC)以及 1 GB 的 L2+L3 快取。SKU 提供 32、64、96、128、256、320、384、448、512、768 和 1024 個核心配置,TDP 則從 30W、70W、140W、150W、300W、420W、550W、645W、800W、1000W 到最高 1600W 不等。
Prodigy 2nm晶片將支援多達24個DDR5通道,速度最高可達17,600 MT/s,每個插槽最大容量可達48 TB。I/O方面,將提供128條PCIe 7.0通道和總共64個PCIe控製器。DDR5-17600規格和PCIe 7.0在現有伺服器市場並不常見,因此Tachyum今天提到的這個平台不太可能在2027年之前上市,即使到2030年,如果他們能夠推出類似的產品,那也堪稱奇蹟。
在此前的報導中,Tachyum 曾透露,公司的Prodigy 處理器將採用多晶片設計,系統級封裝 (SiP) 內的每個計算晶片都將擁有 256 個通用核心。這意味著整個 SiP 將提供更多核心,從而兌現該公司“性能是目前最高性能 x86 處理器的 3 倍,是目前最高性能 HPC 通用圖形處理器 (GPGPU) 的 6 倍”的承諾。然而,這一性能承諾存在一個問題:該公司尚未最終確定 CPU 的規格,因此也尚未完成晶片流片,其實際性能仍有待觀察。
規格參數介紹完畢,我們來看看Tachyum公佈的一些性能資料。首先,Tachyum將其Prodigy 2nm晶片與NVIDIA的Rubin Ultra GPU平台進行了比較,後者預計將於2027年發佈。
Tachyum強調,Prodigy 通用處理器可提供數量級更高的 AI 性能,是最佳 x86 處理器的 3 倍,是速度最快的 GPGPU 的 6 倍 HPC 性能。Prodigy 無需昂貴的專用 AI 硬體,並可顯著提高伺服器利用率,從而大幅降低資料中心的資本支出和營運支出,同時提供前所未有的性能、功耗和經濟效益。
Tachyum表示,除了開源所有軟體外,Tachyum 還開放其記憶體技術,採用標準元件,使基於 DIMM 的記憶體頻寬提升 10 倍,並可供記憶體或處理器公司授權使用,包括採用 JEDEC 標準,以實現高普及率和低成本。2023 年,Tachyum 發佈了可授權的 Tachyum AI (TAI) 資料類型,其 Tachyum 處理單元 (TPU) 核心也已開放授權。Tachyum 目前正在推進指令集架構 (ISA) 的開源。
基於這些領先晶片,Tachyum打造了兩個解決方案,其中Prodigy Ultimate 整合了 1024 個高性能核心、24 個 DDR5 17.6GT/s 記憶體控製器和 128 條 PCIe 7.0 通道;Prodigy Premium 配備 16 個 DRAM 通道,核心數量從 512 個到 128 個不等,可擴展至 16 路系統。入門級 Prodigy 配備 8 個或 4 個 DRAM 控製器,核心數量從 128 個到 32 個不等。
如Tachyum所說,傳統的大規模人工智慧解決方案可能耗資超過 8 兆美元,需要超過 276 GW的電力。相比之下,Tachyum 的解決方案預計僅需 780 億美元的成本和 1 GW的電力即可實現類似的功能,使其能夠被多家公司和國家改採用。Tachyum認為,公司的Prodigy 系列產品能股改多種性能和應用領域,包括大型人工智慧、百億億次級超級計算、高性能計算 (HPC)、數字貨幣、雲端運算/超大規模計算、巨量資料分析和資料庫。
Tachyum強調,Prodigy 的卓越功能、可擴展性和價格定位確保了其快速的市場滲透。Tachyum 提供開箱即用的原生系統軟體、作業系統、編譯器、庫、眾多應用程式和 AI 基礎設施框架。它還允許運行未經修改的 Intel/AMD x86 二進制檔案,並將其與原生應用程式混合使用。這確保了客戶從第一天起就能使用 Tachyum 系統。
一家旨在打造通用晶片的公司
Tachyum公司總部位於加利福尼亞州聖克拉拉,並在斯洛伐克首都布拉迪斯拉發設有研發實驗室,其團隊擁有眾多經驗豐富的工程師和高管。
其中,聯合創始人兼首席執行官Radoslav Danilak早在網際網路泡沫初期就設計了自己的超長指令字(VLIW)處理器,幾年後,他為一家名為Gizmo Technology的公司開發了一款64位處理和記憶體的亂序執行x86處理器,之後他曾在東芝公司擔任首席架構師,負責東芝7901晶片的開發。該晶片是MIPS R5900 Emotion Engine處理器的變體,曾用於PlayStation 2遊戲機,據推測也用於東芝的各種微控製器和電子產品中。
Danilak還曾在Nishan Systems公司參與一個為期一年的項目,開發出一款單晶片網路處理單元(NPU),將20個不同晶片的功能整合到一起。之後,他擔任輝達的高級架構師,負責設計nForce 4 GPU和第一代Tesla GPU加速器“Fermi”的特性。
2007年,正值GPU加速浪潮即將興起之際,Danilak離開了輝達。他創立了快閃記憶體儲存製造商SandForce,並為其開發了自主研發的快閃記憶體控製器。2010年,SandForce以3.77億美元的價格出售給了LSI Logic。此後,Danilak聯合創立了全快閃記憶體陣列製造商Skyera,該公司於2015年夏季被西部資料以未公開的價格收購。
之後,他四處尋找新的創業靈感,並在2016年9月與Mullendore和Igor Shevlyakov共同創立了Tachyum公司。
Mullendore在網際網路泡沫時期及之後曾擔任Nishan Systems的高級架構工程師,之後在儲存區域網路交換機製造商McData工作,該公司最初隸屬於EMC,後被Brocade Communications收購,Mullendore在收購後繼續留任了一段時間。隨後,Mullendore加入SandForce擔任首席架構工程師,之後又跟隨Danilak先後加入Skyera,現在則在Tachyum工作。
Tachyum 的另一位聯合創始人 Shevlyakov 於 20 世紀 90 年代初以軟體工程師的身份入行,隨後在網際網路泡沫初期,他曾在俄羅斯多家初創公司專注於編譯器開發。在 1999 年至 2001 年的巔峰時期,他擔任即時作業系統製造商 Wind River 的高級編譯器工程師。之後,Shevlyakov 在 MicroUnity 工作了十餘年,該公司開發了一款名為 BroadMX 的 RISC/SIMD 處理器,旨在用於網路處理任務。在 MicroUnity,他將 GNU 開源工具鏈移植到了該處理器上。隨後,他與 Danilak 和 Mullendore 一起加入了 Skyera 公司,在那裡,他將 GNU 工具鏈移植到了該公司自主研發的用於控制快閃記憶體的晶片上,並參與了全快閃記憶體陣列中快閃記憶體轉換層的開發工作。西部資料收購 Skyera 後,Shevlyakov 繼續留在 Tachyum,與他的聯合創始人一起工作,並負責 Tachyum 的軟體棧開發。
負責業務拓展的副總裁肯·瓦格納(Ken Wagner)也是聯合創始人之一,曾就職於多家矽晶片初創公司。系統工程副總裁基蘭·馬爾萬卡(Kiran Malwankar)是橫向擴展儲存裝置製造商Pavilion Data Systems的創始人。弗雷德·韋伯(Fred Weber)是超級電腦製造商Encore Computer和Kendall Square的聯合創始人,曾任AMD首席技術官,並參與建立了64位Athlon和Opteron架構,他是公司的顧問。曼徹斯特大學電腦科學教授史蒂夫·弗伯(Steve Furber)也是顧問,他在20世紀80年代設計了首款32位Acorn RISC Machines處理器,也就是我們熟知的Arm。分佈式系統專家克里斯托斯·科茲拉基斯(Christos Kozyrakis)是史丹佛大學的教授,他經常與Google合作,也是公司的顧問。
在過去近十年裡,Prodigy晶片的設計已延期多年。
一開始,該公司擁有一個內部System C模擬器,可用於內部開發和基準測試。早在2020年的時候,該公司就說晶片將流片,將採用台積電的7奈米工藝製造。這種先進的製造工藝使其能夠在290平方毫米的器件中整合大量元件。
如圖所示,該設計源於對連接電路模組的導線的深入研究,以及Tachyum認為能夠吸引超大規模資料中心、高性能計算中心以及機器學習和推理叢集的元件比例的合理配置。Danilak指出,問題在於導線的傳輸速度正在變慢。以下是一些常見的圖表:
“我們在時脈頻率附近遇到了性能瓶頸,每個核心的性能增長並不顯著,”Danilak表示。“核心數量在增加,但由於散熱問題,我們也在降低時脈頻率。所有電晶體的速度都在提高,但問題在於導線變得越來越細,電阻越來越大,因此導線延遲也在增加。過去晶片的延遲是每毫米100皮秒,而現在每毫米的延遲已經接近1000皮秒。”
當然,導線電阻會產生熱量,還會導致延遲,因此,Danilak認為,訣竅在於儘可能縮短導線長度。這樣一來,晶片的時脈頻率可以比以往更高,同時還能減少總計算時間(獲取資料的時間加上處理資料的時間),從而完成更多工作。關鍵在於提取晶片上運行的工作負載中的平行性,從而消除導線造成的計算延遲(就像快取層次結構掩蓋了標準處理器中的計算延遲一樣),而這需要一些巧妙的編譯器工作——這時,Shevlyakov擁有如此豐富的編譯器經驗就能發揮重要的作用。
於是,如上圖所示,他們開發了第一代晶片。關於這這個設計,Danilak 大膽宣稱:“每個核心都比 Xeon 核心或 Epyc 核心更快,比 Arm 核心更小,總體而言,我們的晶片在高性能計算和人工智慧方面比 GPU 更快。”
在當時,該晶片的核心如下圖所示:
與其他核心設計相比,L1快取略小,資料快取和指令快取均為16KB,但核心上的256KB L2快取和同樣位於核心上的512KB L3快取(兩者共同構成一個覆蓋整個晶片的32MB共享L3快取)則完全正常。如您所見,整數流水線有九級,向量流水線則增加了五級。
以下是 Prodigy 核心如何處理指令獲取:
以下是指令執行流程:
這就是 Prodigy 晶片快取層級結構的實際運作方式:
這就是向量和矩陣數學單元的佈局和工作原理:
Tachyum原本希望在2019年底推出Prodigy晶片的樣品,但由於種種原因推遲了多次。並最終在今天,帶來了2nm的版本。
這次真的要發佈了嗎?
根據最初計畫以來,Prodigy通用處理器於2019年完成晶片流片,2020年上市,但此後計畫多次調整:從2021年推遲到2022年,再到2023年,最後又推遲到2024年。今年早些時候,Tachyum再次更新了計畫,表示將於2025年完成晶片流片,從而推遲了原定於明年第一季度提供的參考伺服器樣品。
雖然該公司官方仍計畫 於2025年開始量產Prodigy處理器,但能否在一年內完成所有必要的里程碑(流片、偵錯、樣品製作、量產啟動)仍有待觀察。
在去年年底,Tachyum發佈了一份長達1600頁的指南,旨在最佳化其Prodigy通用處理器FPGA硬體的性能。我們認為為了幫助大家更好瞭解這顆晶片的邏輯,可以精簡一下這些內容給大家看一下。
據介紹,Prodigy指令集架構(ISA)融合了RISC和CISC兩種架構的元素;據Tachyum公司稱,該ISA避免了傳統CISC處理器中常見的複雜、冗長且效率低下的變長指令。所有指令均標準化為32位或64位,部分指令還整合了記憶體訪問功能以進一步提升性能。
Tachuym 的 Prodigy FPGA 內建性能計數器,可對執行階段事件進行即時監控和分析。該公司表示,這些工具能夠幫助程式設計師和工程師識別性能瓶頸並最佳化程式碼,從而提高效率,使該處理器成為高要求計算任務的理想之選。
本手冊提供了具體的最佳化技巧,包括管理調度限制、改進記憶體例程、對齊分支和指令以及緩解暫存器轉發難題。此外,它還提供了處理快取操作、載入/儲存對齊和訪問特殊暫存器的指導,確保開發人員能夠對軟體進行微調,從而達到最佳性能。
Tachyum創始人兼首席執行官Radoslav Danilak博士表示:“軟體程式設計師、測試工程師、編譯器開發人員以及系統和解決方案工程師將會非常珍惜這次深入瞭解Prodigy如何為高效處理AI、雲端運算和高性能計算工作負載提供固有性能優勢的機會。Prodigy的整合功能將幫助使用者實現業界領先的計算效率,從而更快地獲得洞察、更快地開展研究、更快地生成結果。”
對啦,今年十月,Tachyum透露,一家歐洲投資者將在一個月內向Tachyum的帳戶匯出2.2億美元的投資款項。此舉將助力Tachyum成為人工智慧資料中心市場領先的賦能者之一。此外,該C輪投資者還簽署了一份價值5億美元的Prodigy晶片採購訂單。Prodigy晶片將使人工智慧性能提升一個數量級,並將超大型LLM/AI模型的成本降低約兩個數量級。
聰明的讀者,你對這顆晶片怎麼看? (半導體行業觀察)