晶片初創公司,單挑輝達和博通

日前,一家名為Upscale AI的晶片初創公司宣佈。已完成 2 億美元的 A 輪融資,旨在挑戰輝達在機架級 AI 系統交換機領域的統治地位,與思科、博通和 AMD 等公司展開競爭。

據該公司在新聞中介紹,本輪融資由Tiger Global、Premji Invest和Xora Innovation領投,Maverick Silicon、StepStone Group、Mayfield、Prosperity7 Ventures、Intel Capital和Qualcomm Ventures參投。此次融資使Upscale AI的總融資額超過3億美元。他們進一步指出,投資者的迅速湧入反映了行業日益增長的共識:網路是人工智慧擴展的關鍵瓶頸,而旨在連接通用計算和儲存的傳統網路架構從根本上來說並不適用於人工智慧時代。

在他們看來,關鍵的區別在於:傳統網路連線的是終端節點,而人工智慧網路則統一整個叢集。隨著專用人工智慧計算的不斷擴展,它越來越受到改造或專有網路架構的限制。傳統的資料中心網路解決方案是為人工智慧出現之前的世界而設計的,而不是為機架級規模所需的大規模、高度同步的擴展而設計的。

一個旨在撼動輝達護城河的團隊

大家都知道輝達的GPU,但正如我們再很多報導中所說,這家巨頭在網路方面也表現很不錯。受人工智慧資料中心連接需求強勁的推動,輝達2026財年第三季度的網路業務收入同比增長162%,達到81.9億美元,這已經遠超他們當年收購Mellanox所耗費的資金。NVlink也成為了輝達當之無愧的護城河。

考慮到當前單晶片性能擴展乏力,Scale Up和Scale Out的連接需求在未來很長一段時間必將成為主流。換而言之,如果能夠製造出高基數(即連接埠數量眾多)且連接埠間總頻寬高,足以與輝達NVSwitch記憶體架構和NVLink連接埠相媲美的UALink交換機的公司,必將大賺一筆。

Upscale AI,就是一家抱著這個理想而成立的公司。而該公司的創始人Rajiv Khemani,則是行業中讓人如雷貫耳的連續晶片創業專家。

據介紹,Rajiv Khemani曾擔任Sun Microsystems公司的高級產品經理,負責Sparc伺服器和Solaris作業系統。他還曾在NetApp和英特爾公司任職,負責多個業務部門的戰略和市場行銷。

2003年,他出任晶片初創公司Cavium Networks的首席營運官。該公司成立於2000年,最初以生產MIPS處理器起家,但後來憑藉2014年推出的ThunderX伺服器CPU進軍Arm伺服器市場,並因此聲名鵲起。同年,Cavium收購了新興可程式設計交換機ASIC製造商XPliant。2016年6月,Cavium斥資13.6億美元收購了QLogic的儲存業務。2017年11月,晶片巨頭Marvell斥資60億美元收購Cavium,正式進軍資料中心領域。

Khemani 於 2015 年離開 Cavium,成為 Innovium 的聯合創始人兼首席執行長。Innovium 是一家設計高頻寬、極簡主義超大規模乙太網路交換機 ASIC 的公司,其產品名為 TeraLynx。Marvell於 2021 年 8 月以 11 億美元收購了 Innovium ,以進一步推進其資料中心晶片的雄心壯志。

到了2022年2月,Rajiv Khemani和Barun Kar創立了一家名為Auradine的公司,該公司致力於研發4奈米和3奈米製程的人工智慧和區塊鏈計算及網路晶片。Auradine在2024年之前完成了兩輪融資,共籌集了1.61億美元,並在2025年4月的B輪融資中又籌集了1.53億美元。

到了2024年5月,Khemani和Kar決定將Auradine的部分網路業務剝離出來,成立一家名為Upscale AI的新公司,以便更直接地開拓預計到本十年末將達到1000億美元的人工智慧互連市場。在成立之初,該公司得了英特爾、AMD 和高通等公司的支援,

值得一提的是,Kar是Auradine和Upscale AI的另一位聯合創始人,曾任Palo Alto Networks(一家防火牆和其他安全產品製造商)的工程高級副總裁兼創始團隊成員。在此之前,早在網際網路泡沫時期,Kar就曾擔任Juniper Networks的高級系統經理,負責管理其乙太網路路由器和交換機產品。

Upscale AI表示,公司的策略是將 GPU、AI 加速器、記憶體、儲存和網路整合到一個單一的同步 AI 引擎中。作為 Upscale AI 戰略的核心要素,專為擴展而打造的 SkyHammer解決方案通過縮短加速器、記憶體和儲存之間的距離,實現了統一機架,並將整個堆疊轉換為一個統一的同步系統。

Upscale 的 AI 平台基於開放標準和開源技術建構,並積極推進這些標準和開源技術的發展,包括 ESUN、Ultra Accelerator Link (UAL)、Ultra Ethernet (UEC)、SONiC 和交換機抽象介面 (SAI)。該公司積極參與 Ultra Accelerator Link 聯盟、Ultra Ethernet 聯盟、開放計算項目 (OCP) 和 SONiC 基金會。

憑藉新增的 2 億美元融資,Upscale AI 將推出首個涵蓋晶片、系統和軟體的全端式交鑰匙平台,旨在連接未來通用人工智慧 (AGI) 的異構系統。

一款專為網路而最佳化的晶片

如上所述,人工智慧叢集由多個機架組成,每個機架可容納數十台伺服器。這些伺服器通過內建於主機機架中的交換機相互交換資料。機架交換機的技術特性通常與其他網路裝置(例如用於連接不同機架的裝置)的技術特性有顯著差異。

而Upscale AI 正在開發的這款名為 SkyHammer 的產品是一款專為縱向擴展網路(即連接機架內部硬體元件)而最佳化的晶片,能提供確定性延遲。這意味著可以高精度地預測資料在機架元件之間傳輸所需的時間。

眾所周知,人工智慧模型通過計算來處理資料,而這些計算必須按特定順序執行。因此,一次計算的延遲往往會導致後續所有處理步驟的延遲。提前預測網路延遲可以避免意外的資料傳輸延遲,從而防止人工智慧工作負載變慢。

在接受Nextplatform採訪的時候,Upscale AI闡述了自己的目標:

首先,如今,對於規模化 AI 網路而言,真正切實可行的選擇其實只有一個,那就是 NVSwitch。這也是輝達在 GenAI 浪潮中取得巨大成功的原因之一(當然還有其他原因)。而Upscale AI 希望為客戶提供更多選擇。

“我一直堅信異構計算和異構網路是未來的發展方向,”Upscale AI高管告訴The Next Platform。“人們應該有自由選擇權,可以靈活組合各種資源,因為每個人都有其獨特之處,而這種組合方式能夠根據每個人的需求進行最佳化。

有見及此,Upscale AI 致力於普及 AI 計算的網路,他們堅信異構計算的潛力。

“我們認為輝達擁有卓越的技術,在創新方面也是一家傑出的公司。但展望未來,隨著 AI 創新的步伐不斷加快,我認為沒有任何一家公司能夠提供 AI 所需的所有技術——尤其是在未來發展趨勢方面。因此,這必然意味著不同供應商將提供不同類型的計算解決方案。”Upscale AI 強調。

Upscale AI 同時認為,當少量 CPU 與少量 GPU 通訊,且 GPU 的相對記憶體頻寬較低,並且 CPU 和 GPU 在伺服器節點中緊密排列時,PCI-Express 交換機制能夠很好地工作。Upscale AI 於 2024 年初啟動時,UALink 聯盟和 Meta Platforms 提出的 ESUN 標準尚未成立,但異構基礎設施的概念早已存在,其目的並非僅僅是為了建構一套能夠完成所有任務的單一基礎設施,而是為了建構一套能夠更好地匹配不同任務工作流程的基礎設施。

“未來,單個GPU可能無法完成所有計算任務,異構計算將會成為主流,”Upscale AI 方面解釋道。“某些CPU、GPU或XPU可能擅長預編碼和預填充,而其他裝置可能擅長解碼。但如果X廠商擅長預填充,Y廠商擅長解碼,又該怎麼辦呢?交換如今已成為這台機器的核心,它將所有這些功能連接起來,必須確保連接的公平性,並且還要具備可擴展性和可靠性。可靠性至關重要,因為你的任何操作都會直接影響系統中的所有計算。”

在NextPlaform的採訪中,Upscale AI 對那些通過美化 PCI-Express 交換機 ASIC 或拆解乙太網路交換機 ASIC 來製造 UALink、ESUN 或 SUE 交換機的做法嗤之以鼻。

“我看到的很多做法都像是對PCI-Express進行改造,也就是拿PCI-Express的基板來嘗試做其他事情,或者其他廠商拿乙太網路來嘗試改造。但整個記憶體領域的關鍵在於它無法改造。那樣做無法為客戶提供真正最佳化的、僅能向上擴展的堆疊,因為最終的結果只是拿一個基板,試圖移除不需要的東西。長期從事ASIC行業的人都知道,你可以移除很多模組,但基本單元仍然保持不變。每個ASIC都有其不變的基本DNA。”

因此,Khemani 和 Kar 著手從頭開始建構一個記憶體結構 ASIC,專門用於此目的,然後確保它支援記憶體語義協議的更新。

雖然並沒有披露AISC細節,但Upscale AI 表示,SkyHammer 將生成即時遙測資料。遙測資料,即關於系統的技術資料,不僅對故障排除至關重要,對配置任務也必不可少。管理員可以分析網路裝置的狀態遙測資料,從而找到最佳化其性能的方法。

SkyHammer還相容多種開源網路技術,其中包括UALink和ESUN。這兩個項目都致力於利用乙太網路實現可擴展的網路應用場景。ESUN是其中較新的項目,於去年啟動,並獲得了輝達、博通和其他主要行業參與者的支援。

SkyHammer還將支援一種名為UEC的網路技術。ESUN旨在連接機架內部的元件,而UEC則專注於連接不同的機架。它可以為多達100萬個晶片的AI叢集提供支援。

“我們正在研發一種高基數交換機(high radix switch )和一款能夠實現這一切的專用積體電路(ASIC)。”Upscale AI強調。

寫在最後

NVLink 是輝達開發的一種高速互連技術,用於將記憶體和計算資源從多個 GPU 中抽象出來,使它們看起來像一個單一的邏輯資源。

這項技術於2024年問世,此後,AMD和思科等公司一直在嘗試開發替代方案。但他們迄今為止的努力(例如UALink和ESUN),仍不成熟。

AMD首批基於UALink的機架式系統將於今年晚些時候上市,但它們將通過乙太網路隧道傳輸該協議。能夠與Nvidia的NVSwitch競爭的專用UALink交換機目前尚未問世。Upscale的目標是通過其SkyHammer定製ASIC晶片改變這一現狀。

Upscale AI 首席執行長 Barun Kar 告訴外媒El Reg:“我們不是在改造傳統系統,而是在重新構想 AI 網路中規模的真正含義。”“這種架構的核心本質上是為了擴展規模。它是專門為人工智慧工作負載而設計的,不適用於其他任何用途。”

雖然我們沒有足夠的資訊將這款晶片與 NVSwitch 6 或 Broadcom 的 Tomahawk 6 進行比較,但 Kar 告訴我們,它採用了基於記憶體語義的載入-儲存網路架構,並將具有類似於 Nvidia Sharp 的集體通訊加速功能。

該平台還將同時支援 UALink 和與其競爭的 ESUN 協議。

為了使整個系統能夠大規模管理,Upscale 正在努力擴展對 SONiC 網路作業系統 (NOS) 的支援。SONiC 是一款開源 NOS,最初由微軟開發,已被廣泛部署,並深受超大規模客戶的青睞。

目前,Upscale 主要專注於縱向擴展網路產品,但長期來看,計畫將產品線擴展到更傳統的橫向擴展交換機。Kar 告訴我們,為此,公司仍在評估各種方案,並可能借助合作夥伴的第三方智慧財產權。

“我們已經與超大規模資料中心營運商和GPU供應商建立了合作關係,他們已經驗證了該架構。這部分工作已經完成。現在,這筆資金的重點是將創新轉化為實際部署,”Kar說道

Upscale AI執行董事長Rajiv Khemani也表示:“Upscale AI在極短的時間內就取得了非凡的發展勢頭。市場需要開放、可擴展的AI網路解決方案,而Upscale AI憑藉其獨特的優勢,能夠幫助客戶突破當前網路方面的限制。” (半導體行業觀察)