#Enfabrica
老黃超200億美元的推理閉環成型了
財大氣粗的老黃7天內接連收購Groq、AI21 Labs,總投入超200億美元。平安夜剛砸200億把Groq的“TPU之父”團隊打包帶走;轉頭又瞄準AI21 Labs,斥20-30億美金將其收入麾下,還帶走了AI21背後的200名頂尖AI博士。而且,加上9月份9億美元買下的Enfabrica,收購3連招之後,輝達算是把“硬體-網路-架構”這條鏈子拉閉環了。AI21和Groq更適配輝達在AI訓練市場的份額早已超過90%,但推理市場卻是另一番景象:定製ASIC晶片搶佔了37%部署份額,Google、博通等巨頭虎視眈眈,市場正變得越來越分散。黃仁勳顯然不想在這場新較量中落後——搶人才就成了最直接的破局方式。前幾天的Groq,不僅拿走了LPU,也帶走了公司90%的員工。最新瞄準的AI21,表面看是一家估值14億美金的以色列初創公司,實則又是個“博士天團聚集地”。三位創始人是科技圈頂流配置。董事長Amnon Shashua是希伯來大學講席教授,手裡握著140多項專利,1999年創辦的Mobileye後來以153億美元賣給英特爾,讓他直接躋身以色列前20富豪;聯合CEO Ori Goshen是連續創業者,前兩家公司不是被收購就是成了行業標竿;還有史丹佛榮譽退休教授Yoav Shoham,曾是Google首席科學家,創業項目多次被巨頭打包帶走。這群大佬帶領的200多位博士,手裡還握著Jamba混合架構這張王牌。現在,輝達擁有了這個天團,於是事情就變得有趣了。此前收購的Groq,它們的LPU使用的並不是HBM,而是速度極快,但記憶體受限的SRAM。純Transformer模型在這上面表現不佳,因為KV快取會隨著上下文長度爆炸式增長。而AI21博士天團手裡的Jamba架構正是Groq這類記憶體受限的推理矽片所需要的。Jamba採用Mamba-Transformer混搭設計,長文字處理速度比同類模型快2.5倍,相比DeepSeek、Llama、Google效率提升2-5倍,還能在256K上下文裡輕鬆跑起4GBKV快取。收了Groq的LPU和核心團隊;拿下AI21,又把200個博士收入麾下,還能直接補上推理架構的短板。輝達正式開始了對GoogleTPU衝擊的回應……三重收購組合拳回頭再看三重收購的組合拳,每一步都被老黃算得精準。之前9億美元帶走了Enfabrica和CEO Rochan Sankar及其核心團隊,補上了網路技術,解決資料傳輸的卡脖子問題。前幾天收購Groq的時候,拿技術又得人心。不僅將推理矽握在手裡,連帶著“TPU之父”Jonathan Ross領銜的核心團隊一起,將90%的員工打包轉入輝達。而且人均套現500萬美元,連工作不滿一年的員工都被取消了“懸崖期”,老黃這波操作也算得上良心。AI21負責LLM架構,把算力轉化成能落地的商業解決方案。三者一結合,輝達在推理市場的“硬體-網路-架構”閉環直接成型。以前大家還在猜“GPU會不會被擠出推理賽道”,現在老黃用200多億美金給出了答案——不僅要守住,還要通過垂直整合把優勢拉滿。Google已經用TPU證明,GPU不是AI推理的唯一解,而老黃這波操作,就是要通過人才和技術的雙重佈局,對抗Google、博通的威脅。三重收購、200個博士背後,是能讓推理效率翻倍的技術,也是能對抗Google、博通的底氣。 (量子位)
輝達9億美元重注Enfabrica:超級網路卡成為下一代AI互聯核心?
輝達近期對Enfabrica的9億美元戰略投資,標誌著下一代互聯技術已成為AI基礎設施的關鍵戰場。在該公司的產品矩陣中,3.2 Tbps的ACF(Accelerated Compute Fabric (ACF)-S超級網路卡以其高度整合的晶片架構脫穎而出,技術實現遠超輝達自有的ConnectX-8系列。與僅整合PCIe交換晶片的CX8(如上圖所示)不同,ACF-S (如下圖所示)在單晶片上融合了乙太網路交換(Packet Switch)與PCIe交換(Memory Switch)功能,形成一個高度整合的裝置。這一設計顯著增強了GPU橫向和縱向擴展互聯、記憶體解耦方面的能力。一、核心應用場景1.記憶體解構在長上下文AI推理邁向百萬令牌等級的處理程序中,KV快取對GPU視訊記憶體的巨大需求已成為制約性能與成本的根本性瓶頸。業界大模型開始探索分佈式KV Cache池和分級Cache機制,比如Kimi的Mooncake架構(如上圖所示)和SGLang的HiCache架構。Enfabrica 的 EMFASYS(彈性記憶體架構系統)通過 ACF-S 高速互聯協議建構基於 DDR 的裝置級池化記憶體資源,實現了計算與記憶體的徹底解耦。該系統支援通過RDMA乙太網路訪問的共用記憶體池架構,以模組化方式靈活擴充記憶體容量,為長上下文推理引擎提供了可線性擴展的記憶體資源池,顯著降低了對高成本 GPU 或 HBM 的依賴。據 Enfabrica 宣稱,EMFASYS 可為大規模推理負載擴展高達 18TB 的 DDR5 記憶體容量,並將單令牌生成成本降低多達 50%,從而在提升性能的同時最佳化了 AI 推理的總體經濟效益。2. 縱向擴展網路:從PCIe到乙太網路當前,國內多數GPU仍依賴PCIe建構縱向擴展(Scale-Up)網路,但PCIe交換晶片的頻寬能力較乙太網路交換晶片低一個數量級,制約了系統規模的進一步擴展。ACF-S通過實現PCIe至乙太網路的協議轉換,有效解決了這一瓶頸:每個GPU通過PCIe介面直連ACF-S;資料流量在晶片內部轉換為乙太網路報文;網路卡提供4×800G乙太網路連接埠,支援多平面、高頻寬的縱向擴展網路,具備負載平衡與冗餘保護能力。這一轉換標誌著縱向擴展網路從PCIe走向乙太網路已成為明確的技術趨勢。3. 增強型橫向擴展RNIC:整合PCIe交換能力在橫向擴展(如上圖所示)場景中,GPU通過PCIe交換晶片連接RNIC,RNIC連接到橫向擴展網路。ACF-S作為整合PCIe交換功能的超級網路卡,使CPU與GPU能夠直接連接到該超級網路卡,無需外接PCIe交換晶片(如下圖所示)。在跨節點All-to-All通訊等場景中,現有架構需消耗GPU的流式多處理器即SM資源執行資料複製與轉發(見下圖,來自Insight into DeeSeek-V3論文,DeepSeek-V3洞察論文個人解讀,DeepSeek最新論文深度解讀 (續))。此外,基於PTX的節點內跨軌道跳轉同樣需要消耗SM計算資源。ACF-S裝置內的網路卡之間已實現以太互聯,封包可在NIC之間通過乙太網路交換晶片轉發,上述在節點限制路由由SM執行的資料面轉發任務可以完全解除安裝至ACF-S,無需消耗SM資源,從而顯著提升通訊效率。二、ACF-S與輝達CX8關鍵能力對比從上圖中可以發現,輝達自家的CX8超級網路卡也整合了PCIe Switch。但是,仍然沿用了之前在DGX H100/H200架構下的連接拓撲(如下圖所示),即GPU以及NIC在PCIe Switch上並沒有實現全互聯,而是分為兩個相對獨立的連接拓撲。如此一來,要實現DeepSeek-V3的節點限制路由以及Rail-only組網下節點內的跨軌道中轉,仍然需要消耗SM計算資源。相比較而言,ACF-S更勝一籌。三、結論Enfabrica ACF-S代表了一類新型“超級網路卡”,它在單一晶片上融合了縱向與橫向擴展網路能力。通過整合乙太網路與PCIe交換功能,ACF-S實現了大規模KV快取資源池、高效整合的PCIe轉乙太網路縱向擴展網路模組。輝達此次重金投資表明,此類融合互聯架構將成為支撐下一代AI工作負載擴展的關鍵基石。 (網路技術趨勢洞察)