#Mellanox
一樁收購,成就4兆輝達
對於當前炙手可熱的輝達,大家公認有兩條護城河,分別是CUDA和NVLink,但從最近一個季度的業績看來,如果沒有當年70億美元的收購,也許後續就不會有市值4兆的晶片巨頭。在今年二季度的財報發佈之後,整個注意力主要集中在這家晶片製造商的收入能否繼續證明其市值飛速增長的合理性。但其實在各種頭條新聞的背後,有一個業務類股卻格外引人注目,那就是網路業務。在分析人士看來,這將成為推動該公司轉型為市值4兆美元巨頭的低調引擎。相關資料顯示,這項標記為“網路”的業務對輝達整體收入的貢獻可能遠高於16.1%。收入環比飆升46%,同比幾乎翻了一番,僅第二季度就達到了72.5億美元。換句話說,僅在上個季度,通過收購Mellanox而建立的研發中心為輝達創造的收入就超過了收購成本。這使得該部門的年營運額達到250億至300億美元,對於曾經被視為輝達旗艦圖形處理器配角的部門來說,這是一個非同尋常的數字。達成這個成績背後,當年他們耗資69億美元收購的Mellanox功不可沒。01 輝達成功的幕後英雄過去幾年,談到挑戰輝達,除了從計算上面入手以後,軟體和網路是經常被提到兩個方面。例如近年來的UAlink,就是為了攻破輝達壁壘而組建的一個組織聯盟。背後的原因就是單晶片或單機架難以滿足劇增的AI算力需求,Scale Up和Scale Out迫不及待。輝達表示,受能源供應和晶片密度等物理限制的制約,如今的資料中心已經接近單一設施所能提供的極限。新平台 Spectrum-XGS 解決了諸如長延遲等障礙,這些問題迄今為止一直阻礙著獨立的設施作為統一的系統運行。輝達首席執行官黃仁勳在此前的財報電話會議上也強調:“我們擁有Spectrum-XGS,它擁有千兆級規模,可以將多個資料中心、多個AI工廠連接成一個超級工廠,一個龐大的系統。這正是輝達在網路領域投入如此多精力的原因。正如我們之前提到的,Spectrum-X現在已經是一個相當可觀的業務,而且它成立只有大約1.5年。因此,Spectrum-X是一個本壘打。”更早之前,輝達收購Mellanox而加碼打造的以色列分公司的一項技術突破將使地理位置相距遙遠的資料中心能夠像在一個地方一樣運行,從而有效地大規模建立“人工智慧工廠”,並顯著提高該行業可用的最大計算能力。該公司在一份新聞稿中表示:“憑藉先進的自動調整距離擁塞控制、精確的延遲管理和端到端遙測技術,Spectrum-XGS 乙太網路幾乎使 NVIDIA 集體通訊庫 (CCL) 的性能提高了一倍,加速了多 GPU 和多節點通訊,從而在地理分佈的 AI 叢集中提供可預測的性能。因此,多個資料中心可以像一個 AI 超級工廠一樣運行,並針對長距離連接進行了全面最佳化。”正如黃仁勳所說:“這正是輝達5.5年前收購Mellanox的原因。”Mellanox 由Eyal Waldman成立於 1999 年,是 InfiniBand 互連技術的先驅。在被輝達收購的時候,該技術及其高速乙太網路產品目前已應用於全球超過一半最快的超級電腦以及許多領先的超大規模資料中心。Mellanox 於 2007 年上市,並於 2018 年首次突破 10 億美元年銷售額。2018 年,該公司的 GAAP 淨收入為 1.343 億美元,也創下了歷史新高,在收購發生之前的13 年中,該有 10 年實現盈利,同時自 2005 年以來一直保持自由現金流為正。在Mellanox 和 NVIDIA之間,也有著悠久的合作與聯合創新歷史。NVIDIA 也早於 2016 年在以色列開設了一家設計中心,並於 2018 年開設了一家人工智慧研究中心。該公司此前承諾“將繼續投資以色列的本地卓越人才,以色列是全球最重要的技術中心之一”。Eyal Waldman此前在一個播客中表示:“我相信,處理器(大腦)與網路連線之間的協同作用,將輝達從一家市值 930 億美元的公司,發展成為如今市值 4 兆美元的巨頭。” 他進一步指出,如果沒有 Mellanox 的 InfiniBand,就不會有 ChatGPT:“OpenAI 一直從我們這裡購買最先進的產品。如果沒有這種連接,他們就無法達到人工智慧所需的資料處理速度。”Eyal Waldman說道。“這是業界有史以來最重要的併購案,”Eyal Waldman強調。02 網路連線空前重要Nvidia網路高級副總裁Gilad Shainer此前在接受HPCwire的採訪中回憶道, Mellanox在當時建構的並不是網路元件。 公司主要建構的是端到端的完整基礎設施,並且專注於 InfiniBand,它配備了網路卡和交換機,以及它們之間的連接,以及所有基於其上的軟體,所以它是一個完整的平台。“它是一款完整的基礎設施,InfiniBand 專為分散式運算應用而設計。因此,它在 HPC 和科學計算領域得到了廣泛的應用。所有大規模叢集模擬都使用 InfiniBand,因為它專為分解式計算而設計,並且具有極低的延遲。InfiniBand 確保所有節點都擁有有效頻寬。抖動是每個人都希望最小化的一個因素。”Gilad Shainer接著說。如他所說,對於 HPC 來說,這是一項偉大的技術,而當AI 開始出現時,它又是分散式運算的另一個案例。例如,你可以認為延遲的敏感度更高或更低,因為人工智慧工作負載和科學計算工作負載之間存在一些差異。科學計算工作負載對延遲的敏感度可能比人工智慧訓練初期更高;而當時的敏感度略低。“納秒級的延遲對於訓練來說並不那麼重要,但仍然需要較大的有效頻寬。”Gilad Shainer指出。他表示,現在我們將推理視為人工智慧的主要元素。推理依賴於延遲,因為你需要低延遲。因此,人工智慧和高性能計算(HPC)本質上具有相同的要求。而這正是基礎設施變得更加重要的地方。Gilad Shainer說,將高性能計算 (HPC) 與人工智慧 (AI) 進行比較時,一個有趣的現像是,在高性能計算 (HPC) 中,計算能力一代一代地提升。然而,資料中心的規模卻保持不變。通常情況下,資料中心有幾千個節點,你可以從每個節點獲取遙測資料,但規模保持不變。來到人工智慧方面,要求就更高了。這不僅僅是每台伺服器的計算能力提升,而是每個新 GPU 的計算能力提升,基礎設施的規模已大幅增長。幾年前,人們討論的是 16000 個 GPU,甚至 30000 個 GPU。這就像與高性能計算 (HPC) 進行比較一樣,都是龐大的基礎設施。如今, 16000個GPU的方案都已經被束之高閣。大型基礎設施通常包含數十萬個 GPU,現在 GPU 數量已達 20 萬個,而云廠商們正在討論幾年後遷移到百萬級 GPU。這不僅僅是電腦的問題,也是基礎設施的規模問題。而要實現這種規模,需要合適的擴展網路和可擴展的基礎設施。資料中心現在已經成為衡量計算能力的標準。它不僅僅是一個盒子,而是一個完整的資料中心。“資料中心就是網路。網路將定義GPU如何作為一個整體的計算元素工作,否則它將只是一個GPU伺服器叢集,這就是NVIDIA收購Mellanox的原因。而這正是基礎設施變得越來越重要的地方。”Gilad Shainer說。有見及此,輝達正處於每年推出新資料中心的節奏中:每年都會有新的 GPU、新的計算引擎、新的交換機、新的基礎設施。每年都會有新的資料中心投入使用,為人工智慧應用提供更強大的功能,無論是訓練還是大量的推理。這些新系統正在世界各地催生出大量的人工智慧框架和應用。03 CPO是大勢所趨如大家所說,現在,基礎架構由資料中心所需的多個域組成。除了scale-out (連接伺服器)之外,還需要建構或擴展 GPU,即組合 GPU 並形成更大的虛擬 GPU。為了實現這個更大的虛擬 GPU,需要在各個 GPU 之間提供巨大的頻寬。如果你想讓它看起來像一個整體,這就是NVlink能發揮作用的地方。這項功能是系統網路的scale-up領域。NVlink 需要支援海量頻寬——是scale-out的 9 倍甚至10 倍。它需要非常低的延遲。因此Mellanox的團隊將可擴展分層聚合和縮減協議 (SHARP) 引入 NVlink,這樣就可以進行縮減,使機架成為一個單元,並且我們嘗試在該機架中安裝越來越多的 GPU。未來,輝達計畫在一個機架中部署 576 個 GPU。這是一個巨大的計算量,需要擴展該機架中的基礎設施。公司也正努力將其控制在機架內,以最大限度地利用銅纜布線。在輝達看來,一旦擁有了在各個元件之間傳輸所需的巨大頻寬,您就需要以最具成本效益的方式建構它,而銅纜是連接通訊的最有效方式。但你不能止步於此,因為現在你需要把這些機架連接在一起,你指的是讓數十萬個GPU作為一個單元工作,或者讓20萬個GPU作為一個單元工作。有些客戶可能想要50萬個甚至100萬個GPU。現在,由於距離較遠,我們需要建構一個基於光纖的橫向擴展基礎設施,但它必須具備與 OFED 層相同的特性,包括有效頻寬和確定性。在輝達看來,InfiniBand 仍然被認為是橫向擴展基礎設施的黃金標準。所有你打算建構的、並非 InfiniBand 的東西,你都可以將其與 InfiniBand 進行比較,因為 InfiniBand 是性能的黃金標準。在Gilad Shainer看來,擴展系統是人工智慧的一個方面。每年,資料中心的規模都在大幅增長。這意味著機架之間的頻寬更大,也意味著線路中的計算量更大。因此,線路中的頻寬也更大。Gilad Shaine同時指出,現在我們需要部署更多的光纖連接,而這部分突然就出現了功耗預算。“在人工智慧資料中心,限制因素不是空間或預算,而是能夠引入多少功耗。”他表示。如Gilad Shaine所說,機架之間的光纖連接耗電很高。這會導致機架中可容納的 GPU 數量減少。因此,光纖網路開始消耗接近 10%的計算能力,這是一個很大的數字。所以,在這種情況下,我們需要考慮的一個因素是,有沒有辦法降低光纖網路的功耗?這不僅僅是因為隨著資料中心規模的擴大,需要建構的元件也越來越多——我需要安裝GPU,安裝網路卡,然後連接線纜,安裝收發器和交換機,並進行所有必要的配置,而其中,增長最快的元件是光收發器的數量。因為每個 GPU 大約有 6 個光收發器。如果我有 10 萬個 GPU,就需要 60 萬個收發器。正如您所知,這些收發器對灰塵很敏感,發生故障時可能需要管理員更換。這種情況可能會導致資料中心中這些元件的更換量增加,因為現在的元件數量更多了。因此,輝達認為,資料中心基礎設施的下一個重大舉措是改進或將光纖連接提升到一個新的水平。這需要將目前作為收發器外部獨立部件的光纖連接整合到交換機中,從而將其提升到一個新的水平。如果我把它們放在一個封裝裡,就不需要通過交換機傳輸電訊號了。這意味著我可以降低功耗,用更少的功率驅動光訊號通過交換機。在這種情況下,我可以將功耗降低近四倍。現在,在同樣的網路中,我實際上可以容納三倍多的GPU。於是,輝達正在推動將矽光子引擎或光學引擎整合到交換機上,我就不再需要使用那些外部收發器了。正如Gilad Shaine所說,共封裝光模組(CPO)並非新概念。市場上曾有人嘗試這樣做。現在到處都能看到一些裝置,也有一些交換機系統嘗試採用CPO,但它們都無法實現全面量產並達到良好的良率,從而實現規模化成本效益。這背後的原因有很多。其中一個原因是這項技術未經驗證,所以良率很低。之前製造的光學引擎採用的是製造大型光學引擎的技術。如果我有一個大型基數交換機,由於尺寸問題,我無法將所有這些光學引擎都裝在同一個交換機上。這時候,就需要新的封裝技術甚至新的雷射技術。而達成的上述種種成就,也和輝達當年收購Mellanox密不可分。04 寫在最後Eyal Waldman在播客採訪中將Mellanox出售談判描述為英特爾、輝達和其他公司之間的一場“大戰”。“最終,與黃仁勳(輝達首席執行官)的聯絡是水到渠成的。“從一開始,我們就知道這是方向。2019年,英特爾的市值遠超輝達,而僅僅一年後,輝達就超越了它。從那時起,由於對人工智慧的正確押注,它的股價一路飆升。”Eyal Waldman強調。籍著收購Mellanox之後,輝達在以色列建立起僅次於美國的研發團隊。據資料顯示,這家晶片巨頭在以色列的七個研發中心擁有超過 5000 名員工。該公司也在當地開發資料中心的中央處理器(CPU)、機器人和汽車的片上系統(SoC)以及自動駕駛汽車的演算法。由此看來,對輝達來說,這是一個前所未有重要的交易。 (EDA365電子論壇)