在昨晚的GTC演講中,英偉達(Nvidia,輝達)CEO宣布了一系列的重磅芯品,當中不但包括了為中國專門準備的,基於H100改版而來的H800芯片。同時,公司還宣布了為生成式AI而準備的產品。
在這次演講中,黃仁勳還帶來了加速2nm設計的計算光刻等一系列產品,現在我們綜合如下,與讀者分享。
將旗艦H100 調整為H800,出口到中國
據路透社報導,主導人工智能芯片市場的美國半導體設計公司Nvidia 已將其旗艦產品修改為可以合法出口到中國的版本。
美國監管機構去年制定了規則,禁止Nvidia 向中國客戶銷售其兩款最先進的芯片,即A100 和更新的H100。此類芯片對於開發生成式人工智能技術(如OpenAI 的ChatGPT 和類似產品)至關重要。
路透社在11 月報導稱,Nvidia設計了一款名為A800 的芯片,該芯片降低了A100 的某些功能,使A800 可以合法出口到中國。
週二,該公司證實它已經開發出類似的H100 芯片的中國出口版本。阿里巴巴集團控股、百度公司和騰訊控股等中國科技公司的雲計算部門正在使用這款名為H800 的新芯片,英偉達發言人說。
美國監管機構去年秋天實施了規則,以減緩中國在半導體和人工智能等關鍵技術領域的發展。
圍繞人工智能芯片的規則強加了一項測試,禁止那些具有強大計算能力和高芯片到芯片數據傳輸率的芯片。在使用大量數據訓練人工智能模型時,傳輸速度非常重要,因為較慢的傳輸速度意味著更多的訓練時間。
中國一位芯片行業消息人士告訴路透社,H800 主要將芯片到芯片的數據傳輸速率降低到旗艦H100 速率的一半左右。
Nvidia 發言人拒絕透露面向中國的H800 與H100 有何不同,只是“我們的800 系列產品完全符合出口管制法規”。
突破計算光刻,為2nm芯片製造奠定基礎
在英偉達這次GTC大會上,下手ASML、TSMC 和Synopsys突破計算光刻,助力行業跨越物理極限是另一個值得關注的亮點。
NVIDIA 表示,將加速計算帶入計算光刻領域,使ASML、台積電和Synopsys 等半導體領導者能夠加速下一代芯片的設計和製造,正如當前的生產流程已接近物理學的極限一樣使成為可能。
英偉達在新聞稿中指出,用於計算光刻的全新NVIDIA cuLitho 軟件庫被世界領先的晶圓代工廠台積電和電子設計自動化領導者Synopsys集成到其最新一代NVIDIA Hopper™ 架構GPU 的軟件、製造流程和系統中。設備製造商ASML 在GPU 和cuLitho 方面與NVIDIA 密切合作,併計劃將對GPU 的支持集成到其所有計算光刻軟件產品中。
這一進步將使芯片具有比現在更細的晶體管和電線,同時加快上市時間並提高24/7 全天候運行以驅動製造過程的大型數據中心的能源效率。
“芯片行業是世界上幾乎所有其他行業的基礎,”NVIDIA 創始人兼首席執行官黃仁勳表示。“隨著光刻技術達到物理極限,NVIDIA 推出cuLitho 並與我們的合作夥伴TSMC、ASML 和Synopsys 合作,使晶圓廠能夠提高產量、減少碳足跡並為2nm 及更高工藝奠定基礎。”
在GPU 上運行,cuLitho 比當前光刻技術(在矽晶圓上創建圖案的過程)提供高達40 倍的性能飛躍,加速目前每年消耗數百億CPU 小時的大量計算工作負載。
它使500 個NVIDIA DGX H100 系統能夠完成40,000 個CPU 系統的工作,並行運行計算光刻過程的所有部分,有助於減少電力需求和潛在的環境影響。
在短期內,使用cuLitho 的晶圓廠可以幫助每天多生產3-5 倍的光掩模——芯片設計的模板——使用比當前配置低9 倍的功率。需要兩週才能完成的光掩模現在可以在一夜之間完成。
從長遠來看,cuLitho 將實現更好的設計規則、更高的密度、更高的產量和AI 驅動的光刻。
“cuLitho 團隊通過將昂貴的操作轉移到GPU,在加速計算光刻方面取得了令人欽佩的進展,”台積電首席執行官CC Wei 博士說。“這一發展為台積電在芯片製造中更廣泛地部署逆光刻技術和深度學習等光刻解決方案開闢了新的可能性,為半導體規模的持續發展做出了重要貢獻。”
“我們計劃將對GPU 的支持集成到我們所有的計算光刻軟件產品中,”ASML 首席執行官Peter Wennink 說。“我們與NVIDIA 在GPU 和cuLitho 方面的合作應該會給計算光刻帶來巨大好處,從而給半導體微縮帶來好處。在High NA 極紫外光刻時代尤其如此。”
Synopsys 董事長兼首席執行官Aart de Geus 表示:“計算光刻,特別是光學鄰近校正(OPC),正在突破最先進芯片的計算工作負載界限。“通過與我們的合作夥伴NVIDIA 合作,在cuLitho 平台上運行Synopsys OPC 軟件,我們將性能從數周大幅提升至數天!我們兩家領先公司的合作將繼續推動該行業取得驚人的進步。”
英偉達表示,近年來,由於較新節點中的晶體管數量更多以及更嚴格的精度要求,半導體製造中最大工作負載所需的計算時間成本已超過摩爾定律。未來的節點需要更詳細的計算,並非所有這些都可以適用於當前平台提供的可用計算帶寬,從而減緩了半導體創新的步伐。
晶圓廠流程變更通常需要OPC 修訂,從而造成瓶頸。cuLitho 有助於消除這些瓶頸,並使新穎的解決方案和創新技術成為可能,例如曲線掩模、High NA EUV 光刻和新技術節點所需的亞原子光刻膠建模。
Nvidia 宣布BlueField-3 GA
Nvidia 今天宣布全面推出其BlueField-3 數據處理單元(DPU) 以及令人印象深刻的早期部署,包括Oracle Cloud Infrastructure。BlueField-3 於2021 年首次描述,現已交付,是Nvidia 的第三代DPU,擁有大約220 億個晶體管。與上一代BlueField 相比,新的DPU 支持以太網和InfiniBand 連接,速度高達每秒400 吉比特,計算能力提高4 倍,加密加速提高4 倍,存儲處理速度提高2 倍,內存帶寬提高4 倍。”
Nvidia 首席執行官黃仁勳在GTC 23 主題演講中表示:“在現代軟件定義的數據中心中,執行虛擬化、網絡、存儲和安全性的操作系統會消耗數據中心近一半的CPU 內核和相關功率。數據中心必須加速每個工作負載以回收功率並釋放CPU 用於創收工作負載。Nvidia BlueField 卸載並加速了數據中心操作系統和基礎設施軟件。”
早在2020 年,Nvidia 就制定了DPU 戰略,認為CPU 正因諸如Huang 所引用的內務雜務而陷入困境。Nvidia 認為,DPU 將吸收這些任務,從而釋放CPU 用於應用程序。其他芯片供應商——尤其是英特爾和AMD——似乎同意並已跳入DPU 市場。
有時被描述為類固醇的智能網卡引起了人們的興趣,但尚未轉化為廣泛的銷售。變化現在可能正在發生。Huang 列舉了“超過20 個生態系統合作夥伴”,其中包括現在使用BlueField 技術的Cisco、DDN、Dell EMC 和Juniper。
在媒體/分析師預簡報會上,英偉達網絡副總裁Kevin Deierling 表示:“BlueField-3 已全面投入生產並可供使用。它的Arm 處理器內核數量是BlueField-2 的兩倍,加速器更多,並且運行工作負載的速度比我們上一代DPU 快八倍。BlueField-3 可跨雲HPC、企業和加速AI 用例卸載、加速和隔離工作負載。”
Nvidia 的DPU 瞄準超級計算機、數據中心和雲提供商。在GTC 上,Nvidia 吹捧了Oracle 雲部署,其中BlueField-3 是Nvidia更大的DGX-in-the-Cloud 勝利的一部分。
“正如你所聽到的,我們宣布Oracle Cloud Infrastructure率先運行DGX Cloud 和AI 超級計算服務,使企業能夠立即訪問為生成AI 訓練高級模型所需的基礎設施和軟件。OCI [還] 選擇了BlueField-3 以實現更高的性能、效率和安全性。與BluField-2 相比,BlueField-3 通過從CPU 卸載數據中心基礎設施任務,將虛擬化實例增加了八倍,從而提供了巨大的性能和效率提升,”Deierling 說。
在官方公告中,英偉達引用了OCI 執行副總裁Clay Magouyrk 的話說:“Oracle 雲基礎設施為企業客戶提供了幾乎無與倫比的人工智能和科學計算基礎設施的可訪問性,並具有改變行業的能力。Nvidia BlueField-3 DPU 是我們提供最先進、可持續的雲基礎設施和極致性能戰略的關鍵組成部分。”
BlueField-3 在CSP 中的其他勝利包括百度、CoreWeave。京東、微軟Azure 和騰訊。
Nvidia 還報告稱,BlueField-3 具有“通過DOCA軟件框架”的完全向後兼容性。
DOCA 是BlueField 的編程工具,DOCA 2.0 是最新版本。Nvidia 一直在穩步為其DPU 產品線添加功能。例如,最近,它加強了內聯GPU 數據包處理,“以實施高數據率解決方案:數據過濾、數據放置、網絡分析、傳感器信號處理等。” 新的DOCA GPUNetIO 庫可以克服以前DPDK 解決方案中發現的一些限制。
按照英偉達所說,Nvidia 實時GPU 網絡數據包處理是一種對多個不同應用領域有用的技術,包括信號處理、網絡安全、信息收集和輸入重建。這些應用程序的目標是實現內聯數據包處理管道以在GPU 內存中接收數據包(無需通過CPU 內存暫存副本);與一個或多個CUDA 內核並行處理它們;然後運行推理、評估或通過網絡發送計算結果。
推出H100 NVL,用於大模型的內存服務器卡
Anandtech表示,雖然今年的春季GTC 活動沒有採用NVIDIA 的任何新GPU 或GPU 架構,但該公司仍在推出基於去年推出的Hopper 和Ada Lovelace GPU 的新產品。但在高端市場,該公司今天宣布推出專門針對大型語言模型用戶的新H100 加速器變體:H100 NVL。
H100 NVL 是NVIDIA H100 PCIe 卡的一個有趣變體,它是時代的標誌和NVIDIA 在AI 領域取得的廣泛成功,其目標是一個單一的市場:大型語言模型(LLM) 部署。有一些東西使這張卡與NVIDIA 通常的服務器票價不同——其中最重要的是它的2 個H100 PCIe 板已經橋接在一起——但最大的收穫是大內存容量。組合的雙GPU 卡提供188GB 的HBM3 內存——每張卡94GB——提供比迄今為止任何其他NVIDIA 部件更多的每個GPU 內存,即使在H100 系列中也是如此。
驅動此SKU 的是一個特定的利基市場:內存容量。像GPT 系列這樣的大型語言模型在許多方面都受到內存容量的限制,因為它們甚至會很快填滿H100 加速器以保存它們的所有參數(在最大的GPT-3 模型的情況下為175B)。因此,NVIDIA 選擇拼湊出一個新的H100 SKU,它為每個GPU 提供的內存比他們通常的H100 部件多一點,後者最高為每個GPU 80GB。
在封裝的蓋下,我們看到的本質上是放置在PCIe 卡上的GH100 GPU的特殊容器。所有GH100 GPU 都配備6 個HBM 內存堆棧(HBM2e 或HBM3),每個堆棧的容量為16GB。然而,出於良率原因,NVIDIA 僅在其常規H100 部件中提供6 個HBM 堆棧中的5 個。因此,雖然每個GPU 上標稱有96GB 的VRAM,但常規SKU 上只有80GB 可用。
而H100 NVL 是神話般的完全啟用的SKU,啟用了所有6 個堆棧。通過打開第6個HBM 堆棧,NVIDIA 能夠訪問它提供的額外內存和額外內存帶寬。它將對產量產生一些實質性影響——多少是NVIDIA 嚴密保守的秘密——但LLM 市場顯然足夠大,並且願意為近乎完美的GH100 封裝支付足夠高的溢價,以使其值得NVIDIA 光顧。
即便如此,應該注意的是,客戶無法訪問每張卡的全部96GB。相反,在總容量為188GB 的內存中,它們每張卡的有效容量為94GB。在今天的主題演講之前,NVIDIA 沒有在我們的預簡報中詳細介紹這個設計,但我們懷疑這也是出於良率原因,讓NVIDIA 在禁用HBM3 內存堆棧中的壞單元(或層)方面有一些鬆懈。最終結果是新SKU 為每個GH100 GPU 提供了14GB 的內存,內存增加了17.5%。同時,該卡的總內存帶寬為7.8TB/秒,單個板的總內存帶寬為3.9TB/秒。
除了內存容量增加之外,更大的雙GPU/雙卡H100 NVL 中的各個卡在很多方面看起來很像放置在PCIe 卡上的H100 的SXM5 版本。雖然普通的H100 PCIe 由於使用較慢的HBM2e 內存、較少的活動SM/張量核心和較低的時鐘速度而受到一些限制,但NVIDIA 為H100 NVL 引用的張量核心性能數據與H100 SXM5 完全相同,這表明該卡沒有像普通PCIe 卡那樣進一步縮減。我們仍在等待產品的最終、完整規格,但假設這裡的所有內容都如所呈現的那樣,那麼進入H100 NVL 的GH100 將代表當前可用的最高分檔GH100。
這裡需要強調複數。如前所述,H100 NVL 不是單個GPU 部件,而是雙GPU/雙卡部件,它以這種方式呈現給主機系統。硬件本身基於兩個PCIe 外形規格的H100,它們使用三個NVLink 4 橋接在一起。從物理上講,這實際上與NVIDIA 現有的H100 PCIe 設計完全相同——後者已經可以使用NVLink 橋接器進行配對——所以區別不在於兩板/四插槽龐然大物的結構,而是內部芯片的質量。換句話說,您今天可以將普通的H100 PCIe 卡捆綁在一起,但它無法與H100 NVL 的內存帶寬、內存容量或張量吞吐量相匹配。
令人驚訝的是,儘管有出色的規格,但TDP 幾乎保持不變。H100 NVL 是一個700W 到800W 的部件,分解為每塊板350W 到400W,其下限與常規H100 PCIe 的TDP 相同。在這種情況下,NVIDIA 似乎將兼容性置於峰值性能之上,因為很少有服務器機箱可以處理超過350W 的PCIe 卡(超過400W 的更少),這意味著TDP 需要保持穩定。不過,考慮到更高的性能數據和內存帶寬,目前還不清楚NVIDIA 如何提供額外的性能。Power binning 在這裡可以發揮很大的作用,但也可能是NVIDIA 為卡提供比平常更高的提升時鐘速度的情況,因為目標市場主要關注張量性能並且不會點亮整個GPU一次。
否則,鑑於NVIDIA 對SXM 部件的普遍偏好,NVIDIA 決定發布本質上最好的H100 bin 是一個不尋常的選擇,但在LLM 客戶的需求背景下,這是一個有意義的決定。基於SXM 的大型H100 集群可以輕鬆擴展到8 個GPU,但任何兩個GPU 之間可用的NVLink 帶寬量因需要通過NVSwitch 而受到限制。對於只有兩個GPU 的配置,將一組PCIe 卡配對要直接得多,固定鏈路保證卡之間的帶寬為600GB/秒。
但也許比這更重要的是能夠在現有基礎設施中快速部署H100 NVL。LLM 客戶無需安裝專門為配對GPU 而構建的H100 HGX 載板,只需將H100 NVL 添加到新的服務器構建中,或者作為對現有服務器構建的相對快速升級即可。畢竟,NVIDIA 在這裡針對的是一個非常特殊的市場,因此SXM 的正常優勢(以及NVIDIA 發揮其集體影響力的能力)可能不適用於此。
總而言之,NVIDIA 宣稱H100 NVL 提供的GPT3-175B 推理吞吐量是上一代HGX A100 的12 倍(8 個H100 NVL 對比8 個A100)。對於希望盡快為LLM 工作負載部署和擴展系統的客戶來說,這肯定很有吸引力。如前所述,H100 NVL 在架構特性方面並沒有帶來任何新的東西——這裡的大部分性能提升來自Hopper 架構的新變壓器引擎——但H100 NVL 將作為最快的PCIe H100 服務於特定的利基市場選項,以及具有最大GPU 內存池的選項。
總結一下,根據NVIDIA 的說法,H100 NVL 卡將於今年下半年開始發貨。該公司沒有報價,但對於本質上是頂級GH100 的產品,我們預計它們會獲得最高價格。特別是考慮到LLM 使用量的激增如何轉變為服務器GPU 市場的新淘金熱。
Nvidia 的“雲”,服務起價37,000 美元
如果你是Nvidia 的忠實擁護者,請準備好花大價錢使用它在雲端的AI 工廠。
Nvidia 聯合創始人兼首席執行官黃仁勳上個月在談到這家GPU 製造商的季度收益時,提出了Nvidia DGX Cloud 的計劃,本質上是呼籲將公司的DGX AI 超級計算機硬件和配套軟件——尤其是其廣泛的企業AI一套軟件——放到公有云平台上供企業使用。
我們必須申明,Nvidia 還不夠富有,或者說不夠愚蠢,他們無法構建雲來與Amazon Web Services、Microsoft Azure 或Google Cloud 等公司競爭。但他們足夠聰明,可以利用這些龐大的計算和存儲實用程序為自己謀利,並在它們構建的基礎設施之上銷售服務賺錢,而基礎設施又基於自己的組件。
DGX Cloud 的巧妙之處不在於有經過認證的本地和雲堆棧來運行Nvidia 的AI 硬件和軟件。您需要向Nvidia 支付費用,才能以一種SaaS 模式這樣做——Nvidia 可以向您或云出售構建基礎設施的部件。
就其本身而言,這是使AI 民主化的最新嘗試,將其帶出HPC 和研究機構的領域,並將其置於主流企業的範圍內,這些企業非常渴望利用新興技術可以帶來的業務優勢遞送。
對於Nvidia 而言,DGX Cloud 的人工智能即服務代表著向雲優先戰略的強烈轉變,以及一種理解——與其他組件製造商一樣——它現在既是一家硬件製造商,也是一家軟件公司,而公共雲是一個使該軟件易於訪問並且更重要的是將其貨幣化的自然途徑。
對於十多年前將AI 置於其前進戰略中心、構建以AI 為核心的路線圖的公司而言,這是重要的下一步。Nvidia 在2016 年推出了DGX-1,這是其第一台深度學習超級計算機。第四代系統於去年推出。2020 年出現了第一批DGX SuperPOD,一年後Nvidia 推出了AI Enterprise,這是一個包含框架、工具和相當大劑量的VMware vSphere 的軟件套件。
AI Enterprise 強調了軟件對Nvidia 日益增長的重要性——反映了其他組件製造商的類似趨勢——這家公司現在從事軟件工作的員工多於硬件。
借助DGX Cloud,Nvidia 現在可以通過另一種方式將所有這些交付給那些希望在其工作流程中利用生成式AI 工具(例如來自OpenAI 的廣受歡迎的ChatGPT)的企業(通過Microsoft),但沒有資源在其內部擴展基礎設施數據中心來支持它。他們現在可以通過雲訪問它,享受它所有的可擴展性和即用即付的好處。
Nvidia 企業計算副總裁Manuvir Das 在GTC 前會議上告訴記者:“多年來,我們一直在與企業公司合作,創建他們自己的模型來訓練他們自己的數據。” “過去幾個月,像ChatGPT 這樣基於非常非常大的GPT 模型的服務越來越受歡迎,每天有數百萬人使用一個模型。當我們與企業公司合作時,他們中的許多人有興趣使用自己的數據為自己的目的創建模型。”
據最新介紹,租用GPU 公司包羅萬象的雲端AI 超級計算機的DGX Cloud起價為每個實例每月36,999 美元。租金包括使用帶有八個Nvidia H100 或A100 GPU 和640GB GPU 內存的雲計算機。價格包括用於開發AI 應用程序和大型語言模型(如BioNeMo)的AI Enterprise 軟件。
“DGX Cloud 有自己的定價模型,因此客戶向Nvidia 付費,他們可以根據他們選擇使用它的位置通過任何云市場購買它,但這是一項由Nvidia 定價的服務,包括所有費用,” Nvidia 企業計算副總裁Manuvir Das 在新聞發布會上說。
DGX Cloud 的起始價格接近Microsoft Azure 每月收取的20,000 美元的兩倍,用於滿載的A100 實例,該實例具有96 個CPU 內核、900GB 存儲空間和8 個A100 GPU 每月。
甲骨文在其RDMA 超級集群中託管DGX 雲基礎設施,可擴展到32,000 個GPU。微軟將在下個季度推出DGX Cloud,隨後將推出Google Cloud。
客戶將不得不為最新的硬件支付額外費用,但軟件庫和工具的集成可能會吸引企業和數據科學家。
Nvidia 聲稱它為AI 提供了最好的可用硬件。它的GPU 是高性能和科學計算的基石。但是Nvidia 專有的硬件和軟件就像使用Apple iPhone 一樣——你得到了最好的硬件,但一旦你被鎖定,就很難脫身,而且在它的生命週期中會花費很多錢。
但為Nvidia 的GPU 支付溢價可能會帶來長期利益。例如,Microsoft 正在投資Nvidia 硬件和軟件,因為它通過Bing with AI 提供了成本節約和更大的收入機會。
人工智能工廠的概念是由首席執行官黃仁勳提出的,他將數據設想為原材料,工廠將其轉化為可用數據或複雜的人工智能模型。Nvidia的硬件和軟件是AI工廠的主要組成部分。
“你只需提供你的工作,指向你的數據集,然後點擊開始,所有的編排和下面的一切都在DGX Cloud 中得到處理。現在,相同的模型可以在託管在各種公共雲上的基礎設施上使用,”Nvidia 企業計算副總裁Manuvir Das 在新聞發布會上說。
Das 說,數百萬人正在使用ChatGPT 風格的模型,這需要高端人工智能硬件。
DGX Cloud 進一步推動了Nvidia 將其硬件和軟件作為一套產品銷售的目標。Nvidia 正在進軍軟件訂閱業務,該業務的長尾涉及銷售更多硬件,從而產生更多軟件收入。Base Command Platform 軟件界面將允許公司管理和監控DGX 雲培訓工作負載。
Oracle Cloud 擁有多達512 個Nvidia GPU 的集群,以及每秒200 GB 的RDMA 網絡。該基礎設施支持包括Lustre 在內的多個文件系統,吞吐量為每秒2 TB。
Nvidia 還宣布有更多公司採用了其H100 GPU。Amazon 宣布他們的EC2“UltraClusters”和P5 實例將基於H100。“這些實例可以使用他們的EFA 技術擴展到20,000 個GPU,”Nvidia 超大規模和HPC 計算副總裁Ian Buck 在新聞發布會上說。
EFA 技術是指Elastic Fabric Adapter,它是由Nitro 編排的網絡實現,它是一種處理網絡、安全和數據處理的通用定制芯片。
Meta Platforms 已開始在Grand Teton中部署H100 系統,這是社交媒體公司下一代AI 超級計算機的平台。
總結
在昨天開幕的GTC上,英偉達還帶來了多樣化的產品,例如用於特定推理的的英偉達L4 GPU。據報導,這款GPU 可以提供比CPU 高120 倍的人工智能視頻性能。它提供增強的視頻解碼和轉碼功能、視頻流、增強現實和生成AI 視頻。
此外,英偉達還聯合客戶打造由16 個DGX H100 系統組成,每個系統配備八個H100 GPU的生成式AI超級計算機Tokyo-1。根據Nvidia 的AI 觸發器數學計算,這相當於大約一半的exaflop AI 能力;由於每個H100(一開始將有128 個)提供30 teraflops 的峰值FP64 功率,因此它應該達到大約3.84 petaflops 的峰值。
由此可見,黃仁勳正在帶領英偉達走向一個新階段。(半導體行業觀察)