牢牢掌握算力分配權的輝達是人工智慧領域當仁不讓的「炸雞雞」。
透過為包括OpenAI、Meta等人工智慧企業提供包括H200、H100、A100等不同規格的GPU,輝達一躍成為全球市值增速最快的企業之一,也因此被外界稱之為人工智慧時代的”賣水人」。以至於黃仁勳和他的財務團隊,會在財報中,透過直覺的圖表來說明輝達對於績效的自信。
在向SEC提交的文件中,輝達表示,2019年1月27日投資100美元(我們)的股票,2024年1月28日價值達到1536.28美元。而對應投資100美元標準普爾500指數和那斯達克100指數基金,價值均在200美元以下。
今年的GTC2024上,黃仁勳的AI「核武庫」正式上新,B200將成為科技巨頭們追逐的「算力明星」——它不僅會成為新的AI算力底座,也將成為輝達市值繼續攀升的業績底座。
作為NVIDIA Blackwell架構首款新產品,B200採用雙晶片設計,電晶體數量達到2,080億個,基於Blackwell架構的B200,輝達也提供了包含GB200、DGX GB200 NVL 72,以及基於GB200和B200打造的DGX SuperPOD超算平台。
軟體服務方面,輝達發表了整合AI開發軟體微服務系統NIM,透過直接提供多產業、多模態的專有模型,以及基於NeMo Retriver的專有資料注入系統,企業可藉由NIM快速部署公司級專有模型。
除了透過軟硬體賦能AI技術之外,輝達也推出了加速AI仿生機器人落地的解決方案——GR00T機器人計畫——世界首款人形機器人模型,支援透過語言、影片和人類展示,為機器人的生成行動指令。
輝達GTC 2024黃仁勳主題演講全程視頻
以下為核心要點:
● B200晶片:採用雙晶片設計,電晶體數量達到2080億個。單GPU AI效能達20 PFLOPS(即每秒2兆次)。記憶體192GB,基於第五代NVLink,頻寬達到1.8TB/s。
● DGX GB200 NVL 72:內建36顆GRACE CPU和72顆Blackwell架構GPU,AI訓練性能可達720PFLOPs(即每秒72兆次),推理性能為1440PFLOPs(每秒144萬億次)。
● 基於GB200的DGX SuperPOD超算:搭載8顆DGX GB200,即288顆Grace CPU和576顆B200 GPU,記憶體達到240TB,FP4精度運算效能達到11.5EFLOPs(每秒11.5百億億次)
● Project GR00T:人型機器人專案-包含了人型機器人基礎模型,ISAAC Lab開發工具庫和Jetson Thor SoC片上系統開發硬件,頻寬達到100GB/s,AI計算性能達到800TFLOPs。
● NIM軟體:針對AI推理系統的新軟體,開發人員可以在其中直接選擇模型來建立利用自己資料的人工智慧應用程式。
輝達最近幾代架構,在名稱上都有致敬科學家的慣例。
上一代產品Hopper架構則是致敬葛蕾絲‧霍珀,這一代架構Blackwel則是致敬的是統計學家兼數學家大衛‧布萊克韋威爾。
在新一代的GPU正式亮相之前,關於架構、雙晶片設計等已經有不少傳聞,重點在於,黃仁勳會把手中的「AI核彈」性能提升到多少?
現在,官方的答案給出來了——基於Blackwell架構的B200採用雙晶片設計,基於台積電4nm工藝,晶體管數量達到2080億個,上一代Hopper架構的H100同樣是4nm工藝,但由於沒有上雙晶片設計,電晶體數量只有800億。
B200搭配8顆HBM3e記憶體(比Hopper架構的H200多了2顆),記憶體達到192GB,基於第五代NVLink,頻寬達到1.8TB/s,相比Hopper架構和Ampere架構,有了巨幅提升,最大可支援10兆參數的模型的訓練。
作為對比,OpenAI 的GPT-3 由1750 億個參數組成,GPT-4參數為1.8兆。
黃仁勳還介紹稱,B200平台可以向下相容,支援與上一代Hopper架構的H100/H200 HGX系統硬體適配。
此前,被稱為OpenAI勁敵的Inflection AI,官宣建立了一套22000顆輝達H100 GPU的世界最大人工智慧資料中心集群,接下來要看看OpenAI,能不能藉助B200反超了。
這裡再插一句輝達的NVLink和NVLink Switch技術。
其中NVLink是輝達開發的CPU和GPU之間高速互聯通道,在記憶體牆無法突破的情況下,最大化提升CPU和GPU之間通訊的效率,於2016年在基於Pascal架構的GP100晶片和P100運算卡上率先採用,當時的頻寬為160GB/s,到H100採用的第四代NVLink,其頻寬已達到900GB/s,而B200採用的第五代NVLink 頻寬已經突破1.8TB/s。
NVLink Switch支援與多個NVLink連接,實現NVLink在單節點、節點之間互聯,進而創建更高頻寬的GPU集群,基於最新的NVLink Switch晶片(台積電4nm工藝,500億個晶體管),可實現576顆GPU組成運算集群,上一代產品僅支援到256個GPU。
根據官方公佈的數據,B200支援第二代Transformer引擎,Tensor核支援FP4、FP6精度計算,單顆B200 GPU的AI性能達20 PFLOPs(即每秒2億億次)。
另外,輝達也在主題演講中展示了全新的加速運算平台DGX GB200 NVL 72,擁有9個機架,總共搭載18個GB200加速卡,即36顆GRACE CPU和72顆Blackwell架構GPU(輝達也提供了HGX B200版本,簡單來說就是用Intel的Xeon CPU,取代了Grace CPU)。
黃仁勳說,一套DGX版GB200 NVL 72總共內建了5,000條NVLink銅纜線,總長度達到2公里,可以減少20kW的運算能耗。
舉個例子,8000個GPU組成的GH100系統,90天內可以訓練一個1.8兆參數的GPT-Moe模型,功耗15兆瓦,而使用一組2000顆GPU的GB200 NVL72加速卡,只需要4兆瓦。
據介紹,DGX版GB200 NVL 72加速運算平台AI訓練性能(FP8精度計算)可達720PFLOPs(即每秒72億億次),FP4精度推理性能為1440PFLOPs(每秒144億億次)。官方稱GB200的推理性能在Hopper平台的基礎上提升6倍,尤其是採用相同數量的GPU,在萬億參數Moe模型上進行基準測試,GB200的性能是Hopper平台的30倍。
演講環節,黃仁勳也公佈了搭載64個800Gb/s端口、且配備RoCE自適應路由的NVIDIA Quantum-X800 InfiniBand 交換機,以及搭載144個800Gb/s端口,網絡內計算性能達到14.4TFLOPs(每秒14.4萬億次)的Spectrum-X800交換器。兩者應對的客戶需求群體略有差異,如果追求超大規模、高性能可採用NVLink+InfiniBand網絡;如果是多租戶、工作負載多樣性,需融入生成式AI,則用高性能Spectrum-X以太網架構。
另外,輝達也推出了基於GB200的DGX Super Pod一站式AI超算解決方案,採用高效液冷機架,搭載8套DGX GB200系統,即288顆Grace CPU和576顆B200 GPU,內存達到240TB, FP4精度計算性能達11.5ELOPs(每秒11.5百億億次),相較於上一代產品的推理性能提升30倍,訓練性能提升4倍。
黃仁勳說,如果你想獲得更多的性能,也不是不可以——發揮鈔票能力——在DGX Super Pod中整合更多的機架,搭載更多的DGX GB200加速卡。
輝達的另一個殺手鐧就是它的軟體,它構成了這一萬億帝國至少半條護城河。
誕生於2006年的CUDA被認為是輝達在GPU上建立霸權的關鍵功臣——它使得GPU從呼叫GPU運算和GPU硬體加速第一次成為可能,讓GPU 擁有了解決複雜運算問題的能力。在它的加持下,GPU從圖形處理器這個單一功能發展成了通用的平行算力設備,也因此AI的開發才有可能。
但在談論NVIDIA時,許多人傾向於使用「CUDA」作為NVIDIA提供的所有軟體的簡寫。這是一種誤導,因為NVIDIA的軟體護城河不僅僅是CUDA 開發層,還包含了其上的一系列連通軟硬體的軟體程序,例如輝達開發的用於運行C++推理框架,去兼容Pytorch等模型訓練框架的TensorRT;使團隊能夠部署來自多個深度學習和機器學習框架的任何AI 模型的Triton Inference Server。
雖然有如此豐富的軟體生態,但對於缺乏AI基礎開發能力的傳統產業來講,這些分散的系統還是太難掌握。
看準了這個賦能傳統企業的賽道,在今天的發表會上,輝達推出了整合過去幾年所做的所有軟體於一起的新的容器型微服務:NVIDIA NIM。它整合到了不給中間商活路的地步,可以讓傳統企業直接簡單部署完全利用自己資料的專屬產業模式。
這軟體提供了一個從最淺層的應用軟體到最深層的硬體程式設計體系CUDA的直接通路。構成GenAI 應用程式的各種元件(模型、RAG、資料等)都可以完成直達NVIDIA GPU的全鏈路最佳化。
它讓缺乏AI開發經驗的傳統行業可以透過在NVIDIA 的安裝基礎上運行的經過打包和優化的預訓練模型,一步到位部署AI應用,直接享受到輝達GPU帶來的最優部署時效,繞過AI開發公司或模型公司部署調優的成本。Nvidia 企業計算副總裁Manuvir Das表示,不久前,需要資料科學家來建置和部署這些類型的GenAI 應用程式。但有了NIM,任何開發人員現在都可以建立聊天機器人之類的東西並將其部署給客戶。
(整合在Kubernets上的一攬子軟體系統)
這一切都建立在Kubernetes這一容器化應用程式之上。NVIDIA透過Kubernetes創建了一個單一的架構,可以運行所有這些軟體。NIM作為預先建置的容器(containers),開發人員可以在其中直接選擇模型來建立利用自己資料的人工智慧應用程式。在容器中配備了適用於語言和藥物發現等人工智慧領域的行業標準應用程式介面以適應各類專有模型。
輝達在部落格文章中表示:「NIM 針對每個模型和硬體設置利用優化的推理引擎,在加速基礎設施上提供最佳的延遲和吞吐量。」「除了支援優化的社群模型之外,開發人員還可以通過使用永遠不會離開數據中心邊界的專有數據源來調整和微調模型,從而獲得更高的準確性和性能。”
在模型支援方面,NIM 微服務的可選項也很多。它支援Nvidia 自己的模型合作庫,來自AI21 Labs,Cohere等合作夥伴的模型,以及來自Meta、Hugging Face、Stability AI 和Google的開源模型。同時客戶可以透過Nvidia AI Enterprise 平台以及Microsoft Azure AI、Google Cloud Vertex AI、Google Kubernetes Engine 和Amazon SageMaker 存取NIM 微服務,並與包含LangChain、LlamaIndex 和Deepset 在內的AI 框架整合。這基本上就等於對所有市面上主流模型都完成了覆蓋。
在Nim的搭建過程中,利用Nvidia NeMo Retriever技術,公司的專有資料都可以整合到這個微服務裡使用。最終用戶會得到一個個NVIDIA NeMo,這就是針對每家公司的專有Copilit。這個專有的NeMo會用對話機器人的形式幫助你檢索公司數據,如PPT,提供相關領域的技術支援。
Nvidia NeMo Retriever與微服務的結合
在發表會上,黃仁勳就展示了基於輝達資料(Event)和晶片產業資訊形成的Nvidia ChipNeMo,它是建構在開源的Llama2模型之上。利用輝達的專有數據,它可以回答只有輝達公司內部使用的CTL實驗細節問題。
這些NeMo還可以跨公司共用,也就是這套系統可以被視為工業大模型的GPT Store,行業公司可以使用其他公司或輝達提供的行業基礎NeMo添加自己的數據即可獲得專有大模型。為此,輝達也刻意上線了ai.nvidia.com去承載這些NeMO。
這項微服務使得傳統企業AI轉型變得極為易得,不論是構築專有模型,還是直接透過模型連接企業私有資料都變得快速方便。黃仁勳表示 「成熟的企業平台坐擁數據金礦, 他們掌握了大量可以轉化為副駕駛的數據,當你準備好運行這些人工智慧聊天機器人時,你將需要一個人工智慧鑄造廠」。NIM正是這樣一個鑄造廠。它幫助建構企業AI轉型的Copilot級產品,可以被視為公司AI化所需的基石。
NeMo微服務的整體架構
這款產品將首先在即將發布的NVIDIA AI企業版第五版中搭載。對於NVIDIA AI企業版的現有客戶來說這只是一個軟體升級。這項新功能不會額外收費。當然企業版價格本身不低,單GPU的企業版使用權限包年就需要4500美金,小時租金為1美金每小時。
目前輝達全公司已經都使用了Nim,包括Box、Cloudera、Cohesity、Datastax、Dropbox等合作夥伴也都已經參與Nim的使用與最佳化過程。
輝達的上一個兆市值來自GPU與算力,下一個兆市值增幅空間可能反映在對機器人開發的賦能上。
年初,輝達資深科學家Jim Fan就宣佈建立GEAR工作室,相關研究成果以及研究基礎環境成為了輝達新機器人解決方案的基礎。
據了解,輝達目前正在建構包括NVIDIA IAI、Omniverse、ISAAC三大平台,三大平台均與機器人產業高度關聯。其中NVIDIA IAI搭載DGX系列產品,用於模擬實體世界,Omnivese搭載RTX和OVX系列產品,用於驅動數位孿生的運算系統,ISAAC搭載AGX系列,用於驅動人工智慧機器人。
本次GTC大會上,輝達也推出了Project GR00T人型機器人計畫-人型機器人基礎模型。
輝達表示,基於GR00T人型機器人基礎模型,可以實現透過語言、視訊和人類演示,來理解自然語言,模仿人類動作,進而快速學習協調性、靈活性以及其他的技能,進而能夠融入現實世界並與人類進行互動。
除了基礎模型,該專案還包括基於NVIDIA Thor SoC系統的開發套件Jetson Thor,內建了下一代Blackwell GPU(此前輝達也推出個針對汽車的DRIVE Thor套件),頻寬達到100GB/s,AI運算效能達到800TFLOPs 。
為了給Project GR00T專案提供軟體支持,基於輝達Omniverse構建的ISAAC Lab也進行了同步更新,允許開發者利用該平台模擬機器人學習技能、與物理世界模擬互動,支持數千個機器人同步訓練與模擬。
同時,ISAAC Lab也整合了用於輔助提升機械手臂的靈敏度與精確度的加速庫平台ISAAC MANIPULATOR,以及用於提升服務機器人感知能力的ISAAC PERCEPTOR軟體庫。
依照慣例,輝達也不免俗的用了客戶的例子為自家解決方案背書——比亞迪倉庫機器人。
黃仁勳表示,輝達過去和比亞迪基於Omniverse建造汽車和工廠數位孿生上有了良好的合作,當然也包括汽車自動駕駛業務方面的合作,現在則開始基於輝達的ISSAC,展開倉庫自動機器人研發方面的合作。
在輝達的願景當中,未來Omniverse將成為機器人系統的誕生地和AI的虛擬訓練場,你可以將其理解為「機器人產房」、「AI駕駛學校」。
Omniverse的模擬不僅體現在機器人、數位孿生領域,在一些新技術的研發上,例如代表未來通訊的6G技術研發也將派上用場。
根據官方公佈的信息,輝達將推出6G研究雲平台,其中包括為開發人員提供神經無線電模擬框架能力的NVIDIA Aerial,以及提供模擬城市規模網路的Omniverse數位孿生系統,以及提供加速的無線接取網路堆疊,從系統層面為開發者模擬一個具有城市規模的6G網路系統。
基於輝達6G雲端平台,開發者可以模擬城市大規模無線網路環境
除了6G研究,輝達希望將Omniverse帶到氣候和天氣預測。
官方表示,極端事件每年為全球帶來了1400億美元的經濟損失,而目前高性價比的氣候模擬高度不能滿足需求,雖然千米級的模擬可以幫助人類模擬預測氣候和天氣,但這個計算量相比高空模擬超過100萬倍,進而成本高。
為此,輝達公佈了地球氣候數位孿生套件NVIDIA Earth 2,它具有可互動的特點,支援透過高解析度模擬來加速氣候、天氣預測。作為一個支持千米級天氣預測的AI擴散模型,Earth 2在天氣預報的計算預測上效率提升達到1000倍,而能源效率則提升了2000倍。
在GTC2023大會上,輝達推出計算光刻CuLitho軟體庫,按照當初的設想,單就晶圓廠部分的提效即可以實現,每天利用1/9的電力,生產3-5倍的光掩膜,今年的大會上,黃仁勳也補充了計算光刻CuLitho的進展。
官方表示,過去12個月內與TSMC和Synopsys緊密合作,已經將CuLitho整合這些客戶的工作流程中,包括晶片的設計工具和生產製造。(騰訊科技)