AI的決定性時刻,英偉達“贏麻了”

“切勿錯過AI的決定性時刻!”這是英偉達2023年GTC大會的廣告語。不知英偉達所說的“決定性時刻”是指黃仁勳在GTC大會主題演講中三次強調的“AI的iPhone時刻”,還是說本屆GTC大會就是AI的“決定性”時刻。

當然,今時今日可能確實是AI的決定性時刻。

從上週三到現在,一系列或驚艷,或不那麼驚豔的最前沿AI技術接二連三地刷爆科技新聞版面。從OpenAI發布GPT-4,到百度發布文心一言,再到微軟發布Office的AI助手Microsoft 365 Copilot,以及Midjourney發布能“畫手指”的V5版本,甚至幾個小時前,谷歌也上線了Bard聊天機器人接受排隊測試。

在這樣的AI關鍵時刻,手握GPU算力技術的英偉達自然不會缺席,畢竟在大模型軍備競賽中,作為“軍火商”的英偉達,已經贏麻了。

北京時間3月21日晚11點,2023春季GTC大會正式上線,在大會的主題演講中,黃仁勳圍繞AI、量子計算、芯片等前沿科技,發布了一系列前沿技術和產品。


ChatGPT專用GPU可提速10倍

圍繞AI的發布自然少不了GPU的提速,在黃仁勳的主題演講中發布了全新的GPU推理平台,該平台包括4種不同配置,針對不同工作負載進行優化,分別對應了AI視頻加速、圖像生成加速、大型語言模型(LLM)加速和推薦系統和LLM數據庫。包括:L4 Tensor Core GPU、L40 GPU、H100 NVL GPU和Grace Hopper超級芯片。


其中,H100 NVL是專門為LLM設計的GPU,採用了Transformer加速解決方案,可用於處理ChatGPT。相比於英偉達HGX A100,一台搭載四對H100和雙NVLINK的標準服務器速度能快10倍,可以將大語言模型的處理成本降低一個數量級。此外,H100 NVL配備94GB HBM3顯存的PCIe H100 GPU,採用雙GPU NVLink,支持商用PCIe服務器輕鬆擴展。

L4是針對AI生成視頻的通用GPU,用於加速AI視頻,可以提供比CPU高120倍的性能,能效提升約99%。可以優化視頻解碼與轉碼、視頻內容審核、視頻通話等性能,一台8-GPU L4服務器可以取代100多台用於處理AI視頻的雙插槽CPU服務器。目前,英偉達GPU在AI視頻生產技術供應商Runway的產品中已經提供了相應的技術支持。

L40則是用於圖像生成,針對2D、3D圖像生成進行優化,並可以結合Omniverse,直接生成3D內容,甚至是元宇宙內容。該平台推理性能是英偉達的雲推理GPU T4的10倍。

此外,Grace Hopper超級芯片是為推薦系統和大型語言模型AI數據庫設計的。可用於圖推薦模型、向量數據庫和圖神經網絡。它可以通過900GB/s的高速一致性芯片到芯片接口連接英偉達Grace CPU和Hopper GPU。

計算光刻技術提速40倍

黃仁勳帶來的另一項革命性技術,也關乎英偉達自身的產品研發,是一項聚焦先進芯片設計製造的技術——NVIDIA cuLitho的計算光刻庫。

NVIDIA cuLitho計算光刻庫可以通過計算技術大幅優化芯片製造流程,利用GPU技術實現計算光刻,可以使傳統光刻技術提速40倍以上,為2nm及更先進芯片的生產提供助力。


事實上,英偉達的計算光刻庫在研發過程中,已經與3家全球頂尖的芯片製造廠商開展了長達4年的合作。包括晶圓製造巨頭台積電、光刻機製造商阿斯麥,以及EDA巨頭新思科技,目前3家廠商均已開始將該技術引入芯片設計和製造流程。

“計算光刻是芯片設計和製造領域中最大的計算工作負載,每年消耗數百億CPU小時。”黃仁勳介紹說,大型數據中心24x7全天候運行,以便創建用於光刻系統的掩膜板。這些數據中心是芯片製造商每年投資近2000億美元的資本支出的一部分。

NVIDIA H100需要89塊掩膜板,在CPU上運算時,處理單個掩膜板,當前需要2週時間。如果在GPU上運行cuLitho則只需8小時即可處理完一個掩膜板。黃仁勳說:“台積電可以通過在500個DGX H100系統上使用cuLitho加速,將功率從35MW降至5MW,替代用於計算光刻的40000台CPU服務器。”


GPU&量子計算

除了AI和芯片以外,英偉達還在研究另一項前沿科技——量子計算。

本次GTC上宣布的第一個全新產品就是與Quantum Machines合作的NVIDIA DGX Quantum。該產品結合了通用量子控制系統Quantum Machines OPX+和NVIDIA Grace Hopper超級芯片,這個平台可以為高性能和低延遲量子經典計算的研究人員提供了一種革命性的新架構。


據黃仁勳介紹,NVIDIA DGX Quantum是全球首個GPU加速的量子計算系統,可以實現GPU和量子處理單元(QPU)之間的亞微秒級延遲。這種組合使研究人員能夠建立強大的應用,實現校準、控制、量子糾錯和混合算法,將量子計算與最先進的經典計算相結合。

DGX Quantum還為開發人員配備了統一軟件棧,混合GPU-Quantum編程模型NVIDIA CUDA Quantum,能夠在同一系統中整合和編程QPU、GPU 和CPU,是一個混合型量子經典計算平台。目前,CUDA Quantum 已經開放了源代碼,為開發者提供了更多的支持。


AI超級計算上雲

本次GTC的另一個重頭戲是雲。

英偉達發布的DGX Cloud雲服務,提供了專用的NVIDIA DGX AI超級計算集群,搭配NVIDIA AI軟件,使每個企業都可以使用簡單的網絡瀏覽器訪問AI超算,消除了獲取、部署和管理本地基礎設施的複雜性。

該服務目前已經與Microsoft Azure、Google GCP和Oracle OCI開展合作。每個DGX Cloud實例都具有八個H100或A100 80GB Tensor Core GPU,每個節點共有640GB GPU內存。


使用NVIDIA Networking構建的高性能、低延遲結構,可以確保工作負載跨互連繫統集群擴展,允許多個實例充當一個巨大的GPU,以滿足高級AI訓練的性能要求。

目前,英偉達開放的首個NVIDIA DGX Cloud,是與Oracle Cloud Infrastructure(OCI)合作的雲服務。用戶可以租用DGX Cloud的月租為36999美元起。


AI工廠,製造智能

除了算力以外,英偉達還想要通過雲服務,把製造大模型的能力交給更多的用戶。

黃仁勳帶來的另一項關於雲的重磅發布是NVIDIA AI Foundations,旨在為用戶提供定制化的LLM和生成式AI解決方案。該服務包括語言模型NEMO、視覺模型PICASSO和生物學模型BIONEMO。


其中,NEMO是用於自然語言文本的生成式模型,可以提供80億、430億、5300億參數的模型,且會定期更新額外的訓練數據,可以幫助企業為客服、企業搜索、聊天機器人、市場分析等場景定制生產生成式AI模型。

PICASSO則用於製作視覺模型,可以用於訓練包括圖像、視頻和3D應用的生成式AI模型。PICASSO可以通過高文本提示和元數據用DGX Cloud上的模型創造AI模型。目前英偉達已經與Shutterstock合作,開發了Edify-3D生成式AI模型。

本次GTC英偉達還著重關註生物製藥領域。BIONEMO是專門為用戶提供創建、微調、提供自定義模型的平台,包括AlphaFold、ESMFold、OpenFold等蛋白質預測模型。生物圈的熱門方向是利用生成式AI發現疾病靶因、設計新分子或蛋白類藥物等。

此外,英偉達還與Adobe合作,將生成式AI融入營銷人員和創意人士的日常工作流,並開展了對於藝術家版權保護的工作。


寫在最後

有人將GPU在深度學習方面的成功比作是中了技術的彩票,但黃仁勳並不這麼認為。他曾多次表示自己在10年前就已經看到了AI行業的發展潛力,以及GPU對AI的決定性作用。英偉達正是看好這點,才孤注一擲地投入力量開發更適合AI的GPU產品。

OpenAI在2018年推出的GPT-1,只有1.2億參數量,而最後一個公佈了參數量的GPT-3則有1750億,雖然有一些專家認為ChatGPT和GPT-4的參數量有可能更小,但業界多數的聲音認為,更強大的模型就以為這更大的參數規模,且要消耗更多的算力。

OpenAI已公佈的信息顯示,在訓練上一代的GPT-3時,使用了數千個NVIDIA V100 GPU。

調研機構TrendForce在一份報告中提到,GPT-3訓練時大概用到了20000個NVIDIA A100 GPU左右的算力,而ChatGPT商業化後所需的GPU數量將達到30000個以上。

某AI芯片專家告訴虎嗅,目前OpenAI公佈的技術細節不多,前期的訓練又都是在英偉達的顯卡上做的。“這給了英偉達更多針對Transformer的GPU實驗數據,從一定程度上造成了英偉達對ChatGPT和GPT-4的技術壟斷,從市場競爭的角度說來說,對其他AI芯片很不利。

事實上,谷歌此前曾推出過針對TenserFlow的TPU產品,然而,英偉達此次發布的GPU推理平台針對時下火熱的GPT大模型,進行了Transformer架構優化,則似乎又領先了谷歌一步。(虎嗅)