中國大公司瘋搶GPU!全世界都在搶算力!

2022 年下半年,生成式AI 爆火的同時,矽谷著名風險資本a16z 走訪了數十家AI 創業公司和大科技公司。他們發現,創業公司轉手就把80%-90% 的早期融資款送給了雲計算平台,以訓練自己的模型。他們估算,即便這些公司的產品成熟了,每年也得把10%-20% 的營收送給雲計算公司。相當於一筆“AI 稅”。

這帶來了在雲上提供模型能力和訓練服務,把算力租給其它客戶和創業公司的大市場。僅在中國,現在就至少有數十家創業公司和中小公司在自製複雜大語言模型,他們都得從雲計算平台租GPU。據a16z 測算,一個公司一年的AI 運算開支只有超過5000 萬美元,才有足夠的規模效應支撐自己批量採購GPU。

據《晚點LatePost》了解,今年春節後,擁有雲計算業務的中國各互聯網大公司都向英偉達(NVIDIA,台灣稱輝達)下了大單。字節今年向英偉達訂購了超過10 億美元的GPU,另一家大公司的訂單也至少超過10 億元人民幣。

僅字節一家公司今年的訂單可能已接近英偉達去年在中國銷售的商用GPU 總和。去年 9月,美國政府發布對A100、H100(英偉達最新兩代數據中心商用GPU) 的出口限制時,英偉達曾回應稱這可能影響去年四季度它在中國市場的 4億美元(約合28 億元人民幣)潛在銷售。以此推算,2022 年全年英偉達數據中心GPU 在中國的銷售額約為100億元人民幣。

相比海外巨頭,中國大科技公司採購GPU 更為急迫。過去兩年的降本增效中,一些雲計算平台減少了GPU 採購,儲備不足。此外,誰也不敢保證,今天能買的高性能GPU,明天會不會就受到新的限制。



從砍單到加購,同時內部騰挪

今年初之前,中國大型科技公司對GPU 的需求還不溫不火。

GPU 在中國大型互聯網科技公司中主要有兩個用途:一是對內支持業務和做一些前沿AI 研究,二是把GPU 放到雲計算平台上對外售賣。

一名字節人士告訴《晚點LatePost》,2020 年6 月OpenAI 發布GPT-3 後,字節就曾訓練了一個數十億參數的生成式語言大模型,當時主要使用的GPU 是A100 前代產品V100。由於參數規模有限,這個模型生成能力一般,字節當時看不到它的商業化可能性,“ROI(投資回報率) 算不過來”,這次嘗試不了了之。

阿里也曾在2018-2019 年積極採購GPU。一位阿里雲人士稱,當時阿里的採購量至少達到上萬塊規模,購買的型號主要是V100 和英偉達更早前發布的T4。不過這批GPU 中只有約十分之一給到了達摩院用作AI 技術研發。2021 年發布萬億參數大模型M6 後,達摩院曾披露訓練M6 使用了480 塊V100。

阿里當時購買的GPU,更多給到了阿里雲用於對外租賃。但包括阿里雲在內,一批中國雲計算公司都高估了中國市場的AI 需求。一位科技投資人稱,大模型熱潮之前,國內主要雲廠商上的GPU 算力不是緊缺,而是愁賣,雲廠商甚至得降價賣資源。去年阿里雲先後降價6 次,GPU 租用價下降超兩成。

在降本增效,追求“有質量的增長” 與利潤的背景下,據了解,阿里在2020 年之後收縮了GPU 採購規模,騰訊也在去年底砍單一批英偉達GPU。

然而沒過多久後的2022 年初,ChatGPT 改變了所有人的看法,共識很快達成:大模型是不容錯過的大機會。

各公司創始人親自關注大模型進展:字節跳動創始人張一鳴開始看人工智能論文;阿里巴巴董事局主席張勇接手阿里雲,在阿里雲峰會發布阿里大模型進展時稱,“所有行業、應用、軟件、服務,都值得基於大模型能力重做一遍”。

一名字節人士稱,過去在字節內部申請採購GPU 時,要說明投入產出比、業務優先級和重要性。而現在大模型業務是公司戰略級別新業務,暫時算不清ROI 也必須投入。

研發自己的通用大模型只是第一步,各公司的更大目標是推出提供大模型能力的雲服務,這是真正可以匹配投入的大市場。

微軟的雲服務Azure 在中國雲計算市場本沒有太強存在感,入華十年來主要服務跨國公司的中國業務。但現在客戶得排隊等待,因為它是OpenAI 商業化的唯一雲代理商。

阿里在 4月的雲峰會上,再次強調MaaS(模型即服務)是未來雲計算趨勢,在開放自研的通用基礎模型“通義千問” 測試之外,還發布了一系列幫助客戶在雲上訓練、使用大模型的工具。不久後騰訊和字節火山引擎也先後發布自己的新版訓練集群服務。騰訊稱用新一代集群訓練萬億參數的混元大模型,時間可被壓縮到4 天;字節稱它們的新集群支持萬卡級大模型訓練,中國國內數十家做大模型的企業,多數已在使用火山引擎。

所有這些平台使用的要么是英偉達A100、H100 GPU,要麼是去年禁令後英偉達專門推出的減配版A800、H800,這兩款處理器帶寬分別是原版的約3/4 和約一半,避開了高性能GPU 的限制標準。

圍繞H800 和A800,中國科技大公司開始了新一輪下單競爭。

一名雲廠商人士稱,字節、阿里等大公司主要是和英偉達原廠直接談採購,代理商和二手市場難以滿足他們的龐大需求。

英偉達會按目錄價,根據採購規模談一個折扣。據英偉達官網,A100 售價為1 萬美元/ 枚(約7.1 萬元人民幣),H100 售價為3.6 萬美元/ 枚(約25.7 萬元人民幣);據了解,A800 和H800 售價略低於原版。

中國公司能否搶到卡,更多是看商業關係,比如以往是不是英偉達的大客戶。“你是和中國英偉達談,還是去美國找老黃(黃仁勳,英偉達創始人、CEO)直接談,都有差別。” 一位雲廠商人士說。

部分公司也會和英偉達進行“業務合作”,在購買搶手的數據中心GPU 時,也購買其它產品,以爭取優先供應。這就像愛馬仕的配貨,如果你想買到熱門的包,往往也得搭配幾萬元的衣服、鞋履。

綜合我們獲得的行業信息,字節今年的新下單動作相對激進,超過10 億美元級別。

一位接近英偉達的人士稱,字節到貨和沒到貨的A100 與H800 總計有10 萬塊。其中H800 今年3 月才開始投產,這部分芯片應來自今年的加購。據了解,以現在的排產進度,部分H800 要到今年底才能交貨。

字節跳動2017 年開始建設自己的數據中心。曾經的數據中心更依賴適應所有計算的CPU,直到2020 年,字節採購英特爾CPU 的金額還高於英偉達GPU。字節採購量的變化,也反映瞭如今大型科技公司的計算需求中,智能計算對通用計算的趕超。

據了解,某互聯網大廠今年至少已給英偉達下了萬卡級別訂單,按目錄價估算價值超10 億元人民幣。

騰訊則率先宣布已用上H800,騰訊雲在今年3 月發布的新版高性能計算服務中已使用了H800,並稱這是中國國內首發。目前這一服務已對企業客戶開放測試申請,這快於大部分中國公司的進度。

據了解,阿里雲也在今年5 月對內提出把“智算戰役” 作為今年的頭號戰役,並設立三大目標:機器規模、客戶規模和營收規模;其中機器規模的重要指標就是GPU 數量。

新的GPU 到貨前,各公司也在通過內部騰挪,優先支持大模型研發。

能一次釋放較多資源的做法是砍掉一些沒那麼重要,或短期看不到明確前景的方向。“大公司有好多半死不活的業務佔著資源。” 一位互聯網大公司AI 從業者說。

今年5 月,阿里達摩院裁撤自動駕駛實驗室:300 多名員工中,約1/3 劃歸菜鳥技術團隊,其餘被裁,達摩院不再保留自動駕駛業務。研發自動駕駛也需要用高性能GPU 做訓練。這一調整可能與大模型無直接關係,但確實讓阿里獲得了一批“自由GPU”。

字節和美團,則直接從給公司帶來廣告收入的商業化技術團隊那裡勻GPU。

據《晚點LatePost》了解,今年春節後不久,字節把一批原計劃新增給字節商業化技術團隊的A100 勻給了TikTok 產品技術負責人朱文佳。朱文佳正在領導字節大模型研發。而商業化技術團隊是支持抖音廣告推薦算法的核心業務部門。

美團在今年一季度左右開始開發大模型。據了解,美團不久前從多個部門調走了一批80G 顯存頂配版A100,優先供給大模型,讓這些部門改用配置更低的GPU。

財力遠不如大平台充裕的B 站對大模型也有規劃。據了解,B 站此前已儲備了數百塊GPU。今年,B 站一方面持續加購GPU,一方面也在協調各部門勻卡給大模型。“有的部門給10 張,有的部門給20 張。” 一位接近B 站的人士稱。

字節、美團、B 站等互聯網公司,原本支持搜索、推薦的技術部門一般會有一些GPU 資源冗餘,在不傷害原有業務的前提下,他們現在都在“把算力水份擠出來”。

不過這種拆東補西的做法能獲得的GPU 數量有限,訓練大模型所需的大頭GPU 還是得靠各公司過去的積累和等待新GPU 到貨。


全世界都在搶算力

對英偉達數據中心GPU 的競賽也發生在全球範圍。不過海外巨頭大量購買GPU 更早,採購量更大,近年的投資相對連續。

2022 年,Meta 和甲骨文就已有對A100 的大投入。Meta 在去年1 月與英偉達合作建成RSC 超級計算集群,它包含1.6 萬塊A100。同年11 月,甲骨文宣布購買數万塊A100 和H100 搭建新計算中心。現在該計算中心已部署了超3.27 萬塊A100,並陸續上線新的H100。

微軟自從2019 年第一次投資OpenAI 以來,已為OpenAI 提供數万塊GPU。今年3 月,微軟又宣布已幫助OpenAI 建設了一個新計算中心,其中包括數万塊A100。Google 在今年5 月推出了一個擁有2.6 萬塊H100 的計算集群Compute Engine A3,服務想自己訓練大模型的公司。

中國大公司現在的動作和心態都比海外巨頭更急迫。以百度為例,它今年向英偉達新下的GPU 訂單高達上萬塊。數量級與Google 等公司相當,雖然百度的體量小得多,其去年營收為1236 億元人民幣,只有Google 的6%。

據了解,字節、騰訊、阿里、百度這四家中國投入AI 和雲計算最多的科技公司,過去A100 的積累都達到上萬塊。其中字節的A100 絕對數最多。不算今年的新增訂單,字節A100 和前代產品V100 總數接近10 萬塊。

成長期公司中,商湯今年也宣稱,其“AI 大裝置” 計算集群中已總共部署了2.7 萬塊GPU,其中有1 萬塊A100。連看似和AI 不搭邊的量化投資公司幻方之前也購買了1 萬塊A100。

僅看總數,這些GPU 供各公司訓練大模型似乎綽綽有餘——據英偉達官網案例,OpenAI 訓練1750 億參數的GPT-3 時用了1 萬塊V100 ,訓練時長未公開;英偉達測算,如果用 A100 來訓練GPT-3 ,需要1024 塊A100 訓練1 個月,A100 相比V100 有4.3 倍性能提升。但中國大公司過去採購的大量GPU 要支撐現有業務,或放在雲計算平台上售賣,並不能自由地用於大模型開發和對外支持客戶的大模型需求。

這也解釋了中國AI 從業者對算力資源估算的巨大差別。清華智能產業研究院院長張亞勤4 月底參加清華論壇時說,“如果把中國的算力加一塊,相當於50 萬塊A100,訓練五個模型沒問題。”AI 公司曠視科技CEO 印奇接受《財新》採訪時則說:中國目前可用作大模型訓練的A100 總共只有約 4萬塊。

主要反映對芯片、服務器和數據中心等固定資產投資的資本開支,可以直觀說明中外大公司計算資源的數量級差距。

最早開始測試類ChatGPT 產品的百度,2020 年以來的年資本開支在8 億到20 億美元之間,阿里在60-80 億美元之間,騰訊在70-110 億美元之間。同期,亞馬遜、Meta、Google、微軟這四家自建數據中心的美國科技公司的年資本開支最少均超過150 億美元。

疫情三年中,海外公司資本開支繼續上漲。亞馬遜去年的資本開支已來到580 億美元,Meta、Google 均為314 億美元,微軟接近240 億美元。中國公司的投資在2021 年之後則在收縮。騰訊、百度去年的資本開支均同比下滑超25%。



訓練大模型的GPU 已不算充足,各家中國公司如果真的要長期投入大模型,並賺到給其它模型需求“賣鏟子” 的錢,未來還需要持續增加GPU 資源。

走得更快OpenAI 已遇到了這一挑戰。5 月中旬,OpenAI CEO SamAltman 在與一群開發者的小範圍交流中說,由於GPU 不夠,OpenAI 現在的API 服務不夠穩定,速度也不夠快,在有更多GPU 前,GPT-4 的多模態能力還無法拓展給每個用戶,他們近期也不准備發布新的消費級產品。技術諮詢機構TrendForce 今年6 月發布報告稱,OpenAI 需要約3 萬塊A100 來持續優化和商業化ChatGPT。

與OpenAI 合作頗深的微軟也面臨類似情境:今年5 月,有用戶吐槽New Bing 回答速度變慢,微軟回應,這是因為GPU 補充速度跟不上用戶增長速度。嵌入了大模型能力的微軟Office 365 Copilot 目前也沒有大規模開放,最新數字是有600 多家企業在試用——Office 365 的全球總用戶數接近3 億。

中國大公司如果不是僅把訓練並發布一個大模型作為目標,而是真想用大模型創造服務更多用戶的產品,並進一步支持其它客戶在雲上訓練更多大模型,就需要提前儲備更多GPU。


為什麼只能是那四款卡?

在AI 大模型訓練上,現在A100、H100 及其特供中國的減配版A800、H800 找不到替代品。據量化對沖基金Khaveen Investments 測算,英偉達數據中心GPU 2022 年市佔率達88%,AMD 和英特爾瓜分剩下的部分


2020 年的GTC 大會上,黃仁勳攜A100 第一次亮相。


英偉達GPU 目前的不可替代性,源自大模型的訓練機制,其核心步驟是預訓練(pre-training)和微調(fine-tuning),前者是打基座,相當於接受通識教育至大學畢業;後者則是針對具體場景和任務做優化,以提升工作表現。

預訓練環節尤其消耗算力,它對單個GPU 的性能和多卡間的數據傳輸能力有極高要求。

現在只有A100、H100 能提供預訓練所需的計算效率,它們看起來昂貴,反倒是最低廉的選擇。今天AI 還在商用早期,成本直接影響一個服務是否可用。

過去的一些模型,如能識別貓是貓的VGG16,參數量只有1.3 億,當時一些公司會用玩遊戲的RTX 系列消費級顯卡來跑AI 模型。而兩年多前發布的GPT-3 的參數規模已達到1750 億。

大模型的龐大計算需求下,用更多低性能GPU 共同組成算力已行不通了。因為使用多個GPU 訓練時,需要在芯片與芯片間傳輸數據、同步參數信息,這時部分GPU 會閒置,無法一直飽和工作。所以單卡性能越低,使用的卡越多,算力損耗就越大。OpenAI 用1 萬塊V100 訓練GPT-3 時的算力利用率不到50%。

A100 、H100 則既有單卡高算力,又有提升卡間數據傳輸的高帶寬。A100 的FP32(指用4 字節進行編碼存儲的計算)算力達到19.5 TFLOPS(1 TFLOPS 即每秒進行一萬億次浮點運算),H100 的FP32 算力更高達134 TFLOPS,是競品AMD MI250 的約4 倍。

A100、H100 還提供高效數據傳輸能力,盡可能減少算力閒置。英偉達的獨家秘籍是自2014 年起陸續推出的NVLink、NVSwitch 等通信協議技術。用在H100 上的第四代NVLink 可將同一服務器內的GPU 雙向通信帶寬提升至900 GB/s(每秒傳輸900GB 數據),是最新一代PCle(一種點對點高速串行傳輸標準)的7 倍多。

去年美國商務部對GPU 的出口規定也正是卡在算力和帶寬這兩條線上:算力上線為4800 TOPS,帶寬上線為600 GB/s。

A800 和H800 算力和原版相當,但帶寬打折。A800 的帶寬從A100 的600GB/s 降為400GB/s,H800 的具體參數尚未公開,據彭博社報導,它的帶寬只有H100(900 GB/s) 的約一半,執行同樣的AI 任務時,H800 會比H100 多花10% -30% 的時間。一名AI 工程師推測,H800 的訓練效果可能還不如A100,但更貴。

即使如此,A800 和H800 的性能依然超過其他大公司和創業公司的同類產品。受限於性能和更專用的架構,各公司推出的AI 芯片或GPU 芯片,現在主要用來做AI 推理,難以勝任大模型預訓練。簡單來說,AI 訓練是做出模型,AI 推理是使用模型,訓練對芯片性能要求更高。

性能差距外,英偉達的更深護城河是軟件生態。

早在2006 年,英偉達就推出計算平台CUDA,它是一個並行計算軟件引擎,開發者可使用CUDA 更高效地進行AI 訓練和推理,用好GPU 算力。CUDA 今天已成為AI 基礎設施,主流的AI 框架、庫、工具都以CUDA 為基礎進行開發。

英偉達之外的GPU 和AI 芯片如要接入CUDA,需要自己提供適配軟件,但只有CUDA 部分性能,更新迭代也更慢。PyTorch 等AI 框架正試圖打破CUDA 的軟件生態壟斷,提供更多軟件能力以支持其它廠商的GPU,但這對開發者吸引力有限。

一位AI 從業者稱,他所在的公司曾接觸一家非英偉達GPU 廠商,對方的芯片和服務報價比英偉達更低,也承諾提供更及時的服務,但他們判斷,使用其它GPU 的整體訓練和開發成本會高於英偉達,還得承擔結果的不確定性和花更多時間。

“雖然A100 價格貴,但其實用起來是最便宜的。” 他說。對有意抓住大模型機會的大型科技公司和頭部創業公司來說,錢往往不是問題,時間才是更寶貴的資源。

短期內,唯一影響英偉達數據中心GPU 銷量的可能只有台積電的產能。

H100/800 為4 nm 製程,A100/800 為7 nm 製程,這四款芯片均由台積電代工生產。據中國台灣媒體報導,英偉達今年向台積電新增了1 萬片數據中心GPU 訂單,並下了超急件,生產時間最多可縮短50%。正常情況下,台積電生產A100 需要數月。目前的生產瓶頸主要在先進封裝產能不夠,缺口達一至兩成,需要3-6 個月逐步提升。

自從適用於並行計算的GPU 被引入深度學習,十多年來,AI 發展的動力就是硬件與軟件,GPU 算力與模型和算法的交疊向前:模型發展拉動算力需求;算力增長,又使原本難以企及的更大規模訓練成為可能。

在上一波以圖像識別為代表的深度學習熱潮中,中國AI 軟件能力比肩全球最前沿水平;算力是目前的難點——設計與製造芯片需要更長的積累,涉及漫長供應鍊和浩繁專利壁壘。

大模型是模型與算法層的又一次大進展,沒時間慢慢來了,想做大模型,或提供大模型雲計算能力的公司必須盡快獲得足夠多的先進算力。在這輪熱潮使第一批公司振奮或失望前,圍繞GPU 的搶奪不會停止。(晚點LatePost)