Sora大模型需要多少AI晶片?


一、結論

1.sora模型的核心創新在於,它將影片中的每一幀影像視為一連串的標記進行訓練,這讓模型能夠根據輸入,產生高品質的影片。另外,Sora模型採用的Diffusion Transformer架構,能夠透過預測原始"乾淨"的補丁來從輸入的噪音補丁中產生視訊。

2.Sora大模型發布後,中國外投資人都在猜測到底需要多少算力才能複製類似的大模型。目前市場上說法有較大差異:券商研究報告中給出較為激進的演算法,出發點雖然不同,但都能得出相似的結論,即OpenAI所需算力是現在的幾十倍;技術派則一致認為Sora模型的真實參數不大,預期只有30億,因此認為算力需求不高。

3.目前中國華為的910B晶片算力能與A100媲美,性能預期能達到其80%以上,互聯速度能達到400GB,算力集群的使用效率可能經常會不到50%。國產算力晶片與英偉達晶片確實存在差距,但中國晶片性能逐漸在不斷提升,考慮到供應鏈安全問題,中國科技大廠已經開始購買華為等國產晶片,過程AI晶片預期迎來高光時刻。

二、技術派一致認為Sora模型參數不高,算力需求不多

根據官網訊息,目前Sora可產生最長約60S的視頻,較先前發布的文生視頻模型如Pika、Runway等,視頻時長有明顯提升。畫質方面,Sora支援解析度達2048×2048,呈現效果突出。OpenAI表示Sora能夠產生複雜的場景,不僅包括多個角色,還有特定的動作類型,以及對物件和背景的準確細節描繪。此外,Sora有時可以用簡單的方式模擬影響真實世界的具體動作,例如“一個男人可以吃漢堡並留下咬痕”,這是之前的文本生成視頻難以達到的能力。

雖然Sora模型生成視訊效果顯著,但從技術角度而言Sora本身所需參數並不多。因Sora模型並未開源,現在網路上的各種說法也只是基於其過往學術經驗得出結論,只能說短期內無法被證偽。

B站盧菁老師認為Sora模型=VAE encoder+DiT (DDPM)+VAE decoder+CLIP,Sora整體訓練流程如下圖所示,包括視訊編碼(紅色區域)+Stable diffusion(DiT,綠色區域)+語言模型(灰色區域),具體訓練如下所示:

(1)Encoder的作用是將圖片&影片的Patch進行壓縮,得到一個向量長度變短Patch,這裡面會涉及到Latent Space(隱空間),而Stable diffusion就是在這個隱空間進行計算的。Decoder的作用則和Encoder相反,用於圖片還原。

(2)擴散模型Stable diffusion的原理是用通過噪聲or噪聲+提示詞的方式產生圖像,模型輸入被污染的圖像or輸入被污染的圖像+用戶提示詞,模型輸出污染的噪聲,然後通過污染圖像-污染雜訊=原始影像。為了確保影片的一致性,Sora模型參考了Google的W.AL.T的工作內容,60s應該是一次性全部生產的,不是透過多個stage方式來進行影片預測,而是預測了整個影片的latent ,同時在訓練過程中應該引入了autoregressive的task來去幫助模型更好地進行視訊特徵和幀間關係的學習。

(3)使用者的提示詞輸入後,首先會透過GPT-4大語言模型進行提示詞擴寫,然後再透過文生圖模型(DALL-E CLIP)模型產生影像向量,這個向量作為擴散模型的輸入項的一部分。

從上述解釋可以看到訓練的樣本有以下的特點:

(1)Sora訓練樣本其實是圖像/影片+文字=資料對,所以訓練資料量沒有GPT那麼多,但會牽涉到大規模的標記。這裡用到了Re-captioning技術,也就是透過一張影像產生對應的文字描述,透過這個技術可以補償訓練集。

(2)因為影片轉換為了向量序列,所以對影像的尺寸不再有要求,就不需要對影片進行裁切等操作。

(3)影片和圖像用一套訓練方法解決,擴充了訓練樣本。

因此,Sora模型參數預期不大。GPT的參數=token embedding+Transformer的參數,而embedding過程是需要每個單字都要進行token化,而Sora模型是直接把圖片像素計算後轉換成向量,沒有token embedding這個過程。另外,語言是人類發明的抽象訊號,而圖像是自然訊號相對更容易被理解,所需Sora模型的Transformer層數預期也會降低。

其他技術專家給的分析過程雖會有部分差異,但最後結論差異不大。例如,紅博士在公眾號上寫的《去魅Sora: OpenAI 鮮肉小組的小試牛刀》中提到:Sora是採用了Meta的DiT (2022.12) 框架,融合了Google的MAGViT (2022.12) 的Video Tokenize方案,借用Google DeepMind的NaViT (2023.07) 支援了原始比例和分辨率,使用OpenAI DALL-E 3 (2023.09) 裡的圖像描述方案生成了高質量Video Caption(視頻描述),即文本-視頻對,實現了準確的條件生成。

三、券商預測Sora算力需求是現在模型的50倍+

券商研究報告中給出較為激進的演算法,出發點雖然不同,但都能得出相似的結論,即OpenAI所需算力是現在的幾十倍下面是券商報告中常見的2種計算方式:

第一種方式是透過模型訓練所需的token數來估算,以下是華西證券給出的計算過程:

(1)根據AI新智界數據,ChatGPT-3的參數為1750億,訓練數據的token為3000億,訓練所需每秒浮點運算為3.14x10^23FLOPS;假設訓練數據精度為FP16,英偉達H100FP16每秒浮點運算為989.5TFLOPS(T=10^12),假設訓練10天,需要英偉達H100卡數為3.14 x 10 ^ 23 ÷989.5÷ 10^12 ÷(60 x 60 x 24 x10)=367.28888 368張;

(2)根據部落格園引用Google論文《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》,例如對於CIFAR-10,一般的設定是大小為16 x 16 x 3 (3代表3原色,自然界的每種顏色可以透過紅、綠、藍三種顏色表示,AI模型的圖片本質即像素點) 的patch,因此假設SORA適用16 x 16 x 3的patch 表示一串有損表示影像的tokens;影像的輸入資料不是一個字符,而是一個像素。假設每個像素有C個頻道,圖片有寬W和高H,因此一張圖片的所有資料可以用一張大小為H x W x C 的張量來無損地表示。假設C=3 (3代表3原色);

(3)根據澎湃新聞數據,Runway GEN-2模型由2.4 億張圖片和640 萬個視頻片段組成的內部數據集上訓練,我們判斷SORA架構的訓練參數比GEN-2更大,然而為了方便計算,因此假設SORA與Runway GEN-2所訓練的資料量相同。假設每一張圖片分別為1920 x 1080分辨率,每個視頻分別為30秒30FPS,因此patch大小為[(2.4 x 10^8)+ (6.4 x 10 ^7 x 30 x 30)] x 1920 x 1080 x 3= 3.73 x 10 ^ 16;將Patch大小轉換成token 大小即(3.73 x 10 ^ 16) ÷ (16 x 16 x 3)= 4.86 x 10 ^ 13;

(4)Transformer架構持續升級,所需參數量可望增加,然而為了方便計算,我們假設SORA應用的Transformer架構與ChatGPT Transformer架構相同,且參數量相同,同時假設資料精度為FP16,假設訓練10天,則需要英偉達H100卡數為(4.86 x 10 ^ 13) ÷ (3 x 10^11) x 367.28=59499.74 ≈ 59500張。推算Sora架構的訓練與傳統大語言模型( LLM ) Transformer架構的訓練算力需求有近百倍差距。

另一種計算方式與2月9號OpenAI的「7兆美元」AI基礎建設項目傳聞有關,雖2月28號被山姆否認,但仍可作為參考。透過直接購買GPU或建廠的方式計算GPU需求量,國君電話會議中計算得到的GPU供給量預期是現在的50倍+:

(1)以目前市場售價,H100晶片大概三、四萬美元一顆,7兆美金÷3萬美金=2.5億顆,目前全球GPU供給大約是400萬億顆,因此7兆美金的投資可以使得GPU的供給擴大近50倍。

(2)台積電數據顯示,建造一個月產10萬片的3奈米級晶圓的生產線,成本大概在300億到400億美金(以400億美金計算),其他的HPM等成本計算在內則總投入在700億美金左右。考慮到某些配套情況,一片晶圓大約能產生30顆GPU的良品率,一個生產線每年可以產出約300萬顆GPU(不同工序需要時間錯配),100條產線(7兆/700億)則生產3億顆GPU。

第一種演算法沒有考慮實際計算過程中算力利用率降低的情況,計算結果預期會有誤差。而這種演算法並未考慮隱藏空間的問題,因此這種演算法的可信度較低。第二種演算法所得到的算力需求預期與OpeaAI未發表產品有關,與Sora關聯度不大。

(1)根據研究資料:GPT-3模型有96層Transformer,參數為1750億;這GPT4 的參數量大約是1.9兆,模型層數是100多層;GPT-5 參數量預計將達到10萬億級,層數將超過1000層,大概是1300多層。如果單純從參數量來看,GPT-5是GPT-3的57倍,線性外推算力增加50倍也不算太過分。

(2)網路上流傳的Q*模型參數預期達到125萬億,參數是GPT3的714倍。


四、中國國產AI晶片高光時刻來臨

中國大廠一直在積極訓練自己的大模型,這些需求大量算力,這給中國AI晶片廠商製造了機會。23年10月美國限制向中國出售更先進的人工智慧晶片,包括Nvidia H800、A800,AMD、Intel等相關AI晶片。《華爾街日報》報道美國對中共晶片監管有進一步措施,本來英偉達11月中旬要交付50億美元訂單現在因為新的規則或被迫取消。11月8日晚上,網傳英特爾近期計劃在中國大陸市場推出Gaudi2降規版產品。

「改良版」晶片H20參數,連網頻寬從原來的400GB提升至900GB,訓練速度應該是平方關係,如果FLOPS不變,依道理訓練速度提升4倍。但FLOPS從A100的FP16 312TFLOPS,以及H100的756TFLOPS,直接閹割到148TFLOPS,也就是H100的20%,A100的不到50%。

目前中國華為的910B晶片算力能與A100媲美,性能預期能達到其80%以上,互聯速度據說能達到400GB。做集群的時候互聯速度尤其重要,因此算力集群的使用效率可能經常會不到50%。下圖是某大廠測試得到結果,可以看出隨著伺服器台數的增加,華為910B算力利用率就會迅速降級,256台8卡伺服器的集群效果還不如H20。

中國國產算力晶片與英偉達晶片確實存在差距,但中國晶片性能逐漸在不斷提升,考慮到供應鏈安全問題,中國科技大廠已經開始購買華為等國產晶片,過程AI晶片預期迎來高光時刻。

(1)百度在8月開始已向華為訂購1600枚 AI晶片昇騰910B。晶片將用於200台伺服器,目前華為已向百度交付超過1000枚,計劃在年底前完成全部交付,這批伺服器總金額預期為6200萬美金。先前百度主要依靠英偉達的A100來訓練其大模型。

(2)11月8日的2023年世界互聯網大會烏鎮峰會上,360集團創始人周鴻禕在接受媒體採訪時稱, 360也採購了華為1000片左右的AI芯片,並與華為合作將AI框架移植到了異騰910B上。(新財富)