Groq每小時要燒168美元!10倍H100成本,老黃笑而不語



【新智元導讀】 SemiAnalysis的行業專家對最近爆火的Groq推理系統進行了像素級的拆解,測算出其持有成本依然高達現有H100的10倍,看來要趕上老黃的步伐,新創公司還有很多要做。

最近爆​​紅的AI新創公司Groq,推出了比目前常見GPU推理系統快4倍,成本低70%的大模型推理解決方案。


他們提供的運行Mistral Mixtral 8x7b的API演示,讓大部分習慣了其他LLM“喲道來”的用戶直呼,簡直是魔法!


Groq在處理單一資料序列方面展現出了驚人的效能優勢,這可能使得「思維鏈」等技術在現實世界中變得更加實用。


雖然Groq有如此多的好處,但評估某款硬體是否真的具有革命性的核心標準是性能與總成本的比值。

為此,SemiAnalysis首席分析師Dylan Patel和分析師Daniel Nishball寫了一篇萬字長文,對Groq進行了深度地剖析。

「推理速度打破紀錄,但代價是什麼呢?」


現在沒有人會懷疑AI時代已經到來,重要的是要認識到,AI驅動軟體的成本結構與傳統軟體有非常大的不同。

在開發和擴展AI軟體規模的過程中,晶片微架構和系統架構扮演關鍵角色。

與先前的軟體世代相比,AI軟體運作的硬體基礎設施(Infra)對資本支出(Capex)和營運支出(Opex)以及隨後的毛利有更大的影響。

因此,優化AI基礎設施,讓AI軟體的規模化部署成本控制在合理範圍內變得尤為重要。

在基礎設施方面具有優勢的公司,也將在部署和擴展AI應用方面具有很大優勢。

谷歌在基礎設施方面的領先地位,是為什麼Gemini 1.5對谷歌來說提供服務的成本比OpenAI GPT-4-Turbo更低,同時在許多任務,特別是長序列代碼生成方面表現更好的原因。

谷歌使用更多的晶片來進行單一推理任務,但他們實現了更好的性能與總成本比。

於是,在這樣的大背景下,效能不僅以為單一使用者產生的原始Token的速率為唯一的指標,例如延遲最佳化。

在評估總成本時,必須考慮硬體同時服務的使用者數量。

這就是為什麼提高用於大語言模型推理的邊緣硬體的性能吸引力沒有那麼強的主要原因。

大多數邊緣系統因為無法在大量用戶中攤銷增加的硬體成本,而無法彌補運行大語言模型所需的增加硬體成本。

對於同時服務許多用戶且批次大小極大的情況,即吞吐量和成本最佳化,GPU是首選。

許多公司在其Mistral API推理服務上實際上是在虧損。

一些公司也設定了非常低的速率限制以減少經濟上的損失。

但是只要提供未量化過的模型(FP16)需要至少64+的批次大小才能獲利。

因此,Mistral、Together和Fireworks在提供Mistral服務時基本上都處於收支平衡到略有利潤的臨界點上。


但對於其他提供Mixtral API的公司而言,情況並非如此。

他們要不是在關於模型簡化(量化)的聲明上沒有明確說清楚,就是正透過消耗風投資金來吸引客戶群。

也就是說,基本上提供大模型服務的公司成本都是一個很嚴峻的問題。

而Groq則採取了一種大膽策略,將每百萬Token的價格定為僅0.27美元,直接打起了價格戰。

這樣的低價是否是基於性能/總擁有成本(TCO)的考量,正如Together和Fireworks所做的那樣?

還是說,這是一種透過補貼來刺激市場熱度的策略?

值得注意的是,Groq最近一次融資是在2021年,去年還進行了一輪5000萬美元的安全可轉換債務(SAFE)融資,目前他們正在進行新一輪的籌資活動。

現在就來深入探討Groq的晶片、系統和成本分析,來看看他們是如何將大模型的推理成本打下來的。


Groq架構解密

Groq的晶片採用了一種無緩衝、完全確定性的超長指令字(VLIW)架構,晶片面積約為725平方毫米,採用Global Foundries的14奈米製程技術。


晶片不依賴外部內存,其權重、鍵值緩存(KVCache)和激活函數等資料在處理期間全部儲存在晶片內。


由於每塊晶片只配備了230MB的靜態隨機存取記憶體(SRAM),沒有任何複雜的模型能夠僅透過單一晶片運作。


因此,為了容納整個模型,必須使用多個晶片並將它們互聯。


對於Mixtral模型,Groq需要使用包含576塊晶片的大規模伺服器叢集來支援其運行,這涉及8個機架,每個機架裝有9台伺服器,每台伺服器則裝有8塊晶片。


和輝達H100的成本對比

而輝達只要使用一到兩塊H100晶片,就能依照需要處理的資料量大小,輕鬆適應同一款。

Groq製造晶片所需的晶圓成本相對較低,可能不超過每晶圓6000美元。

相較之下,輝達的H100晶片採用TSMC客製的5nm製程生產,每晶圓成本約16,000美元。

但是,輝達透過在大部分H100晶片上禁用約15%的部分來提高良品率,這種方法對Groq來說不太適用。

輝達還需要為每顆H100晶片支付約1150美元,以從SK Hynix購買80GB的高頻寬記憶體(HBM),並且還要承擔TSMC的晶片封裝技術(CoWoS)相關費用和可能的良品率損失。

相比之下,Groq的晶片不需要外部記憶體,因此原料成本要低得多。

作為一家新創公司,Groq在生產晶片時面臨的固定成本相對較高,這也包括支付給Marvell的高額客製化ASIC服務費用。

下表展示了三種不同的部署情況:一種是Groq的,預計下週將在生產中採用批大小為3的管線並行處理;另外兩種則分別針對輝達H100晶片的延遲優化和吞吐量優化部署方案,展示了使用推測性解碼技術的配置。


上述分析大大簡化了成本計算(同時沒有考慮稍後要深入討論的大量系統級成本,也未考慮輝達的巨額利潤)。

核心觀點是,比起進行了延遲優化的輝達系統,Groq在每輸出一個Token所需的矽材料成本方面,由於其晶片架構的優勢,表現得更為經濟。

8塊A100晶片可以支援Mixtral模型,達到每個用戶每秒約220個Token的處理速度,而8塊H100晶片在不使用推測性解碼的情況下,可以達到每個用戶每秒大約280個Token。

透過採用推測性解碼,8塊H100晶片組成的推理單元可以實現接近每個用戶每秒420個Token的處理速度。

儘管理論上吞吐量可以更高,但在MoE模型上應用推測解碼存在挑戰。

目前,由於成本效益極差,還沒有針對延遲進行最佳化的API服務。

API提供者目前看不到透過收取高達10倍費用以降低延遲的市場需求。

隨著代理商和其他要求極低延遲的任務變得越來越受歡迎,基於GPU的API供應商可能會推出延遲優化而設計的API,以補充他們現有的為吞吐量優化的API。

即便採用了推測性解碼,針對延遲進行最佳化的輝達系統在吞吐量和成本上仍然遠遠落後於即將實施批次系統的Groq。

此外,Groq正在使用較舊的14nm製程技術,並向Marvell支付了高額晶片利潤。

如果Groq獲得更多資金,並能夠在2025年下半年前增加他們下一代4nm晶片的生產,經濟效益可能會發生顯著變化。


輝達的後手

值得注意的是,輝達並非沒有應對策略,預計他將在不到一個月的時間內宣布他們的下一代B100晶片。

在吞吐量優化的系統中,經濟效益發生了顯著變化。

輝達系統在成本效益上實現了數量級的提升,儘管每位使用者的處理速度較低。在吞吐量最佳化的場景中,Groq在架構上完全無法競爭。

然而,上述的簡化分析並不適用於那些購買和部署系統的用戶,因為這種分析忽略了系統成本、利潤、能耗等多個重要因素。

因此,提出了一個基於性能/總擁有成本的分析。

在考慮了這些因素之後,再來計算每個token的成本情況就完全不一樣了。

在輝達方面,將使用下文所示的GPU雲端成本來進行分析。


輝達GPU主機板有很高的利潤率。

此外,伺服器的售價高達35萬美元,這個價格遠超過了大型雲端服務商對H100伺服器的採購成本,其中還包括了高昂的記憶體成本、8個InfiniBand網路介面卡,總頻寬達到3.2Tbps(實際上這對於該推理應用並不必要),以及在輝達利潤之上的額外OEM利潤。

對於Groq,在估算系統成本時,考慮了晶片、封裝、網路、CPU、記憶體等方面的細節,並假設了一個較低的整體製造商利潤。

沒有計入Groq出售硬體時的利潤,因此雖然看似是不同的比較基準,但實際上這是一個公平的比較,因為Groq和推理API供應商提供的是相同的產品/模型。


值得一提的是,8個輝達GPU只需要配備2個CPU,而Groq的系統則配備了144個CPU和144TB的RAM,規模顯著不同。

把這些組件的成本加在一起後可以發現,每台Groq LPU伺服器的成本為3.5萬美元,包括8個Groq LPU和所有上述的硬體。

Mixtral Groq推理部署採用了8個機架,每個機架有9台伺服器,總成本為252萬美元,整個部署共有576個LPU晶片。

相比之下,一個標準的H100 HGX系統的初始投資成本為35萬美元,包含了8個H100晶片。而大多數基於H100的Mixtral推理實例,只需要用到其中的2個H100晶片。


假設資本回報率為18%並且預計使用壽命為5年,H100系統的平均成本為8888美元/月,再加上2586美元/月的託管費用,整體的擁有成本達到了11474美元。

相較之下,更大規模的Groq系統的總擁有成本,高達每月12.24萬美元。


在針對延遲最佳化的配置下,8塊H100伺服器的部署成本為每百萬Token 5.2美元,而針對吞吐量最佳化的2個H100伺服器的部署僅需0.57美元。

與之相對,Groq的解決方案每百萬Token的成本為1.94美元,比8個H100的配置更經濟,也更有效率。

和許多提供推理服務的公司一樣,Groq目前的營運模式尚未獲利。

而想要達到收支平衡,Groq需要將其處理速度提高超過7倍。

這個目標比基於8個H100伺服器的延遲優化配置要容易得多——在相同定價下要實現盈虧平衡,效率需要提高近20倍。

Groq的商業模式,不僅是提供推理API服務,還包括直接銷售硬體系統。

如果Groq以60%的利潤率向第三方營運商出售,那麼總成本將與輝達的H100 HGX相當,預計售價為約635萬美元。

儘管Groq宣稱其係統在能耗上具有優勢,但從現有數據來看,這一點尚不明顯。

即使在H100伺服器的極端假設下,包括CPU和所有8個NIC全速運轉也只需10千瓦電力,這比Groq的576晶片伺服器所需的230千瓦(每8晶片伺服器約3.2千瓦)要高效得多。

Groq聲稱自己在每瓦性能上具有優勢,但根據現有的資訊很難驗證這一點。


需要注意的是,儘管Groq在API業務上目前面臨虧損,並且需要透過超過7.2倍的效能提升才能實現損益平衡,但他們已經規劃了在未來幾季透過一系列改進達成這一目標。

這些改進主要透過以下三個方向:

- 持續進行編譯器的最佳化工作,以提升資料處理速度;

- 推出新的伺服器設計,大幅減少除了晶片外的其他成本,如減少使用的CPU數量和記憶體大小;

- 部署更大規模的系統,透過增加處理管線數量來實現更高的資料批次能力,這不僅可以提升效能,還能支援更大的AI模型。

雖然每項改進措施本身看似合理,但要達到7倍的效能提升無疑是一項巨大的挑戰。


挑戰

目前,最大的模型參數在1到2兆之間。不過,Google和OpenAI很可能會推出超過10兆參數的模型。同時,Llama 3和更大規模的Mistral模型也即將推出。

而這將需要配備數百個GPU和數十TB記憶體的強大推理系統。

目前,Groq已經證明他們有能力建構適用於處理不超過1000億參數模型的系統,並且計劃在兩年內部署100萬個晶片。

挑戰一:處理極長的脈絡訊息

谷歌的Gemini 1.5 Pro可以處理高達1000萬token的上下文,這相當於可以處理10小時的視訊、110小時的音訊、30萬行程式碼或700萬字的內容。

分析師預計,許多公司和服務商很快就會跟進對長上下文的支持,以便更好地管理和應用龐大的程式碼庫和文件庫,從而進一步取代在實際應用中表現不佳的RAG模型。

雖然Google的處理方式並非傳統的注意力機制,後者的處理複雜度是O(n^2),但Gemini 1.5 Pro仍需數百GB甚至TB層級的記憶體來儲存鍵值快取(KVCache)。

相較之下,Groq在面對長上下文需求時,需要建構的是由數萬晶片組成的系統,而不是谷歌、輝達和AMD等使用的幾十或幾百晶片。

可以預見,GPU在四年後仍能憑藉出色的彈性處理新的模式。但對於缺少動態隨機存取記憶體(DRAM)的Groq來說,隨著模型規模的不斷增大,這可能會縮短系統的折舊壽命,從而大幅增加成本。


挑戰二:推測性解碼等技術的快速發展

樹狀/分支推測方法,已經使得推測性解碼的速度提升了約3倍。

如果進一步在生產級系統上高效部署的話,那麼8塊H100的處理速度就可以達到每秒600個Token,而這將直接讓Groq在速度上的優勢不復存在。

通常,推測性解碼需要透過犧牲浮點運算效能(FLOPS),來換取更高的批次大小所帶來的頻寬效率。此時,Groq主要受到FLOPS和網路的限制,而非靜態隨機存取記憶體(SRAM)的頻寬。


挑戰三:輝達更強的GPU即將出貨

同時,輝達顯然也不會站著挨打。

就在下個月,性能/總擁有成本(TCO)據傳是H100兩倍以上的B100就會發布,並在下半年開始發貨。同時,輝達也正在迅速推進B200和X/R100的研發。

儘管如此,如果Groq能夠有效擴展到數千晶片的系統,那麼管線的數量就可以大幅增加,而每個管線階段的額外靜態隨機存取記憶體(SRAM)也將為更多的鍵值快取提供空間,從而實現大於10的大批處理大小,並可能大幅降低成本。

分析師認為,這的確是個有潛力的方向,但實現的可能性不大。

最後,還有一個更關鍵的問題,快速響應小型模型推理這個市場到底有多大,以至於值得拋下靈活的GPU不用,轉而去建立專門的基礎設施。(新智元)


參考資料:

https://www.semianalysis.com/p/groq-inference-tokenomics-speed-but