一覺醒來,每秒能輸出500個token的Groq模型刷屏全網。
堪稱是「世界上速度最快的LLM」!
相較之下,ChatGPT-3.5每秒產生速度僅40個token。
有網友將其與GPT-4、Gemini對標,看看它們完成一個簡單程式碼偵錯問題所需的時間。
沒想到,Groq完全碾壓兩者,在輸出速度上比Gemini快10倍,比GPT-4快18倍。 (不過就答案品質來說,Gemini比較好。)
最關鍵的是,任何人都可以免費使用!
進入Groq主頁,目前有兩種可以自選的型號:Mixtral8x7B-32k,Llama 270B-4k。
網址:https://groq.com/
同時,Groq API也向開發者提供,完全相容於OpenAI API。
Mixtral 8x7B SMoE可以達到480 token/S,100萬token價格為0.27美元。極限情況下,用Llama2 7B甚至能達到750 token/S。
目前,他們也提供100萬token的免費試用。
Groq突然爆火,背後最大的功臣不是GPU,而是自研的LPU-語言處理單元。
單卡只有230MB內存,2萬美元一張。在LLM任務上,LPU比英偉達的GPU效能快10倍。
在前段時間的基準測試中,Groq LPU推理引擎上運行的Llama 2 70B直接刷榜,而且比頂級雲端供應商快18倍的LLM推理效能。
Groq火箭般的生成速度,讓許多人為之震驚。
網友紛紛放出的自己做的demo。
在不到一秒鐘的時間裡,產生幾百字的、帶有引用的事實性答案。
實際上,搜尋佔據了超過四分之三的處理時間,而非內容的生成!
針對「創建一個簡單的健身計畫」相同提示,Groq與ChatGPT並排反應,速度差異。
面對300多個單字的「巨型」prompt,Groq在不到一秒鐘的時間裡,就為一篇期刊論文創建了初步大綱和寫作計畫!
Groq完全實現了遠端即時的AI對話。在GroqInc硬體上運行Llama 70B,然後在提供給Whisper,幾乎沒有延遲。
GPU不存在了?
並非是,傳統的GPU。
簡而言之,Groq自研的是一種名為張量流處理器(TSP)的新型處理單元,並將其定義為「語言處理單元」,即LPU。
它是專為圖形渲染而設計、包含數百個核心的平行處理器,能夠為AI運算提供穩定的效能。
論文地址:https://wow.groq.com/wp-content/uploads/2024/02/GroqISCAPaper2022_ASoftwareDefinedTensorStreamingMultiprocessorForLargeScaleMachineLearning.pdf
具體來說,LPU的工作原理與GPU截然不同。
它採用了時序指令集電腦(Temporal Instruction Set Computer)架構,這意味著它無需像使用高頻寬記憶體(HBM)的GPU那樣頻繁地從記憶體中載入資料。
這項特點不僅有助於避免HBM短缺的問題,還能有效降低成本。
這種設計使得每個時脈週期(every clock cycle)都能有效利用,從而保證了穩定的延遲和吞吐量。
在能源效率方面,LPU也顯示出其優勢。透過減少多執行緒管理的開銷和避免核心資源的未充分利用,LPU能夠實現更高的每瓦特運算效能。
目前,Groq可支援多種用於模型推理的機器學習開發框架,包括PyTorch、TensorFlow和ONNX。但不支援使用LPU推理引擎進行ML訓練。
甚至有網友表示,「Groq的LPU在處理請求和回應方面,速度超越了英偉達的GPU」。
有別於英偉達GPU需要依賴高速資料傳輸,Groq的LPU在其係統中沒有採用高頻寬記憶體(HBM)。
它使用的是SRAM,其速度比GPU所用的記憶體快約20倍。
鑑於AI的推理計算,相較於模型訓練所需的資料量遠小,Groq的LPU因此更節能。
在執行推理任務時,它從外部記憶體讀取的資料更少,消耗的電量也低於英偉達的GPU。
LPU並不像GPU那樣對儲存速度有極高要求。
如果在AI處理場景中採用Groq的LPU,可能就無需為英偉達GPU配置特殊的儲存解決方案。
Groq的創新晶片設計實現了多個TSP的無縫鏈接,避免了GPU叢集中常見的瓶頸問題,大大提高了可擴展性。
這意味著隨著更多LPU的加入,效能可以實現線性擴展,簡化了大規模AI模型的硬體需求,使開發者能夠更輕鬆地擴展應用,而無需重構系統。
Groq公司宣稱,其技術能夠透過其強大的晶片和軟體,在推理任務中取代GPU的角色。
網友做的具體規格比較圖。
這一切意味著什麼?
對開發者來說,這意味著效能可以被精確預測並優化,這對於即時AI應用至關重要。
對於未來AI應用的服務而言,LPU可能會帶來與GPU相比巨大的效能提升!
考慮到A100和H100如此緊缺,對於那些新創公司擁有這樣的高性能替代硬件,無疑是一個巨大的優勢。
目前,OpenAI正在向全球政府和投資者尋求7兆美元的資金,以開發自己的晶片,解決擴展其產品時遇到算力不足的問題。
2倍吞吐量,反應速度僅0.8秒
其中包括在延遲與吞吐量、隨時間的吞吐量、總回應時間和吞吐量差異。
在右下角的綠色象限中,Groq取得最優的成績。
來源:ArtifialAnalysis.ai
Llama 2 70B在Groq LPU推理引擎上效果最為出色,達到了每秒241個token的吞吐量,是其他大廠的2倍還要多。
總回應時間
Groq的回應時間也是最少的,接收100個token後輸出只有0.8秒。
另外,Groq已經運行了幾個內部基準,可以達到每秒300個token,再次設定了全新的速度標準。
Groq執行長Jonathan Ross曾表示,「Groq的存在是為了消除「富人和窮人」,並幫助人工智慧社群中的每個人發展。而推理是實現這一目標的關鍵,因為『速度』是將開發人員的想法轉化為商業解決方案和改變生APP的關鍵」。
一塊卡2萬刀,記憶體230MB
而且,售價為2萬+美元。
根據The Next Platform的報告,在上述的測試中,Groq實際上使用了576個GroqChip,才實現了對Llama 2 70B的推理。
通常來說,GroqRack配備有9個節點,其中8個節點負責運算任務,剩下1個節點作為備用。但這次,9個節點全部被用來計算工作。
對此網友表示,Groq LPU面臨的一個關鍵問題是,它們完全不配備高頻寬記憶體(HBM),而是僅配備了一小塊(230MiB)的超高速靜態隨機存取記憶體(SRAM),這種SRAM的速度比HBM3快20倍。
這意味著,為了支援運行單一AI模型,你需要配置大約256個LPU,相當於4個滿載的伺服器機架。每個機架可容納8個LPU單元,每個單元中又包含8個LPU。
相較之下,你只需要一個H200(相當於1/4個伺服器機架的密度)就可以相當有效地運行這些模型。
這種配置如果用於只需運行一個模型且有大量用戶的場景下可能表現良好。但是,一旦需要同時運行多個模型,特別是需要進行大量的模型微調或使用高水準的LoRA等操作時,這種配置就不再適用。
此外,對於需要在本地部署的情況,Groq LPU的這項配置優勢也不明顯,因為其主要優勢在於能夠集中多個使用者使用同一個模型。
另有網友表示,「Groq LPU似乎沒有任何HBM,而且每個晶片基本上都帶有少量的SRAM?也就是說他們需要大約256個晶片來運行Llama 70B?」
沒想到得到了官方回應:是的,我們的LLM在數百個晶片上運行。
還有人對LPU的卡片的價格提出了異議,「這不會讓你的產品比H100貴得離譜嗎」?
馬斯克Grok,同音不同字
而這次,Groq這個最新的AI模型,憑藉其快速響應和可能取代GPU的新技術,又一次在社群媒體上掀起了風暴。
不過,Groq背後的公司並非大模型時代後的新星。
它成立於2016年,並直接註冊了Groq這一名字。
CEO兼共同創辦人Jonathan Ross在創立Groq之前,曾是Google的員工。
曾在一個20%的專案中,設計並實現了第一代TPU晶片的核心元素,這就是後來的Google張量處理單元(TPU)。
隨後,Ross加入了GoogleX實驗室的快速評估團隊(著名的「登月工廠」專案初始階段),為Google母公司Alphabet設計和孵化新的Bets(單元)。
或許大多數人對馬斯克Grok,還有Groq模型的名字感到困惑。
其實,在勸退馬斯克使用這個名字時,還有個小插曲。
去年11月,當馬斯克的同名AI模型Grok(拼寫有所不同)開始受到關注時,Groq的開發團隊發表了一篇博客,幽默地請馬斯克另選一個名字:
我們明白你為什麼會喜歡我們的名字。你對快速的事物(如火箭、超級高鐵、單字母公司名稱)情有獨鍾,而我們的Groq LPU推理引擎正是運作LLM和其他生成式AI應用的最快方式。但我們還是得請你趕快換個名字。
不過,馬斯克並未對兩個模型名稱的相似之處作出回應。(新智元)
參考資料:
https://x.com/JayScambler/status/1759372542530261154?s=20
https://x.com/gabor/status/1759662691688587706?s=20
https://x.com/GroqInc/status/1759622931057934404?s=20