晶片專家詳解刷屏的Groq晶片：目前不能取代輝達

2024/02/21

•

速度，在這裡成了Groq的雙面刃。

財報發布前兩天，英偉達（輝達）突然冒出來一個勁敵。

一家名叫Groq的公司今天在AI圈內刷屏，殺招就一個：快。

在傳統的生成式AI中，等待是稀鬆平常的事情，字符一個個蹦出，半天才能回答完畢。但在Groq今天開放的雲端服務體驗平台上，你看到的會是一秒一螢幕。當模型收到提示後，幾乎能夠立即產生答案。這些答案不僅真實可信，還附有引用，長度更是達到數百個字。

電子郵件新創公司Otherside AI的執行長兼聯合創始人 Matt Shumer）在演示中親自體驗了Groq的強大功能。他稱讚Groq快如閃電，能夠在不到一秒鐘的時間內產生數百個單字的事實性、引用性答案。更令人驚訝的是，它超過3/4的時間用於搜尋訊息，而產生答案的時間卻短到只有幾分之一秒。

雖然今天才刷屏，但Groq公司並非初出茅廬的新創企業。實際上，該公司成立於2016年，並在那時註冊了Groq商標。去年11月，當馬斯克發佈人工智慧模型Grok時，Groq公司的開發者就發了一篇文章說馬斯克撞名自己的公司。信寫的挺逗的，但這波流量他們是一點沒吃到。

這次他們之所以能突然爆發，主要是因為Groq雲端服務的上線，讓大家真的能親身感受一下不卡頓的AI用起來有多爽。

有從事人工智慧開發的用戶稱讚，Groq是追求低延遲產品的“遊戲規則改變者”，低延遲指的是從處理請求到獲得回應所需的時間。另一位用戶則表示，Groq的LPU在未來有望對GPU在人工智慧應用需求方面實現“革命性提升”，並認為它可能成為英偉達A100和H100晶片的“高性能硬體”的有力替代品。

01 Groq晶片能在速度上獲勝的核心技術是LPU

根據其模型的首次公開基準測試結果，Groq雲端服務搭載的Llama2或Mistreal模型在運算和反應速度上遠遠超過ChatGPT。這項卓越性能的背後，是Groq團隊為大語言模型（LLM）量身定制的專用晶片（ASIC），它使得Groq每秒可以生成高達500個token。相較之下，目前ChatGPT-3.5的公開版本每秒只能產生約40個token。

這晶片能在速度上獲勝的核心技術是Groq首創的LPU技術。

根據推特上與Groq關係密切的投資人k_zeroS分享，LPU的工作原理與GPU截然不同。它採用了時序指令集電腦（Temporal Instruction Set Computer）架構，這意味著它無需像使用高頻寬記憶體（HBM）的GPU那樣頻繁地從記憶體中載入資料。這項特點不僅有助於避免HBM短缺的問題，還能有效降低成本。

有別於Nvidia GPU需要依賴高速資料傳輸，Groq的LPU在其係統中沒有採用高頻寬記憶體（HBM）。它使用的是SRAM，其速度比GPU所用的記憶體快約20倍。

鑑於AI的推理計算相較於模型訓練所需的資料量遠小，Groq的LPU因此更節能。在執行推理任務時，它從外部記憶體讀取的資料更少，消耗的電量也低於Nvidia的GPU。

如果在AI處理場景中採用Groq的LPU，可能就不需要為Nvidia GPU配置特殊的儲存解決方案。 LPU並不像GPU那樣對儲存速度有極高要求。 Groq公司宣稱，其技術能夠透過其強大的晶片和軟體，在AI任務中取代GPU的角色。

另一位安卡拉大學的助教更形象的解釋了一下LPU和GPU的差別，「想像一下，你有兩個工人，一個來自Groq（我們稱他們為「LPU」），另一個來自Nvidia（我們稱之為為「GPU」）。兩人的任務都是盡快整理一大堆文件。

GPU就像一個速度很快的工人，但也需要使用高速傳送系統（這就像高頻寬記憶體或HBM）將所有檔案快速傳送到他們的辦公桌上。這個系統可能很昂貴，有時很難取得（因為HBM產能有限）。

另一方面，Groq的LPU就像一個高效組織任務的工人，他們不需要那麼快地交付文件，所以用了一張就放在他們身邊的更小的桌子（這就像SRAM，一種更快但更小的記憶體），所以他們幾乎可以立即獲得所需的東西。這意味著他們可以在不依賴快速交付系統的情況下快速工作。

對於不需要查看堆中每一篇文件的任務（類似於不使用那麼多數據的人工智慧任務），LPU甚至更好。它不需要像往常一樣來回移動，既節省了能源，又能快速完成工作。

LPU結構

LPU組織工作的特殊方式（這是時態指令集電腦體系結構）意味著它不必一直站起來從堆裡搶更多的論文。這與GPU不同，GPU不斷需要高速系統提供更多的檔案。」

運用LPU這項技術，Groq生產了加速器單元，根據其網站介紹規格如下：

其特殊記憶體SRAM的容量是230MB，頻寬80TB/s，在INT8、FP16下算力為188TFLOPs。

02 確實快，但是貴，目前並不能成為英偉達的競爭對手

在Groq剛剛刷屏的時候，AI產業都沉浸在它閃電速度的震撼之中。然而震撼過後，許多業界大佬一算賬，發現這個快的代價可能有點高。

賈揚清在推特上算了一筆賬，因為Groq小的可憐的內存容量（230MB），在運行Llama-2 70b模型時，需要305張Groq卡才足夠，而用H100則只需要8張卡。從目前的價格來看，這意味著在同等吞吐量下，Groq的硬體成本是H100的40倍，能耗成本是10倍。

晶片專家姚金鑫（J叔）向騰訊科技進行了更詳細的解釋：

依照Groq的訊息，這顆AI晶片的規格如下：

從晶片的規格中，可以看到幾個關鍵資訊點：SRAM的容量是230MB，頻寬80TB/s，FP16的算力是188TFLOPs。

依照目前對大模型的推理部署，7B的模型大約需要14G以上的記憶體容量，那麼為了部署一個7B的模型，大約需要70片左右的晶片，根據透露的信息，一顆晶片對應一張計算卡，依照4U伺服器配置8張計算卡來計算，就需要9台4U伺服器（幾乎佔了一個標準機櫃了），總共72顆計算晶片，在這種情況下，算力（在FP16下）也達到了驚人的188T * 72 = 13.5P，如果依照INT8來算是54P。 54P的算力推理7B的大模型，用大砲打蚊子來形容一點都不為過。

目前社群媒體廣泛傳播的文章對標的是英偉達H100，其採用的是80G的HBM，這個容量可以部署5個7B的大模型實例；我們再來看算力，稀疏化後，H100在FP16下的算力將近2P，在INT8上也將近4P。

那就可以做個對比，如果從同等算力來看，如果都是用INT8來推理，採用Groq的方案需要9台包含72片的伺服器集群，而如果是H100，達到同等算力大約需要2台8卡伺服器，此時的INT8算力已經到64P，可以同時部署的7B大模型數量達到80多個。

原文提到，Groq對Llama2-7B的Token生成速度是750 Tokens/s，如果對標的是H100伺服器，那這2台總共16顆的H100晶片，並發吞吐就高到不知道哪裡去了。如果從成本的角度，9台的Groq伺服器，也是遠遠貴過2台H100的伺服器（即使此刻價格已經高到離譜）。

● Groq：2萬美金*72=144萬美金，伺服器2萬美金*9=18萬美金，純的BOM成本160萬美金以上（全部都是按照最低方式來計算）。

● H100：30萬美金*2 = 60萬美金（國外），300萬元*2=600萬人民幣（國內實際市價）

如果是70B的模型，同樣是INT8，要用到至少600張卡，將近80台伺服器，成本會更高。

這還沒有算機架相關費用，和消耗的電費（9台4U伺服器幾乎佔用整個標準機櫃）。

實際上，部署推理性價比最高的，正是4090這種神卡。

Groq真的超越了英偉達？對此，姚金鑫（J叔）也表達了自己不同的看法：

「英偉達在這次AI浪潮中的絕對領先地位，使得全球都翹首以盼挑戰者。每次吸引眼球的文章，總會在最初被人相信，除了這個原因之外，還是因為在做對比時的“套路”，故意忽略其他因素，用單一維度來做比較。這就好比那句名言“拋開事實不談，難道你就沒有一點錯的地方嗎？」

拋開場景來談對比，其實是不合適的。對於Groq這種架構來講，也有其盡顯長處的應用場景，畢竟這麼高的頻寬，對許多需要頻繁資料搬運的場景來說，那就是再好不過了。

總結起來，Groq的架構建立在小內存，大算力上，因此有限的被處理的內容對應著極高的算力，導致其速度非常快。

現在把句話反過來，Groq極高的速度是建立在很有限的單卡吞吐能力上的。要確保和H100同樣吞吐量，你就需要更多的卡片。

速度，在這裡成了Groq的雙面刃。」

03 傳奇CEO，小團隊

雖然Groq還面臨著許多潛在的問題，但它還是讓人看到了GPU以外的可能路徑。這主要得益於背後的超強團隊。

Groq的CEO是被稱為「TPU之父」的前谷歌員工喬納森·羅斯；聯合創始人道格拉斯·懷特曼也來自谷歌TPU團隊，並先後創立了四家公司。該公司技術長吉姆·米勒曾是亞馬遜雲端運算服務AWS設計算力硬體的負責人，CMO曾主導了蘋果Macintosh的市場發表。

喬納森·羅斯

Groq目前的團隊也相對較小，其總部位於加州山景城，該公司僅有180餘名員工，甚至還不到英特爾等大型晶片製造商所需工程師數量的四分之一。

羅斯等人的目標是在Groq複製他在谷歌的成功經驗，打造一個內部晶片項目，引領整個行業向新技術邁進。他希望吸引少數關鍵客戶，透過廣泛部署Groq晶片為公司提供穩定的收入來源，推動公司的獨立發展。目前，這家新創公司已開始向潛在客戶發送樣品。

“這就像獵殺大象，”羅斯說道，“你只需要少數獵物就能維持自己的生命，尤其在我們還如此弱小的時候。”（騰訊科技）