人工智慧推理晶片開發商 Groq Inc. 今天宣佈已籌集 7.5 億美元的新資金。Databricks Inc. 的支持者 Disruptive 領投了此輪融資。思科系統公司 (Cisco Systems Inc.)、三星電子公司 (Samsung Electronics Co.)、德國電信資本合夥公司 (Deutsche Telekom Capital Partners) 和多家投資公司也參與了此次融資。Groq 目前的估值為 690 萬美元,高於去年的 28 億美元。Groq 推出了一款名為語言處理單元 (LPU) 的處理器。該公司聲稱,該晶片能夠以比顯示卡高 10 倍的能效運行某些推理工作負載。Groq 表示,LPU 的高效運行得益於多項競爭對手晶片所不具備的最佳化。協調運行 AI 模型所涉及的不同處理器元件可能會消耗大量的計算能力。據 Groq 稱,其 LPU 降低了這種開銷,從而為推理留下了更多的處理能力。該公司表示,其晶片可以運行包含 1 兆個參數的模型。Groq 的 LPU 使用自訂編譯器減少了與電路協調任務相關的開銷。編譯器會在推理工作負載啟動之前計算出那個電路應該執行那個任務,從而無需在執行階段運行必要的計算。Groq 的編譯器還以其他方式最佳化 AI 模型。許多晶片使用一種稱為量化的技術來壓縮神經網路,這可以減少其記憶體佔用,但會犧牲一些輸出質量。Groq 表示,其編譯器使用了該技術的改進版本 RealScale。該技術僅壓縮神經網路中量化後輸出質量不會顯著下降的部分。LPU 的另一個賣點是它具有所謂的確定性架構。因此,可以以單個時鐘周期的粒度預測每個給定計算操作所需的時間。據 Groq 稱,LPU 的可預測性有助於實現原本難以實現的性能最佳化。該公司將其晶片作為名為 GroqRack 的裝置的一部分出售。該系統包含九台伺服器,每台伺服器都配備多個邏輯處理器 (LPU)。Grok 表示,GroqRack 所需的外部網路硬體比同類競爭產品更少,從而降低了成本,並且無需進行大規模裝置升級即可安裝在資料中心。該公司還通過雲平台提供晶片訪問。該平台名為 GroqCloud,託管由 LPU 驅動的 AI 模型,開發人員可以通過應用程式程式設計介面 (API) 將其整合到自己的軟體中。Groq 將利用新融資來擴展支援 GroqCloud 的資料中心網路。此次投資正值有報導稱,一家競爭對手的推理晶片供應商正在尋求新一輪融資之際。據報導,總部位於加州聖克拉拉的Rivos正在洽談以20億美元的估值籌集至多5億美元。該公司正在開發一款將顯示卡與中央處理器核心相結合的片上系統。Groq打造的LPU是什麼?Groq 建構快速的 AI 推理。Groq LPU AI 推理技術可提供卓越的 AI 計算速度、質量和規模經濟性。Groq AI 推理基礎架構,特別是GroqCloud,由語言處理單元 (LPU) 提供支援,這是一種新型處理器。Groq 完全從零開始建立和建構了 LPU,以滿足 AI 的獨特需求。LPU 能夠以更快的速度運行大型語言模型 (LLM) 和其他領先模型,並且在架構層面,與 GPU 相比,其能源效率最高可提高 10 倍。Groq LPU 通過四個核心設計原則以及其架構提供如此卓越的性能。具體而言,這些原則包括:軟體優先、可程式設計裝配線架構、確定性計算和網路和片上儲存器。■ LPU設計原則1:軟體優先Groq LPU 架構秉承軟體優先的原則,旨在簡化軟體開發人員最大化硬體利用率的工作,並將儘可能多的控制權交到開發人員手中。GPU 功能多樣、性能強大,能夠處理各種不同的計算任務。但它們也十分複雜,給軟體帶來了額外的負擔。它必須考慮工作負載在多個晶片內部和跨晶片執行方式的差異性,這使得調度執行階段執行和最大化硬體利用率變得更加困難。為了最大限度地提高 GPU 的硬體利用率,每個新的 AI 模型都需要編寫特定於模型的核心。這正是我們“軟體優先”原則如此重要的原因——對於 GPU 而言,軟體始終是硬體的次要因素。Groq LPU 從一開始就專為線性代數計算而設計——這是 AI 推理的主要需求。通過將重點限制線上性代數計算上並簡化多晶片計算範式,Groq 採用了一種獨特的 AI 推理和晶片設計方法。該 LPU 採用可程式設計流水線架構,使 AI 推理技術能夠使用通用的、獨立於模型的編譯器,並始終秉持其軟體優先的原則。軟體始終處於主導地位,完全控制推理的每個步驟。目標是使軟體開發人員能夠更輕鬆地最大化硬體利用率,並將儘可能多的控制權交到開發人員手中。軟體優先不僅僅是一種設計原則——它實際上是 Groq 建構其第一代 GroqChip™ 處理器的方式。在設計編譯器架構之前,我們從未接觸過晶片設計。編譯器接受來自多個不同框架的工作負載,並通過多個階段運行這些工作負載。當編譯器對應並調度程序在一個或多個邏輯處理器 (LPU) 上執行階段,它會最佳化性能和利用率。最終,程序將涵蓋整個執行過程中的所有資料移動資訊。■ LPU設計原則2:可程式設計裝配線架構Groq LPU 的主要定義特徵是其可程式設計流水線架構。LPU 具有資料“傳送帶”,用於在晶片的 SIMD(單指令/多資料)功能單元之間傳輸指令和資料。在組裝過程的每個步驟中,功能單元都會通過傳送帶接收指令。這些指令會告知功能單元應該從那裡獲取輸入資料(那條傳送帶)、應該使用這些資料執行那些功能以及應該將輸出資料放置在何處。此過程完全由軟體控制;無需硬體同步。LPU可程式設計流式架構支援晶片內和晶片間的流水線流程。晶片間頻寬充足,使資料傳送帶能夠像晶片內一樣輕鬆地在晶片間傳輸。即使在最大容量下,也無需路由器或控製器來實現晶片間連接。晶片內部和晶片間的裝配線流程消除了瓶頸。無需等待計算或記憶體資源即可完成任務。由於沒有瓶頸需要管理,晶片上無需額外控製器。裝配線運行順暢高效,完美同步。與 GPU 的工作方式相比,這是一個巨大的進步。GPU 採用多核“中心輻射”模型運行,這種模型中低效的資料分頁方法需要大量開銷,以便在晶片內部和跨晶片的計算單元和記憶體單元之間來回傳輸資料。GPU 還利用機架內部和跨機架的多層外部交換機和網路晶片進行相互通訊,這進一步加劇了軟體調度的複雜性。這導致多核方法難以程式設計。■ LPU設計原則3:確定性計算和網路為了使裝配線高效運行,必須高度確定每個步驟的確切耗時。如果某項任務的執行時間差異過大,這種差異就會影響整條裝配線。高效的裝配線需要高度精確的確定性。LPU 架構具有確定性,這意味著每個執行步驟都完全可預測,甚至可以精確到最小執行周期(也稱為時鐘周期)。軟體控制的硬體能夠高度精確地瞭解操作發生的時間和地點,以及執行所需的時間。Groq LPU 通過消除關鍵資源(即資料頻寬和計算)的爭用來實現高度確定性。晶片(傳送帶)擁有充足的資料路由容量,晶片的功能單元也擁有充足的計算能力。不同任務使用相同資源不會出現問題,因此不會因資源瓶頸而導致執行延遲。晶片之間的資料路由也是如此。LPU 資料傳送帶也在晶片之間運行,因此連接晶片會形成更大的可程式設計流水線。資料流在編譯期間由軟體靜態調度,並且每次程式執行時都以相同的方式執行。■ LPU設計原則4:片上儲存器LPU 包含片上記憶體和計算功能,可大幅提高資料儲存和檢索的速度,同時消除時序差異。確定性可確保裝配線高效運行並消除每個計算階段的差異性,而片上記憶體則可使其運行速度更快。GPU 使用獨立的高頻寬記憶體晶片,這帶來了複雜性——需要多層記憶體快取、交換機和路由器來來回回傳輸資料——同時也消耗了大量的能源。將記憶體整合在同一晶片上可以提高每次 I/O 操作的效率和速度,並消除複雜性和不確定性。Groq 片上 SRAM 的記憶體頻寬高達 80 TB/秒,而 GPU 片外 HBM 的記憶體頻寬約為 8 TB/秒。僅憑這一點差異,LPU 的速度就提升了 10 倍,而且 LPU 還無需往返於單獨的記憶體晶片來檢索資料,從而獲得了顯著的提升。晶片內部和晶片間的流水線流程消除了瓶頸,無需等待計算或記憶體資源即可完成任務。正是得益於這些設計,Groq LPU能 提供卓越的速度、質量和經濟實惠的規模化解決方案。得益於其固有的設計原則,LPU 的性能優勢將持久有效。GPU 的速度和成本將繼續降低,Groq 亦是如此,而且速度會更快。我們目前的晶片組採用 14 奈米工藝製造。隨著我們逐步邁向 4 奈米工藝,LPU 架構的性能優勢將更加顯著。Groq強調,上述是 Groq 指導 LPU 產品開發的“首要原則”。即使 GPU 製造商試圖縮小差距,公司也能確保保持顯著的性能優勢。 (EDA365電子論壇)