#Groq
深度訪談 | 那個推理比輝達快10倍的Groq創始人發話了:“別傻了,CUDA根本不是護城河!”
一分鐘速覽輝達的命門不在CUDA,在供應鏈。 2年以上的交付周期是其“阿喀琉斯之踵”,能提供更快交付(如Groq的6個月)的公司擁有巨大優勢。算力需求永不滿足,別再問泡沫。 聰明錢(科技巨頭、國家)投入AI不是為了投機,而是為了生存。如果算力翻倍,OpenAI的收入也能翻倍。AI的終極瓶頸是能源。 “控制算力的國家控制AI,而沒有能源就沒有算力。” 歐洲因能源政策和官僚主義,正面臨淪為“旅遊經濟體”的風險。當所有人都在膜拜輝達的算力帝國時,一場顛覆性的變革正在悄然發生。Groq創始人Jonathan Ross的最新訪談,為我們揭示了AI浪潮下被嚴重忽視的真相。他認為,AI的終局不是模型,而是算力;算力的終局,是能源。在這場決定未來的競賽中,輝達的王座並非牢不可破,而真正的贏家,將是那些能突破物理極限的人。風暴之眼:那個叫板輝達的Groq究竟是什麼來頭?在深入探討Jonathan Ross的顛覆性觀點前,我們必須先瞭解他所創立的公司——Groq,這正是他所有判斷的底氣所在。簡單來說,Groq是一家把“速度”刻在DNA裡的AI晶片公司,被譽為AI推理領域最兇猛的“F1賽車”。核心產品 LPU:為速度而生Groq不製造像Nvidia那樣的通用GPU,而是創造了一種全新的晶片架構——LPU(語言處理單元)。它的唯一使命,就是在運行大語言模型(即“推理”)時,提供地球上最快的速度和最低的延遲。與GPU的根本不同:“流水線” vs “項目經理”GPU像一個強大的“項目經理”,手下有數萬名員工(計算核心),但每次任務都需要動態調度和協調,這個過程本身會產生延遲。LPU則像一條預先設定好的“精密流水線”,每個資料的處理路徑和時間都被精確規劃,消除了所有不確定性,從而實現了驚人的、可預測的速度。結果有多震撼?Groq的雲平台曾演示以每秒超過500個token的速度運行開源大模型,這個速度是當時行業頂尖水平的5到10倍,幾乎實現了AI對話的“零等待”,讓即時語音互動成為可能。創始人背景:Google TPU之父Groq的創始人Jonathan Ross,是親手主導設計了Google第一代TPU(張量處理單元)的核心人物。TPU是第一款在資料中心成功挑戰Nvidia霸權的專用AI晶片。因此,當Jonathan Ross評論Nvidia和AI晶片的未來時,他不是一個旁觀者,而是這個領域最頂尖的開創者之一。忘掉泡沫論吧,巨頭們賭的是“身家性命”訪談開場,直面“AI泡沫論”。Jonathan的觀點清晰而尖銳:與其糾結於泡沫,不如觀察“聰明錢”的實際行動。聰明錢的動向:瘋狂下註: Google、微軟、亞馬遜等巨頭正“像醉酒的水手一樣”花錢,而且一次比一次多。自用為王: 微軟寧願犧牲Azure的租賃收入,也要將寶貴的GPU留給自己內部使用,因為這樣賺得更多。這證明了AI應用的真實價值。巨頭們為何如此瘋狂?核心動機是生存,而非投機。Jonathan分享了一個發人深省的細節:“我曾問一群管理著百億資產的頂級投資人:‘有誰100%確定,10年後AI無法取代你的工作?’ 現場沒有一個人舉手。”對於科技巨頭來說,邏輯完全一樣。今天不惜一切代價投入,是為了確保10年後自己不會被徹底踢出牌桌。早期石油鑽探的比喻:目前的AI市場就像早期的石油開採,回報極度不均。少數公司(約36家)佔據了99%的收入,但這正是早期市場高風險、高回報的典型特徵。AI增長的唯一密碼:給我更多算力,我能讓收入翻倍Jonathan反覆強調一個核心觀點:市場對算力的需求是“永不滿足”的 (insatiable)。他給出了一個驚人的論斷來證明這一點:“我敢打賭,如果OpenAI或Anthropic今天能獲得雙倍的推理算力,一個月內,他們的收入幾乎會翻倍。”為什麼算力如此關鍵?算力 = 收入:Anthropic 因算力不足,不得不對使用者進行速率限制(rate limits)。OpenAI 為了控製成本,有時會故意降低響應速度,犧牲了使用者體驗。結論: 頂尖AI公司都被算力“卡著脖子”,無法滿足市場需求。速度決定一切(多巴胺循環理論):他以消費品為例,利潤最高的品類(如菸草、軟飲料)都具備“快速反饋”的特點。AI也是如此。速度是決定使用者粘性和轉化率的關鍵。Google每提速100毫秒就能帶來8%的轉化提升,這個定律在AI時代依然有效。算力是最好調的“旋鈕”:想提升AI產品的質量?有三個途徑:最佳化演算法、增加資料、提升算力。其中,演算法突破很難,高品質資料獲取不易,只有算力,是最直接、最可預測、最有效的提升手段。兆帝國的裂痕:卡住輝達脖子的“2年之約”談及輝達,Jonathan毫不吝嗇其價值的肯定。兆市值預測: “如果5年內輝達市值沒到10兆美元,我會感到驚訝。”但緊接著,他指出了這個帝國的致命弱點。真正的命門不是CUDA:他直言:“CUDA鎖定就是胡扯(bullshit),至少在推理市場是這樣。”供應鏈才是“阿喀琉斯之踵”:漫長等待: 從下訂單到拿到輝達的GPU,需要等待2年以上。物理瓶頸: 限制產量的不是GPU晶片本身,而是HBM(高頻寬記憶體)等關鍵元件的有限供應。這正是Groq等挑戰者的機會所在。6個月 vs. 2年——生與死的區別:“當我對一位資料中心負責人說,我們的供應鏈能把交付時間縮短到6個月時,他立刻暫停了會議,只關心這一點。”在模型迭代以月為單位的AI時代,2年的等待周期是不可接受的。交付速度,已經成為比晶片性能更重要的競爭力。未來的市場格局預測:5年後,輝達仍將憑藉其品牌和生態,佔據市場50%以上的收入,但其售出的晶片數量將只佔少數。AI的物理定律:沒有能源,就沒有王權“控制算力的國家將控制AI,而沒有能源就不可能有算力。” 這是Jonathan提出的最嚴峻的警告。歐洲的危機:“如果歐洲不迅速行動,它的經濟將變成一個旅遊經濟。人們來這裡只是為了看看古色古香的老建築,僅此而已。”問題與解決方案:病因: 歐洲的問題不在於缺技術或資源,而在於官僚主義和對風險的恐懼。建造一座核電站,花在許可證上的錢可能是建造成本的3倍。藥方:解放可再生能源: 比如挪威,其風力資源和水電潛力巨大,一個國家就能滿足驚人的能源需求。讓市場驅動: 政府應該做的不是投資,而是“鬆綁”,削減繁瑣的審批流程,讓有需求的科技巨頭自己去投資建設能源設施。未來反轉:AI帶來的不是失業潮,而是“沒人可用”關於AI與就業的未來,Jonathan的觀點再次顛覆傳統認知。AI帶來的三大社會變革:大規模通縮: AI將極大提升各行各業的效率,從農業到供應鏈,一切商品和服務的成本都會下降。人們主動“退出”工作: 由於生活成本降低,人們不再需要為了餬口而拚命工作,會選擇工作更少時間,更早退休。創造全新的產業與工作: 就像100年前沒人能想像“軟體工程師”一樣,未來會誕生我們今天無法想像的新職業。結論:我們面臨的不是失業潮,而是勞動力短缺。“Vibe Coding”——未來的新讀寫能力:他認為,未來的程式設計將不再是少數專家的技能。通過與AI對話(Vibe Coding),任何人都能創造工具、解決問題。程式設計將成為一項人人必備的基礎素養,就像今天的閱讀和寫作。Jonathan最後用一個美麗的比喻總結:“幾百年前,伽利略的望遠鏡讓我們意識到宇宙的浩瀚,也讓我們感到自身的渺小。但最終,我們學會了欣賞這種壯麗。LLM就是我們思想的望遠鏡。 它現在可能讓我們感到不安,但在未來,它會讓我們意識到,智能的世界遠比我們想像的更廣闊、更美麗。”面對這片由算力與能源構築的新大陸,恐懼與機遇並存,而看清底層邏輯的人,才能最終勝出。 (GD梯度下降)
AI晶片黑馬融資53億,估值490億
人工智慧推理晶片開發商 Groq Inc. 今天宣佈已籌集 7.5 億美元的新資金。Databricks Inc. 的支持者 Disruptive 領投了此輪融資。思科系統公司 (Cisco Systems Inc.)、三星電子公司 (Samsung Electronics Co.)、德國電信資本合夥公司 (Deutsche Telekom Capital Partners) 和多家投資公司也參與了此次融資。Groq 目前的估值為 690 萬美元,高於去年的 28 億美元。Groq 推出了一款名為語言處理單元 (LPU) 的處理器。該公司聲稱,該晶片能夠以比顯示卡高 10 倍的能效運行某些推理工作負載。Groq 表示,LPU 的高效運行得益於多項競爭對手晶片所不具備的最佳化。協調運行 AI 模型所涉及的不同處理器元件可能會消耗大量的計算能力。據 Groq 稱,其 LPU 降低了這種開銷,從而為推理留下了更多的處理能力。該公司表示,其晶片可以運行包含 1 兆個參數的模型。Groq 的 LPU 使用自訂編譯器減少了與電路協調任務相關的開銷。編譯器會在推理工作負載啟動之前計算出那個電路應該執行那個任務,從而無需在執行階段運行必要的計算。Groq 的編譯器還以其他方式最佳化 AI 模型。許多晶片使用一種稱為量化的技術來壓縮神經網路,這可以減少其記憶體佔用,但會犧牲一些輸出質量。Groq 表示,其編譯器使用了該技術的改進版本 RealScale。該技術僅壓縮神經網路中量化後輸出質量不會顯著下降的部分。LPU 的另一個賣點是它具有所謂的確定性架構。因此,可以以單個時鐘周期的粒度預測每個給定計算操作所需的時間。據 Groq 稱,LPU 的可預測性有助於實現原本難以實現的性能最佳化。該公司將其晶片作為名為 GroqRack 的裝置的一部分出售。該系統包含九台伺服器,每台伺服器都配備多個邏輯處理器 (LPU)。Grok 表示,GroqRack 所需的外部網路硬體比同類競爭產品更少,從而降低了成本,並且無需進行大規模裝置升級即可安裝在資料中心。該公司還通過雲平台提供晶片訪問。該平台名為 GroqCloud,託管由 LPU 驅動的 AI 模型,開發人員可以通過應用程式程式設計介面 (API) 將其整合到自己的軟體中。Groq 將利用新融資來擴展支援 GroqCloud 的資料中心網路。此次投資正值有報導稱,一家競爭對手的推理晶片供應商正在尋求新一輪融資之際。據報導,總部位於加州聖克拉拉的Rivos正在洽談以20億美元的估值籌集至多5億美元。該公司正在開發一款將顯示卡與中央處理器核心相結合的片上系統。Groq打造的LPU是什麼?Groq 建構快速的 AI 推理。Groq LPU AI 推理技術可提供卓越的 AI 計算速度、質量和規模經濟性。Groq AI 推理基礎架構,特別是GroqCloud,由語言處理單元 (LPU) 提供支援,這是一種新型處理器。Groq 完全從零開始建立和建構了 LPU,以滿足 AI 的獨特需求。LPU 能夠以更快的速度運行大型語言模型 (LLM) 和其他領先模型,並且在架構層面,與 GPU 相比,其能源效率最高可提高 10 倍。Groq LPU 通過四個核心設計原則以及其架構提供如此卓越的性能。具體而言,這些原則包括:軟體優先、可程式設計裝配線架構、確定性計算和網路和片上儲存器。■ LPU設計原則1:軟體優先Groq LPU 架構秉承軟體優先的原則,旨在簡化軟體開發人員最大化硬體利用率的工作,並將儘可能多的控制權交到開發人員手中。GPU 功能多樣、性能強大,能夠處理各種不同的計算任務。但它們也十分複雜,給軟體帶來了額外的負擔。它必須考慮工作負載在多個晶片內部和跨晶片執行方式的差異性,這使得調度執行階段執行和最大化硬體利用率變得更加困難。為了最大限度地提高 GPU 的硬體利用率,每個新的 AI 模型都需要編寫特定於模型的核心。這正是我們“軟體優先”原則如此重要的原因——對於 GPU 而言,軟體始終是硬體的次要因素。Groq LPU 從一開始就專為線性代數計算而設計——這是 AI 推理的主要需求。通過將重點限制線上性代數計算上並簡化多晶片計算範式,Groq 採用了一種獨特的 AI 推理和晶片設計方法。該 LPU 採用可程式設計流水線架構,使 AI 推理技術能夠使用通用的、獨立於模型的編譯器,並始終秉持其軟體優先的原則。軟體始終處於主導地位,完全控制推理的每個步驟。目標是使軟體開發人員能夠更輕鬆地最大化硬體利用率,並將儘可能多的控制權交到開發人員手中。軟體優先不僅僅是一種設計原則——它實際上是 Groq 建構其第一代 GroqChip™ 處理器的方式。在設計編譯器架構之前,我們從未接觸過晶片設計。編譯器接受來自多個不同框架的工作負載,並通過多個階段運行這些工作負載。當編譯器對應並調度程序在一個或多個邏輯處理器 (LPU) 上執行階段,它會最佳化性能和利用率。最終,程序將涵蓋整個執行過程中的所有資料移動資訊。■ LPU設計原則2:可程式設計裝配線架構Groq LPU 的主要定義特徵是其可程式設計流水線架構。LPU 具有資料“傳送帶”,用於在晶片的 SIMD(單指令/多資料)功能單元之間傳輸指令和資料。在組裝過程的每個步驟中,功能單元都會通過傳送帶接收指令。這些指令會告知功能單元應該從那裡獲取輸入資料(那條傳送帶)、應該使用這些資料執行那些功能以及應該將輸出資料放置在何處。此過程完全由軟體控制;無需硬體同步。LPU可程式設計流式架構支援晶片內和晶片間的流水線流程。晶片間頻寬充足,使資料傳送帶能夠像晶片內一樣輕鬆地在晶片間傳輸。即使在最大容量下,也無需路由器或控製器來實現晶片間連接。晶片內部和晶片間的裝配線流程消除了瓶頸。無需等待計算或記憶體資源即可完成任務。由於沒有瓶頸需要管理,晶片上無需額外控製器。裝配線運行順暢高效,完美同步。與 GPU 的工作方式相比,這是一個巨大的進步。GPU 採用多核“中心輻射”模型運行,這種模型中低效的資料分頁方法需要大量開銷,以便在晶片內部和跨晶片的計算單元和記憶體單元之間來回傳輸資料。GPU 還利用機架內部和跨機架的多層外部交換機和網路晶片進行相互通訊,這進一步加劇了軟體調度的複雜性。這導致多核方法難以程式設計。■ LPU設計原則3:確定性計算和網路為了使裝配線高效運行,必須高度確定每個步驟的確切耗時。如果某項任務的執行時間差異過大,這種差異就會影響整條裝配線。高效的裝配線需要高度精確的確定性。LPU 架構具有確定性,這意味著每個執行步驟都完全可預測,甚至可以精確到最小執行周期(也稱為時鐘周期)。軟體控制的硬體能夠高度精確地瞭解操作發生的時間和地點,以及執行所需的時間。Groq LPU 通過消除關鍵資源(即資料頻寬和計算)的爭用來實現高度確定性。晶片(傳送帶)擁有充足的資料路由容量,晶片的功能單元也擁有充足的計算能力。不同任務使用相同資源不會出現問題,因此不會因資源瓶頸而導致執行延遲。晶片之間的資料路由也是如此。LPU 資料傳送帶也在晶片之間運行,因此連接晶片會形成更大的可程式設計流水線。資料流在編譯期間由軟體靜態調度,並且每次程式執行時都以相同的方式執行。■ LPU設計原則4:片上儲存器LPU 包含片上記憶體和計算功能,可大幅提高資料儲存和檢索的速度,同時消除時序差異。確定性可確保裝配線高效運行並消除每個計算階段的差異性,而片上記憶體則可使其運行速度更快。GPU 使用獨立的高頻寬記憶體晶片,這帶來了複雜性——需要多層記憶體快取、交換機和路由器來來回回傳輸資料——同時也消耗了大量的能源。將記憶體整合在同一晶片上可以提高每次 I/O 操作的效率和速度,並消除複雜性和不確定性。Groq 片上 SRAM 的記憶體頻寬高達 80 TB/秒,而 GPU 片外 HBM 的記憶體頻寬約為 8 TB/秒。僅憑這一點差異,LPU 的速度就提升了 10 倍,而且 LPU 還無需往返於單獨的記憶體晶片來檢索資料,從而獲得了顯著的提升。晶片內部和晶片間的流水線流程消除了瓶頸,無需等待計算或記憶體資源即可完成任務。正是得益於這些設計,Groq LPU能 提供卓越的速度、質量和經濟實惠的規模化解決方案。得益於其固有的設計原則,LPU 的性能優勢將持久有效。GPU 的速度和成本將繼續降低,Groq 亦是如此,而且速度會更快。我們目前的晶片組採用 14 奈米工藝製造。隨著我們逐步邁向 4 奈米工藝,LPU 架構的性能優勢將更加顯著。Groq強調,上述是 Groq 指導 LPU 產品開發的“首要原則”。即使 GPU 製造商試圖縮小差距,公司也能確保保持顯著的性能優勢。 (EDA365電子論壇)
速遞 | 輝達潛在對手Groq估值突破60億美元,開啟新一輪融資
人工智慧晶片領域的新銳力量Groq正加速追趕巨頭輝達。據知情人士透露,這家專注於為大型語言模型提供算力支援的晶片公司,正在與投資者洽談新一輪融資,目標籌資額在3億至5億美元之間。若交易達成,Groq的估值將躍升至60億美元,較其一年前完成股權融資時的28億美元估值翻了一番。01 沙烏地阿拉伯合作與業績飆升成關鍵驅動力Groq此時尋求融資,與其近期斬獲的重大合作密不可分。今年2月,Groq宣佈獲得來自沙烏地阿拉伯方面價值15億美元的“合作承諾”,旨在擴大其晶片產品在沙烏地阿拉伯的銷售版圖,儘管該承諾是否構成具有法律約束力的採購訂單尚不明確,但已然展示出Groq作為AI晶片新銳的市場吸引力。此外,Groq本周還宣佈將在芬蘭新建一座資料中心,專門用於部署其自研晶片。正是受益於與沙烏地阿拉伯等夥伴的深入合作,Groq向潛在投資者描繪了極其亮眼的增長前景:公司預計2024年營收將飆升至約5億美元,較去年9000萬美元的水平增長超過五倍。這一強勁預期無疑成為其融資談判的重要籌碼。02 獨特業務模式:雲服務與晶片銷售雙軌平行Groq的核心商業模式是為企業客戶提供基於其自研晶片的AI雲服務。企業使用者可以通過API介面便捷地呼叫Groq提供的AI算力,其使用體驗類似於呼叫OpenAI或亞馬遜AWS的AI模型服務。這是Groq主要的收入來源。同時,公司也直接向其他企業出售晶片系統及資料中心營運服務,加拿大電信巨頭Bell Canada便是其客戶之一。據Groq宣稱,其服務已吸引了近200萬開發者和團隊使用。03 挑戰巨頭的征程:機遇與挑戰並存總部位於加州聖何塞的Groq,是全球數十家立志從輝達手中分得AI晶片市場蛋糕的初創公司代表之一。本周三,輝達剛剛創下歷史,成為全球首家市值突破4兆美元的上市公司,彰顯了其在AI算力市場的絕對統治力,這也無疑給這些初創企業展示了輝達的霸主力量。Groq的創始人兼CEO Jonathan Ross擁有顯赫的技術背景,他是Google關鍵AI晶片TPU的發明者之一。帶著享譽業界的深厚技術積累和充滿野心的最終戰略目標,羅斯正帶領團隊致力於打造比輝達產品更經濟、速度更快且更節能的替代方案。04 技術聚焦推理,應用開源模型與輝達晶片廣泛應用於模型訓練不同,Groq的晶片主要發力於AI模型開發完成後的“推理”(inference)階段。模型訓練通常需要海量晶片集中部署並通過昂貴的網路裝置互聯。Groq強調,其晶片主要真度基於開源模型的AI應用,例如Meta的Llama 4、Mistral的Mixtral以及Google的Gemma。目前,Groq的晶片由知名晶圓代工廠GlobalFoundries負責生產。儘管擁有市場的關注和強勁的收入增長,但Groq的實際產能和部署量仍然為其未來發展增添了一絲疑雲。截至本月初,Groq實際部署上線的晶片數量約為7萬顆,這比其去年為今年第一季度設定的目標至少低了30%。在計算能力方面,Groq的晶片目前也還難以匹敵輝達的旗艦產品Hopper或Blackwell系列AI晶片。05 融資歷程與行業圖景迄今為止,Groq已通過股權融資籌集超過10億美元,其投資者陣容強大,包括資管巨頭BlackRock、科技巨頭思科和三星旗下的風險投資部門、D1 Capital、Lee Fixel創立的Addition以及Tiger Global Management等。然而,Groq及其同行們面臨著一個根本性挑戰:如何說服AI開發者放棄已成行業標準的輝達晶片生態?為尋求突破,許多初創公司正將目光投向輝達供應相對緊張的中東市場。例如,同樣位於矽谷的AI晶片初創公司SambaNova Systems正在向沙烏地阿拉伯石油巨頭沙烏地阿拉伯阿美供應晶片系統和軟體,後者正在開發名為Metabrain的大型語言模型項目。鑑於研發和生產AI晶片需要極其高昂的資本投入,這些挑戰者們正積極開拓包括債務融資在內的多元化融資管道。行業資料顯示,全球至少24家AI晶片初創公司的總融資額已超過70億美元。整個行業也處在動態變化中:專注於AI模型訓練晶片的Cerebras去年曾提交IPO申請,但因G42貢獻了其90%的營收,需審查其與阿聯科技集團 G42的緊密關係而暫時擱置。今年 5 月,Cerebras首席執行官表示仍希望年內完成上市。另一家初創公司D-Matrix則專注於開發大型語言模型推理晶片,該公司去年計畫融資2.5億美元,目前已籌集約1.2億美元。據消息人士稱,D-Matrix當前正努力再融資1.8億美元,以期達成總額3億美元的目標。Groq新一輪的融資動向,不僅是其自身發展的關鍵一步,也為觀察AI晶片市場格局演變提供了重要窗口。Groq此時加碼融資,既是借助市場熱度擴大業務,也是為接下來的技術和商業化進展積蓄彈藥。而面對仍然牢牢掌控市場主導地位的輝達,Groq和它的同行們要走的路還很長。附:AI晶片初創企業盤點1. Cerebras Systems▪成立背景:成立於2016年,由Andrew Feldman等人創立。Cerebras旨在解決AI模型訓練對計算資源日益增長的需求。▪核心產品:Wafer Scale Engine(WSE)晶片,最新版本WSE-3是目前全球最大的單晶片AI加速器,採用整個晶圓打造的超大晶片,擁有超過850,000個AI核心,20PB/s片內頻寬,系統功耗高達23kW。▪技術亮點:WSE繞開了多晶片通訊的頻寬瓶頸,提供高度平行和高頻寬的訓練環境,尤其適合訓練GPT類大模型和科學計算任務。還推出MemoryX、SwarmX等輔助系統,提升可擴展性。▪商業化路徑:推出Cerebras Cloud(託管訓練服務),並與G42合作在阿布扎比營運Condor Galaxy超級計算叢集,承接政府及科研訓練任務。▪融資與IPO計畫:累計融資超過7.2億美元,主要投資人包括Benchmark、Altimeter、JP Morgan、Samsung。2023年已向SEC遞交IPO申請,但由於G42關係(其佔營收90%)受到審查,IPO暫緩。2. SambaNova Systems▪成立時間與背景:創立於2017年,由史丹佛大學教授Kunle Olukotun領導,團隊包括來自Sun Microsystems、Oracle等企業的資深晶片和系統架構師。▪核心產品:DataScale 系列AI系統,基於自研Reconfigurable Dataflow Architecture(RDA)晶片架構,兼具硬體靈活性與性能效率。推出SambaNova Suite AI平台,支援定製化企業模型與推理服務。▪技術亮點:強調“系統+軟體+模型”的端到端解決方案,客戶無需理解硬體即可使用大模型;提供預訓練模型以及模型託管部署服務。▪商業化:客戶包括美國能源部、LLNL國家實驗室、沙烏地阿拉伯阿美等,在中東地區已有商用部署。▪融資情況:總融資金額超過10億美元,2021年D輪融資後估值達50億美元,投資者包括SoftBank Vision Fund、Google Ventures等。3. Tenstorrent▪成立時間與創始人:成立於2016年,由Jim Keller領導,他曾任AMD Zen、蘋果A系列晶片、特斯拉自動駕駛晶片等項目的首席架構師,技術背景深厚。▪產品與技術:Wormhole、Grendel等系列晶片,採用RISC-V架構與資料流平行處理方式,適用於訓練與推理雙場景。也推出可程式設計AI加速卡與軟體開發工具鏈。▪核心優勢:專注高性能通用計算晶片,強調開放架構、靈活性與IP授權能力,適合希望定製化AI硬體方案的客戶。▪商業化進展:產品主要用於AI推理,正在與汽車、工業、邊緣AI等場景整合,強調自研核心IP給合作夥伴。客戶覆蓋北美和亞洲多個市場。▪融資情況:累計融資超2.3億美元,2023年獲現代汽車、三星、Eclipse Ventures、Real Ventures等注資。戰略合作也在向韓國市場推進。4. D-Matrix▪成立時間與方向:成立於2019年,聚焦於為大語言模型提供高效推理晶片,專注“in-memory computing”架構,減少推理時的資料搬移開銷。▪核心產品:Corsair系列晶片,通過將計算單元與記憶體緊耦合,提升能效比,適合ChatGPT、Claude等Transformer模型的前端部署。▪技術亮點:能效比遠高於GPU,主打低功耗、高吞吐,適合邊緣資料中心或私有雲推理部署。支援精度範圍靈活配置(INT4~FP16)。▪商業化路徑:已進入樣品出貨階段,正與多個資料中心和LLM服務商測試整合。客戶未公開,重點佈局企業級模型呼叫服務。▪融資進度:已融資約1.2億美元,正尋求追加1.8億美元以完成總計3億美元的C輪,投資方包括 Playground Global、SK Hynix 等。5. Mythic AI▪成立時間與願景:成立於2012年,致力於邊緣AI晶片開發,聚焦模擬計算(Analog Compute)與數字架構結合的低功耗設計。▪主要產品:M1076 Analog Matrix Processor,可部署於安防攝影機、無人機、工業機器人等邊緣裝置。▪技術核心:基於Flash記憶體電路設計的模擬矩陣運算,極大降低AI晶片功耗與成本。相比數字AI晶片,功耗可降低10倍以上。▪商業化應用:已部署於一些軍事及工業場景,但規模仍小。客戶較為保密,開發周期長,受限於模擬計算精度和可重複性問題。▪融資情況:累計融資超過1.7億美元,投資者包括SoftBank Ventures、Lockheed Martin Ventures、HP Tech Ventures等。 (每日天使)
挑戰輝達,需要另闢蹊徑
Groq是近期AI晶片界的一個明星。原因是其號稱比輝達的GPU更快。3月2日,據報道,Groq收購了一家人工智慧解決方案公司Defi nitive Intelligence。這是 Groq 在2022 年收購高效能運算和人工智慧基礎設施解決方案公司Maxeler Technologies 後的第二次收購。Groq來勢很兇。 自從ChatGPT爆火以來,輝達憑藉GPU在市場上獨自求敗,雖然也出現了不少挑戰者,但都沒有像Groq這般引人注意。 成立於2016 年的Groq,其創始人是被稱為「TPU之父」的前谷歌員工喬納森·羅斯,團隊中成員不乏有谷歌、亞馬遜、蘋果的前員工。這群人透過簡單的設計開發了一款LPU(語言處理單元)推理引擎。就是這個LPU晶片讓Groq在AI市場上異軍突起,引得大家刷屏。據悉,LPU可在現今大火的LLM(大語言模型)中展現出非常快速的推理速度,比GPU有顯著提升。不要小看AI推理的市場,2023年第四季,輝達有4成收入來源於此。因此,眾多輝達的挑戰者是從推理切入的。 那麼,它是如何做到速度快的呢?為何能夠叫板輝達?在晶片架構和技術路徑上有哪些可圈可點之處?。。。。對於這款引發廣大關注的晶片,許多人也希望能夠了解背後究竟有哪些玄妙?近日,半導體產業觀察有幸採訪到了北京大學積體電路學院,長聘副教授孫廣宇,孫教授為我們提供了一些專業見解,至於網路上對Groq價格的各種推測,其比性能等估算更複雜,本文在此將不作過多探討,而是著重於技術層面的解析,以期為讀者帶來一些啟發。