#Groq
1400億,他帶走AI晶片獨角獸的核心班底
平安夜老黃沒有休息,一項200億美元創紀錄晶片收購消息,轟動矽谷。輝達官宣:以200億美元現金與AI晶片初創公司Groq達成交易。消息一出迅速引發市場轟動,因為這是輝達有史以來最大規模的一筆交易,遠超2019年收購Mellanox的70億美元。但僅僅幾小時後,畫風突變。輝達和Groq雙雙發表聲明,對交易性質進行了澄清,並非收購。Groq在官方部落格中寫道:我們與輝達簽訂了一份非排他性技術許可協議。輝達方面也明確表態:我們不是在收購Groq這家公司,我們只是獲得技術授權,並將Groq的產品整合到未來的產品中。看起來老黃也學會了“人才收購”這招:重金掏空一家公司的人才和核心資產,但又避免觸發反壟斷。所以這200億美元到底買了什麼?席捲矽谷的“人才收購”答案是:技術授權,加上一整支核心團隊。最先爆料的是Groq主要投資方Disruptive,其CEO透露輝達已同意以200億美元現金收購Groq的資產,交易進展非常迅速。自2016年Groq成立以來,Disruptive已經往這家公司砸了超過5億美元。根據交易協議,Groq創始人兼首席執行長Jonathan Ross、總裁Sunny Madra以及其他高管將加入輝達,“共同推進和擴大授權技術的應用”。而Groq本身則繼續作為獨立公司營運,由原首席財務官Simon Edwards接任CEO,雲服務平台GroqCloud也將照常提供服務。這種看起來複雜的操作,其實已經多次發生,已經有了固定的名字Acqui-hire(人才收購)。這樣做能快速獲取頂尖人才和技術,同時規避傳統併購可能面臨的監管,幾乎所有的科技巨頭都玩過一遍,Google玩了兩遍:24年3月,微軟6.5億美元挖走Inflection創始人Mustafa Suleyman和核心團隊。24年6月,亞馬遜月4億美元挖走Adept創始人David Luan和團隊大部分成員,同時獲得技術授權24年8月,Google約27億美元挖走Character.AI創始人Noam Shazeer以及30多人核心研究團隊。25年6月,Meta約150億美元挖走Scale AI創始人亞歷山大王和核心工程師團隊。交易後,Scale AI裁減了部分員工,並調整業務方向。25年7月,Google約24億美元挖走Windsurf創始人Varun Mohan和Douglas Chen及研發團隊。25年10月,蘋果吸收了Prompt AI核心團隊,還是截胡了馬斯克的收購搶來的,交易金額未披露。……這些交易中,有時核心只是一個關鍵人物,比如Google請回Transformer論文作者Shazeer,協議中授權Character.ai的模型Google也用不太上,更多是把團隊開發的訓練技巧用於強化Gemini。有時核心又是技術轉讓,還是Google挖走Windsurf團隊後,沒幾個月就推出了自己的AI程式設計工具Antigravity。那麼這一次,輝達是看上了什麼?黃仁勳內部郵件曝光:劍指AI推理市場Groq成立於2016年,由一群前Google工程師創辦,是TPU的核心班底,專注於高性能AI加速器晶片的設計。就在9月,Groq剛剛完成了一輪7.5億美元的融資,估值達到約69億美元。投資方Disruptive的CEO透露,在被輝達接洽時,Groq其實並沒有出售的打算。公司今年的營收目標是5億美元,正處於高速增長期。輝達CEO黃仁勳隨後向員工傳送了一封內部郵件,被CNBC獲取並曝光。郵件中,黃仁勳直接點明了這筆交易的戰略意圖:我們計畫將Groq的低延遲處理器整合到輝達的AI工廠架構中,以服務更廣泛的AI推理和即時工作負載。這裡有個關鍵背景:隨著大模型LLM的普及,AI工作負載正在從模型訓練向推理大規模遷移。而Groq的技術專長恰恰在推理領域,其自研的語言處理單元(LPU)以超低延遲和高能效著稱,官方聲稱運行大模型的速度比傳統方案快10倍,能耗卻只有十分之一。更耐人尋味的是創始人Jonathan Ross的背景。他曾是Google張量處理單元(TPU)的核心研發者之一,而TPU正是輝達GPU在AI領域的主要競爭對手。輝達這次不僅拿下了一項關鍵技術,還把潛在對手陣營裡最懂晶片的人直接挖了過來。截至2025年10月底,輝達帳上躺著606億美元的現金和短期投資,相比2023年初的133億美元翻了近5倍。這為其接連大手筆收購提供了充足的彈藥。除了Groq,輝達近期還投資了AI與能源基礎設施公司Crusoe、AI模型開發商Cohere,並追加了對雲服務商CoreWeave的投資。今年9月,輝達還宣佈計畫向OpenAI投資最高1000億美元,同時向英特爾投資50億美元。One More ThingGroq並不是唯一一家在AI浪潮中崛起的晶片初創公司。英特爾已明確表示有意向收購AI晶片初創公司SambaNova,目前處於深入談判階段,甚至已簽署了不具約束力的意向書。英特爾現任CEO陳立武曾擔任SambaNova的執行董事長,其創投公司華登國際也是SambaNova的早期投資者之一。另一家明星企業Cerebras原本計畫今年上市,卻在10月撤回了IPO申請,轉而完成了一輪超過10億美元的融資。Cerebras的發言人表示,公司仍希望盡快上市,但並未透露撤回IPO的具體原因。又或者Cerebras的結局也是被一家巨頭收購也說不定。Groq、SambaNova和Cerebras最初都是以GPU顛覆者的形態登場。當巨頭開始用資本手段吸收潛在的顛覆者,留給其他玩家的窗口期或許正在縮小。 (芯師爺)
溢價三倍都要緊急收購Groq,輝達為何匆匆忙忙?
12月24日,平安夜裡,網上都在說輝達要以200億美元收購AI晶片公司Groq,200億美元的現金可不是小數目,要知道,2019年輝達收購Mellanox才花了69億美元。巧合的是,Groq三個月前的估值也有69億美元,現在,輝達花大約三倍的價格收購Groq,看得出很著急。為什麼這麼著急收購呢?在介紹這個之前,要說清楚的是,這次輝達不是收購Groq這家公司,而是用200億美元獲得Groq的非排他性技術授權,還有核心人才引進的協議。這不是普通的收購,況且,以輝達現在的規模,這次收購很容易受到監管機構的反對,此前400億美元收購ARM就是前車之鑑。為了避免重蹈覆轍,這次輝達拿到了非排他性技術授權,意味著別人也可以拿到這樣的技術授權,包括英特爾、AMD或者AWS或者Azure都可以。但是,由於Groq公司的多數核心人才都加入了輝達,即使拿到這些技術授權,熟悉這些的工程師都不在了,後續迭代和維護誰來做呢?儘管原來的公司還會繼續營運,看似對市場沒什麼不利影響,但其實,Groq公司顯然已經空心化了,未來還能走多遠都會是一個問題。這項交易能否順利進行?會不會遭到反對?會不會有別的公司,比如英特爾和AMD,以及AWS和Azure、或者Meta跳出來也要拿到這種授權呢?畢竟這是連AI晶片霸主都覬覦的技術呢?這裡分析一下為什麼老黃要急著收購Groq?Groq的晶片產品叫LPU(Language Processing Unit),是市場上少數能在推理速度和延遲表現上對輝達有挑戰的公司之一,如果這家公司被Google、亞馬遜或者Meta收購,輝達會很難受。Groq的優勢不是算得比GPU更猛,而是算得有更多的確定性。怎麼說呢?它把所有調度複雜度前移到編譯期,讓晶片執行階段像流水線一樣持續滿速跑,這在大模型推理場景下能顯著降低延遲、提高實際吞吐。而GPU恰恰相反,GPU追求的是高度通用與靈活性,需要處理複雜的調度器、同步機制和分支預測邏輯,在面對不規則、變化多端的工作負載時表現會很出色。但是,大模型推理這類場景的變化不多,GPU的通用性和靈活性就成了劣勢。而且,輝達的B200 GPU非常依賴片外HBM來儲存模型權重,在即時、小Batch推理中,計算單元需要頻繁跨晶片訪問HBM,訪存延遲沒法降低,計算效率會更低。相比之下,Groq的LPU 將關鍵權重等資料放置在230MB的片上SRAM中,顯著減少了片外訪存與等待狀態,這樣計算效率就高了,資料處理跟流水線一樣。這麼一番對比,LPU比GPU推理性能更好,推理效率更高,成本也更低,這顯然會讓GPU面臨壓力。這種模式的成功已經不是第一次了,Google的TPU也有類似的效果。他們都證明了一件事,就是GPU並不是最適合做推理的,這次收購意味著輝達也承認了這一點。這意味著越流越多的企業用自研ai推理處理器的做法是對的,比如AWS的Trainium晶片,當業內形成這種共識,也意味著會有更多雲廠商會走上這條路。這顯然會對輝達不利。摩根士丹利預測,到 2026 年底,推理市場將佔AI計算總需求的50%以上,超越了訓練場景。未來增長看推理,輝達牢牢掌控了訓練市場,推理市場如果還固守GPU,顯然是不行的。你要是老黃,你會咋辦?自研一個來對抗?研發出來黃花菜都涼了,最好還是趕緊收購吧,於是就有了現在的故事。有趣的是,這次200億美元,Groq的創始人Jonathan Ross就是Google初代TPU的主要架構師之一,也會加入輝達,把這項經過驗證的技術交給輝達。這是目前成功率最高的方式。 (科技巴圖魯)
系統級摩爾定律:推理時代 NVIDIA×Groq 的真實含義,光進銅退的再加速
過去半個世紀,“摩爾定律”幾乎是科技行業最強的敘事武器:把更多電晶體塞進一顆晶片,性能更強、成本更低,世界自動向前滾動。但到了 AI 時代,尤其進入大模型推理成為主戰場之後,這套敘事正在發生一次深刻升級——摩爾定律從“晶片內部”擴展為“系統工程”。如果說過去的摩爾定律在追求“每平方毫米更多電晶體”,那麼 AI 時代的摩爾定律更像是在追求:單位時間產出更多 token(token throughput),並且這條曲線要能持續向上。而 token throughput 的提升,早就不再是單顆 GPU 的問題,它是一整座“AI 工廠”的問題:晶片、HBM、封裝、PCB、供電散熱、機櫃內互聯、機櫃外網路,以及軟體如何把這些組織起來、調度起來,讓系統始終跑在“最短板”之上。在這個框架下,NVIDIA×Groq 的合作/交易(無論最終形態是什麼)更值得被理解為:推理時代的一次“系統級加碼”,而不是“解決某個供應鏈瓶頸”的神蹟。一、先把交易定性:不是“買產能”,更像“推理能力授權 + 關鍵人才併入 + 生態介面補強”市場上最常見的誤讀,是把這類交易想像成“為了補齊 CoWoS、HBM、電力”等供給瓶頸而做的資本動作。現實更複雜。公開披露資訊顯示,這一合作/交易的核心是推理技術的非獨家授權,並伴隨 Groq 核心人員加入 NVIDIA 推進相關技術的規模化落地,Groq 公司仍獨立營運。換句話說,它更像是在為 NVIDIA 增加一條推理時代的“技術路線選項”,並把關鍵經驗與人才納入自己的產品化體系,而不是直接改變封裝產能、HBM 供給這類供應鏈事實。這一定性非常關鍵:因為它將討論重心從“供給約束”拉回到“推理範式”。二、AI 時代的“系統級摩爾定律”:為什麼摩爾定律必然外溢到 PCB、機櫃和互聯?推理系統的吞吐,本質上受制於一個非常樸素的三角形:算、存、傳。算(Compute):算力夠不夠、計算單元是否被喂飽存(Memory):權重/啟動/KV 的訪問是否形成記憶體牆傳(Communication):跨卡、跨 tray、跨機櫃的資料交換是否堵塞這個三角形的殘酷之處在於:只要把其中一條邊推上去,瓶頸就會遷移到另一條邊。因此推理時代的競爭,必然從 GPU 單點性能擴展到系統工程能力:互聯拓撲、網路頻寬密度、功耗與可靠性、軟體抽象與調度策略,都會變成吞吐曲線的一部分。這也解釋了為什麼 NVIDIA 的“摩爾定律”會被改寫成系統級版本:它追求的不是單晶片 transistor scaling,而是整座 AI 工廠的 token scaling。三、MoE 推理的結構性事實:天然需要“權重分層”(Weight Hierarchy)如果要理解“Groq 的 SRAM 路線”為什麼會在推理時代顯得格外有價值,必須先抓住當下主流模型架構之一:MoE(Mixture of Experts)。MoE 在推理側的關鍵特徵是:權重訪問天然分成兩類。1)always-on 的熱權重:每個 token 都必須執行的部分dense 層shared experts(共享專家,層層必跑)2)sparse-on 的冷權重:按路由稀疏啟動的部分routed experts(例如從 256 個裡選 top-8)啟動更隨機、訪問更像“按需取用”於是,一個極其工程化、極其自然的推理加速方向出現了:把 always-on 的熱權重常駐在更近、更低延遲、更高頻寬的儲存層(比如 SRAM/近儲存),把 routed experts 留在 HBM 或更遠端,並用熱度快取/複製策略最佳化。這件事的目標不是“省 HBM”,而是更直接的兩件事:降低 latency(減少權重搬運等待)提高穩定吞吐(HBM 頻寬從“啥都搬”變成“只搬稀疏部分”)可以把它理解為:CPU 時代的 cache hierarchy,在 MoE 時代升級為 weight hierarchy。四、用 DeepSeek V3 做一次“量級校驗”:為什麼“3–4GB FP8 熱權重集合”是硬體形態演化的抓手?推理討論最怕缺乏量級感。這裡用 DeepSeek-V3(總參 671B、每 token 啟動 37B,MoE 架構)做一次可復算的量級校驗。結合典型實現參數(hidden=7168,MoE FFN 的 intermediate=2048,約 58 個 MoE 層 + 3 個 dense 層;每 MoE 層 1 shared + 256 routed;每 token top-8 路由),可以得到一個關鍵結論:always-on 的熱權重集合本身就是 GB 級。1)shared experts(跨 58 層)的 FFN 主權重規模門控 FFN(如 SwiGLU)的一個 expert,近似包含三塊矩陣:up、gate、down。每層 shared expert 參數量約為:Params ≈ 3 × hidden × moe_intermediate= 3 × 7168 × 2048≈ 44M / 層58 層合計:44M × 58 ≈ 2.55B 參數2)3 個 dense 層的 FFN 主權重規模dense 的 intermediate 更大(約 18432):Params ≈ 3 × 7168 × 18432≈ 396M / 層3 層合計 ≈ 1.19B 參數3)合計熱權重集合(FFN 主體)≈ 3.74B 參數2.55B + 1.19B ≈ 3.74B 參數按 FP8 粗算 1 byte/參數:≈ 3–4GB 量級(不同實現是否包含量化中繼資料會有小幅偏差)這個量級的意義非常關鍵:大到:普通意義上的 L2/L3 cache 解決不了問題小到:如果系統存在某種近儲存層/推理專用駐留層,讓這 3–4GB 常駐,就非常有吸引力換句話說,MoE 推理天然提供了一個“熱權重集合”的明確對象——這就是推理硬體形態演化最容易抓住的把手。註:估算聚焦 FFN/expert 權重,是因為 MoE 推理權重搬運的大頭集中在專家 FFN;注意力部分在不同架構(如低秩投影/MLA 等)下可顯著壓縮,不改變熱權重集合為 GB 級這一判斷。五、“Groq 式 SRAM/近儲存能力”的合理落點:推理專用“熱權重層”,不是取代 GPUGroq 長期強調片上 SRAM 帶來的高頻寬與流水線式推理執行。把這一點放到 NVIDIA 的系統工程語境裡,最符合邏輯的推斷並不是“把 NVIDIA 變成 Groq”,而是:為推理系統增加一層 熱權重近儲存/專用駐留層讓 GPU 更容易被喂飽,提高有效 token/s通過軟體抽象層把這種形態納入 NVIDIA 生態,降低開發與遷移成本這裡關鍵不是“SRAM 這個名詞”,而是:更近、更低延遲、更高頻寬的權重層。至於它長在 GPU 封裝裡、長在板上、長在 tray 上,或者以某種異構加速單元形態出現,都屬於工程實現的分叉路線;但動機與收益目標是清晰的:推理提速。六、最重要的鏈式反應:計算效率上升 → 互聯壓力上移 → 光進銅退可能再加速一旦熱權重常駐近儲存,使推理端的“記憶體牆”變薄,系統會進入典型的再平衡過程:單節點有效 token/s 上升(等待變少、計算更“吃飽”)同時間裡生成更多 token,平行請求更大MoE 路由與跨卡/跨節點組織開銷佔比上升為繼續擴吞吐,系統平行度向外擴:卡內 → tray 內 → 機櫃內 → 機櫃間互聯成為新短板:頻寬密度、距離、功耗與可管理性壓力增大銅在更高頻寬與更長距離下更快觸頂,光的滲透被動加速因此,“推理提速→互聯升級→光進銅退”的邏輯並不是口號,而是一條相對自洽的系統工程鏈條:推理加速的盡頭往往不是算力,而是互聯;當計算更快,互聯必須更快。這也解釋了為什麼很多人只盯著 GPU 出貨,會低估光通訊的“二階彈性”:計算端效率提升,會讓通訊需求斜率變陡,從而推高機櫃內/機櫃間頻寬升級的緊迫性。七、投資對應:系統級摩爾定律下,那些環節更容易成為“增量受益”?如果把“推理吞吐持續提升”作為主線,那麼產業鏈受益往往不是單點,而是鏈式擴散。1)機櫃內互聯:從“銅還能撐一撐”走向“更早換光”頻寬密度更快觸頂距離、損耗、功耗與可維護性讓銅在高階速率下更尷尬光在機櫃內滲透有可能被動加速2)機櫃間網路:更高階速率光模組與交換體系token/s 上升帶動跨節點平行更深scale-out 網路更容易成為系統短板交換晶片、光模組速率升級與拓撲最佳化的需求更強3)PCB/連接器/電源散熱:系統密度提升的“基礎設施”計算更密,供電散熱與板級設計更關鍵可靠性與可維運性成為規模化推理的隱性門檻4)軟體與調度:最終決定“硬體是否兌現吞吐”MoE 路由、批處理、快取/複製策略跨卡/跨節點通訊編排統一抽象層(生態介面)帶來的鎖定效應如果說訓練時代的核心是“買更多 GPU”,那麼推理時代的核心越來越像“買系統、買網路、買軟體”。八、風險提示與可證偽點:那些前提不成立,推演就要改寫?為了避免過度演繹,有必要把邊界條件講清楚:MoE 未必長期絕對主導:結構變化會改變“熱權重集合”的形態近儲存不必然是 SRAM:實現路徑可能多樣,關鍵是“更近的權重層”專家不必然跨機櫃:現實系統會優先局部化、熱專家複製,跨櫃更多是邊界情況收益受制於軟體調度:硬體再優,調度若跟不上,吞吐不會線性提升TCO 約束:電力、散熱、網路、維運、良率與供給鏈會共同決定最優點這些因素決定了:相關判斷應被視作“方向與機制”,而不是確定性預告。結語:NVIDIA×Groq 更像推理時代的“系統級選項”,而不是供應鏈神話當摩爾定律升級為系統級摩爾定律,推理競爭的核心就從“單點性能”轉向“系統吞吐曲線”。MoE 推理所暴露出的“熱權重集合”與“權重分層”需求,為近儲存/推理專用駐留層提供了清晰抓手;一旦推理效率上升,互聯壓力上移,機櫃內與機櫃間的頻寬升級與光滲透加速也更可能成為連鎖反應。因此,NVIDIA×Groq 的意義更接近:推理時代的一次系統級加碼——未必立刻改變供給,卻可能在下一代推理範式與異構硬體生態的介面層與方法論層面,提前佔住高地。(彼得全球科技觀察)
市佔率不足1%,卻溢價3倍!輝達究竟在怕什麼?
聖誕前夕,黃仁勳做出了一個“大膽”的決定:輝達計畫花200億美元收購AI晶片公司Groq。作為輝達歷史上最大的收購,更讓人驚訝的是,這筆收購超高的溢價率。今年9月,Groq剛剛以69億美元估值完成7.5億美元融資。僅僅三個月後,輝達給出的價碼卻是200 億美元。也就是說,黃仁勳為了拿下這家公司,願意在短短一個季度內支付近3倍的溢價。從時間和價格看,這更像一次帶著明確緊迫性的出手。但如果只看基本面,這筆交易並不“合理”。要知道,Groq今年的收入也只有1.725億美元,市佔率甚至還遠遠不到1%。在過去幾年裡,試圖挑戰輝達的 AI 晶片公司並不少見。無論是 Graphcore 還是其他AI晶片玩家,最終都沒能對輝達構成實質性威脅。從這個角度看,Groq 並不像一個必須被“消滅”的對手。問題恰恰在這裡。為什麼一個市佔率不足1%的AI晶片公司,仍然值得輝達付出200億美元?在幾乎已經確立絕對統治力的前提下,輝達究竟在防禦什麼?/ 01 /一筆激進的交易:市佔率不足1%,卻溢價3倍輝達這次,幾乎完整復刻了Meta買Scale AI、Amazon 買 Adept AI 時採用的套路,花了200億美元拿走了 Groq的核心高管、關鍵工程團隊,以及可直接使用的智慧財產權授權。在這筆收購裡,輝達拿到了 Groq 智慧財產權的非獨家授權。未來,他們計畫將其低延遲晶片整合進產品體系中。照輝達內部的說法,Groq會“補齊”整個AI工廠架構的一部分。同時,公司CEO Jonathan Ross和總裁Sunny Madra以及其他工程團隊成員將加入輝達,幫助推進和擴展這項技術。Groq繼續作為獨立公司營運,由CFO Simon Edwards擔任CEO,GroqCloud業務也繼續運行。這種交易結構,核心考量只有兩個:第一,足夠高效,不用等完整收購的交易流程與整合周期。第二,也是更關鍵的,合規。在監管日益嚴苛的當下,這是規避或者減輕反壟斷審查最有效的方式。當然,比起交易結構,最值得一說的還是交易價格。200億美元,是輝達歷史上最大的收購。上一個紀錄,是2019年輝達以69億美元收購Mellanox。不僅金額大,而且溢價極高。今年9月,Groq剛剛以69億美元估值完成7.5億美元融資,投資方包括BlackRock、三星、思科等。多家媒體當時都提到,Groq 並沒有主動尋求出售。僅僅三個月後,輝達給出的價碼卻是200 億美元。這意味著,黃仁勳為了拿下這家公司,願意在短短一個季度內支付近 3 倍的溢價。這就引出了一個看似矛盾的問題:Groq 真的已經強到,值得輝達如此“迫切”地出手嗎?從現實情況看,事實也並非如此。公開資料顯示,2025 年 Groq 收入約 1.725 億美元;而 Gartner 給出的 2024 年全球 AI 晶片市場規模約為 710 億美元。換句話說,Groq 的市佔率還不到1%,距離對輝達構成現實威脅,仍然很遠。從過去看,Groq也不是第一個試圖撼動輝達王座的挑戰者。在Groq 之前,Graphcore、Mythic、Blaize、Habana……都試圖挑戰輝達。其中,Graphcore 曾融資 7.1 億美元,估值 27.7 億美元,背後站著微軟、三星、戴爾、紅杉、柏基投資,一度被視為“歐洲 AI 晶片的希望”。但結果是,這些公司無一例外,都沒能真正撼動輝達。所以問題來了,一個市佔率不足1%的對手,為何值得輝達付出 200 億美元?/ 02 /供應鏈是壁壘,也是“軟肋”今年下半年,輝達市值一度突破5 兆美元後,股價出現了一輪明顯回呼。截至目前,NVIDIA 市值回落至約 4.58 兆美元,基本回到今年 8 月的水平。這並不意味著市場突然看空輝達,而是一個更微妙的變化正在發生:越來越多投資者開始問一個問題——輝達還能否在所有 AI 階段,都像過去那樣,維持壓倒性的領先?尤其是在推理晶片上。和訓練晶片不同,推理晶片並不是“越強越好”,它更注重延遲、吞吐、成本之間的平衡。在大量即時場景中,用一顆昂貴、通用但功耗巨大的GPU,未必是最經濟的選擇。加上技術路線多樣性,AI推理晶片競爭開始出現了更多變數。而Groq,恰恰是這一波推理晶片浪潮裡,最激進的玩家之一,其核心產品是自研的AI 推理晶片LPU。Groq最與眾不同的地方,在於對記憶體結構的選擇:繞開HBM(高頻寬記憶體),全面擁抱SRAM。這一選擇,還是要從當下限制AI晶片發展的主要困境“記憶體牆”說起。如果把晶片想像成一個餐廳,那麼記憶體就是倉庫,處理器就相當於後廚。現在的困境是,廚師雖然炒菜很快,但去倉庫取菜花的時間太久了。也就是說,記憶體的傳輸速度遠遠慢於處理器算力,導致晶片性能遲遲上不去。為瞭解決這個問題,包括輝達在內的廠商,都在圍繞“倉庫(記憶體)”做文章。傳統電腦所使用的記憶體,通常有兩種:DRAM容量較大,但傳輸速度較慢,起主存作用;而SRAM容量較小,但傳輸速度極快,作為快取發揮輔助作用。輝達的解決思路是“修路”,引入了HBM。這就好比,在後廚旁邊建一個傳輸帶極快的小型中轉倉,讓外部記憶體儘量貼近晶片,讓搬運這件事別那麼慢。但代價也隨之而來——HBM 本身昂貴,還必須配套矽中介層、CoWoS 等先進封裝,整個系統複雜度和成本一起抬升。Groq則選擇了另一條更激進的路。既然算力一直在等外部記憶體,那不如乾脆不要外部記憶體。它徹底拋棄了外部記憶體,直接把所有資料都塞進晶片內部的SRAM 裡。這就好比直接把食材堆在了灶台上。廚師伸手就能拿到菜,完全省去了去倉庫搬運的時間。這種架構下,資料無需在晶片內外來回奔波,徹底消滅了“記憶體牆”。這樣做雖然省事,也會帶來新的問題。最直接的影響就是,成本太高。大模型對記憶體大小也有著很高的要求。參數量越大的模型,執行階段所需要儲存的資料也會更多。SRAM雖然快,但缺陷是容量小。Groq花了這麼多年,也只能將LPU的容量提升至230MB。而一塊H200的記憶體容量是141GB,兩者間差了約628倍。這意味著,要裝下更多的東西,就需要更多的空間。因此,在運行同樣參數的模型時,需要用到的LPU數量就遠遠高於GPU。早在去年,前阿里技術副總裁賈揚清就給Groq算了一筆帳:以運行LLaMA 70b模型為例,需要572張LPU,售價1144萬美元;但如果換成H100,其實只需要8張,總價格在30萬美元左右——所謂的“便宜”壓根不成立。但即使如此,也絲毫不影響投資人的信心,最終就連輝達也被迫“溢價”收購Groq。原因是,這玩意想像力太高了。這不僅是一種差異化的技術,更是一場供應鏈的突圍。簡單來說,這條路線還意外繞開了當下AI 晶片最難的兩道關卡:HBM和CoWoS。今年10月,Groq CEO Jonathan Ross 在一次分享裡提到一個觀點:外界普遍認為輝達的護城河是CUDA 軟體生態,但這主要在訓練端成立。在推理端,真正的護城河是“買方壟斷”(Monopsony)。所謂“買方壟斷”就是,當你作為唯一的大買家,反過來控制供給。而輝達控制了全球絕大部分的HBM 和 CoWoS 產能。理論上,輝達的GPU die(GPU 裸晶片),本身使用的工藝並不特殊,理論上一年可以製造數千萬顆。但現實中,真正限製出貨量的,不是晶圓,而是HBM和中介層的產能。這一點,在CoWoS 上體現得尤為明顯。根據台積電規劃,2025年CoWoS月產能大約在 6.5 萬到 8 萬片之間。而Morgan Stanley推算,其中60%以上被輝達佔用。CoWoS 的工作,是把算力晶片和多顆 HBM 堆疊在一塊矽中介層上。這一步對對位精度、良率和產線調度的要求極高,而產能擴張速度,明顯跟不上AI晶片需求的爆發。在“HBM + CoWoS” 路線下,一顆高端GPU的交付節奏,已經不完全由晶圓廠決定,而要同時等待記憶體廠、封裝廠和測試良率一起配合。這反而構成了輝達最容易被忽視的一道護城河。而Groq的路線一旦走通,意味著晶片生產的速度大大加快了。正如分析師Max Weinbach 在 X 上評價的那樣:“當你不再依賴美光、三星、SK 海力士的 HBM,也不再被 CoWoS 產能牽著走,製造節奏和選擇空間都會明顯放大。比如英特爾在 18A、18A-PT 工藝上,本身就具備不錯的 SRAM 單元優勢。”/ 03 /總結對輝達來說,收購Groq 的意義,並不在於“消滅一個推理晶片對手”。從現實層面看,Groq 今天的 LPU 並不具備直接競爭力。無論是成本還是規模,它都很難在替代 GPU。所以,輝達出手並不是因為Groq已經威脅到它的銷量。真正值得警惕的,是Groq代表的那條路線,可能動搖輝達更深層的壁壘。在當下的AI 硬體體系裡,HBM + CoWoS 等先進封裝不僅是行業瓶頸,更是輝達的優勢來源。輝達憑藉規模和訂單確定性,事實上佔據了全球最稀缺的 HBM 與先進封裝產能,形成一種“買方壟斷”:別人就算有晶片設計,也未必拿得到足夠的記憶體與封裝資源把產品做出來、交付出來。換句話說,輝達的領先不只來自CUDA 和架構,更來自它對供應鏈關鍵環節的優先佔用與調度能力。這是一道隱形但極硬的護城河。Groq 驗證了一條危險的路徑:AI晶片製造其實可以不需要 HBM,也不需要 CoWoS。一旦這條路線跑通,意味著晶片製造的門檻被大幅降低,任何一家設計公司,通過英特爾等代工廠,也有可能大規模生產推理晶片。這對輝達是致命的。如果算力變得像水電一樣容易製造和獲取,輝達基於“稀缺性”建立的帝國將面臨價值重估。從這個角度上說,這次200億美元的收購,倒像是一種預防性動作:即便未來有人找到繞開這套體系的辦法,那條新路也最好握在自己手裡。 (矽基觀察Pro)
只賣技術不賣身?美股輝達200億美元變相收購“AI推理速度之王”Groq!
美股周三,在平安夜的縮短交易日中,美股三大指數穩步上行,成功啟動了歷史上勝率極高的“聖誕行情”。截至收盤,標普500上漲0.32%,報6932.05點,創歷史新高;道指上漲0.60%,報48731.16點,突破12月11日創下的歷史最高位;納指上漲0.22%。這種在低流動性、低波動性背景下的“無量上漲”,本身就是一種極強的風險偏好訊號。當拋壓在假期前夕消失,多頭只需極小的動能便能將指數推向新高。歷史勝率與宏觀資料雙重背書自1950年以來的資料顯示,標普500在每年最後五個交易日及次年前兩個交易日的平均漲幅達1.1%,過去75年中有54年實現了上漲。與之相比,全年其他時段的平均漲幅僅為0.3%。本周發佈的宏觀經濟指標也為多頭提供了子彈。美國上周初請失業金人數意外下降至21.4萬人,低於市場預期的22.4萬人,顯示勞動力市場依然保持著極高的韌性。這種“不冷不熱”的就業資料,既緩解了衰退擔憂,又未激化通膨焦慮,為股.票資產提供了理想的溫床。與此同時,被稱為“恐慌指數”的VIX進一步下探至14.00下方,觸及2024年12月初以來的最低點。短期風險定價被極度壓縮,市場廣度也隨之改善——除能源類股外,周三幾乎所有行業均錄得上漲,其中防禦性的消費必需品類股表現亮眼,顯示出資金在進攻之餘也保留了一份對高位估值的審慎。高估值下的“流動性陷阱”在樂觀情緒主導的聖誕周期中,我們同時也要關注繁榮背後的結構性風險。當前的估值水平已處於歷史極端區間。根據最新資料,標普500的Shiller P/E(席勒市盈率)已突破40倍,這是歷史上僅次於2000年網際網路泡沫時期的第二高水平。這意味著後續行情對流動性的依賴度極高,屬於典型的“博弈市”。目前成交量的極度萎縮掩蓋了分歧。周三紐交所成交量僅約18億股,僅為正常水平的三分之一。這意味著,一旦假期結束、主流機構回歸,成交量恢復正常後的市場對基本面的敏感度將重新回升。如果明年1月的財報季或通膨資料出現任何超預期擾動,高企的估值可能會引發顯著的波動回吐。個股方面英特爾據知情人士透露,輝達近期已叫停一項採用英特爾18A製程工藝生產高端晶片的測試,並決定不再推進相關合作。儘管英特爾官方堅稱其18A技術“各項研發進展順利”,但輝達作為全球最具議價權的算力晶片霸主,其停止測試的行為在市場看來無異於對英特爾晶圓代工能力的“不信任票”。在製程工藝追趕台積電的關鍵期,這一利空消息無疑加劇了市場對英特爾未來轉型的擔憂。耐克今天收漲4.6%。根據SEC披露的檔案,蘋果CEO庫克本周二斥資約295萬美元,以均價58.97美元購入5萬股耐克股.票。值得注意的是,雖然庫克自2005年起便擔任耐克董事,但這卻是他20年來首次動用私人資金在公開市場買入公司股.票。此前一天,耐克董事、英特爾前CEO羅伯特·斯旺也完成了數千股的增持。兩名核心董事相繼“真金白銀”入場,向外界傳遞出極其強烈的底部訊號。這種打破常規的增持舉動,往往意味著內部人士認為公司價值被市場嚴重低估,成為支撐耐克股價短期反彈的核心邏輯。根據美股巨量資料StockWe.com的資料統計2025 年美股太空概念股漲幅前十:PL、SATS、VSAT2025 年美股核能電力股漲幅前十,包括 LEU、OKLO、UUUU輝達200億收購AI晶片初創Groq?據美股投資網瞭解到 ,輝達已同意斥資200億美元現金收購高性能AI加速器晶片設計商Groq。這筆交易若最終坐實,不僅將創下輝達史上最大收購紀錄,更標誌著AI算力競賽重心正從“算力霸權”向“推理效率”發生戰略轉移。然而,輝達與Groq隨後共同發聲,稱這筆交易並不是“買下整個公司”,而是輝達花錢買了Groq的技術授權。這種說法上的微妙處理,不僅是為了躲避Z府嚴厲的反壟斷檢查,也標誌著AI戰火正從“比誰算力大”全面轉向“比誰反應快”。Groq三個月身價翻三倍在AI晶片領域,輝達是毫無疑問的霸主,但它也有自己的軟肋。目前的AI競賽正進入第二階段:不僅要能“訓練”出大模型,更要讓模型在回答使用者問題時速度更快、成本更低,這在業內被稱為“推理”。Groq這家公司的創始人曾是GoogleAI晶片的核心大牛,他們研發的晶片(LPU)專為推理而生。簡單來說,跑同一個大模型,Groq的晶片可能比輝達現有的顯示卡反應更快、更省電。為了不讓對手有“彎道超車”的機會,輝達開出了極高的價碼。今年9月,Groq融資時的估值才69億美元,短短三個月,輝達就給出了200億美元的報價,身價整整漲了兩倍。輝達現在手裡握著超過600億美元的現金,比去年初翻了近五倍。對於不差錢的輝達來說,用現金買斷潛在的技術威脅,是鞏固地位最簡單的辦法。核心團隊“變相入編”這次交易最值得關注的細節是,雖然名義上不是收購,但Groq的創始人Jonathan Ross、總裁以及整個核心研發團隊,都將集體加入輝達。這就好比一家大公司沒有買下對面那家口碑極好的小餐館,但把廚師長和秘方全拿走了。輝達通過這種“技術授權+人才收編”的方式,實際上已經把Groq的核心資產收入囊中。之所以不叫“收購”,是因為現在Z府對大公司合併管得非常嚴。通過目前的合作模式,輝達既拿到了最領先的推理技術,又讓Groq在名義上保持獨立營運,從而避開了漫長的法律審查。賣給巨頭是最好的歸宿?Groq之所以願意把核心技術賣給輝達,也反映了當前美股AI初創公司的生存現狀。雖然AI概念很火,但在成功IPO其實困難重重。對於Groq來說,研發高性能晶片是個“燒錢”的無底洞,與其在股市前途未卜地硬闖,不如趁著現在估值處於高位,直接拿走輝達給的200億美金。這已經成為美股AI圈的新常態:要麼在競爭中被巨頭擠垮,要麼趁早賣個好價錢。美股投資網分析認為,從向OpenAI投資,到向英特爾注資50億美元,再到這次重金買下Groq的技術,輝達正利用這一波AI紅利帶來的巨額現金,瘋狂掃蕩市面上的優質資產。對於美股散戶投資者來說,這宗交易釋放了一個明確訊號:AI行業的資源正在迅速向頭部的巨頭集中。標普500和納指裡的科技權重股正通過不斷的買斷和合作,築起一道令競爭對手絕望的護城河。輝達的這筆巨額開支,本質上是在為未來的統治地位買保險。 (美股投資網)
黃仁勳200億美元帶走「TPU核心班底」
平安夜老黃沒有休息,一項200億美元創紀錄晶片收購消息,轟動矽谷。輝達官宣:以200億美元現金與AI晶片初創公司Groq達成交易。消息一出迅速引發市場轟動,因為這是輝達有史以來最大規模的一筆交易,遠超2019年收購Mellanox的70億美元。但僅僅幾小時後,畫風突變。輝達和Groq雙雙發表聲明,對交易性質進行了澄清,並非收購。Groq在官方部落格中寫道:我們與輝達簽訂了一份非排他性技術許可協議。輝達方面也明確表態:我們不是在收購Groq這家公司,我們只是獲得技術授權,並將Groq的產品整合到未來的產品中。看起來老黃也學會了“人才收購”這招:重金掏空一家公司的人才和核心資產,但又避免觸發反壟斷。所以這200億美元到底買了什麼?席捲矽谷的“人才收購”答案是:技術授權,加上一整支核心團隊。最先爆料的是Groq主要投資方Disruptive,其CEO透露輝達已同意以200億美元現金收購Groq的資產,交易進展非常迅速。自2016年Groq成立以來,Disruptive已經往這家公司砸了超過5億美元。根據交易協議,Groq創始人兼首席執行長Jonathan Ross、總裁Sunny Madra以及其他高管將加入輝達,“共同推進和擴大授權技術的應用”。而Groq本身則繼續作為獨立公司營運,由原首席財務官Simon Edwards接任CEO,雲服務平台GroqCloud也將照常提供服務。這種看起來複雜的操作,其實已經多次發生,已經有了固定的名字Acqui-hire(人才收購)。這樣做能快速獲取頂尖人才和技術,同時規避傳統併購可能面臨的監管,幾乎所有的科技巨頭都玩過一遍,Google玩了兩遍:24年3月,微軟6.5億美元挖走Inflection創始人Mustafa Suleyman和核心團隊。24年6月,亞馬遜月4億美元挖走Adept創始人David Luan和團隊大部分成員,同時獲得技術授權24年8月,Google約27億美元挖走Character.AI創始人Noam Shazeer以及30多人核心研究團隊。25年6月,Meta約150億美元挖走Scale AI創始人亞歷山大王和核心工程師團隊。交易後,Scale AI裁減了部分員工,並調整業務方向。25年7月,Google約24億美元挖走Windsurf創始人Varun Mohan和Douglas Chen及研發團隊。25年10月,蘋果吸收了Prompt AI核心團隊,還是截胡了馬斯克的收購搶來的,交易金額未披露。……這些交易中,有時核心只是一個關鍵人物,比如Google請回Transformer論文作者Shazeer,協議中授權Character.ai的模型Google也用不太上,更多是把團隊開發的訓練技巧用於強化Gemini。有時核心又是技術轉讓,還是Google挖走Windsurf團隊後,沒幾個月就推出了自己的AI程式設計工具Antigravity。那麼這一次,輝達是看上了什麼?黃仁勳內部郵件曝光:劍指AI推理市場Groq成立於2016年,由一群前Google工程師創辦,是TPU的核心班底,專注於高性能AI加速器晶片的設計。就在9月,Groq剛剛完成了一輪7.5億美元的融資,估值達到約69億美元。投資方Disruptive的CEO透露,在被輝達接洽時,Groq其實並沒有出售的打算。公司今年的營收目標是5億美元,正處於高速增長期。輝達CEO黃仁勳隨後向員工傳送了一封內部郵件,被CNBC獲取並曝光。郵件中,黃仁勳直接點明了這筆交易的戰略意圖:我們計畫將Groq的低延遲處理器整合到輝達的AI工廠架構中,以服務更廣泛的AI推理和即時工作負載。這裡有個關鍵背景:隨著大模型LLM的普及,AI工作負載正在從模型訓練向推理大規模遷移。而Groq的技術專長恰恰在推理領域,其自研的語言處理單元(LPU)以超低延遲和高能效著稱,官方聲稱運行大模型的速度比傳統方案快10倍,能耗卻只有十分之一。更耐人尋味的是創始人Jonathan Ross的背景。他曾是Google張量處理單元(TPU)的核心研發者之一,而TPU正是輝達GPU在AI領域的主要競爭對手。輝達這次不僅拿下了一項關鍵技術,還把潛在對手陣營裡最懂晶片的人直接挖了過來。截至2025年10月底,輝達帳上躺著606億美元的現金和短期投資,相比2023年初的133億美元翻了近5倍。這為其接連大手筆收購提供了充足的彈藥。除了Groq,輝達近期還投資了AI與能源基礎設施公司Crusoe、AI模型開發商Cohere,並追加了對雲服務商CoreWeave的投資。今年9月,輝達還宣佈計畫向OpenAI投資最高1000億美元,同時向英特爾投資50億美元。One More ThingGroq並不是唯一一家在AI浪潮中崛起的晶片初創公司。英特爾已明確表示有意向收購AI晶片初創公司SambaNova,目前處於深入談判階段,甚至已簽署了不具約束力的意向書。英特爾現任CEO陳立武曾擔任SambaNova的執行董事長,其創投公司華登國際也是SambaNova的早期投資者之一。另一家明星企業Cerebras原本計畫今年上市,卻在10月撤回了IPO申請,轉而完成了一輪超過10億美元的融資。Cerebras的發言人表示,公司仍希望盡快上市,但並未透露撤回IPO的具體原因。又或者Cerebras的結局也是被一家巨頭收購也說不定。Groq、SambaNova和Cerebras最初都是以GPU顛覆者的形態登場。當巨頭開始用資本手段吸收潛在的顛覆者,留給其他玩家的窗口期或許正在縮小。 (量子位)
深度訪談 | 那個推理比輝達快10倍的Groq創始人發話了:“別傻了,CUDA根本不是護城河!”
一分鐘速覽輝達的命門不在CUDA,在供應鏈。 2年以上的交付周期是其“阿喀琉斯之踵”,能提供更快交付(如Groq的6個月)的公司擁有巨大優勢。算力需求永不滿足,別再問泡沫。 聰明錢(科技巨頭、國家)投入AI不是為了投機,而是為了生存。如果算力翻倍,OpenAI的收入也能翻倍。AI的終極瓶頸是能源。 “控制算力的國家控制AI,而沒有能源就沒有算力。” 歐洲因能源政策和官僚主義,正面臨淪為“旅遊經濟體”的風險。當所有人都在膜拜輝達的算力帝國時,一場顛覆性的變革正在悄然發生。Groq創始人Jonathan Ross的最新訪談,為我們揭示了AI浪潮下被嚴重忽視的真相。他認為,AI的終局不是模型,而是算力;算力的終局,是能源。在這場決定未來的競賽中,輝達的王座並非牢不可破,而真正的贏家,將是那些能突破物理極限的人。風暴之眼:那個叫板輝達的Groq究竟是什麼來頭?在深入探討Jonathan Ross的顛覆性觀點前,我們必須先瞭解他所創立的公司——Groq,這正是他所有判斷的底氣所在。簡單來說,Groq是一家把“速度”刻在DNA裡的AI晶片公司,被譽為AI推理領域最兇猛的“F1賽車”。核心產品 LPU:為速度而生Groq不製造像Nvidia那樣的通用GPU,而是創造了一種全新的晶片架構——LPU(語言處理單元)。它的唯一使命,就是在運行大語言模型(即“推理”)時,提供地球上最快的速度和最低的延遲。與GPU的根本不同:“流水線” vs “項目經理”GPU像一個強大的“項目經理”,手下有數萬名員工(計算核心),但每次任務都需要動態調度和協調,這個過程本身會產生延遲。LPU則像一條預先設定好的“精密流水線”,每個資料的處理路徑和時間都被精確規劃,消除了所有不確定性,從而實現了驚人的、可預測的速度。結果有多震撼?Groq的雲平台曾演示以每秒超過500個token的速度運行開源大模型,這個速度是當時行業頂尖水平的5到10倍,幾乎實現了AI對話的“零等待”,讓即時語音互動成為可能。創始人背景:Google TPU之父Groq的創始人Jonathan Ross,是親手主導設計了Google第一代TPU(張量處理單元)的核心人物。TPU是第一款在資料中心成功挑戰Nvidia霸權的專用AI晶片。因此,當Jonathan Ross評論Nvidia和AI晶片的未來時,他不是一個旁觀者,而是這個領域最頂尖的開創者之一。忘掉泡沫論吧,巨頭們賭的是“身家性命”訪談開場,直面“AI泡沫論”。Jonathan的觀點清晰而尖銳:與其糾結於泡沫,不如觀察“聰明錢”的實際行動。聰明錢的動向:瘋狂下註: Google、微軟、亞馬遜等巨頭正“像醉酒的水手一樣”花錢,而且一次比一次多。自用為王: 微軟寧願犧牲Azure的租賃收入,也要將寶貴的GPU留給自己內部使用,因為這樣賺得更多。這證明了AI應用的真實價值。巨頭們為何如此瘋狂?核心動機是生存,而非投機。Jonathan分享了一個發人深省的細節:“我曾問一群管理著百億資產的頂級投資人:‘有誰100%確定,10年後AI無法取代你的工作?’ 現場沒有一個人舉手。”對於科技巨頭來說,邏輯完全一樣。今天不惜一切代價投入,是為了確保10年後自己不會被徹底踢出牌桌。早期石油鑽探的比喻:目前的AI市場就像早期的石油開採,回報極度不均。少數公司(約36家)佔據了99%的收入,但這正是早期市場高風險、高回報的典型特徵。AI增長的唯一密碼:給我更多算力,我能讓收入翻倍Jonathan反覆強調一個核心觀點:市場對算力的需求是“永不滿足”的 (insatiable)。他給出了一個驚人的論斷來證明這一點:“我敢打賭,如果OpenAI或Anthropic今天能獲得雙倍的推理算力,一個月內,他們的收入幾乎會翻倍。”為什麼算力如此關鍵?算力 = 收入:Anthropic 因算力不足,不得不對使用者進行速率限制(rate limits)。OpenAI 為了控製成本,有時會故意降低響應速度,犧牲了使用者體驗。結論: 頂尖AI公司都被算力“卡著脖子”,無法滿足市場需求。速度決定一切(多巴胺循環理論):他以消費品為例,利潤最高的品類(如菸草、軟飲料)都具備“快速反饋”的特點。AI也是如此。速度是決定使用者粘性和轉化率的關鍵。Google每提速100毫秒就能帶來8%的轉化提升,這個定律在AI時代依然有效。算力是最好調的“旋鈕”:想提升AI產品的質量?有三個途徑:最佳化演算法、增加資料、提升算力。其中,演算法突破很難,高品質資料獲取不易,只有算力,是最直接、最可預測、最有效的提升手段。兆帝國的裂痕:卡住輝達脖子的“2年之約”談及輝達,Jonathan毫不吝嗇其價值的肯定。兆市值預測: “如果5年內輝達市值沒到10兆美元,我會感到驚訝。”但緊接著,他指出了這個帝國的致命弱點。真正的命門不是CUDA:他直言:“CUDA鎖定就是胡扯(bullshit),至少在推理市場是這樣。”供應鏈才是“阿喀琉斯之踵”:漫長等待: 從下訂單到拿到輝達的GPU,需要等待2年以上。物理瓶頸: 限制產量的不是GPU晶片本身,而是HBM(高頻寬記憶體)等關鍵元件的有限供應。這正是Groq等挑戰者的機會所在。6個月 vs. 2年——生與死的區別:“當我對一位資料中心負責人說,我們的供應鏈能把交付時間縮短到6個月時,他立刻暫停了會議,只關心這一點。”在模型迭代以月為單位的AI時代,2年的等待周期是不可接受的。交付速度,已經成為比晶片性能更重要的競爭力。未來的市場格局預測:5年後,輝達仍將憑藉其品牌和生態,佔據市場50%以上的收入,但其售出的晶片數量將只佔少數。AI的物理定律:沒有能源,就沒有王權“控制算力的國家將控制AI,而沒有能源就不可能有算力。” 這是Jonathan提出的最嚴峻的警告。歐洲的危機:“如果歐洲不迅速行動,它的經濟將變成一個旅遊經濟。人們來這裡只是為了看看古色古香的老建築,僅此而已。”問題與解決方案:病因: 歐洲的問題不在於缺技術或資源,而在於官僚主義和對風險的恐懼。建造一座核電站,花在許可證上的錢可能是建造成本的3倍。藥方:解放可再生能源: 比如挪威,其風力資源和水電潛力巨大,一個國家就能滿足驚人的能源需求。讓市場驅動: 政府應該做的不是投資,而是“鬆綁”,削減繁瑣的審批流程,讓有需求的科技巨頭自己去投資建設能源設施。未來反轉:AI帶來的不是失業潮,而是“沒人可用”關於AI與就業的未來,Jonathan的觀點再次顛覆傳統認知。AI帶來的三大社會變革:大規模通縮: AI將極大提升各行各業的效率,從農業到供應鏈,一切商品和服務的成本都會下降。人們主動“退出”工作: 由於生活成本降低,人們不再需要為了餬口而拚命工作,會選擇工作更少時間,更早退休。創造全新的產業與工作: 就像100年前沒人能想像“軟體工程師”一樣,未來會誕生我們今天無法想像的新職業。結論:我們面臨的不是失業潮,而是勞動力短缺。“Vibe Coding”——未來的新讀寫能力:他認為,未來的程式設計將不再是少數專家的技能。通過與AI對話(Vibe Coding),任何人都能創造工具、解決問題。程式設計將成為一項人人必備的基礎素養,就像今天的閱讀和寫作。Jonathan最後用一個美麗的比喻總結:“幾百年前,伽利略的望遠鏡讓我們意識到宇宙的浩瀚,也讓我們感到自身的渺小。但最終,我們學會了欣賞這種壯麗。LLM就是我們思想的望遠鏡。 它現在可能讓我們感到不安,但在未來,它會讓我們意識到,智能的世界遠比我們想像的更廣闊、更美麗。”面對這片由算力與能源構築的新大陸,恐懼與機遇並存,而看清底層邏輯的人,才能最終勝出。 (GD梯度下降)
AI晶片黑馬融資53億,估值490億
人工智慧推理晶片開發商 Groq Inc. 今天宣佈已籌集 7.5 億美元的新資金。Databricks Inc. 的支持者 Disruptive 領投了此輪融資。思科系統公司 (Cisco Systems Inc.)、三星電子公司 (Samsung Electronics Co.)、德國電信資本合夥公司 (Deutsche Telekom Capital Partners) 和多家投資公司也參與了此次融資。Groq 目前的估值為 690 萬美元,高於去年的 28 億美元。Groq 推出了一款名為語言處理單元 (LPU) 的處理器。該公司聲稱,該晶片能夠以比顯示卡高 10 倍的能效運行某些推理工作負載。Groq 表示,LPU 的高效運行得益於多項競爭對手晶片所不具備的最佳化。協調運行 AI 模型所涉及的不同處理器元件可能會消耗大量的計算能力。據 Groq 稱,其 LPU 降低了這種開銷,從而為推理留下了更多的處理能力。該公司表示,其晶片可以運行包含 1 兆個參數的模型。Groq 的 LPU 使用自訂編譯器減少了與電路協調任務相關的開銷。編譯器會在推理工作負載啟動之前計算出那個電路應該執行那個任務,從而無需在執行階段運行必要的計算。Groq 的編譯器還以其他方式最佳化 AI 模型。許多晶片使用一種稱為量化的技術來壓縮神經網路,這可以減少其記憶體佔用,但會犧牲一些輸出質量。Groq 表示,其編譯器使用了該技術的改進版本 RealScale。該技術僅壓縮神經網路中量化後輸出質量不會顯著下降的部分。LPU 的另一個賣點是它具有所謂的確定性架構。因此,可以以單個時鐘周期的粒度預測每個給定計算操作所需的時間。據 Groq 稱,LPU 的可預測性有助於實現原本難以實現的性能最佳化。該公司將其晶片作為名為 GroqRack 的裝置的一部分出售。該系統包含九台伺服器,每台伺服器都配備多個邏輯處理器 (LPU)。Grok 表示,GroqRack 所需的外部網路硬體比同類競爭產品更少,從而降低了成本,並且無需進行大規模裝置升級即可安裝在資料中心。該公司還通過雲平台提供晶片訪問。該平台名為 GroqCloud,託管由 LPU 驅動的 AI 模型,開發人員可以通過應用程式程式設計介面 (API) 將其整合到自己的軟體中。Groq 將利用新融資來擴展支援 GroqCloud 的資料中心網路。此次投資正值有報導稱,一家競爭對手的推理晶片供應商正在尋求新一輪融資之際。據報導,總部位於加州聖克拉拉的Rivos正在洽談以20億美元的估值籌集至多5億美元。該公司正在開發一款將顯示卡與中央處理器核心相結合的片上系統。Groq打造的LPU是什麼?Groq 建構快速的 AI 推理。Groq LPU AI 推理技術可提供卓越的 AI 計算速度、質量和規模經濟性。Groq AI 推理基礎架構,特別是GroqCloud,由語言處理單元 (LPU) 提供支援,這是一種新型處理器。Groq 完全從零開始建立和建構了 LPU,以滿足 AI 的獨特需求。LPU 能夠以更快的速度運行大型語言模型 (LLM) 和其他領先模型,並且在架構層面,與 GPU 相比,其能源效率最高可提高 10 倍。Groq LPU 通過四個核心設計原則以及其架構提供如此卓越的性能。具體而言,這些原則包括:軟體優先、可程式設計裝配線架構、確定性計算和網路和片上儲存器。■ LPU設計原則1:軟體優先Groq LPU 架構秉承軟體優先的原則,旨在簡化軟體開發人員最大化硬體利用率的工作,並將儘可能多的控制權交到開發人員手中。GPU 功能多樣、性能強大,能夠處理各種不同的計算任務。但它們也十分複雜,給軟體帶來了額外的負擔。它必須考慮工作負載在多個晶片內部和跨晶片執行方式的差異性,這使得調度執行階段執行和最大化硬體利用率變得更加困難。為了最大限度地提高 GPU 的硬體利用率,每個新的 AI 模型都需要編寫特定於模型的核心。這正是我們“軟體優先”原則如此重要的原因——對於 GPU 而言,軟體始終是硬體的次要因素。Groq LPU 從一開始就專為線性代數計算而設計——這是 AI 推理的主要需求。通過將重點限制線上性代數計算上並簡化多晶片計算範式,Groq 採用了一種獨特的 AI 推理和晶片設計方法。該 LPU 採用可程式設計流水線架構,使 AI 推理技術能夠使用通用的、獨立於模型的編譯器,並始終秉持其軟體優先的原則。軟體始終處於主導地位,完全控制推理的每個步驟。目標是使軟體開發人員能夠更輕鬆地最大化硬體利用率,並將儘可能多的控制權交到開發人員手中。軟體優先不僅僅是一種設計原則——它實際上是 Groq 建構其第一代 GroqChip™ 處理器的方式。在設計編譯器架構之前,我們從未接觸過晶片設計。編譯器接受來自多個不同框架的工作負載,並通過多個階段運行這些工作負載。當編譯器對應並調度程序在一個或多個邏輯處理器 (LPU) 上執行階段,它會最佳化性能和利用率。最終,程序將涵蓋整個執行過程中的所有資料移動資訊。■ LPU設計原則2:可程式設計裝配線架構Groq LPU 的主要定義特徵是其可程式設計流水線架構。LPU 具有資料“傳送帶”,用於在晶片的 SIMD(單指令/多資料)功能單元之間傳輸指令和資料。在組裝過程的每個步驟中,功能單元都會通過傳送帶接收指令。這些指令會告知功能單元應該從那裡獲取輸入資料(那條傳送帶)、應該使用這些資料執行那些功能以及應該將輸出資料放置在何處。此過程完全由軟體控制;無需硬體同步。LPU可程式設計流式架構支援晶片內和晶片間的流水線流程。晶片間頻寬充足,使資料傳送帶能夠像晶片內一樣輕鬆地在晶片間傳輸。即使在最大容量下,也無需路由器或控製器來實現晶片間連接。晶片內部和晶片間的裝配線流程消除了瓶頸。無需等待計算或記憶體資源即可完成任務。由於沒有瓶頸需要管理,晶片上無需額外控製器。裝配線運行順暢高效,完美同步。與 GPU 的工作方式相比,這是一個巨大的進步。GPU 採用多核“中心輻射”模型運行,這種模型中低效的資料分頁方法需要大量開銷,以便在晶片內部和跨晶片的計算單元和記憶體單元之間來回傳輸資料。GPU 還利用機架內部和跨機架的多層外部交換機和網路晶片進行相互通訊,這進一步加劇了軟體調度的複雜性。這導致多核方法難以程式設計。■ LPU設計原則3:確定性計算和網路為了使裝配線高效運行,必須高度確定每個步驟的確切耗時。如果某項任務的執行時間差異過大,這種差異就會影響整條裝配線。高效的裝配線需要高度精確的確定性。LPU 架構具有確定性,這意味著每個執行步驟都完全可預測,甚至可以精確到最小執行周期(也稱為時鐘周期)。軟體控制的硬體能夠高度精確地瞭解操作發生的時間和地點,以及執行所需的時間。Groq LPU 通過消除關鍵資源(即資料頻寬和計算)的爭用來實現高度確定性。晶片(傳送帶)擁有充足的資料路由容量,晶片的功能單元也擁有充足的計算能力。不同任務使用相同資源不會出現問題,因此不會因資源瓶頸而導致執行延遲。晶片之間的資料路由也是如此。LPU 資料傳送帶也在晶片之間運行,因此連接晶片會形成更大的可程式設計流水線。資料流在編譯期間由軟體靜態調度,並且每次程式執行時都以相同的方式執行。■ LPU設計原則4:片上儲存器LPU 包含片上記憶體和計算功能,可大幅提高資料儲存和檢索的速度,同時消除時序差異。確定性可確保裝配線高效運行並消除每個計算階段的差異性,而片上記憶體則可使其運行速度更快。GPU 使用獨立的高頻寬記憶體晶片,這帶來了複雜性——需要多層記憶體快取、交換機和路由器來來回回傳輸資料——同時也消耗了大量的能源。將記憶體整合在同一晶片上可以提高每次 I/O 操作的效率和速度,並消除複雜性和不確定性。Groq 片上 SRAM 的記憶體頻寬高達 80 TB/秒,而 GPU 片外 HBM 的記憶體頻寬約為 8 TB/秒。僅憑這一點差異,LPU 的速度就提升了 10 倍,而且 LPU 還無需往返於單獨的記憶體晶片來檢索資料,從而獲得了顯著的提升。晶片內部和晶片間的流水線流程消除了瓶頸,無需等待計算或記憶體資源即可完成任務。正是得益於這些設計,Groq LPU能 提供卓越的速度、質量和經濟實惠的規模化解決方案。得益於其固有的設計原則,LPU 的性能優勢將持久有效。GPU 的速度和成本將繼續降低,Groq 亦是如此,而且速度會更快。我們目前的晶片組採用 14 奈米工藝製造。隨著我們逐步邁向 4 奈米工藝,LPU 架構的性能優勢將更加顯著。Groq強調,上述是 Groq 指導 LPU 產品開發的“首要原則”。即使 GPU 製造商試圖縮小差距,公司也能確保保持顯著的性能優勢。 (EDA365電子論壇)