官方認證
RexAA
全球科技產業觀察者
AI創業版黃仁勳:37歲華人0融資5年幹到240億,GoogleOpenAI都是客戶
37歲華裔學霸AI創業,0融資,估值240億美元。是的,白手起家,沒拿投資人一分錢。更強悍的是,純靠一己之力,輕鬆斬獲Google、OpenAI等AI巨頭的大單,硬生生給公司幹成了估值240億美元的超級獨角獸。而這家公司的創始人——Edwin Chen,如今也憑藉180億的身價,躋身福布斯400的最年輕富豪,也是這波新晉富豪中最富有的一位。AI創業成最年輕新晉富豪福布斯400新晉最年輕富豪——Edwin Chen,美裔華人,年僅37歲。從大廠打工人,到矽谷估值240億的超級獨角獸,他僅僅花了5年。Edwin畢業於MIT,先後在推特、Google和臉書工作,擔任過各種推薦演算法相關的職位,是一名資深的機器學習工程師和資料科學家。但無論身處那家大廠,Edwin始終無法繞開一座大山:稀缺的高品質人工標註資料。在工作進展屢屢受挫中,他意識到,沒有足夠的高品質資料,我們可能永遠都抵達不了AGI。這時候,Edwin忽然從科幻電影《降臨》的原著中得到了靈感。《降臨》講的是一位人類語言學家,試圖通過破譯外星文明的文字與其建立溝通。但隨著理解不斷加深,她卻逐漸掌握了一種語言之外的能力——對時間的非線性認知,乃至「預見未來」。在Edwin看來,在我們的世界裡,人類,就是那批擁有超能力的外星人。而AI可以通過標註資料,學習我們的思維模式,最終獲得獨屬於人類的超能力——智能。2020年,Edwin Chen躬身入局AI創業賽道,成立了資料標註公司Surge AI。而讓這家初創公司顯得格外引人注目的,是其反常的入局姿態——拒絕所有風投,一份投資者的錢都不拿,創始人押上自己打工十年的全部積蓄,獨自踏上了AI創業之路。我一直很討厭矽谷的攀比之風。Edwin直言,絕大多數依賴VC生存的矽谷初創公司,本質上都是一場「騙局」,他們眼裡只有「快速致富」。在他看來,想要真正掌握戰略制定話語權,保證公司始終行駛在創始人最初的設想中,不能把希望寄託於任何投資者。而這家白手起家的資料標註公司,不止打一開始「離經叛道」。就連技術路線上,也選擇了一條與傳統資料標註公司截然不同,甚至在當時會被認為「吃力不討好」的路子。回到2020年,GPT尚未問世,Scaling Law的重要性也未得到重視,可用於訓練的高品質資料很少。彼時的資料標註,是一項附加值相當低的工作。一般而言,只需要大量僱傭低成本勞動力,不要求任何專業背景,工作內容往往只是坐在電腦前區分貓和狗。這些公司生產的資料,和垃圾沒什麼區別。在他看來,資料標註公司的任務不應該是做髒活,資料標註的本質,是編碼「人類的豐富性」。這意味著,要讓最聰明的人類——研究生、博士,甚至哈佛大學的教授——將他們大腦裡的專業知識,轉化為AI能讀懂的的二進制程式碼。因此,Edwin的第一步,就是大幅抬高資料標註員的准入門檻。相比傳統資料標註公司,Surge要求資料標註員具備高等教育背景,甚至得是博士與高校教授。而他們承擔的工作內容,也比以往的資料標註員更加複雜。有時,他們需要刻意引導聊天機器人給出錯誤或有害的回答,再親自寫出更合理、更安全的版本;有時,他們要在不同模型的回覆中選出最佳答案,並詳細解釋好在那裡。隨著AI的高速發展,這一路線已然成為絕大多數同行的共識,資料標註員的隊伍中,博士比例越來越高。但學歷也不能說明一切。一個文學博士,未必擅長寫詩;一個物理學教授,也未必擅長講課。具體到實際標註工作中,對技能的需求會更加垂直化。為此,Surge設計了一套與YouTube推薦機制高度相似的內部匹配系統:持續評估每一位標註員的能力邊界,收集其歷史表現資料,將其動態分配到最合適的項目中。除了聘請常春藤盟校的精英,Edwin還僱傭了來自全球50多個國家的一百多萬名自由職業者。他們負責提出可能難倒AI的問題,評估模型回答,並編寫標準幫助人工智慧生成完美的答案。不過,上述做法都不新鮮,這套方法論基本算是目前所有資料標註公司的常規操作。Surge的差異化競爭力,體現在更底層的基因上。據Surge員工表示,Edwin相當喜歡「站在科技和人文的十字路口」的人才。在他看來,只有這樣的人,才能幫助AI真正捕捉不同語言背後複雜而微妙的文化與社會語境。這與Edwin自己的履歷也高度相似——語言和數學雙修,在MIT主修的數學,還會說法語,西班牙語和普通話。因此,在面試環節,Edwin不僅會考察候選人的程式碼能力,還常常把話題引向文學作品。Surge成立早期,Edwin曾面試過一位在音樂行業工作了十多年的鼓手,這位沒有任何科技行業經驗的求職者,最終成了公司的五號員工。這並非個例。截至目前,Surge約20%的員工都擁有類似的非傳統背景具體機制上,Edwin沒有解釋這種「人才基因」究竟會如何影響資料標註的質量。但這種做法的有效性,,或許能從Surge的業績表現得到些許印證。事實上,Surge的收費標準往往比市場溢價50%,極端情況甚至能比競爭對手高出10倍。儘管如此,Surge最早的一批客戶名單中,仍赫然出現了Airbnb、Twitch、Twitter等網際網路巨頭的身影。當Gemini系列處於黑暗時期時,Google一位研究員同樣向Edwin尋求了支援,雙方通話了兩個多小時。不久後,Google就和Surge簽署了一份年價值超過1億美元的合作協議。到2024年,Surge營收正式超過Scale AI,攀升至驚人的12億美元,公司估值也隨之來到240億美元。即便如此,這家炙手可熱矽谷「香餑餑」,依然對資本市場保持著高冷的姿態:我們對被收購不感興趣,也沒有上市的打算。在Edwin看來,不止是VC,投資者的每一筆錢都是一根繩子,最終五花大綁住公司的手腳。因此,在談到那些典型的「矽谷同行」時,Edwin的用詞相當犀利。他們都是些外包公司。甚至直接點名道姓:我覺得Scale已經徹底完蛋了,對吧?不過,在市場競爭異常激烈的今天,Edwin的理念究竟是否真的有利於Surge的發展,或許得畫一個問號。Surge不拿融資,有的是同行搶著拿。洶湧而至的AI熱潮下,大量資金正迅速湧入其競爭對手的錢包。這批資金充裕的公司,正通過「價格戰」搶走本屬於Surge的肥肉。事實上, Surge曾經的重要客戶OpenAI,已轉身投入其競爭對手Mercor和Invisible的懷抱。另一方面,Surge 最早的客戶之一,AI實驗室Cohere,雖沒尋「新歡」,卻偷偷將資料標註工作都轉移到了內部。歸根結底,資料標註這行幾乎沒有什麼護城河,客戶隨時可以切換供應商,甚至選擇自研。就連收購了Scale的Meta,現在仍在繼續使用Surge的服務。從長期來看,有一個更值得關注的問題——如果AI繼續進步,最終不再需要人工標註資料了,怎麼辦?這是懸在所有資料標註公司頭頂的達摩克利斯之劍。或許正是意識到了這些風險,Surge對資本市場的態度,近期也開始出現微妙變化。據悉,公司正在洽談一筆約10億美元的融資。如果交易完成,其估值有望進一步抬升至300億美元。與此同時,公司創始人Edwin,也開始逐漸從幕後走向台前,頻繁出現在大眾視野中。資料標註版黃仁勳Edwin Chen在佛羅里達長大,今年37歲。他的父母來自台灣,後來移民美國,在當地開了一家名為「北京花園」的中泰美式餐廳。Edwin十幾歲時就在那裡打工。從小,Edwin便展現出了跨學科「雙修」的能力——「語言+數學」。語言方面,小學的Edwin非常喜歡參加拼寫比賽,並給自己設下一個頗為宏大的目標:解鎖「20」門語言。雖然這個夢想最終沒能實現,但直到今天,他仍能使用法語、西班牙語和普通話。年輕的時候,他還會說印地語和德語。數學方面,他同樣進展迅速。八年級便開始學習微積分,很早就完成了中學階段的數學課程。高三時,他的大部分時間,已經是在耶魯大學教授的指導下參與研究學術課題。高中畢業後,Edwin進入麻省理工學院,主修數學、電腦科學和語言學。而語言和數學這兩條線,也終於在這段時期開始交叉。在校期間,他聯合創辦了一個語言學社團,還曾在CSAIL從事自然語言處理相關研究,涉及代數拓撲、複雜性理論以及機器翻譯等方向。而Edwin在Microsoft Research的第一份實習,也是研究語音識別和文字轉語音。Edwin的生活習慣同樣特別——上大學時,他推崇多相睡眠法,將睡眠分成多次短時休息,比如每六小時小睡30分鐘,而不是一次性睡足八小時。除此之外,他還是一名素食主義者。吃素的情況下,還幾乎每天走兩萬步。為尋找靈感,他經常在午夜散步到紐約的時代廣場。大學畢業後,Edwin先後進入Twitter、Google和Facebook工作,擔任機器學習工程師或資料科學家。話說回來,細細品味這位華裔學霸的履歷,似乎能看到另一位華人的身影——父母來自台灣,青年時期在餐廳打工,如今離職創業給AI公司賣「鏟子」…….簡直是資料標註界的黃仁勳啊。不同的是,相比Edwin,老黃的童年沒那麼一帆風順。沒有那項工作是我做不來的,我以前洗過碗,也打掃過廁所。九歲時,黃仁勳迎來「天崩開局」的美國生活——舅舅誤將黃仁勳和哥哥安排進了奧奈達浸信會學院。這是所管教問題少年的寄宿學校。由於對英語一竅不通,剛進學校的黃仁勳飽受霸凌,總會有學生在走廊裡推搡他,在操場上追趕他。每到夏天,奧奈達浸信會學院的學生們都需要通過勞動來掙生活費,黃仁勳總會被留下來打掃全宿舍的衛生間。當時,當時的家務是打掃全宿舍的廁所。我只有9歲,但我打掃得非常認真。不過,老黃在水深火熱的日子裡挺了過來,甚至還主動解鎖了其他技能點。臨近中學畢業,黃仁勳去到一家連鎖餐廳打工,幫別人洗碗端盤子,一點一點晉陞為服務員。然而,回憶起這些經歷,黃仁勳並不未將它們歸類於「創傷」。那是一段塑造性格的經歷。我學會了堅韌……我學會了無論做什麼工作,都要把它做好。被人霸凌、被要求掃廁所、給人洗碗端盤子,或許恰恰是這些惡劣的成長環境,才造就了今天的黃仁勳。而不論黃仁勳還是Edwin,事業大小有別,環境也早已變化,做的事情也有所不同,但刻在基因裡的底層原始碼似乎沒有變化,踐行的都是同一個底色——勤勞勇敢。 (量子位)
Google最新報告《The ROI of AI 2025》揭露:使用AI賺錢的企業越來越多
上個月美股的大空頭Michael Burry還在用AI泡沫論恐嚇市場,這個月Google直接甩出報告《The ROI of AI 2025》,三千多個企業高管的調研資料,挺超預期的。十分亮點且樂觀的資料74%的公司說他們至少在1個AI項目上賺回來了,注意,是已經賺到且回本了!更有意思的是那批"重倉型",就是把AI預算的一半以上都砸進智能體、且大規模部署的公司,已經88%說見到回報了,比平均水平高出14%。這批公司還有幾個特點:82%已經上線了超過10個AI智能體!78%用AI搞生產超過一年了。真金白銀往裡砸砸砸!關鍵資料概覽 圖:報告關鍵發現概覽(來源:Google Cloud《The ROI of AI 2025》第3頁)AI智能體是什麼?不是GPT、豆包那種聊天對話方塊。打個比方:聊天機器人像個百科全書,你得主動翻;AI智能體更像個實習生,你交代清楚了,它就一直run現在52%使用AI的公司都上了智能體,39%的公司甚至部署了10個以上。速度有沒有超出你的預期?賺錢最快的五大場景五大業務影響領域 圖:Gen AI對五大業務領域的影響(來源:第24頁)員工效率——70%的公司說有提升IT部門尤其明顯,70%提到IT流程和效率改善了,39%的公司說員工生產力至少翻了一倍。客戶體驗——63%的改善,比去年的60%還漲了點83%提到使用者參與度上去了,75%說滿意度提高。應該是客服場景,簡單問題AI先接著,複雜的再轉人工。營收增長——56%說業務有增長明確營收漲的公司裡,53%估計漲幅在6%-10%之間,31%說超過10%。營收增長資料 圖:Gen AI帶來的營收增長分佈(來源:第31頁)市場行銷——55%說有幫助寫文案、做素材、分析資料,這些AI確實拿手。零售和媒體行業最積極,都有59%說AI對行銷有用。安全防護——49%說到安全性提升77%提到識別威脅的能力變強,61%說處理問題的時間縮短了。讓AI去盯日誌找異常,比人眼強,畢竟它不會偷懶。不同行業的玩法不太一樣各行業上AI智能體,優先解決的問題不同:行業AI智能體使用情況 圖:各行業Top 3 AI智能體應用場景(來源:第16頁)零售和金融都把客戶服務排第一,分別是47%和57%。製造業最看重的是客服和行銷並列第一,都是56%。醫療行業反而把技術支援排最前面,49%。電信行業最關心安全,47%。說明AI不是萬能藥,得看你那兒最疼。預算的問題77%的公司說,AI技術成本降了之後,他們反而花得更多了。看來降價刺激消費,在那兒都一樣。現在平均26%的IT預算花在AI上。那些重倉型企業更誇張,39%的IT預算都給了AI。58%的公司說在撥新預算給AI。高管支援有多重要?報告裡說,有C級高管直接負責AI戰略的公司,78%見到了回報;但沒有C級高管親手抓的也有72%見到回報。高管支援與ROI關係 圖:C級高管支援與ROI的關係(來源:第43頁)坦白說,6個點的差距沒有特別震撼。可能真正的差異不在"有沒有領導重視",而在別的地方——預算夠不夠、團隊配不配合、選的場景對不對。不過有個趨勢值得注意:AI戰略和高管層強繫結的公司比例,從去年的69%漲到了今年的73%。越來越多公司把AI當成一把手工程來抓了。甲方選LLM的關鍵點重中之重的是資料隱私和安全,37%的公司說這是選AI供應商時最看重的。因為讓AI接入公司系統,它就能看到一堆敏感資料。萬一出漏子,輕則罰款,重則關門大吉。系統整合排第二,28%。成本排第三,27%。LLM供應商選擇因素 圖:選擇LLM供應商的Top 3考量因素(來源:第45頁)總結52%用AI的公司已經在搞智能體了,這不是小數字。如果你的企業還在觀望,可能得考慮一下你還追得上競爭對手嗎?那些賺到錢的公司有個共同點:不是淺嘗輒止,是重倉下注而且持續投入。試水可以,但光試水可能試不出什麼。最見效的場景集中在員工效率、客戶服務、行銷。如果要部署AI,可能從這些方面切入比較穩!當然這份報告是Google Cloud出的,它自己賣雲服務和AI,數字肯定往好了說。但三千多個高管的樣本,覆蓋全球20多個國家、七個行業,還是有點參考價值的。至於AI到底能不能幫你賺錢,還得自己擼起袖子加油幹了才知道。 (FinHub)
系統級摩爾定律:推理時代 NVIDIA×Groq 的真實含義,光進銅退的再加速
過去半個世紀,“摩爾定律”幾乎是科技行業最強的敘事武器:把更多電晶體塞進一顆晶片,性能更強、成本更低,世界自動向前滾動。但到了 AI 時代,尤其進入大模型推理成為主戰場之後,這套敘事正在發生一次深刻升級——摩爾定律從“晶片內部”擴展為“系統工程”。如果說過去的摩爾定律在追求“每平方毫米更多電晶體”,那麼 AI 時代的摩爾定律更像是在追求:單位時間產出更多 token(token throughput),並且這條曲線要能持續向上。而 token throughput 的提升,早就不再是單顆 GPU 的問題,它是一整座“AI 工廠”的問題:晶片、HBM、封裝、PCB、供電散熱、機櫃內互聯、機櫃外網路,以及軟體如何把這些組織起來、調度起來,讓系統始終跑在“最短板”之上。在這個框架下,NVIDIA×Groq 的合作/交易(無論最終形態是什麼)更值得被理解為:推理時代的一次“系統級加碼”,而不是“解決某個供應鏈瓶頸”的神蹟。一、先把交易定性:不是“買產能”,更像“推理能力授權 + 關鍵人才併入 + 生態介面補強”市場上最常見的誤讀,是把這類交易想像成“為了補齊 CoWoS、HBM、電力”等供給瓶頸而做的資本動作。現實更複雜。公開披露資訊顯示,這一合作/交易的核心是推理技術的非獨家授權,並伴隨 Groq 核心人員加入 NVIDIA 推進相關技術的規模化落地,Groq 公司仍獨立營運。換句話說,它更像是在為 NVIDIA 增加一條推理時代的“技術路線選項”,並把關鍵經驗與人才納入自己的產品化體系,而不是直接改變封裝產能、HBM 供給這類供應鏈事實。這一定性非常關鍵:因為它將討論重心從“供給約束”拉回到“推理範式”。二、AI 時代的“系統級摩爾定律”:為什麼摩爾定律必然外溢到 PCB、機櫃和互聯?推理系統的吞吐,本質上受制於一個非常樸素的三角形:算、存、傳。算(Compute):算力夠不夠、計算單元是否被喂飽存(Memory):權重/啟動/KV 的訪問是否形成記憶體牆傳(Communication):跨卡、跨 tray、跨機櫃的資料交換是否堵塞這個三角形的殘酷之處在於:只要把其中一條邊推上去,瓶頸就會遷移到另一條邊。因此推理時代的競爭,必然從 GPU 單點性能擴展到系統工程能力:互聯拓撲、網路頻寬密度、功耗與可靠性、軟體抽象與調度策略,都會變成吞吐曲線的一部分。這也解釋了為什麼 NVIDIA 的“摩爾定律”會被改寫成系統級版本:它追求的不是單晶片 transistor scaling,而是整座 AI 工廠的 token scaling。三、MoE 推理的結構性事實:天然需要“權重分層”(Weight Hierarchy)如果要理解“Groq 的 SRAM 路線”為什麼會在推理時代顯得格外有價值,必須先抓住當下主流模型架構之一:MoE(Mixture of Experts)。MoE 在推理側的關鍵特徵是:權重訪問天然分成兩類。1)always-on 的熱權重:每個 token 都必須執行的部分dense 層shared experts(共享專家,層層必跑)2)sparse-on 的冷權重:按路由稀疏啟動的部分routed experts(例如從 256 個裡選 top-8)啟動更隨機、訪問更像“按需取用”於是,一個極其工程化、極其自然的推理加速方向出現了:把 always-on 的熱權重常駐在更近、更低延遲、更高頻寬的儲存層(比如 SRAM/近儲存),把 routed experts 留在 HBM 或更遠端,並用熱度快取/複製策略最佳化。這件事的目標不是“省 HBM”,而是更直接的兩件事:降低 latency(減少權重搬運等待)提高穩定吞吐(HBM 頻寬從“啥都搬”變成“只搬稀疏部分”)可以把它理解為:CPU 時代的 cache hierarchy,在 MoE 時代升級為 weight hierarchy。四、用 DeepSeek V3 做一次“量級校驗”:為什麼“3–4GB FP8 熱權重集合”是硬體形態演化的抓手?推理討論最怕缺乏量級感。這裡用 DeepSeek-V3(總參 671B、每 token 啟動 37B,MoE 架構)做一次可復算的量級校驗。結合典型實現參數(hidden=7168,MoE FFN 的 intermediate=2048,約 58 個 MoE 層 + 3 個 dense 層;每 MoE 層 1 shared + 256 routed;每 token top-8 路由),可以得到一個關鍵結論:always-on 的熱權重集合本身就是 GB 級。1)shared experts(跨 58 層)的 FFN 主權重規模門控 FFN(如 SwiGLU)的一個 expert,近似包含三塊矩陣:up、gate、down。每層 shared expert 參數量約為:Params ≈ 3 × hidden × moe_intermediate= 3 × 7168 × 2048≈ 44M / 層58 層合計:44M × 58 ≈ 2.55B 參數2)3 個 dense 層的 FFN 主權重規模dense 的 intermediate 更大(約 18432):Params ≈ 3 × 7168 × 18432≈ 396M / 層3 層合計 ≈ 1.19B 參數3)合計熱權重集合(FFN 主體)≈ 3.74B 參數2.55B + 1.19B ≈ 3.74B 參數按 FP8 粗算 1 byte/參數:≈ 3–4GB 量級(不同實現是否包含量化中繼資料會有小幅偏差)這個量級的意義非常關鍵:大到:普通意義上的 L2/L3 cache 解決不了問題小到:如果系統存在某種近儲存層/推理專用駐留層,讓這 3–4GB 常駐,就非常有吸引力換句話說,MoE 推理天然提供了一個“熱權重集合”的明確對象——這就是推理硬體形態演化最容易抓住的把手。註:估算聚焦 FFN/expert 權重,是因為 MoE 推理權重搬運的大頭集中在專家 FFN;注意力部分在不同架構(如低秩投影/MLA 等)下可顯著壓縮,不改變熱權重集合為 GB 級這一判斷。五、“Groq 式 SRAM/近儲存能力”的合理落點:推理專用“熱權重層”,不是取代 GPUGroq 長期強調片上 SRAM 帶來的高頻寬與流水線式推理執行。把這一點放到 NVIDIA 的系統工程語境裡,最符合邏輯的推斷並不是“把 NVIDIA 變成 Groq”,而是:為推理系統增加一層 熱權重近儲存/專用駐留層讓 GPU 更容易被喂飽,提高有效 token/s通過軟體抽象層把這種形態納入 NVIDIA 生態,降低開發與遷移成本這裡關鍵不是“SRAM 這個名詞”,而是:更近、更低延遲、更高頻寬的權重層。至於它長在 GPU 封裝裡、長在板上、長在 tray 上,或者以某種異構加速單元形態出現,都屬於工程實現的分叉路線;但動機與收益目標是清晰的:推理提速。六、最重要的鏈式反應:計算效率上升 → 互聯壓力上移 → 光進銅退可能再加速一旦熱權重常駐近儲存,使推理端的“記憶體牆”變薄,系統會進入典型的再平衡過程:單節點有效 token/s 上升(等待變少、計算更“吃飽”)同時間裡生成更多 token,平行請求更大MoE 路由與跨卡/跨節點組織開銷佔比上升為繼續擴吞吐,系統平行度向外擴:卡內 → tray 內 → 機櫃內 → 機櫃間互聯成為新短板:頻寬密度、距離、功耗與可管理性壓力增大銅在更高頻寬與更長距離下更快觸頂,光的滲透被動加速因此,“推理提速→互聯升級→光進銅退”的邏輯並不是口號,而是一條相對自洽的系統工程鏈條:推理加速的盡頭往往不是算力,而是互聯;當計算更快,互聯必須更快。這也解釋了為什麼很多人只盯著 GPU 出貨,會低估光通訊的“二階彈性”:計算端效率提升,會讓通訊需求斜率變陡,從而推高機櫃內/機櫃間頻寬升級的緊迫性。七、投資對應:系統級摩爾定律下,那些環節更容易成為“增量受益”?如果把“推理吞吐持續提升”作為主線,那麼產業鏈受益往往不是單點,而是鏈式擴散。1)機櫃內互聯:從“銅還能撐一撐”走向“更早換光”頻寬密度更快觸頂距離、損耗、功耗與可維護性讓銅在高階速率下更尷尬光在機櫃內滲透有可能被動加速2)機櫃間網路:更高階速率光模組與交換體系token/s 上升帶動跨節點平行更深scale-out 網路更容易成為系統短板交換晶片、光模組速率升級與拓撲最佳化的需求更強3)PCB/連接器/電源散熱:系統密度提升的“基礎設施”計算更密,供電散熱與板級設計更關鍵可靠性與可維運性成為規模化推理的隱性門檻4)軟體與調度:最終決定“硬體是否兌現吞吐”MoE 路由、批處理、快取/複製策略跨卡/跨節點通訊編排統一抽象層(生態介面)帶來的鎖定效應如果說訓練時代的核心是“買更多 GPU”,那麼推理時代的核心越來越像“買系統、買網路、買軟體”。八、風險提示與可證偽點:那些前提不成立,推演就要改寫?為了避免過度演繹,有必要把邊界條件講清楚:MoE 未必長期絕對主導:結構變化會改變“熱權重集合”的形態近儲存不必然是 SRAM:實現路徑可能多樣,關鍵是“更近的權重層”專家不必然跨機櫃:現實系統會優先局部化、熱專家複製,跨櫃更多是邊界情況收益受制於軟體調度:硬體再優,調度若跟不上,吞吐不會線性提升TCO 約束:電力、散熱、網路、維運、良率與供給鏈會共同決定最優點這些因素決定了:相關判斷應被視作“方向與機制”,而不是確定性預告。結語:NVIDIA×Groq 更像推理時代的“系統級選項”,而不是供應鏈神話當摩爾定律升級為系統級摩爾定律,推理競爭的核心就從“單點性能”轉向“系統吞吐曲線”。MoE 推理所暴露出的“熱權重集合”與“權重分層”需求,為近儲存/推理專用駐留層提供了清晰抓手;一旦推理效率上升,互聯壓力上移,機櫃內與機櫃間的頻寬升級與光滲透加速也更可能成為連鎖反應。因此,NVIDIA×Groq 的意義更接近:推理時代的一次系統級加碼——未必立刻改變供給,卻可能在下一代推理範式與異構硬體生態的介面層與方法論層面,提前佔住高地。(彼得全球科技觀察)