#推理
黃仁勳喊出“推理拐點”,邊緣推理的機會窗口打開了嗎
上周,紐約時報報導了矽谷一個新風氣叫 tokenmaxxing,Meta 和 OpenAI 的工程師在內部搞 token 消耗量排行榜,比誰燒得多。黃仁勳在 GTC 2026 上更激進,提議企業給工程師發 token 預算,作為工資之外的第二份薪酬。OpenAI 的資料則顯示,過去一年企業客戶的推理 token 消耗量暴漲了約 320 倍。需求側在爆炸。供給側呢?黃仁勳在同一場 keynote 上搬出了 Tokenomics 這個概念,把它從加密貨幣的語境裡拎出來,重新定義為 AI 推理的經濟學。核心指標叫 Tokens per Watt,衡量每瓦特電力能產出多少 token。他說推理拐點已經到了,NVIDIA 預計 Blackwell 和 Vera Rubin 晶片訂單量到 2027 年將達到 1 兆美元。國內大模型廠商一直在講類似的事情,只是換了說法叫“推理成本”或者“token 單價”。不管那種說法,指向的問題是一樣的,當 token 變成 AI 時代的水電煤,誰來建發電廠和電網?過去三年,行業給出的答案是,建更大的資料中心,塞更多的 GPU。這在訓練時代完全成立。但推理和訓練的邏輯不同。訓練一個模型是一次性工程,推理要做幾十億次,而且對延遲極度敏感。當推理請求像洪水一樣湧來,把所有 GPU 集中在幾個超巨量資料中心裡,可能恰恰成了瓶頸。瓶頸不在算力,在物理。具體來說,在光速。推理時代撞上“光速牆”在今年 GTC 上,有一家公司對這個問題給出了非常系統的回答。Akamai,國內讀者可能不太熟悉這個名字,但在海外,它是 CDN 概念的開創者,也是目前全球最大的分散式運算平台,擁有業內最龐大的邊緣節點網路。1998 年成立,全球前十的視訊串流媒體平台、遊戲公司、銀行基本都是它的客戶。全球擁有超過 4400 個邊緣入網點,覆蓋 130 多個國家,承載全球近三分之一的網際網路流量。這家公司在近三十年裡經歷了三次轉型,從 CDN 到安全,再到雲端運算和 AI。今年 GTC 上,它帶來了兩個 session,核心主題只有一個,為什麼 AI 推理必須走向分佈式。Akamai CTO Office 的 SVP Andy Champagne 在 session 上描述了一個“個人 AI 導播”的場景,非常有畫面感。一場 F1 比賽有 20 多個 4K 機位同時在拍,傳統做法是導播間一個人切鏡頭,幾百萬觀眾看到的畫面一模一樣。但如果每個觀眾都能看到根據自己偏好定製的直播流,喜歡的車手、偏愛的鏡頭角度,那就需要在邊緣即時合成個性化的視訊。幾百萬路不同的 4K 視訊流,不可能從一個資料中心統一往外推。類似的邏輯出現在越來越多的即時場景裡。遊戲 NPC 需要在 50 毫秒內響應,超過這個閾值玩家體感明顯示卡頓。Akamai 產品管理 VP Shawn Michels 在另一個 session 舉了即時廣告插入的例子,從掃描視訊、識別廣告位、競價、生成個性化廣告到拼回視訊流,整條鏈路的預算只有 100 毫秒。這恰恰是 Akamai 的先天優勢所在,它在全球已有超過 4400 個邊緣節點,這種“就近處理”的能力不是純雲廠商從零搭建能輕易追上的。同樣的延遲壓力還存在於 AI 語音助手、電商推薦引擎、智能試衣間、自動駕駛感測器處理和工業產線質檢等場景中。AI 一旦嵌入即時應用,就必須繼承那個應用原本的延遲要求。物理定律不會因為 GPU 更快就網開一面。光在光纖中每秒約跑 20 萬公里,從倫敦到美東資料中心單程延遲約 28 毫秒,往返就是 56 毫秒。從東京出發更遠,往返約 134 毫秒。這還沒算任何計算時間。回頭看上面那些場景的延遲要求,不難理解為什麼把推理全部扔到少數幾個集中式資料中心裡是行不通的。延遲之外還有頻寬。Andy 在 session 裡算了一筆帳,同樣 1GW 的算力,如果集中在一個資料中心用 Blackwell 做視訊推理,出口頻寬需求是 75 Tbit/s。分佈到 20 個區域節點,每個只需 3.75 Tbit/s。集中式的出口流量是分佈式的 20 倍,背後的網路成本差距不言而喻。如果換成下一代 Vera Rubin,集中式的出口頻寬更是飆到 135 Tbit/s。晶片越快,集中式架構的出口瓶頸反而越嚴重。在同一個 session 上,Comcast負責 AI 與邊緣計算方向的嘉賓從等候理論的角度做了更嚴謹的分析。在相同 GPU、相同模型的條件下,集中式和分佈式部署之間僅僅 14 毫秒的往返延遲差異,就導致了約 30% 的 GPU 利用率差距。他的原話是,“這是物理定律層面的優勢,沒法靠 batching 或者提高 tokens/s 來彌補。”一個近三十年的伏筆Andy 在 session 上做了一個很有意思的類比,把 AI 的發展時間線和網際網路做對齊來看。網際網路的普及率已經超過 95%,AI 目前大約只有 7%。他的判斷是,AI 現在大概處於網際網路的 MySpace 時代。想想 MySpace 之後又誕生了多少公司、多少市值、多少技術突破。AI 的好戲才剛剛開始。這個類比其實點出了 Akamai 做分佈式推理的底層邏輯。近三十年前這家公司解決的問題和今天面對的問題,結構上是一樣的,把集中的東西變成分佈的。當年分發的是網頁和視訊,現在分發的是 AI 推理。方法論一脈相承。他在 session 結尾說了兩句話,頗能概括這種邏輯,“AI 工廠創造智能,AI Grid 分發智能”,以及“沒有分佈式推理的 AI,就像沒有 CDN 的網際網路”。GTC 期間,NVIDIA 官方將 Akamai Cloud 和 AWS 一起列為首批提供 RTX PRO Blackwell Server Edition 實例的雲服務商。黃仁勳 keynote 展示的合作夥伴 logo 牆上,Akamai 赫然在列。NVIDIA 電信業務全球副總裁 Chris Penrose 評價說,Akamai 通過營運 AI Grid,正在為生成式 AI、AI Agent 和物理 AI 建構連接組織,將智能直接推送到資料所在的地方。Akamai 也在 GTC 上正式發佈了業界首個全球規模落地 NVIDIA AI Grid 參考架構的方案,將 NVIDIA AI 基礎設施深度整合到自身的分佈式網路中。這不是一個鬆散的合作。Akamai 是首家將 AI Grid 從概念推到營運等級的廠商,底層跑的是 NVIDIA AI Enterprise 軟體棧、Blackwell 架構 GPU 和 BlueField DPU 加速網路的完整技術堆疊。推理基礎設施的幾個現實問題回到地面,對於正在考慮推理部署的 AI 團隊,有幾個繞不開的現實問題。不是所有推理都需要 H100。 這個認知正在被越來越多團隊接受。H100 為訓練和大規模推理而生,但如果跑的是 8B 參數的模型、做的是語音互動或者視訊分析,用 H100 就像開卡車送外賣。Akamai 目前部署的 RTX PRO 6000 Blackwell Server Edition 是一個值得關注的選項。直接看 Token 經濟,$2.50/小時全包價,每美元 Token 產出是同類方案的 2.1 倍。性能層面,這張卡配了 96GB GDDR7 視訊記憶體和 4,000 TOPS FP4 算力,在 NVFP4 精度下推理吞吐量比 H100 高出 60% 以上,對比上一代 RTX 4000 Ada 提升達 19 倍。另一個容易被忽略的差異是視訊處理能力,RTX PRO 6000 原生支援 112 到 132 路視訊編解碼,如果做的是視覺 AI 相關的產品,這個能力是定位於訓練和超算的 H100 不具備的。再加上風冷設計,在邊緣機房有限的空間和功耗條件下部署門檻低得多。Shawn Michels 在 GTC session 裡的觀點說的是未來的推理基礎設施一定是混合架構,不同 GPU 匹配不同的工作負載,沒有萬能卡。Egress 費用是隱性殺手。 很多團隊做預算時只看 GPU 租用價格,忽略了資料出站費。AI 產品服務全球使用者,視訊和模型響應產生的出站流量成本可能比 GPU 本身還貴。邊緣部署的經濟邏輯之一正在於此,推理結果在本地生成、本地交付,不用跨大半個地球回傳。Akamai 的 egress 價格是 $0.005/GB,和三大雲廠商的差距非常明顯。調度比算力更難。 GPU 散到全球各地只是第一步,更難的是讓每個請求找到最合適的那台機器。Akamai 在 GTC 上展示了他們的 AI 編排器(Orchestrator),這不是傳統的根據延遲和負載來分配流量的負載平衡。它會考慮模型親和性(那台機器已經載入了需要的模型)、GPU 視訊記憶體佔用、KV Cache 狀態等 AI 場景特有的因素來做即時路由決策。現場 demo 中,推理請求從巴黎節點即時切換到加州節點,使用者側完全無感知。這背後是 Akamai 做了近三十年流量調度的老本行,在 AI 場景上的自然延續。目前 Akamai 的 Blackwell GPU 節點已覆蓋歐洲、亞太和美洲共 19 個節點,配合 4400 多個邊緣入網點協同工作。對於出海的 AI 團隊來說,東京、新加坡、孟買、雅加達這些亞太節點尤其值得留意。出海 AI 創業者的第三種選擇Akamai 從 CDN 到安全,再到雲端運算和 AI 推理的轉型路徑,本身就是網際網路基礎設施演進的一個切面。它在這條賽道上的差異化在於,不是從零建資料中心,而是把已經運行了近三十年的全球分佈式網路變成了 AI 推理的底座。這步棋能走多遠,取決於它能不能跟上 AI 硬體更新的速度,也取決於邊緣推理的市場需求能否如預期般爆發。但對中國出海 AI 創業者來說,一件事正在變得越來越清楚,全球化部署推理能力正在從“以後再說”變成“現在就得解決”。合規(資料主權、不出境)、延遲(使用者體驗的硬門檻)、成本(egress 和 GPU 租用的真實帳單),這是出海時最現實的三座山。Akamai 的邊緣推理平台提供了一種此前不太存在的選擇,不必自建全球基礎設施,也不必把雞蛋全放在幾家超大規模雲上,而是可以借助一張已經覆蓋 130 多個國家的分佈式網路,把推理跑到離使用者最近的地方去。 (矽星人Pro)
爆了!1分鐘養上龍蝦
一覺醒來,身邊的人都在養龍蝦?僅僅不到一周,OpenClaw在中文網際網路世界快速吸引了一波關注,前有上門安裝龍蝦爆賺幾十萬,公司樓下大排長龍,接著大廠們相繼發力推出競品,各省市甚至親自下場送補貼。股市情緒稍微好轉,AI鏈相關產業徹底漲瘋了,雲服務、算力租賃類股連續強勢。港股MiniMax漲超20%,市值再創新高,智譜漲超10%,剛推出WorkBuddy的騰訊因為訪問量太大,算力一下子承受不住還要緊急擴容,盤中一度漲超7%...OpenClaw,難道要複製一把去年DeepSeek?01 全線反彈戲劇性反轉主導了隔夜市場和今天的反彈行情,總結一句話就是:美國總統川普暗示戰事或將結束,這番表態迅速壓制了市場對中東衝突的恐慌預期。油價跌了,納指、歐洲股指全線反彈。亞太更誇張,早盤日經強勁拉升超3%,韓國KOSPI指數飆漲逾6%。期指因盤中漲幅突破5%而觸發熔斷。A股市場也順勢迎來集體高開,風險偏好有所回升。類股方面,光纖、PCB等AI科技成長股集體大漲,早前因避險情緒高漲的石油天然氣與能源裝置類股,則隨著油價回落而集體走弱。與此同時因為OpenClaw走紅,推動算力租賃、雲端運算類股繼續走強,優刻得漲超10%,科華資料、寧波建工漲停,網宿科技、順網科技、青雲科技、金開新能、彩訊股份跟漲。消息面上,今天OpenClaw生態又迎來重磅產品。大模型公司智譜發佈AutoClaw,中文暱稱「澳龍」,直接把OpenClaw打包成一鍵安裝的桌面應用。下載、連按兩下、登錄,1分鐘搞定,直接終結原來大排長龍,甚至花高價養龍蝦的局面。OpenClaw的火爆也傳導至A股公司,目前萬興科技、優刻得-W、順網科技、中科創達、拓維資訊、瑞芯微等公司紛紛公開披露有關OpenClaw的業務動態。在OpenClaw的身上,散戶們彷彿看到了去年DeepSeek的影子。02 OpenClaw 蝴蝶效應OpenClaw(曾用名 Clawdbot、Moltbot)是一款開源AI智能體,因圖示為紅色龍蝦而得名“龍蝦”。(tbbbk)與對話式的大模型產品截然不同,它是一款開源、本地優先的AI Agent框架,通過整合多管道通訊能力與大語言模型,支援在雲端和本地部署。很多人體驗龍蝦的目的,就是為了建構一款自動化的AI個人助手,把需要的權限開放給他,他就能全權接管幫你幹活,符合絕大多數人心目中未來AGI的樣子。發佈僅四個多月,OpenClaw便創造了最快登頂GitHub星標榜的歷史——以超過24.8萬的GitHub星標數,超越Linux成為GitHub平台上最受歡迎的開放原始碼專案。可以說,這是一款具備殺手級應用潛質的產品。Agent框架的實現,讓大模型徹底跳出聊天窗口,擁有自動化執行的能力。和前兩年我們還得在大模型對話窗口上傳檔案和提示詞完全不是一個層次,現在它自己就可以呼叫需要的任何檔案。因為支援在本地儲存配置資料和互動歷史,從而擁有較持久的記憶能力,想要嘗鮮的網友都想要在本地部署,一度把蘋果家的Mac Mini搶斷貨了。這,還只是OpenClaw蝴蝶效應掀起的一點漣漪。但真正讓OpenClaw在中國爆火的,是中國從“Token出海”(算力-電力),大廠親自下場部署、各省市真金白銀政策支援,一周內一系列動態疊加引發了海嘯般的轟動。首先,政策跟進速度快得難以置信。3月7日,深圳龍崗區發佈專項措施,稱為“龍蝦十條”,鼓勵提供免費OpenClaw部署服務,會選出一些應用項目進行獎勵補貼,還將於3月14日下午舉辦“千人龍蝦大會”。大會由龍崗區聯合Kimi共同打造,除Kimi工程師團隊為使用者免費安裝OpenClaw,並行放Kimi Claw免費體驗資格外,Kimi還將上線API龍蝦專屬優惠,提供最高40%的充值返券補貼,助力企業部署龍蝦應用。深圳龍崗之後,無錫、寧波、合肥、常州等市紛紛跟進,也推出了類似的“養龍蝦”政策,鼓勵企業和個人開發者部署。其次,面對這一超級流量入口,網際網路大廠展開了激烈的入口爭奪戰。騰訊雲通過輕量應用伺服器Lighthouse推出5分鐘一鍵部署範本,甚至線上下“擺攤”獲客,引發使用者排隊安裝,據悉雲上“養蝦人”規模迅速突破10萬並持續上升。阿里雲、移動雲、天翼雲、京東雲、火山引擎、百度智能雲在內的中國雲廠商紛紛接入。賦能雲業務顯然未能滿足大廠的目標,它們都能在自己的生態內搭建類似的Agent工具,在模型服務上進行延伸。僅一周,騰訊、字節、阿里、小米火速宣佈推出各自的"小龍蝦"產品。有大模型和算力加持的騰訊WorkBuddy繫結了企業微信,同時無縫接入QQ、飛書、釘釘等工具,中國版可以切換Hunyuan、DeepSeek、GLM、Kimi、MiniMax等大模型。這意味著,那怕你在外通勤,只需掏出手機發條語音,它就能在你的辦公電腦上自動查資料、寫推文,直接交付可驗收的結果。據說,WorkBuddy上線訪問量遠超預期,導致核心服務瞬時壓力過大,公司致歉已緊急擴容10倍。但要說最有參與感的,還是現在的大模型公司。首先在OpenClaw的帶動下,中國國產模型呼叫量在全球平台OpenRouter上交替登頂。“龍蝦”幹活的底層邏輯還是在燒token。而OpenClaw對token的巨額消耗也放大了中國國產模型能力、成本的綜合優勢,帶動中國國產大模型在海外市場的規模化呼叫。除了前面的智譜,MINIMAX也推出了MaxClaw,Kimi推出了KimiClaw,都是主打一個快速部署,以OpenClaw生態接入的先發優勢推動模型的呼叫與使用。03 DeepSeek時刻重演?Token消耗的誇張程度,令到模型公司的算力資源都一度承壓,被市場寄予拉動算力需求的預期,A股算力租賃類股連漲兩日。其中,“Token出海”的敘事引來很大關注。我們在《賽道牛股頻出,下一個千億龍頭是它?》提到過,中國AI模型呼叫量的異軍突起,背後不僅僅是簡單的模型競爭力在贏,背後必須依託龐大且低成本的國家能源基礎設施,向全球AI社區進行著價值輸出。未來決定AI 商業可行性的,並非模型越大越好,而是看推理電效——每一瓦時電力能產出多少推理結果。政策給出了新的解題思路,2026年政府工作報告首提“算電協同”,明確“實施超大規模智算叢集、算電協同等新基建工程”,成為新型基礎設施建設的重要方向。其核心邏輯是通過算力最佳化電力調度、通過電力保障算力需求,實現兩者深度融合。據機構測算,千兆級全球日均token用量對中國電量和電力或有10%等級彈性,對綠證價格、容量電價甚至電量電價的拉動顯著。低估值的綠電,有望充分受益於AIDC清潔能耗需求;根據測算,中國2026-2030年綠電需求增厚4%-33%,利多本就折價的綠證價格。因此,電力類股持續發酵,韶能股份、銀星能源、協鑫能科、國南電瑞、中國西電等表現都很強勢。話又說回來,對於普通使用者來說,養龍蝦可能不會太花電費,但給龍蝦喂token是要花上不少錢的,這是很明顯感受得到的。Token的爆發式增長背後是實打實的算力需求。輝達CEO黃仁勳指出,智能體僅需一系列提示詞,就能執行原本需要大量時間和專業知識的任務,這導致token消耗量激增了約1000倍,直接製造了一個“算力真空”。這個預判基礎建立在,通常情況下,問答類Chatbot每輪對話僅消耗數百Token,但是OpenClaw則需要持續在後台執行任務,包括資訊檢索、文件生成、程式碼編寫、偵錯與最佳化等等,每一步都伴隨著大量的Token消耗。有使用者反映,搜尋資訊、寫一篇2000字文件可燒掉700萬Token;運行一個簡單爬蟲測試竟耗費2900萬Token;單日燒掉5000萬Token的案例屢見不鮮。龍蝦對飼料的需求太大了,模型廠推出的這些定價策略,包月服務也給了優惠,每月提供數萬次的api請求服務看似海量,實際幾天之內就能見底。這一幕的推演,跟2025年年初的DeepSeek如出一轍。便宜的推理成本,雲廠商搶著部署,算力租賃的生意越做越火。但是,OpenClaw並非毫無缺陷,我們現在看到的算力需求暫時是被放大的。迭代至今不到四個月,OpenClaw在Token消耗與實際產出之間的效率比仍有巨大最佳化空間。但我們只是看到了它的成功案例,可能忽視掉絕大多數不成熟的使用體驗,譬如任務執行過程中可能莫名中斷;記憶功能不穩定,有時會“忘記”之前的偏好。更嚴重的,OpenClaw的安全防護機制遠沒有跟上能力擴張的步伐,海外科技大廠已相繼在內部封禁OpenClaw。許多人應該都在猶豫要不要養龍蝦,借OpenClaw的創始人Peter Steinberger的話來說:“如果你不懂命令列,這個項目對你來說風險太大。”總的來說,隨著OpenClaw生態的進一步完善,算力需求的量級躍遷從長期來看很有可能會實現,但短期我們看到的是一個夾雜著許多噪音,過分“神話”的新概念,切勿因FOMO管不住錢包,包括股市。 (格隆匯APP)
AI行業拐點已至?推理算力成新風口
當OpenAI官宣下調千億級算力投資預算,市場一度嘩然:AI產業要踩剎車了?答案恰恰相反——這場看似的“收縮”,實則是行業從瘋狂燒錢的算力軍備競賽,邁入回歸商業本質、聚焦盈利的新階段。而隨著AI應用加速落地,算力需求的結構重構正在上演,推理算力成為新的增長風口,國產AI晶片更是借此迎來了前所未有的發展機遇。OpenAI的“預算下調”,實則是理性的戰略聚焦。此前其提出的2030年前1.4兆美元基建投入,是涵蓋晶片、電力、資料中心等的全產業鏈廣義規劃;而此次調整為6000億美元純算力專項支出,精準聚焦晶片採購與租賃,更與2030年2800億美元的營收目標相契合。這並非算力投入的降溫,而是從“盲目擴張”轉向“投入產出匹配”,就連高盛等機構也直言,這一調整讓訂單確定性更強,更利於行業長期發展。與此同時,全球算力產業鏈的高景氣度並未消退。Meta與輝達達成數十億美元晶片採購協議,大手筆拿下數百萬片最新AI加速晶片,還首次引入輝達CPU部署大模型;OpenAI仍在推進超千億美元融資,90%資金來自輝達、軟銀等頭部戰略投資者。北美雲廠與AI企業的資本開支援續增長,印證了算力需求的底層邏輯依舊堅挺,只是行業發展的重心,正悄然發生轉移。行業的核心變化,在於從“重訓練”到“訓練+推理並重”,推理算力成為新的增長引擎。如果說訓練算力是為大模型“打地基”,需要極致高端的算力支撐,那麼推理算力就是大模型落地應用的“毛細血管”,支撐著每一次使用者互動、每一個場景呼叫。隨著AI應用商業化拐點臨近,推理算力的需求爆發式增長,其市場規模更是被業內看好:2030年全球AI訓練算力市場規模約1兆美元,而推理算力市場將達到4-5兆美元,增速和規模均遠超訓練算力。更關鍵的是,推理算力的需求特性,為國產晶片打開了全新的發展空間。與訓練算力對高端GPU的高度依賴不同,推理算力更講究性價比,注重成本、效率與系統能力的平衡,定製化AI晶片成為破局關鍵。這恰恰是國產晶片的優勢所在——借助ASIC、全端最佳化等技術,國產晶片能在推理賽道建立獨特的競爭壁壘。市場的反饋已經給出答案:國內AI ASIC龍頭芯原股份2025年末在手訂單達50.75億元,較三季度大增54.45%,連續九個季度高位運行;寒武紀、摩爾線程等國產晶片企業紛紛登陸資本市場,壁仞科技、燧原科技加速IPO處理程序,百度崑崙芯也計畫分拆上市;海光資訊憑藉“DCU+CPU”晶片組合,與中科曙光形成產業鏈協同優勢,成為推理算力賽道的重要玩家。就連海外初創公司Taalas的ASIC晶片也印證了這一趨勢,其專為輕量級大模型最佳化的產品,能效較傳統GPU提升50倍,成本僅為1/20,讓定製化晶片的價值愈發凸顯。AI應用的商業化落地,更是為推理算力需求添上了一把火。這個春節,千問“一句話下單”近2億次,日活使用者達7352萬,僅用3個月就追上豆包3年的使用者規模;“AI+醫療”“AI+行銷”“AI+企服”等細分賽道加速落地,利歐集團等企業已打造專屬AI智能體矩陣,推動AI與主業深度融合。當大模型從“實驗室”走向“生活場”,從單一超大模型向“多模型+專用模型+MoE”演進,對推理算力的需求將滲透到千行百業,成為行業增長的核心驅動力。這場行業變革中,真正的機遇早已不再是單純的算力堆砌,而是能匹配商業需求、兼具性價比與實用性的算力解決方案。而推理算力的風口,不僅重構了算力產業鏈的競爭格局,更讓國產晶片擺脫了在高端訓練算力領域的被動局面,憑藉定製化、高性價比的優勢,在全球AI產業中搶佔了屬於自己的賽道。AI行業從未停下腳步,只是換了更務實的前行方式。當回歸商業本質成為主旋律,推理算力的爆發式增長已然開啟,而國產AI晶片,正站在這場變革的黃金風口上,迎來屬於自己的發展春天。 (元宇宙與人工智慧三十人論壇)
Gemini 3.1 Pro突襲:推理能力翻倍,Google打響AI"小步快跑"第一槍
引言當行業還在期待GPT-5.3時,Google用一場".1"版本號革命重新定義了AI迭代節奏。2026年2月24日凌晨,Google突然發佈Gemini 3.1 Pro大模型,這是其首次採用".1"小版本號,但升級幅度卻遠超預期。在ARC-AGI-2基準測試中,Gemini 3.1 Pro得分77.1%,是Gemini 3 Pro(31.1%)的2倍還多。這一突破不僅刷新了Google自身的技術紀錄,更標誌著大模型行業正式進入"高頻小步快跑"的新時代。更關鍵的是定價策略:每百萬token輸入僅2美元,輸出10美元,這一價格直接對標Anthropic Sonnet 4.6,在保持性能領先的同時實現了成本的大幅最佳化。Google用行動證明,AI競爭不再是"參數軍備競賽",而是"效率與速度的比拚"。01 技術突破:推理能力的量子躍遷Gemini 3.1 Pro最引人注目的突破在於推理能力的翻倍提升。傳統大模型升級往往聚焦於參數規模或多模態能力,而Google此次選擇了更艱難的路徑——從根本上提升模型的邏輯推理和問題解決能力。ARC-AGI-2基準測試的77.1%得分意味著什麼?這一測試專門評估AI系統的抽象推理能力,要求模型從有限示例中歸納出通用規則,並應用於全新場景。77.1%的得分不僅超越了所有前代Gemini模型,更接近了人類專家的表現水平。對比之下,GPT-5.2在同一測試中的得分為68.3%,Claude Opus 4.6為72.8%。多模態能力的全面進化同樣令人印象深刻。Gemini 3.1 Pro支援100萬token超長上下文窗口,能夠一次性處理整本書等級的文件或大型程式碼庫。在創意程式設計方面,模型能夠直接生成3D版"椋鳥群飛"動畫,並支援手勢追蹤互動,實現了從靜態內容生成到動態互動體驗的跨越。vibe coding能力的同步增強為開發者帶來了全新體驗。模型能夠更好地理解程式碼背後的設計意圖和架構邏輯,而不僅僅是語法正確性。實測資料顯示,在處理複雜演算法重構、架構最佳化等任務時,Gemini 3.1 Pro的精準率比前代提升45%。02 行業意義:從"整數版本"到".1迭代"的範式轉變Google首次採用".1"小版本號,這一看似微小的變化背後,是AI行業發展邏輯的根本性轉變。高頻小步快跑成為新常態。傳統上,大模型迭代以整數版本為單位,升級周期長達數月甚至半年。Gemini 3.1 Pro的發佈預示著,未來AI能力的進化將更加頻繁、更加精細。預計未來6個月內,我們將看到更多".1"、".2"等級的快速迭代,而非傳統的整數版本更新。企業應用更新機製麵臨重構。對於依賴AI服務的企業而言,這意味著需要建立更敏捷的AI應用更新機制。傳統"一年一升級"的節奏將被打破,企業需要能夠快速適配模型能力的持續最佳化,保持競爭優勢。技術競爭維度更加多元。當版本迭代頻率提升,競爭不再侷限於"誰先發佈大版本",而是"誰能持續提供最優體驗"。這要求廠商在模型最佳化、工程效率、生態建設等多個維度保持領先。使用者受益程度顯著提升。更頻繁的迭代意味著使用者能夠更快享受到技術進步帶來的價值。無論是開發者工具的增強,還是消費級應用的體驗最佳化,都將以更快的節奏呈現給終端使用者。03 定價策略:性能領先下的成本最佳化Gemini 3.1 Pro的定價策略同樣體現了Google的戰略思考。每百萬token輸入2美元、輸出10美元的價格,在保持性能領先的同時,實現了對競品的成本優勢。對比分析顯示:相比Anthropic Sonnet 4.6(輸入3美元、輸出15美元),Gemini 3.1 Pro便宜33%相比OpenAI GPT-5.2 Turbo(輸入5美元、輸出15美元),成本優勢更加明顯在相同預算下,企業可以處理更多token量,實現更高的投入產出比中小企業市場成為重點。傳統高性能AI服務主要被大型企業壟斷,而Gemini 3.1 Pro的親民定價,意味著更多中小企業能夠負擔得起頂尖AI能力。這對於加速AI技術普惠、推動行業數位化轉型具有重要意義。開發者生態的吸引力增強。對於個人開發者和初創團隊而言,成本是選擇AI服務的關鍵考量。Gemini 3.1 Pro的性價比優勢,將吸引更多開發者加入Google生態,推動應用創新的繁榮。04 生態佈局:從模型到應用的全鏈路最佳化Gemini 3.1 Pro的發佈不是孤立事件,而是GoogleAI生態戰略的重要一環。Gemini App已全面上線。普通使用者可以通過Gemini App直接體驗新模型,享受比前代更精準的複雜問題解答能力。實測顯示,在處理數學證明、邏輯推理、專業諮詢等任務時,新模型的精準率和響應速度均有顯著提升。API服務的全面升級。開發者可以通過Gemini API快速接入新模型,享受推理能力翻倍帶來的效率提升。Google同時最佳化了API的穩定性和響應速度,確保企業級應用的高可用性。多模態創作工具鏈完善。結合Gemini 3.1 Pro強大的多模態能力,Google推出了全新的創意工具套件,支援"文生視訊+互動"的新型內容形式。這對於內容創作者、教育工作者、行銷人員等群體具有重要價值。企業級解決方案深化。針對金融、醫療、法律等垂直行業,Google提供了基於Gemini 3.1 Pro的定製化解決方案,幫助企業在保持資料安全的前提下,享受AI技術帶來的效率提升。05 競爭格局:三巨頭技術路線的分化Gemini 3.1 Pro的發佈,進一步凸顯了AI三巨頭技術路線的分化。Google的"推理優先"路線。通過持續最佳化模型的邏輯推理能力,Google正在建構差異化的技術優勢。在需要複雜問題解決、專業諮詢、科學計算等場景中,Gemini系列的表現日益突出。OpenAI的"通用能力"路線。GPT系列繼續強化其通用性和適應性,在保持各方面能力均衡的同時,通過規模效應降低成本。但整數版本迭代周期較長,可能面臨敏捷性挑戰。Anthropic的"安全與專業"路線。Claude系列在AI安全、專業任務處理上持續深耕,特別是在程式碼安全、法律合規等垂直領域建立了獨特優勢。但定價相對較高,可能限制其規模化應用。國產大模型的追趕壓力。雖然DeepSeek、智譜GLM-5等國產模型在特定領域表現出色,但在推理能力的系統性提升上仍需追趕。Gemini 3.1 Pro的發佈,為國產模型提供了重要的技術參考和競爭標竿。06 實測體驗:從"工具"到"思維夥伴"的進化對於一線使用者而言,Gemini 3.1 Pro帶來的體驗升級是實實在在的。複雜問題處理能力顯著提升。在測試中,模型能夠準確解答研究生等級的數學證明題,理解複雜的法律條文邏輯,提供專業的醫療諮詢建議。這種能力的提升,讓AI從簡單的資訊檢索工具,進化為真正的"思維夥伴"。長文件理解更加精準。得益於100萬token的上下文窗口,模型能夠準確理解整本書、大型程式碼庫、複雜研究報告的內容。在處理學術論文審稿、程式碼架構評審等任務時,表現接近人類專家水平。創意表達更加豐富。在內容創作測試中,模型不僅能夠生成高品質的文字內容,還能夠創作互動式動畫、設計複雜的資料可視化圖表、製作專業的簡報。這種多模態創作能力,為創意工作者提供了全新的工具。響應速度持續最佳化。官方資料顯示,Gemini 3.1 Pro的響應時間相比前代縮短30%,在處理複雜推理任務時,使用者能夠感受到明顯的流暢度提升。也看到了Gemini新增的製作音樂模組(終於有人挑戰suno了),試了一下做一首30秒的武俠歌曲,完成度也很不錯。gemini給我做的國風武俠電影主題曲07 未來展望:AI發展的新節奏與新挑戰Gemini 3.1 Pro的發佈,不僅是一個產品的升級,更預示著AI行業發展的新節奏。技術迭代的加速度。".1"版本號的出現,意味著技術進步的顆粒度更加精細,迭代頻率更加密集。這要求整個行業建立更加敏捷的研發體系、更加靈活的部署架構、更加智能的測試方法。應用創新的新機遇。更強大的推理能力,將催生更多創新應用場景。從智能教育輔導到專業諮詢服務,從科學計算輔助到複雜決策支援,AI的應用邊界將持續擴展。人才需求的結構性變化。隨著AI能力的快速進化,對AI人才的需求將從"模型訓練專家"向"應用創新專家"轉變。能夠將AI能力與行業需求深度結合的人才,將成為市場的新寵。倫理治理的緊迫性。更強大的推理能力,也帶來了新的倫理挑戰。如何確保AI系統的決策透明、公平、可控,將成為行業必須面對的重要課題。結語Google的這次".1版本突襲",表面上是技術升級,深層則是行業競爭邏輯的根本性轉變。當AI發展從"整數版本躍進"轉向"小數版本迭代",整個行業的節奏、格局、規則都將被重新定義。推理能力的翻倍提升,不僅僅是技術參數的最佳化,更是AI從"資訊處理工具"向"智能思維夥伴"進化的重要里程碑。在這個AI重新定義一切的時代,能夠率先突破推理瓶頸、建構持續最佳化能力的企業,將掌握下一個階段的發展主動權。真正的競爭才剛剛開始。技術優勢需要轉化為生態優勢,單點突破需要擴展為系統領先。對於全球AI產業而言,Gemini 3.1 Pro的發佈既是挑戰,也是機遇。在這個AI從"炫技"走向"實用"的關鍵轉折點,能夠平衡技術創新與商業落地的企業,將引領行業進入更加成熟、務實的新階段。當矽谷醒來時,會發現AI競爭的規則已經改變。這場始於".1版本號"的技術革命,或許將開啟全球AI發展的新篇章——一個更加注重實用性、可及性和可持續性的新篇章。 (遊戲AI說)
DeepMind 掌門人預判 AGI 將於 5-10 年內降臨
最近,Google DeepMind 掌門人德米斯·哈薩比斯(Demis Hassabis)接受 CNBC 專訪。他難得敞開心扉,直言不諱地評價了全球 AI 格局,尤其是中國 AI 的追趕速度和創新現狀。“中國團隊的追趕速度極快,只落後幾個月,但在原創性上,他們還沒拿出 Transformer 級的東西。”以 DeepSeek、阿里為代表的中國 AI 團隊,在工程效率、推理最佳化、成本控制上,展現了恐怖的實力。“一篇新論文出來,他們往往能以驚人的速度復現,甚至在某些方面做得更好。”換句話說,在 “把已知路徑做到極致” 這件事上,中國團隊已經證明了自己是全球頂級玩家。也正因為如此,矽谷過去那種“領先一代”的技術安全感,正在被一點點消耗掉。不是按年,而是按月縮水。要知道,過去很長一段時間美國尤其是矽谷派的主流觀點是:中國在 AI 上還遠遠落後,大概是幾年的差距。根據史丹佛大學《2025 年人工智慧指數報告》,中國在 AI 論文發表和專利申請總量上持續領先。且像 DeepSeek、智譜等機構發佈的模型,在國際基準測試中已與第一梯隊產品表現相當。以 DeepSeek V3.2 為例,在公開的推理類基準測試中,它已經能夠全面對標 GPT-5,僅略低於 Gemini 3 Pro。然而,他也指出原創性依然是中國團隊的短板。Transformer 或 AlphaGo 那樣從零到一的技術突破,目前在中國尚未出現。換句話說,中國團隊可以“開車飛馳在既有軌道上”,但鋪設全新軌道的能力仍需時間和積累。哈薩比斯強調,這並非能力不足,而是原創性突破往往需要長期科研積累、實驗失敗和探索精神的結合。不過哈薩比斯也看到了中國 AI 獨有的潛力,他認為當工程最佳化達到一定高度,往往會催生質變。中國憑藉廣闊的應用場景、迅速的市場反應和持續投入,很可能從別出心裁的角度,斬出那一刀改變格局的創新。在談到通向 AGI 的挑戰時,哈薩比斯強調,現有大模型存在“鋸齒狀智能”(jagged intelligence)。這是指模型在某些任務上表現非常出色,但面對複雜因果鏈條、多步驟邏輯推理或現實世界常識時,能力不穩定甚至可能出錯。這說明通用智能不僅需要強大的處理能力,還要在多個維度上保持穩定和一致。除此之外,現有系統無法持續線上學習,也難以自發產生原創性想法,通向 AGI 仍需克服這些根本性限制。在這一背景下,哈薩比斯談到 Scaling Law(規模定律)及其作用。他認為,雖然模型增大、算力增加和資料擴充的回報增速有所放緩,但總體進展依然非常好,能力提升仍值得投入。然而,要真正實現 AGI,僅靠 Scaling Law 仍不夠,還需要一兩個像 Transformer 那樣的重大範式突破。哈薩比斯保持謹慎樂觀,預計 AGI 很可能在五到十年內實現,同時指出算力問題最終歸結於能源,因此未來能源將成為“智能的貨幣”。他還進一步提到“世界模型”概念,作為通向 AGI 的核心手段。與 LLM 主要處理文字不同,世界模型能夠理解因果關係和長期後果,在腦中模擬世界、驗證假設,實現規劃和預測。未來 AGI 很可能是 LLM 與世界模型的融合體。DeepMind 已在 Genie、視訊生成 Veo 和機器人模擬中佈局早期世界模型,讓 AI 在虛擬環境中練習、犯錯、成長,真正具備“理解”和“預測”能力。在應用層面,哈薩比斯看好端側 AI,即將高效、輕量的模型運行在手機、可穿戴裝置和智能眼鏡等終端上。Google計畫通過 Project Aura 智能眼鏡以及機器人領域的探索,讓 AI 不僅會“說”,還能實際“做事”,並行揮實用價值。過去兩三年,DeepMind 也回歸“創業公司狀態”,快速迭代 Gemini 模型並落地到 Google 核心產品,包括搜尋、Workspace 和智能眼鏡等場景,使Google在算力、模型規模和應用落地上都保持競爭優勢。總體來看,哈薩比斯認為,中國 AI 已憑實力贏得了頂級牌桌的入場券,但未來幾十年的格局,將取決於誰能率先鋪設無人區的軌道。速度固然重要,但方向選擇才是關鍵。真正的競爭,不只是算力之爭,更是敢於探索未知、率先開闢全新路徑的勇氣與能力。在這個意義上,2026 年不僅可能見證端側 AI、agent 系統和機器人領域的突破,也將考驗誰能在通向 AGI 的道路上,把工程能力與原創性創新結合,率先鋪出未來的新軌跡。 (科技狐)
梁文鋒署名新論文深夜炸場!DeepSeek-V4 新架構曝光:提出新的稀疏化方向,與MoE互補,長上下文能力顯著擴展,推理程式碼能力更強了
一覺醒來,DeepSeek又發新論文了!仔細一看作者,梁文鋒的名字也赫然出現在其中。這篇論文題為《通過可擴展尋找實現的條件記憶:大型語言模型稀疏性的新維度》,重點在於提出了 Engram ——這是一種條件記憶模組,旨在通過將靜態模式儲存與動態計算在結構上分離,來增強 Transformer 骨幹網路。論文的給出的實驗資料也相當驚豔:1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著性能提升,均超過純MoE模型。2、存在U形擴展規律:純 MoE性能次優,將 20–25% 的稀疏參數分配給 Engram,效果最佳。3、長上下文能力提升明顯,能釋放注意力用於全域模式和複雜推理。程式碼和論文全文均已開源:論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf程式碼地址:https://github.com/deepseek-ai/Engram為什麼大語言模型需要 Engram ?稀疏性(sparsity)一直是智能系統的核心設計原則,無論是生物大腦的神經回路,還是現代大語言模型都在用它來“省資源”。在 AI 裡,這個思想最常見的體現就是混合專家模型(MoE)——也就是通過“條件計算”讓模型只啟動部分參數,從而在不增加太多計算量的情況下,把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一,DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也採用了先進的 MoE 方法進行擴展訓練。但 MoE 也有其侷限性。語言本身非常複雜,至少包含兩類截然不同的任務:組合式推理:需要深層、動態的神經計算,比如理解複雜句子結構或推理問題;知識檢索:大量文字都是高度固定、重複的內容,比如命名實體、固定表達、程式化模式。論文中提出,經典的𝑁-gram 模型已經證明,處理這種局部、重複的語言規律,用“查表”效率最高,幾乎不需要動深層神經網路。然而現在的 Transformer 並沒有這種原生“查表能力”,所以模型每次要識別一個常見的多 token 實體,都要消耗好幾層注意力和前饋網路,這就像在執行階段重複重建一個靜態字典,既浪費計算,又佔用模型的“序列深度”,原本可以用來做更高級的推理。Engram是如何實現的?為瞭解決上述問題,DeepSeek提出了一個新的稀疏化方向——條件記憶,專門用來儲存和尋找固定知識。它和 MoE 的條件計算完全互補:MoE 負責動態推理和組合邏輯;Engram 負責靜態知識,直接查表就行。Engram是神經科學中的一個核心概念,意為“記憶痕跡”,它是一個可擴展、可尋找的記憶模組,用於語言模型在推理過程中過去可能已經見過的模式或片段。在具體實現上,Engram模組通過 O(1) 的尋找複雜度將靜態模式儲存從動態計算中分離出來,採用了四項核心技術:現代化的雜湊 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。具體來看:1、分詞器壓縮:預先計算對應函數,將語義等價但 ID 不同的詞項(如 "Apple" 和 "apple")折疊為統一識別碼,將有效詞表大小減少了 23%。· 多頭2、雜湊檢索:利用局部上下文(N-grams)作為鍵,通過雜湊函數在巨大的嵌入表中檢索靜態向量。3、上下文感知門控:這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query,與檢索到的記憶體進行語義匹配。如果檢索內容與上下文矛盾,門控值會趨近於零,從而抑制雜湊衝突帶來的噪聲。4、混合分枝整合:專門針對多分枝架構(如 mHC)進行了最佳化,通過參數共享策略(共享 Embedding 表和 Value 投影,保持獨立 Key 投影)平衡了表達能力與計算效率。Engram 通常會插在 Transformer 的前期層,比如 Layer 2 或 Layer 6。這樣做的好處是:一方面可以把靜態模式的重建工作解除安裝掉,減輕骨幹網路的負擔;另一方面又能保留足夠的上下文資訊,讓門控機制更聰明地判斷那些記憶該用,那些該忽略。Engram 的記憶容量並不是越大越好,它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation(稀疏性分配)法則,合理劃分兩者比例,既保證大模型的參數利用率,又最大化計算效率——簡單來說,就是讓每一份記憶和每一位專家都發揮最大作用。實驗結果很驚豔:推理、程式碼、長上下文能力顯著提升論文把 Engram 擴展到 270 億參數,嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示:知識密集型任務(MMLU、CMMLU、MMLU-Pro):性能提升 1.8–4.0 分不等;通用推理任務(BBH、ARC-Challenge、DROP):提升更明顯,最高 +5 分;程式碼和數學能力(HumanEval、MATH、GSM8K):平均提升 2–3 分。值得注意的是,Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀:它把靜態模式的記憶交給了高效的尋找機制,而不是每次都用神經網路“重算”,減少了淺層的重複計算。更重要的是,Engram也顯著擴展了長上下文能力,在長文字任務(如 LongPPL、RULER)表現突出,尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0,Variable Tracking 從 77.0 提升到 89.0。原因是 Engram 處理了大量局部、靜態的依賴,釋放了注意力機制去處理全域上下文,從而在長序列中更穩、更準。此外,團隊還發現了 MoE 和 Engram 容量分配中的U形擴展規律:當 Engram 記憶容量太小或太大時,性能都不理想將 20–25% 的稀疏參數分配給 Engram,效果最佳網友:Engram 可能是 DeepSeek-V4 型號的基礎技術!在Reddit、X等平台上,DeepSeek的新論文也立刻引發了網友的熱烈討論。其中最廣泛的一個猜測就是:Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。很多網友認為,Engram這個方法很有趣,其特點在於讓模型架構處理“記憶模式尋找”和“神經計算推理”兩塊職責分離,從而開啟了新的稀疏性方向。也有網友表示,這種方法比線性注意力機制要好得多。DeepSeek的深夜放大招,也讓部分網友直言:中國大模型團隊的創新性真令人害怕。 (51CTO技術堆疊)
梁文鋒署名!DeepSeek再發炸裂論文:提出“條件記憶”新範式,徹底打破GPU推理視訊記憶體牆
當業界紛紛湧入MoE(Mixture-of-Experts)架構以實現高效擴容時,一個根本性的低效問題卻始終存在:強大的Transformer模型,本質上缺乏一種原生的“知識尋找”機制。它們被迫通過複雜的“動態計算”來模擬簡單的“靜態檢索”過程。例如,為了識別“戴安娜王妃”這樣的實體,模型需要消耗多層注意力與前饋網路資源,逐步建構其內部表徵。這無異於用高射炮打蚊子,浪費了寶貴的計算深度來自DeepSeek 的最新論文,為解決這一難題提出了一個全新的稀疏性維度:條件記憶(Conditional Memory)他們推出名為Engram的新模組,它以O(1)的恆定時間複雜度實現了可擴展的知識尋找,作為對MoE“條件計算”的有力補充。通過系統性研究,團隊揭示了一條指導兩種稀疏性權衡的U形縮放定律。依據該定律,他們建構了一個270億參數的Engram模型,在總參數量與計算量(FLOPs)完全相同的情況下,其性能全面超越了純MoE基線。令人矚目的是,這種提升不僅體現在知識密集型任務上(MMLU +3.4),更在通用推理(BBH +5.0)、程式碼(HumanEval +3.0)和數學(MATH +2.4)等領域取得了更大的收益。機理分析表明,Engram通過接管早期層的靜態模式重構任務,有效“加深”了網路,為複雜推理釋放了更多計算資源。同時,它將局部依賴關係的處理委託給尋找操作,從而解放了注意力機制,使其能更專注於全域上下文,極大地提升了模型的長文字處理能力(如Multi-Query NIAH任務得分從84.2提升至97.0)。更重要的是,Engram的設計充分考慮了系統效率。其確定性的尋找機制支援在執行階段從低速的主機記憶體預取資料,幾乎不產生額外開銷,從而打破了GPU視訊記憶體的瓶頸。論文地址:https://github.com/deepseek-ai/Engram語言模型的雙重任務:計算與檢索語言建模包含兩種性質截然不同的子任務:一是需要深度動態計算的組合推理,二是對本地、靜態、高度模式化的文字片段(如命名實體、慣用語)的知識檢索。經典的N-gram模型證明了,後一種任務通過廉價的尋找操作就能高效完成。然而,當前的LLM架構缺少這種原生尋找功能,導致它們必須通過計算來模擬檢索,造成了資源浪費。為了讓模型架構與語言訊號的這種二元性對齊,DeepSeek提出了“條件記憶”這一新的稀疏軸,與MoE的“條件計算”形成互補。• 條件計算 (MoE):稀疏啟動參數,處理動態邏輯。• 條件記憶 (Engram):稀疏尋找操作,檢索靜態知識。研究團隊提出的Engram模組,正是這一理念的具體實現。它以經典的N-gram結構為基礎,並融入了分詞器壓縮、多頭雜湊、上下文門控和多分支整合等現代化改造。Engram架構:兩階段實現高效尋找與融合Engram作為一個條件記憶模組,旨在將靜態模式儲存與動態計算在結構上分離。其工作流程分為兩個核心階段:檢索與融合1. 稀疏檢索:通過雜湊N-grams定位記憶首先,模組需要將局部上下文對應到靜態記憶條目。這包括兩個步驟:分詞器壓縮 (Tokenizer Compression):標準的分詞器常為語義等價的詞分配不同ID(如Apple vs. apple)。為提升語義密度,Engram首先通過一個預計算的對應函數,將原始Token ID壓縮為規範化的ID。多頭雜湊 (Multi-Head Hashing):直接參數化所有N-gram組合是不現實的。Engram採用基於雜湊的方法,為每個N-gram階數(如2-gram, 3-gram)配備K個獨立的雜湊頭,將上下文雜湊到不同嵌入表中的索引,以降低衝突。最終,所有檢索到的嵌入向量被拼接成一個記憶向量et。2. 上下文感知門控與融合檢索到的記憶向量et是靜態的、上下文無關的先驗知識,可能存在雜湊衝突或歧義。為瞭解決這個問題,Engram引入了受注意力機制啟發的上下文感知門控它將當前層的隱藏狀態ht(已聚合了全域資訊)作為Query,將記憶向量et投影為Key和Value。通過計算Query與Key的相似度,生成一個門控標量αt。這個標量決定了檢索到的資訊與當前上下文的匹配程度:如果匹配度低,門控值趨近於0,有效抑制噪聲。最後,通過門控的Value向量會經過一個輕量級的深度因果摺積,以擴大感受野並增強非線性。最終的輸出通過殘差連接融入到Transformer主幹網路中核心發現:稀疏性分配的U形定律為了量化MoE(計算)與Engram(記憶)之間的協同作用,研究人員提出了稀疏性分配問題:在固定的總參數和計算預算下,應如何在這兩者之間分配“稀疏容量”?他們定義了一個分配比例ρ,其中ρ=1代表純MoE模型,ρ<1則代表將一部分原用於MoE專家的參數轉而分配給Engram的嵌入表。實驗在兩個不同的計算規模(2e20和6e20 FLOPs)下進行,結果揭示了一條清晰的U形縮放定律:MoE主導 (ρ → 100%):模型缺乏專門的記憶模組,被迫低效地通過計算重構靜態模式Engram主導 (ρ → 0%):模型喪失了條件計算能力,無法處理需要動態、上下文相關推理的任務最佳平衡點:將大約20%-25%的稀疏參數預算分配給Engram時,模型性能達到最優。這一穩定的U形關係證明了條件計算和條件記憶在結構上的互補性。此外,在“無限記憶體”設定下,單獨增加Engram的記憶槽數量,模型性能也呈現出可預測的對數線性提升,證明了Engram是一個有效的、可獨立擴展的性能提升手段。大規模預訓練:性能全面超越,推理提升更顯著基於上述定律,研究團隊訓練了一系列模型,並與嚴格對等的基線進行比較。所有模型均在262B Tokens上訓練,並保持啟動參數量(3.8B)一致。Engram-27B:總參數26.7B,與MoE-27B基線相同。它將MoE專家的數量從72個減少到55個,並將節約的參數(5.7B)用於建構Engram記憶模組。Engram-40B:在Engram-27B基礎上,進一步將Engram記憶擴展至18.5B參數,總參數達到39.5B。實驗結果(Table 1)表明:1.稀疏模型優於密集模型:所有稀疏變體(MoE與Engram)均顯著優於同等計算量的Dense-4B模型2.Engram全面超越MoE:在參數和計算量完全匹配的情況下,Engram-27B在所有評估維度上都優於MoE-27B3.推理與程式碼數學領域增益尤為突出:雖然Engram在知識任務(如MMLU +3.4, CMMLU +4.0)上表現出色,但其在通用推理(BBH +5.0, ARC-Challenge +3.7)和程式碼數學(HumanEval +3.0, MATH +2.4)上的優勢更為顯著這證明了引入專用的知識尋找原語,能夠極大地提升模型的表徵效率,其益處遠不止於知識檢索本身。Engram如何工作?機理分析揭示“有效深度”增加為了探究Engram的內部工作機制,研究團隊使用了LogitLens和CKA(中心核對齊)兩種可解釋性工具。加速預測收斂:LogitLens分析顯示,與MoE基線相比,Engram模型的淺層網路就能生成更接近最終預測結果的表徵(KL散度更低)。這表明,通過直接尋找知識,Engram減少了模型逐步建構特徵所需的計算步驟提升有效深度:CKA分析則揭示了Engram模型與MoE模型之間的層間表徵相似性。結果顯示,Engram模型的淺層(如第5層)在功能上等價於MoE模型的深層(如第12層)結論很明確:Engram通過顯式尋找繞過了早期的特徵組合階段,在功能上等價於增加了模型的有效深度系統效率:解耦計算與儲存,打破GPU視訊記憶體牆Engram的一個關鍵優勢在於其系統設計。與依賴執行階段隱藏狀態進行動態路由的MoE不同,Engram的尋找索引完全由輸入Token序列決定,具有嚴格的確定性這一特性使得在推理時可以實現高效的 預取-重疊(prefetch-and-overlap) 策略:系統可以在GPU計算前序Transformer塊的同時,非同步地從大容量、低成本的主機記憶體(DRAM)甚至NVMe SSD中預取後續Engram層所需的嵌入。實驗在一個1000億參數的Engram層上進行了驗證。結果顯示,將整個嵌入表解除安裝到主機記憶體,所帶來的吞吐量懲罰峰值僅為2.8%,幾乎可以忽略不計。這證明了Engram能夠有效繞過GPU視訊記憶體限制,以極小的開銷實現參數規模的激進擴展。這意味著可以用較少/較低配的GPU(視訊記憶體有限)來運行一個總參數量極大的模型。這大大降低了模型的部署和使用成本寫在最後DeepSeek AI的Engram工作,為大模型稀疏化設計開闢了一個全新的、與MoE互補的軸線——條件記憶。通過將靜態知識檢索從動態計算中剝離,Engram不僅在知識任務上取得優勢,更在推理、程式碼、數學等複雜任務上實現了超預期的性能提升。這項研究的核心貢獻包括:1. 提出Engram模組:一個可擴展、系統高效的條件記憶實現。2. 發現稀疏分配的U形定律:為平衡計算與記憶提供了理論指導。3. 驗證了架構優勢:在同等參數和計算成本下,混合模型全面超越純MoE模型。4. 揭示了工作機理:Engram通過提升模型的“有效深度”來最佳化表徵效率。研究人員認為,條件記憶應成為下一代稀疏大模型不可或缺的建模原語,為建構更強大、更高效的智能系統鋪平了道路。我彷彿已經看到了v4的影子 (AI寒武紀)
Google Gemini和蘋果的頂級華人科學家離職創業,劍指AGI
【新智元導讀】Google Gemini 資料聯合負責人 Andrew Dai 聯手蘋果首席研究科學家 Yinfei Yang,隱身創辦 AI 新秀 Elorian。首輪將融資 5000 萬美元,劍指「視覺推理」這個下一代大模型的核心問題。矽谷的 AI 創業熱潮中,最昂貴的籌碼永遠押注在最資深的「大腦」上。曾在Google DeepMind 效力長達 14 年的資深研究員 Andrew Dai,正在籌建一家名為 Elorian 的 AI 初創公司。這家尚不為人所知的公司,種子輪融資目標即高達 5000 萬美元。與 Andrew Dai 聯手的,是剛於去年 12 月離職的蘋果研究科學家 Yinfei Yang。這兩位分別來自Google和蘋果的技術老兵,正在試圖解決大模型領域的下一個核心問題:視覺推理(Visual Reasoning)。領投這輪融資的,極有可能是由前 CRV 普通合夥人 Max Gazor 創立的 Striker Venture Partners。如果交易達成,這將是矽谷近期最受矚目的早期融資之一,也再次印證了資本市場對於「Google畢業生」的瘋狂追捧。14 年,從 BERT 早期到 Gemini 幕後在 AI 研究圈,Andrew Dai 這個名字代表著一種「長期主義」。不同於那些在 Transformer 浪潮爆發後才匆匆入局的創業者,Andrew Dai 在Google的工號可以追溯到 2012 年。這意味著他完整經歷了深度學習從邊緣學科走向世界中心的整個周期。在他的 LinkedIn 履歷中,最引人注目的是他作為 Gemini 模型預訓練(Pre-training)資料工作的聯合負責人。在當前的大模型戰爭中,資料質量和預訓練策略被認為是決定模型智商上限的關鍵因素。能夠在這個核心環節擔任負責人,足以證明他在Google內部的權重。Andrew Dai 的學術貢獻不僅限於此。他曾與Google首席科學家 Jeff Dean 以及 Quoc V. Le(Google Brain 的傳奇人物)共同撰寫過多篇論文。早在 2015 年,他發表的一篇關於半監督序列學習(Semi-supervised Sequence Learning)的論文,就被認為對後來 OpenAI 的 GPT 系列模型產生了深遠的啟發。https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf一位熟悉 Andrew Dai 的人士評價道:「他是語言模型的先驅之一,過去二十年一直專注於預訓練相關的研究。他最擅長的,就是如何從海量、嘈雜的資料來源中提煉出高品質的“知識”。」如果說 Andrew Dai 代表了Google在巨量資料處理上的暴力美學,那麼聯合創始人 Yinfei Yang 則帶來了蘋果係的精緻與多模態視角。Yinfei Yang 此前在蘋果機器學習團隊擔任首席研究科學家(Principal Research Scientist),主要參與蘋果自研 AI 模型的開發。在加入蘋果之前,他也曾在 Google Research 工作過四年,專注於多模態表示學習。他在圖像-文字共嵌入(Image-text Co-embedding)領域的專長,恰好填補了單純語言模型的感知短板。視覺推理不只是「看見」,更要「理解」Elorian 究竟想做什麼?根據 Andrew Dai 的說法,Elorian 並不是要再造一個 ChatGPT,而是要建構一個能夠「同時理解和處理文字、圖像、視訊和音訊」的原生多模態模型。目前的 AI 模型大多是基於文字訓練,再通過「補丁」的方式接入視覺能力。而 Elorian 的願景是建構一個天生的「通感者」。這種模型不再是將圖片轉化為文字標籤,而是像人類一樣,通過視覺直接感知物理世界的邏輯。「視覺推理」被認為是通向 AGI 的必經之路。Andrew Dai 提到,機器人將是 Elorian 技術的一個潛在應用場景,但他強調公司的願景遠不止於此。在矽谷的投資人眼中,這通常意味著 Elorian 瞄準的是 AI 智能體的廣闊市場——一個能夠像人類一樣看著電腦螢幕、理解圖形使用者介面(GUI)、處理退貨流程、稽核法律檔案、操作其他軟體的超級助手。它不需要你通過 API 喂給它資料,而是直接像你一樣「看」著 Excel 表格、「聽」著電話錄音,同時「讀」懂螢幕上的郵件,並即時做出決策。這就是 Elorian 試圖建構的未來。資本的邏輯為「血統」買單5000 萬美元的種子輪融資,在幾年前聽起來像是天方夜譚,但在今天的 AI 泡沫中,這似乎成了頂級團隊的「入場費」。正在與 Elorian 洽談領投的 Striker Venture Partners,本身也是一家極具話題性的新銳基金。其創始人 Max Gazor 曾是老牌風投 CRV 的合夥人,以眼光毒辣著稱。他在去年 10 月剛剛自立門戶,Elorian 很可能是該基金成立後的首批標誌性賭注之一。對於 Max Gazor 這樣的投資人來說,他們賭的不僅僅是技術路徑,更是「Google DeepMind + 蘋果」這種稀缺的基因組合。Google提供了大規模訓練基礎設施的經驗,而蘋果則有著將 AI 落地到具體產品的務實文化。Elorian 的出現,也折射出大模型戰場的轉移。第一階段的戰爭是關於「文字生成」,OpenAI 憑藉 ChatGPT 拔得頭籌;第二階段的戰爭則是關於「多模態理解」和「物理世界互動」。在這個新戰場上,無論是 Gemini 還是 GPT,都在瘋狂補課視覺能力。Elorian 作為一個初創公司,想要在巨頭的夾縫中生存,唯一的籌碼就是技術上的代差,或者在垂直場景(如複雜的視覺 Agent)上做到極致。在矽谷,每一個從巨頭出走的頂級研究員,都懷揣著一個「反叛」的夢想:用更小的團隊、更聚焦的資源,去顛覆老東家龐大而遲緩的官僚體系。Andrew Dai 離開了效力 14 年的Google,Yinfei Yang 離開了發佈 Apple 智能的蘋果。他們選擇了一條最艱難的路——試圖教會機器不僅「看見」世界,還要「看懂」世界。這讓人想起電腦視覺領域的一句老話:「攝影機只是眼睛,演算法才是靈魂。」而在 AI 的洪流中,真正稀缺的永遠不是算力,而是那些能夠透過資料的迷霧,看清未來方向的眼睛。 (新智元)