#DeepMind
深度|Google為什麼總能做對決策?
將高度理性的資料驅動,與極度尊重個體創造力相結合。多年前,Gemini大模型的發佈讓全球科技圈重新審視Google的AI佈局。當外界還在討論其與GPT的參數比拚時,很少有人注意到一個細節:這款跨模態大模型的核心技術,源自Google2017年開放原始碼的Transformer架構,以及收購併長期投入的DeepMind實驗室——兩項看似不相關的佈局,在近十年後形成了精準共振。更早之前,當亞馬遜AWS已經在雲端運算市場佔據半壁江山時,Google雲(GCP)仍一度被視為“追隨者”,但如今憑藉AI原生雲的定位,成為全球第三大雲服務商,增速持續領跑行業。從搜尋引擎的絕對壟斷,到Android系統佔據全球移動裝置七成以上份額,從雲端運算的後發先至,到AI時代的技術引領,Google成立二十多年來,幾乎在每一個關鍵技術轉折點都踩准了節奏。與之形成鮮明對比的是,微軟有比爾·蓋茲、薩提亞·納德拉,亞馬遜有傑夫·貝佐斯,蘋果有史蒂夫·賈伯斯、蒂姆·庫克,這些CEO的個人光環幾乎等同於公司符號。而Google的歷任CEO,無論是埃瑞克·施密特、拉里·佩奇,還是如今的桑達爾·皮查伊,都顯得低調內斂,甚至在大眾認知中“存在感不強”。更值得玩味的是,科技行業對“管理文化”的討論,多集中在微軟的刷新、亞馬遜的Day1、蘋果的極致產品主義,Google的決策邏輯卻始終像一個黑箱。它沒有喊出振聾發聵的管理口號,也沒有形成可複製的“爆款方法論”,卻總能在複雜的市場博弈中做出正確選擇——以至於時至今日,在浪潮迭起的時代變化裡,這家公司從未落跑,市值更是超越蘋果,成為全球第二極。這背後,究竟隱藏著怎樣的運作模式?驅動Google持續做對決策的“發動機”,又是什麼?01 決策去中心化:讓聽到炮火的人掌握話語權在試圖理解Google如何做出決策時,一個常見的認知誤區是,尋找單一的、閃耀的個人權威或一句朗朗上口的管理箴言。但Google的決策體系,從根源上摒棄了“CEO集權”的模式。拉里·佩奇和謝爾蓋·布林在創立之初就意識到,技術創新的不確定性決定了最正確的決策往往不是來自頂層設計,而是源於一線團隊對技術趨勢和使用者需求的敏銳感知。這種認知,最終演變成Google“去中心化決策網路”的核心邏輯。在Google內部,幾乎不存在一言堂式的戰略制定流程。任何一個團隊,只要能拿出足夠有說服力的技術論證和市場分析,都可以向公司申請資源支援,甚至挑戰既定的戰略方向。2013年,當Google雲還處於起步階段時,內部有三個團隊同時在探索不同的雲端運算技術路線:一個聚焦基礎架構即服務(IaaS),一個主攻平台即服務(PaaS),還有一個嘗試將Google的核心技術(如巨量資料處理工具BigQuery)封裝成行業解決方案。不過這種“內部賽馬”,並不像當下許多網際網路公司的無序競爭。但與此同時,任何重大產品決策,從介面設計到市場進入,都必須通過嚴格的A/B測試和資料分析來驗證。即便是備受推崇的“20%自由時間”制度,其存續與調整也依賴於內部對創新產出率的持續評估。內部有一條廣為遵循的原則:“不要聽信‘河馬’,即最高薪人士的意見。” 在會議中,無論職位高低,最有說服力的不是頭銜,而是支援觀點的資料質量。一位初級工程師可以用詳實的A/B測試結果,質疑甚至推翻副總裁的產品設想。這創造了一種近乎“智力平等”的辯論場域,決策過程從權力博弈轉向真理探求。最終,Google沒有簡單地選擇某一條路線,而是將三個團隊的優勢整合,形成了“基礎架構+平台+行業解決方案”的三位一體模式。也正因此,Google雲避開了AWS早期“重IaaS輕生態”的短板,也沒有重蹈微軟Azure初期“定位模糊”的覆轍,在AI時代憑藉“雲+AI”的協同優勢實現彎道超車。在Google,“做決策”並不是高管的核心職責,決策往往在技術精英層的深度辯論中產生,CEO的角色更接近於辯論主持人、資源協調者和最終執行責任的承擔者,很少直接干預具體業務的決策,工作重心是協調跨部門資源、保障內部溝通順暢、維護公司的長期價值導向。這正是Google最獨特也最易被誤解的一點:它的決策權威,日益從個人身上轉移到系統之中。這解釋了為何其CEO相對低調,卻不妨礙組織高效運轉。佩奇和布林最持久的遺產或許並非某個具體產品。OKR才是核心處理程序,它強制要求目標公開透明、野心勃勃且可衡量。全公司上下,從CEO到基層團隊,每個人的OKR都相互可見。這一機制產生了兩個革命性效果:第一,它讓組織的力量在縱向和橫向上自動對齊,減少了因資訊不透明導致的重複勞動或方向偏離;第二,它使績效評估基於對公共目標的貢獻度,而非上級的主觀印象,進一步削弱了辦公室政治。“賦能而非管控”,讓Google內部形成了一種“自下而上”的決策動力。每個團隊都有足夠的自由度去探索,那麼公司要做的,是通過完善的資源調配機制,讓有潛力的方向獲得足夠支援。因此,Google的CEO無需像賈伯斯那樣扮演產品先知,也無需像貝索斯那樣事無鉅細地掌控,更無需像馬斯克那樣以個人形象繫結公司品牌。02 長期主義:不做“緊急但不重要”的決策Google的決策邏輯押注長期價值,但這種長期主義並不是簡單的“延遲滿足”。2006年,Google以16.5億美元收購YouTube時,這家視訊網站還處於虧損狀態,外界普遍質疑Google花天價買了一個燒錢機器。但佩奇和布林看到的,是視訊內容即將成為網際網路主流形態的趨勢。在收購後的十年裡,Google沒有強迫YouTube快速盈利,而是持續投入資金最佳化演算法推薦、搭建內容生態、完善創作者激勵機制。直到2019年,YouTube才成為Google營收的第二大支柱,如今更是佔據全球視訊串流媒體市場的半壁江山。反觀同期的競爭對手,雅虎視訊、微軟MSN視訊等,因急於追求短期盈利,頻繁調整戰略,最終在競爭中掉隊。除此以外,早年廣告業務爆發時,有團隊提出“根據使用者搜尋記錄精準推送廣告,甚至向第三方出售部分資料”,這個方案能讓短期收入大幅提升,卻被管理層否決。當時負責廣告業務的負責人拿出一份使用者隱私調研指出,大部分使用者願意接受適量廣告,但他們反感資料被濫用。團隊的邏輯很清晰:廣告收入的根基是使用者信任,破壞信任換短期增長,得不償失。如今,Google廣告業務依然是全球最賺錢的廣告模式之一,核心就在於使用者的信任積累。我們常常稱讚一家公司“反應迅速”、“抓住風口”,但Google的許多重要決策,在外界看來恰恰是“緩慢”甚至“遲鈍”的。雲端運算是另一個典型的例子。當亞馬遜AWS已經攻城略地、微軟Azure開始全力追趕時,Google雲似乎還在不緊不慢地搭建自己的技術架構。市場焦急,分析師質疑,客戶在流失。按照大多數公司的決策邏輯,這時應該立刻推出一套模仿對手的簡化產品,先搶佔市場再說。緊急嗎?非常緊急。重要嗎?似乎也重要。但Google的選擇是,繼續挖它的運河。因為它知道,如果僅僅複製一個AWS的替代品,自己永遠只能是追趕者。它要的,是修建一條完全不同的河道:一個真正為雲原生時代、為機器學習和巨量資料而設計的雲。這個決策意味著要忍受好幾年的市場質疑和份額落後,要把巨大的資源投入到像Kubernetes這樣的開源基礎設施中(當時看來這簡直是在為對手做嫁衣),要說服開發者接受一套全新的思維和工作方式。這個過程一點也不激動人心。但當數位化處理程序深入到下一個階段,企業不再滿足於簡單地把伺服器搬到網上,而是需要在雲上建構智能、靈活的應用時,人們才發現,Google挖的那條運河,恰好通往未來最需要水的地方。需要注意的是,在Google,有些團隊的任務就是應對“今天”和“本周”的問題,比如營運和最佳化現有產品。但另一些團隊,他們的OKR(目標與關鍵成果)時間跨度是三年、五年,甚至更長。他們的成功標準不是下個季度的營收,而是能否在某個根本性的技術或科學問題上取得突破。公司允許,甚至鼓勵一部分資源長期游離在“緊急”的業務壓力之外。這就好比一片森林,既有生長迅速、吸收養分的灌木層,也有生長緩慢、但最終決定森林高度的喬木層。決策時,你不能因為灌木長得快,就把所有陽光都給它。那麼,是誰在守護這種長期視角?在一個沒有強勢、獨裁型CEO的公司裡,這個責任是分散的。技術骨幹們承擔了一部分。在Google,高等級工程師擁有巨大的影響力。他們的晉陞和評價,很大程度上取決於對技術方向的判斷和貢獻。系統也承擔了一部分。OKR體系要求目標必須具有“挑戰性”,這天然鼓勵了超越當前能力的思考。當然,領導者依然是關鍵的守門人。長期主義的決策,結果不會立竿見影。但當它終於因為佈局深遠而迎來收穫期時,人們往往稱之為“幸運”或“遠見”。03 湧現的智慧:建構創新生態而非規劃創新路徑在《重新定義團隊》這本書裡,Google所認為的突破性創新,往往無法被“計畫”或“指揮”。規劃創新,聽起來很合理。設定明確的目標,分配資源,制定時間表,然後執行。但創新的本質,尤其是突破性的創新,常常是“規劃”不出來的。就像你無法在1920年規劃出網際網路,在1990年規劃出智慧型手機的具體模樣一樣。突破往往誕生於意料之外。Google很早就意識到了這一點。早期著名的“20%時間”政策,本質就是一種制度化的湧現機制,通過明確的制度授權,為自下而上的創意提供了資源、時間和合法性。Gmail、GoogleNews等里程碑產品皆源於此。儘管這一政策的形式隨著公司規模擴大而演變,但其核心,通過給予自主權來激發創造力,已融入Google的基因。這個制度能運轉,靠的不僅是規則本身,依然是一整套與之匹配的決策邏輯。首先,Google的決策尊重“自下而上”的發現。 在大多數層級森嚴的組織裡,資訊的流動和想法的認可,高度依賴匯報線。在這個過程中,想法很可能因為某個中間人而被過濾掉。Google通過技術論壇、內部程式碼開源、扁平化的項目啟動流程,努力讓好的想法能自己“浮”上來。其次,它鼓勵看似“不務正業”的跨界碰撞。管理層不會只根據“這個主題和我們的核心業務有多相關”來決定是否支援。他們認為創新常常發生在學科的邊緣和交叉地帶。保持知識的廣泛流動和跨界交流,就是在為不可預測的創新增加機率。在一個規劃驅動的文化裡,失敗是必須避免的污點,但在一個生態思維的文化裡,“嘗試-失敗-學習”是系統進化的基本方式。Google關停過無數產品,從Google+到Google眼鏡的消費者版本。這些決定當然不是輕易做出的,但公司不會因為一個項目的失敗,而全盤否定背後的團隊或個人,更不會因此就關閉所有高風險的探索通道。內部常常流傳著一些項目被砍掉的故事。有些項目可能有不錯的使用者資料,有忠實的團隊,甚至已經開始產生收入。但一旦評估認為,它只是對現有模式的微小改進,或者偏離了最核心的技術方向,就可能被終止。資源,尤其是最頂尖的人才會被重新調配到那些更具基礎性、更可能定義未來的工作上。這個決策過程通常是痛苦的。但它傳遞了一個訊號:在這裡,衡量一個決策的價值,不僅看它能否立刻解決一個麻煩,更要看它能否在五年後依然重要。這形成了一種文化,人們提出新想法時,會更自然地去思考它的長期潛力。這種思維在技術戰略上體現得尤為明顯。面對人工智慧的浪潮,Google早在十多年前就系統性佈局。收購DeepMind,開創性地發佈Transformer架構論文,開發TensorFlow開源框架……一系列決策看似分散,實則遵循著同一邏輯:在最底層、最肥沃的土壤中播種,然後耐心培育整個生態。所以當ChatGPT引發生成式AI熱潮時,外界驚覺Google早已在演算法、算力、資料、人才和基礎設施各層面構築了深厚壁壘。它的決策已超越追逐某個產品熱點,轉向投資一個必然到來的技術時代的全部基礎要素。這種模式要求決策者具備非凡的耐心和長遠的戰略定力。許多投入在短期內看不到回報,甚至會被外界詬病為“方向散亂”或“反應遲緩”。但Google的決策系統容忍這種模糊性,因為在正確的生態裡,湧現出的成果將遠超任何精心設計的路線圖。 (新眸)
DeepMind 掌門人預判 AGI 將於 5-10 年內降臨
最近,Google DeepMind 掌門人德米斯·哈薩比斯(Demis Hassabis)接受 CNBC 專訪。他難得敞開心扉,直言不諱地評價了全球 AI 格局,尤其是中國 AI 的追趕速度和創新現狀。“中國團隊的追趕速度極快,只落後幾個月,但在原創性上,他們還沒拿出 Transformer 級的東西。”以 DeepSeek、阿里為代表的中國 AI 團隊,在工程效率、推理最佳化、成本控制上,展現了恐怖的實力。“一篇新論文出來,他們往往能以驚人的速度復現,甚至在某些方面做得更好。”換句話說,在 “把已知路徑做到極致” 這件事上,中國團隊已經證明了自己是全球頂級玩家。也正因為如此,矽谷過去那種“領先一代”的技術安全感,正在被一點點消耗掉。不是按年,而是按月縮水。要知道,過去很長一段時間美國尤其是矽谷派的主流觀點是:中國在 AI 上還遠遠落後,大概是幾年的差距。根據史丹佛大學《2025 年人工智慧指數報告》,中國在 AI 論文發表和專利申請總量上持續領先。且像 DeepSeek、智譜等機構發佈的模型,在國際基準測試中已與第一梯隊產品表現相當。以 DeepSeek V3.2 為例,在公開的推理類基準測試中,它已經能夠全面對標 GPT-5,僅略低於 Gemini 3 Pro。然而,他也指出原創性依然是中國團隊的短板。Transformer 或 AlphaGo 那樣從零到一的技術突破,目前在中國尚未出現。換句話說,中國團隊可以“開車飛馳在既有軌道上”,但鋪設全新軌道的能力仍需時間和積累。哈薩比斯強調,這並非能力不足,而是原創性突破往往需要長期科研積累、實驗失敗和探索精神的結合。不過哈薩比斯也看到了中國 AI 獨有的潛力,他認為當工程最佳化達到一定高度,往往會催生質變。中國憑藉廣闊的應用場景、迅速的市場反應和持續投入,很可能從別出心裁的角度,斬出那一刀改變格局的創新。在談到通向 AGI 的挑戰時,哈薩比斯強調,現有大模型存在“鋸齒狀智能”(jagged intelligence)。這是指模型在某些任務上表現非常出色,但面對複雜因果鏈條、多步驟邏輯推理或現實世界常識時,能力不穩定甚至可能出錯。這說明通用智能不僅需要強大的處理能力,還要在多個維度上保持穩定和一致。除此之外,現有系統無法持續線上學習,也難以自發產生原創性想法,通向 AGI 仍需克服這些根本性限制。在這一背景下,哈薩比斯談到 Scaling Law(規模定律)及其作用。他認為,雖然模型增大、算力增加和資料擴充的回報增速有所放緩,但總體進展依然非常好,能力提升仍值得投入。然而,要真正實現 AGI,僅靠 Scaling Law 仍不夠,還需要一兩個像 Transformer 那樣的重大範式突破。哈薩比斯保持謹慎樂觀,預計 AGI 很可能在五到十年內實現,同時指出算力問題最終歸結於能源,因此未來能源將成為“智能的貨幣”。他還進一步提到“世界模型”概念,作為通向 AGI 的核心手段。與 LLM 主要處理文字不同,世界模型能夠理解因果關係和長期後果,在腦中模擬世界、驗證假設,實現規劃和預測。未來 AGI 很可能是 LLM 與世界模型的融合體。DeepMind 已在 Genie、視訊生成 Veo 和機器人模擬中佈局早期世界模型,讓 AI 在虛擬環境中練習、犯錯、成長,真正具備“理解”和“預測”能力。在應用層面,哈薩比斯看好端側 AI,即將高效、輕量的模型運行在手機、可穿戴裝置和智能眼鏡等終端上。Google計畫通過 Project Aura 智能眼鏡以及機器人領域的探索,讓 AI 不僅會“說”,還能實際“做事”,並行揮實用價值。過去兩三年,DeepMind 也回歸“創業公司狀態”,快速迭代 Gemini 模型並落地到 Google 核心產品,包括搜尋、Workspace 和智能眼鏡等場景,使Google在算力、模型規模和應用落地上都保持競爭優勢。總體來看,哈薩比斯認為,中國 AI 已憑實力贏得了頂級牌桌的入場券,但未來幾十年的格局,將取決於誰能率先鋪設無人區的軌道。速度固然重要,但方向選擇才是關鍵。真正的競爭,不只是算力之爭,更是敢於探索未知、率先開闢全新路徑的勇氣與能力。在這個意義上,2026 年不僅可能見證端側 AI、agent 系統和機器人領域的突破,也將考驗誰能在通向 AGI 的道路上,把工程能力與原創性創新結合,率先鋪出未來的新軌跡。 (科技狐)
騰訊研究院AI速遞 20260126
生成式AI一、OpenAI Codex預告,今先揭秘Codex CLI核心智能體循環1. OpenAI CEO奧特曼預告下周起將發佈Codex相關重磅內容,官方同步發佈技術部落格揭秘Codex CLI核心架構——智能體循環;2. 智能體循環通過Responses API協呼叫戶指令、模型推理與本地工具執行,採用"提示詞前綴一致"策略觸發快取最佳化性能;3. Codex支援零資料保留配置保障隱私,利用自動壓縮技術管理上下文窗口,後續將深入介紹工具呼叫和沙箱模型。二、Google DeepMind 發佈 D4RT,徹底顛覆了動態 4D 重建範式1. GoogleDeepMind發佈D4RT,將3D重建、相機追蹤、動態物體捕捉統一成"查詢"動作,速度比現有SOTA快18至300倍;2. 核心創新是統一的時空查詢介面,AI先全域"閱讀"視訊生成場景表徵,再按需搜尋任意像素的3D軌跡、深度和位姿;3. 該技術對具身智能、自動駕駛和AR意義重大,讓AI即時理解動態環境,但訓練仍需10億參數模型和64個TPU。三、Claude Code 宣佈重磅升級:將內部的Todos升級為 Tasks1. Claude Code將內部"Todos"升級為"Tasks",支援多會話或子代理協作完成跨越多個上下文窗口的長期複雜項目;2. Tasks儲存在檔案系統中便於多個會話協同,當一個會話更新Task時會廣播給所有處理同一任務列表的會話;3. 新功能適配Opus 4.5更強的自主運行能力,使用者可通過環境變數讓多個會話在同一任務列表上協作。四、文心5.0正式版發佈,霸榜LMArena的最強文科生強在那1. 百度文心5.0正式版上線,參數量達2.4兆,採用原生全模態統一建模技術,支援文字、圖像、音訊、視訊的理解與生成;2. 在LMArena文字和視覺理解榜單五次登頂,進入全球第一梯隊,語言與多模態理解能力穩居國際領先;3. 實測顯示模型在複雜情感理解、弦外之音分析、創意寫作等文科任務表現突出,被稱為"最強文科生"。五、Clawdbot刷屏,AI智能體+閘道器,現階段使用請注意風險1. 開放原始碼專案Clawdbot在矽谷爆火,可在Mac mini上運行,兼具本地AI智能體和聊天閘道器雙重身份,通過WhatsApp、iMessage等隨時對話;2. Clawdbot解決了大模型記憶力痛點,能記住兩周前的對話,還會主動推送郵件、日程提醒,並可直接操控電腦執行任務;3. 項目GitHub獲9.2k星,最低月成本約25美元,但需要一定技術基礎部署,使用者反饋它能自動管理生意、寫程式碼替代Zapier等付費服務。六、LeCun創業官宣核心方向,掀起對Next-token範式的「叛變」1. 圖靈獎得主LeCun創立的AMI Labs官宣核心方向為"世界模型",旨在建構理解現實世界、具備持久記憶和推理規劃能力的智能系統;2. 該路線認為僅靠預測下一個token無法真正理解現實,需在更高層次表徵空間進行預測與推理,過濾不可預測的噪聲資訊;3. AMI Labs據傳正以35億美元估值融資,目標應用於工業控制、機器人、醫療等對可靠性要求極高的領域。七、實測:Claude in Excel,能聯網、能做表、辦公完全自動化1. Anthropic推出Claude in Excel外掛,支援Pro、Max、Team、Enterprise使用者,基於Opus 4.5模型,可通過Microsoft Marketplace安裝啟動;2. 外掛能聯網搜尋並自動填充表格,支援讀取公式、Debug錯誤、從零建模、製作透視表等功能,支援.xlsx和.xlsm格式;3. 當前不支援條件格式、宏和VBA,官方提醒存在prompt injection風險,建議只用可信來原始檔,高危函數會彈確認框。報告觀點八、Claude Code之父最新私教課:手把手教你Claude Cowork1. Claude Code創造者Boris Cherny詳解Cowork使用方法,強調將其當作"執行者"而非聊天工具,可直接操控檔案、瀏覽器和各類工具;2. 在之前X推文基礎上,再次強調:核心工作流是平行運行多個任務照看Claude們,先用"計畫模式"來回溝通直到滿意,再切換"自動接受編輯"模式執行;3. 強調Claude.md作為團隊複利式知識庫的重要性,任何Claude犯的錯都應加入進去,以及給Claude驗證輸出的方式能顯著提升質量。九、Google總監警告:只會寫Prompt的程式設計師,2026年將被淘汰1. Google雲AI總監Addy Osmani警告"氛圍程式設計"已撞南牆,AI能完成70%前期工作但剩餘30%只有經驗豐富的工程師能搞定;2. Stack Overflow調查顯示開發者對AI精準性信任度從40%降至29%,73%受訪者遇到過氛圍編碼導致的程式碼理解問題;3. 2026年真正核心競爭力是把模糊問題轉化為明確執行意圖、設計好上下文結構,以及區分真正重要的東西。十、「AI 無處不在」的達沃斯論壇,科技巨頭們都說了那些金句?1. 馬斯克預測2026年底前AI將超越人類智慧,到2030年AI將比全人類集體智慧更聰明,特斯拉明年底將開售人形機器人Optimus;2. 微軟CEO納德拉警告若AI只消耗資源不改善結果社會會失去容忍,黃仁勳稱具身智能是"一代人一次的機會";3. DeepMind CEO哈薩比斯認為AGI還需5-10年,Anthropic CEO達里奧稱只差6-12個月模型就能端到端完成軟體開發。 (騰訊研究院)
【達沃斯論壇】DeepMind與Anthropic達沃斯交鋒:AGI逼近,5年內或有大規模失業
阿莫代堅持,今明兩年會出現“在多領域達到諾貝爾獎水平、能完成人類所有認知任務”的模型。而哈薩比斯相對保守,認為到2030年代末有50%機率實現“展現人類全部認知能力”的AI。二者均認為,短期內(1-5年),AI會對初級白領工作,尤其是在程式設計、軟體領域,造成衝擊。當地時間1月20日,在瑞士達沃斯小鎮舉辦的世界經濟論壇第56屆年會上,一場名為“AGI之後的一天”(The Day After AGI)的圓桌論壇吸引了不少關注。這場圓桌被放置在論壇主議題之一的“我們如何能夠大規模且負責任地部署創新?”下,主要聚焦那些突破對AGI來說最為重要,以及在其真正實現之前和之後,人類會面臨和需要解決那些問題。Google旗下DeepMind聯合創始人兼CEO、諾貝爾化學獎得主德米斯·哈薩比斯(Demis Hassabis)與風頭正勁的獨角獸Anthropic聯合創始人兼CEO達里奧·阿莫代(Dario Amodei)就此展開討論。《經濟學人》主編詹妮·貝多絲(Zanny Minton Beddoes)應邀擔任主持。雖然圓桌的話題頗具科幻色彩,阿莫代和哈薩比斯也確實應景地談到了《超時空接觸》、費米悖論等問題,但實質上,圓桌本身聚焦的是現實世界的問題,尤其是人類可能面對的風險。兩位嘉賓依舊看好人工智慧能力的快速發展。阿莫代堅持自己此前的觀點——今年到明年間就會出現“一個能夠在許多領域達到諾貝爾獎得主水平、完成人類所能做的一切的模型”。哈薩比斯更加謹慎,但也認為到2030年代末,AI至少有50%的機率“展現人類所有的認知能力”。而兩人背後的公司,也被視為這一快速發展處理程序中的翹楚,尤其2025年至今,Google和Anthropic憑藉Gemini 3和 Claude Opus 4等產品,成為了行業矚目焦點。阿莫代更是放話稱,兩家公司取得成功的要點,在於公司或承擔研究功能的組織都是由研究人員領導的,他們專注於模型,專注於解決世界上的重要問題,並預言這類公司將在未來取得成功。與之呼應的,阿莫代在當日接受《華爾街日報》採訪時談到,科學家營運的AI公司和社交媒體背景的領導者營運的公司有明顯區別,後者在意商業激勵、傾向影響消費者,但可能會逃避關鍵的責任。這似乎是在暗指其前東家OpenAI的CEO薩姆·奧爾特曼(Sam Altman)(曾創辦過一家社交媒體),而Meta更是社交媒體領域的絕對霸主。隨著話題轉入AI或AGI可能帶來的風險,二者都給出了預警。多項研究顯示,AI尚未對人類就業形成明顯影響,甚至在創造新的崗位。不過,阿莫代和哈薩比斯都提示,從今年開始,人們可能就會看到AI對初級水平工作形成衝擊。而隨著AI能力的指數級成長,或許近在兩年內,或許在1-5年內,或許在5-10年內,勞動力市場和經濟體系的適應能力將遇到重大考驗,甚至有被壓垮的風險。阿莫代去年表示,AI會讓一半的入門級白領工作崗位消失。在論壇現場,他仍堅持自己的看法,並稱在軟體和程式設計領域已經看到了這一趨勢,Anthropic內部也在考慮如何妥善處理類似問題。哈薩比斯進而提示稱,包括政府、經濟學家等在內,人類社會對此的重視不足,所作的準備也“遠遠不夠”。他提到,就近來說,隨著AI影響就業,包括Google在內的科技巨頭、AI公司都有可能受到公眾的抵制,面臨更複雜的處境。而未來5到10年內,AI或AGI帶來的“後稀缺”社會將引發關於人類生命意義、行為目的和財富分配的深刻挑戰。阿莫代在接受《華爾街日報》採訪時提到,人們面對的前景是實現5%到10%的GDP增長的同時,可能同時面臨10%的失業率,政府必須要對大規模就業崗位流失承擔責任、有所作為,否則將是“人類社會的噩夢”。此外,兩人也對備受矚目的地緣政治問題給出了自己的看法。阿莫代認為,大國間的競賽可能成為AI風險的放大器,哈薩比斯則強調了國際協調和設定最低安全標準等的重要性。兩人當日還接受了彭博社等媒體的採訪,並談到了中美AI競賽的問題。哈薩比斯稱DeepSeek的確令人印象深刻,中國在AI前沿技術上或許只落後美國6個月,而非1-2年,但尚未證明自己能夠超越前沿進行創新。阿莫迪則堅持自己的一貫觀點,認為美國政府應繼續限制對中國出售高端AI晶片。對風險的討論幾乎貫穿甚至主導了整個圓桌的處理程序。當貝多絲希望兩人用15秒的關於今年AI發展的關注和預測收尾時,阿莫代稱,最值得關注的是“用AI系統建構AI系統”,其進展將決定人類還需要幾年才能實現AGI。但他也同時提示,人類或許將面臨一個必須應對的,機遇與巨大危機並存的前景。哈薩比斯稱,自己除此之外還關注世界模型、持續學習等的進展,並預測機器人技術可能會迎來爆發時刻。以下為圓桌討論實錄,經鈦媒體編輯翻譯整理:詹妮·貝多絲:歡迎大家,也歡迎正在觀看直播的各位。我必須說,我們期待這次對話已有四個月了。我很幸運,去年在巴黎主持了兩位之間的一場對話,可惜那場對話最引人注目的似乎是你們倆被擠在一張非常小的“情人座”上。而我當時坐在一張巨大的沙發上,這大概是我的安排失誤。但我當時說過,這對我來說就像是和披頭士樂隊與滾石樂隊一起聊天,而你們兩位此前從未在台上對過話。所以,這次就像是傳奇樂隊的再次聚首。我非常高興。兩位也都無需再過多介紹了。我們對話的主題是“AGI之後的一天”,我覺得這或許有點超前,因為我們可能應該先談談我們如何能快速、輕易地抵達AGI。我想先就此做個更新,然後再談談其後果。首先,關於時間線,去年在巴黎,達里奧說到2026-2027年,我們將擁有一個能夠在許多領域達到諾貝爾獎得主水平、完成人類所能做的一切的模型。現在已經到了2026年,你仍然堅持那個時間線嗎?達里奧·阿莫代:你知道,要確切知道某事何時發生總是很難,但我不認為那個估計會偏差太遠。我當時的設想是,我們將創造出擅長編碼和人工智慧研究的模型,並用它們來生產下一代模型,加速形成一個循環,從而加快模型開發的速度。就目前而言,在編寫程式碼的模型方面,Anthropic內部有工程師說,他現在已經完全不寫程式碼了,而是只讓模型寫程式碼,自己來編輯,並做周邊的工作。我想,可能還需要6到12個月,模型就能完成軟體工程師大部分、甚至全部端到端的工作。然後問題就在於這個循環能多快閉合。並非這個循環的每個部分都能被AI加速,對吧?比如晶片製造、模型訓練時間。所以,我認為這裡面有很多不確定性,人們會覺得這可能還需要幾年時間。但對我來說,很難想像這會需要比那更長的時間。如果非要我猜,我猜這會比人們想像的更快。程式設計以及日益加速的研究進展,將是關鍵驅動力。要預測這種指數級加速究竟有多快真的很難,但肯定會發生得很快。詹妮·貝多絲:德米斯,你去年要稍微謹慎一些。你說到本年代末,有50%的機率會出現一個能夠展現人類所有認知能力的系統。顯然,在程式設計方面,正如達里奧所說,已經取得了驚人進展。你現在的看法如何?是否堅持自己的預測?據你觀察,過去一年又發生了什麼變化?德米斯·哈薩比斯:是的,我仍然堅持大致相同的時間線。我認為已經取得了顯著進展,但像工程、程式設計或者數學這類領域,似乎更容易看到如何實現自動化,部分原因是其結果可以驗證。而一些自然科學領域則要困難得多。你未必能知道你預測的化學化合物或物理理論是否正確,可能必須通過實驗來驗證,這都需要更長的時間。所以我也認為,目前還缺少一些能力。不僅僅是解決現有的猜想或問題,而是首先要能提出問題、形成理論或假設——我認為這要困難得多。我認為這是最高層次的科學創造力。目前還不清楚我們是否將擁有這樣的系統。我認為這並非不可能,但可能還缺少一兩個要素。首先需要看看我們正在研究的這種自我改進循環,能否在沒有人類干預的情況下真正閉合。順便說一句,我認為這類系統也存在風險,我們應該討論一下。我相信我們會談到的,但如果這類系統真的奏效,那將加速處理程序。詹妮·貝多絲:我們稍後會談到風險。但過去一年還有一個變化,那就是這場競賽的排名順序發生了變化,如果可以這麼說的話。一年前的這個時候,我們剛經歷了DeepSeek時刻,所有人都對此感到無比興奮。當時人們還有一種感覺,認為Google在某種程度上落後於OpenAI。我想說,現在情況看起來大不相同了。OpenAI已經因為你們發佈了“紅色警報”,對吧?這是相當不平凡的一年。那麼,具體來說,有什麼讓你感到驚訝?你們今年做得如何?然後我也想聽聽你對當前格局的看法。德米斯·哈薩比斯:嗯,我一直非常有信心我們能重新回到排行榜的頂端,在各個領域擁有最先進的模型,因為我認為我們一直擁有最深、最廣的研究人才儲備。而關鍵在於如何整合這一切,讓整個組織重新擁有那種強度和專注度,以及創業公司般的心態。我們做了很多工作,雖然還有很多工作要做,但我開始看到進展,無論是Gemini 3大模型,還是在產品方面,Gemini應用的市場份額在不斷增加。所以我覺得我們正在取得巨大進展,但還有海量工作要做。我們正在利用DeepMind作為Google的“引擎室”,習慣於更快地將我們的模型應用到產品服務中。詹妮·貝多絲:達里奧,關於這方面我有個問題要問你,因為你們正在進行新一輪融資,估值也高得驚人。但你和他們不同,你們被稱作“獨立模型廠商”。我認為,人們越來越擔心獨立模型公司可能無法堅持足夠長的時間,直到盈利真正到來的那一天。外界對OpenAI也有公開的質疑。請談談你對此的看法,然後我們再回到AGI本身。達里奧·阿莫代:是的,我們對此的看法是,隨著我們建構的模型越來越好,不僅存在你投入模型的算力與其認知能力之間的指數關係,還存在其認知能力與它能夠產生的收入之間的指數關係。所以,我們的收入在過去三年增長了10倍,從2022年的零收入,到2023年的1億美元,2024年的3億到10億美元,再到2025年的10億到100億美元。我不知道這條曲線是否會完全照此延續,如果真是那樣就太瘋狂了。但這些數字開始接近世界上最大公司的規模了。當然,總是存在不確定性。我們是從零開始建立這家公司的,這很瘋狂。但我有信心,如果我們能產出我們專注領域中最優秀的模型,那麼事情就會順利發展。總的來說,我認為這對Google和Anthropic來說都是不錯的一年。實際上我們的共同點是,我們兩家公司,或者說公司的研究部分,都是由研究人員領導的,他們專注於模型,專注於解決世界上的重要問題,對吧?這些困難的科學問題就像是我們的北極星。我認為這類公司將在未來取得成功。我們之間有著這種共同點。詹妮·貝多絲:其實我很想問問你,那些不是由研究人員領導的公司會怎樣,但我知道你不會回答。那麼,我們現在進入預測環節。我們本應談論“AGI之後的一天”,但還是先來談談閉環吧。你們獲得能夠形成閉環、實現自我驅動的模型的機率有多大?這似乎會造成“贏家通吃”的局面,你們認為我們很可能會看到這種情況嗎?還是說這將成為一種更常規的技術,讓追隨者和追趕者也能競爭?德米斯·哈薩比斯:我絕對認為這將是一種常規技術。我的意思是,正如達里奧提到的,有些方面已經顯現,它已經在幫助我們的程式設計和一些研究工作。但完全的閉環,我認為還是個未知數,但有可能做到。你可能需要AGI本身才能在某些領域實現這一點。同樣,在這些領域,情況更複雜,很難快速驗證你的答案。那是更混亂的領域。順便一提,AGI還包括物理AI、機器人技術等等,然後你還有硬體層面的限制,這可能會限制自我改進系統的運行速度。但在程式設計、數學這類領域,我們絕對能看到其發揮作用。而更具理論性的問題則是,工程和數學在解決自然科學方面的極限何在。詹妮·貝多絲:達里奧,去年你發表了《愛與恩典的機器》(Machines of Loving Grace),那是一篇非常樂觀的文章,談論了你看到的人工智慧的潛力。你當時提到了一個“天才資料集國家”的概念,我聽說你正在撰寫一篇更新版的新文章。所以,各位,敬請期待。它還沒發表,但即將面世。或許你可以給我們提前透露一下,你的主要觀點會是什麼。達里奧·阿莫代:我的觀點沒有改變。我一直認為,人工智慧將變得極其強大。我想德米斯和我都同意這一點。問題只在於確切的時間。因為它極其強大,它將完成所有這些奇妙的事情,就像我在《愛與恩典的機器》中談到的,比如幫助我們治癒癌症,可能幫助我們根除熱帶疾病,幫助我們理解宇宙等。但同時,也存在巨大而嚴重的風險。我不是末日論者,我認為我們可以應對這些風險,但我們需要思考它們,需要解決它們。我先寫了《愛與恩典的機器》。我想給出一個複雜的理由解釋為何先寫那篇,但其實只是因為寫積極方面的文章比寫消極方面的更容易、更有趣。所以,我終於在休假期間花時間寫了一篇關於風險的文章。我是一個樂觀的人,所以即使我在寫風險的時候,也是以一種“我們如何克服這些風險?我們如何制定作戰計畫來對抗它們?”的角度來寫的。我用的框架是電影版《超時空接觸》中的一個場景。他們發現了外星生命,一個國際小組正在面試,以選出人類代表去會見外星人。他們問其中一個候選人的一個問題是:如果你能問外星人一個問題,你會問什麼?其中一個角色說:我會問,你們是如何做到的?你們如何在技術青春期沒有毀滅自己?你們是如何度過的?自從我大約20年前看了那部電影,這個想法就深深印在我腦海裡。這就是我使用的框架:我們正在敲響擁有這些不可思議能力的大門,基本上就是用沙子建造機器的能力。我認為,從我們開始使用火的那一刻起,這就是不可避免的。但重點在於我們如何應對它,風險並非不可避免。因此,我認為未來幾年,我們將面臨如何控制這些高度自主、比任何人類都更智能的系統。如何確保個人不會濫用它們?我擔心諸如生物恐怖主義之類的事情。如何確保國家不會濫用它?這就是為什麼我一直如此關注相關政權的問題。還有經濟影響。我經常談到勞動力置換,以及可能發生的事情。這在許多情況下可能是最難處理的事情。所以,我正在思考如何應對這些風險。對於每一個風險,都需要我們作為公司領導人各自去做一些事情,也需要我們共同努力去做一些事情。同時,還需要更廣泛的社會機構,如政府,在應對所有這些方面發揮作用。我只是感到一種緊迫感,每天都是如此。在AI之外的外部世界,有各種各樣瘋狂的事情正在發生,對吧?但我的觀點是,這一切發生得太快了,這是一場如此嚴重的危機,我們應該將幾乎所有的精力都投入到思考如何度過這個時期上。詹妮·貝多絲:我真不知道該更驚訝於那一點,是你居然會休假,還是你休假時還在思考AI的風險?又或者你的文章框架竟是“我們能否在不毀滅自己的情況下度過這項技術的青春期”?我的腦子有點轉不過來了。不過,你提到了幾個可以引導我們接下來討論的領域。我們先從工作說起,因為你對此一直直言不諱。你說過,未來一到五年內,一半的初級白領工作可能會消失。但我想就此問問德米斯,因為到目前為止,我們實際上還沒有看到勞動力市場受到任何明顯的影響。是的,美國失業率略有上升,但我看過的所有經濟學研究以及我們的報導都表明,這是疫情後的過度招聘所致,並非AI驅動。如果說有什麼影響的話,人們是在為建構AI能力而招聘。你認為這會像經濟學家們一直論證的那樣,並非“勞動力總量固定”的謬誤,實際上會創造出新的工作嗎?因為迄今為止的證據似乎指向這一點。德米斯·哈薩比斯:我認為短期內會發生的情況是,當一項突破性技術出現時,一些工作會受到衝擊,但我認為新的、可能更有價值、更有意義的工作將會被創造出來。我認為今年我們將開始看到對初級、入門級白領工作、實習等領域的初步影響。我認為有一些證據。我們自己也能感受到。也許我們在那方面的招聘會放緩,但我認為,目前幾乎對所有人免費開放的這些驚人的創意工具,可以更多地彌補這一點。如果我現在對一群本科生講話,我會告訴他們要變得對這些工具異常熟練。我認為,甚至我們這些建構者都忙於建構,很難有時間去真正探索即使是今天的模型和產品已經具備的、更不用說明天的“能力過剩”了。這可能比傳統的實習更好,能讓你實現某種跨越,在專業領域變得有用。所以,我認為在接下來的五年裡,我看到的可能就是這種情況。也許我們在時間尺度上略有不同。但AGI到來之後會發生什麼,那就是另一個問題了。那時,我們將真正進入未知領域。詹妮·貝多絲:達里奧,你是否認為這會比你去年說“一半的白領工作”時所想的時間要長?達里奧·阿莫代:不,我的看法基本相同。實際上我同意你和德米斯的觀點。在我發表那個評論的時候,勞動力市場還沒有受到影響。我當時不是說那時已經產生了影響。現在我想我們可能開始看到一點點苗頭,比如在程式設計領域。甚至在Anthropic內部,我也能看到,我可以預見在未來,在初級層面,甚至在中級層面,我們實際上需要的人會越來越少,而不是越來越多。我們正在思考如何在Anthropic內部以合理的方式處理這個問題。至於一到五年這個時間範圍,如果是六個月前,我會堅持那個看法。如果你把這和我之前說的聯絡起來——即我們可能在一到兩年內,或者稍長一點時間,擁有在各方面都比人類更優秀的人工智慧——那麼這兩者似乎並不一致。原因是存在滯後性和替代過程,我知道勞動力市場是有適應性的。就像過去80%的人從事農業,農業自動化後,他們成了工廠工人,然後是知識工作者。所以,這裡也存在一定程度的適應性。我們應該對勞動力市場如何運作有經濟學的、複雜的理解。但我擔心的是,隨著指數級增長持續加速,我認為這不會花太長時間,可能仍在一到五年之間,它將壓垮我們的適應能力。我想我可能和德米斯說的是同一件事,只是排除了我們在時間線上的一些分歧,我認為這最終歸結於你多快能實現閉環。詹妮·貝多絲:你們有多大信心認為政府能認識到這個問題的規模,並開始思考他們需要什麼樣的政策應對?德米斯·哈薩比斯:我認為政府在這方面所做的工作遠遠不夠。我常常感到驚訝,即使是在這樣的場合遇到經濟學家,也沒有更多的專業經濟學教授在思考將會發生什麼——不僅僅是通向AGI的道路上,甚至包括如果我們把達里奧談到的所有技術問題都處理好之後會面臨的問題。工作置換是一個問題,我們都擔心其經濟影響。但也許有辦法更公平地分配這種新的生產力、新的財富。我不知道我們是否有合適的制度來做到這一點,但這正是應該發生的。到那時,我們可能會進入一個後稀缺世界。但即便如此,還有那些讓我夜不能寐的更宏大的問題,關係到意義、目的,我們很多人從工作中獲得的不僅僅是經濟回報。這是一個問題。但奇怪的是,這可能比解決人類整體狀況和人性問題要容易一些。我同樣樂觀地認為我們會找到解決辦法。我們今天做的很多事情,從極限運動到藝術,並不一定直接與經濟收益相關。所以我想我們會找到意義,也許會有更複雜版本的活動,再加上我認為我們將探索更廣泛的世界。作為目標,所有這些都將被考慮在內。但我認為,即使按照五到十年的時間線,離那一刻到來也沒有多少時間了,現在真的需要開始思考了。詹妮·貝多絲:你認為出現公眾對AI的強烈抵制,從而導致政府做出從你的角度來看可能是愚蠢行為的風險有多大?因為我回想起20世紀90年代的全球化時代,當時確實有一些工作崗位流失,政府做得不夠,公眾的強烈抵制最終導致了我們現在所處的局面。你是否認為存在一種風險,即在政治體中會出現對你們和你們公司所做之事日益增長的敵意?德米斯·哈薩比斯:我認為絕對存在風險。我認為這種擔憂是合理的。人們對工作、生計等問題存在恐懼和擔憂。我認為有幾件事在未來幾年可能會非常複雜,包括地緣政治等問題。比如我們想要並且正努力通過AlphaFold和我們的科學工作、我們的衍生公司Isomorphic Labs去實現的目標——解決所有疾病、治癒疾病、開發新能源。作為一個社會,顯然我們想要這些。但我認為或許整個行業的活動平衡性不夠偏向這類活動,我認為應該有更多像AlphaFold這樣明確給世界帶來益處的例子。我們需要更多像AlphaFold這樣的事物。我認為,實際上,整個行業和我們所有領先的參與者都有責任更多地展示、證明這一點,而不僅僅是談論。但同時,它也會帶來這些意想不到的干擾。另一個問題是地緣政治競爭。顯然,有公司之間的競爭,但主要還是美國和中國之間的競爭。或許有組織來推動國際合作或理解會更好,例如就部署的最低安全標準達成一致,我認為這實際上是很有必要的——這項技術將是跨國界的,它將影響每個人,影響全人類。實際上,《超時空接觸》也是我最喜歡的電影之一。說起來有點巧,我沒想到你也喜歡。總之,我認為這類事情需要解決。如果我們能做到,也許比我們當前預測的、甚至比我的時間線稍慢一點的進度,對社會來說可能是好事,這樣我們可以把事情做對,但這需要協調。達里奧·阿莫代:你的時間表讓步了。詹妮·貝多絲:好吧,達里奧,現在讓我們也來談談這個,因為自從我們上次在巴黎交談以來,地緣政治環境如果說有什麼變化的話,那就是更加複雜、瘋狂了,無論你想用什麼詞來形容。其次,美國現在對中國的態度非常不同。那是一種更無保留的、儘可能快的競爭態度,但仍然向中國出售晶片。另外,現在美國和歐洲之間的關係也變得非常奇怪。在現實世界中,地緣政治風險是否增加了?你認為應該為此做些什麼?美國政府在做的似乎與你的建議相反。達里奧·阿莫代:我們只是盡力在我們所處的環境中做到最好,不管這環境有多瘋狂。但至少我的政策建議沒有改變。不銷售晶片是我們能做的、確保我們有時間處理此事的最重要的事情之一。我之前說過,我更喜歡德米斯的時間線,我希望我們有五到十年的時間。可能他是對的,而我是錯的。但假設我是對的,它可能在一到兩年內實現,那我們為什麼不能放慢到德米斯的時間線呢?實際上,我們不能這樣做的原因,正因為我們的地緣政治對手正在以相似的速度建構同樣的技術。很難達成一個可執行的協議,讓他們放慢速度,而我們也放慢速度。所以,如果我們只是不出售晶片,那麼這就不是美國和中國之間的競爭問題,而是我和德米斯之間的競爭問題,我非常有信心我們能解決這個問題。詹妮·貝多絲:你對政府的邏輯怎麼看?據我理解,他們認為我們需要銷售晶片,因為我們需要將中國繫結在美國的供應鏈上。達里奧·阿莫代:我認為這不僅是時間尺度的問題,更是技術重要性的問題。如果這只是電信或其他什麼技術,那麼關於推廣美國技術堆疊、確保世界各地的資料中心使用輝達晶片而不是華為晶片等所有說法,也許都成立。但有關AI晶片的決定不一樣……我認為所有限制措施遠不如禁售晶片有效。詹妮·貝多絲:我們繼續往下推進。末日論者擔心的另一個潛在風險是一種全能的、惡意的AI。我認為你們兩位都對末日論者持一定的懷疑態度。但在過去的一年裡,我們看到這些模型表現出欺騙、表裡不一的能力。你們現在對這個風險的看法是否與一年前不同?模型的發展方式是否有讓我們應該更加關注的地方?達里奧·阿莫代:是的,自從Anthropic成立之初,我們就一直在思考這種風險。我們最初的研究是非常理論化的。我們開創了“機械可解釋性”的概念,即深入模型內部,試圖理解它為什麼做它所做的事,就像人類神經科學家試圖理解大腦一樣,我和德米斯都有這個背景。隨著時間的推移,我們越來越多地記錄了模型出現時的惡意行為,並正在努力通過機械可解釋性來解決它們。所以,我一直很擔心這些風險。我和德米斯談過很多次。我想他也一直擔心這些風險。我肯定一直是,而且我猜德米斯也是,對末日論持懷疑態度——即我們註定要完蛋,我們無能為力,或者這是最可能的結果。我認為這是一個風險,但如果我們共同努力,我們可以應對。我們可以通過科學來學習如何妥善控制和引導我們正在建構的這些創造物。但如果我們建構得很糟糕,如果我們都全速競賽,快到沒有任何防護欄,那麼我認為確實有出問題的風險。詹妮·貝多絲:德米斯,我給你一個機會,在一個更廣泛一點的背景下回答這個問題:在過去的一年裡,你對這項技術在科學等所有你們談論很多的領域的上行潛力是更有信心了,還是對我們討論的風險更擔憂了?德米斯·哈薩比斯:我研究AI已經超過20年了。我整個職業生涯都投身於AI,正是因為它的上行潛力——解決終極科學工具、理解我們周圍宇宙的潛力。我從小就對這著迷。建構AI應該是實現這一目標的終極工具,如果我們做得對的話。關於風險,我們也從一開始就在思考,至少從DeepMind成立15年前就開始。我們預見到,如果你獲得了上行潛力,它就是一種雙重用途的技術。所以,它可能被壞人重新用於有害目的。因此,我們一直需要思考這個問題。但我堅信人類的聰明才智。問題在於是否有時間、專注度,以及所有最優秀的人才共同合作來解決這些問題。我相信如果我們有這些條件,我們就能解決技術風險問題。但如果我們沒有,那麼風險就會出現,因為我們會變得分散,會有不同的項目,人們會互相競爭。那樣就很難確保我們產出的系統在技術上是安全的。但我覺得,如果給你時間,這是一個非常容易處理的問題。詹妮·貝多絲:我想確保還有一個提問機會。先生們,請簡短回答,因為我們只剩兩分鐘了。提問者:謝謝。大家好,我是菲利普,Star Cloud的聯合創始人,我們在太空建造資料中心。我想問一個略帶哲學色彩的問題。對我來說,對末日論最強有力的論據是費米悖論,即我們在銀河系中看不到智慧生命。我想知道你們對此有何看法。德米斯·哈薩比斯:關於這個問題,我思考過很多。有關費米悖論的一個觀點是如果我們看不到外星人,是因為他們被自己的技術消滅了,那麼我們應該看到來自銀河系某處的、由AI建造的“紙夾”或其他結構向我們湧來,但顯然我們沒有看到任何戴森球之類的結構,無論是AI建造的還是自然的生物文明建造的。所以對我來說,必須有不同的答案來解釋那個悖論。我自己對此有看法,但這超出了接下來一分鐘的討論範圍。我只是覺得,我的預測和感覺是,我們已經越過了“大過濾器”。至於接下來會發生什麼,我認為這將由我們人類自己來書寫。詹妮·貝多絲:這可以是一個很棒的討論,但超出了接下來的時間範圍。最後,每人再給出15秒的發言吧,當明年我們三人再次見面時,到那時什麼將會改變?達里奧·阿莫代:我認為最值得關注的是“AI系統建構AI系統”這個問題。其進展如何,將決定我們是還需要幾年才能到達AGI,還是我們將面臨一個必須應對的,機遇與巨大危機並存的前景。德米斯·哈薩比斯:我同意。所以我們正就此保持密切溝通。但除此之外,我認為還有其他有趣的研究方向,比如世界模型、持續學習等。我認為如果自我改進本身不能完全實現目標,那麼我們需要這些其他方面取得突破。另外,我認為機器人技術可能會迎來它的爆發時刻。詹妮·貝多絲:但根據你剛才所說的,也許我們都應該希望這確實需要更長一點時間,對所有人都如此。德米斯·哈薩比斯:我傾向於那樣。我認為這對世界會更好。詹妮·貝多絲:你們可以做點什麼來影響它,謝謝兩位。 (鈦媒體AGI)
DeepMind CEO:中國AI落後西方約六個月,DeepSeek R1 反應過度/DeepSeek 新模型 MODEL1 程式碼曝光
DeepMind CEO:中國 AI 公司落後西方約六個月,DeepSeek R1 反應過度/X 開源核心推薦演算法:基於 Grok 的 Transformer 模型驅動資訊流/DeepSeek 新模型 MODEL1 程式碼曝光,預示新架構最快 2 月發佈X 開源核心推薦演算法:基於 Grok 的 Transformer 模型驅動資訊流要點一:演算法技術架構與工作原理X(原 Twitter)於 2026 年 1 月 20 日在 GitHub 上開源了其核心推薦系統程式碼,該系統完全依賴於 xAI 的 Grok Transformer 模型來學習使用者參與序列的相關性。系統通過分析使用者的互動歷史(點選、點贊等行為),結合網路內帖子和利用機器學習分析"網路外"內容,為使用者生成個性化資訊流。演算法會過濾被遮蔽帳戶、靜音關鍵詞以及暴力或垃圾內容,然後根據相關性、內容多樣性以及使用者可能的互動行為(點贊、回覆、轉發等)對內容進行排序。系統採用 RecsysBatch 輸入模型,使用統一的 AI 驅動 Transformer 架構,完全實現自動化推薦,無需人工特徵工程。TechCrunch要點二:開源背景與爭議此次開源履行了馬斯克一周前的承諾,承諾每四周提供演算法透明度更新。然而,X 當前正面臨多重監管壓力:歐盟監管機構因其驗證系統違反《數字服務法》透明度義務對其處以 1.4 億美元罰款;加州總檢察長辦公室和國會議員正在審查 Grok 被用於製作女性和未成年人的性化內容問題。批評人士認為這是"透明度作秀",因為 2023 年首次開源時被批評"不完整",未能揭示組織內部運作或程式碼工作原理。值得注意的是,自馬斯克 2022 年收購以來,X 從上市公司轉為私有公司,透明度報告從每年多次減少至 2024 年 9 月才發佈首份報告。TechCrunchNetflix Q4 業績強勁:付費使用者突破 3 億,2025 年收入預期上調要點一:Q4 財務資料與使用者增長Netflix 於 2025 年 1 月 21 日公佈的 2024 年第四季度財報顯示,營收同比增長 16% 至 102.5 億美元,超過市場預期的 101.1 億美元;每股收益 4.27 美元,超過預期的 4.20 美元。公司在該季度新增 1900 萬付費會員,創下季度最大增長記錄,使全球付費會員總數達到 3.0163 億(301.63 million),超過預期的 2.909 億。淨利潤達 18.7 億美元,而上年同期為 9.38 億美元。包括"額外會員帳戶"在內,Netflix 全球觀眾估計超過 7 億。Q4 的成功得益於《魷魚遊戲》第二季、Jake Paul 對 Mike Tyson 拳擊賽以及聖誕節 NFL 比賽等內容的推動。聯席 CEO Ted Sarandos 表示,為體育賽事而來的使用者留存率與其他熱門內容使用者相當。CNBC要點二:2025 年展望與業務戰略Netflix 將 2025 全年收入預期從此前預測上調約 5 億美元,調整至 435-445 億美元區間,同時宣佈部分套餐價格上漲 1-2 美元/月。公司表示將增加內容投入,2026 年內容支出計畫增長 10%。廣告支援套餐表現強勁,在提供該選項的國家中佔註冊量的 55% 以上,會員數環比增長約 30%。Netflix 表示有望在 2025 年在所有廣告業務國家達到充足規模,大幅增長廣告業務是 2025 年首要任務。這是 Netflix 最後一次按季度報告付費訂戶數,未來將在第二和第四季度發佈"參與度報告"。2025 年將推出《怪奇物語》和《星期三》回歸,以及《利刃出鞘 3》、Adam Sandler 的《快樂吉爾莫 2》等重磅內容。公司強調其優勢在於專注核心業務,沒有管理衰退的線性網路等分心因素。CNBC馬斯克起訴 OpenAI 案內部檔案曝光:微軟與 OpenAI 十年合作關係細節披露要點一:微軟-OpenAI 關係演變與關鍵轉折點最新法庭檔案揭示了微軟與 OpenAI 長達十年的合作關係內幕。2015 年 12 月 OpenAI 成立時,微軟 CEO 納德拉發現 AWS 已成為捐助方而驚訝詢問團隊。2016 年,在馬斯克支援下(稱貝索斯"有點工具人"),微軟以 5000 萬美元計算資源贏得合作。2019 年,微軟投資 10 億美元,獲得 OpenAI 商業許可和獨家雲端運算權,以及對"重大決策"的批准權(包括結構變更、合併等),當時微軟出資佔總投資 85%,實際擁有否決權。微軟 CFO Amy Hood 評論 OpenAI 的利潤上限"實際上比 90% 的上市公司都大,並不太受約束"。2022 年 11 月 ChatGPT 發佈時董事會從社交媒體上得知,微軟隨後在 2023 年 1 月追加 100 億美元投資。2023 年 11 月 Altman 被解僱危機中,微軟在 24 小時內成立 Microsoft RAI Inc. 子公司準備接收 OpenAI 團隊,估算成本 250 億美元,並在新董事會遴選中發揮關鍵作用。GeekWire要點二:最新訴訟進展與公司治理轉變馬斯克於 2026 年 1 月尋求從 OpenAI 和微軟獲得 790-1340 億美元賠償,指控 OpenAI 背離非營利使命欺騙了他。聯邦法官已裁定此案將於今春進行陪審團審判,OpenAI 和微軟未能逃避審判。OpenAI 反駁稱馬斯克在 2017 年就同意需要營利性結構,談判破裂是因為 OpenAI 拒絕給他完全控制權。2024 年 12 月 27 日,OpenAI 宣佈解除限制利潤結構,內部稱為"Project Watershed"。2025 年 9 月簽署諒解備忘錄,45 天內完成條款。微軟的"重大決策"批准權涵蓋此次重組,雖無董事會席位和投票權,但重組無法在未經微軟批准下進行。Morgan Stanley 估值 1220-1770 億美元,Goldman Sachs 估值 3530 億美元,最終以 5000 億美元估值完成(軟銀領投),微軟股權從 32.5% 稀釋至 27%,但 OpenAI 承諾未來在 Azure 上支出 2500 億美元。同時微軟失去新雲工作負載優先權,但 IP 權利延長至 2032 年。2025 年 11 月,OpenAI 與 AWS 簽訂 7 年 380 億美元基礎設施協議,實現雲服務商多元化。GeekWireDeepMind CEO:中國 AI 公司落後西方約六個月,DeepSeek R1 反應過度要點一:對中國 AI 能力的評估Google DeepMind CEO Demis Hassabis 於 2026 年 1 月 20 日在達沃斯世界經濟論壇接受 Bloomberg 採訪時表示,中國 AI 公司目前落後領先西方實驗室約六個月。他認為市場對 2025 年發佈的 DeepSeek R1 模型的反應是"大規模過度反應"(massive overreaction)。Hassabis 表示中國公司"非常擅長追趕前沿水平,並且越來越有能力做到這一點",但並未實現科學突破。他此前在 2025 年 2 月曾評價 DeepSeek 的 AI 模型"可能是中國最好的工作",但補充說這不是科學進步,炒作被"誇大了"。這一評估與業界對中國 AI 快速發展的擔憂形成對比,Hassabis 試圖平息內部員工對 DeepSeek 的焦慮情緒。Bloomberg要點二:技術競爭態勢分析Hassabis 的評估反映了西方 AI 領導者對中國追趕速度的謹慎樂觀。雖然承認中國在快速進步,但強調其主要優勢在於"追趕"而非創新性突破。DeepSeek 作為中國 AI 初創公司,以遠低於美國競爭對手的成本開發出具有競爭力的 AI 模型,引發了對美國高額 AI 投資必要性的質疑。然而 Hassabis 的言論暗示,儘管 DeepSeek 展現了成本效率,但在技術前沿性和創新能力上,西方實驗室仍保持領先。這一觀點與當時市場因 DeepSeek 發佈而出現的恐慌情緒形成鮮明對比,試圖重新定位競爭格局的真實狀態。值得注意的是,Hassabis 的評估也可能帶有戰略性考量,旨在穩定投資者信心並維持西方在 AI 領域的主導敘事。BloombergAnthropic CEO:向中國出售 AI 晶片如同"向朝鮮出售核武器"要點一:國家安全警告與政策批評Anthropic CEO Dario Amodei 於 2026 年 1 月 20 日在達沃斯世界經濟論壇接受 Bloomberg 採訪時,強烈批評川普政府允許向中國出售先進 AI 晶片的決定,將其比作"向朝鮮出售核武器"。Amodei 表示美國在晶片製造能力上領先中國"許多年",向中國出口這些晶片可能幫助北京縮小差距,具有"令人難以置信的國家安全影響"。他描繪了 AI 的未來場景:"一個資料中心裡的天才之國",想像"1 億個比任何諾貝爾獎得主都聰明的人,它將受某一個國家的控制"。Amodei 表示中國在 AI 發展上仍然落後,並受到晶片禁運的制約。美國工業和安全域(BIS)上周修訂了向中國出售晶片的許可政策,川普隨後宣佈對 Nvidia 計畫運往中國的晶片(如 H200)徵收 25% 的關稅。Axios要點二:行業內部分歧與政治博弈Amodei 在業界對政府政策的批評中較為突出,儘管試圖緩和緊張關係,但並非孤立聲音。在國會山,眾議院外交事務委員會主席 Brian Mast 等共和黨高層正在推動立法,阻止中國獲取敏感美國技術。MAGA 影響者 Laura Loomer 和 AI 與加密貨幣主管 David Sacks 則為總統政策辯護。Amodei 在採訪中避免直接批評 Sacks(被廣泛視為川普 AI 政策背後的策劃者),僅表示"這一特定政策並不明智"。目前某些先進 AI 晶片(如 Nvidia H200、AMD MI325X)向中國出口的各項準備工作正在落實。這一爭議凸顯了商業利益、國家安全考量與政治立場之間的複雜博弈,以及 AI 行業領導者在公共政策制定中日益重要的發聲角色。Amodei 此前撰文強調需要加強對華晶片出口管制,此次公開批評進一步表明他在這一議題上的堅定立場。Axios百度文心助手月活使用者突破 2 億,與京東美團等平台深度整合要點一:使用者規模與生態整合百度旗下 AI 助手"文心一言"(Ernie Assistant)月活躍使用者數已突破 2 億大關,這一里程碑標誌著中國科技巨頭在 AI 助手領域競爭的顯著進展。根據《華爾街日報》2026 年 1 月 20 日報導,文心一言已與京東(JD.com)、美團(Meituan)和攜程(Trip.com)等廣泛使用的應用程式實現連結整合,使得該 AI 助手能夠幫助使用者預訂機票、訂購外賣等實際服務。這種深度生態整合使文心一言不再僅是獨立的聊天機器人,而是嵌入到使用者日常生活場景的智能助手。百度股價因這一消息上漲,反映了市場對其 AI 業務增長的積極預期。除活躍使用者基數外,文心一言每日 API 請求量也達到 2 億次,顯示其在企業客戶中的廣泛應用。百度還擁有超過 85,000 家企業客戶使用其 AI 服務。Wall Street Journal要點二:中國 AI 競爭格局隨著中國科技巨頭在 AI 領域競爭的加劇,百度、阿里巴巴、騰訊等公司都在爭奪 AI 助手市場份額。百度的文心一言現已整合到其旗艦搜尋引擎中,並在 PC 端可用,重塑了使用者搜尋和互動方式,從傳統關鍵詞搜尋轉向 AI 驅動的對話式搜尋。這一轉變體現了百度將自身從傳統搜尋引擎轉型為 AI 平台的戰略。與競爭對手相比,百度在中文語言模型和本土化服務整合方面具有優勢。文心一言與京東、美團等電商和生活服務平台的整合,使其能夠直接參與交易環節,而不僅僅提供資訊查詢。這種"AI+服務"的模式代表了中國 AI 應用的獨特路徑,與美國市場以通用對話為主的 ChatGPT 等產品形成差異。2 億月活使用者的規模雖然顯著,但在中國龐大的網際網路使用者基數中仍有巨大增長空間,預示著 AI 助手市場的激烈競爭將持續升級。Wall Street Journal字節跳動擴張雲業務:AI 雲市場份額近 13%,挑戰阿里巴巴主導地位要點一:市場份額與擴張戰略根據《金融時報》2026 年 1 月 20 日報導及 IDC 資料,字節跳動旗下火山引擎(Volcano Engine)在 2025 年上半年佔據中國 AI 雲服務市場近 13% 的份額,營收約 3.9 億美元,而阿里巴巴保持約 23% 的市場領先地位。字節跳動正在通過招聘銷售人員和降低價格策略積極擴張其雲業務,成為增長最快的挑戰者。公司依託其短影片平台抖音(TikTok)和今日頭條積累的海量資料和 AI 技術優勢,向企業客戶提供 AI 驅動的雲服務。字節跳動宣稱每日處理 30 兆 tokens,佔據 49.2% 的 token 消費份額,而阿里巴巴則以 334 億元人民幣的雲收入和更成熟的企業客戶基礎作為反擊。儘管雙方在 2025 年上半年的市場份額都略有下滑,但字節跳動的快速崛起仍對阿里巴巴長期主導的雲端運算市場構成威脅。Financial Times要點二:雲端運算市場競爭格局演變中國 AI 雲基礎設施競爭已進入白熱化階段,字節跳動和阿里巴巴成為最激進的競爭者。分析師指出,字節跳動在 AI 雲市場的挑戰對阿里巴巴構成顯著壓力,特別是在 AI 原生應用和新興企業客戶群體中。阿里巴巴雖然保持整體市場領先(約 35.8% 的 AI 雲市場份額,超過其後三家競爭對手的總和),但面臨增長放緩壓力。字節跳動的優勢在於其在消費網際網路領域積累的 AI 技術和演算法能力,以及願意提供更有競爭力的價格。市場研究機構預測,中國雲端運算市場規模將從 2025 年的 504.7 億美元增長至 2031 年的更大規模。這場競爭的背後是對未來 AI 經濟基礎設施控制權的爭奪:兩家公司都聲稱在中國 AI 領域處於領先地位,但採取不同的戰略路徑——阿里巴巴強調企業雲收入和成熟的商業模式,而字節跳動則突出技術處理能力和消費者應用經驗。此次雲業務擴張也被視為字節跳動多元化戰略的一部分,在面臨 TikTok 在海外監管壓力的背景下,拓展 B2B 企業服務市場。Financial TimesOpenAI 將於 2026 年下半年推出首款硬體裝置,無螢幕可穿戴形態要點一:產品時間表與形態特徵OpenAI 全球事務主管 Chris Lehane 於 2026 年 1 月 19 日在達沃斯 Axios House 活動中透露,公司"正按計畫"在 2026 年下半年推出首款硬體裝置。這一時間表與去年 5 月 CEO Sam Altman 收購前蘋果設計總監 Jony Ive 公司時的暗示一致,Ive 公司當時發佈的宣傳視訊中寫道"期待明年與您分享我們的作品"。根據多方報導,OpenAI 正在開發小型無螢幕裝置原型,可能是可穿戴形式,將通過互動方式與使用者溝通。Altman 此前表示該裝置將比智慧型手機更"平和",使用者會對其簡潔性感到震驚。Lehane 將"裝置"列為 OpenAI 2026 年的重要看點之一,但拒絕透露具體細節,包括是別針、耳機還是其他形態。他表示將在"今年晚些時候"分享消息,強調這是"最可能"的時間表,但"我們會看看事情如何進展"。Lehane 並未承諾裝置今年一定上市銷售,暗示發佈可能僅是產品展示而非正式商業化。Axios要點二:AI 硬體市場前景與競爭態勢儘管早期 AI 裝置如 Humane 的 AI Pin 基本失敗,但 2026 年預計將迎來眾多 AI 硬體新嘗試。高通 CEO Cristiano Amon 在同一活動中透露,目前每年約有 1000 萬台 AI 智能眼鏡出貨,預計今年或明年將增至 1 億台。他表示 AI 裝置將採取多種形式,包括帶攝影機的耳塞和珠寶,高通晶片將為大多數產品提供動力,但 AI 智能眼鏡可能是銷量最大的品類。關於 OpenAI 裝置是否使用高通晶片,Amon 較為謹慎地表示"我會說我們一直在與他們合作,所以我們對正在做的事情感到興奮,但他們會談論自己的裝置"。這暗示雙方可能存在某種合作關係。OpenAI 進軍硬體市場代表著從純軟體/API 提供商向垂直整合的戰略轉變,類似於蘋果的軟硬體一體化模式。與 Jony Ive 的合作更強化了這一願景,利用 Ive 在蘋果創造 iPhone、iPad 等革命性產品的經驗。然而,AI 硬體市場尚未找到真正的產品市場契合點,OpenAI 面臨的挑戰是如何創造出既有實用價值又能提供超越智慧型手機的獨特體驗的裝置。Axios字節跳動 AI 平台 Coze 發佈 2.0 版本,支援長期自主規劃與智能辦公要點一:核心功能升級與技術突破字節跳動旗下 AI Agent 開發平台 Coze(中文名"扣子")於 2026 年 1 月 19 日發佈 2.0 版本,實現從"AI 輔助工具"到"主動執行的 AI 工作夥伴"的重大升級。新版本具備三大核心能力:Agent Skills(技能封裝)、Agent Plan(長期規劃)和 Agent Office(智能辦公)。Agent Skills 功能允許將複雜工作流封裝為可呼叫的技能包,通過簡單的自然語言指令即可執行多步驟任務,例如一句話完成從資料收集到可視化的全流程。Agent Plan 實現了從"單次對話"到"長期服務"的跨越,使用者只需設定宏觀目標(如管理社交媒體帳戶),AI Agent 就能自主分解步驟、執行任務並持續最佳化,支援複雜目標的閉環管理和長期任務的自主執行。Agent Office 增強了深度上下文理解能力,可輔助生成報告、製作 PPT、梳理會議紀要等職場辦公場景,與 WPS、飛書等辦公軟體深度整合。扣子程式設計功能支援雲端協作開發,使用者可使用 Python、JavaScript 等語言編寫自訂邏輯。Readhub要點二:應用場景與市場定位扣子 2.0 主要應用於行銷文案、長期計畫管理、職場辦公等場景。歷經 700 多天迭代,扣子已積累上千萬使用者。此次升級通過"技能封裝"和"長期計畫"等功能,試圖解決 AI 在複雜工作流中執行力不足的問題。與初版相比,2.0 版本不再侷限於單純的對話互動,而是強調 AI Agent 的自主規劃和持續執行能力。例如在行銷場景中,Agent 可以持續監測市場趨勢、自動生成內容、最佳化投放策略;在項目管理中,可以跟蹤進度、協調資源、提醒風險。扣子 2.0 的發佈體現了字節跳動在企業級 AI 應用領域的戰略佈局,與其消費級 AI 產品(如豆包)形成互補。作為低程式碼甚至零程式碼的 AI Bot 開發平台,扣子降低了企業和開發者建構定製化 AI 智能體的門檻。這一戰略與微軟的 Copilot Studio、OpenAI 的 GPTs 等產品形成競爭,但扣子更強調"長期規劃"和"自主執行"能力,試圖在 AI Agent 市場中建立差異化優勢。平台支援可視化工作流、自主編排、自動規劃等多種智能體建構方式,並可分發到多個管道。ReadhubDeepSeek 新模型 MODEL1 程式碼曝光,預示新架構最快 2 月發佈要點一:MODEL1 程式碼細節與技術特徵DeepSeek 在 GitHub 上更新的 FlashMLA 程式碼庫中,橫跨 114 個檔案有 28 處提到了神秘的"MODEL1"識別碼,這被認為是下一代旗艦模型的開發代號。程式碼分析顯示,MODEL1 與現有的 V32(DeepSeek-V3.2)架構並列出現,暗示這是一個全新的模型架構。具體技術差異體現在 KV 快取佈局、稀疏性處理和 FP8 解碼等方面,顯示該模型在記憶體最佳化上進行了多處改進。MODEL1 可能整合了最佳化的殘差連接、Engram 記憶模組與 mHC 流形約束技術等創新。開發者推斷 MODEL1 很可能是 DeepSeek-V4 的內部開發代號或首個工程版本。此前《The Information》月初爆料稱,DeepSeek 將在 2026 年 2 月中旬農曆新年期間推出新一代旗艦 AI 模型 DeepSeek V4,將具備更強的寫程式碼能力。MODEL1 在開放原始碼中的意外現身,類似於 DeepSeek 發佈前的慣例,增加了 2 月發佈的可能性。IT之家要點二:發佈時機與市場影響DeepSeek-R1 發佈剛滿一周年之際,MODEL1 的曝光引發行業高度關注。如果按照預期在 2026 年 2 月發佈,DeepSeek V4 將成為中國 AI 公司在農曆新年期間推出的重磅產品。DeepSeek 以低成本高效能著稱,其 R1 模型曾在 2025 年引發全球關注(儘管 DeepMind CEO 認為反應"過度")。新模型如果在程式碼能力上實現顯著提升,將進一步鞏固 DeepSeek 在開源 AI 領域的地位,並加劇與 OpenAI、Anthropic 等西方公司的競爭。MODEL1 程式碼中對記憶體最佳化、稀疏性處理等方面的改進,暗示 DeepSeek 繼續追求"用更少資源實現更強性能"的技術路線,這對受美國晶片出口限制的中國 AI 公司尤為重要。不少行業分析人士認為,MODEL1 在開放原始碼中的提前曝光可能是 DeepSeek 的一種預熱策略,類似其以往的發佈模式。如果 DeepSeek V4 如期在 2 月發佈並展現顯著進步,將對全球 AI 市場格局產生重要影響,特別是在程式碼生成和開發者工具領域。這也將考驗 Demis Hassabis"中國落後六個月"論斷的精準性。IT之家香港 IPO 市場強勁開局:新能源、AI、電動車和生物科技驅動增長要點一:2026 年開局表現與融資資料根據香港交易所(HKEX)CEO 陳穎婷(Bonnie Chan)在 2026 年 1 月達沃斯世界經濟論壇前夕發表的文章,2026 年前三周已有 11 家公司在香港上市,融資近 40 億美元。目前有 50 份新上市申請提交,超過 300 家公司正在排隊等待上市批准。這延續了 2025 年的強勁勢頭:2025 年共有 114 家公司在主機板上市,融資 372.2 億美元,同比增長 230%,推動香港重回自 2019 年以來全球最大 IPO 市場的位置。寧德時代的 53 億美元 IPO 是 2025 年香港最大的上市項目。陳穎婷表示,新能源、人工智慧、電動汽車和生物技術公司將繼續成為未來幾年香港 IPO 市場的驅動力。她寫道:"過去一年,數十家綠色能源、自動化和其他領域的新公司在香港上市,使它們能夠擴大研究規模和全球影響力。"South China Morning Post要點二:市場前景與戰略定位陳穎婷強調 HKEX 的角色是"幫助更快地翻開這個故事的篇章,使更清潔的能源、變革性的醫療保健和更高的生活水平從承諾走向實踐"。她表示,從上市申請管道來看,她的樂觀情緒得到了"穩定流動的變革性創意"的支援,"下一章進步正由這些富有遠見的公司、他們大膽的創意以及賦能它們的市場書寫"。香港 IPO 市場的復甦得益於多重因素:中國經濟復甦預期、科技和新能源行業的強勁增長、以及香港作為連接中國內地與國際資本市場橋樑的獨特地位。特別是在 AI、電動車和生物科技等高增長領域,許多中國公司選擇香港作為上市地,以獲得國際投資者的認可和資金支援。陳穎婷的表態反映了 HKEX 對 2026 年市場的信心,預計科技創新類企業將繼續主導香港資本市場。這一趨勢與中國政府推動"新質生產力"、支援科技創新和綠色轉型的政策方向高度一致,香港正在鞏固其作為亞洲科技企業首選上市地的地位。South China Morning Post (AI Daily Insights)
DeepMind CEO 在 CNBC 算 4 筆帳:這輪 AI 競賽,錢到底花在那?
最近 AI 圈最熱的詞,已經不是更強,而是更賺錢。2026 年 1 月 16 日,CNBC 新上線了一檔播客《The Tech Download》,定位很明確:不談概念,只談錢。第一期請到的嘉賓,是 Google DeepMind 的 CEO Demis Hassabis。Hassabis 沒有談技術概念,而是在算四筆投資帳:AGI 缺的能力,該投什麼模型商業化,成本花在那能源瓶頸,資源配在那AI 競爭,優勢建在那這四筆帳,指向同一個核心:這輪 AI 競賽,錢到底該花在那?第一筆帳|AGI 還缺什麼能力?專訪剛開始,主持人問出一個所有人都關心的問題:我們的大模型已經這麼強了,還能更好嗎?AGI 是不是快到了?Hassabis 的回答是:大模型的能力,其實有明顯短板。他說,這些 AI 工具在某些問題上能給出驚豔的表現,但你換個問法,或者稍微複雜一點,它立刻就不行了。他把這叫做:參差不齊的智能(jagged intelligences)。說白了,這種智能還不夠靠譜。能答題,但不能舉一反三;能寫論文,但不能自己提一個真正新的點子。1、通用智能,得能自己提問題Hassabis 認為,真正的通用 AI,必須具備一項能力:能自己提出問題,能假設世界可能如何運轉,然後想辦法去驗證它。也就是說,它不能只是答你問題,還得能自己思考問題是什麼。他說,現在的大模型,連持續學習都做不到。你教會它一件新事,它很快就忘了;它不會像人一樣積累經驗。這也是為什麼,DeepMind 近兩年開始把重點從 LLM 轉向另一個方向:做一個懂得世界如何運轉的 AI。2、世界模型,不是懂語言,是能想像他用很通俗的方式講了世界模型這個概念:“就像人類科學家,能在腦海中推演如果這樣,那會發生什麼,AI 也得具備這種能力。”不是理解你說什麼,而是能根據它自己對世界的認識,去預測接下來會發生什麼、什麼東西會影響什麼結果。這聽起來有點抽象,但它已經落地到了 DeepMind 的幾個核心方向裡:Genie: 能與虛擬環境互動的模型,相當於在玩遊戲的同時理解規則AlphaFold: 當年用 AI 去預測蛋白質折疊結構,其實也是讓模型理解形狀為什麼會變成那樣Veo: 文字生成視訊,不是湊鏡頭,而是讓 AI 根據因果關係決定下一秒畫面該變成什麼這些看起來不一樣的項目,其實在做同一件事:讓 AI 像人一樣理解世界,而不是只會背答案。3、AGI 不靠湧現,靠組合Hassabis 相信:單純擴大模型規模,不會自動產生通用智能。真正有可能做出 AGI 的,是讓多個模型各司其職、協同工作:LLM 負責語言和基礎理解視訊模型負責時間序列、物理直覺世界模型提供模擬、推理、預測的能力只有這些能力拚圖逐步接上,通用智能才會是可靠的,而不是看起來聰明但漏洞百出。對大多數人來說,AGI 是比人更聰明的 AI;但對 Hassabis 來說,AGI 是能自己提出新想法的 AI。這就是 DeepMind 把世界模型當成下一步主線的原因。它不只是一個新模型,而是一個核心能力:能不能站在世界的角度去理解,而不是被動回答。第二筆帳|模型怎麼賺錢?不是更強,是更划算技術路線是一回事,但商業落地是另一回事。AI 要走向通用,不只是越來越聰明,還要用得起。Demis Hassabis 講了 DeepMind 的產品策略:不是只推 Pro 版,而是同時做 Flash 版。這不是大小模型的高低之分,而是為了讓更多場景能用得起。能大規模部署、覆蓋場景的模型,必須夠輕、夠快、夠省。1、Flash:用強模型教出主力模型Hassabis 形容:用最強的模型訓練出一個更高效的版本,就像用大腦教出一個更靈巧的分身。這個過程在技術上叫蒸餾,但他更關注的不是技術本身,而是能否落地:訓練出來的模型可以被廣泛部署,成為主力使用的版本。比如 Gemini 模型線:Pro 版本,是給複雜場景或前沿應用準備的Flash 版本,是給終端使用者、高頻任務提供服務的2、商業化不是賣模型,而是讓模型進產品“AI 不該永遠停在網頁對話方塊裡。”Hassabis 說:未來我最看好的方向之一,是讓 AI 真正進入手機、眼鏡這些裝置裡。也就是說,未來不是你去找 AI,而是 AI 就在你手邊、螢幕裡、日常動作之間。DeepMind 已經和三星、Warby Parker 等品牌展開合作,探索裝置端 AI 的可行性。這說明 DeepMind 的商業路線,不只是 API 售賣,更看重模型與產品深度結合。3、AI 不止省人力,還要省資源Hassabis 說,效率是 Gemini 全線設計時的最高優先順序,尤其是 Flash 系列。推理更快能力更平衡能耗更低DeepMind 對 AI 商業化的看法不是卷功能,而是算總成本:一個模型能做什麼不重要,重要的是它能成本可控、能落地、穩定可靠。從 Flash 的設計、蒸餾策略,到裝置端合作、能效優先,Hassabis 給出的不是模型路線圖,而是使用路線圖。他沒有強調模型有多強,而是圍繞:怎麼讓 AI 被真正用起來?這才是商業化起步的基礎。第三筆帳|能源問題,AI 能自己解決嗎?Flash 版本解決的是模型本身的能耗,但這還不夠。Demis Hassabis 明確表示:隨著我們走向 AGI,能源將等同於智能。智能越強,耗電越大。這是繞不開的物理規律。1、AI 不缺模型,最缺的是電不夠晶片永遠不夠。Hassabis 直言,即使 Google 有自己的 TPU 系列和 GPU,全球的計算晶片仍然供不應求。追根溯源,真正的瓶頸是能源:GPU 再多,也要靠電運行資料中心再大,也受限於電力供應模型再強,如果成本壓不下來,也只能停留在實驗室這不只是 Google 的問題,而是整個行業的天花板。當每家公司都在競相擴大算力、訓練更強的模型時,能源供應能不能跟上,決定了誰能真正把 AGI 從實驗室帶到現實世界。而這一點,正在成為 AGI 能否大規模應用的關鍵障礙。2、DeepMind 另一個野心:用 AI 去找能源如果 AGI 需要海量能源,那就讓 AI 自己去解決。DeepMind 的策略分兩個方向。開源:生產新能源與美國 Commonwealth Fusion 公司合作,用 AI 控制核聚變反應堆中的電漿體。核聚變一旦實現,將提供幾乎無限的清潔能源。Hassabis 的個人項目:能不能靠 AI 找出室溫超導材料。如果成功,將徹底改變電力傳輸和儲存方式。重新設計太陽能材料,大幅提升能源轉化率。節流:提高能源效率最佳化電網、資料中心、能源系統的運行效率,減少浪費尋找降低能耗的新型晶體結構幫工業最佳化生產路徑,減少不必要的能源消耗AI 不只會消耗資源,它也可以反過來推高資源效率。這不是第一次。從 AlphaFold 預測蛋白質結構,到現在尋找能源突破,Hassabis 始終相信:AI 是科學發現的終極工具。當每家公司、每個企業都要部署自己的大模型,競爭的關鍵變了:誰能讓AI更省電,誰就能部署更大規模誰能把每度電用得更值,誰就能活得更久最終,智能不是在比聰明,而是在比划算。能源供應能不能跟上,決定了這場技術升級能走多遠。而 DeepMind 的答案是:讓 AI 自己去解決能源問題。第四筆帳|競爭的關鍵:整合、部署、活下來技術路線之外,還有競爭格局。過去幾年,OpenAI 在消費端領先。憑藉 ChatGPT,迅速繫結微軟,推出 API、外掛、GPTs 商店。Google 顯得慢了半拍。但 2025 年底,風向變了。Gemini 3 上線時,同步進入 Google 搜尋、Android系統、Gmail、Workspace……全線鋪開。Hassabis 透露:過去兩三年,他做的最大變化不是研發方向,而是內部整合。1、DeepMind :從研究所到引擎室過去三年,Hassabis 只專注一件事:把 Google Research、Google Brain、DeepMind 三支團隊整合成一個 Google DeepMind。這不只是團隊整合,還包括重建Google的整個 AI 基礎設施。整合的結果:所有 AI 技術由 DeepMind 統一開發技術完成後,直接擴散到Google所有產品中Hassabis 與 Sundar Pichai(Google CEO)幾乎每天對話,決定技術方向和產品配置過去是三個團隊分頭做 AI,路線重疊、資源分散。現在是一個引擎室,統一調度。更關鍵的是速度。 Hassabis 說,他們每天調整路線圖和計畫。這不是大公司的穩健打法,而是初創團隊的衝刺節奏。目標只有一個:快速且安全地實現 AGI。Google AI 產品發佈效率實現了質的提升。2、模型強,部署要更快為了實現快速部署,DeepMind 建立了一個“骨幹網”,讓 AI 技術能夠快速擴散到Google所有產品中。Hassabis 把 Gemini 3 的發佈節奏形容為同步投放:模型訓練完成,第二天就能上線到搜尋、Gmail、Workspace不用二次改造,不用跨團隊溝通,一步到位這在以前是做不到的。Hassabis 說,他們在 Gemini 2.5 時才真正進入這個狀態。在此之前,模型和產品之間還有大量銜接工作。這種效率來自兩個優勢:第一,DeepMind 掌握從晶片到模型的完整技術堆疊。技術自主,不用等外部配合。第二,Google 的產品矩陣本身就是現成平台。搜尋、Android、Chrome、YouTube……AI 能力可以立刻接入,同步推送到數十億使用者。當 OpenAI 還在一個個談合作時,Google 已經完成了部署。Hassabis 說,接下來 12 個月,AI 能力會擴散到更多 Google 產品中。3、中國AI,落後幾個月意味著什麼談到中國的 AI 發展時,Hassabis 認為:中國領先實驗室,可能只落後幾個月。這意味著:在訓練效率、模型能力、部署速度上,差距正在快速縮小。DeepSeek 的低成本訓練方案、阿里巴巴的開源模型,都展示了中國團隊的工程能力和追趕速度。同時,Hassabis 也指出了下一個階段的關鍵:從復現技術到原創突破。他認為,發明一個新技術的難度,可能是復現它的100倍。中國實驗室已經證明了復現能力,接下來的問題是:能不能像當年發明Transformer那樣,創造出新的架構或方法?這不只是對中國的問題,也是對所有 AI 實驗室的挑戰。對所有想贏的 AI 玩家,Hassabis 指出:不是誰發佈得多,而是誰能讓產品真正跑起來不是誰融資多,而是誰能在泡沫之後還活著OpenAI 壓力很大,Anthropic 產品也很快,中國模型確實在追。但 DeepMind 的打法不是分散應對,而是整合優勢:統一的產品線、自有的平台、一步到位的部署。在 AI 這場長跑裡,活下來比跑得快更重要。結語|這輪 AI 競賽,錢該花在那四個地方Demis Hassabis 給出了四個方向:技術上,投資能理解世界、提出新想法的能力,不要只堆資料商業上,投資模型的部署效率,而不只是追求性能資源上,投資能源技術和能效最佳化,智能規模取決於每瓦電的價值競爭上,投資整合能力和產品閉環,而不只是發佈速度這四筆帳,DeepMind 給出了自己的答案。其他玩家怎麼選,決定了他們能走多遠。 (AI深度研究員)
讀完200篇論文,看DeepMind、Meta、DeepSeek ,中美巨頭都在描述哪種AGI敘事
在剛剛過去的2025年,我通讀了大約兩百篇人工智慧領域的論文。如果用一個詞來形容這一年的技術體感,那就是「暴力美學」時代的終結。單純依靠堆砌參數摘取低垂果實的日子已經過去,2025年的技術進化回歸到了基礎研究。這篇文章,我想透過梳理這一年的技術脈絡,明確三個結論:的瓶頸,業界被迫尋找新的成長點,即從「把模型做大」轉向把「模型做聰明」。第一,2025年,技術進步主要集中在流體推理(Fluid Reasoning)、長期記憶(Long-term Memory)、空間智能(Spatial Intelligence)以及元學習(Meta-learning) 這四個領域。原因在於Scaling Law在單純的參數規模上遇到了邊際效應遞減,為了突破AGI第二,現在的技術瓶頸主要在模型要「不僅要博學,更要懂思考和能記住」。 透過Yoshua Bengio提出的AGI框架(基於CHC認知理論),我們發現先前的AI存在嚴重的「能力偏科」:它在一般知識(K)上得分極高,但在即時推理(R)、長期記憶(MS)和視覺處理(V)上幾乎是空白。這種不平衡構成了通往AGI的最大阻礙。第三,這些瓶頸在25年其實都找了一些新的解決方向,可以說是補短板很成功的一年。其中最重要的是三個面向。●  推理能力: 透過Test-Time Compute(推理時計算)引發的革命,AI學會了慢思考,推理能力實現了從0到8的質變。●  記憶能力:Titans架構和Nested Learning的出現,打破了Transformer的無狀態假設,讓模型具備了內化的“海馬體”,有望徹底根治金魚記憶。●  空間智能: 視訊生成不再只是像素的堆砌,而是開始掌握物理規律,邁向了真正的世界模型。接下來,我將根據這一年間的論文閱讀,帶領大家詳細看看這些關鍵拼圖是如何被一塊塊補齊的。(因為篇幅限制,各個方向上涉及的論文我只是簡單做了講述,如果有興趣深入了解,可以看文後的相關論文參考。已分章節處理。)01流體推理的演化,Test Time Compute的誕生與發展在2024年,AI明顯的短板是即時推理(R)能力。在GPT-4的時代,AI只會依賴機率直覺,推理什麼的一點不會。但在2025年,Test-Time Compute(推理時計算)透過拉長推理時間來換取智能。 Test-Time Compute 的核心概念是:智慧不僅是參數的函數,也是時間的函數。以OpenAI o1和DeepSeek R1為代表,AI學會了「慢思考」。 透過在推理階段投入更多的運算資源,它開始在輸出答案之前,在內部進行長達數秒甚至數分鐘的自我辯論和推演。這就是2025年最重要的典範革新,讓AI從背書的鸚鵡轉向思考的機器。因為模型的思考過程是無法在預訓練期間進行引導的,因此後訓練、尤其是強化學習(RL),就成了提升推理能力的最重要的手段。但事情並非一帆風順,在2025年,《強化學習真的能激勵LLM超越基座模型的推理能力嗎? 》這篇論文引發了大概半年左右的學術爭論。研究發現,在許多情況下,RLVR訓練後的模型產生的正確推理路徑,其實在基座模型的取樣分佈中原本就存在。 RL的作用只是銳化了分佈,顯著提高了採樣到這些路徑的機率,而並非真正「創造」了基座模型完全未知的推理能力。對此,在後續長達半年的論爭後,現在的通行結論是基座模型可能確實包含了所有必要的原子推理步驟(如加減法、基本邏輯變換),但RL的作用在於透過數萬次的試錯,篩選出能夠穩定維持長距離依賴的策略路徑。另外,CMU研究指出,RL訓練有三個階段。第一階段是“銳利化”,僅提升已知路徑的機率;但隨著訓練深入,模型進入“連結(Chaining)”階段,開始將基座模型中原本機率極低的不對稱技能(如驗證與生成)連結起來,從而解決從未見過的難題。這說明RL不光在銳化,也確實能夠有效組合新的推理方法。但學術界的這種形而上討論,沒能阻止業界的工程優化熱情。因為Benchmark的成長不會騙人。強化學習的本質,就是透過與環境互動獲得回饋,在探索未知與利用已知之間尋找平衡,以最大化長期累積獎勵為目標,從而學習出一套最優的決策策略。因此,它的工程可以拆分成核心的三個策略,探索策略(採樣)、評分(包括評分標準和如何評分)和參數更新演算法三個部分。在2025年,強化學習的方法在其中兩部分都得到了明顯的發展。而採樣的策略則還是集中在蒙特卡洛方法(一步一步尋找新分支)、暴力溫度採樣(調高模型的多樣性,采出多種可能)和在23年大火的STaR 模式(就是模型對自己的結論點評後,根據點評再找別的路)這三種方法上,不過25年,因為DeepSeek R1的成功,因為暴力溫度又能出明顯了主流工程結果。評分系統的革新在2025年首先發生的是基於可驗證獎勵的強化學習(RLVR)和稀疏獎勵指標(ORM)的全面崛起。由於DeepSeek R1的成功,讓大家發現,只要給模型一個對錯結論作為獎勵訊號,模型就可以自發性探索其中的推理過程。這導致了ORM的崛起。而在ORM領域,那些能明確給出結果對錯(可驗證的客觀真理)的領域,例如數學、程式碼、邏輯等方面,強化學習就很好下手,效果也很容易提升。基於這些客觀真理形成的強化學習獎勵機制,就稱為可驗證獎勵。在2025年前半年,RLVR(驗證結果)+GPRO(分組探索解法)的方法突飛猛進,基本上成了主流方法,也帶來了模型在程式碼、數學領域的能力大幅提升。然而,用的久了,大家發現如果像複雜數學、程式碼這種推理過程過長的情況,那ORM很有可能會崩掉。所以有的公司會在其中加一部分過程獎勵評分系統(PRM)的因素,例如Qwen的代碼解釋器驗證,主打辨識推理過程中的錯誤步驟。而防止ORM崩潰跑偏的KL正規理論也在今年有了更多的發展。另一個問題就是RLVR是挺好用的,但不是所有領域都有可驗證的真假,比如在文學、乃至醫療這種更偏統計性的領域,目前就沒有完全的真假科研,那怎麼辦呢?因此我們可能需要一個更宏大的Universal Verifier(通用驗證器),去解決這個問題。目前已經有的兩個思路,一個外求法:既然標準不唯一,那就人工或靠模型製訂複雜的評分細則(Rubic),然後讓模型根據Rubic去進行獎勵。而另一個,是相信模型自己的直覺(內求法),利用模型自己的確信度去影響無明確獎勵的領域訓練。例如Kimi K2的joint RL stage策略,就是把RLVR 和self-critique rubric reward 結合起來做RL。參數更新演算法的革新DeepSeek R1帶來的第二個RL震盪就是GPRO演算法的流行。在過去,RL的主流方法是PPO,在這個框架裡,有兩個角色,一個是Actor Model,負責寫答案。還有一個是Critic Model,來給演員的每一步打分數。這個方法特別適合PRM,給每步都評分,但它非常貴,因為它得一直在線訓練,讓模型嘗試完了再在線打分。但GPRO不一樣,它直接把Critic模型切掉了,讓模型產生一組答案,算平均分數來代替Critic,來看誰做的好,誰做的壞。一下子省下來50%的顯存,搭配ORM,更是極簡中的極簡。非常省成本,效果也不差。因此,基本上國內各家都是在GPRO的框架上延展,在2025年這一年發展出了各種變體。例如Qwen的GSPO的優化引入了分數加權,不只看你是否高於平均分,還看你的絕對得分是多少,讓GPRO能夠從對的里選出更好的,把全錯的都排除出梯度,讓訓練更穩。 Minimax的CISPO,則是發現傳統GPRO / PPO訓練的時候,會暴力截斷過長的COT上下文,導致核心思考沒辦法用起來,所以做了個重要性採樣,保留下更重的部分去更新。除了這些特別具體的更新外,業界同時試圖找到強化學習的Chichila法則。例如Meta的ScaleRL,就在多種消融實驗中發現RL的成長曲線其實有天花板。他們證明了RL性能與計算量之間不符合冪律(就是Scaling Laws那種算力越大,能力越大的模式),而是符合Sigmoid 曲線的(起步難,中間猛,最後死活漲不動)。這不是什麼好消息,表示RL是有天花板的。我們不能指望靠RL 無限提升模型的智力上限。 它只能把模型已有的(預訓練賦予的)潛能「逼」出來,一旦逼到了100%,RL 就失效了。想再突破,還得回去革新底座模型或是演算法架構。但好消息是,我們離天花板還很遠呢,還差著一堆工程創新。另外,基礎模型的能力提升也不是完全停滯的。ScaleRL也提出了一套最佳工程實踐,包括使用長思維鏈(Long CoT)作為關鍵驅動力,以及使用大Batch Size(如2048 prompts)來觸達更高的性能天花板。這項研究將RL從「煉金術」轉變為一門精確的工程科學,使得研究者可以透過小規模實驗精準預測大規模訓練的效果。所有這些對RL工程的探索,使得今年的模型,能夠在不增加參數的情況下,依然在整體能力上穩步上升。一次又一次打破ARC和Humans Last Exam的標尺,同時帶動了數學和程式碼能力的大幅上升。02記憶與學習, 治癒模型的健忘症如果說Test Time Compute是前半年最重要的模式變革,那後半年最重要的模型變革,就是記憶能力的提升。畢竟,這是唯一在GPT-5時代,在AGI得分裡還是0的分支能力,屬於短板中短板,漏水的大戶。模型沒有記憶有啥問題?第一,沒有記憶能力的模型不可能在現實中自我學習,必須得在算力工廠裡再訓練學習。這種再訓練昂貴,訓練源可能與日常使用完全脫節,因此持續學習成了一個無比困難的事項。第二,想有個能記得你是誰,你的偏好的AI,就變得很費力。例如我的Gemini 3,現在只靠系統級的Prompt累積一點點關於我的記憶,但大半還是錯的。在24年大火的RAG(檢索增強生成)雖然作為一種外掛式的「海馬體」緩解了這一問題,但它當時的形態只是資料庫和搜尋機制,還很不好用。在25年,記憶問題的研究其實得到了許多發展,只是大多出現在後半年,尚未真正融合進工程。記憶可以分為三種方式,上下文作為記憶、RAG處理過的上下文作為記憶以及將上下文融合到參數裡,內化的進行記憶。難度層層遞進。今年RAG和參數調整的記憶方式都發生了很大的科研進步,但其中最耀眼的是Google Research發布的Titans 架構以及Nested Learning,是2025年記憶領域的最大突破,屬於架構級提升。從根本上挑戰了Transformer的無狀態假設。我們現在一個個看。模型,獲得活著的記憶Titans 是一個深度的神經長期記憶模組,能夠在測試時(即推理過程中)即時更新自身的參數。這和傳統的Transformer層,訓練完就凍結完全不一樣。 Titans在一開始就是個空容器,就一個初始權重,將歷史資訊學習進神經記憶中。和傳統的壓縮模式(Mamba)比,這種學習是無損的。那怎麼決定什麼東西記憶,什麼不記?靠驚奇度(Surprise Metric),模型會根據輸入資訊的意外程度(梯度大小)來決定是否將其存入長期記憶。這和人差不多,越新鮮有衝擊的東西越記得住。Titans是隨時更新權重的,這意味著還要做反向傳播和梯度更新,豈不是很貴嗎?確實,單看是很費GPU算力,但它一般是和普通Transformer層混用,只佔一小部分,所以雖然但並不很重,而且可以省去巨量的上下文開支。而且,它還可以將記憶作為額外的上下文輸入給注意力機制,如同一個高級助手,提供背景資訊。透過門控機制融合短期注意力與長期記憶,處理更靈活,並行處理短時與長時依賴。這也可以提升模型本身的效率。同時,Titans也引入了遺忘機制(Weight Decay),自動清理不再重要的資訊。如果說這是在不會記新東西的Transformer上加了一些記憶模組補丁,那麼Nested Learning就是一個更宏大的架構改變。在Nested Learning中,Google做了一個分層,把模型的架構分成了低、中、高三個更新頻率的神經網路層。把整個模型的參數凍結都解放了,這個模型都是活的,可以隨時調整參數。低頻參數的調整很慢,大概需要16M token的前向更新才會調整一次。它保證了知識的延續性,避免了災難性遺忘。而快速的回饋則交給高頻的神經網路層處理,這樣可以快速反應,做短期記憶。於是我們就有了一個持續更​​新的,非凍結的神經網絡,它可以抱持長期記憶,並持續學習。而且因為更新頻率不高,且更新比較局部,其成本比一般的SFT、RL達成同等效果的成本還要低。谷歌甚至提出了一個更大的體系MIRAS,它把序列模型看成一個會邊讀邊寫的聯想記憶模組。每一個token,你把它投影成key 和value;模型用當前記憶去「檢索/回憶」一個value;然後用一個內部目標函數(attentional bias)和一個保留/遺忘約束(retention gate),透過某種線上優化/更新演算法(memory learning algorithm)去更新記憶。 Titans和Nested Learning,都屬於在不同層面上對MIRAS的嘗試。這項調整,使得模型具備了持續學習和更新長期記憶的基礎。不過考慮到它對模型架構的改變,在工業大規模應用上可能還需要一段時間。RAG模型化之前,RAG曾被訌諷為圖書館員,只增不減,照單全收。但2025年,它發生了質的飛躍,演變為具備反思與進化能力的系統,甚至可以在一定程度上產生如同參數般的效果。這波RAG改造浪潮中,比較有代表性的還是DeepMind 提出的ReMem 和Evo-Memory。ReMem讓RAG不再是簡單的資料庫式的“檢索-生成”,而是透過一個Agent 引入了Action-Think-Memory Refine 的全鏈路處理方法。在新上下文存入記憶前,會有個Agent對其進行「內省」(Think),標記出那些是無效步驟,那些是關鍵策略。在記憶過程中,模型也會對進來的上下文進行修剪(Pruning)和重組(Reorganizing),讓它更容易被檢索,保留最重要的資訊。同時,模型會定期清理無用的記憶,甚至將失敗的嘗試作為「負面教材」存入,其效果等同於RLHF(人類回饋強化學習)的負向懲罰。這機制使得記憶不再是靜止的錄影,而是經過壓縮和提純的智慧。它儲存的更多是策略,使得模型在處理類似任務時能夠調用過往的成功經驗,實現了真正的經驗復用。微調與蒸餾讓遺忘性災難不再存在在2025年之前,災難性遺忘是參數記憶更新的最大敵人。模型用微調的方式做更新,很容易學了新的忘了舊的,通用能力受損;用強化學習做更新,不容易遺忘,但成本又太高。但在2025年,學術界提出了多種解決方案,讓模型在學習新知的同時不失去舊能力。例如Meta 提出的Sparse Memory Finetuning (稀疏記憶微調)。它在Tansformer裡加了一個百萬個獨立插槽的空白記憶體層。當新知識進入時,系統篩選出更不重要的、和核心舊知識相關性不高的插槽進行更新。這種稀疏更新策略,確保了在註入新知識的同時,絕大部分舊參數保持不變,從而完美保留了原有能力。實驗表明,在TriviaQA事實注入任務中,該方法僅導致11%的舊知識遺忘,遠優於全量微調的89%。再如Thinking Machines 提出的在策略蒸餾(On-Policy Distillation, OPD),結合了RL 的取樣方式和SFT 的監督訊號。訓練資料不再是老師的錄影,而是學生模型自己即時產生的軌跡。學生要在自己真實的「犯錯分佈」中學習,這是RL的取樣方法。但它評估用的是SFT的密集回饋,老師模型會全程陪跑,在學生生成的每一個Token 上都計算KL 散度(即直接告訴學生你和我的差距在那裡),提供密集的即時反饋,而不是像RL 那樣最後才給一個標量分數。這種方法創造了一種既不會導致災難性遺忘,同時也極大壓縮成本的參數更新方式。兩條路徑,最終都導向了透過微調更新模型參數更穩定的路徑,這樣的話模型就可以更快捷、便宜的進行線下更新。夢想中的白天模型陪你說話, 晚上你睡覺更新你的神經元連接,它微調更新它的參數,也許會變成可能。03走出“柏拉圖洞穴”,迎來空間智能(Gv) 與世界模型另一個在Bengio AGI定義2024年得分還是0的一項,就是視覺處理。今年,這項能力在Sora 2、 Veo 3等生成影片的爆發之下,得到了有效的提升。在Veo 3等模型能夠有效保持物體位置一致性的情況下,模型似乎開始有了對物理規律更深的掌握,進入到了空間智能和世界模型(World Models)的範疇。雖然今年主要是李飛飛在大力宣揚空間智能的概念。但實際上在這條路上,一共有三個主流派系和玩家,在今年也都各有研究進展。自監督生成模型的Scaling Law第一派就是Sora 2、Veo 3這些採用了DiT架構的自監督模型,也就是我們常見的視訊生成模型。不過要論空間智能,2025年8月,Google DeepMind發表的Genie 3更明顯。 Genie 3,是個生成的、可互動的、持續演變的3D環境。與其前代相對破碎的呈現不同,Genie 3具有了即時性和一致性。它能以24fps的幀率和720p的解析度即時渲染環境,且能維持數分鐘的場景一致性。如果你在虛擬世界中打破了一個花瓶,當你轉身離開再回來時,花瓶碎片依然在地上,而不是像早期生成視頻那樣莫名消失或復原。除此之外,Genie 3非常好的展現了自監督模型的物理學習能力。它完全沒有參考物理引擎,只是透過觀看海量影片數據,自發性地學會了流體流動、光影反射甚至風吹樹葉的物理規律。之所以視訊生成模型能夠獲得如此大的進步,主要是因為學術界發現了視覺自回歸(Visual Autoregressive, VAR)和擴散Transformer(DiT)的Scaling Law。2024年,字節的Visual Autoregressive (VAR) 模型的提出,排除了Diffusion部分,透過改變token的建模,從行變成圖,讓自回歸獨挑大樑。因為是純自回歸,它的性能嚴格遵循Scaling Law。但這個路子畢竟還是有點野。在25年的論文《Towards Precise Scaling Laws for Video Diffusion Transformers》,更主流的DiT也被發現符合Scaling Law,不過這個Law與LLM不太一樣。與LLM相對穩定的特性不一樣,視訊擴散模型對批量大小(Batch Size)和學習率(Learning Rate)表現出極高的敏感度。直接套用LLM的縮放定律會導致預測失效。但用上特製的Scaling Law,DiT模型就可以大力出奇蹟了。在Veo 3成員的訪談中,Deepmind的員工就表示,訓練這麼好,主要是打通了影片產生的Scaling Law。除此之外,今年影片產生的另一個新變化就是加上聲音了。這主要歸功於Google一直堅持的原生多模態能力。而2025年4月,Apple Machine Learning Research發表了《Scaling Laws for Native Multimodal Models》發現,晚期融合架構(後台多模態)相對於早期融合架構(原生多模態)可能存在一定上限上的劣勢。過去晚期融合模型通常表現出較高的樣本效率,就是我後面加一個影像編碼器,就可以直接讓語言模型變成視訊模型,變化賊快。這意味著費力去訓原生多模態,得不償失。但晚期融合模型在參數利用率上存在瓶頸,為了達到特定的性能水平,晚期融合架構得需要更大的模型尺寸來補償那個新加視覺編碼器帶來的表徵限制,因此同等規模,上限更低。另一個特別值得注意的動向,是VAE的消失。 VAE你可以理解成視訊的壓縮器。一個影片包含的資訊太多,直接給模型,它就會崩潰,所以需要一個壓縮器去壓縮成模型可接受的資訊密度。但這麼一壓縮,重構必然會導致高頻細節丟失,而且VAE是獨立的模型,其生成的Latent Space 與大語言模型(LLM)或多模態模型(VLM)的語義空間不對齊,訓練上非常麻煩。2025 年10 月快手的《Latent Diffusion Model without Variational Autoencoder》 論文提出了SVG 模型,透過直接用影像理解模型取代VAE,統一語意空間,這個模式大大提升了訓練效率(號稱提升6200%)和生成速度。而且它的效果不但沒有因為「快」而縮水,反而在多項核心指標上擊敗了現在的霸主DiT(Diffusion Transformer)和SDXL。因為這個模式,有大一統的美,又有benchmark的美,應該很快就會成為主流。符號主義的World Labs :基於3D CV生成的世界第二派是史丹佛教授李飛飛領導的World Labs 派。這一派的特色就是,生成好,但要在固定的物理框架下生成。純粹自監督,太不可靠了。他們在2025年11月推出了首個商業產品Marble平台。這是一個「大型世界模型」(LWM),旨在從多模態輸入中產生可探索的3D 環境。與Sora 輸出像素流(影片)不同,Marble 輸出的是空間表示。根據媒體分析,Marble 大概率是依賴3D 高斯潑濺(3DGS) 作為其渲染基元,並可能結合了神經輻射場(NeRF)的結構估計原則。當使用者輸入單張圖像或文字提示時,Marble 會估計場景的深度、光照和被遮蔽的幾何結構。然後,它將這些2D 資訊「提升」為由數百萬個高斯「潑濺」(具有顏色、不透明度和縮放屬性的橢球體)組成的3D 體積。始終是放不下CV多年來世界建構的努力。這種對傳統CV的應用,也體現在World Labs 提供的創作工具Chisel 上。它引入了神經符號(Neuro-symbolic)工作流程。使用者可以使用粗略的幾何基元(盒子、平面)定義世界的“骨架”,以建立佈局約束(例如,“我需要這裡有一扇門,那裡有一堵牆”)。生成模型隨後根據文字提示對這一結構進行「繪製」和細節填充。比起Sora 生成的黑盒,Marble雖然不是很性感,但確實更穩定,更可控。也許World Labs這條路能是最早走通工業落地的方向。預測即理解:V-JEPA 2與物理直覺另外一派代表是Yann Lecun,他的特色就是極端的深度學習表徵派。對於他,大家可能都或多或少聽過,Lecun的觀點一直是:自回歸的生成式模型根本不可能掌握物理規則,只是鸚鵡而已。那要怎麼掌握規則呢?靠預測。只有預測,能學習物理規則的表徵,而不是那些像素的關係表徵。 Meta推出的V-JEPA 2,訓練機制就是隨機遮住影像的一部分(Masking),然後要求模型根據先前看到的畫面,預測被遮蔽部分的內容,只練預測。然後,一個教師編碼器看到完整的視頻,根據這個幫學生,生成目標特徵向量。這種設計使得V-JEPA 2具備了極高的語意抽象能力。模型被迫學習場景中那些「可預測」的規律(如重力下落、剛體碰撞),而自動忽略那些「不可預測」的隨機雜訊(如光斑的閃爍、背景的紋理雜訊)。在Yann Lecun的考慮中,這提取了因果本質。這套理念其實並不新,和他2024年初發布的V-JEPA 1完全一致。但當時,V-JEPA 1 只用了100M左右的資料集做訓練,其效果只能是理解視頻,並不能展現出反事實預測的能力。但在V-JEPA 2裡,Lecun優化了訓練過程,花了100萬+ 小時的影片訓練集,結果模型確實湧現了「推演」的能力。在V-JEPA 2-AC(動作條件化)變體中,JEPA模型確實做到了可以預測「如果我執行這個動作,世界會變成什麼樣子」。這毫無疑問,是對這條路徑的一劑強心針。說明預測,掌握物理規則這個訓練模式是有效的。不過到了JEPA 2,它能夠處理的時間跨度也不過64幀(根據採樣規律,約10秒),分辨率只有384x384。和人家生成路線高清2k、20s生成比起來,還是差太多。想要真正實用,還得在工程上做不少事。04重要的是學習從深度學習肇始,核心問題就只有一個,也就是什麼是學習。到2024年為止,大模型早已經具有了許多學習能力,能夠從海量資料中尋找到資料的連結方式,進而達成一種與人不同的學習模式。然而,在2025年,強化學習之父Richard Sutton 仍然批評當前的大語言模型(LLM)只是“被凍結的過去知識”,缺乏在與環境交互中實時學習的能力。這是說模型缺乏持續學習的能力,這個問題在上面記憶部分有可能會被解決。Sutton的另一個批評就是模型並不會元學習,也就是學習怎麼去學習,學什麼。他所謂的元方法(Meta-methods),指的就是「在這個時刻不要把知識寫死,而是把『獲取知識的能力』寫進程式碼裡」的方法。這樣,模型才能利用無限的算力和數據,去適應無限變化的世界。只有有元學習的能力的模型,才能在遇到新問題時, 透過很少幾個樣本,調動腦子裡的「通用解題邏輯」(元知識),立刻做出解答,做到真正的低成本、快速適應。並透過「如何觀察特徵、如何歸納特徵」的能力,迅速歸納出規則達成完整的動態泛化。沒有元學習,模型就不可能應付未知。 因為你無法預知未來會遇到什麼任務,所以你不能預先訓練它,只能賦予它現場學習的能力。元學習與中訓練在2024年之前,學術界一直有關於當時模型是否具有隱性元學習能力的討論。很多人認為是有的,因為有上下文學習(In-Context Learning)的現象。因為我們不改動參數,只是給GPT 看幾個例子(Prompt),它就像學過了一樣能夠舉一反三。對此,包括Anthropic在內的研究機構,都提出Transformer中的注意力機制在數學形式上,與模型學習時梯度下降(Gradient Descent)的更新步驟非常類似。 Deepmind的論文,更證明對於線性注意力模型,Transformer 的前向傳播過程可以被嚴格推導為「在大規模預訓練學到的權重上執行梯度下降」的過程。但同樣,也有很多研究,證明上下文學習其實沒在新學習例子中給出的映射關係,只是在自身的概念空間裡,利用格式(Format)激活了預訓練期間早就記住的知識。就是說啟動了相關性而已,不是真在學,而是在套模版。這和我們所提到的元學習的理念大相逕庭。不過,在2025年12月份,蘇黎世理工也發表了一篇Meta RL的論文,設計了更好的脈絡框架,更有效的利用ICL來作為一種元學習的方式。讓模型透過上下文自我反思和歷史回溯,來形成新策略。在下一次嘗試中,Agent 實際上是在執行一個新的Policy ,因為上下文變了。它看起來和上面提到的谷歌的ReMeM很像,但更關注策略更新,而不是上下文管理。也許他們結合起來,才是最好的上下文作為權重的方法。但最大的改變,是TTC的到來,為隱性元學習提供了其他的可能性。在推理革命初期,大家都發現可能模型思考了很長一段時間,輸出了很長的思維鏈,但要不是沒用,就是都是錯的。所以不是思維鏈越長模型就越強。我們得引導它的思考過程,讓它在最短的思考中,達成最優解。這其實本質上就是一種訓練模式如何思考的元學習。卡內基美隆的研究《Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning》就是在這個方向上的嘗試。它先證明了,模型在推理時產生的長CoT,本質上是一個Agent 在思考空間中探索最優路徑。那如果這種探索可以做到更有效,其實就是一種元學習的能力。這種元學習,就是引導模型在推理過程中,能有效尋找最佳路徑,合理地分配算力。他們使用的策略是累積遺憾最小化(Cumulative Regret)。如果模型多思考了很多步,但答案的置信度沒有提升,這就是個遺憾,需要在後續規避。我們在做強化學習的時候,應該引導模型盡可能減少遺憾發生的可能,讓模型知道遇到這種難度的題,我應該呼叫多少算力、嘗試幾條路徑。這就是學習的方法。但這些方法,雖然比單純的脈絡學習走的遠,但仍侷限在優化現有的探索路徑這個層面,向外探索的能力仍然不足。我們可能仍需要在單純的梯度之外,建構一套明確的系統,引導模型學習學習。例如DeepMind 今年發表DiscoRL,它包含兩個核心閉環:內部循環由Agent在Atari等遊戲環境中試錯,外部循環則由「老師」透過反向傳播觀察學生的表現,不斷修正教學策略(即更新學習演算法的參數)。這個過程讓AI自主發現了想要得到最好的結果,得從“獎勵最大化”轉向“未來預測”,而且這些預測往往集中在重大事件(如Ahamoment和改變方向)發生之前。在這過程中,教師獨立「重新發現」了RL中的自舉法,證明了AI可以透過這種遞歸的抽象從純粹經驗中真的學習到應該如何去探索。實驗結果顯示,由此系統自主發現的演算法(Disco57)不僅在雅達利基準上擊敗了包括MuZero在內的人類設計頂級演算法,更展現了驚人的泛化能力。即使在未見過的ProcGen和NetHack等複雜環境中,它依然表現出色,證明其學到的不是單一遊戲的技巧,而是普適通用的學習法則。Meta在《Agent Learning via Early Experience》的中訓練嘗試,其實也殊途同歸的走向了一樣的路徑。預訓練是讓AI死記硬背專家的正確操作,RL是直接扔到現實世界裡依靠稀缺的獎勵摸爬滾打。而中訓練,就是在這之間讓Agent自己瞎折騰產生後果,並且反思。具體到操作層面,在專家演示的每一步,會強制AI嘗試幾種不同的“備選動作”,然後記錄下這些動作會讓環境變成什麼樣。同時,也要對為什麼專家做得好,我做的不好進行反思。這其實就是訓練AI不僅僅知道“怎麼做是對的”,而是建立起“如果我這樣做,世界會那樣變”的因果模型。在一種探索和嘗試,以及對嘗試經驗的遞歸中,模型也許確實學會瞭如何學習這個世界的規律。它能顯著提升其在WebShop、ALFWorld等複雜環境中的成功率(平均提升9.6%),並大幅增強了泛化能力。這幾種方法有一個共通性,即他們都掌握了「想有效探索,必須建立一個對世界的預測」的想法。這和Google《General Agents Need World Models》一文的結論不謀而合。神經科學的投影2025年的神經科學研究,讓我們可能能更理解人類是如何進行學習的。過去我們認為神經網路是一個混雜的“黑盒”,但在《Building compositional tasks with shared neural subspaces》這篇論文證明了大腦內部存在著結構化、正交化的神經子空間。這些子空間就像是物理層面的“符號”,它們將“顏色”、“形狀”、“動作”等概念從混沌的電信號中剝離出來,形成了獨立的、可複用的模組。研究發現,大腦執行新任務不是靠修改神經元的連結(長出新腦細胞),而是靠一種「動態路由」機制。前額葉皮質根據當前的“任務信念”,像接線員一樣將不同的神經子空間重新連線。其實人類在學習過程中,是將簡單的模組拼裝成新任務來去行動。今年哈佛的論文《WHAT DOES IT MEAN TO UNDERSTAND LANGUAGE?》則認為大腦的「語言區域」其實並不負責真正深刻的理解,它只是做了一些表層的處理,然後必須把訊息「外派」給大腦的其他專門區域(比如負責視覺、社交、物理推理的區域),才能實現真正的「深度理解」。在這種理解之上,2025年湧現了許多對模型進行分區的嘗試,包括上述的記憶分區,或是把模型的參數分成專門處理快、慢反應的兩個組別的嘗試。05讀寫速度、注意力和Scaling Law的基礎以上四個部分,可以說是2025年最引人注目的四個進步。因為它們在AGI的量表中,都是一步步覆蓋到原來完全為0的新領域。從零奠基,範式革新。然而在這之外,2025年也有其他一些重要改變,有效的補齊了過去模型並不擅長的領域(例如上下文和處理速度),並且可能隱含著一些訓練範式上的大規模修正可能。以下我們就透過一章,快速涵蓋這些領域。對抗“Scaling Law的消失”就像文章一開始所寫,在2024年末時,GPT 4.5已經遇到了網路資料枯竭的問題。而且在訓練超大型稠密模型的工程難度也幾何增加,問題不斷。Scaling Law眼看難以為繼之時,OpenAI 在GPT-5.2 中並未繼續盲目擴大參數,而是靠稀疏性(Sparsity),即MoE、合成資料(Synthetic Data)與RL加強三方結合,突破瓶頸。MoE,是DeepSeek 一直以來的方法,在V3成功之前, 業內很少有人使用。但它確實具有訓練資源消耗少的特徵(一次訓練整個模型vs 一次只訓部分專家),因此,大規模稠密模型帶來的工程問題在一定程度上被解決。而強化學習和測試時時間,讓模型可以繞過參數的Scaling Law,用上面說到的RL的Scaling Law繼續提升能力。但數據怎麼辦?在2025年,隨著推理能力的進步,模型現在已經可以自主生成長思維鏈(COT)文本了。 DeepSeek R1的論文表明,利用DeepSeek-R1產生的長思維鏈對小模型進行微調,其效果遠超使用人類專家編寫的CoT數據。因此,到此時合成資料的問題已經解決了一半。另外,2025年也有很多證據證明,數據在精,不在多。而且品質最好的就是長COT數據。芝加哥大學團隊的實驗數據表明,當數據量達到一定規模後,資訊大多是重複冗餘的,訓練效果反而不好。與其盲目追求P資料量,不如透過去重和多樣性篩選來降低資料密度,加強單位資料的「驚奇度」(Surprisal)。而且最有驚奇度的在現階段正是長COT。在他們的實驗Select2Reason中,僅僅篩選出前10% 推理路徑最長、最複雜的樣本進行訓練,其效果就匹配甚至超越了全量數據集。因此,長COT文字合成數據,已經成了翻越數據牆的一種最有希望的方式。但2025年10月的一項熱點研究發現,模型在大規模使用合成數據,包括互聯網上流行的AI生成數據後,會發生“腦損傷”,也就是遞歸(持續用自己推導自己)導致的模型崩潰(Model Collapse)。一方面模型的長尾泛化能力下降,另一方面,模型會持續放大過去產生的錯誤,盲目自信。不過研究並沒有單獨拎出來長COT文字資料做範例。好在這並非必然。南洋科技大在NeurIPS 2025的論文中,就建立了一種利用自我驗證機制過濾資料的方法。在產生合成資料後,模型會計算其內部置信度分數。如果分數低於某個閾值,表示模型對該生成內容存疑,那麼這些資料就要被丟棄。他們的數據證明,只要模型的校準誤差在一定界限內,僅憑自我驗證就可以在完全合成(Fully Synthetic)的資料體制下,讓模型一直訓練下去,而不會崩潰。在2025年,科學研究界也發明出了更複雜的方法來做清洗。例如利用另一個模型作為裁判(LLM-as-a-Judge)去搭建一個資料清洗流,確保其可驗證性和效果。甚至有意識的讓Agent去生產模型知識空間中的空白(Missing Nodes),以解決遞歸帶來的多樣性喪失。感謝蒸餾,我們或許不必再承擔推理慢的代價了Gemini 3 Flash在年底的橫空出世,讓人對小模型的能力提升有了非常直觀的感受。在Gemini 3 Flash之前,雖然Nvidia一直鼓吹小模型時代,微軟的Phi 4、谷歌的Gemma 3等小模型也表現不俗,但沒有任何一家的小模型能夠真正替代自家主流模型成為日常主力模型。所以2025年這一年到底發生了什麼,讓小模型突飛猛進?主要是蒸餾方法的兩大主要的進步:MoE的蒸餾,以及COT的蒸餾上。先說MoE蒸餾。在DeepSeek的帶領下,現在主流的模型都是用MoE的架構了。但先前的傳統的蒸餾方法往往忽略了那些未被路由選中的專家(Non-activated Experts)所蘊含的「暗知識」。2025年2月的論文《Every Expert Matters》就提出了針對MoE 的特化蒸餾方案。此方法在蒸餾過程中,透過多次採樣或強制活化策略,讓學生模型接觸教師模型中不同專家的組合輸出。這樣學生模型(通常是較小的稠密模型)不僅學習到了“最優解”,還學習到了不同專家對同一問題的不同視角。這類研究,給出了MoE蒸餾的工程方向。另一個難題就是將長思維鏈能力高效遷移到小模型。傳統的單一教師蒸餾處理長序列推理中的誤差累積問題非常不力,並不適合長COT的蒸餾。而簡單的將多位教師的資料混合(Data Union)往往會因為推理路徑的衝突而導致模型困惑,反而降低了效能。為了能因應這個情況,思維融合蒸餾(Merge-of-Thought, MoT) 應運而生。這是一個輕量級的、迭代式的蒸餾框架,透過共識去噪(Consensus Denoising)原理,讓多個教師可以有效的引導學生模型,還可以避免長序列推理的誤差累積。例如在解決同一個複雜數學或邏輯問題時,不同教師的表達各異,但其核心的推理邏輯往往是相似的。就那乾脆在高維度參數空間中,讓學生模型能夠提取出所有教師的“公約數”,即最穩健的推理邏輯。透過這兩種方式,加上長COT本身對蒸餾的增強作用,讓小模型的能力越來越強。也許有一天,我們甚至不用犧牲推理帶來的速度減緩,就能享受完整的智慧體驗了。注意力機制的變化,解放脈絡每一年,注意力機制都會有些新突破。畢竟這是自迴歸框架下最重要的機制之一,它深度影響了大模型的脈絡能力和指令遵從能力。 2025年的變化相對比較多元。如果說2024年以前是MHA(多頭注意力)的時代,那麼2025年則是MLA(Multi-Head Latent Attention,多頭潛在註意力)及其變體全面普及的時代。從DeepSeek從V3開始採用MLA架構後,它就開始大受歡迎。畢竟既能壓縮大量降低顯存佔用,又能保持了原有註意力機制的水平,多好。而且在推理COT越來越長的背景下,的KV Cache顯存爆炸問題更嚴重,MLA 也更加流行。不過在發展過程中,MLA現在很少是作為一個獨立的注意力層被應用,而是更多地作為一種「高性能組件」被嵌入到混合架構中,給其他更高效的注意力新方法做精度保底。2025年的另一個變化是線性注意力的複歸。長期以來,線性注意力被視為全注意力的一種「有損壓縮」妥協方案,它用精確度的下降換取推理速度。但在2025年,隨著Kimi Linear的發布,這種刻板印象被徹底打破。Kimi Linear採用3:1混合架構(3層線性穿插1層MLA),利用線性注意力層承擔主要的計算負載(節省75% KV緩存),再利用MLA兜底全局信息,實現了在1M超長上下文任務(RULER測試)中達到94.8的高分,性能上首次全面超越全注意力。這標誌著線性注意力現在又了從備胎轉為主力的實力。除此之外,Kimi還證明了線性注意力可以內在地學習各個token的位置信息,從而不再需要傳統的RoPE(旋轉位置編碼),在1M上下文解碼時,少了ROPE和N方的計算量,它的吞吐量可以達到全注意力的6.3倍。除了在傳統的Token層面優化注意力,2025年的另一個重要趨勢是打破離散Token的限制,朝向連續空間(Continuous Space)演進。這以「大型概念模型」(Large Concept Models, LCM)和騰訊的CALM(Continuous Autoregressive Language Models)為代表。傳統的LLM只預測下一個token,因此非常慢,且對於長文本概念的關聯性理解也不行。 Meta的Large Comcept Moedel 則試圖將多個Token壓縮為連續向量,從「預測下一個字」轉變為「預測下一個概念向量」。這增加了每個生成步驟的“語義頻寬”,在一次推理步驟中產生相當於原來4倍的信息量,理論上能讓模型訓練和推理的更快。這個邏輯很好,但在LCM提出時,因為壓縮token向量的工程化問題,其訓練效率並沒有比傳統方法提升太多。但今年10月,騰訊的CALM才第一次在工程上找到了平衡點,用更極簡的方式證明了這條路徑的工業可行性。062026,模型研究可能往那裡走?在了解完2025年模型的進步路徑後,我們可以暢想明年可能出現的一些研究方向。首先,我們上面提及的這些方向,毫無疑問會朝著更精細化和工程化的方向演進,進而為我們帶來模型體驗上的持續提升。從2025年的技術總結中,我們已經可以看到,幾乎所有重要的Scaling Law繼續發威的絆腳石都被搬的七七八八了。也正是因此,我們才在年末迎來了Gemini 3和GPT 5兩個確實提昇明顯的新模型。雖然像Test Time Compute這類範式革新性的創新是難以預測的,但有些已有苗頭的新方向很可能會在2026年結果,產生很重要的落地應用。我下面會羅列一些我認為可能會發生的技術推進方向。記憶的工程化實踐2026年,一定是記憶大年。因為記憶關切持續學習,事關Agent落地(個人化和新技能學習),如果理論上的方向已經明確,那除了工程上的難題外,基本上沒有什麼可以阻止它落地。在AI領域,我們以TTC革命為例子,可以看到一個複雜的系統性新想法從產生、實驗、工程落地,大概需要的時間是2年左右。 2024年末的GPT o1,實際上在22年左右,已經在Illya腦海中逐步成型,到方法確定和工程優化,大概用了整整兩年。在2025年,我們看到了從RAG、微調到架構上三種路徑上的思考都逐步邁向成熟,並且已經進行了小規模的實驗。這說明很可能再有一年時間,這些研究成果就可能在工程上成熟,被採用。在一個成功架構(例如像DeepSeek R1)的推動下,成為標配,完成範式轉換。即使做不到架構層的變化,RAG層的精修和SFT技術的最佳化,也可以讓之前那些實驗性的記憶系統,例如Mem0、Second Me有了更好的落地體驗。在2025年中,基本上主流模型都已經配置了基於情境的記憶系統。但在2026年,更細節,更具學習性的記憶將會逐步被產品化。標準架構的變革不論是Nested Learning、還是元學習,以及Universe of Thought,似乎都在證明著,我們當下的語言模型架構必須進行一些升級,才可能補全其缺失的能力。這種升級的趨勢主要以分區、分層、增加更多功能層為特質。不管是直接在層級間加入Titans 的記憶層,還是像Herachical Reasoning 那樣,把模型分成不同的分區,都可能更符合人腦運作的模式。在2026年,這種潛在的混合架構,可能會隨著神經學和符號主義的回潮,變得有更多更豐富的嘗試。進化的螺旋開啟2025年除了推理這個字之外,最熱門的應該就是自進化了。這是機器學習的聖杯。一個可以無限自我對弈、自我演化的通用型AI,基本上等於是AGI、ASI。不過在2025年,探索才剛起步。在這一年裡,有借鑒了生成式對抗網絡,讓模型能夠在無數據的情況下,自問自答進行強化學習的。這條路確實走的通,也確實是自進化,但它的上限依然受制於模型本身的預訓練能力,暫時沒有呈現出超過人工設計的後訓練的水平。自進化AI的另一個驗證方法是是否能發明出讓自己進化的演算法。這就是Alpha Evolve努力的一個方向。它是由系統使用Gemini Flash(追求速度)和Gemini Pro(追求深度)組成的模型集成,形成一個獨立的探索Agent。系統將目前表現最好的演算法程式碼作為上下文輸入LLM,並告訴這些Agent,去優化這段程式碼的某些具體方向。 LLM由此產生多個變異版本的程式碼。在Agent規則的限制下,這些變異一般是邏輯層面的重構,例如改變循環結構、引入新的數學技巧或調整資料結構。產生的程式碼會被放入沙箱環境中執行。系統透過預先定義的測試案例驗證其正確性(Provable Correctness),並透過效能分析器測量其效率(如延遲、吞吐量或指令數)。那些既正確又更有效率的演算法將被保留,成為下一代的父本。由此,持續的多次最佳化,最終帶來演算法的最優最佳化。在實踐上,Alpha Evolve確實找到了優於人類答案的最佳化演算法。不過,我們其實可以把Alpha Evolve看成Deep research的變體版本,只是把搜尋部分換成優化而已。在缺乏反思和內化,只是作為流程Agent存在的大模型,雖然確實可以找到演化演算法,但很難稱之為自進化。以上兩種比較有代表性的嘗試,其實都屬於自進化早期的嘗試。在記憶、合成資料、後設學習的模式完善之後,自進化的AI在2026年必然會產生更多的可能性。(騰訊科技)
Google DeepMind 通用機器人路線圖:VLM → VLA + Agent,“能幹活”的機器人跑起來了
Google DeepMind 的機器人團隊強調,他們做的不是預先編好動作、只會後空翻表演的機器人,而是面向現實世界的 開放式通用機器人。這類機器人需要能夠 理解人類自然語言指令,並且可以 靈活組合執行幾乎不限種類的任務,而不是只會重複固定指令碼。來源:AI工業(採用 AI 工具整理)相比四年前,實驗室形態也發生了明顯變化:依託 更加魯棒的視覺主幹網路(visual backbone),模型對光照、背景、雜亂環境的敏感度大幅下降,視覺泛化問題被解決了很大一部分,不再需要用隱私屏去“淨化”場景。來源:AI工業(採用 AI 工具整理)最近幾年的核心進展,是把機器人系統 直接建構在大模型之上。團隊使用大規模 視覺–語言模型(VLM)作為通用世界知識的底座,在此基礎上疊加控制能力,建構出視覺–語言–動作模型(VLA/VALA)。在這樣的模型中,機器人在世界中的 物理動作也被視為一種序列 token,與視覺 token 和語言 token 放在同一序列中建模。這使得模型能夠在統一框架下處理“看到了什麼、理解成什麼、接下來該做什麼動作”,從而在 新場景、新物體、新指令上表現出更強的動作泛化(action generalization)能力。來源:AI工業(採用 AI 工具整理)在任務層面,系統已經從早期只會做“拿起、放下、拉開拉鏈”等短視野任務,邁向可以完成“行李打包、垃圾整理”等 長視野任務。通過在 VLA 上方加入一個 Agent 層,系統可以把很多短動作 編排成完整的長鏈條行為。例如“幫使用者打包去倫敦的行李”時,Agent 會先 查詢當地天氣,再 推理需要準備那些物品,然後呼叫 VLA 驅動機器人執行具體收納,形成 “上層推理規劃 + 底層物理執行” 的分層架構。在Gemini 1.5中,團隊又加入了 “思考(thinking)元件”:模型在執行動作之前,會 先顯式輸出自己對即將執行動作的“想法”和推理過程,然後才真正下發動作指令。本質上,這是把語言模型中的 鏈式思考(Chain-of-Thought)機制遷移到機器人控制上。實驗結果顯示,顯式輸出“思考過程”可以顯著提升機器人在新任務上的泛化能力和成功率,同時也大幅提升了系統的 可解釋性。代表性案例:Aloha 午餐盒、桌面操作與衣物分揀來源:AI工業(採用 AI 工具整理)在具體實驗中,團隊用 Aloha 機器人演示了一個高難度的 “午餐盒打包”長視野任務。機器人幾乎 完全依賴視覺伺服(visual servoing),以 毫米級精度抓住自封袋的一小段邊緣,把面包準確塞進狹窄空間,在出錯時根據視覺反饋不斷調整和重試。支撐這些端到端策略的資料主要來自遠端操作(tele-operation),研究人員以第一人稱視角“軀體化”地操控機器人完成任務。機器人則從這些 人類演示資料 中學習“什麼算做對”,最終得到真正端到端的視覺–動作控制策略。他們還展示了結合 語言控制與通用桌面操作 的場景:桌面上有不同顏色的積木和托盤,上面疊加了Gemini 語言互動層,使用者可以直接說出指令,機器人一邊執行一邊用語言反饋自己的動作。更關鍵的是,場景中加入了 完全未見過的新物體(例如剛買來的梨形小容器、減壓球),系統依然可以理解諸如“打開綠色梨形容器,把粉色軟團放進去,再蓋上”的複雜指令,展現出對 新物體、新組合的開放式泛化能力。在另一個衣物分揀的人形機器人示例中,模型在每個時間步同時輸出 “思考文字 + 接下來要做的動作”,將 思考與行動統一在一個端到端閉環模型中,既提升了表現,也增強了 可偵錯性和可解釋性。技術路線已成型,瓶頸轉向物理互動資料來源:AI工業(採用 AI 工具整理)團隊整體的判斷是:儘管當前機器人仍然 偏慢、動作有些笨拙,成功率也並非完美,但與幾年前相比,已經出現了“質變級”的進步。現在的系統能夠 理解語義、形成有上下文的場景理解,並對複雜的物理任務進行分解與推理。他們認為目前的很多成果,已經是在搭建 未來通用家用機器人的基礎模組,而不是將來會被完全推翻的臨時方案。在這種情況下,真正的核心瓶頸,已經從“模型結構設計”轉移到了“資料匱乏”:機器人要學會通用操作能力,需要海量的 真實世界物理互動資料,而這類資料的規模遠遠比不上網際網路的文字和圖像。未來一個重要方向,是充分利用人類在網際網路上發佈的 大量手工操作視訊,從這些人類示範中大規模學習,從而緩解實體機器人採集資料成本高、速度慢的問題。總體來看,通用機器人操作仍然是一個高度非結構化、開放式的難題,但在團隊看來,如果能跨過“物理互動資料”的門檻,當前這些“幫忙疊衣服、打包午餐”的演示,很可能就是一場真正“機器人革命”的前夜。 (AI工業)