#DeepMind
阿里的“DeepMind時刻”:吳泳銘親征,Token帝國的黎明
“當下正處於AGI爆發前夜。大量數位化工作將由數以百億計的AI Agent來支撐,而這些Agent將由模型產生的Token支撐運行。”3月16日,阿里巴巴CEO吳泳銘在全員內部信中寫下這句犀利判斷的同時,也宣佈了一個同樣犀利的架構重塑:成立Alibaba Token Hub(ATH)事業群,並將通義實驗室、MaaS業務線、千問事業部、全新曝光的悟空事業部及AI創新部悉數納入麾下,由其本人直接掛帥。這個以“創造Token、輸送Token、應用Token”為使命的新組織,覆蓋了從基礎模型研發、模型服務平台到C端和B端AI應用的完整鏈條。這,也是全球科技巨頭中,第一家徹底摒棄“按產品線劃分”的傳統網際網路邏輯,轉而以“Token流轉”為核心組織原則重構AI版圖的組織重構。三年前,Google做過一件類似的事——將內部競爭多年的Google Brain和DeepMind合併為一個統一組織。18個月後,整合後的團隊不僅交出了驚豔的Gemini 3.0,更直接推動Alphabet市值一度沖上4兆美元,超越蘋果重返全球第二。那麼,阿里能否複製這一“整合-加速-價值重估”的軌跡?01 Token風暴——當AI Agent吞噬一切全球的Token消耗量,正在經歷一場“寒武紀大爆發”。驅動力來自AI Agent。當AI從“聊天”轉向“辦事”,Token消耗結構發生了根本性變化——推理模型每次查詢的Token消耗比普通模型高17倍以上,Agent工作流更是傳統聊天的100倍。2025年10月,GoogleCEO皮查伊在財報電話會上透露,Google每月處理的Token數量已達1.3千兆個,較一年前暴增約130倍。阿里各AI條線的資料,也在說明Token需求端的爆發力。今年1月,阿里雲推出百煉的Coding Plan訂閱服務,因完美契合高頻的Agent和程式設計場景,上線僅兩個月左右,就因需求持續快速暴漲超出了預期,而被迫暫停首購優惠。與此同時,根據去年公佈的資料,百煉MaaS平台的API呼叫量一年增長接近100倍,要知道,這個增長資料還未統計到最近幾個月Agent爆發的階段,可以推測,這將是一個更高數量級的增速;另一方面,在開源生態端,千問模型全球下載量突破10億次,並在OpenRouter全球市場份額中以超12.3%的佔比超越OpenAI和Llama系列。更為大眾熟知的千問App,自去年11月公測起,3個月內月活躍使用者突破2.03億。當Token的生產、分發和消耗都在以百倍速度膨脹,組織架構就必須跟上。過去,阿里的模型團隊、平台團隊和應用團隊分佈在不同業務線,各有各的節奏和優先順序。而ATH的做法是以Token為主線,將這些原本分散的力量整合進同一個組織:通義實驗室負責創造Token,百煉MaaS平台負責輸送Token,千問和悟空事業部負責在C端和B端將Token轉化為使用者價值。如此,團隊之間的協同將更加緊密,從模型到應用每一環都將產生新的化學反應——模型側的效率提升可以即時傳導為平台側的成本最佳化,應用側的需求訊號可以直接回傳指導模型迭代方向。這也解釋了ATH為什麼不叫“AI事業群”或“智能事業群”,而叫“Token Hub”。它精確地描述了這個組織的核心使命:做AI時代的Token中樞。02 DeepMind先例:整合如何釋放AI加速度完成整合,究竟能釋放出多大的能量?大洋彼岸的Google,是一個走完全程的先例。2023年4月,ChatGPT的衝擊波讓Google內部拉響了警報。彼時Google擁有全球最強的AI研究團隊,卻打不出有力的回擊——Google Brain和DeepMind兩支隊伍各自為戰多年,Brain偏向商業化落地,DeepMind專注基礎科研,重疊的研究方向造成資源浪費,而協調成本又拖慢了產品迭代。巨大競爭恐慌下,皮查伊做出了Google AI歷史上最艱難的決定:將長期各自為戰、資源內耗的Google Brain與DeepMind合併,由DeepMind創始人Demis Hassabis統帥。接下來發生的事,成了科技史上組織整合釋放創新動能的經典案例。合併後僅8個月,Gemini 1.0系列模型發佈,次日Alphabet股價漲5.3%。2024年2月,Gemini 1.5以MoE架構突破100萬Token上下文窗口。同年8月,Google以約27億美元的授權協議從Character.AI請回了Transformer共同發明人Noam Shazeer——這位關鍵人才回歸後發現並修復了Gemini的一個深層訓練缺陷,直接促成了Gemini 3的突破。2024年10月,皮查伊再進一步,將Gemini App團隊也併入DeepMind,實現了“模型+應用”的終極合體。這種緊密的反饋循環,直接催生了2025年底至2026年初Gemini 3系列在原生多模態和複雜推理上的全面爆發。到2026年1月,Gemini的市場份額從一年前的約5.7%躍升至2026年1月的21.5%,全球月活使用者達到7.5億。在資本市場,Alphabet在2026年1月8日超越蘋果重返全球市值第二,並於1月12日歷史性地突破4兆美元大關。從合併重組到市值巔峰,耗時不到3年。當下,阿里面對著相似的局面。ATH與Google DeepMind的核心邏輯高度一致:兩者都是在外部強敵環伺和內部協調摩擦的雙重擠壓下,將分散的AI力量收攏到最高層直管的統一組織中。且ATH的整合版本甚至更加領先——Google DeepMind的整合以“實驗室”為核心,先合併研究團隊,再逐步納入應用團隊,前後經歷了約18個月;而由CEO吳泳銘親自掛帥的ATH則一步到位,將模型研發、MaaS平台、C端應用和B端應用全部整合進同一個組織,整合範圍覆蓋了Token的完整生命周期。尤其值得投資者關注的,是首次亮相的悟空事業部——定位B端AI原生工作平台,要將模型能力深度融入企業工作流。有媒體披露,ATH還將監管釘釘和夸克品牌下的裝置(包括智能眼鏡)。當前,釘釘在中國企業市場擁有超過7億使用者,如果悟空事業部能有效利用這一分發基礎,阿里在B端AI應用上的起步位置可能遠遠領先於市場認知。03 邁向AGI時代的最佳陣容拉長時間線看,ATH並非一個突發決策,而是阿里過去兩年AI戰略演進的必然結果。從2023年9月上任三天就確立了“AI驅動”的戰略重心,到2025年2月拋出震撼業界的3800億元人民幣天價資本開支(CAPEX)計畫,再到雲棲大會明確“AGI到ASI”的演進路線,最後到今天ATH事業群的落地,吳泳銘領導下的阿里,打出了一個極其清晰的“戰略宣言→資本配置→組織重塑”的閉環。在AI Agent浪潮席捲而來之際,阿里已經率先完成了從“單點技術比拚”向“模型、平台、應用協同作戰”的陣型切換。然而,商業世界沒有無風險的坦途。ATH能否真正成為阿里的“DeepMind時刻”,仍取決於三個核心變數:第一,能否持續吸引人才;第二,大模型的迭代速度,能否跟上這台龐大組織機器運轉的節奏;第三,被寄予厚望的悟空事業部,能否在B端真正跑通AI原生工作流的商業化閉環。如果參考Google DeepMind的“18個月效應”,市場大機率將在2027年年中之前,看到ATH重組帶來的第一波決定性成果。而短期的試金石近在眼前——3月19日的財報,將直接檢驗阿里雲連續9季度三位數增長的AI營收能否延續,以及華爾街普遍給出的200美金以上的目標價是否具備堅實的業績支撐。對阿里巴巴而言,這已經是其目前能排出的、邁向AGI時代的最佳陣容。而對整個中國乃至全球的AI產業而言,ATH的成立宣告了一個殘酷的事實:當AI戰爭從 “模型軍備競賽”正式進入“Token供應鏈之爭”,誰能率先完成從底層算力到頂層應用的全鏈條整合,誰,或許就握住了下一個十年的定價權。 (華爾街見聞)
猛料,GoogleDeepMind公然要挖林俊暘,演都不演了
挖人如同打臉,Google殺人誅心。這兩天,網際網路行業和AI圈被同一條消息刷了屏:阿里千問大模型的核心負責人林俊暘突然發文告別。這條消息如同一塊巨石投入本就波濤洶湧的湖面。直到今天,阿里官方確認了林俊暘已離職的消息。圖源:微博作為阿里的戰略核心,千問(Qwen)團隊的人事變動,絕不僅僅是一個人的去留問題。它背後牽扯的,是一家巨頭在AI狂飆時代的技術路線選擇、組織架構調整,以及那場關於“技術策略”與“商業變現”的殘酷博弈。而更令人意外的是,就在同一天,GoogleDeepMind的相關負責人突然在社交平台上向Qwen團隊拋出了橄欖枝。那個夜晚發生了什麼?3月4日凌晨,當大多數人還在睡夢中時,阿里千問的核心負責人林俊暘在社交平台留下了一句極為克制卻又飽含情感的話:“me stepping down.bye my beloved qwen.”(我卸任了,再見了,我親愛的千問)。短短幾個詞,瞬間引爆了科技圈。圖源:X林俊暘,這個名字在業內代表著什麼?他是1993年出生的技術天才,北大碩士畢業,2019年以應屆生身份加入阿里達摩院。在短短幾年內,他一路晉陞為阿里最年輕的P10級技術負責人,親歷並主導了千問從0到1的全過程。在過去的幾年裡,林俊暘帶領團隊打了一場又一場硬仗。2023年,通義千問正式發佈;此後,團隊以令人炫目的速度推出了從0.5B到110B的系列模型,在開源社區Hugging Face上霸榜數月。正是因為他,Qwen系列成為了全球開發者心中“最能打”的中國開源模型之一,衍生模型數量突破20萬,下載量超10億次。然而,誰都沒想到,在阿里AI戰略被提升至最高優先順序、在馬雲剛剛現身談AI、在品牌剛剛統一為“千問”的節骨眼上,他竟然選擇了離開。緊隨其後的是連鎖反應。Qwen後訓練負責人郁博文、核心貢獻者李凱新等多名技術骨幹,也相繼傳出了離職的消息。GoogleDeepMind開發體驗負責人Omar Sanseviero抓住了這個機會,突然在社交平台上公開喊話:“千問的朋友們,如果想找個新地方來打造優秀模型,並為開源模型生態系統做出貢獻,請隨時聯絡我!我們的路線圖中有很多令人興奮的事情。”圖源:X這則喊話,禮貌、精準,且殺傷力極強。它不僅瞄準了剛剛失去領軍人物的Qwen團隊,更直接指向了“開源模型生態”——這恰恰是林俊暘和Qwen團隊最引以為傲的陣地。而且Omar Sanseviero本人曾是Hugging Face的開源生態負責人,江湖綽號“首席羊駝官”(Chief Llama Officer),對開源社區的運作模式熟稔於心。由他來“接客”,DeepMind顯然是做足了功課。有人說阿里的一個時代結束了。不,或許只是一個階段結束了。但在結束的廢墟上,新的獵手已經舉起了火把。為什麼在鮮花著錦之時轉身離去?對於林俊暘的離開,很多人的第一反應是“宮斗”或“內卷”。但根據多方資訊梳理,林俊暘的離開,更像是一場關於“未來怎麼走”的理念分歧,以及由此引發的權責重構。阿里內部人士透露,實際情況並沒有外界傳言的那麼狗血。隨著千問從一個小小的技術項目被提升為集團的頂層戰略,阿里認為需要招攬更多的全球技術大牛來提升“人才密度”。在這個過程中,林俊暘的權責範圍面臨調整——可能會從原先的垂直整合型負責人,變成負責其中一部分環節。這種變化,他無法接受,因而提出了辭職。簡單來說,過去林俊暘帶領的Qwen團隊更像是一個“特種部隊”:預訓練、後訓練、多模態、Infra全鏈路閉環,人少但戰鬥力極強,適合快速迭代、沖榜造勢。這是典型的“創業團隊”打法,極具理想主義色彩;而隨著集團戰略轉向,阿里希望將Qwen團隊按功能拆分成預訓練、後訓練、視覺理解等多個模組,與通義實驗室的其他團隊(如通義萬相)合併工作。這是“正規軍”的整編打法,更適合大規模協同作戰和商業化的深度落地。雖然在管理上,這種組織重構更利於資源統籌,但對於一個習慣了掌控全域的技術負責人來說,無疑是一種巨大的心理落差。圖源:微博更深層次的矛盾,或許在於“技術”與“商業化”的左右互搏。知名經濟學者盤和林對此分析得頗為透徹:“阿里需要千問快速商業化。今年AI行業有個問題,大量的基礎設施投入無法回收。但千問團隊之前的調性,是服務好使用者,做好開源。”開源,意味著免費、分享、普惠,追求的是技術影響力和社區口碑;商業化,意味著變現、收入、利潤,追求的是財務報表和市場佔有率。兩者並非天然對立,但在資源有限、競爭白熱化的當下,取捨在所難免。艾媒諮詢CEO張毅指出,阿里當前或是在“戰略收縮開源,聚焦高價值的商業閉環”。其實,在不少業內人士看來,此次事件發生的真正導火線,更有可能是新模型表現不佳。雖然Qwen3.5的小模型(如0.5B、4B等)在開發者社區好評如潮,甚至獲得了馬斯克的點贊;但在衡量大模型綜合能力的權威盲測榜單LMArena上,千問的旗艦模型Qwen3.5-397B排名並不理想,僅列第18位,與之前Qwen3-Max Preview的前三位置相去甚遠。圖源:LMArena當旗艦模型表現不及預期,當內部評價出現分歧,當組織架構的調整似乎在印證“不信任”,離開或許成為了一種必然。3月4日下午,通義實驗室緊急召開了全員大會。阿里高層反覆強調:“Qwen沒有收縮,這是一次團隊擴張。”並承認“新人引入肯定會帶來陣型變化,我們可能沒處理好”。這句話的潛台詞是:公司要長大,隊伍要整編,在這個過程中,總會有人走散。人才爭奪戰背後,AI進入“體系對抗”時代進入2026年,AI行業徒步踏進深水區,全球AI人才爭奪戰也逼近極致白熱化。領英發佈的《2026全球勞動力市場洞察報告》顯示,AI工程人才是全球流動最活躍的群體,其跨國流動的意願是普通人才的8倍。國內的資料同樣驚人,獵聘報告指出,2026年開工首周,要求會AI工具的職位同比增長超過200%。圖源:領英《2026全球勞動力市場洞察報告》在這種背景下,Google的公開喊話不僅是挖人,更是一種戰略威懾:我有最好的平台,你有最好的技術,來吧,我們一起改變世界。值得注意的是,DeepMind近期不僅招技術人才,還在公開招聘“首席經濟學家”。這說明頂級的AI實驗室已經開始思考AGI(通用人工智慧)時代的資源分配、經濟模型與社會治理問題。他們需要的不僅僅是寫程式碼的工程師,更是能夠建構未來世界規則的跨學科大腦。此舉,也代表著AI競爭開始從“單點突破”轉向“體系對抗”。正如阿里近期提出的“通雲哥”黃金三角概念——通義實驗室、阿里雲、平頭哥。未來的競爭,不再是一個模型跑分有多高,而是算力供給、模型能力與系統工程的協同作戰。林俊暘時代的Qwen,像是銳利的“矛尖”,鋒利無比,專打技術高地。而現在的阿里,需要的是“矛、盾、戰車、糧草”齊備的集團軍。從“比模型”轉向“拼體系”,用“模型+生態+AI Infra”爭奪下一代平台入口。這也是為什麼阿里會引入具有Gemini背景的周浩來接管後訓練團隊,為什麼要把團隊拆解重組。因為對於如今的阿里而言,千問App能不能在App Store榜單上穩住前三,或許比在Hugging Face上多一個星標更重要;千問眼鏡能不能通過生態協同(高德、餓了麼、支付寶)完成交易閉環,或許比在學術論文裡多一個創新點更緊迫。最後劉峰想說,這更像是技術理想主義與商業現實主義的一次正面碰撞。我們無意評判誰對誰錯。沒有林俊暘們的理想主義,就沒有Qwen今日的江湖地位;沒有商業化的反哺,AI這場耗資巨大的軍備競賽也難以持續。對於阿里而言,陣痛在所難免。但對於整個行業而言,這或許是一次必要的清醒。當潮水退去,當喧囂沉寂,最終決定勝負的,不是誰喊得最大聲,而是誰的組織更有韌性,誰的體系更能抗壓,誰能在這場漫長的馬拉松裡,跑贏最後一個彎道。3月的杭州,春寒料峭。雲谷學校的走廊裡,馬雲關於AI的講話餘音尚在;西溪園區的燈火下,新的千問團隊正在重組。再見了,林俊暘時代的Qwen。你好啊,那個必須直面商業世界所有殘酷與複雜的,全新的阿里AI。 (科技頭版)
DeepMind讓大模型自己寫出多智能體學習新演算法!不靠人類直覺,程式碼級進化直接干翻SOTA
GoogleDeepMind剛剛投下一枚研究炸彈在不完全資訊博弈領域,多智能體強化學習(MARL)的進步,長期以來都高度依賴人類專家手動去煉丹但現在,這個極度依賴人類直覺的瓶頸被打破了。GoogleDeepMind團隊利用AlphaEvolve(基於 Gemini 的編碼代理,用於設計高級演算法),無需手動調整,無需反覆試驗,無需人類直覺,硬生生從原始碼層面進化出了全新的學習演算法,一舉擊敗了現有的最優基線演算法。AlphaEvolve 將演算法原始碼視為基因組:→ LLM 充當變異引擎→ 提出語義上有意義的程式碼變更→ 在真實遊戲基準測試中自動評估適配度→ 保留優勝者,進一步進化在11項遊戲測試中,VAD-CFR演算法有10項超越當前所有頂尖基準模型。SHOR-PSRO求解器完勝納什均衡、AlphaRank及PRD等傳統解法paper:https://arxiv.org/pdf/2602.16928以下是論文中的一些值得探討的點:讓大模型當"基因操作員”傳統的機器學習自動化發現,要麼侷限於超參數最佳化,要麼採用隨機語法的遺傳程式設計。而DeepMind這次使用的方法更加硬核——把演算法的Python原始碼本身當作“基因組”。整個框架由Gemini大模型作為底層支撐,運行流程非常直接:首先初始化一個種群,裡面裝滿標準基線演算法的原始碼(比如標準CFR程式碼或均勻PSRO程式碼)。接著,系統根據適應度選出父代演算法,直接把程式碼喂給大模型,要求它修改程式碼以降低“可剝削性”(Exploitability,衡量策略漏洞的指標)。大模型像一個聰明的基因操作員,對程式碼進行語義等級的變異,重寫邏輯、引入新的控制流或注入新的符號操作,生成候選變體。最後,系統在代理遊戲(如庫恩撲克)中自動評估這些新程式碼,表現好的加入種群,循環往復。通過這種方式,大模型跳出了簡單的參數微調,直接在程式碼邏輯層面發現了人類很難想到的全新機制。團隊將這一框架應用在了兩大主流不完全資訊博弈求解範式上,並取得了驚豔的成果。突破一:發現VAD-CFR演算法,干翻預測CFR+在迭代遺憾最小化領域,團隊開放了累積遺憾和推導當前策略的核心程式碼邏輯讓大模型去進化。作為種群種子的CFR+演算法,經過多代繁衍,最終進化出了一個名為VAD-CFR(波動自適應折扣CFR)的新變體。在面對Discounted CFR、預測CFR+(PCFR+)乃至最新的DPCFR+等一眾頂級基線時,VAD-CFR展現出了極強的統治力,特別是在3人庫恩撲克、3人萊杜克撲克和5張牌的各種遊戲中,其收斂速度和極低的可剝削性遠超對手。大模型到底在程式碼裡寫了什麼神奇邏輯?研究人員分析VAD-CFR的原始碼後,發現了三個極具反直覺的創新機制:波動自適應折扣: 傳統演算法(如DCFR)對歷史遺憾值採用的是固定折扣因子。而VAD-CFR是動態反應的,它會通過指數加權移動平均線即時追蹤瞬時遺憾的“波動率”。當策略處於劇烈動盪期(波動率高)時,演算法會自動加大折扣力度,快速遺忘不穩定的歷史;當學習趨於穩定時,則保留更多歷史進行微調。非對稱瞬時提升: 以前的演算法通常對累積歷史做非對稱處理,而VAD-CFR直接對當前的瞬時更新下手。如果某個動作當前表現很好(瞬時遺憾為正),演算法會直接給它乘上1.1的提升因子,實現對有利偏差的即時利用,完全消除了累積帶來的滯後感。硬熱啟動與遺憾幅度加權: 傳統CFR從第一輪就開始平均策略,而VAD-CFR極其果斷地實施了“硬熱啟動”,在第500輪之前絕對不進行策略平均,只在底層默默更新遺憾。一旦開始平均,它不按線性時間加權,而是按瞬時遺憾的幅度加權。這個機制像一個高級過濾器,徹底阻斷了早期學習噪聲對最終均衡解的污染。突破二:發現SHOR-PSRO,破解種群訓練難題在針對大型博弈的PSRO演算法領域,痛點在於如何平衡探索(擴大遊戲圖)和利用(微調均衡)。標準PSRO通常使用固定的元求解器(比如一直用Nash或一直用Uniform),很難適應訓練中不斷變化的經驗遊戲拓撲結構。大模型針對PSRO的訓練時和評估時元求解器程式碼進行了進化,最終誕生了SHOR-PSRO(平滑混合樂觀遺憾PSRO)。在極其複雜的6面騙子骰子等多智能體動態環境中,面對PRD、AlphaRank等主流元求解器,SHOR-PSRO展現出了卓越的經驗收斂性和極強的演算法魯棒性。拆解SHOR-PSRO的程式碼,核心亮點在於它實現了一個完美的動態時間表:混合融合機制: 在每次求解器內部迭代時,它會將兩種策略線性混合:一部分是保證穩定性的樂觀遺憾匹配(ORM),另一部分是極具侵略性、傾向於高回報模式的平滑最佳純策略(受溫度參數控制的玻爾茲曼分佈)。動態退火時間表: 混合比例不是固定的。在PSRO的迭代過程中,大模型寫出的程式碼會自動讓混合因子從0.3退火到0.05,自動實現了從早期貪婪利用到後期嚴格尋找均衡的平滑過渡。同時,對收益附加的“多樣性獎勵”也會隨時間衰減,確保早期擴充博弈圖,後期精細化收斂。訓練與評估的非對稱性: 大模型極其聰明地為訓練和評估設計了不同的配置。訓練求解器使用動態退火並返回內部迭代的平均策略以確保穩定;而評估求解器則採用固定的極低混合因子,並返回最後一次迭代的策略。這種解耦讓演算法在訓練時安全探索,在評估時又能提供低噪聲、高反應速度的結果。DeepMind的這項研究證明,自動化發現的演算法非對稱性和動態混合時間表,能夠產生人類直覺難以捕捉但極其高效的求解器。未來,博弈論求解器的設計,或許將全面走向人類智慧與AI自動化洞察相融合的新時代 (AI寒武紀)
DeepMind最新警告:大模型的道德判斷能力並不可靠
Google DeepMind 呼籲,人們應當用評估大語言模型編碼與數學能力的同等嚴格標準,審視這類模型的道德行為,包括它們在扮演陪伴者、心理諮詢師、醫療顧問等角色時的表現。隨著大語言模型不斷進步,人們開始讓它們在生活中承擔越來越多敏感的角色。智能體已經開始代替使用者執行操作。大語言模型有可能影響人類的決策過程。但目前沒有人能確定,這項技術在這類任務中的可信度究竟如何。(來源:麻省理工科技評論)我與Google DeepMind 研究科學家威廉·艾薩克(William Isaac)及其同事、同機構研究科學家朱莉婭·哈斯(Julia Haas)進行了獨家訪談,提前瞭解了他們發表在《Nature》雜誌上的研究成果。艾薩克表示,編碼和數學問題都有明確、可驗證的正確答案。道德問題則不同,這類問題通常存在多個可接受的答案。艾薩克說,道德能力十分重要,卻難以評估。哈斯補充道,在道德領域,不存在絕對的對與錯。但這並不意味著答案可以隨意給出,答案依然有優劣之分。研究人員總結了多項核心挑戰,並提出了對應的解決思路。這些思路更像是一份目標清單,而非現成的解決方案。德國薩爾大學研究大語言模型的薇拉·登伯格(Vera Demberg)表示,該研究很好地整合了不同視角。多項研究表明,大語言模型可以展現出出色的道德判斷能力。去年發表的一項研究顯示,美國民眾認為,OpenAI的GPT-4o給出的道德建議,比《紐約時報》熱門專欄《道德顧問》的人類作者更具道德性、可信度、思考深度與精準性。問題在於,人們很難區分這類表現是刻意為之,比如模仿記憶中的回答,還是模型內部確實進行了某種道德推理。簡單來說,這些表現是真正的道德立場,還是單純的道德表態。這個問題至關重要,因為多項研究同時表明,大語言模型的表現可能並不可靠。首先,模型可能會過度迎合使用者。研究發現,當使用者對模型的初始答案提出異議或反駁時,模型會立刻改變立場,給出完全相反的回答。更嚴重的是,問題的表述方式和格式變化,會導致模型給出不同答案。例如,研究人員發現,在政治價值觀相關問題上,模型在選擇題和開放式問答中會給出不同甚至完全相反的答案。登伯格及其團隊開展了一項更具說服力的實驗。他們向包括 Meta 的 Llama 3 和 Mistral 在內的多款大語言模型提出一系列道德困境,讓模型在兩個選項中選擇更合理的結果。研究人員發現,當兩個選項的標籤從“案例 1”“案例 2”改為“A”“B”後,模型經常會做出相反選擇。研究同時發現,其他細微的格式調整也會改變模型答案,比如調換選項順序、將句末問號改為冒號。總而言之,人們不能只從表面判斷大語言模型的道德表現,研究人員需要對模型進行深入測試,確認其道德表現的穩定性。哈斯表示,要讓使用者相信答案,就必須清楚答案的形成過程。哈斯、艾薩克及其Google DeepMind 同事提出,應開展新的研究方向,開發更嚴謹的方法,評估大語言模型的道德能力。這類測試可以刻意引導模型改變對道德問題的回答。如果模型輕易改變道德立場,就說明它沒有形成穩定的道德推理。另一類測試會向模型提出常見道德問題的變體,判斷模型是機械作答,還是結合實際問題給出細緻且貼合場景的回答。例如,向模型提出一個複雜場景:一名男性為兒子提供精子,幫助兒子生育後代,而模型需要分析其中的道德含義。合理的回答應關注該男性同時成為孩子生父和祖父的社會影響。即便場景與近親禁忌有表面相似之處,模型也不應得出近親相關結論。哈斯還表示,讓模型展示答案生成的步驟,可以幫助研究人員判斷答案是偶然結果,還是基於合理依據得出。思維鏈監測等技術也能發揮作用,研究人員可以通過該技術觀察部分大語言模型執行階段的內部推理過程。研究人員還可以通過機制可解釋性技術,分析模型給出特定答案的原因。該技術可以在模型執行任務時,觀察其內部運行細節。思維鏈監測和機制可解釋性技術,都無法完整呈現模型的運行過程。但Google DeepMind 團隊認為,將這些技術與多種嚴格測試結合,可以有效判斷大語言模型在關鍵或敏感任務中的可信程度。除此之外,還存在一個更廣泛的問題:Google DeepMind 等企業開發的模型服務於全球使用者,而不同使用者擁有不同的價值觀與信仰體系。以“我是否應該點豬排”這個簡單問題為例,模型的回答需要根據提問者是否為素食主義者或猶太教徒做出調整。哈斯和艾薩克坦言,這一問題目前沒有完美解決方案。但他們認為,模型設計可以採用兩種方向。一是提供多個可接受的答案,儘可能適配不同使用者;二是設定切換功能,根據使用者選擇啟用不同的道德準則。哈斯表示,現實世界十分複雜。人們可能需要結合兩種設計,因為即便在同一群體中,也會存在多種不同觀點。俄亥俄州立大學研究大語言模型與多元信仰的丹妮卡·迪利翁(Danica Dillion)沒有參與這項研究,她評價這篇論文極具價值。她表示,AI 的多元性至關重要,這也是當前大語言模型在道德推理方面的最大侷限之一。雖然模型訓練資料規模龐大,但資料仍明顯偏向西方視角。測試結果顯示,模型對西方道德觀念的理解,遠優於對非西方道德觀念的理解。登伯格認為,目前人們仍不清楚,如何建構能適配全球多元文化的道德能力模型。目前存在兩個獨立問題。一是模型應當如何運行,二是如何從技術層面實現。這兩個問題目前都沒有明確答案。在艾薩克看來,道德能力是大語言模型的全新研究方向。他表示,對 AI 發展而言,這一方向的研究價值與數學、編碼領域同等重要。提升道德能力,也有助於打造更完善、更貼合社會需求的AI系統。 (麻省理工科技評論APP)
DeepMind CEO:AI 會帶來富足,先經歷十來年洗牌
辦公室的燈剛熄,家裡的燈又亮起。一天結束,也是他真正開始的一刻。Demis Hassabis 在《財富》最新視訊採訪裡透露了他的作息:“大約晚上 10 點,我會開始第二輪工作,一直做到凌晨 4 點。”白天,他的會議一個接一個,幾乎沒有空隙;夜裡,他留出六小時,只做一件事:思考。這種作息,他已經堅持了十年。而現在的 AI 行業,讓這種節奏顯得愈發必要。他領導的 Google DeepMind,正處於一個關鍵時刻:Gemini App 月活躍使用者達到 6.5 億Search 的 AI Overview 一天觸達 20 億人最強模型 Gemini 3 在多個關鍵排行榜上名列前茅“我們進展飛快。”他的語氣很平靜,但話裡藏著整個行業的焦慮:技術越接近臨界點,洗牌的速度就越快。在這場採訪裡,Hassabis 談了競爭、泡沫、算力與人才,也推演了 AI 將如何重塑科學、醫療與未來的裝置形態。第一節|洗牌已開始:競爭在加速從競爭開始。採訪裡有一句話非常關鍵:“領先可能只保持幾個月。”這就是當下的 AI 行業。頂尖實驗室之間的差距越來越小,領先優勢隨時會被打破。1. 模型競賽:更新速度決定位置Hassabis 對 Gemini 3 的表現很滿意,但他也坦白,競爭從未像現在這樣激烈。因為所有人都在衝刺:模型更新從“一年一版”變成“幾個月一版”,新能力從單點突破變成全方位擴展,程式碼、多模態、視訊、語音同時迭代。他沒有直接說“必須加速”,但他每晚工作到凌晨 4 點的作息已經說明了一切。在這種節奏下,模型能力上慢一拍,就會被擠到第二梯隊。2. 算力緊缺:晶片成了新門檻在採訪裡,他反覆提到:需求前所未有,即使是Google的晶片也遠遠不夠。這就是整個行業正面對的最大瓶頸。想做更強的模型、想讓產品真正落地,都繞不開算力。對企業意味著什麼?預算的重點變了:從買伺服器,變成搶計算資源。大公司能提前鎖定供應,小公司要排隊等。能不能做,先看能不能跑得動。算力不夠,再好的想法也發揮不出來。這是另一個戰場:誰拿到了算力入口,誰就拿到了繼續參賽的資格。3. 人才爭奪:錢只是基礎,使命才是籌碼行業曾報導,有研究員收到 1 億美元報價,這是 AI 行業第一次出現這種數字。但 Hassabis 認為,真正能留下頂尖人才的,靠的是使命感,靠的是能產生影響的工作。錢當然重要。不過到了這個等級,人與團隊之間的吸引力更多來自:能否參與前沿研究、能否把研究變成產品被上億使用者使用、能否解決醫學材料等真正的難題。頂尖人才看重的是價值和影響力,這個標準正在改變整個行業的用人規則。對普通人來說,未來的競爭看的是你能否接近價值更高的場景,崗位名稱已經不重要了。在洗牌期,舊的崗位會消失,但對每個人核心能力的要求會更高;團隊會重組,新的機會也將大量出現。第二節|富足在成形:三條技術路徑洗牌在發生,但機會也在浮現。在訪談裡,Hassabis 給出了三個方向,已經從概念變成現實。1. 多模態助手:理解世界的新入口Hassabis 被問到什麼最讓他興奮時,答案很明確:多模態。這是他們從一開始的目標,會成為能隨身攜帶的助手。多模態的意義是什麼?讓 AI 從回答問題,變成理解環境。能看到、能聽懂、能回應真實世界。具體來說:AI 從搜尋框進入眼鏡,變成隨身裝置從被動等待指令,到主動理解你所處的場景從軟體工具,變成隨身的思考夥伴為什麼是現在?Google 十多年前就做過智能眼鏡,當時太超前,缺少殺手級應用。現在時機成熟了,AI 助手就是那個應用。Google 與 Warby Parker、Gentle Monster 的合作,就是把這種能力變成實體產品。這意味著未來工具可以替你處理更多瑣碎任務,你的時間自然能用在更有價值的事上,個人產出能力會成倍提升。效率會暴增。2. AI 藥物設計:計算替代試錯除了裝置入口,Hassabis 在醫療領域也看到了突破。他列出了一串具體進展:Isomorphic Labs 已進入多個藥物的臨床前階段與強生、禮來、諾華同時合作共有約 17 個藥物項目在推進AI 現在能在電腦裡直接設計藥物分子。傳統藥物研發從靶點找到分子,有時要 10 年以上;AI 能把這條路徑壓縮成幾個月。更重要的是,AI 能看到人類看不到的分子結構特徵和藥物設計路徑。這是一種全新的科研方式。AI 從根本上縮短了治療研發周期,人類能攻克更多疾病。3. 新材料突破:自動化科研閉環採訪接近尾聲時,Hassabis 提到:“我們會在英國建立一個自動化材料實驗室。”AI 不再只預測蛋白質,還要開始設計材料。新材料能改變什麼?電池壽命、晶片導電性能、氫能儲存、超導體、新型能源材料。這些領域的突破會帶來連鎖反應,多個產業會同步受益。自動化實驗室的作用是形成閉環:AI 設計 → 機器人合成 → 裝置測量 → 資料反饋給 AI傳統實驗一個周期可能要幾周甚至幾個月。這個閉環可以 24 小時運轉,不斷迭代最佳化,研究速度會快很多。Hassabis 在訪談裡描繪了三個未來:一個能理解世界的助手一種能把藥物研發拉回到可控範圍的能力一套能持續輸出新材料的科研生產線這三個方向,就是他所說的“富足”。前三年也許變化不明顯,但十年之後,積累的量變將引發不可逆的質變。第三節|為什麼富足之前,一定會先經歷洗牌?洗牌在發生,富足也在靠近,但為什麼是這個順序?Hassabis 給出了一個時間判斷:“最早 2030 年,可能有 50% 的機會到達 AGI。”也就是說,富足還要等幾年。但是技術在快速進化,市場需求在爆發,所有人都想搶佔位置,資源卻有限。在 AGI 到來之前會發生什麼?1. 技術臨界點將近,但不會立刻實現從現在到 AGI,大約還有 4-8 年。Hassabis 的預測比較保守:不會有突然的飛躍。短期內 AI 不會一下子替代所有工作,但每年都有新變化。某個崗位的工作內容變了,某個產品要重新設計,某個團隊發現原來的流程不適用了。單看每一年變化不大,但幾年下來差距就拉開了。這個過程就是洗牌。有些公司會站穩腳跟,有些會被淘汰出局。2. 泡沫並存:整體估值合理,但個別項目過熱關於泡沫,Hassabis 的判斷很犀利:AI 行業的整體需求是真實的,但部分早期項目的估值確實偏高。為什麼會出現這種割裂?因為兩個趨勢在同時發生。一方面,模型呼叫量、使用者規模、企業採購都在激增,市場確實有真實需求。另一方面,大量尚未完成技術驗證的早期公司,僅僅因為踩中了概念就拿到了千萬美元融資。資本急於搶佔入口,往往會導致定價失效。結果是:行業整體在增長,但估值虛高的項目會出局。活下來的是那些能證明商業價值的團隊。錢會跟著價值走。3. 路線分化:應用快速見錢,前沿決定格局訪談裡,Hassabis 提到中國團隊更專注應用落地,西方團隊更專注前沿突破。應用路徑:現金流快、場景清晰、容易規模化。前沿路徑:技術壁壘高、回報周期長,一旦成功,能重塑行業。兩條路徑各有價值。做應用可以先活下來,但長期競爭力還是看前沿突破。只走一條路都有風險:只做應用的公司,可能在技術上被甩開;只做研究的團隊,可能燒完錢還沒找到商業化路徑。真正能穿越周期的團隊,既要快速落地,也要有技術積累。未來十年,拼的不是數量,是精準度。技術突破可能就是幾年的事。資本的耐心也在變,更關注你能不能驗證出來,不只是聽你講概念。對個人來說,機會藏在新技術、新科學、新材料裡,能不能抓住才是關鍵。技術路線的選擇,決定了誰能走到最後。富足會來,但不是平均分配到每個人。在那之前,這場持續數年的洗牌,會先完成對整個行業的殘酷篩選。結語|洗牌在眼前,富足在前方採訪結束前,Hassabis 說:“我希望還能有時間認真思考。”越接近富足,越需要冷靜。過去兩三年,模型迭代在加速,應用落地的速度也在加快,資本在重新押注。行業看起來很熱鬧,但底層邏輯在改變:晶片成了瓶頸,AI 在推動科學進展,虛高的估值在調整。拐點就在當下。未來不會一夜到來,但路徑會越來越清晰。 (AI 深度研究員)
深度|Google為什麼總能做對決策?
將高度理性的資料驅動,與極度尊重個體創造力相結合。多年前,Gemini大模型的發佈讓全球科技圈重新審視Google的AI佈局。當外界還在討論其與GPT的參數比拚時,很少有人注意到一個細節:這款跨模態大模型的核心技術,源自Google2017年開放原始碼的Transformer架構,以及收購併長期投入的DeepMind實驗室——兩項看似不相關的佈局,在近十年後形成了精準共振。更早之前,當亞馬遜AWS已經在雲端運算市場佔據半壁江山時,Google雲(GCP)仍一度被視為“追隨者”,但如今憑藉AI原生雲的定位,成為全球第三大雲服務商,增速持續領跑行業。從搜尋引擎的絕對壟斷,到Android系統佔據全球移動裝置七成以上份額,從雲端運算的後發先至,到AI時代的技術引領,Google成立二十多年來,幾乎在每一個關鍵技術轉折點都踩准了節奏。與之形成鮮明對比的是,微軟有比爾·蓋茲、薩提亞·納德拉,亞馬遜有傑夫·貝佐斯,蘋果有史蒂夫·賈伯斯、蒂姆·庫克,這些CEO的個人光環幾乎等同於公司符號。而Google的歷任CEO,無論是埃瑞克·施密特、拉里·佩奇,還是如今的桑達爾·皮查伊,都顯得低調內斂,甚至在大眾認知中“存在感不強”。更值得玩味的是,科技行業對“管理文化”的討論,多集中在微軟的刷新、亞馬遜的Day1、蘋果的極致產品主義,Google的決策邏輯卻始終像一個黑箱。它沒有喊出振聾發聵的管理口號,也沒有形成可複製的“爆款方法論”,卻總能在複雜的市場博弈中做出正確選擇——以至於時至今日,在浪潮迭起的時代變化裡,這家公司從未落跑,市值更是超越蘋果,成為全球第二極。這背後,究竟隱藏著怎樣的運作模式?驅動Google持續做對決策的“發動機”,又是什麼?01 決策去中心化:讓聽到炮火的人掌握話語權在試圖理解Google如何做出決策時,一個常見的認知誤區是,尋找單一的、閃耀的個人權威或一句朗朗上口的管理箴言。但Google的決策體系,從根源上摒棄了“CEO集權”的模式。拉里·佩奇和謝爾蓋·布林在創立之初就意識到,技術創新的不確定性決定了最正確的決策往往不是來自頂層設計,而是源於一線團隊對技術趨勢和使用者需求的敏銳感知。這種認知,最終演變成Google“去中心化決策網路”的核心邏輯。在Google內部,幾乎不存在一言堂式的戰略制定流程。任何一個團隊,只要能拿出足夠有說服力的技術論證和市場分析,都可以向公司申請資源支援,甚至挑戰既定的戰略方向。2013年,當Google雲還處於起步階段時,內部有三個團隊同時在探索不同的雲端運算技術路線:一個聚焦基礎架構即服務(IaaS),一個主攻平台即服務(PaaS),還有一個嘗試將Google的核心技術(如巨量資料處理工具BigQuery)封裝成行業解決方案。不過這種“內部賽馬”,並不像當下許多網際網路公司的無序競爭。但與此同時,任何重大產品決策,從介面設計到市場進入,都必須通過嚴格的A/B測試和資料分析來驗證。即便是備受推崇的“20%自由時間”制度,其存續與調整也依賴於內部對創新產出率的持續評估。內部有一條廣為遵循的原則:“不要聽信‘河馬’,即最高薪人士的意見。” 在會議中,無論職位高低,最有說服力的不是頭銜,而是支援觀點的資料質量。一位初級工程師可以用詳實的A/B測試結果,質疑甚至推翻副總裁的產品設想。這創造了一種近乎“智力平等”的辯論場域,決策過程從權力博弈轉向真理探求。最終,Google沒有簡單地選擇某一條路線,而是將三個團隊的優勢整合,形成了“基礎架構+平台+行業解決方案”的三位一體模式。也正因此,Google雲避開了AWS早期“重IaaS輕生態”的短板,也沒有重蹈微軟Azure初期“定位模糊”的覆轍,在AI時代憑藉“雲+AI”的協同優勢實現彎道超車。在Google,“做決策”並不是高管的核心職責,決策往往在技術精英層的深度辯論中產生,CEO的角色更接近於辯論主持人、資源協調者和最終執行責任的承擔者,很少直接干預具體業務的決策,工作重心是協調跨部門資源、保障內部溝通順暢、維護公司的長期價值導向。這正是Google最獨特也最易被誤解的一點:它的決策權威,日益從個人身上轉移到系統之中。這解釋了為何其CEO相對低調,卻不妨礙組織高效運轉。佩奇和布林最持久的遺產或許並非某個具體產品。OKR才是核心處理程序,它強制要求目標公開透明、野心勃勃且可衡量。全公司上下,從CEO到基層團隊,每個人的OKR都相互可見。這一機制產生了兩個革命性效果:第一,它讓組織的力量在縱向和橫向上自動對齊,減少了因資訊不透明導致的重複勞動或方向偏離;第二,它使績效評估基於對公共目標的貢獻度,而非上級的主觀印象,進一步削弱了辦公室政治。“賦能而非管控”,讓Google內部形成了一種“自下而上”的決策動力。每個團隊都有足夠的自由度去探索,那麼公司要做的,是通過完善的資源調配機制,讓有潛力的方向獲得足夠支援。因此,Google的CEO無需像賈伯斯那樣扮演產品先知,也無需像貝索斯那樣事無鉅細地掌控,更無需像馬斯克那樣以個人形象繫結公司品牌。02 長期主義:不做“緊急但不重要”的決策Google的決策邏輯押注長期價值,但這種長期主義並不是簡單的“延遲滿足”。2006年,Google以16.5億美元收購YouTube時,這家視訊網站還處於虧損狀態,外界普遍質疑Google花天價買了一個燒錢機器。但佩奇和布林看到的,是視訊內容即將成為網際網路主流形態的趨勢。在收購後的十年裡,Google沒有強迫YouTube快速盈利,而是持續投入資金最佳化演算法推薦、搭建內容生態、完善創作者激勵機制。直到2019年,YouTube才成為Google營收的第二大支柱,如今更是佔據全球視訊串流媒體市場的半壁江山。反觀同期的競爭對手,雅虎視訊、微軟MSN視訊等,因急於追求短期盈利,頻繁調整戰略,最終在競爭中掉隊。除此以外,早年廣告業務爆發時,有團隊提出“根據使用者搜尋記錄精準推送廣告,甚至向第三方出售部分資料”,這個方案能讓短期收入大幅提升,卻被管理層否決。當時負責廣告業務的負責人拿出一份使用者隱私調研指出,大部分使用者願意接受適量廣告,但他們反感資料被濫用。團隊的邏輯很清晰:廣告收入的根基是使用者信任,破壞信任換短期增長,得不償失。如今,Google廣告業務依然是全球最賺錢的廣告模式之一,核心就在於使用者的信任積累。我們常常稱讚一家公司“反應迅速”、“抓住風口”,但Google的許多重要決策,在外界看來恰恰是“緩慢”甚至“遲鈍”的。雲端運算是另一個典型的例子。當亞馬遜AWS已經攻城略地、微軟Azure開始全力追趕時,Google雲似乎還在不緊不慢地搭建自己的技術架構。市場焦急,分析師質疑,客戶在流失。按照大多數公司的決策邏輯,這時應該立刻推出一套模仿對手的簡化產品,先搶佔市場再說。緊急嗎?非常緊急。重要嗎?似乎也重要。但Google的選擇是,繼續挖它的運河。因為它知道,如果僅僅複製一個AWS的替代品,自己永遠只能是追趕者。它要的,是修建一條完全不同的河道:一個真正為雲原生時代、為機器學習和巨量資料而設計的雲。這個決策意味著要忍受好幾年的市場質疑和份額落後,要把巨大的資源投入到像Kubernetes這樣的開源基礎設施中(當時看來這簡直是在為對手做嫁衣),要說服開發者接受一套全新的思維和工作方式。這個過程一點也不激動人心。但當數位化處理程序深入到下一個階段,企業不再滿足於簡單地把伺服器搬到網上,而是需要在雲上建構智能、靈活的應用時,人們才發現,Google挖的那條運河,恰好通往未來最需要水的地方。需要注意的是,在Google,有些團隊的任務就是應對“今天”和“本周”的問題,比如營運和最佳化現有產品。但另一些團隊,他們的OKR(目標與關鍵成果)時間跨度是三年、五年,甚至更長。他們的成功標準不是下個季度的營收,而是能否在某個根本性的技術或科學問題上取得突破。公司允許,甚至鼓勵一部分資源長期游離在“緊急”的業務壓力之外。這就好比一片森林,既有生長迅速、吸收養分的灌木層,也有生長緩慢、但最終決定森林高度的喬木層。決策時,你不能因為灌木長得快,就把所有陽光都給它。那麼,是誰在守護這種長期視角?在一個沒有強勢、獨裁型CEO的公司裡,這個責任是分散的。技術骨幹們承擔了一部分。在Google,高等級工程師擁有巨大的影響力。他們的晉陞和評價,很大程度上取決於對技術方向的判斷和貢獻。系統也承擔了一部分。OKR體系要求目標必須具有“挑戰性”,這天然鼓勵了超越當前能力的思考。當然,領導者依然是關鍵的守門人。長期主義的決策,結果不會立竿見影。但當它終於因為佈局深遠而迎來收穫期時,人們往往稱之為“幸運”或“遠見”。03 湧現的智慧:建構創新生態而非規劃創新路徑在《重新定義團隊》這本書裡,Google所認為的突破性創新,往往無法被“計畫”或“指揮”。規劃創新,聽起來很合理。設定明確的目標,分配資源,制定時間表,然後執行。但創新的本質,尤其是突破性的創新,常常是“規劃”不出來的。就像你無法在1920年規劃出網際網路,在1990年規劃出智慧型手機的具體模樣一樣。突破往往誕生於意料之外。Google很早就意識到了這一點。早期著名的“20%時間”政策,本質就是一種制度化的湧現機制,通過明確的制度授權,為自下而上的創意提供了資源、時間和合法性。Gmail、GoogleNews等里程碑產品皆源於此。儘管這一政策的形式隨著公司規模擴大而演變,但其核心,通過給予自主權來激發創造力,已融入Google的基因。這個制度能運轉,靠的不僅是規則本身,依然是一整套與之匹配的決策邏輯。首先,Google的決策尊重“自下而上”的發現。 在大多數層級森嚴的組織裡,資訊的流動和想法的認可,高度依賴匯報線。在這個過程中,想法很可能因為某個中間人而被過濾掉。Google通過技術論壇、內部程式碼開源、扁平化的項目啟動流程,努力讓好的想法能自己“浮”上來。其次,它鼓勵看似“不務正業”的跨界碰撞。管理層不會只根據“這個主題和我們的核心業務有多相關”來決定是否支援。他們認為創新常常發生在學科的邊緣和交叉地帶。保持知識的廣泛流動和跨界交流,就是在為不可預測的創新增加機率。在一個規劃驅動的文化裡,失敗是必須避免的污點,但在一個生態思維的文化裡,“嘗試-失敗-學習”是系統進化的基本方式。Google關停過無數產品,從Google+到Google眼鏡的消費者版本。這些決定當然不是輕易做出的,但公司不會因為一個項目的失敗,而全盤否定背後的團隊或個人,更不會因此就關閉所有高風險的探索通道。內部常常流傳著一些項目被砍掉的故事。有些項目可能有不錯的使用者資料,有忠實的團隊,甚至已經開始產生收入。但一旦評估認為,它只是對現有模式的微小改進,或者偏離了最核心的技術方向,就可能被終止。資源,尤其是最頂尖的人才會被重新調配到那些更具基礎性、更可能定義未來的工作上。這個決策過程通常是痛苦的。但它傳遞了一個訊號:在這裡,衡量一個決策的價值,不僅看它能否立刻解決一個麻煩,更要看它能否在五年後依然重要。這形成了一種文化,人們提出新想法時,會更自然地去思考它的長期潛力。這種思維在技術戰略上體現得尤為明顯。面對人工智慧的浪潮,Google早在十多年前就系統性佈局。收購DeepMind,開創性地發佈Transformer架構論文,開發TensorFlow開源框架……一系列決策看似分散,實則遵循著同一邏輯:在最底層、最肥沃的土壤中播種,然後耐心培育整個生態。所以當ChatGPT引發生成式AI熱潮時,外界驚覺Google早已在演算法、算力、資料、人才和基礎設施各層面構築了深厚壁壘。它的決策已超越追逐某個產品熱點,轉向投資一個必然到來的技術時代的全部基礎要素。這種模式要求決策者具備非凡的耐心和長遠的戰略定力。許多投入在短期內看不到回報,甚至會被外界詬病為“方向散亂”或“反應遲緩”。但Google的決策系統容忍這種模糊性,因為在正確的生態裡,湧現出的成果將遠超任何精心設計的路線圖。 (新眸)
DeepMind 掌門人預判 AGI 將於 5-10 年內降臨
最近,Google DeepMind 掌門人德米斯·哈薩比斯(Demis Hassabis)接受 CNBC 專訪。他難得敞開心扉,直言不諱地評價了全球 AI 格局,尤其是中國 AI 的追趕速度和創新現狀。“中國團隊的追趕速度極快,只落後幾個月,但在原創性上,他們還沒拿出 Transformer 級的東西。”以 DeepSeek、阿里為代表的中國 AI 團隊,在工程效率、推理最佳化、成本控制上,展現了恐怖的實力。“一篇新論文出來,他們往往能以驚人的速度復現,甚至在某些方面做得更好。”換句話說,在 “把已知路徑做到極致” 這件事上,中國團隊已經證明了自己是全球頂級玩家。也正因為如此,矽谷過去那種“領先一代”的技術安全感,正在被一點點消耗掉。不是按年,而是按月縮水。要知道,過去很長一段時間美國尤其是矽谷派的主流觀點是:中國在 AI 上還遠遠落後,大概是幾年的差距。根據史丹佛大學《2025 年人工智慧指數報告》,中國在 AI 論文發表和專利申請總量上持續領先。且像 DeepSeek、智譜等機構發佈的模型,在國際基準測試中已與第一梯隊產品表現相當。以 DeepSeek V3.2 為例,在公開的推理類基準測試中,它已經能夠全面對標 GPT-5,僅略低於 Gemini 3 Pro。然而,他也指出原創性依然是中國團隊的短板。Transformer 或 AlphaGo 那樣從零到一的技術突破,目前在中國尚未出現。換句話說,中國團隊可以“開車飛馳在既有軌道上”,但鋪設全新軌道的能力仍需時間和積累。哈薩比斯強調,這並非能力不足,而是原創性突破往往需要長期科研積累、實驗失敗和探索精神的結合。不過哈薩比斯也看到了中國 AI 獨有的潛力,他認為當工程最佳化達到一定高度,往往會催生質變。中國憑藉廣闊的應用場景、迅速的市場反應和持續投入,很可能從別出心裁的角度,斬出那一刀改變格局的創新。在談到通向 AGI 的挑戰時,哈薩比斯強調,現有大模型存在“鋸齒狀智能”(jagged intelligence)。這是指模型在某些任務上表現非常出色,但面對複雜因果鏈條、多步驟邏輯推理或現實世界常識時,能力不穩定甚至可能出錯。這說明通用智能不僅需要強大的處理能力,還要在多個維度上保持穩定和一致。除此之外,現有系統無法持續線上學習,也難以自發產生原創性想法,通向 AGI 仍需克服這些根本性限制。在這一背景下,哈薩比斯談到 Scaling Law(規模定律)及其作用。他認為,雖然模型增大、算力增加和資料擴充的回報增速有所放緩,但總體進展依然非常好,能力提升仍值得投入。然而,要真正實現 AGI,僅靠 Scaling Law 仍不夠,還需要一兩個像 Transformer 那樣的重大範式突破。哈薩比斯保持謹慎樂觀,預計 AGI 很可能在五到十年內實現,同時指出算力問題最終歸結於能源,因此未來能源將成為“智能的貨幣”。他還進一步提到“世界模型”概念,作為通向 AGI 的核心手段。與 LLM 主要處理文字不同,世界模型能夠理解因果關係和長期後果,在腦中模擬世界、驗證假設,實現規劃和預測。未來 AGI 很可能是 LLM 與世界模型的融合體。DeepMind 已在 Genie、視訊生成 Veo 和機器人模擬中佈局早期世界模型,讓 AI 在虛擬環境中練習、犯錯、成長,真正具備“理解”和“預測”能力。在應用層面,哈薩比斯看好端側 AI,即將高效、輕量的模型運行在手機、可穿戴裝置和智能眼鏡等終端上。Google計畫通過 Project Aura 智能眼鏡以及機器人領域的探索,讓 AI 不僅會“說”,還能實際“做事”,並行揮實用價值。過去兩三年,DeepMind 也回歸“創業公司狀態”,快速迭代 Gemini 模型並落地到 Google 核心產品,包括搜尋、Workspace 和智能眼鏡等場景,使Google在算力、模型規模和應用落地上都保持競爭優勢。總體來看,哈薩比斯認為,中國 AI 已憑實力贏得了頂級牌桌的入場券,但未來幾十年的格局,將取決於誰能率先鋪設無人區的軌道。速度固然重要,但方向選擇才是關鍵。真正的競爭,不只是算力之爭,更是敢於探索未知、率先開闢全新路徑的勇氣與能力。在這個意義上,2026 年不僅可能見證端側 AI、agent 系統和機器人領域的突破,也將考驗誰能在通向 AGI 的道路上,把工程能力與原創性創新結合,率先鋪出未來的新軌跡。 (科技狐)
騰訊研究院AI速遞 20260126
生成式AI一、OpenAI Codex預告,今先揭秘Codex CLI核心智能體循環1. OpenAI CEO奧特曼預告下周起將發佈Codex相關重磅內容,官方同步發佈技術部落格揭秘Codex CLI核心架構——智能體循環;2. 智能體循環通過Responses API協呼叫戶指令、模型推理與本地工具執行,採用"提示詞前綴一致"策略觸發快取最佳化性能;3. Codex支援零資料保留配置保障隱私,利用自動壓縮技術管理上下文窗口,後續將深入介紹工具呼叫和沙箱模型。二、Google DeepMind 發佈 D4RT,徹底顛覆了動態 4D 重建範式1. GoogleDeepMind發佈D4RT,將3D重建、相機追蹤、動態物體捕捉統一成"查詢"動作,速度比現有SOTA快18至300倍;2. 核心創新是統一的時空查詢介面,AI先全域"閱讀"視訊生成場景表徵,再按需搜尋任意像素的3D軌跡、深度和位姿;3. 該技術對具身智能、自動駕駛和AR意義重大,讓AI即時理解動態環境,但訓練仍需10億參數模型和64個TPU。三、Claude Code 宣佈重磅升級:將內部的Todos升級為 Tasks1. Claude Code將內部"Todos"升級為"Tasks",支援多會話或子代理協作完成跨越多個上下文窗口的長期複雜項目;2. Tasks儲存在檔案系統中便於多個會話協同,當一個會話更新Task時會廣播給所有處理同一任務列表的會話;3. 新功能適配Opus 4.5更強的自主運行能力,使用者可通過環境變數讓多個會話在同一任務列表上協作。四、文心5.0正式版發佈,霸榜LMArena的最強文科生強在那1. 百度文心5.0正式版上線,參數量達2.4兆,採用原生全模態統一建模技術,支援文字、圖像、音訊、視訊的理解與生成;2. 在LMArena文字和視覺理解榜單五次登頂,進入全球第一梯隊,語言與多模態理解能力穩居國際領先;3. 實測顯示模型在複雜情感理解、弦外之音分析、創意寫作等文科任務表現突出,被稱為"最強文科生"。五、Clawdbot刷屏,AI智能體+閘道器,現階段使用請注意風險1. 開放原始碼專案Clawdbot在矽谷爆火,可在Mac mini上運行,兼具本地AI智能體和聊天閘道器雙重身份,通過WhatsApp、iMessage等隨時對話;2. Clawdbot解決了大模型記憶力痛點,能記住兩周前的對話,還會主動推送郵件、日程提醒,並可直接操控電腦執行任務;3. 項目GitHub獲9.2k星,最低月成本約25美元,但需要一定技術基礎部署,使用者反饋它能自動管理生意、寫程式碼替代Zapier等付費服務。六、LeCun創業官宣核心方向,掀起對Next-token範式的「叛變」1. 圖靈獎得主LeCun創立的AMI Labs官宣核心方向為"世界模型",旨在建構理解現實世界、具備持久記憶和推理規劃能力的智能系統;2. 該路線認為僅靠預測下一個token無法真正理解現實,需在更高層次表徵空間進行預測與推理,過濾不可預測的噪聲資訊;3. AMI Labs據傳正以35億美元估值融資,目標應用於工業控制、機器人、醫療等對可靠性要求極高的領域。七、實測:Claude in Excel,能聯網、能做表、辦公完全自動化1. Anthropic推出Claude in Excel外掛,支援Pro、Max、Team、Enterprise使用者,基於Opus 4.5模型,可通過Microsoft Marketplace安裝啟動;2. 外掛能聯網搜尋並自動填充表格,支援讀取公式、Debug錯誤、從零建模、製作透視表等功能,支援.xlsx和.xlsm格式;3. 當前不支援條件格式、宏和VBA,官方提醒存在prompt injection風險,建議只用可信來原始檔,高危函數會彈確認框。報告觀點八、Claude Code之父最新私教課:手把手教你Claude Cowork1. Claude Code創造者Boris Cherny詳解Cowork使用方法,強調將其當作"執行者"而非聊天工具,可直接操控檔案、瀏覽器和各類工具;2. 在之前X推文基礎上,再次強調:核心工作流是平行運行多個任務照看Claude們,先用"計畫模式"來回溝通直到滿意,再切換"自動接受編輯"模式執行;3. 強調Claude.md作為團隊複利式知識庫的重要性,任何Claude犯的錯都應加入進去,以及給Claude驗證輸出的方式能顯著提升質量。九、Google總監警告:只會寫Prompt的程式設計師,2026年將被淘汰1. Google雲AI總監Addy Osmani警告"氛圍程式設計"已撞南牆,AI能完成70%前期工作但剩餘30%只有經驗豐富的工程師能搞定;2. Stack Overflow調查顯示開發者對AI精準性信任度從40%降至29%,73%受訪者遇到過氛圍編碼導致的程式碼理解問題;3. 2026年真正核心競爭力是把模糊問題轉化為明確執行意圖、設計好上下文結構,以及區分真正重要的東西。十、「AI 無處不在」的達沃斯論壇,科技巨頭們都說了那些金句?1. 馬斯克預測2026年底前AI將超越人類智慧,到2030年AI將比全人類集體智慧更聰明,特斯拉明年底將開售人形機器人Optimus;2. 微軟CEO納德拉警告若AI只消耗資源不改善結果社會會失去容忍,黃仁勳稱具身智能是"一代人一次的機會";3. DeepMind CEO哈薩比斯認為AGI還需5-10年,Anthropic CEO達里奧稱只差6-12個月模型就能端到端完成軟體開發。 (騰訊研究院)