#DeepMind
DeepMind讓大模型自己寫出多智能體學習新演算法!不靠人類直覺,程式碼級進化直接干翻SOTA
GoogleDeepMind剛剛投下一枚研究炸彈在不完全資訊博弈領域,多智能體強化學習(MARL)的進步,長期以來都高度依賴人類專家手動去煉丹但現在,這個極度依賴人類直覺的瓶頸被打破了。GoogleDeepMind團隊利用AlphaEvolve(基於 Gemini 的編碼代理,用於設計高級演算法),無需手動調整,無需反覆試驗,無需人類直覺,硬生生從原始碼層面進化出了全新的學習演算法,一舉擊敗了現有的最優基線演算法。AlphaEvolve 將演算法原始碼視為基因組:→ LLM 充當變異引擎→ 提出語義上有意義的程式碼變更→ 在真實遊戲基準測試中自動評估適配度→ 保留優勝者,進一步進化在11項遊戲測試中,VAD-CFR演算法有10項超越當前所有頂尖基準模型。SHOR-PSRO求解器完勝納什均衡、AlphaRank及PRD等傳統解法paper:https://arxiv.org/pdf/2602.16928以下是論文中的一些值得探討的點:讓大模型當"基因操作員”傳統的機器學習自動化發現,要麼侷限於超參數最佳化,要麼採用隨機語法的遺傳程式設計。而DeepMind這次使用的方法更加硬核——把演算法的Python原始碼本身當作“基因組”。整個框架由Gemini大模型作為底層支撐,運行流程非常直接:首先初始化一個種群,裡面裝滿標準基線演算法的原始碼(比如標準CFR程式碼或均勻PSRO程式碼)。接著,系統根據適應度選出父代演算法,直接把程式碼喂給大模型,要求它修改程式碼以降低“可剝削性”(Exploitability,衡量策略漏洞的指標)。大模型像一個聰明的基因操作員,對程式碼進行語義等級的變異,重寫邏輯、引入新的控制流或注入新的符號操作,生成候選變體。最後,系統在代理遊戲(如庫恩撲克)中自動評估這些新程式碼,表現好的加入種群,循環往復。通過這種方式,大模型跳出了簡單的參數微調,直接在程式碼邏輯層面發現了人類很難想到的全新機制。團隊將這一框架應用在了兩大主流不完全資訊博弈求解範式上,並取得了驚豔的成果。突破一:發現VAD-CFR演算法,干翻預測CFR+在迭代遺憾最小化領域,團隊開放了累積遺憾和推導當前策略的核心程式碼邏輯讓大模型去進化。作為種群種子的CFR+演算法,經過多代繁衍,最終進化出了一個名為VAD-CFR(波動自適應折扣CFR)的新變體。在面對Discounted CFR、預測CFR+(PCFR+)乃至最新的DPCFR+等一眾頂級基線時,VAD-CFR展現出了極強的統治力,特別是在3人庫恩撲克、3人萊杜克撲克和5張牌的各種遊戲中,其收斂速度和極低的可剝削性遠超對手。大模型到底在程式碼裡寫了什麼神奇邏輯?研究人員分析VAD-CFR的原始碼後,發現了三個極具反直覺的創新機制:波動自適應折扣: 傳統演算法(如DCFR)對歷史遺憾值採用的是固定折扣因子。而VAD-CFR是動態反應的,它會通過指數加權移動平均線即時追蹤瞬時遺憾的“波動率”。當策略處於劇烈動盪期(波動率高)時,演算法會自動加大折扣力度,快速遺忘不穩定的歷史;當學習趨於穩定時,則保留更多歷史進行微調。非對稱瞬時提升: 以前的演算法通常對累積歷史做非對稱處理,而VAD-CFR直接對當前的瞬時更新下手。如果某個動作當前表現很好(瞬時遺憾為正),演算法會直接給它乘上1.1的提升因子,實現對有利偏差的即時利用,完全消除了累積帶來的滯後感。硬熱啟動與遺憾幅度加權: 傳統CFR從第一輪就開始平均策略,而VAD-CFR極其果斷地實施了“硬熱啟動”,在第500輪之前絕對不進行策略平均,只在底層默默更新遺憾。一旦開始平均,它不按線性時間加權,而是按瞬時遺憾的幅度加權。這個機制像一個高級過濾器,徹底阻斷了早期學習噪聲對最終均衡解的污染。突破二:發現SHOR-PSRO,破解種群訓練難題在針對大型博弈的PSRO演算法領域,痛點在於如何平衡探索(擴大遊戲圖)和利用(微調均衡)。標準PSRO通常使用固定的元求解器(比如一直用Nash或一直用Uniform),很難適應訓練中不斷變化的經驗遊戲拓撲結構。大模型針對PSRO的訓練時和評估時元求解器程式碼進行了進化,最終誕生了SHOR-PSRO(平滑混合樂觀遺憾PSRO)。在極其複雜的6面騙子骰子等多智能體動態環境中,面對PRD、AlphaRank等主流元求解器,SHOR-PSRO展現出了卓越的經驗收斂性和極強的演算法魯棒性。拆解SHOR-PSRO的程式碼,核心亮點在於它實現了一個完美的動態時間表:混合融合機制: 在每次求解器內部迭代時,它會將兩種策略線性混合:一部分是保證穩定性的樂觀遺憾匹配(ORM),另一部分是極具侵略性、傾向於高回報模式的平滑最佳純策略(受溫度參數控制的玻爾茲曼分佈)。動態退火時間表: 混合比例不是固定的。在PSRO的迭代過程中,大模型寫出的程式碼會自動讓混合因子從0.3退火到0.05,自動實現了從早期貪婪利用到後期嚴格尋找均衡的平滑過渡。同時,對收益附加的“多樣性獎勵”也會隨時間衰減,確保早期擴充博弈圖,後期精細化收斂。訓練與評估的非對稱性: 大模型極其聰明地為訓練和評估設計了不同的配置。訓練求解器使用動態退火並返回內部迭代的平均策略以確保穩定;而評估求解器則採用固定的極低混合因子,並返回最後一次迭代的策略。這種解耦讓演算法在訓練時安全探索,在評估時又能提供低噪聲、高反應速度的結果。DeepMind的這項研究證明,自動化發現的演算法非對稱性和動態混合時間表,能夠產生人類直覺難以捕捉但極其高效的求解器。未來,博弈論求解器的設計,或許將全面走向人類智慧與AI自動化洞察相融合的新時代 (AI寒武紀)
DeepMind最新警告:大模型的道德判斷能力並不可靠
Google DeepMind 呼籲,人們應當用評估大語言模型編碼與數學能力的同等嚴格標準,審視這類模型的道德行為,包括它們在扮演陪伴者、心理諮詢師、醫療顧問等角色時的表現。隨著大語言模型不斷進步,人們開始讓它們在生活中承擔越來越多敏感的角色。智能體已經開始代替使用者執行操作。大語言模型有可能影響人類的決策過程。但目前沒有人能確定,這項技術在這類任務中的可信度究竟如何。(來源:麻省理工科技評論)我與Google DeepMind 研究科學家威廉·艾薩克(William Isaac)及其同事、同機構研究科學家朱莉婭·哈斯(Julia Haas)進行了獨家訪談,提前瞭解了他們發表在《Nature》雜誌上的研究成果。艾薩克表示,編碼和數學問題都有明確、可驗證的正確答案。道德問題則不同,這類問題通常存在多個可接受的答案。艾薩克說,道德能力十分重要,卻難以評估。哈斯補充道,在道德領域,不存在絕對的對與錯。但這並不意味著答案可以隨意給出,答案依然有優劣之分。研究人員總結了多項核心挑戰,並提出了對應的解決思路。這些思路更像是一份目標清單,而非現成的解決方案。德國薩爾大學研究大語言模型的薇拉·登伯格(Vera Demberg)表示,該研究很好地整合了不同視角。多項研究表明,大語言模型可以展現出出色的道德判斷能力。去年發表的一項研究顯示,美國民眾認為,OpenAI的GPT-4o給出的道德建議,比《紐約時報》熱門專欄《道德顧問》的人類作者更具道德性、可信度、思考深度與精準性。問題在於,人們很難區分這類表現是刻意為之,比如模仿記憶中的回答,還是模型內部確實進行了某種道德推理。簡單來說,這些表現是真正的道德立場,還是單純的道德表態。這個問題至關重要,因為多項研究同時表明,大語言模型的表現可能並不可靠。首先,模型可能會過度迎合使用者。研究發現,當使用者對模型的初始答案提出異議或反駁時,模型會立刻改變立場,給出完全相反的回答。更嚴重的是,問題的表述方式和格式變化,會導致模型給出不同答案。例如,研究人員發現,在政治價值觀相關問題上,模型在選擇題和開放式問答中會給出不同甚至完全相反的答案。登伯格及其團隊開展了一項更具說服力的實驗。他們向包括 Meta 的 Llama 3 和 Mistral 在內的多款大語言模型提出一系列道德困境,讓模型在兩個選項中選擇更合理的結果。研究人員發現,當兩個選項的標籤從“案例 1”“案例 2”改為“A”“B”後,模型經常會做出相反選擇。研究同時發現,其他細微的格式調整也會改變模型答案,比如調換選項順序、將句末問號改為冒號。總而言之,人們不能只從表面判斷大語言模型的道德表現,研究人員需要對模型進行深入測試,確認其道德表現的穩定性。哈斯表示,要讓使用者相信答案,就必須清楚答案的形成過程。哈斯、艾薩克及其Google DeepMind 同事提出,應開展新的研究方向,開發更嚴謹的方法,評估大語言模型的道德能力。這類測試可以刻意引導模型改變對道德問題的回答。如果模型輕易改變道德立場,就說明它沒有形成穩定的道德推理。另一類測試會向模型提出常見道德問題的變體,判斷模型是機械作答,還是結合實際問題給出細緻且貼合場景的回答。例如,向模型提出一個複雜場景:一名男性為兒子提供精子,幫助兒子生育後代,而模型需要分析其中的道德含義。合理的回答應關注該男性同時成為孩子生父和祖父的社會影響。即便場景與近親禁忌有表面相似之處,模型也不應得出近親相關結論。哈斯還表示,讓模型展示答案生成的步驟,可以幫助研究人員判斷答案是偶然結果,還是基於合理依據得出。思維鏈監測等技術也能發揮作用,研究人員可以通過該技術觀察部分大語言模型執行階段的內部推理過程。研究人員還可以通過機制可解釋性技術,分析模型給出特定答案的原因。該技術可以在模型執行任務時,觀察其內部運行細節。思維鏈監測和機制可解釋性技術,都無法完整呈現模型的運行過程。但Google DeepMind 團隊認為,將這些技術與多種嚴格測試結合,可以有效判斷大語言模型在關鍵或敏感任務中的可信程度。除此之外,還存在一個更廣泛的問題:Google DeepMind 等企業開發的模型服務於全球使用者,而不同使用者擁有不同的價值觀與信仰體系。以“我是否應該點豬排”這個簡單問題為例,模型的回答需要根據提問者是否為素食主義者或猶太教徒做出調整。哈斯和艾薩克坦言,這一問題目前沒有完美解決方案。但他們認為,模型設計可以採用兩種方向。一是提供多個可接受的答案,儘可能適配不同使用者;二是設定切換功能,根據使用者選擇啟用不同的道德準則。哈斯表示,現實世界十分複雜。人們可能需要結合兩種設計,因為即便在同一群體中,也會存在多種不同觀點。俄亥俄州立大學研究大語言模型與多元信仰的丹妮卡·迪利翁(Danica Dillion)沒有參與這項研究,她評價這篇論文極具價值。她表示,AI 的多元性至關重要,這也是當前大語言模型在道德推理方面的最大侷限之一。雖然模型訓練資料規模龐大,但資料仍明顯偏向西方視角。測試結果顯示,模型對西方道德觀念的理解,遠優於對非西方道德觀念的理解。登伯格認為,目前人們仍不清楚,如何建構能適配全球多元文化的道德能力模型。目前存在兩個獨立問題。一是模型應當如何運行,二是如何從技術層面實現。這兩個問題目前都沒有明確答案。在艾薩克看來,道德能力是大語言模型的全新研究方向。他表示,對 AI 發展而言,這一方向的研究價值與數學、編碼領域同等重要。提升道德能力,也有助於打造更完善、更貼合社會需求的AI系統。 (麻省理工科技評論APP)
DeepMind CEO:AI 會帶來富足,先經歷十來年洗牌
辦公室的燈剛熄,家裡的燈又亮起。一天結束,也是他真正開始的一刻。Demis Hassabis 在《財富》最新視訊採訪裡透露了他的作息:“大約晚上 10 點,我會開始第二輪工作,一直做到凌晨 4 點。”白天,他的會議一個接一個,幾乎沒有空隙;夜裡,他留出六小時,只做一件事:思考。這種作息,他已經堅持了十年。而現在的 AI 行業,讓這種節奏顯得愈發必要。他領導的 Google DeepMind,正處於一個關鍵時刻:Gemini App 月活躍使用者達到 6.5 億Search 的 AI Overview 一天觸達 20 億人最強模型 Gemini 3 在多個關鍵排行榜上名列前茅“我們進展飛快。”他的語氣很平靜,但話裡藏著整個行業的焦慮:技術越接近臨界點,洗牌的速度就越快。在這場採訪裡,Hassabis 談了競爭、泡沫、算力與人才,也推演了 AI 將如何重塑科學、醫療與未來的裝置形態。第一節|洗牌已開始:競爭在加速從競爭開始。採訪裡有一句話非常關鍵:“領先可能只保持幾個月。”這就是當下的 AI 行業。頂尖實驗室之間的差距越來越小,領先優勢隨時會被打破。1. 模型競賽:更新速度決定位置Hassabis 對 Gemini 3 的表現很滿意,但他也坦白,競爭從未像現在這樣激烈。因為所有人都在衝刺:模型更新從“一年一版”變成“幾個月一版”,新能力從單點突破變成全方位擴展,程式碼、多模態、視訊、語音同時迭代。他沒有直接說“必須加速”,但他每晚工作到凌晨 4 點的作息已經說明了一切。在這種節奏下,模型能力上慢一拍,就會被擠到第二梯隊。2. 算力緊缺:晶片成了新門檻在採訪裡,他反覆提到:需求前所未有,即使是Google的晶片也遠遠不夠。這就是整個行業正面對的最大瓶頸。想做更強的模型、想讓產品真正落地,都繞不開算力。對企業意味著什麼?預算的重點變了:從買伺服器,變成搶計算資源。大公司能提前鎖定供應,小公司要排隊等。能不能做,先看能不能跑得動。算力不夠,再好的想法也發揮不出來。這是另一個戰場:誰拿到了算力入口,誰就拿到了繼續參賽的資格。3. 人才爭奪:錢只是基礎,使命才是籌碼行業曾報導,有研究員收到 1 億美元報價,這是 AI 行業第一次出現這種數字。但 Hassabis 認為,真正能留下頂尖人才的,靠的是使命感,靠的是能產生影響的工作。錢當然重要。不過到了這個等級,人與團隊之間的吸引力更多來自:能否參與前沿研究、能否把研究變成產品被上億使用者使用、能否解決醫學材料等真正的難題。頂尖人才看重的是價值和影響力,這個標準正在改變整個行業的用人規則。對普通人來說,未來的競爭看的是你能否接近價值更高的場景,崗位名稱已經不重要了。在洗牌期,舊的崗位會消失,但對每個人核心能力的要求會更高;團隊會重組,新的機會也將大量出現。第二節|富足在成形:三條技術路徑洗牌在發生,但機會也在浮現。在訪談裡,Hassabis 給出了三個方向,已經從概念變成現實。1. 多模態助手:理解世界的新入口Hassabis 被問到什麼最讓他興奮時,答案很明確:多模態。這是他們從一開始的目標,會成為能隨身攜帶的助手。多模態的意義是什麼?讓 AI 從回答問題,變成理解環境。能看到、能聽懂、能回應真實世界。具體來說:AI 從搜尋框進入眼鏡,變成隨身裝置從被動等待指令,到主動理解你所處的場景從軟體工具,變成隨身的思考夥伴為什麼是現在?Google 十多年前就做過智能眼鏡,當時太超前,缺少殺手級應用。現在時機成熟了,AI 助手就是那個應用。Google 與 Warby Parker、Gentle Monster 的合作,就是把這種能力變成實體產品。這意味著未來工具可以替你處理更多瑣碎任務,你的時間自然能用在更有價值的事上,個人產出能力會成倍提升。效率會暴增。2. AI 藥物設計:計算替代試錯除了裝置入口,Hassabis 在醫療領域也看到了突破。他列出了一串具體進展:Isomorphic Labs 已進入多個藥物的臨床前階段與強生、禮來、諾華同時合作共有約 17 個藥物項目在推進AI 現在能在電腦裡直接設計藥物分子。傳統藥物研發從靶點找到分子,有時要 10 年以上;AI 能把這條路徑壓縮成幾個月。更重要的是,AI 能看到人類看不到的分子結構特徵和藥物設計路徑。這是一種全新的科研方式。AI 從根本上縮短了治療研發周期,人類能攻克更多疾病。3. 新材料突破:自動化科研閉環採訪接近尾聲時,Hassabis 提到:“我們會在英國建立一個自動化材料實驗室。”AI 不再只預測蛋白質,還要開始設計材料。新材料能改變什麼?電池壽命、晶片導電性能、氫能儲存、超導體、新型能源材料。這些領域的突破會帶來連鎖反應,多個產業會同步受益。自動化實驗室的作用是形成閉環:AI 設計 → 機器人合成 → 裝置測量 → 資料反饋給 AI傳統實驗一個周期可能要幾周甚至幾個月。這個閉環可以 24 小時運轉,不斷迭代最佳化,研究速度會快很多。Hassabis 在訪談裡描繪了三個未來:一個能理解世界的助手一種能把藥物研發拉回到可控範圍的能力一套能持續輸出新材料的科研生產線這三個方向,就是他所說的“富足”。前三年也許變化不明顯,但十年之後,積累的量變將引發不可逆的質變。第三節|為什麼富足之前,一定會先經歷洗牌?洗牌在發生,富足也在靠近,但為什麼是這個順序?Hassabis 給出了一個時間判斷:“最早 2030 年,可能有 50% 的機會到達 AGI。”也就是說,富足還要等幾年。但是技術在快速進化,市場需求在爆發,所有人都想搶佔位置,資源卻有限。在 AGI 到來之前會發生什麼?1. 技術臨界點將近,但不會立刻實現從現在到 AGI,大約還有 4-8 年。Hassabis 的預測比較保守:不會有突然的飛躍。短期內 AI 不會一下子替代所有工作,但每年都有新變化。某個崗位的工作內容變了,某個產品要重新設計,某個團隊發現原來的流程不適用了。單看每一年變化不大,但幾年下來差距就拉開了。這個過程就是洗牌。有些公司會站穩腳跟,有些會被淘汰出局。2. 泡沫並存:整體估值合理,但個別項目過熱關於泡沫,Hassabis 的判斷很犀利:AI 行業的整體需求是真實的,但部分早期項目的估值確實偏高。為什麼會出現這種割裂?因為兩個趨勢在同時發生。一方面,模型呼叫量、使用者規模、企業採購都在激增,市場確實有真實需求。另一方面,大量尚未完成技術驗證的早期公司,僅僅因為踩中了概念就拿到了千萬美元融資。資本急於搶佔入口,往往會導致定價失效。結果是:行業整體在增長,但估值虛高的項目會出局。活下來的是那些能證明商業價值的團隊。錢會跟著價值走。3. 路線分化:應用快速見錢,前沿決定格局訪談裡,Hassabis 提到中國團隊更專注應用落地,西方團隊更專注前沿突破。應用路徑:現金流快、場景清晰、容易規模化。前沿路徑:技術壁壘高、回報周期長,一旦成功,能重塑行業。兩條路徑各有價值。做應用可以先活下來,但長期競爭力還是看前沿突破。只走一條路都有風險:只做應用的公司,可能在技術上被甩開;只做研究的團隊,可能燒完錢還沒找到商業化路徑。真正能穿越周期的團隊,既要快速落地,也要有技術積累。未來十年,拼的不是數量,是精準度。技術突破可能就是幾年的事。資本的耐心也在變,更關注你能不能驗證出來,不只是聽你講概念。對個人來說,機會藏在新技術、新科學、新材料裡,能不能抓住才是關鍵。技術路線的選擇,決定了誰能走到最後。富足會來,但不是平均分配到每個人。在那之前,這場持續數年的洗牌,會先完成對整個行業的殘酷篩選。結語|洗牌在眼前,富足在前方採訪結束前,Hassabis 說:“我希望還能有時間認真思考。”越接近富足,越需要冷靜。過去兩三年,模型迭代在加速,應用落地的速度也在加快,資本在重新押注。行業看起來很熱鬧,但底層邏輯在改變:晶片成了瓶頸,AI 在推動科學進展,虛高的估值在調整。拐點就在當下。未來不會一夜到來,但路徑會越來越清晰。 (AI 深度研究員)
深度|Google為什麼總能做對決策?
將高度理性的資料驅動,與極度尊重個體創造力相結合。多年前,Gemini大模型的發佈讓全球科技圈重新審視Google的AI佈局。當外界還在討論其與GPT的參數比拚時,很少有人注意到一個細節:這款跨模態大模型的核心技術,源自Google2017年開放原始碼的Transformer架構,以及收購併長期投入的DeepMind實驗室——兩項看似不相關的佈局,在近十年後形成了精準共振。更早之前,當亞馬遜AWS已經在雲端運算市場佔據半壁江山時,Google雲(GCP)仍一度被視為“追隨者”,但如今憑藉AI原生雲的定位,成為全球第三大雲服務商,增速持續領跑行業。從搜尋引擎的絕對壟斷,到Android系統佔據全球移動裝置七成以上份額,從雲端運算的後發先至,到AI時代的技術引領,Google成立二十多年來,幾乎在每一個關鍵技術轉折點都踩准了節奏。與之形成鮮明對比的是,微軟有比爾·蓋茲、薩提亞·納德拉,亞馬遜有傑夫·貝佐斯,蘋果有史蒂夫·賈伯斯、蒂姆·庫克,這些CEO的個人光環幾乎等同於公司符號。而Google的歷任CEO,無論是埃瑞克·施密特、拉里·佩奇,還是如今的桑達爾·皮查伊,都顯得低調內斂,甚至在大眾認知中“存在感不強”。更值得玩味的是,科技行業對“管理文化”的討論,多集中在微軟的刷新、亞馬遜的Day1、蘋果的極致產品主義,Google的決策邏輯卻始終像一個黑箱。它沒有喊出振聾發聵的管理口號,也沒有形成可複製的“爆款方法論”,卻總能在複雜的市場博弈中做出正確選擇——以至於時至今日,在浪潮迭起的時代變化裡,這家公司從未落跑,市值更是超越蘋果,成為全球第二極。這背後,究竟隱藏著怎樣的運作模式?驅動Google持續做對決策的“發動機”,又是什麼?01 決策去中心化:讓聽到炮火的人掌握話語權在試圖理解Google如何做出決策時,一個常見的認知誤區是,尋找單一的、閃耀的個人權威或一句朗朗上口的管理箴言。但Google的決策體系,從根源上摒棄了“CEO集權”的模式。拉里·佩奇和謝爾蓋·布林在創立之初就意識到,技術創新的不確定性決定了最正確的決策往往不是來自頂層設計,而是源於一線團隊對技術趨勢和使用者需求的敏銳感知。這種認知,最終演變成Google“去中心化決策網路”的核心邏輯。在Google內部,幾乎不存在一言堂式的戰略制定流程。任何一個團隊,只要能拿出足夠有說服力的技術論證和市場分析,都可以向公司申請資源支援,甚至挑戰既定的戰略方向。2013年,當Google雲還處於起步階段時,內部有三個團隊同時在探索不同的雲端運算技術路線:一個聚焦基礎架構即服務(IaaS),一個主攻平台即服務(PaaS),還有一個嘗試將Google的核心技術(如巨量資料處理工具BigQuery)封裝成行業解決方案。不過這種“內部賽馬”,並不像當下許多網際網路公司的無序競爭。但與此同時,任何重大產品決策,從介面設計到市場進入,都必須通過嚴格的A/B測試和資料分析來驗證。即便是備受推崇的“20%自由時間”制度,其存續與調整也依賴於內部對創新產出率的持續評估。內部有一條廣為遵循的原則:“不要聽信‘河馬’,即最高薪人士的意見。” 在會議中,無論職位高低,最有說服力的不是頭銜,而是支援觀點的資料質量。一位初級工程師可以用詳實的A/B測試結果,質疑甚至推翻副總裁的產品設想。這創造了一種近乎“智力平等”的辯論場域,決策過程從權力博弈轉向真理探求。最終,Google沒有簡單地選擇某一條路線,而是將三個團隊的優勢整合,形成了“基礎架構+平台+行業解決方案”的三位一體模式。也正因此,Google雲避開了AWS早期“重IaaS輕生態”的短板,也沒有重蹈微軟Azure初期“定位模糊”的覆轍,在AI時代憑藉“雲+AI”的協同優勢實現彎道超車。在Google,“做決策”並不是高管的核心職責,決策往往在技術精英層的深度辯論中產生,CEO的角色更接近於辯論主持人、資源協調者和最終執行責任的承擔者,很少直接干預具體業務的決策,工作重心是協調跨部門資源、保障內部溝通順暢、維護公司的長期價值導向。這正是Google最獨特也最易被誤解的一點:它的決策權威,日益從個人身上轉移到系統之中。這解釋了為何其CEO相對低調,卻不妨礙組織高效運轉。佩奇和布林最持久的遺產或許並非某個具體產品。OKR才是核心處理程序,它強制要求目標公開透明、野心勃勃且可衡量。全公司上下,從CEO到基層團隊,每個人的OKR都相互可見。這一機制產生了兩個革命性效果:第一,它讓組織的力量在縱向和橫向上自動對齊,減少了因資訊不透明導致的重複勞動或方向偏離;第二,它使績效評估基於對公共目標的貢獻度,而非上級的主觀印象,進一步削弱了辦公室政治。“賦能而非管控”,讓Google內部形成了一種“自下而上”的決策動力。每個團隊都有足夠的自由度去探索,那麼公司要做的,是通過完善的資源調配機制,讓有潛力的方向獲得足夠支援。因此,Google的CEO無需像賈伯斯那樣扮演產品先知,也無需像貝索斯那樣事無鉅細地掌控,更無需像馬斯克那樣以個人形象繫結公司品牌。02 長期主義:不做“緊急但不重要”的決策Google的決策邏輯押注長期價值,但這種長期主義並不是簡單的“延遲滿足”。2006年,Google以16.5億美元收購YouTube時,這家視訊網站還處於虧損狀態,外界普遍質疑Google花天價買了一個燒錢機器。但佩奇和布林看到的,是視訊內容即將成為網際網路主流形態的趨勢。在收購後的十年裡,Google沒有強迫YouTube快速盈利,而是持續投入資金最佳化演算法推薦、搭建內容生態、完善創作者激勵機制。直到2019年,YouTube才成為Google營收的第二大支柱,如今更是佔據全球視訊串流媒體市場的半壁江山。反觀同期的競爭對手,雅虎視訊、微軟MSN視訊等,因急於追求短期盈利,頻繁調整戰略,最終在競爭中掉隊。除此以外,早年廣告業務爆發時,有團隊提出“根據使用者搜尋記錄精準推送廣告,甚至向第三方出售部分資料”,這個方案能讓短期收入大幅提升,卻被管理層否決。當時負責廣告業務的負責人拿出一份使用者隱私調研指出,大部分使用者願意接受適量廣告,但他們反感資料被濫用。團隊的邏輯很清晰:廣告收入的根基是使用者信任,破壞信任換短期增長,得不償失。如今,Google廣告業務依然是全球最賺錢的廣告模式之一,核心就在於使用者的信任積累。我們常常稱讚一家公司“反應迅速”、“抓住風口”,但Google的許多重要決策,在外界看來恰恰是“緩慢”甚至“遲鈍”的。雲端運算是另一個典型的例子。當亞馬遜AWS已經攻城略地、微軟Azure開始全力追趕時,Google雲似乎還在不緊不慢地搭建自己的技術架構。市場焦急,分析師質疑,客戶在流失。按照大多數公司的決策邏輯,這時應該立刻推出一套模仿對手的簡化產品,先搶佔市場再說。緊急嗎?非常緊急。重要嗎?似乎也重要。但Google的選擇是,繼續挖它的運河。因為它知道,如果僅僅複製一個AWS的替代品,自己永遠只能是追趕者。它要的,是修建一條完全不同的河道:一個真正為雲原生時代、為機器學習和巨量資料而設計的雲。這個決策意味著要忍受好幾年的市場質疑和份額落後,要把巨大的資源投入到像Kubernetes這樣的開源基礎設施中(當時看來這簡直是在為對手做嫁衣),要說服開發者接受一套全新的思維和工作方式。這個過程一點也不激動人心。但當數位化處理程序深入到下一個階段,企業不再滿足於簡單地把伺服器搬到網上,而是需要在雲上建構智能、靈活的應用時,人們才發現,Google挖的那條運河,恰好通往未來最需要水的地方。需要注意的是,在Google,有些團隊的任務就是應對“今天”和“本周”的問題,比如營運和最佳化現有產品。但另一些團隊,他們的OKR(目標與關鍵成果)時間跨度是三年、五年,甚至更長。他們的成功標準不是下個季度的營收,而是能否在某個根本性的技術或科學問題上取得突破。公司允許,甚至鼓勵一部分資源長期游離在“緊急”的業務壓力之外。這就好比一片森林,既有生長迅速、吸收養分的灌木層,也有生長緩慢、但最終決定森林高度的喬木層。決策時,你不能因為灌木長得快,就把所有陽光都給它。那麼,是誰在守護這種長期視角?在一個沒有強勢、獨裁型CEO的公司裡,這個責任是分散的。技術骨幹們承擔了一部分。在Google,高等級工程師擁有巨大的影響力。他們的晉陞和評價,很大程度上取決於對技術方向的判斷和貢獻。系統也承擔了一部分。OKR體系要求目標必須具有“挑戰性”,這天然鼓勵了超越當前能力的思考。當然,領導者依然是關鍵的守門人。長期主義的決策,結果不會立竿見影。但當它終於因為佈局深遠而迎來收穫期時,人們往往稱之為“幸運”或“遠見”。03 湧現的智慧:建構創新生態而非規劃創新路徑在《重新定義團隊》這本書裡,Google所認為的突破性創新,往往無法被“計畫”或“指揮”。規劃創新,聽起來很合理。設定明確的目標,分配資源,制定時間表,然後執行。但創新的本質,尤其是突破性的創新,常常是“規劃”不出來的。就像你無法在1920年規劃出網際網路,在1990年規劃出智慧型手機的具體模樣一樣。突破往往誕生於意料之外。Google很早就意識到了這一點。早期著名的“20%時間”政策,本質就是一種制度化的湧現機制,通過明確的制度授權,為自下而上的創意提供了資源、時間和合法性。Gmail、GoogleNews等里程碑產品皆源於此。儘管這一政策的形式隨著公司規模擴大而演變,但其核心,通過給予自主權來激發創造力,已融入Google的基因。這個制度能運轉,靠的不僅是規則本身,依然是一整套與之匹配的決策邏輯。首先,Google的決策尊重“自下而上”的發現。 在大多數層級森嚴的組織裡,資訊的流動和想法的認可,高度依賴匯報線。在這個過程中,想法很可能因為某個中間人而被過濾掉。Google通過技術論壇、內部程式碼開源、扁平化的項目啟動流程,努力讓好的想法能自己“浮”上來。其次,它鼓勵看似“不務正業”的跨界碰撞。管理層不會只根據“這個主題和我們的核心業務有多相關”來決定是否支援。他們認為創新常常發生在學科的邊緣和交叉地帶。保持知識的廣泛流動和跨界交流,就是在為不可預測的創新增加機率。在一個規劃驅動的文化裡,失敗是必須避免的污點,但在一個生態思維的文化裡,“嘗試-失敗-學習”是系統進化的基本方式。Google關停過無數產品,從Google+到Google眼鏡的消費者版本。這些決定當然不是輕易做出的,但公司不會因為一個項目的失敗,而全盤否定背後的團隊或個人,更不會因此就關閉所有高風險的探索通道。內部常常流傳著一些項目被砍掉的故事。有些項目可能有不錯的使用者資料,有忠實的團隊,甚至已經開始產生收入。但一旦評估認為,它只是對現有模式的微小改進,或者偏離了最核心的技術方向,就可能被終止。資源,尤其是最頂尖的人才會被重新調配到那些更具基礎性、更可能定義未來的工作上。這個決策過程通常是痛苦的。但它傳遞了一個訊號:在這裡,衡量一個決策的價值,不僅看它能否立刻解決一個麻煩,更要看它能否在五年後依然重要。這形成了一種文化,人們提出新想法時,會更自然地去思考它的長期潛力。這種思維在技術戰略上體現得尤為明顯。面對人工智慧的浪潮,Google早在十多年前就系統性佈局。收購DeepMind,開創性地發佈Transformer架構論文,開發TensorFlow開源框架……一系列決策看似分散,實則遵循著同一邏輯:在最底層、最肥沃的土壤中播種,然後耐心培育整個生態。所以當ChatGPT引發生成式AI熱潮時,外界驚覺Google早已在演算法、算力、資料、人才和基礎設施各層面構築了深厚壁壘。它的決策已超越追逐某個產品熱點,轉向投資一個必然到來的技術時代的全部基礎要素。這種模式要求決策者具備非凡的耐心和長遠的戰略定力。許多投入在短期內看不到回報,甚至會被外界詬病為“方向散亂”或“反應遲緩”。但Google的決策系統容忍這種模糊性,因為在正確的生態裡,湧現出的成果將遠超任何精心設計的路線圖。 (新眸)
DeepMind 掌門人預判 AGI 將於 5-10 年內降臨
最近,Google DeepMind 掌門人德米斯·哈薩比斯(Demis Hassabis)接受 CNBC 專訪。他難得敞開心扉,直言不諱地評價了全球 AI 格局,尤其是中國 AI 的追趕速度和創新現狀。“中國團隊的追趕速度極快,只落後幾個月,但在原創性上,他們還沒拿出 Transformer 級的東西。”以 DeepSeek、阿里為代表的中國 AI 團隊,在工程效率、推理最佳化、成本控制上,展現了恐怖的實力。“一篇新論文出來,他們往往能以驚人的速度復現,甚至在某些方面做得更好。”換句話說,在 “把已知路徑做到極致” 這件事上,中國團隊已經證明了自己是全球頂級玩家。也正因為如此,矽谷過去那種“領先一代”的技術安全感,正在被一點點消耗掉。不是按年,而是按月縮水。要知道,過去很長一段時間美國尤其是矽谷派的主流觀點是:中國在 AI 上還遠遠落後,大概是幾年的差距。根據史丹佛大學《2025 年人工智慧指數報告》,中國在 AI 論文發表和專利申請總量上持續領先。且像 DeepSeek、智譜等機構發佈的模型,在國際基準測試中已與第一梯隊產品表現相當。以 DeepSeek V3.2 為例,在公開的推理類基準測試中,它已經能夠全面對標 GPT-5,僅略低於 Gemini 3 Pro。然而,他也指出原創性依然是中國團隊的短板。Transformer 或 AlphaGo 那樣從零到一的技術突破,目前在中國尚未出現。換句話說,中國團隊可以“開車飛馳在既有軌道上”,但鋪設全新軌道的能力仍需時間和積累。哈薩比斯強調,這並非能力不足,而是原創性突破往往需要長期科研積累、實驗失敗和探索精神的結合。不過哈薩比斯也看到了中國 AI 獨有的潛力,他認為當工程最佳化達到一定高度,往往會催生質變。中國憑藉廣闊的應用場景、迅速的市場反應和持續投入,很可能從別出心裁的角度,斬出那一刀改變格局的創新。在談到通向 AGI 的挑戰時,哈薩比斯強調,現有大模型存在“鋸齒狀智能”(jagged intelligence)。這是指模型在某些任務上表現非常出色,但面對複雜因果鏈條、多步驟邏輯推理或現實世界常識時,能力不穩定甚至可能出錯。這說明通用智能不僅需要強大的處理能力,還要在多個維度上保持穩定和一致。除此之外,現有系統無法持續線上學習,也難以自發產生原創性想法,通向 AGI 仍需克服這些根本性限制。在這一背景下,哈薩比斯談到 Scaling Law(規模定律)及其作用。他認為,雖然模型增大、算力增加和資料擴充的回報增速有所放緩,但總體進展依然非常好,能力提升仍值得投入。然而,要真正實現 AGI,僅靠 Scaling Law 仍不夠,還需要一兩個像 Transformer 那樣的重大範式突破。哈薩比斯保持謹慎樂觀,預計 AGI 很可能在五到十年內實現,同時指出算力問題最終歸結於能源,因此未來能源將成為“智能的貨幣”。他還進一步提到“世界模型”概念,作為通向 AGI 的核心手段。與 LLM 主要處理文字不同,世界模型能夠理解因果關係和長期後果,在腦中模擬世界、驗證假設,實現規劃和預測。未來 AGI 很可能是 LLM 與世界模型的融合體。DeepMind 已在 Genie、視訊生成 Veo 和機器人模擬中佈局早期世界模型,讓 AI 在虛擬環境中練習、犯錯、成長,真正具備“理解”和“預測”能力。在應用層面,哈薩比斯看好端側 AI,即將高效、輕量的模型運行在手機、可穿戴裝置和智能眼鏡等終端上。Google計畫通過 Project Aura 智能眼鏡以及機器人領域的探索,讓 AI 不僅會“說”,還能實際“做事”,並行揮實用價值。過去兩三年,DeepMind 也回歸“創業公司狀態”,快速迭代 Gemini 模型並落地到 Google 核心產品,包括搜尋、Workspace 和智能眼鏡等場景,使Google在算力、模型規模和應用落地上都保持競爭優勢。總體來看,哈薩比斯認為,中國 AI 已憑實力贏得了頂級牌桌的入場券,但未來幾十年的格局,將取決於誰能率先鋪設無人區的軌道。速度固然重要,但方向選擇才是關鍵。真正的競爭,不只是算力之爭,更是敢於探索未知、率先開闢全新路徑的勇氣與能力。在這個意義上,2026 年不僅可能見證端側 AI、agent 系統和機器人領域的突破,也將考驗誰能在通向 AGI 的道路上,把工程能力與原創性創新結合,率先鋪出未來的新軌跡。 (科技狐)
騰訊研究院AI速遞 20260126
生成式AI一、OpenAI Codex預告,今先揭秘Codex CLI核心智能體循環1. OpenAI CEO奧特曼預告下周起將發佈Codex相關重磅內容,官方同步發佈技術部落格揭秘Codex CLI核心架構——智能體循環;2. 智能體循環通過Responses API協呼叫戶指令、模型推理與本地工具執行,採用"提示詞前綴一致"策略觸發快取最佳化性能;3. Codex支援零資料保留配置保障隱私,利用自動壓縮技術管理上下文窗口,後續將深入介紹工具呼叫和沙箱模型。二、Google DeepMind 發佈 D4RT,徹底顛覆了動態 4D 重建範式1. GoogleDeepMind發佈D4RT,將3D重建、相機追蹤、動態物體捕捉統一成"查詢"動作,速度比現有SOTA快18至300倍;2. 核心創新是統一的時空查詢介面,AI先全域"閱讀"視訊生成場景表徵,再按需搜尋任意像素的3D軌跡、深度和位姿;3. 該技術對具身智能、自動駕駛和AR意義重大,讓AI即時理解動態環境,但訓練仍需10億參數模型和64個TPU。三、Claude Code 宣佈重磅升級:將內部的Todos升級為 Tasks1. Claude Code將內部"Todos"升級為"Tasks",支援多會話或子代理協作完成跨越多個上下文窗口的長期複雜項目;2. Tasks儲存在檔案系統中便於多個會話協同,當一個會話更新Task時會廣播給所有處理同一任務列表的會話;3. 新功能適配Opus 4.5更強的自主運行能力,使用者可通過環境變數讓多個會話在同一任務列表上協作。四、文心5.0正式版發佈,霸榜LMArena的最強文科生強在那1. 百度文心5.0正式版上線,參數量達2.4兆,採用原生全模態統一建模技術,支援文字、圖像、音訊、視訊的理解與生成;2. 在LMArena文字和視覺理解榜單五次登頂,進入全球第一梯隊,語言與多模態理解能力穩居國際領先;3. 實測顯示模型在複雜情感理解、弦外之音分析、創意寫作等文科任務表現突出,被稱為"最強文科生"。五、Clawdbot刷屏,AI智能體+閘道器,現階段使用請注意風險1. 開放原始碼專案Clawdbot在矽谷爆火,可在Mac mini上運行,兼具本地AI智能體和聊天閘道器雙重身份,通過WhatsApp、iMessage等隨時對話;2. Clawdbot解決了大模型記憶力痛點,能記住兩周前的對話,還會主動推送郵件、日程提醒,並可直接操控電腦執行任務;3. 項目GitHub獲9.2k星,最低月成本約25美元,但需要一定技術基礎部署,使用者反饋它能自動管理生意、寫程式碼替代Zapier等付費服務。六、LeCun創業官宣核心方向,掀起對Next-token範式的「叛變」1. 圖靈獎得主LeCun創立的AMI Labs官宣核心方向為"世界模型",旨在建構理解現實世界、具備持久記憶和推理規劃能力的智能系統;2. 該路線認為僅靠預測下一個token無法真正理解現實,需在更高層次表徵空間進行預測與推理,過濾不可預測的噪聲資訊;3. AMI Labs據傳正以35億美元估值融資,目標應用於工業控制、機器人、醫療等對可靠性要求極高的領域。七、實測:Claude in Excel,能聯網、能做表、辦公完全自動化1. Anthropic推出Claude in Excel外掛,支援Pro、Max、Team、Enterprise使用者,基於Opus 4.5模型,可通過Microsoft Marketplace安裝啟動;2. 外掛能聯網搜尋並自動填充表格,支援讀取公式、Debug錯誤、從零建模、製作透視表等功能,支援.xlsx和.xlsm格式;3. 當前不支援條件格式、宏和VBA,官方提醒存在prompt injection風險,建議只用可信來原始檔,高危函數會彈確認框。報告觀點八、Claude Code之父最新私教課:手把手教你Claude Cowork1. Claude Code創造者Boris Cherny詳解Cowork使用方法,強調將其當作"執行者"而非聊天工具,可直接操控檔案、瀏覽器和各類工具;2. 在之前X推文基礎上,再次強調:核心工作流是平行運行多個任務照看Claude們,先用"計畫模式"來回溝通直到滿意,再切換"自動接受編輯"模式執行;3. 強調Claude.md作為團隊複利式知識庫的重要性,任何Claude犯的錯都應加入進去,以及給Claude驗證輸出的方式能顯著提升質量。九、Google總監警告:只會寫Prompt的程式設計師,2026年將被淘汰1. Google雲AI總監Addy Osmani警告"氛圍程式設計"已撞南牆,AI能完成70%前期工作但剩餘30%只有經驗豐富的工程師能搞定;2. Stack Overflow調查顯示開發者對AI精準性信任度從40%降至29%,73%受訪者遇到過氛圍編碼導致的程式碼理解問題;3. 2026年真正核心競爭力是把模糊問題轉化為明確執行意圖、設計好上下文結構,以及區分真正重要的東西。十、「AI 無處不在」的達沃斯論壇,科技巨頭們都說了那些金句?1. 馬斯克預測2026年底前AI將超越人類智慧,到2030年AI將比全人類集體智慧更聰明,特斯拉明年底將開售人形機器人Optimus;2. 微軟CEO納德拉警告若AI只消耗資源不改善結果社會會失去容忍,黃仁勳稱具身智能是"一代人一次的機會";3. DeepMind CEO哈薩比斯認為AGI還需5-10年,Anthropic CEO達里奧稱只差6-12個月模型就能端到端完成軟體開發。 (騰訊研究院)
【達沃斯論壇】DeepMind與Anthropic達沃斯交鋒:AGI逼近,5年內或有大規模失業
阿莫代堅持,今明兩年會出現“在多領域達到諾貝爾獎水平、能完成人類所有認知任務”的模型。而哈薩比斯相對保守,認為到2030年代末有50%機率實現“展現人類全部認知能力”的AI。二者均認為,短期內(1-5年),AI會對初級白領工作,尤其是在程式設計、軟體領域,造成衝擊。當地時間1月20日,在瑞士達沃斯小鎮舉辦的世界經濟論壇第56屆年會上,一場名為“AGI之後的一天”(The Day After AGI)的圓桌論壇吸引了不少關注。這場圓桌被放置在論壇主議題之一的“我們如何能夠大規模且負責任地部署創新?”下,主要聚焦那些突破對AGI來說最為重要,以及在其真正實現之前和之後,人類會面臨和需要解決那些問題。Google旗下DeepMind聯合創始人兼CEO、諾貝爾化學獎得主德米斯·哈薩比斯(Demis Hassabis)與風頭正勁的獨角獸Anthropic聯合創始人兼CEO達里奧·阿莫代(Dario Amodei)就此展開討論。《經濟學人》主編詹妮·貝多絲(Zanny Minton Beddoes)應邀擔任主持。雖然圓桌的話題頗具科幻色彩,阿莫代和哈薩比斯也確實應景地談到了《超時空接觸》、費米悖論等問題,但實質上,圓桌本身聚焦的是現實世界的問題,尤其是人類可能面對的風險。兩位嘉賓依舊看好人工智慧能力的快速發展。阿莫代堅持自己此前的觀點——今年到明年間就會出現“一個能夠在許多領域達到諾貝爾獎得主水平、完成人類所能做的一切的模型”。哈薩比斯更加謹慎,但也認為到2030年代末,AI至少有50%的機率“展現人類所有的認知能力”。而兩人背後的公司,也被視為這一快速發展處理程序中的翹楚,尤其2025年至今,Google和Anthropic憑藉Gemini 3和 Claude Opus 4等產品,成為了行業矚目焦點。阿莫代更是放話稱,兩家公司取得成功的要點,在於公司或承擔研究功能的組織都是由研究人員領導的,他們專注於模型,專注於解決世界上的重要問題,並預言這類公司將在未來取得成功。與之呼應的,阿莫代在當日接受《華爾街日報》採訪時談到,科學家營運的AI公司和社交媒體背景的領導者營運的公司有明顯區別,後者在意商業激勵、傾向影響消費者,但可能會逃避關鍵的責任。這似乎是在暗指其前東家OpenAI的CEO薩姆·奧爾特曼(Sam Altman)(曾創辦過一家社交媒體),而Meta更是社交媒體領域的絕對霸主。隨著話題轉入AI或AGI可能帶來的風險,二者都給出了預警。多項研究顯示,AI尚未對人類就業形成明顯影響,甚至在創造新的崗位。不過,阿莫代和哈薩比斯都提示,從今年開始,人們可能就會看到AI對初級水平工作形成衝擊。而隨著AI能力的指數級成長,或許近在兩年內,或許在1-5年內,或許在5-10年內,勞動力市場和經濟體系的適應能力將遇到重大考驗,甚至有被壓垮的風險。阿莫代去年表示,AI會讓一半的入門級白領工作崗位消失。在論壇現場,他仍堅持自己的看法,並稱在軟體和程式設計領域已經看到了這一趨勢,Anthropic內部也在考慮如何妥善處理類似問題。哈薩比斯進而提示稱,包括政府、經濟學家等在內,人類社會對此的重視不足,所作的準備也“遠遠不夠”。他提到,就近來說,隨著AI影響就業,包括Google在內的科技巨頭、AI公司都有可能受到公眾的抵制,面臨更複雜的處境。而未來5到10年內,AI或AGI帶來的“後稀缺”社會將引發關於人類生命意義、行為目的和財富分配的深刻挑戰。阿莫代在接受《華爾街日報》採訪時提到,人們面對的前景是實現5%到10%的GDP增長的同時,可能同時面臨10%的失業率,政府必須要對大規模就業崗位流失承擔責任、有所作為,否則將是“人類社會的噩夢”。此外,兩人也對備受矚目的地緣政治問題給出了自己的看法。阿莫代認為,大國間的競賽可能成為AI風險的放大器,哈薩比斯則強調了國際協調和設定最低安全標準等的重要性。兩人當日還接受了彭博社等媒體的採訪,並談到了中美AI競賽的問題。哈薩比斯稱DeepSeek的確令人印象深刻,中國在AI前沿技術上或許只落後美國6個月,而非1-2年,但尚未證明自己能夠超越前沿進行創新。阿莫迪則堅持自己的一貫觀點,認為美國政府應繼續限制對中國出售高端AI晶片。對風險的討論幾乎貫穿甚至主導了整個圓桌的處理程序。當貝多絲希望兩人用15秒的關於今年AI發展的關注和預測收尾時,阿莫代稱,最值得關注的是“用AI系統建構AI系統”,其進展將決定人類還需要幾年才能實現AGI。但他也同時提示,人類或許將面臨一個必須應對的,機遇與巨大危機並存的前景。哈薩比斯稱,自己除此之外還關注世界模型、持續學習等的進展,並預測機器人技術可能會迎來爆發時刻。以下為圓桌討論實錄,經鈦媒體編輯翻譯整理:詹妮·貝多絲:歡迎大家,也歡迎正在觀看直播的各位。我必須說,我們期待這次對話已有四個月了。我很幸運,去年在巴黎主持了兩位之間的一場對話,可惜那場對話最引人注目的似乎是你們倆被擠在一張非常小的“情人座”上。而我當時坐在一張巨大的沙發上,這大概是我的安排失誤。但我當時說過,這對我來說就像是和披頭士樂隊與滾石樂隊一起聊天,而你們兩位此前從未在台上對過話。所以,這次就像是傳奇樂隊的再次聚首。我非常高興。兩位也都無需再過多介紹了。我們對話的主題是“AGI之後的一天”,我覺得這或許有點超前,因為我們可能應該先談談我們如何能快速、輕易地抵達AGI。我想先就此做個更新,然後再談談其後果。首先,關於時間線,去年在巴黎,達里奧說到2026-2027年,我們將擁有一個能夠在許多領域達到諾貝爾獎得主水平、完成人類所能做的一切的模型。現在已經到了2026年,你仍然堅持那個時間線嗎?達里奧·阿莫代:你知道,要確切知道某事何時發生總是很難,但我不認為那個估計會偏差太遠。我當時的設想是,我們將創造出擅長編碼和人工智慧研究的模型,並用它們來生產下一代模型,加速形成一個循環,從而加快模型開發的速度。就目前而言,在編寫程式碼的模型方面,Anthropic內部有工程師說,他現在已經完全不寫程式碼了,而是只讓模型寫程式碼,自己來編輯,並做周邊的工作。我想,可能還需要6到12個月,模型就能完成軟體工程師大部分、甚至全部端到端的工作。然後問題就在於這個循環能多快閉合。並非這個循環的每個部分都能被AI加速,對吧?比如晶片製造、模型訓練時間。所以,我認為這裡面有很多不確定性,人們會覺得這可能還需要幾年時間。但對我來說,很難想像這會需要比那更長的時間。如果非要我猜,我猜這會比人們想像的更快。程式設計以及日益加速的研究進展,將是關鍵驅動力。要預測這種指數級加速究竟有多快真的很難,但肯定會發生得很快。詹妮·貝多絲:德米斯,你去年要稍微謹慎一些。你說到本年代末,有50%的機率會出現一個能夠展現人類所有認知能力的系統。顯然,在程式設計方面,正如達里奧所說,已經取得了驚人進展。你現在的看法如何?是否堅持自己的預測?據你觀察,過去一年又發生了什麼變化?德米斯·哈薩比斯:是的,我仍然堅持大致相同的時間線。我認為已經取得了顯著進展,但像工程、程式設計或者數學這類領域,似乎更容易看到如何實現自動化,部分原因是其結果可以驗證。而一些自然科學領域則要困難得多。你未必能知道你預測的化學化合物或物理理論是否正確,可能必須通過實驗來驗證,這都需要更長的時間。所以我也認為,目前還缺少一些能力。不僅僅是解決現有的猜想或問題,而是首先要能提出問題、形成理論或假設——我認為這要困難得多。我認為這是最高層次的科學創造力。目前還不清楚我們是否將擁有這樣的系統。我認為這並非不可能,但可能還缺少一兩個要素。首先需要看看我們正在研究的這種自我改進循環,能否在沒有人類干預的情況下真正閉合。順便說一句,我認為這類系統也存在風險,我們應該討論一下。我相信我們會談到的,但如果這類系統真的奏效,那將加速處理程序。詹妮·貝多絲:我們稍後會談到風險。但過去一年還有一個變化,那就是這場競賽的排名順序發生了變化,如果可以這麼說的話。一年前的這個時候,我們剛經歷了DeepSeek時刻,所有人都對此感到無比興奮。當時人們還有一種感覺,認為Google在某種程度上落後於OpenAI。我想說,現在情況看起來大不相同了。OpenAI已經因為你們發佈了“紅色警報”,對吧?這是相當不平凡的一年。那麼,具體來說,有什麼讓你感到驚訝?你們今年做得如何?然後我也想聽聽你對當前格局的看法。德米斯·哈薩比斯:嗯,我一直非常有信心我們能重新回到排行榜的頂端,在各個領域擁有最先進的模型,因為我認為我們一直擁有最深、最廣的研究人才儲備。而關鍵在於如何整合這一切,讓整個組織重新擁有那種強度和專注度,以及創業公司般的心態。我們做了很多工作,雖然還有很多工作要做,但我開始看到進展,無論是Gemini 3大模型,還是在產品方面,Gemini應用的市場份額在不斷增加。所以我覺得我們正在取得巨大進展,但還有海量工作要做。我們正在利用DeepMind作為Google的“引擎室”,習慣於更快地將我們的模型應用到產品服務中。詹妮·貝多絲:達里奧,關於這方面我有個問題要問你,因為你們正在進行新一輪融資,估值也高得驚人。但你和他們不同,你們被稱作“獨立模型廠商”。我認為,人們越來越擔心獨立模型公司可能無法堅持足夠長的時間,直到盈利真正到來的那一天。外界對OpenAI也有公開的質疑。請談談你對此的看法,然後我們再回到AGI本身。達里奧·阿莫代:是的,我們對此的看法是,隨著我們建構的模型越來越好,不僅存在你投入模型的算力與其認知能力之間的指數關係,還存在其認知能力與它能夠產生的收入之間的指數關係。所以,我們的收入在過去三年增長了10倍,從2022年的零收入,到2023年的1億美元,2024年的3億到10億美元,再到2025年的10億到100億美元。我不知道這條曲線是否會完全照此延續,如果真是那樣就太瘋狂了。但這些數字開始接近世界上最大公司的規模了。當然,總是存在不確定性。我們是從零開始建立這家公司的,這很瘋狂。但我有信心,如果我們能產出我們專注領域中最優秀的模型,那麼事情就會順利發展。總的來說,我認為這對Google和Anthropic來說都是不錯的一年。實際上我們的共同點是,我們兩家公司,或者說公司的研究部分,都是由研究人員領導的,他們專注於模型,專注於解決世界上的重要問題,對吧?這些困難的科學問題就像是我們的北極星。我認為這類公司將在未來取得成功。我們之間有著這種共同點。詹妮·貝多絲:其實我很想問問你,那些不是由研究人員領導的公司會怎樣,但我知道你不會回答。那麼,我們現在進入預測環節。我們本應談論“AGI之後的一天”,但還是先來談談閉環吧。你們獲得能夠形成閉環、實現自我驅動的模型的機率有多大?這似乎會造成“贏家通吃”的局面,你們認為我們很可能會看到這種情況嗎?還是說這將成為一種更常規的技術,讓追隨者和追趕者也能競爭?德米斯·哈薩比斯:我絕對認為這將是一種常規技術。我的意思是,正如達里奧提到的,有些方面已經顯現,它已經在幫助我們的程式設計和一些研究工作。但完全的閉環,我認為還是個未知數,但有可能做到。你可能需要AGI本身才能在某些領域實現這一點。同樣,在這些領域,情況更複雜,很難快速驗證你的答案。那是更混亂的領域。順便一提,AGI還包括物理AI、機器人技術等等,然後你還有硬體層面的限制,這可能會限制自我改進系統的運行速度。但在程式設計、數學這類領域,我們絕對能看到其發揮作用。而更具理論性的問題則是,工程和數學在解決自然科學方面的極限何在。詹妮·貝多絲:達里奧,去年你發表了《愛與恩典的機器》(Machines of Loving Grace),那是一篇非常樂觀的文章,談論了你看到的人工智慧的潛力。你當時提到了一個“天才資料集國家”的概念,我聽說你正在撰寫一篇更新版的新文章。所以,各位,敬請期待。它還沒發表,但即將面世。或許你可以給我們提前透露一下,你的主要觀點會是什麼。達里奧·阿莫代:我的觀點沒有改變。我一直認為,人工智慧將變得極其強大。我想德米斯和我都同意這一點。問題只在於確切的時間。因為它極其強大,它將完成所有這些奇妙的事情,就像我在《愛與恩典的機器》中談到的,比如幫助我們治癒癌症,可能幫助我們根除熱帶疾病,幫助我們理解宇宙等。但同時,也存在巨大而嚴重的風險。我不是末日論者,我認為我們可以應對這些風險,但我們需要思考它們,需要解決它們。我先寫了《愛與恩典的機器》。我想給出一個複雜的理由解釋為何先寫那篇,但其實只是因為寫積極方面的文章比寫消極方面的更容易、更有趣。所以,我終於在休假期間花時間寫了一篇關於風險的文章。我是一個樂觀的人,所以即使我在寫風險的時候,也是以一種“我們如何克服這些風險?我們如何制定作戰計畫來對抗它們?”的角度來寫的。我用的框架是電影版《超時空接觸》中的一個場景。他們發現了外星生命,一個國際小組正在面試,以選出人類代表去會見外星人。他們問其中一個候選人的一個問題是:如果你能問外星人一個問題,你會問什麼?其中一個角色說:我會問,你們是如何做到的?你們如何在技術青春期沒有毀滅自己?你們是如何度過的?自從我大約20年前看了那部電影,這個想法就深深印在我腦海裡。這就是我使用的框架:我們正在敲響擁有這些不可思議能力的大門,基本上就是用沙子建造機器的能力。我認為,從我們開始使用火的那一刻起,這就是不可避免的。但重點在於我們如何應對它,風險並非不可避免。因此,我認為未來幾年,我們將面臨如何控制這些高度自主、比任何人類都更智能的系統。如何確保個人不會濫用它們?我擔心諸如生物恐怖主義之類的事情。如何確保國家不會濫用它?這就是為什麼我一直如此關注相關政權的問題。還有經濟影響。我經常談到勞動力置換,以及可能發生的事情。這在許多情況下可能是最難處理的事情。所以,我正在思考如何應對這些風險。對於每一個風險,都需要我們作為公司領導人各自去做一些事情,也需要我們共同努力去做一些事情。同時,還需要更廣泛的社會機構,如政府,在應對所有這些方面發揮作用。我只是感到一種緊迫感,每天都是如此。在AI之外的外部世界,有各種各樣瘋狂的事情正在發生,對吧?但我的觀點是,這一切發生得太快了,這是一場如此嚴重的危機,我們應該將幾乎所有的精力都投入到思考如何度過這個時期上。詹妮·貝多絲:我真不知道該更驚訝於那一點,是你居然會休假,還是你休假時還在思考AI的風險?又或者你的文章框架竟是“我們能否在不毀滅自己的情況下度過這項技術的青春期”?我的腦子有點轉不過來了。不過,你提到了幾個可以引導我們接下來討論的領域。我們先從工作說起,因為你對此一直直言不諱。你說過,未來一到五年內,一半的初級白領工作可能會消失。但我想就此問問德米斯,因為到目前為止,我們實際上還沒有看到勞動力市場受到任何明顯的影響。是的,美國失業率略有上升,但我看過的所有經濟學研究以及我們的報導都表明,這是疫情後的過度招聘所致,並非AI驅動。如果說有什麼影響的話,人們是在為建構AI能力而招聘。你認為這會像經濟學家們一直論證的那樣,並非“勞動力總量固定”的謬誤,實際上會創造出新的工作嗎?因為迄今為止的證據似乎指向這一點。德米斯·哈薩比斯:我認為短期內會發生的情況是,當一項突破性技術出現時,一些工作會受到衝擊,但我認為新的、可能更有價值、更有意義的工作將會被創造出來。我認為今年我們將開始看到對初級、入門級白領工作、實習等領域的初步影響。我認為有一些證據。我們自己也能感受到。也許我們在那方面的招聘會放緩,但我認為,目前幾乎對所有人免費開放的這些驚人的創意工具,可以更多地彌補這一點。如果我現在對一群本科生講話,我會告訴他們要變得對這些工具異常熟練。我認為,甚至我們這些建構者都忙於建構,很難有時間去真正探索即使是今天的模型和產品已經具備的、更不用說明天的“能力過剩”了。這可能比傳統的實習更好,能讓你實現某種跨越,在專業領域變得有用。所以,我認為在接下來的五年裡,我看到的可能就是這種情況。也許我們在時間尺度上略有不同。但AGI到來之後會發生什麼,那就是另一個問題了。那時,我們將真正進入未知領域。詹妮·貝多絲:達里奧,你是否認為這會比你去年說“一半的白領工作”時所想的時間要長?達里奧·阿莫代:不,我的看法基本相同。實際上我同意你和德米斯的觀點。在我發表那個評論的時候,勞動力市場還沒有受到影響。我當時不是說那時已經產生了影響。現在我想我們可能開始看到一點點苗頭,比如在程式設計領域。甚至在Anthropic內部,我也能看到,我可以預見在未來,在初級層面,甚至在中級層面,我們實際上需要的人會越來越少,而不是越來越多。我們正在思考如何在Anthropic內部以合理的方式處理這個問題。至於一到五年這個時間範圍,如果是六個月前,我會堅持那個看法。如果你把這和我之前說的聯絡起來——即我們可能在一到兩年內,或者稍長一點時間,擁有在各方面都比人類更優秀的人工智慧——那麼這兩者似乎並不一致。原因是存在滯後性和替代過程,我知道勞動力市場是有適應性的。就像過去80%的人從事農業,農業自動化後,他們成了工廠工人,然後是知識工作者。所以,這裡也存在一定程度的適應性。我們應該對勞動力市場如何運作有經濟學的、複雜的理解。但我擔心的是,隨著指數級增長持續加速,我認為這不會花太長時間,可能仍在一到五年之間,它將壓垮我們的適應能力。我想我可能和德米斯說的是同一件事,只是排除了我們在時間線上的一些分歧,我認為這最終歸結於你多快能實現閉環。詹妮·貝多絲:你們有多大信心認為政府能認識到這個問題的規模,並開始思考他們需要什麼樣的政策應對?德米斯·哈薩比斯:我認為政府在這方面所做的工作遠遠不夠。我常常感到驚訝,即使是在這樣的場合遇到經濟學家,也沒有更多的專業經濟學教授在思考將會發生什麼——不僅僅是通向AGI的道路上,甚至包括如果我們把達里奧談到的所有技術問題都處理好之後會面臨的問題。工作置換是一個問題,我們都擔心其經濟影響。但也許有辦法更公平地分配這種新的生產力、新的財富。我不知道我們是否有合適的制度來做到這一點,但這正是應該發生的。到那時,我們可能會進入一個後稀缺世界。但即便如此,還有那些讓我夜不能寐的更宏大的問題,關係到意義、目的,我們很多人從工作中獲得的不僅僅是經濟回報。這是一個問題。但奇怪的是,這可能比解決人類整體狀況和人性問題要容易一些。我同樣樂觀地認為我們會找到解決辦法。我們今天做的很多事情,從極限運動到藝術,並不一定直接與經濟收益相關。所以我想我們會找到意義,也許會有更複雜版本的活動,再加上我認為我們將探索更廣泛的世界。作為目標,所有這些都將被考慮在內。但我認為,即使按照五到十年的時間線,離那一刻到來也沒有多少時間了,現在真的需要開始思考了。詹妮·貝多絲:你認為出現公眾對AI的強烈抵制,從而導致政府做出從你的角度來看可能是愚蠢行為的風險有多大?因為我回想起20世紀90年代的全球化時代,當時確實有一些工作崗位流失,政府做得不夠,公眾的強烈抵制最終導致了我們現在所處的局面。你是否認為存在一種風險,即在政治體中會出現對你們和你們公司所做之事日益增長的敵意?德米斯·哈薩比斯:我認為絕對存在風險。我認為這種擔憂是合理的。人們對工作、生計等問題存在恐懼和擔憂。我認為有幾件事在未來幾年可能會非常複雜,包括地緣政治等問題。比如我們想要並且正努力通過AlphaFold和我們的科學工作、我們的衍生公司Isomorphic Labs去實現的目標——解決所有疾病、治癒疾病、開發新能源。作為一個社會,顯然我們想要這些。但我認為或許整個行業的活動平衡性不夠偏向這類活動,我認為應該有更多像AlphaFold這樣明確給世界帶來益處的例子。我們需要更多像AlphaFold這樣的事物。我認為,實際上,整個行業和我們所有領先的參與者都有責任更多地展示、證明這一點,而不僅僅是談論。但同時,它也會帶來這些意想不到的干擾。另一個問題是地緣政治競爭。顯然,有公司之間的競爭,但主要還是美國和中國之間的競爭。或許有組織來推動國際合作或理解會更好,例如就部署的最低安全標準達成一致,我認為這實際上是很有必要的——這項技術將是跨國界的,它將影響每個人,影響全人類。實際上,《超時空接觸》也是我最喜歡的電影之一。說起來有點巧,我沒想到你也喜歡。總之,我認為這類事情需要解決。如果我們能做到,也許比我們當前預測的、甚至比我的時間線稍慢一點的進度,對社會來說可能是好事,這樣我們可以把事情做對,但這需要協調。達里奧·阿莫代:你的時間表讓步了。詹妮·貝多絲:好吧,達里奧,現在讓我們也來談談這個,因為自從我們上次在巴黎交談以來,地緣政治環境如果說有什麼變化的話,那就是更加複雜、瘋狂了,無論你想用什麼詞來形容。其次,美國現在對中國的態度非常不同。那是一種更無保留的、儘可能快的競爭態度,但仍然向中國出售晶片。另外,現在美國和歐洲之間的關係也變得非常奇怪。在現實世界中,地緣政治風險是否增加了?你認為應該為此做些什麼?美國政府在做的似乎與你的建議相反。達里奧·阿莫代:我們只是盡力在我們所處的環境中做到最好,不管這環境有多瘋狂。但至少我的政策建議沒有改變。不銷售晶片是我們能做的、確保我們有時間處理此事的最重要的事情之一。我之前說過,我更喜歡德米斯的時間線,我希望我們有五到十年的時間。可能他是對的,而我是錯的。但假設我是對的,它可能在一到兩年內實現,那我們為什麼不能放慢到德米斯的時間線呢?實際上,我們不能這樣做的原因,正因為我們的地緣政治對手正在以相似的速度建構同樣的技術。很難達成一個可執行的協議,讓他們放慢速度,而我們也放慢速度。所以,如果我們只是不出售晶片,那麼這就不是美國和中國之間的競爭問題,而是我和德米斯之間的競爭問題,我非常有信心我們能解決這個問題。詹妮·貝多絲:你對政府的邏輯怎麼看?據我理解,他們認為我們需要銷售晶片,因為我們需要將中國繫結在美國的供應鏈上。達里奧·阿莫代:我認為這不僅是時間尺度的問題,更是技術重要性的問題。如果這只是電信或其他什麼技術,那麼關於推廣美國技術堆疊、確保世界各地的資料中心使用輝達晶片而不是華為晶片等所有說法,也許都成立。但有關AI晶片的決定不一樣……我認為所有限制措施遠不如禁售晶片有效。詹妮·貝多絲:我們繼續往下推進。末日論者擔心的另一個潛在風險是一種全能的、惡意的AI。我認為你們兩位都對末日論者持一定的懷疑態度。但在過去的一年裡,我們看到這些模型表現出欺騙、表裡不一的能力。你們現在對這個風險的看法是否與一年前不同?模型的發展方式是否有讓我們應該更加關注的地方?達里奧·阿莫代:是的,自從Anthropic成立之初,我們就一直在思考這種風險。我們最初的研究是非常理論化的。我們開創了“機械可解釋性”的概念,即深入模型內部,試圖理解它為什麼做它所做的事,就像人類神經科學家試圖理解大腦一樣,我和德米斯都有這個背景。隨著時間的推移,我們越來越多地記錄了模型出現時的惡意行為,並正在努力通過機械可解釋性來解決它們。所以,我一直很擔心這些風險。我和德米斯談過很多次。我想他也一直擔心這些風險。我肯定一直是,而且我猜德米斯也是,對末日論持懷疑態度——即我們註定要完蛋,我們無能為力,或者這是最可能的結果。我認為這是一個風險,但如果我們共同努力,我們可以應對。我們可以通過科學來學習如何妥善控制和引導我們正在建構的這些創造物。但如果我們建構得很糟糕,如果我們都全速競賽,快到沒有任何防護欄,那麼我認為確實有出問題的風險。詹妮·貝多絲:德米斯,我給你一個機會,在一個更廣泛一點的背景下回答這個問題:在過去的一年裡,你對這項技術在科學等所有你們談論很多的領域的上行潛力是更有信心了,還是對我們討論的風險更擔憂了?德米斯·哈薩比斯:我研究AI已經超過20年了。我整個職業生涯都投身於AI,正是因為它的上行潛力——解決終極科學工具、理解我們周圍宇宙的潛力。我從小就對這著迷。建構AI應該是實現這一目標的終極工具,如果我們做得對的話。關於風險,我們也從一開始就在思考,至少從DeepMind成立15年前就開始。我們預見到,如果你獲得了上行潛力,它就是一種雙重用途的技術。所以,它可能被壞人重新用於有害目的。因此,我們一直需要思考這個問題。但我堅信人類的聰明才智。問題在於是否有時間、專注度,以及所有最優秀的人才共同合作來解決這些問題。我相信如果我們有這些條件,我們就能解決技術風險問題。但如果我們沒有,那麼風險就會出現,因為我們會變得分散,會有不同的項目,人們會互相競爭。那樣就很難確保我們產出的系統在技術上是安全的。但我覺得,如果給你時間,這是一個非常容易處理的問題。詹妮·貝多絲:我想確保還有一個提問機會。先生們,請簡短回答,因為我們只剩兩分鐘了。提問者:謝謝。大家好,我是菲利普,Star Cloud的聯合創始人,我們在太空建造資料中心。我想問一個略帶哲學色彩的問題。對我來說,對末日論最強有力的論據是費米悖論,即我們在銀河系中看不到智慧生命。我想知道你們對此有何看法。德米斯·哈薩比斯:關於這個問題,我思考過很多。有關費米悖論的一個觀點是如果我們看不到外星人,是因為他們被自己的技術消滅了,那麼我們應該看到來自銀河系某處的、由AI建造的“紙夾”或其他結構向我們湧來,但顯然我們沒有看到任何戴森球之類的結構,無論是AI建造的還是自然的生物文明建造的。所以對我來說,必須有不同的答案來解釋那個悖論。我自己對此有看法,但這超出了接下來一分鐘的討論範圍。我只是覺得,我的預測和感覺是,我們已經越過了“大過濾器”。至於接下來會發生什麼,我認為這將由我們人類自己來書寫。詹妮·貝多絲:這可以是一個很棒的討論,但超出了接下來的時間範圍。最後,每人再給出15秒的發言吧,當明年我們三人再次見面時,到那時什麼將會改變?達里奧·阿莫代:我認為最值得關注的是“AI系統建構AI系統”這個問題。其進展如何,將決定我們是還需要幾年才能到達AGI,還是我們將面臨一個必須應對的,機遇與巨大危機並存的前景。德米斯·哈薩比斯:我同意。所以我們正就此保持密切溝通。但除此之外,我認為還有其他有趣的研究方向,比如世界模型、持續學習等。我認為如果自我改進本身不能完全實現目標,那麼我們需要這些其他方面取得突破。另外,我認為機器人技術可能會迎來它的爆發時刻。詹妮·貝多絲:但根據你剛才所說的,也許我們都應該希望這確實需要更長一點時間,對所有人都如此。德米斯·哈薩比斯:我傾向於那樣。我認為這對世界會更好。詹妮·貝多絲:你們可以做點什麼來影響它,謝謝兩位。 (鈦媒體AGI)
DeepMind CEO:中國AI落後西方約六個月,DeepSeek R1 反應過度/DeepSeek 新模型 MODEL1 程式碼曝光
DeepMind CEO:中國 AI 公司落後西方約六個月,DeepSeek R1 反應過度/X 開源核心推薦演算法:基於 Grok 的 Transformer 模型驅動資訊流/DeepSeek 新模型 MODEL1 程式碼曝光,預示新架構最快 2 月發佈X 開源核心推薦演算法:基於 Grok 的 Transformer 模型驅動資訊流要點一:演算法技術架構與工作原理X(原 Twitter)於 2026 年 1 月 20 日在 GitHub 上開源了其核心推薦系統程式碼,該系統完全依賴於 xAI 的 Grok Transformer 模型來學習使用者參與序列的相關性。系統通過分析使用者的互動歷史(點選、點贊等行為),結合網路內帖子和利用機器學習分析"網路外"內容,為使用者生成個性化資訊流。演算法會過濾被遮蔽帳戶、靜音關鍵詞以及暴力或垃圾內容,然後根據相關性、內容多樣性以及使用者可能的互動行為(點贊、回覆、轉發等)對內容進行排序。系統採用 RecsysBatch 輸入模型,使用統一的 AI 驅動 Transformer 架構,完全實現自動化推薦,無需人工特徵工程。TechCrunch要點二:開源背景與爭議此次開源履行了馬斯克一周前的承諾,承諾每四周提供演算法透明度更新。然而,X 當前正面臨多重監管壓力:歐盟監管機構因其驗證系統違反《數字服務法》透明度義務對其處以 1.4 億美元罰款;加州總檢察長辦公室和國會議員正在審查 Grok 被用於製作女性和未成年人的性化內容問題。批評人士認為這是"透明度作秀",因為 2023 年首次開源時被批評"不完整",未能揭示組織內部運作或程式碼工作原理。值得注意的是,自馬斯克 2022 年收購以來,X 從上市公司轉為私有公司,透明度報告從每年多次減少至 2024 年 9 月才發佈首份報告。TechCrunchNetflix Q4 業績強勁:付費使用者突破 3 億,2025 年收入預期上調要點一:Q4 財務資料與使用者增長Netflix 於 2025 年 1 月 21 日公佈的 2024 年第四季度財報顯示,營收同比增長 16% 至 102.5 億美元,超過市場預期的 101.1 億美元;每股收益 4.27 美元,超過預期的 4.20 美元。公司在該季度新增 1900 萬付費會員,創下季度最大增長記錄,使全球付費會員總數達到 3.0163 億(301.63 million),超過預期的 2.909 億。淨利潤達 18.7 億美元,而上年同期為 9.38 億美元。包括"額外會員帳戶"在內,Netflix 全球觀眾估計超過 7 億。Q4 的成功得益於《魷魚遊戲》第二季、Jake Paul 對 Mike Tyson 拳擊賽以及聖誕節 NFL 比賽等內容的推動。聯席 CEO Ted Sarandos 表示,為體育賽事而來的使用者留存率與其他熱門內容使用者相當。CNBC要點二:2025 年展望與業務戰略Netflix 將 2025 全年收入預期從此前預測上調約 5 億美元,調整至 435-445 億美元區間,同時宣佈部分套餐價格上漲 1-2 美元/月。公司表示將增加內容投入,2026 年內容支出計畫增長 10%。廣告支援套餐表現強勁,在提供該選項的國家中佔註冊量的 55% 以上,會員數環比增長約 30%。Netflix 表示有望在 2025 年在所有廣告業務國家達到充足規模,大幅增長廣告業務是 2025 年首要任務。這是 Netflix 最後一次按季度報告付費訂戶數,未來將在第二和第四季度發佈"參與度報告"。2025 年將推出《怪奇物語》和《星期三》回歸,以及《利刃出鞘 3》、Adam Sandler 的《快樂吉爾莫 2》等重磅內容。公司強調其優勢在於專注核心業務,沒有管理衰退的線性網路等分心因素。CNBC馬斯克起訴 OpenAI 案內部檔案曝光:微軟與 OpenAI 十年合作關係細節披露要點一:微軟-OpenAI 關係演變與關鍵轉折點最新法庭檔案揭示了微軟與 OpenAI 長達十年的合作關係內幕。2015 年 12 月 OpenAI 成立時,微軟 CEO 納德拉發現 AWS 已成為捐助方而驚訝詢問團隊。2016 年,在馬斯克支援下(稱貝索斯"有點工具人"),微軟以 5000 萬美元計算資源贏得合作。2019 年,微軟投資 10 億美元,獲得 OpenAI 商業許可和獨家雲端運算權,以及對"重大決策"的批准權(包括結構變更、合併等),當時微軟出資佔總投資 85%,實際擁有否決權。微軟 CFO Amy Hood 評論 OpenAI 的利潤上限"實際上比 90% 的上市公司都大,並不太受約束"。2022 年 11 月 ChatGPT 發佈時董事會從社交媒體上得知,微軟隨後在 2023 年 1 月追加 100 億美元投資。2023 年 11 月 Altman 被解僱危機中,微軟在 24 小時內成立 Microsoft RAI Inc. 子公司準備接收 OpenAI 團隊,估算成本 250 億美元,並在新董事會遴選中發揮關鍵作用。GeekWire要點二:最新訴訟進展與公司治理轉變馬斯克於 2026 年 1 月尋求從 OpenAI 和微軟獲得 790-1340 億美元賠償,指控 OpenAI 背離非營利使命欺騙了他。聯邦法官已裁定此案將於今春進行陪審團審判,OpenAI 和微軟未能逃避審判。OpenAI 反駁稱馬斯克在 2017 年就同意需要營利性結構,談判破裂是因為 OpenAI 拒絕給他完全控制權。2024 年 12 月 27 日,OpenAI 宣佈解除限制利潤結構,內部稱為"Project Watershed"。2025 年 9 月簽署諒解備忘錄,45 天內完成條款。微軟的"重大決策"批准權涵蓋此次重組,雖無董事會席位和投票權,但重組無法在未經微軟批准下進行。Morgan Stanley 估值 1220-1770 億美元,Goldman Sachs 估值 3530 億美元,最終以 5000 億美元估值完成(軟銀領投),微軟股權從 32.5% 稀釋至 27%,但 OpenAI 承諾未來在 Azure 上支出 2500 億美元。同時微軟失去新雲工作負載優先權,但 IP 權利延長至 2032 年。2025 年 11 月,OpenAI 與 AWS 簽訂 7 年 380 億美元基礎設施協議,實現雲服務商多元化。GeekWireDeepMind CEO:中國 AI 公司落後西方約六個月,DeepSeek R1 反應過度要點一:對中國 AI 能力的評估Google DeepMind CEO Demis Hassabis 於 2026 年 1 月 20 日在達沃斯世界經濟論壇接受 Bloomberg 採訪時表示,中國 AI 公司目前落後領先西方實驗室約六個月。他認為市場對 2025 年發佈的 DeepSeek R1 模型的反應是"大規模過度反應"(massive overreaction)。Hassabis 表示中國公司"非常擅長追趕前沿水平,並且越來越有能力做到這一點",但並未實現科學突破。他此前在 2025 年 2 月曾評價 DeepSeek 的 AI 模型"可能是中國最好的工作",但補充說這不是科學進步,炒作被"誇大了"。這一評估與業界對中國 AI 快速發展的擔憂形成對比,Hassabis 試圖平息內部員工對 DeepSeek 的焦慮情緒。Bloomberg要點二:技術競爭態勢分析Hassabis 的評估反映了西方 AI 領導者對中國追趕速度的謹慎樂觀。雖然承認中國在快速進步,但強調其主要優勢在於"追趕"而非創新性突破。DeepSeek 作為中國 AI 初創公司,以遠低於美國競爭對手的成本開發出具有競爭力的 AI 模型,引發了對美國高額 AI 投資必要性的質疑。然而 Hassabis 的言論暗示,儘管 DeepSeek 展現了成本效率,但在技術前沿性和創新能力上,西方實驗室仍保持領先。這一觀點與當時市場因 DeepSeek 發佈而出現的恐慌情緒形成鮮明對比,試圖重新定位競爭格局的真實狀態。值得注意的是,Hassabis 的評估也可能帶有戰略性考量,旨在穩定投資者信心並維持西方在 AI 領域的主導敘事。BloombergAnthropic CEO:向中國出售 AI 晶片如同"向朝鮮出售核武器"要點一:國家安全警告與政策批評Anthropic CEO Dario Amodei 於 2026 年 1 月 20 日在達沃斯世界經濟論壇接受 Bloomberg 採訪時,強烈批評川普政府允許向中國出售先進 AI 晶片的決定,將其比作"向朝鮮出售核武器"。Amodei 表示美國在晶片製造能力上領先中國"許多年",向中國出口這些晶片可能幫助北京縮小差距,具有"令人難以置信的國家安全影響"。他描繪了 AI 的未來場景:"一個資料中心裡的天才之國",想像"1 億個比任何諾貝爾獎得主都聰明的人,它將受某一個國家的控制"。Amodei 表示中國在 AI 發展上仍然落後,並受到晶片禁運的制約。美國工業和安全域(BIS)上周修訂了向中國出售晶片的許可政策,川普隨後宣佈對 Nvidia 計畫運往中國的晶片(如 H200)徵收 25% 的關稅。Axios要點二:行業內部分歧與政治博弈Amodei 在業界對政府政策的批評中較為突出,儘管試圖緩和緊張關係,但並非孤立聲音。在國會山,眾議院外交事務委員會主席 Brian Mast 等共和黨高層正在推動立法,阻止中國獲取敏感美國技術。MAGA 影響者 Laura Loomer 和 AI 與加密貨幣主管 David Sacks 則為總統政策辯護。Amodei 在採訪中避免直接批評 Sacks(被廣泛視為川普 AI 政策背後的策劃者),僅表示"這一特定政策並不明智"。目前某些先進 AI 晶片(如 Nvidia H200、AMD MI325X)向中國出口的各項準備工作正在落實。這一爭議凸顯了商業利益、國家安全考量與政治立場之間的複雜博弈,以及 AI 行業領導者在公共政策制定中日益重要的發聲角色。Amodei 此前撰文強調需要加強對華晶片出口管制,此次公開批評進一步表明他在這一議題上的堅定立場。Axios百度文心助手月活使用者突破 2 億,與京東美團等平台深度整合要點一:使用者規模與生態整合百度旗下 AI 助手"文心一言"(Ernie Assistant)月活躍使用者數已突破 2 億大關,這一里程碑標誌著中國科技巨頭在 AI 助手領域競爭的顯著進展。根據《華爾街日報》2026 年 1 月 20 日報導,文心一言已與京東(JD.com)、美團(Meituan)和攜程(Trip.com)等廣泛使用的應用程式實現連結整合,使得該 AI 助手能夠幫助使用者預訂機票、訂購外賣等實際服務。這種深度生態整合使文心一言不再僅是獨立的聊天機器人,而是嵌入到使用者日常生活場景的智能助手。百度股價因這一消息上漲,反映了市場對其 AI 業務增長的積極預期。除活躍使用者基數外,文心一言每日 API 請求量也達到 2 億次,顯示其在企業客戶中的廣泛應用。百度還擁有超過 85,000 家企業客戶使用其 AI 服務。Wall Street Journal要點二:中國 AI 競爭格局隨著中國科技巨頭在 AI 領域競爭的加劇,百度、阿里巴巴、騰訊等公司都在爭奪 AI 助手市場份額。百度的文心一言現已整合到其旗艦搜尋引擎中,並在 PC 端可用,重塑了使用者搜尋和互動方式,從傳統關鍵詞搜尋轉向 AI 驅動的對話式搜尋。這一轉變體現了百度將自身從傳統搜尋引擎轉型為 AI 平台的戰略。與競爭對手相比,百度在中文語言模型和本土化服務整合方面具有優勢。文心一言與京東、美團等電商和生活服務平台的整合,使其能夠直接參與交易環節,而不僅僅提供資訊查詢。這種"AI+服務"的模式代表了中國 AI 應用的獨特路徑,與美國市場以通用對話為主的 ChatGPT 等產品形成差異。2 億月活使用者的規模雖然顯著,但在中國龐大的網際網路使用者基數中仍有巨大增長空間,預示著 AI 助手市場的激烈競爭將持續升級。Wall Street Journal字節跳動擴張雲業務:AI 雲市場份額近 13%,挑戰阿里巴巴主導地位要點一:市場份額與擴張戰略根據《金融時報》2026 年 1 月 20 日報導及 IDC 資料,字節跳動旗下火山引擎(Volcano Engine)在 2025 年上半年佔據中國 AI 雲服務市場近 13% 的份額,營收約 3.9 億美元,而阿里巴巴保持約 23% 的市場領先地位。字節跳動正在通過招聘銷售人員和降低價格策略積極擴張其雲業務,成為增長最快的挑戰者。公司依託其短影片平台抖音(TikTok)和今日頭條積累的海量資料和 AI 技術優勢,向企業客戶提供 AI 驅動的雲服務。字節跳動宣稱每日處理 30 兆 tokens,佔據 49.2% 的 token 消費份額,而阿里巴巴則以 334 億元人民幣的雲收入和更成熟的企業客戶基礎作為反擊。儘管雙方在 2025 年上半年的市場份額都略有下滑,但字節跳動的快速崛起仍對阿里巴巴長期主導的雲端運算市場構成威脅。Financial Times要點二:雲端運算市場競爭格局演變中國 AI 雲基礎設施競爭已進入白熱化階段,字節跳動和阿里巴巴成為最激進的競爭者。分析師指出,字節跳動在 AI 雲市場的挑戰對阿里巴巴構成顯著壓力,特別是在 AI 原生應用和新興企業客戶群體中。阿里巴巴雖然保持整體市場領先(約 35.8% 的 AI 雲市場份額,超過其後三家競爭對手的總和),但面臨增長放緩壓力。字節跳動的優勢在於其在消費網際網路領域積累的 AI 技術和演算法能力,以及願意提供更有競爭力的價格。市場研究機構預測,中國雲端運算市場規模將從 2025 年的 504.7 億美元增長至 2031 年的更大規模。這場競爭的背後是對未來 AI 經濟基礎設施控制權的爭奪:兩家公司都聲稱在中國 AI 領域處於領先地位,但採取不同的戰略路徑——阿里巴巴強調企業雲收入和成熟的商業模式,而字節跳動則突出技術處理能力和消費者應用經驗。此次雲業務擴張也被視為字節跳動多元化戰略的一部分,在面臨 TikTok 在海外監管壓力的背景下,拓展 B2B 企業服務市場。Financial TimesOpenAI 將於 2026 年下半年推出首款硬體裝置,無螢幕可穿戴形態要點一:產品時間表與形態特徵OpenAI 全球事務主管 Chris Lehane 於 2026 年 1 月 19 日在達沃斯 Axios House 活動中透露,公司"正按計畫"在 2026 年下半年推出首款硬體裝置。這一時間表與去年 5 月 CEO Sam Altman 收購前蘋果設計總監 Jony Ive 公司時的暗示一致,Ive 公司當時發佈的宣傳視訊中寫道"期待明年與您分享我們的作品"。根據多方報導,OpenAI 正在開發小型無螢幕裝置原型,可能是可穿戴形式,將通過互動方式與使用者溝通。Altman 此前表示該裝置將比智慧型手機更"平和",使用者會對其簡潔性感到震驚。Lehane 將"裝置"列為 OpenAI 2026 年的重要看點之一,但拒絕透露具體細節,包括是別針、耳機還是其他形態。他表示將在"今年晚些時候"分享消息,強調這是"最可能"的時間表,但"我們會看看事情如何進展"。Lehane 並未承諾裝置今年一定上市銷售,暗示發佈可能僅是產品展示而非正式商業化。Axios要點二:AI 硬體市場前景與競爭態勢儘管早期 AI 裝置如 Humane 的 AI Pin 基本失敗,但 2026 年預計將迎來眾多 AI 硬體新嘗試。高通 CEO Cristiano Amon 在同一活動中透露,目前每年約有 1000 萬台 AI 智能眼鏡出貨,預計今年或明年將增至 1 億台。他表示 AI 裝置將採取多種形式,包括帶攝影機的耳塞和珠寶,高通晶片將為大多數產品提供動力,但 AI 智能眼鏡可能是銷量最大的品類。關於 OpenAI 裝置是否使用高通晶片,Amon 較為謹慎地表示"我會說我們一直在與他們合作,所以我們對正在做的事情感到興奮,但他們會談論自己的裝置"。這暗示雙方可能存在某種合作關係。OpenAI 進軍硬體市場代表著從純軟體/API 提供商向垂直整合的戰略轉變,類似於蘋果的軟硬體一體化模式。與 Jony Ive 的合作更強化了這一願景,利用 Ive 在蘋果創造 iPhone、iPad 等革命性產品的經驗。然而,AI 硬體市場尚未找到真正的產品市場契合點,OpenAI 面臨的挑戰是如何創造出既有實用價值又能提供超越智慧型手機的獨特體驗的裝置。Axios字節跳動 AI 平台 Coze 發佈 2.0 版本,支援長期自主規劃與智能辦公要點一:核心功能升級與技術突破字節跳動旗下 AI Agent 開發平台 Coze(中文名"扣子")於 2026 年 1 月 19 日發佈 2.0 版本,實現從"AI 輔助工具"到"主動執行的 AI 工作夥伴"的重大升級。新版本具備三大核心能力:Agent Skills(技能封裝)、Agent Plan(長期規劃)和 Agent Office(智能辦公)。Agent Skills 功能允許將複雜工作流封裝為可呼叫的技能包,通過簡單的自然語言指令即可執行多步驟任務,例如一句話完成從資料收集到可視化的全流程。Agent Plan 實現了從"單次對話"到"長期服務"的跨越,使用者只需設定宏觀目標(如管理社交媒體帳戶),AI Agent 就能自主分解步驟、執行任務並持續最佳化,支援複雜目標的閉環管理和長期任務的自主執行。Agent Office 增強了深度上下文理解能力,可輔助生成報告、製作 PPT、梳理會議紀要等職場辦公場景,與 WPS、飛書等辦公軟體深度整合。扣子程式設計功能支援雲端協作開發,使用者可使用 Python、JavaScript 等語言編寫自訂邏輯。Readhub要點二:應用場景與市場定位扣子 2.0 主要應用於行銷文案、長期計畫管理、職場辦公等場景。歷經 700 多天迭代,扣子已積累上千萬使用者。此次升級通過"技能封裝"和"長期計畫"等功能,試圖解決 AI 在複雜工作流中執行力不足的問題。與初版相比,2.0 版本不再侷限於單純的對話互動,而是強調 AI Agent 的自主規劃和持續執行能力。例如在行銷場景中,Agent 可以持續監測市場趨勢、自動生成內容、最佳化投放策略;在項目管理中,可以跟蹤進度、協調資源、提醒風險。扣子 2.0 的發佈體現了字節跳動在企業級 AI 應用領域的戰略佈局,與其消費級 AI 產品(如豆包)形成互補。作為低程式碼甚至零程式碼的 AI Bot 開發平台,扣子降低了企業和開發者建構定製化 AI 智能體的門檻。這一戰略與微軟的 Copilot Studio、OpenAI 的 GPTs 等產品形成競爭,但扣子更強調"長期規劃"和"自主執行"能力,試圖在 AI Agent 市場中建立差異化優勢。平台支援可視化工作流、自主編排、自動規劃等多種智能體建構方式,並可分發到多個管道。ReadhubDeepSeek 新模型 MODEL1 程式碼曝光,預示新架構最快 2 月發佈要點一:MODEL1 程式碼細節與技術特徵DeepSeek 在 GitHub 上更新的 FlashMLA 程式碼庫中,橫跨 114 個檔案有 28 處提到了神秘的"MODEL1"識別碼,這被認為是下一代旗艦模型的開發代號。程式碼分析顯示,MODEL1 與現有的 V32(DeepSeek-V3.2)架構並列出現,暗示這是一個全新的模型架構。具體技術差異體現在 KV 快取佈局、稀疏性處理和 FP8 解碼等方面,顯示該模型在記憶體最佳化上進行了多處改進。MODEL1 可能整合了最佳化的殘差連接、Engram 記憶模組與 mHC 流形約束技術等創新。開發者推斷 MODEL1 很可能是 DeepSeek-V4 的內部開發代號或首個工程版本。此前《The Information》月初爆料稱,DeepSeek 將在 2026 年 2 月中旬農曆新年期間推出新一代旗艦 AI 模型 DeepSeek V4,將具備更強的寫程式碼能力。MODEL1 在開放原始碼中的意外現身,類似於 DeepSeek 發佈前的慣例,增加了 2 月發佈的可能性。IT之家要點二:發佈時機與市場影響DeepSeek-R1 發佈剛滿一周年之際,MODEL1 的曝光引發行業高度關注。如果按照預期在 2026 年 2 月發佈,DeepSeek V4 將成為中國 AI 公司在農曆新年期間推出的重磅產品。DeepSeek 以低成本高效能著稱,其 R1 模型曾在 2025 年引發全球關注(儘管 DeepMind CEO 認為反應"過度")。新模型如果在程式碼能力上實現顯著提升,將進一步鞏固 DeepSeek 在開源 AI 領域的地位,並加劇與 OpenAI、Anthropic 等西方公司的競爭。MODEL1 程式碼中對記憶體最佳化、稀疏性處理等方面的改進,暗示 DeepSeek 繼續追求"用更少資源實現更強性能"的技術路線,這對受美國晶片出口限制的中國 AI 公司尤為重要。不少行業分析人士認為,MODEL1 在開放原始碼中的提前曝光可能是 DeepSeek 的一種預熱策略,類似其以往的發佈模式。如果 DeepSeek V4 如期在 2 月發佈並展現顯著進步,將對全球 AI 市場格局產生重要影響,特別是在程式碼生成和開發者工具領域。這也將考驗 Demis Hassabis"中國落後六個月"論斷的精準性。IT之家香港 IPO 市場強勁開局:新能源、AI、電動車和生物科技驅動增長要點一:2026 年開局表現與融資資料根據香港交易所(HKEX)CEO 陳穎婷(Bonnie Chan)在 2026 年 1 月達沃斯世界經濟論壇前夕發表的文章,2026 年前三周已有 11 家公司在香港上市,融資近 40 億美元。目前有 50 份新上市申請提交,超過 300 家公司正在排隊等待上市批准。這延續了 2025 年的強勁勢頭:2025 年共有 114 家公司在主機板上市,融資 372.2 億美元,同比增長 230%,推動香港重回自 2019 年以來全球最大 IPO 市場的位置。寧德時代的 53 億美元 IPO 是 2025 年香港最大的上市項目。陳穎婷表示,新能源、人工智慧、電動汽車和生物技術公司將繼續成為未來幾年香港 IPO 市場的驅動力。她寫道:"過去一年,數十家綠色能源、自動化和其他領域的新公司在香港上市,使它們能夠擴大研究規模和全球影響力。"South China Morning Post要點二:市場前景與戰略定位陳穎婷強調 HKEX 的角色是"幫助更快地翻開這個故事的篇章,使更清潔的能源、變革性的醫療保健和更高的生活水平從承諾走向實踐"。她表示,從上市申請管道來看,她的樂觀情緒得到了"穩定流動的變革性創意"的支援,"下一章進步正由這些富有遠見的公司、他們大膽的創意以及賦能它們的市場書寫"。香港 IPO 市場的復甦得益於多重因素:中國經濟復甦預期、科技和新能源行業的強勁增長、以及香港作為連接中國內地與國際資本市場橋樑的獨特地位。特別是在 AI、電動車和生物科技等高增長領域,許多中國公司選擇香港作為上市地,以獲得國際投資者的認可和資金支援。陳穎婷的表態反映了 HKEX 對 2026 年市場的信心,預計科技創新類企業將繼續主導香港資本市場。這一趨勢與中國政府推動"新質生產力"、支援科技創新和綠色轉型的政策方向高度一致,香港正在鞏固其作為亞洲科技企業首選上市地的地位。South China Morning Post (AI Daily Insights)