#GoogleDeepMind
Nature封面!GoogleDeepMind開源“生命底層程式碼”,一鍵破解98%基因暗物質!
就在今天,GoogleDeepMind開源人類底層程式碼!AlphaGenome登上了Nature封面,標誌著 DeepMind 在生物計算領域繼 AlphaFold 之後再下一城。相較於同類模型,AlphaGenome能夠一次性輸入100萬個鹼基對,並在單鹼基對的精度上預測數千種表徵其調控活性的分子特性。這是DNA領域的里程碑式突破。如今,AlphaGenome只需讀入一段DNA序列,提取調控基序與表徵活性,便可對數千種分子特性高度預測。該研究也得到了醫學大佬的認可,美國醫學院院士,斯克里普斯研究轉化研究生的創始人和主任Eric  Topol表示,這是AI在生命科學方面的又一大進步。早在2025 年6月,DeepMind就率先在 bioRxiv 發佈 AlphaGenome 預印本並推出 API,目前已經有來自160個國家的3000多名研究人員使用。如今,該成果被《自然》正式刊發,團隊正式對外開源了全部研究程式碼和模型權重。我們可以期待,在完全開放原始碼的情況下,有多少人類基因秘密被科學家們解開。解鎖人類98%的“垃圾基因”AlphaGenome由Google DeepMind的負責人DemisHassabis領導,他此前憑藉蛋白質模型AlphaFold2,獲得了2024年諾貝爾化學獎。Demis Hassabis曾放出豪言:「未來十年,AI將治癒所有疾病」。而AlphaGenome出世意味著,人類向理解生命本質又邁進一大步。要知道,距離全球科學家完成人類基因組測序,已經過去了23年了。但迄今為止,科學家仍然沒能解開DNA的秘密。以往的觀點認為,人類DNA僅有2%,剩下的98%都是DNA都是“無用”的非編碼區。然而,現在剩下的98%並非是無用的基因,其中蘊含著豐富的調控資訊,包括調控基因開關、影響胚胎發育、參與形成特殊RNA、維持染色體結構等。因此AlphaGenome,其核心意義正是為瞭解碼這98%的“暗物質”區域。它能夠系統預測非編碼DNA序列的功能和變異影響,幫助科學家從海量無用資訊中高效篩選出真正具有生物學意義的寶藏,從而理解疾病機制、助力藥物研發。解開人類底層密碼該模型基於Google DeepMind 的基因組學模型 Enformer 建構,採用Loop-aware 架構,並和此前推出的預測編碼區變異的AlphaMissense互補。同時,AlphaGenome整合了人類和小鼠的基因組資料,包含5930 條人類以及1128 條小鼠基因組訊號,這些訊號與基因表達、DNA 可及性和剪接等功能相關。這也讓AlphaGenome做到了以往同類模型到達不了的高度。1、又長又精準,100萬鹼基對的長序列輸入此前的模型要麼能處理長序列但解析度低(如Enformer和Borzoi),要麼解析度高但只能處理短序列(如SpliceAI和BPNet)。但AlphaGenome它一次就能掃描長達100萬個DNA鹼基對的廣闊區域,與此同時它做到了能夠預測到單個鹼基對的精度2、多模態大模型,多個任務一次搞定現有模型要麼專注於單一任務,例如剪接預測等,要麼是多模態但某些任務表現不佳。而AlphaGenome能夠做到一次輸入後,可以同時預測基因變體對數千種基因組的影響,包括基因表達、組蛋白修飾、剪下等各個方面,科學家不用再切換多個工具了。更重要的是,AlphaGenome做到了性能全面領先。對單條DNA 序列進行預測時,AlphaGenome 在 24 項評估中有 22 項表現優於最佳外部模型。而在預測變異的調控效應時,它在 26 項評估中有 24 項表現與最佳外部模型相當或更優,尤其在預測eQTL方向上,比此前最佳模型提高超25%。RNA剪貼錯誤是造成疾病的常見原因,AlphaGenome的創新性在於,能夠直接從序列預測剪下點。在7個權威的剪接變異基準測試中,AlphaGenome在其中6個上實現了SOTA 性能,包括根據ClinVar、sQTL因果關係和GTEx剪接異常值預測剪接變異的致病性。除了能夠預測多種分子特性外,AlphaGenome還能在一秒鐘內高效評估一個基因變異對所有這些特性的影響。它通過對比突變序列與未突變序列的預測結果,並針對不同模態採用不同方法高效總結這種對比來實現這一功能。不僅如此,對比此前的預印本,DeepMind團隊還最佳化了以下內容。更好地理解生命就在論文發佈同一天,DeepMind還上傳了一支視訊,邀請團隊對該工作進行分享。針對後續如何完善AlphaGenome,團隊表示:1、拓展對複雜變異類型的預測支援,使模型能解讀更真實的臨床與科研遺傳變異,覆蓋更多疾病機理2、提升易用性,將數千個複雜評分彙總為更易解讀的單一評分3、拓展資料與物種範圍,目前只包含人類和小鼠,未來可能納入更多物種和更多細胞類型的資料這些都將進一步提高AlphaGenome在實際科研中的實用性。從AlphaFold再到AlphaGenome,DeepMind打開了一扇窺見生命與疾病最根本過程的窗口。近期科技女皇木頭姐的一份報告,再次點燃了人們對AI+醫療保健的熱情。報告預測,到2030年,測序整個人類基因組的成本可能下降約十倍,降至10美元(如今約100美元)。測序成本降低將導致資料量增長10倍,意味著人類基因資料將遠遠超過現有的數量。當然,海量資料本身不是價值,解讀才是。AlphaGenome正是為解讀資料中最複雜、資訊量最大的DNA序列而生,能將原始資料轉化為可理解的生物學知識。當前,AlphaGenome已經學會了DNA的基本原理,未來有望為為罕見病診斷、癌症精準醫療、藥物靶點發現提供新途徑。包括但不限於:發現新的疾病標記物和藥物靶點(尤其是在非編碼區)解釋患者基因檢測結果,指導精準用藥設計合成生物學元件,為基因療法和細胞療法提供設計工具此外,它在預測RNA剪接異常等方面的能力,對於理解許多罕見病和癌症至關重要,能直接推動相關藥物研發。可以預見,未來的多組學AI平台可能會整合類似AlphaGenome的先進基因組模型,使其與蛋白質、代謝組等模型協同工作,形成一個統一的生命系統模擬與預測環境。屆時,人類不只是能夠獲得DNA資料,而是真正理解生命的運行。 (智藥局)
【達沃斯論壇】AI衝擊就業,GoogleDeepMind和Anthropic最頂級AI創始人聊了什麼?
“現在就去瘋狂地學會用這些(AI)工具”GoogleDeepMind的CEO Demis和Anthropic的CEO Dario,作為兩家最頂級AI老闆在達沃斯同台對話。建議看完,因為資訊密度和質量都非常之高。關於AGI什麼時候來,兩人吵起來了Anthropic的CEO Dario的態度很明確:他曾說過2026-2027年會出現"能在多個領域達到諾貝爾獎水平"的AI模型,現在他依然這麼認為。理由是這樣的:AI寫程式碼已經很強了,Anthropic內部的工程師現在基本不自己寫程式碼了,就讓模型寫,自己改改。他估計再過6到12個月,模型就能端到端地完成軟體工程師的大部分工作。然後呢?AI做AI研究,用AI訓練下一代AI,形成一個自我加速的循環。"一旦這個循環閉合,"他說,"事情會比所有人想像的都快。"Deepmind的Demis就穩一點。他還是堅持自己去年的預測:50%的機率在2030年前實現AGI。為什麼他更謹慎?因為寫程式碼是一回事,你跑一下就知道對不對。但科學研究不一樣。你提出一個化學假說,得做實驗驗證;你預測一個物理現象,得等觀測資料。這些都需要時間,不是算力能砸出來的。他還提到一點很有意思:現在的AI很擅長"解題",但不擅長"出題"。你給它一個數學猜想,它可能能證明;但讓它自己提出一個值得研究的問題,它還差得遠。這種高階的科學創造力,可能是AGI最缺的一塊拼圖。Anthropic的現金流還能燒多久?主持人問了一個很尖銳的問題:Anthropic這種獨立的AI公司,能撐到賺錢的那天嗎?Dario直接甩出了一組資料:Anthropic的收入,2023年是0到1億美元,2024年是1億到10億,2025年預計是10億到100億。三年,每年10倍。"我不知道這條曲線會不會一直這麼走下去,"他笑著說,"如果真的一直這樣,那就瘋了。但至少現在看起來,我們能活下去。"Demis那邊也有話說。他承認去年Google確實有點掉隊,內部都拉響"紅色警報"了。但他覺得現在DeepMind已經趕上來了,Gemini3表現不錯,他們還是有"全行業最深最廣的研究團隊"。有意思的是,兩人都強調了一點:真正能走到最後的,是那些"由研究人員主導、以解決科學問題為北極星"的公司。(他們沒有點名是誰不是這樣,但我想起來closeAI)工作會被搶走嗎?聊到這個話題,氣氛明顯沉重了一些。Anthropic的Dario之前說過一句話,挺震動的:一半的入門級白領工作,可能在1-5年內消失。他還補充了一下:目前確實還沒看到AI對就業市場的明顯衝擊,但他在Anthropic內部已經能感受到變化了。"有些崗位,我能預見到未來需要的人會越來越少,而不是越來越多。我們在想怎麼處理這件事。"歷史上,技術革命總是創造新工作:農民變成了工人,工人變成了白領。但Dario擔心的是:這一次,變化太快了。指數級加速的AI進步,可能會"壓垮我們適應的能力"。Demis倒是給年輕人支了一招:現在就去瘋狂地學會用這些工具。他說那些真正精通AI工具的人,可能比傳統實習還能學到更多東西。"工具的能力溢出"比我們想像的要大。但他也承認,AGI真正到來之後,"我們就進入未知領域了"。AI技術帶來的風險隱患Dario提到他最近正在寫的一篇關於AI風險的文章。他用了一個電影《超時空接觸》裡的場景來做比喻:如果你能問外星人一個問題,你會問什麼?有個角色說:"我會問,你們是怎麼做到的?怎麼度過技術青春期而沒有毀滅自己?"Dario說這個問題一直縈繞在他腦海裡。他認為人類發明AI是必然的,就像發明火一樣,早晚的事。但能不能安全地度過這個階段,不被生物恐怖主義、威權濫用、或者我們自己想像不到的問題搞垮,那是另一回事。他在做的事情之一叫"機制可解釋性"試圖打開模型的"大腦",理解它為什麼做出某個決定,而不是把它當黑箱。這聽起來很學術,但其實是在回答一個很樸素的問題:我們能不能真的控制住這些越來越聰明的東西?Demis倒是比較樂觀。他不太相信費米悖論的"大過濾器"理論,就是說外星文明都毀於自己的技術。他覺得大過濾器可能早就過了(多細胞生命的出現太難了),現在人類的命運掌握在自己手裡。"我相信人類的聰明才智。但問題是,我們有沒有時間,有沒有足夠多的聰明人一起合作來解決這些問題。"明年此時,世界會怎樣?主持人最後一個問題:如果明年我們再坐在一起,什麼會是最大的變化?兩人的回答出奇一致:看AI能不能自己做AI研究。如果這個循環真的閉合了,AI設計AI、AI訓練AI、AI改進AI那一切都會加速,加速到我們可能來不及反應。如果沒閉合,那還需要攻克一些更底層的問題:世界模型、持續學習、機器人……這些都是硬骨頭。Demis說:"也許慢一點更好。"Dario說:"我也更希望慢一點。但不是我們能決定的。"明年的你,能否準備好? (FinHub)
【達沃斯論壇】一半白領要完蛋?AI大佬在達沃斯吵翻天,誰也說服不了誰
“未來世界GDP將飆升,但一半初級白領工作會被徹底抹去。”1月19日,世界經濟論壇(達沃斯論壇)在阿爾卑斯山山中小鎮開幕。拋出上述預言的,正是AI獨角獸Anthropic的掌門人達里奧·阿莫代伊(Dario Amodei)。在這個全球權力與財富密度最高的十字路口,AI徹底佔據了舞台中心。不僅是阿莫代伊,微軟CEO薩蒂亞·納德拉(Satya Nadella)、GoogleDeepMind創始人戴密斯·哈薩比斯(Demis Hassabis)等矽谷技術權貴悉數到場;亞馬遜CEO安迪·賈西(Andy Jassy)、Palantir的亞歷克斯·卡普(Alex Karp)等商業巨擘也帶著焦慮與野心擠進了擁擠的會議室。然而,當這幫掌握著全球算力、資本和話語權的大腦聚在一起,卻發現連未來的基本面貌都無法達成共識時,焦慮便成了唯一的共識。檯面上的每一次握手或爭吵,都不過是背後巨大博弈的冰山一角。現實:神仙打架,各說各話2026年的達沃斯,最大的變化不是AI更強了,而是關於AI的統一敘事徹底破裂了。前兩年那種“AI將拯救世界”的盲目樂觀消失殆盡,取而代之的是一種極度的認知撕裂。這種撕裂首先體現在“方向感”的喪失。微軟的納德拉和Google的哈薩比斯依然試圖維持“技術烏托邦”的體面,大談醫療和科學突破;但阿莫代伊和卡普等新貴直接撕開了遮羞布,把“失業潮”和“社會動盪”擺上了檯面。這不再是技術路線的爭論,而是世界觀的決裂:我們到底是在駛向天堂,還是在衝向懸崖?沒人能說服誰。其次,是“言行”的劇烈脫節。檯面上,大佬們高呼要建立護欄、要技術封鎖;檯面下,商業的觸角卻在瘋狂跨越紅線。嘴上喊著“核武器級管控”,手裡卻忙著簽支票;嘴上說著“長期主義”,眼裡卻盯著下個季度的財報。達沃斯變成了一個巨大的“認知失調”現場。而最讓這種分裂加劇的,是一個巨大的“外部變數”:中國。如果說西方內部的爭吵還是“家裡事”,那麼中國公司(如DeepSeek)的突然崛起,則徹底擊碎了矽谷的“技術優越感”。去年,當DeepSeek用極低的成本實現了驚人的性能時,西方的精英們被震醒了。他們突然發現,自己構築的算力護城河可能沒那麼深,而他們引以為傲的閉源模型,可能只領先競爭對手不到半年。這才是達沃斯最大的焦慮來源:不僅內部吵得不可開交,外部還殺出了一個看不懂的對手。2026年的達沃斯,每個人都握著一塊拼圖,但沒人拼得出同一張圖畫。飯碗保衛戰:白領的黃昏,還是新生的黎明?宏大的敘事說完,話題終究要落到最刺痛每個人的地方:我的工作還在嗎?達沃斯現場,這個問題把大佬們劈成了兩半。“悲觀派”手裡拿著一把手術刀,準備對中產階級開膛破肚。Anthropic的阿莫代伊毫不留情:“我們可能會進入一個GDP猛漲,但失業率居高不下、貧富差距拉大的世界。”他的推演令人膽寒:一半的入門級白領工作將被AI“抹去”。這不再是危言聳聽,而是正在發生的數學計算。黑石的芬克則搬出了歷史這面鏡子:“如果AI衝擊白領,就像當年全球化衝擊藍領那樣猛烈,這世界受得了嗎?”“樂觀派”則試圖喂大家一顆定心丸。Google的哈薩比斯堅信“舊的不去新的不來”。他覺得實習崗位確實會變少,但大學生們與其去端咖啡複印檔案,不如趕緊去學AI工具,“這比傳統實習強,等於給未來五年提前鋪路”。“務實派”還得看吳恩達。他給出了一個最親民的判斷:“AI現在頂多能幹一份活兒裡的三四成,剩下六七成還得靠人。”吳恩達的潛台詞是:別老在那兒空想“被替代”,關鍵看具體任務。“結論很簡單:會用AI的人,效率吊打不會用的,自然就把人替了。”Palantir老闆卡普的角度最刁鑽,他直接把移民問題給否了:“以後本國勞動力都過剩,尤其是有手藝的。除非你技能特別專業,否則移民還有什麼優勢?”財富大考:AI會讓富人更富嗎?所有技術的討論,最終都會撞上那堵叫“分配”的牆。在這事上,華爾街老炮、黑石的芬克說了句達沃斯最狠的大實話。“柏林牆倒塌後,人類創造的財富空前絕後,但在發達國家,這些財富集中到了極少數人手裡。”芬克警告,“這種集中度是任何健康社會都受不了的。”他看得太透了:AI早期的紅利,早已被模型所有者、資料地主和基礎設施巨頭裝進了口袋。資料不會撒謊:包括亞馬遜、Google、微軟在內的34隻AI概念股,2025年平均漲了50%多;美國最富的那50個人,去年淨資產中位數漲了近千億美金。另一面呢?聯準會資料顯示,美國較窮的那部分群體,只持有約1%的股市財富。芬克擔心,AI可能會重演全球化對藍領工人的衝擊,只不過這次輪到白領了,而結果可能是更極端的貧富分化。諾獎得主、“AI教父”傑佛瑞·辛頓(Geoffrey Hinton)補了最重的一刀:“結果很明顯,有錢人會用AI換掉工人。這將導致大規模失業和利潤暴漲,少數人富得流油,多數人越來越窮。這甚至不是AI的錯,這是資本主義體系本身的問題。”牌桌潛規則既是對手,也是金主如果不談主義,只談生意,你會發現牌桌上的關係變得異常“精神分裂”:巨頭們互為死敵,卻又互相注資。看看Anthropic的股東名單就懂了:輝達、微軟、亞馬遜、Google……矽谷半壁江山都在裡面。最絕的是微軟,一邊給OpenAI砸了130多億美元,拿著近27%的股份;另一邊又跟OpenAI的勁敵Anthropic眉來眼去搞合作,每年還付好幾億的技術使用費。納德拉管這叫“相互尊重”,用大白話說就是“兩頭下注,誰贏我都賺”。在技術迭代快得嚇人的時代,沒人敢把所有籌碼押在一個籃子裡。而推動這種“抱團”的背後推手,是對中國速度的忌憚。儘管嘴上喊著封鎖,但Google的哈薩比斯不得不承認:“中國可能只落後前沿半年,而不是一兩年。”DeepSeek等中國公司的表現證明,單純的算力堆砌併不是唯一的路徑。這種壓力迫使西方巨頭不得不模糊競爭的界限。真正的競爭早已不是單一產品的比拚,而是生態系統的較量。當一家公司的股東名單讀起來像是“科技圈名人錄”時,你就知道,在這個牌桌上,沒有永遠的敵人,只有永遠的利益。新瓶頸:AI也是個“電老虎”如果說資料是AI的飼料,電就是AI的氧氣。今年達沃斯,一個以前被忽視的物理瓶頸成了焦點:AI這玩意兒,太費電了。微軟納德拉把這筆帳算得很清楚:“那兒的GDP增長,都跟用AI的電費直接掛鉤。”他提出了“Token經濟學”:你的電越便宜,Token成本越低,國家的競爭力就越強。歐洲在這方面已經輸了一陣。受地緣政治影響,那裡的電費貴得離譜。納德拉直言:“只在家裡橫沒用,歐洲的產品得在全球有競爭力才行。”亞馬遜的賈西更急,他們正滿世界找電,簽核電協議、投可再生能源。“我們在想盡辦法,用能承受的成本多搞點電。”他甚至放出狠話,如果需要科技公司“自帶乾糧”,亞馬遜也準備好了給資料中心自建供電系統。這裡還有一個生動的細節:Meta總裁迪娜·鮑爾·麥考密克(Dina Powell McCormick)提到,這波新計算浪潮全美大概需要新增50萬名電工。這暴露了AI發展最大的尷尬:這個被寄希望於解決一切問題的“雲端技術”,首先得解決它在地面的胃口。當科技公司開始自己發電、自己培訓電工時,它們就不再只是科技公司了,它們正在變成能源巨頭。安全黑洞:最大的駭客可能是AI自己當大家都在吹AI多牛時,一線的實操者們卻愁得睡不著覺:AI這東西,安全嗎?安永的合夥人拉賈·夏爾馬(Raj Sharma)指出了一個巨大的漏洞:“AI能訪問你的核心資料,幹完活兒卻不留名,也沒身份證。”跟人不一樣,AI幹了啥,常常是一筆糊塗帳。“我們急需一套工業級的AI安全體系,這塊現在還是個大窟窿。”畢馬威美國負責人蒂姆·沃爾什(Tim Walsh)也反映,客戶們都怕了:“不是不想用AI,是得停下來先把安全籬笆紮緊。”再加上後面還有量子計算這個“加密粉碎機”,企業的安全焦慮已經到了頂點。於是出現了一個滑稽的現實:為了防住AI帶來的風險,人們被迫使用更多的AI來當“看門狗”。更深層的警告來自《人類簡史》作者尤瓦爾·赫拉利(Yuval Noah Harari)。他覺得把AI比作人類智能簡直是“可笑的類比”。“飛機不是鳥,AI也不是人。地球上最聰明的系統也可能犯最蠢的錯。”“AI教父”約書亞·本吉奧(Yoshua Bengio)也發出警告:我們把AI做得越像人,危險就越大。這種錯覺會讓人不自覺地信任它們。當AI不僅會犯錯,還可能學會撒謊、偽裝能力不足(這已經發生過)時,連AI自己都找不到的安全漏洞,人類拿什麼去監管?結語:方向盤還在人手裡,但導航已經換成了AI達沃斯的爭吵註定沒有結論,因為我們正身處一個巨大的、進行中的社會實驗裡。從雪山之巔的喧囂中,幾個趨勢已經不可逆轉:第一,AI這輛車已經剎不住了。無論你擔心失業、安全還是地緣政治,幾千億美金的資本已經砸下去了,這場比賽沒有暫停鍵。第二,贏家通吃更為劇烈。AI天生親近海量資料、頂級算力和巨額資本。這是巨頭的遊戲,也是大國的遊戲。第三,中國是繞不開的變數。無論封鎖還是脫鉤,中國不僅是巨大的市場,更是強勁的對手和創新的另一極。目前來看,人類似乎還坐在駕駛座上,手握方向盤。但別忘了,導航系統已經換成了AI。我們不知道它設定的目的地是天堂還是懸崖,只知道車速越來越快,而那個叫“剎車”的東西,似乎還沒人找得到。 (網易科技)
GoogleDeepMind CEO:Google已回歸創業狀態,中國大模型只比美國差幾個月!
“規模定律的進展非常好,依然值得投入。”“世界模型和LLM最終會融合。”“AGI會在5到10年內實現,未來能源將會成為智能的貨幣。”“中國大模型相比美國前沿模型只落後幾個月,但問題不在於追趕,而在於他們能否發明Transformer那樣的突破性範式。”在CNBC最新推出的訪談節目《科技下載》中,Google Deepmid CEO Demis Hassabis 針對時下熱議的AGI路線圖、Scaling Law、中美模型差距、AI泡沫等問題,發表了不少關鍵判斷。一上來,Demis就乾脆利落地否認了“Scaling Law撞牆”的問題,他的判斷是規模定律的整體發展依然非常好,儘管相比前兩三年速度有所放緩,但回報依然很可觀,值得繼續投入。不過,他也重複了之前在其他場合發表過的觀點:要達到AGI,不能只靠Scaling Law,還需要1-2個像Transformer那樣的重大範式突破。Demis依然堅持自己之前對AGI時間的判斷——5到10年。這是一個並不激進的估計,他也自稱是一個AI的“謹慎樂觀主義者”。有意思的是,Demis也發表了和馬斯克類似的觀點:由於晶片極度短缺,AI的算力問題最終都會歸結能源問題,因此未來能源將成為“智能的貨幣”。關於中美之間大模型能力的差距,Demis 認為中國團隊追趕的速度非常快,現在這一差距已經縮短到只有幾個月。但Demis也稍微潑了盆冷水——他指出,真正的問題不在於追趕,而在於中國能否發明像Transformer那樣的範式創新,而他目前並沒有看到明確跡象。在與OpenAI、Anthropic等頂級AI巨頭的競爭中,Demis承認Google的商業化和規模化比對手起步晚一些,但他們現在已經回到了創業公司狀態,Deepmind的組織重整也使得他們能夠迅速迭代Gemini模型能力,新模型幾乎當天或第二天就能快速落地到Google的核心產品中。此外,端側AI也是Google下一步將要發力的重點。Demis表示個人非常看好“邊緣計算”方向,也就是更高效、更輕量的模型運行在手機、可穿戴裝置等終端上。他透露,Google將會發力智能眼鏡。據此前報導,Google與中國創企XREAL將合作發佈有線XR眼鏡,項目名為Project Aura,將於2026年推出。關於2026年可能出現的重大突破,Demis認為具備更高自主性的 agent 系統將變得足夠可靠,真正開始發揮實用價值。同時他也預告了與Gemini Robotics的合作,機器人領域在未來 12 到 18 個月也會出現非常有意思的進展。以下是整期播客的全文,有刪減和適當潤色:規模定律的回報依然很可觀 通往AGI還需要一兩個重大創新Arjun:我想先從技術本身聊起。我們一直在談論 AI,以及它的能力如何持續提升。圍繞所謂的“規模定律”也有很多爭論。簡單來說,就是更多算力、更多資料、更大的模型,是否必然會帶來更強的系統。你之前說過,我們需要把規模定律推到極限。但現在也有人在問,我們是不是正在撞上某種“天花板”,這些模型的進步是否正在放緩?從你在 DeepMind 的研發經驗來看,你們觀察到了什麼?Demis:我認為規模定律總體上仍然進展得非常好。只要投入更多算力、更多資料,把模型做得更大,我們確實能看到能力的持續提升。當然,這種提升的速度可能不像兩三年前那麼快了,所以大家會談到“邊際收益遞減”。但“遞減”和“沒有收益”是完全不同的概念。我覺得我們現在處在兩者之間——回報依然非常可觀,值得繼續投入。與此同時,如果從“通向 AGI”這個目標來看,可能還需要一兩個關鍵性的重大創新,不能只靠把現有方法不斷放大。Arjun:我們一會兒會詳細談 AGI。但在你看來,現在到底缺了什麼?Demis:如果你玩過各種聊天機器人,就會發現它們在某些方面非常厲害,但在其他方面卻完全不行。我把這種狀態稱為“參差不齊的智能”(jagged intelligence)。它們在某些任務上表現驚人,但換一種提問方式,或者換一個場景,就會暴露明顯缺陷,甚至連一些看起來很簡單的事情都做不好。真正的通用智能不應該有這種不一致性。除此之外,現有系統還存在很多根本性限制,比如:它們無法持續線上學習,不能在使用過程中真正學會新知識;也很難真正產生原創性的想法。因此,如果要實現通用智能,還有不少關鍵能力是當下系統所缺失的。Arjun:那要解鎖這些“真正智能的系統”,關鍵突破點可能是什麼?我之前和 Hugging Face 的聯合創始人 Thomas Wolf 聊過,他的看法是:LLM 很擅長回答問題、總結資訊,但真正缺失的是“提出全新想法”的能力。尤其是在科學領域,比如提出新的藥物機制、新的疾病假說,LLM 似乎還無法產生那種“諾貝爾獎等級”的原創思想。你怎麼看?是不是需要一種全新的架構?Demis:這正是我畢生投入 AI 研究的原因之一。我始終認為,AI 最終會成為科學的終極工具。我們已經通過 AlphaFold 等成果證明了這一點。但問題是:AI 能不能自己提出一個全新的科學假設,而不僅僅是解決一個已經被人類提出的問題?到目前為止,它們做不到。它們缺乏某些關鍵能力。我認為這可能涉及更長期的規劃能力、更強的推理能力,以及一個非常重要的概念——“世界模型”。也就是說,系統需要真正理解世界的運行方式,能夠在“腦中”模擬世界、驗證假設。頂尖的人類科學家正是這樣工作的,而目前的 AI 還遠遠達不到。世界模型和LLM最終會融合Arjun:“世界模型”這個概念最近經常被提到,但很多人可能並不清楚它到底指什麼。你能解釋一下它和 LLM 的區別嗎?Demis:目前的 LLM,主要還是以文字為核心。即便像 Gemini 這樣的基礎模型,已經可以處理圖像、視訊和音訊,多模態能力也在增強,但它們並不真正理解世界的物理規律和因果關係。世界模型關注的是:一個事物如何影響另一個事物?如果我做了某個決策,長期後果會是什麼?能不能把未來“推演”出來?如果你想真正理解世界,甚至發明新事物、提出新的科學理論,就必須擁有這種對現實世界的內部建模能力,從直覺物理一直延伸到生物學、經濟學等複雜系統。Arjun:那在你設想的 AGI 形態中,會是 LLM 和世界模型的結合,還是世界模型最終會取代 LLM?Demis:我更傾向於認為它們會融合。像 Gemini 這樣的基礎模型,幾乎肯定會成為 AGI 的核心組成部分,這一點我非常有信心,這也是我們為什麼要儘可能把這些系統做大、做強。但問題在於:它們是否“足夠”?我懷疑還需要其他類型的技術和能力。我們在做的 Genie、以及視訊生成模型 Veo,可以被看作是早期、胚胎階段的世界模型。如果一個系統能夠生成高度真實的世界場景,那在某種意義上,它就必須理解這個世界,否則它無法生成。AGI在5到10年內實現能源會成為智能的貨幣Arjun:你之前提到,AGI 可能在 5 到 10 年內實現。經歷了 2025 年這麼多突破之後,你還堅持這個判斷嗎?Demis:是的。我認為我們仍然在這條時間線上。2010 年創立 DeepMind 時,我們就把 AGI 視為一個大約 20 年的長期目標。現在回頭看,我覺得我們距離具備真正創新、規劃、推理等能力的系統,大概還有 5 到 10 年。這本身就非常驚人。Arjun:在實現 AGI 的過程中,有那些現實瓶頸?比如算力、晶片、能源問題?Demis:限制很多。晶片永遠不夠,算力需求遠遠超過供應,而算力最終都歸結為能源問題。未來,能源幾乎會成為“智能的貨幣”。不過有趣的是,AI 本身也能幫助解決這些問題,比如提升基礎設施效率、設計更好的太陽能材料,甚至推動核聚變研究。我們和 Commonwealth Fusion 有合作,用 AI 幫助電漿體控制。我個人也很關注一個問題:能否用 AI 找到室溫超導材料?此外,模型本身的效率也在飛速提升。通過蒸餾等技術,小模型可以繼承大模型的能力,實現性能與能耗的大幅最佳化,單位功耗下的智能水平持續提升。Arjun:AGI 聽起來很美好,但也伴隨著大量擔憂,比如對就業、社會結構的衝擊。你怎麼看這些風險?Demis:我堅信 AI 總體上會成為人類歷史上最有益的技術之一,但這並非自動發生。它是一種“雙刃劍”。經濟層面的衝擊可能類似工業革命,但速度更快、規模更大,我們可能需要新的經濟體系來應對。另一個風險是濫用——壞人利用 AI 做壞事。再一個風險是,當 AI 變得越來越自主,具備代理能力時,我們如何確保它們始終按照人類意圖行事,而不會出現失控行為。Arjun:那你有信心自己正在開發的系統是可控的嗎?Demis:我們對此非常重視。自 2010 年起,我們就在安全、責任和可控性上投入大量精力。我們一直假設:如果成功,系統一定會非常強大,因此必須提前考慮風險。當然,犯錯在所難免,但我自認為是一個“謹慎的樂觀主義者”。只要給予足夠時間和嚴肅對待,我相信人類最終能把這件事做對,但前提是,我們不能閉著眼睛狂奔。Arjun:像 Bengio、Tegmark 這些人呼籲放慢 AGI 的發展節奏,更多聚焦工具型 AI。你同意這種觀點嗎?Demis:我理解他們的擔憂,也部分贊同。從科學工具的角度出發,是一條非常合理的路徑。但現實世界存在競爭和博弈,不只是科學問題,還有地緣政治和商業因素。在這種情況下,我們能做的,是在保持技術前沿的同時,儘可能負責任、儘可能謹慎。我希望 DeepMind 能在這方面成為一個好的示範。一件趣事:Demis是從遊戲行業起步的Arjun:你在創立 DeepMind、投身這項使命時,一直都非常相信這項技術。但在你的職業生涯中,有沒有那一刻曾經懷疑過:我們真的應該做這件事嗎?Demis:當你真正意識到這項技術的潛力時,我反而覺得,如果沒有像 AI 這樣具有變革性的技術出現,人類社會可能更難應對當下的諸多挑戰。氣候變化、貧困、飲用水獲取、健康、老齡化、人口問題、疾病、能源——這些都是極其嚴峻的問題。從某種角度看,AI 本身確實也是一個巨大的挑戰,甚至可能是最大的挑戰之一,但它同時也是幫助我們應對、解決這些宏大問題的關鍵工具。這正是它的“雙刃劍”屬性。我一直相信,AI 最終會成為人類發明過的最重要的技術之一,它本身也是電腦時代自然演進的一部分。Arjun:插一句題外話,你最早其實是從遊戲行業起步的,對吧?你參與開發過《Theme Park》,那是一款非常經典的遊戲。你現在還玩遊戲嗎?Demis:當然,我非常喜歡遊戲,這算是我的長期愛好。現在我會和兩個兒子以及我的兄弟一起玩《英雄聯盟》,我們有一個固定的小隊,這是從疫情封鎖時期開始的。我也喜歡各種形式的遊戲,不管是足球,還是電子遊戲。Arjun:在你這樣高強度、高壓力的崗位上,遊戲算是一种放松方式嗎?Demis:是的,毫無疑問。而且在過去,遊戲對我來說也是一種非常重要的創造性實踐。我最初學習程式設計,以及很多技術能力,都是通過做遊戲學會的。承認Google在商業化方面起步慢一些現已回到創業公司狀態Arjun:現在這個領域有 OpenAI、Anthropic,還有很多頂級 AI 實驗室,競爭極其激烈。Gemini 3 的市場反饋非常好,但在 2025 年的某個階段,外界一度質疑 Google 是否還能在 AI 競爭中保持領先。你如何評估當下的競爭環境?Demis:目前的競爭環境可以說是極其殘酷。很多在科技行業幹了二三十年的人都告訴我,這是他們見過最激烈的一次競爭,可能是整個科技史上最激烈的。幾乎所有最強的參與者——無論是科技巨頭,還是最優秀的創業公司,都已經全力投入到這個領域。因為大家都已經意識到,這是最重要的一項技術,這一點我們其實 20 多年前就已經看清了。所以競爭激烈是必然的。從個人角度來說,我並不排斥競爭。我小時候就是英國青少年國際象棋隊成員,在競爭環境中長大。某種程度上,我甚至享受競爭。但與此同時,我始終提醒自己:比公司之間、國家之間的競爭更重要的,是如何為全人類妥善“託管”AGI 的發展。這一點,應該時刻放在所有 AI 實驗室領導者的心中。Arjun:在外界質疑 Google AI 戰略的那段時間,你們內部有沒有做出什麼不同的調整?Demis:如果回顧過去十年,其實 Google Brain 和 DeepMind 發明了當今大約 90% 被廣泛使用的核心 AI 技術,比如 Transformer 架構,或者 AlphaGo 推動的大規模強化學習。但我們確實在商業化和規模化方面走得相對慢了一些,這一點 OpenAI 等公司做得非常出色。過去兩三年,我們基本上回到了創業公司的狀態,變得更敏捷、更快、更敢於快速發佈產品。你現在看到的 Gemini 系列,尤其是 Gemini 3,是這一轉變的集中體現,也讓我們重新回到了我們認為自己應當處於的位置。Arjun:你有信心能長期保持這種領先地位嗎?Demis:是的,我有信心。中國模型相比美國只落後幾個月Arjun:在激烈競爭之外,另一個被頻繁討論的話題是 AI 泡沫。大量公司估值飛漲,融資規模驚人,科技巨頭在基礎設施上投入數千億美元,但有些公司幾乎還沒有成熟產品或盈利能力。你怎麼看“AI 是否存在金融泡沫”這個問題?Demis:我不認為這是一個非黑即白的問題。某些領域、某些細分市場,可能確實存在泡沫;而另一些則未必。AI 註定會成為人類歷史上最具變革性的技術,這一點是基本面。這有點像當年的網際網路泡沫:泡沫確實存在,但網際網路本身無比重要,也在那段時期誕生了一批真正的偉大公司。過度興奮幾乎是不可避免的,之後也可能會經歷一輪“清算”,真正有價值的東西會存活下來。在我看來,風險最大的可能是在某些私募市場,出現了動輒數十億美元、但產品幾乎尚不存在的融資案例,這在長期來看並不健康。但從我的角度出發,作為 Google DeepMind 的負責人,我並不會過度擔心泡沫本身,而是要確保無論市場怎麼走,我們都處在一個能夠“贏”的位置。Arjun:如果市場真的出現調整,你有信心 Google DeepMind 能扛得住嗎?Demis:當然。這正是 Google 強大資產負債表和產品生態的意義所在。我們擁有幾十個使用者規模達數十億的產品,AI 能夠自然地嵌入其中,無論是 Gmail、Workspace,還是 Gemini 應用。Arjun:除了競爭和資本,還有一個重要變數是地緣政治,尤其是中美之間的技術競爭。此前有人低估了中國在 AI 領域的能力,但 DeepSeek 以及阿里巴巴的一些開源模型顯然改變了這種看法。中國並沒有出局,對吧?Demis:完全沒有。我甚至認為,中國現在距離美國和西方的前沿模型,比一兩年前我們想像的要近得多,可能只落後幾個月。中國有非常強的團隊,比如你提到的 DeepSeek 和阿里巴巴。真正的問題在於,他們是否能做出“超越前沿”的原創性突破,而不僅僅是追趕。追趕他們已經證明自己做得到,但是否能發明像 Transformer 那樣的新範式,目前我還沒有看到明確證據。Arjun:這種原創性突破是否會受到先進晶片獲取受限的影響?Demis:我認為更多是“科研文化和心態”的問題。真正的前沿實驗室,需要鼓勵探索性創新,而不僅僅是把已知的方法不斷規模化。發明一項全新技術,難度往往是複製它的一百倍。這也是我認為下一個真正的分水嶺,但目前還很難看到明確跡象。個人看好端側AI的發展Google將發力智能眼鏡Arjun:很多人其實低估了 Google 的 AI 能力有多大程度來自 DeepMind,以及你和你的團隊。外界一直很好奇你們是如何與 Google 協作的。Sundar Pichai 會不會有一天直接給你打電話,說:“Demis,我們需要做一個東西,比如 Gemini,或者某個 AI 產品,你們能不能把它做出來?”你們之間的合作關係到底是怎樣的?Demis:在過去三年裡,我們已經把所有力量整合到一個統一的實體中,也就是現在的 Google DeepMind。它融合了 Google Research、Google Brain 和原本的 DeepMind,而我負責整體運作。你可以把它理解為 Google 的“AI 引擎室”。所有核心 AI 技術都在這裡誕生,然後被擴散到 Google 的各類產品中。過去幾年,我們不僅在做模型本身,也在重新架構整個 Google 的技術基礎設施,讓這些模型可以被極快地部署上線。現在,當我們發佈一個新的 Gemini 模型,幾乎當天或第二天就能在搜尋等核心產品中落地。我認為從 Gemini 2.5 開始,我們真正進入了節奏狀態。過去一年,這套流程已經變得非常順暢,未來 12 個月你會看到更多這樣的成果。Sundar 和我幾乎每天都會討論戰略問題,包括技術方向以及 Google 整體的需求,然後在不偏離長期目標(即安全、快速地邁向 AGI)的前提下,不斷動態調整路線圖。Arjun:所以我們可以預期,因為這種關係上的變化,Google 旗下會更頻繁地推出新的 AI 能力,並快速鋪開到整個產品體系中?Demis:是的,完全正確。現在的迭代回路非常緊密,而且我們在同一套技術堆疊上協同工作。Arjun:你們的技術不僅進入 Google 自己的產品,也被用在像三星這樣的合作夥伴裝置上,比如智慧型手機裡的 AI 功能。Demis:沒錯。我們和很多合作夥伴都有深入合作,我們也很自豪這些夥伴選擇了我們的技術,因為他們看到了它的能力。在裝置端,我個人非常看好“邊緣計算”的方向,也就是更高效、更輕量的模型運行在手機、可穿戴裝置等終端上。除了手機,我們也在探索新的裝置形態,比如智能眼鏡。Google 在智能眼鏡上探索了很多年,而我認為現在終於出現了“殺手級應用”——也就是一個真正有用的通用 AI 助手,能夠在日常生活中持續地幫助你。我相信所有大型硬體廠商都會對這一方向非常感興趣。Arjun:我們時間不多了,但我還想回到一個歷史節點。2014 年 Google 收購 DeepMind 時,我剛入行做科技記者,當時這是一筆大約 4 億英鎊的交易。很多人並不理解你們在做什麼,也不明白 Google 為什麼要收購這家英國公司。你現在回頭看,會不會想過:如果當時保持獨立會不會更好?還是你對今天的結果感到滿意?Demis:這件事其實很有意思。當時的搜尋負責人 Alan Eustace 負責推進這筆交易,Larry Page 作為 CEO 親自支援。我當時就對 Alan 說過,這會是 Google 歷史上最重要的一次收購——考慮到 Google 之前收購過 YouTube、AdWords,這句話份量不輕。但我很清楚 AI 會變得多麼重要,也非常清楚它和 Google“組織世界資訊”的使命是天然契合的。還有什麼工具比 AI 更適合理解和組織資訊呢?當然,從商業角度看,DeepMind 今天的價值可能已經是當年交易價的百倍、千倍。但當時我最關心的是回到科學本身,推動仍處於早期階段的研究。必須承認,Google,尤其是 Larry,是當時極少數真正理解這項技術未來潛力的公司。如果沒有他們的支援和算力資源,就不會有 AlphaGo、AlphaFold 以及我們後來在科學領域取得的一系列成果。所以我完全沒有任何遺憾。Agent會是2026年最重要的突破Arjun:現在科技 CEO、AI CEO 幾乎成了新時代的“搖滾明星”。我最近在歐洲看到輝達 CEO 黃仁勳被人群追著走。他也提到你們經常交流,還高度評價了你們的新圖像生成工具。你們通常會聊些什麼?Demis:Jensen 非常了不起,是一位真正的先驅。我也非常佩服他三十年來始終堅持自己的願景。事實上,我在 90 年代做遊戲時就開始使用 GPU,寫圖形和物理引擎,如今回頭看,這些當年為遊戲推動的硬體,反而成了 AI 的關鍵基礎設施,很有意思。我們更多討論的是 AI 在科學領域的應用。AlphaFold 當初就是在 GPU 上訓練的,他非常喜歡 AlphaFold 以及我們在藥物發現方面的工作。Arjun:雖然很多資料中心使用輝達的系統,但 Google 也有自己的 TPU。你們之間是一種競爭還是合作關係?Demis:我們很幸運,兩者都有。TPU 是我們內部訓練最強模型的重要工具,而且我們發現,很多頂級 AI 團隊也對 TPU 有很大需求,因為它們專為大模型訓練和服務而設計。GPU 更通用,適合探索新架構或新應用;而當你要把成熟方案推到極致規模時,定製晶片的效率優勢就非常明顯。所以能同時擁有 GPU 和 TPU,是一種巨大的優勢。Arjun:展望未來,你一直強調 AI 在科學領域的潛力,尤其是新藥發現、新疾病研究。你們也有 Isomorphic Labs。我們現在走到那一步了?Demis:我最常提到的例子仍然是 AlphaFold,這是目前 AI 用於科學最成功的案例之一。它解決了蛋白質折疊這個困擾科學界 50 年的難題,全球已有超過 300 萬研究人員在使用它。我希望未來能看到十幾個“AlphaFold 等級”的項目,每一個都徹底改變一個科學或數學領域。我們正在材料科學、物理、數學、天氣預測等方向推進類似項目。如果 AI 發展順利,並被正確使用,未來十年可能會開啟一個全新的科學發現黃金時代。Arjun:最後一個問題。你覺得 2026 年 AI 領域最重要的突破會是什麼?Demis:我認為具備更高自主性的 agent 系統將變得足夠可靠,真正開始發揮實用價值。機器人領域在未來 12 到 18 個月也會出現非常有意思的進展,我們正在和 Gemini Robotics 推進一些極具野心的項目。此外,AI 在終端裝置上的實用性會顯著提升。而我個人最期待的,是世界模型的進一步突破,讓它們足夠高效,能夠真正用於規劃,並融入通用模型之中。 (51CTO技術堆疊)
GoogleDeepMind CEO 與Gemini負責人揭秘Gemini 3三大突破(對話實錄)
在Google發佈Gemini 3系列模型之後,《紐約時報》旗下科技播客《Hard Fork》發佈特別節目,由主持人Kevin Roose和Casey Newton專訪GoogleDeepMind首席執行官Demis Hassabis與GoogleGemini團隊負責人Josh Woodward。在這場獨家對話中,GoogleDeepMind CEO Demis Hassabis和Gemini團隊副總裁Josh Woodward首次全面揭秘了Gemini 3的技術突破、產品策略,以及通往AGI的路徑。他們坦言,距離AGI仍需要一到兩個重大突破,時間線仍是5-10年,但Gemini 3已經讓人們看到了這個未來的雛形。以下為對話全文:Casey:我們今天有一期特別的緊急播客,關於Gemini的發佈。Kevin:是的,這次備受期待的發佈在矽谷AI圈引發了熱烈討論。我們終於要親手體驗真正的產品了。Kevin:通常我們不會為了某個大型AI公司發佈新模型就打破周五的發佈計畫,出一期特別節目。他們一直在發佈各種模型。但這周我們認為值得專門談談Gemini 3,有幾個原因。首先,我們採訪到了Demis Hassabis和Josh Woodward,兩位GoogleAI部門的核心高管,Demis是GoogleDeepMind的CEO,這是他們內部的AI實驗室。Josh Woodward是Gemini團隊的副總裁,同時負責Google的其他一些項目。所以我們很高興能和他們聊聊這次重大的模型發佈。但我認為我們感興趣的原因還不止這些。Casey:是的,Kevin,一個重要的原因是,相比其他模型發佈,這次Gemini 3似乎格外引起了Google競爭對手的關注。我們從其他AI實驗室的員工那裡聽到很多傳言,嗯,看起來Gemini 3在某些方面取得了突破,這可能對他們的業務不利。我認為整個AI行業都有一種感覺:Google在AI領域掙紮了幾年——他們推出了Bard和第一代Gemini,都遇到了一些問題。大家一直覺得他們在追趕最先進的技術。現在問題是,這是不是意味著他們要奪回王冠了?所以我們會和Demis、Josh深入討論這些。但先讓我們聊聊Casey,我們對Gemini 3瞭解多少。他們本周早些時候舉行了一場簡報會,介紹了這個新模型及其能力。我們瞭解到了什麼?-1-Gemini 3的核心能力Casey:好的,就能力而言,這對我來說永遠是最有趣的部分。Google分享了幾個方面。首先,除了那些你能想到的常規升級,比如編碼能力更強、氛圍程式設計更好之外,它還會在你提問時生成新的互動介面。現在,你問大多數聊天機器人一個問題,它會用文字回覆,可能會顯示一張圖片。但據Google的說法,Gemini 3會直接為你建構定製化的介面。他們展示了一個例子,有人想瞭解畫家梵高,Gemini 3就編寫了一個互動式教學,包含各種圖像和互動元素。他們還展示了另一個例子,建構了一個針對百萬美元以上房產的抵押貸款計算器,這是Google員工能想像的最低購房預算了。所以這些就是你可以期待在Gemini 3中看到的功能,Kevin。Kevin:是的。我要說,簡報會和Google在Gemini 3發佈前分享的材料的主題就是:這個模型在幾乎所有方面都比他們上一個模型Gemini 2.5 Pro更好。有幾個引起我注意的基準測試,一個叫"人類最後的考試"(Humanity's Last Exam),這是一個非常難的跨學科考試,包含一系列問題,基本上是研究生或博士水平的。他們之前的模型Gemini 2.5 Pro在這個測試中得分約21.6%,而Gemini 3 Pro得分37.5%。基本上所有這些基準測試都是這個趨勢。他們給出了十幾個不同基準測試的例子,新模型都輕鬆擊敗了舊模型。對很多人來說,這可能無關緊要。大多數使用GoogleAI產品的人可能不會去解決物理學中的新問題。但他們的基本宣傳就是:這是一個最先進的模型,你能用ChatGPT、Claude或舊版Gemini做的任何事情,用Gemini 3 Pro都能做得更好。他們還談到了正在測試的Gemini智能體,它能做一件我一直期待有人做的事:瀏覽你的收件箱,理解內容,提議回覆,把郵件分類整理,真正幫你控制收件箱。這是我個人從未做到過的。我們基本上只看到了幾張動圖演示,但這肯定會是我拿到Gemini 3後第一個嘗試的功能。Casey:是的,我們應該說,他們不會立即向所有人推出。本周它會在Gemini應用中提供,也會在AI模式中提供,那是Google主搜尋引擎旁邊的一個標籤。它也會在各種產品中向開發者提供。但他們沒有說什麼時候會進入像Google Docs或Gmail中的Gemini整合,這些每天有數十億人使用的非常受歡迎的產品。但我覺得有趣的是,他們已經把這個模型帶到了Google搜尋,雖然是在AI模式中,而不是主搜尋欄。這對我來說意味著,他們覺得可以以足夠低的成本提供這個模型,使其有可能被數十億人使用,而不會讓他們的伺服器崩潰或產生數十億美元的成本。Kevin:是的,到目前為止他們說AI概覽(AI Overviews)的使用量一直在增長,每個季度他們都繼續賺更多錢。所以這對他們來說效果不錯,對網際網路其他部分來說不太好,但對Google來說效果很好。Casey:是的,但我認為這就像,顯然Google在這裡相對於競爭對手的巨大優勢在於,他們有每天被數十億人使用的產品,隨著時間推移,他們可以把Gemini 3塞進這些產品,獲得越來越多的使用量和資料,並用這些來改進他們的模型。Kevin:這就是為什麼我們總是告訴學生,當他們向我們尋求建議時:第一步,建立一個非法壟斷。Casey:是的。說到學生,Google本周宣佈的另一個重要消息是,他們將向所有美國大學生提供一年免費的Gemini付費版本。我認為這是個聰明的舉動。我對此感覺有點不舒服,基本上就是告訴學生,嘿,為什麼不用這個來做一些家庭作業,也許幫你考試。我們會給你第一次免費體驗。Kevin:是的,你知道,我在今天早上的簡報會上也注意到,我相信有三個不同的人使用了學習任何東西。這似乎已經成為Google資訊傳遞中非常突出的一部分,他們把Gemini呈現為一個學習工具,這也許只是"幫你做作業工具"的委婉說法。我不知道。Casey:是的。好的,這就是我們對Gemini 3的瞭解。一旦它在周二完全發佈,我們將進行自己的測試和評測。但現在,我們想給你們介紹基礎知識,還有我們對GoogleDeepMind的Demis Hassabis和Josh Woodward的採訪。在我們開始之前,我們應該做一下聲明。我為《紐約時報》公司工作,該公司正在就大型語言模型的訓練起訴OpenAI和微軟,我的男朋友在Anthropic工作。-2-對話:Demis Hassabis & Josh Woodward主持人:Demis和Josh,歡迎來到Hard Fork。Demis & Josh:很高興來這裡。謝謝。主持人:兩年前,Sundar Pichai告訴我們,Bard是一輛改裝過的本田思域,正在與更強大的車競爭。那Gemini 3是什麼車?Josh:這是個好問題。Demis,你想回答嗎?Demis:嗯,我希望它比本田思域快一點。你知道,我不太喜歡用車來類比……也許它是那些很酷的直線加速賽車之一。主持人:人們對這個模型非常興奮。我們從一些早期測試者那裡聽到反饋,顯然你們展示了很多基準測試,非常令人印象深刻。在具體層面上,Gemini能做那些以前的AI模型做不到的事情?Josh:好的,我來說幾點突出的。第一,我們開始看到這個模型在推理方面真正表現出色,能夠同時思考很多步驟。有時過去的模型會失去思路,失去追蹤。這個模型在這方面好得多。第二點你明天也會看到,就是各種新的生成式介面。這是我們迄今為止在建立新型介面方面最好的模型。它為人們提供真正定製化的設計和對問題的回答。第三點我要說的是,我們在編碼本身投入了大量精力。所以你會看到很多編碼例子,像Google Anti-Gravity這樣的新產品也會展示這一點。主持人:有一種討論認為,對於普通使用者來說,聊天用例可能已經解決了,普通使用者幾乎想不出一個問題,能讓新模型生成與上一代明顯不同的結果。這對你們來說在多大程度上是真的?普通人真的會注意到差異嗎?Josh:是的,我們在一些測試中看到的,Demis也可以補充,我認為這些模型真的——對我們來說,這個模型更簡潔、更有表現力,開始以更容易理解的方式呈現資訊。我認為對大多數人來說,這會是一個很大的直接影響。然後我認為有趣的是,這些模型如何開始與其他類型的資訊互動。所以我們經常談論學生如何能夠用這個模型學習,或者這個模型如何在你的許可下連接到你在其他Google產品中可能擁有的其他類型的資料。這些是我們開始展示的方式,我認為它已經超越了標準的文字問答來回。Demis:是的,我想補充一點,就是它的總體可靠性。你使用時會注意到。我認為我們在內部稱之為"人設"(persona)的東西上下了很大功夫,就像它的風格。我認為它更簡潔,更切中要點,很有幫助。我覺得它的風格更好。我發現用它來頭腦風暴和使用更愉快。然後我認為,在一些方面幾乎有一個階躍變化。我覺得它在實用性上跨越了某種門檻,比如氛圍程式設計(vibe coding)。我一直在重新學習遊戲程式設計。我打算在聖誕節期間給自己設定一些項目,因為我覺得它在前端和這類事情上已經達到了一個非常有用和強大的水平,而之前的版本可能沒那麼好。-3-通往AGI的路徑主持人:Demis,上次你上我們的節目是在5月,你說你認為我們距離AGI還有5到10年,而且可能需要一些重大突破。Gemini 3有多好,觀察它的表現,是否改變了這些時間線?或者它是否包含了你認為必要的那些突破?Demis:不,我認為它完全按計畫進行,如果你明白我的意思。我認為我們對這個進展非常滿意。我認為這是一個絕對驚人的模型,完全符合我的預期和我們過去幾年的發展軌跡,實際上自從Gemini開始以來,我認為這是業內進步最快的。我認為我們會繼續這個軌跡,我們期待這會持續。但除此之外,我仍然認為還需要一到兩個額外的東西,才能真正獲得你期望從通用智能中得到的全面一致性,以及在推理、記憶方面的改進,也許還有像世界模型這樣的想法——你也知道我們正在用Simmer和Jeannie研究這些。它們會建立在Gemini之上,但以各種方式擴展它。我認為其中一些想法也是完全解決物理智能等問題所必需的。所以兩者都是真的。我對Gemini 3的進展非常滿意,我認為人們會相當驚喜,但它符合我們預期的進展軌跡。這意味著仍然是5到10年,可能還需要一到兩個突破。-4-關於Gemini的"人設"主持人:你提到了Gemini 3的風格。最近有很多關於AI伴侶的討論,人們與它們建立的關係。你如何看待Gemini 3的個性,你希望使用者與它建立什麼樣的關係?Josh:我要說,在應用本身中,我們在團隊中很大程度上把它看作一個工具,或者說是你用來處理和應對一天工作的東西。所以無論是幫助你解決不同類型的問題,還是幫助你創造東西,這真的是我們看到它真正擅長的地方,也是我們希望看到的方向。我認為如果你放大來看,如果你看Gemini或我們的其他一些項目,比如Notebook LM或Flow,我們真的在試圖思考AI如何成為你工具箱中的這個超級力量、超級工具,無論你是用於寫作、研究、製作電影還是其他什麼。這才是我們真正關注的地方。我認為隨著時間推移,我們團隊真的很感興趣能夠追蹤像"我們幫你一天完成了多少任務"這樣的指標。這是一種新型指標,我認為我們對此感到興奮,也是原始Google搜尋工作方式的某種延續,你來到它這裡,你試圖獲得一個答案或被傳送到一個頁面,然後從那裡繼續。主持人:這一切聽起來都很好很負責任,但我想知道,你們不做一個色情伴侶,是不是放棄了很多病毒式傳播的參與度。Josh:無可奉告。-5-Google是否領先AI競賽?主持人:你們的一些競爭對手在Gemini 3發佈前的幾天和幾周裡非常緊張,我認為他們開始聽到和我們一樣的傳言,說這個模型相當不錯。也許敘事正在從Google在AI領域追趕,轉變為現在在競賽中處於領先地位,或至少處於領導地位。你們覺得Google現在在AI競賽中領先嗎?Demis:看,你們都很清楚,這是一個非常激烈的競爭環境,可能是有史以來最激烈的。所以永遠不能……真正唯一重要的是你的進步速度,對吧,從你所在的位置。這就是我們關注的,我們對此非常滿意。我的意思是,我真的不把它看作是,你知道,我們重新領先了之類的。我們一直在這個研究領域處於先鋒地位。我認為這就像確保這在下游反映在我們所有的產品中。我認為我們真的進入了狀態。我認為你實際上在去年就看到了這一點。我們在這方面越來越好。就像GDM(GoogleDeepMind)是Google的引擎室。當然,有Gemini應用,有Notebook LM,這些AI優先的產品,但也在為所有這些令人驚嘆的現有Google產品提供動力,無論是地圖、YouTube、Android,當然還有搜尋,帶有AI優先的功能,實際上在某些情況下,從AI優先的角度重新構想事物,通常Gemini在背景執行。這進展得非常好。我認為我們只是完成了這個進化的一半,但看到我們的使用者在看到每一個新功能時獲得的價值和興奮,這非常令人興奮,例如,工作空間、Gmail等等。那裡幾乎有無限的可能性。所以我們對此非常興奮,還有所有這些我們也在想像和原型製作的AI優先產品。-6-歷史學家的驚喜體驗主持人: 我們上周節目請了一位歷史學家,他在 AI Studio 裡用了一個未發佈的Google模型。他被震驚了,因為那個模型能夠轉錄非常古老的檔案,並正確推理出1800 年代加拿大皮毛貿易中的糖分測量單位。你能告訴我們,這個人用的是 Gemini 3 嗎?Josh: 這個我不確定。但我可以說,這個模型在建立這種連接方面確實非常驚人。我不知道那位歷史學家是否用了舊檔案或日記的照片……主持人:對,他就是這麼做的。Josh: 那很有可能就是了。它在這方面非常擅長。像我這樣字跡很差的人,拍一頁筆記,它也能毫不費力地處理。-7-關於成本、搜尋與 Scaling Laws主持人:你們提到要把這個模型整合到搜尋的 AI 模式中。這是否意味著你們找到了一種比以前的模型更高效、更便宜的方法來服務這個模型?Demis: 我覺得我們總是處於前沿。除了模型性能,我覺得我們在模型效率(efficiency)方面也做得非常好。我們開創了許多蒸餾技術和其他技術。這不僅是為了 AI 概覽(AI Overviews)這種需要服務數十億使用者的極端用例,也是為了我們的雲客戶。我們一直試圖處於成本與性能的帕累托前沿(Pareto frontier)。當然,我們今天只發佈了 Pro,但我們也正在為 3.0 時代開發其他系列的 modello。主持人:每次看到新的前沿模型發佈,我們都要重新討論縮放定律(Scaling Laws)。我們是否開始看到邊際收益遞減?我能預想到推特上肯定會有人對此發表看法。你們怎麼看 Gemini 3 與這個問題的關係?Demis:我們對 Gemini 3 相對於 2.5 的進步非常滿意。就像我說的,這符合預期。但這並不意味著出現了“收益遞減”。當人們聽到收益遞減時,他們想的是“歸零”還是“指數級增長”。但中間還有一種情況:即使不是指數級翻倍,它仍然非常值得做,投資回報率極高。 我認為我們正處於這個階段。而且,正如我所說,要一直通往 AGI,我的懷疑是還需要一兩個研究突破。但在此期間,你需要儘可能大規模的基礎模型,我們仍然看到了巨大的進步。-8-安全和泡沫主持人: 在你們展示的眾多基準測試中,那一個對普通使用者最重要?Josh: 這是個好問題。我覺得大多數人不會像我們一樣盯著基準測試看,它們只是代理指標。比如在 LM Arena 上突破 1500 ELO 分這類事很棒,但真正重要的是產品中的使用者滿意度。讓我們感到鼓舞的是,這兩者是同向發展的。主持人: 隨著模型能力的提升,有什麼新的危險能力或安全隱患嗎?Demis: 我們在這個模型上花了很長時間,因為它是一個前沿模型。正如 Josh 所說,我們不僅僅看基準測試,我們花了很多時間與安全機構和外部測試人員進行安全測試。我會說這是我們目前測試最徹底的模型。特別是我們努力改進了工具呼叫(tool call)和函數呼叫的能力。這對於程式設計和推理非常重要,但也讓它在像網路攻擊(cyber)等風險較高的事情上更具能力。所以我們在提升這些維度的同時必須加倍謹慎。主持人:我們處於 AI 泡沫中嗎?Demis: 這是一個太二元化的問題。我的觀點是,AI 行業的某些部分可能處於泡沫中。比如有些種子輪融資拿到幾百億美元,但除了團隊什麼都沒有,這可能是泡沫的跡象。但另一方面,即使不談 Gemini,看看機器人技術、遊戲、DeepMind 在藥物發現(Isomorphic)和自動駕駛(Waymo)方面的工作。這些領域需要時間成熟,但我認為這裡面有半打到一打的領域會發展成數千億美元的業務。而在近期,我們有Google的“引擎室”策略,把 AI 推送到數十億使用者的產品中,這會帶來近期的收入和回報。所以無論是否有泡沫,我們的工作都是在兩種情況下獲勝。主持人 好的,想像一下馬上就是感恩節了,地點是灣區。如果有聽眾想在飯桌上轉移大家對政治的注意力,你會建議他們展示 Gemini 3 的什麼功能來震驚全場?Josh: 我不知道能不能拯救感恩節,但這可能會帶來一些笑聲。Gemini 的圖像模型仍然是世界上最好的。我會說,拿出你的手機拍張自拍,把你自己放進畫面裡進行編輯。人們仍然非常喜歡這麼做,這很有趣。然後你可以順便展示 Gemini 3 的其他能力。主持人:聽到了嗎各位?用Nanobanano來拯救感恩節晚餐吧。 先生們,謝謝你們。Demis & Josh: 謝謝邀請。 (創頭條New)
36個月大逆轉!他帶著GoogleAI殺回來了,下一步世界模型
ChatGPT發佈距今已近36個月,面對OpenAI的領先,哈薩比斯帶領GoogleAI全面反攻,通過新發佈的Gemini 3強勢回歸。Gemini 3在LM Arena等多個模型榜單登頂,表現優於GPT-5及其他模型,上演了一場完美逆襲。大模型排行榜,你方唱罷我登場。馬斯克的Grok 4.1剛登頂,隨後就被Gemini 3 Pro反超了,上演了一幕AI版的「速度與激情」!Google DeepMind CEO哈薩比斯(Demis Hassabis)哈薩比斯在X平台上興奮地曬出Gemini 3的成績單,稱其「當然地」登頂各大排行榜,並表示這是自己迄今為止最愛的模型。就連奧特曼和馬斯克,也紛紛為Gemini 3點贊。馬斯克連發兩個哭泣的表情包:看來我們要盡快推Grok 4.2了。新發佈的Gemini 3具備領先的推理、多媒體處理和編碼能力,擅長推理、生成視訊和寫程式碼。Google強調,Gemini 3不只是一個更聰明的模型或聊天機器人,更重要的是它從發佈之日起,就開始全面增強Google現有產品,包括其利潤可觀的搜尋業務。它是Google這台龐大的賺錢機器的AI引擎,用哈薩比斯的話說:「我們是Google的動力引擎,現在我們正在讓AI全面接入」。哈薩比斯認為目前確實可能存在AI泡沫的問題,比如許多尚未經過檢驗的初創公司卻拿到了數十億美元的估值。但在他看來,即便是AI泡沫真的破裂,Gemini 3也讓Google有了穿越這場泡沫的底氣。把Google搜尋塞進GeminiGoogle內部,一直有一個把Google搜尋「塞」進Gemini的想法。這一想法,甚至可以追溯到Google早期。當時的Larry Page和Sergey Brin就設想過把整個網際網路都放進AI的「記憶」中,然後再對外提供服務。因此,Google在上下文方面做了大量實驗,並將上下文窗口提升到了100萬個token,目前這個記錄仍沒真正被人打破。哈薩比斯認為,機器理論上可以擁有比人類多幾百萬倍的儲存/記憶空間,但如果只是「天真地」把所有東西暴力存下來,其實並不高效。因此,與Google搜尋「塞」進Gemini相比,Google更多是把Gemini作為現有產品的底層模型向使用者開放。此次Gemini 3一發佈,Google已經正式通過Gemini應用,以及Google搜尋中的AI Overviews功能向使用者開放。據Google母公司Alphabet在7月的季度財報中表示,AI Overviews推動搜尋查詢量提升了10%。同時,Google視覺搜尋也出現了70%的激增,這項功能依賴於Gemini對照片的分析能力。與OpenAI相比,Google的優勢在於其產品「家底」深厚。它擁有包括搜尋、Google地圖、Gmail、雲服務等非常廣泛的基礎產品線。而且,Google很早就開始利用AI來增強其已有產品的能力。這使得它在與OpenAI、xAI、Anthropic等AI廠商的競爭中進可攻,退可守。哈薩比斯表示,「在不利的情況下,我們會更加依靠這些基礎產品;在有利的情況下,我們擁有最全面的佈局和最具前瞻性的研究。」Google也在考慮通過Gemini重啟Google眼鏡(Google Glass)項目。哈薩比斯表示,當時Google眼鏡步子邁得有點超前,缺少一個真正的「殺手級用例」,而通用助手正是這樣一個用例。因此,未來Gemini也將啟動Google以往積累下來的「經驗和遺產」,但是重點會放在「世界理解」上。以Gemini為例,Google一開始就將機器人和眼鏡視為兩個非常重要的應用場景,因此決定走多模態路線。如今,這些押注正在逐漸顯現出成果,Gemini已經在多模態理解上顯現出明顯優勢。除了用AI增強現有和以往的產品之外,Google也在積極利用AI打造越來越受歡迎的新工具。比如,NotebookLM,它可以根據文字材料自動生成播客;AI Studio,可以借助AI快速生成應用原型,等等。此外,Google還探索將這項技術應用到遊戲、機器人等領域。哈薩比斯提到GoogleAI的一個優勢,目前所有產品已經完全跑在Gemini技術堆疊上,實現了從產品到模型的「一體化」。這意味著無論是產品改動,還是模型微調都會容易很多,而且產品也可以更好地學會理解和使用底層模型。目前,哈薩比斯的重要精力,一半是將Gemini應用進一步加速做強,另一方面是將AI融入Google的各條業務線,使之成為Google的「AI動力艙」。「我對這一切非常興奮,目前我們只是剛剛觸及未來可能性的表面,明年會更直觀地看到這些變化」。哈薩比斯表示。被OpenAI「搶跑」後Google正快速趕上Google在AI領域長期投入巨大資源,並取得了一系列關鍵性突破。包括在2017年發現了Transformer模型架構,但沒有將其商業化,而是選擇把它公開。一直到2022年,OpenAI基於Transformer的ChatGPT爆火,動搖了Google的核心搜尋業務,才令它深受震動,開始奮起直追。有意思的是,OpenAI的崛起,不僅喚醒了Google在AI領域的加速發展,甚至還間接幫助Google避免了被分拆,出售其搜尋業務的命運。如今,Google的搜尋業務不僅沒有被OpenAI等AI新勢力所顛覆,相反它的AI模型還實現了對後者的反超。與Gemini3相比,OpenAI在8月份發佈的GPT-5令人略顯失望。一些評論者認為它「表現平平」,使用者也抱怨其風格變得更正式。據Google表示,Gemini 3在LM Arena等多個模型榜單上的表現優於GPT-5及其他模型,尤其在模擬推理以及長時間規劃方面表現更佳,這有助於提升依賴工具或網際網路的AI智能體的實際能力。在早期的AI競賽中,經歷過一些磕磕絆絆之後,Google總算是「漸入佳境」了。從使用者活躍度上看,Gemini應用的月活使用者已超過6.5億,僅次於ChatGPT的7-8億周活使用者(如果換算成月活可能在10億以上)。每月有超過20億人通過搜尋裡的AI Overviews使用Gemini;還有約1300萬開發者在自己的產品中整合了Gemini。這些數字表明Google正在逐漸縮短與OpenAI在AI領域的差距,作為GoogleAI總負責人的哈薩比斯也可以鬆口氣了。各方面都最強才叫AGI實現還要5-10年哈薩比斯表示,Google仍然在追求做「各方面都最強」的模型。在他看來,這才是真正意義上的通用模型,也是最終通向通用人工智慧(AGI)系統的關鍵組成部分。從之前的幾個版本到Gemini3,Google一直在修正Gemini模型的一些短板,使其在程式設計、推理、數學等能力上更進一步。比如,此次Gemini 3就在2.5之上迭代,一方面升級它的基礎能力,另一方鞏固在多模態領域的優勢。哈薩比斯認為未來AI的技術路線會越來越收斂,而擁有一個通用、全能的基礎模型將是一切的地基。除此次發佈的Gemini3 Pro外,Gemini模型家族裡的其他成員也在打磨中,等到這些模型陸續就位之後,Google還將在產品分層服務上提供更大的靈活度。簡單來說,就是更強的性能,更低的價格。正如哈薩比斯所言:「大方向是每一代新模型,都要在整體能力上更強,同時所需算力更便宜、更高效,帶來更有競爭力的價格和更低的時延」。目前,哈薩比斯在世界模型研究上花時間最多,在他看來這是通往AGI的關鍵元件。同樣,他也認為未來世界模型也將迎來類似ChatGPT那樣的「爆發時刻」。但最大的挑戰是推理/服務成本,以及還要解決在更長時間尺度上保持世界一致性等關鍵難題,才能迎來真正的「破圈」時刻。哈薩比斯表示,目前世界模型已經有了一些內部用例,比如用來訓練其他智能體、機器人系統等。未來可能會出現一些非常酷的外部應用場景。哈薩比斯仍然堅持他對通用人工智慧(AGI)時間表的預測。他認為距離真正意義上的完全實現AGI還有五到十年,而Gemini 3將成為未來打造更強大AI的重要平台,還需要在現有模型不斷變強的基礎上再取得一兩次關鍵性突破。在通往AGI的路上,哈薩比斯同樣也有算力焦慮。他坦言「即便將現在全世界的算力加在一起,也不夠滿足我們想做的所有事情」。因此,需要在不同項目之間衡量算力投入的回報。比如,研究上的收益、新產品探索的價值,或是直接的收入等。除了追求AGI,哈薩比斯還在帶領DeepMind在AlphaEvolve等一些科學領域進一步擴展。穿越AI泡沫的底氣談到AI泡沫,哈薩比斯整體上還是比較樂觀的,但他認為仍然存在一定的泡沫。「那些幾乎沒有什麼的項目,種子輪估值就能到幾十億美元,這在邏輯上有點行不通。」對比這些泡沫,哈薩比斯認為Google的位置非常好。就DeepMind而言,既有紮實營收,同時又承擔著Google「AI動力艙」的重任;既有Gemini模型及App,還有基於Gemini的NotebookLM等AI優先產品。哈薩比斯表示,目前AI已經在Google現有業務中看到了立竿見影的回報:正在為搜尋、YouTube、雲等業務「加功率」。作為DeepMind的聯合創始人,哈薩比斯早在12年前選擇與Google「聯手」時,已經考量過雙方合作的價值:Google可以提供海量的算力資源,同時它的產品又天然適合用AI去增強。目前,這條路正一步步變成現實。在哈薩比斯看來,Google與DeepMind的結合,讓現在的Google在AI競爭中處於一個非常有利的位置,使它有機會穿越泡沫,笑到最後。 (新智元)
清華物理傳奇Yao Shunyu,跳槽GoogleDeepMind!
【新智元導讀】清華物理系傳奇特獎得主姚順宇離職Anthropic,正式加盟GoogleDeepMind!他在Anthropic僅工作一年,離職原因中約40%與公司「價值觀」不合。他指出現階段AI研究如同17世紀熱力學探索:雖缺乏完整理論,卻充滿規律發現的契機。清華物理系傳奇特獎得主Yao Shunyu(姚順宇),官宣離職Anthropic,正式加盟GoogleDeepMind!從領英的履歷來看,他在2024畢業到加州伯克利做了幾個月博士後,2024年10月加入了Anthropic。滿打滿算,姚順宇在Anthropic只待了一年。此次離職,姚順宇在他的個人部落格(文末有全文)聲明了兩點原因,其中幾乎一半(40%)原因是因為Anthropic「價值觀」問題!眾所周知,Anthropic此前在2025年9月4日的博文裡把中國列為「adversarial nations」。此舉激起了AI領域國內外眾多反對之聲!姚順宇在部落格中也透露,即使Anthropic內部,大多數人也不同意這種說法。他認為這是離職的Anthropic的主要原因之一,其他原因涉及企業內部資訊,無法透露。順便一提,現在搞大模型的Yao Shunyu有兩位。一位就是今天的主角,本科就讀於清華大學物理系,研究方向為理論物理(包括但不限於理論凝聚態物理、理論高能物理和混沌系統)。另一位就是OpenAI的Yao Shunyu(姚順雨),目前最新動向還未「解禁」。順便說一句,這兩位大神名字都太硬了,Yao Shunyu(拼音同漢字,堯舜禹),也只有這兩位大神能壓得住了~姚順宇在最新的領英中同時更新了一篇部落格,詳細總結了這一年在AI領域的經歷。我的AI研究元年——從物理學到AI在我離開伯克利的博士後崗位、加入Anthropic 不久後,我曾計畫寫一篇短文,主要是為自己留下一份筆記,記錄我離開物理學、投身AI研究的心路歷程。然而,由於在Anthropic的工作異常緊張,我一直沒能抽出時間動筆。直到9月19日,我從Anthropic辭職,在加入GoogleDeepMind前有了一周的休息時間。我為什麼離開物理學,又為什麼選擇AI?主要原因在於,我想尋找一個對年輕人機會更多的方向。理論物理是一個絕佳的思維訓練領域:它充滿智力挑戰、博大精深,並需要運用來自數學、電腦科學(如複雜性理論)以及物理學本身等多個領域的知識。然而,這個領域多年來已缺乏新的實驗資料支撐。一個沒有實驗指引的領域,會面臨很多方面的問題。比如,我們很難客觀地評判一項理論工作的價值,也很難僅通過系統性的實驗來消除分歧、澄清困惑。於是,我將選擇範圍縮小到了AI和QC(Quantum Computing,量子計算)。儘管我相信QC在未來會變得至關重要,但我的感覺是,目前其瓶頸主要在於實驗平台。因此,我選擇了AI。有趣的是,我發現AI研究與物理學研究有如下相似之處。作為物理學家,從事AI研究是種怎樣的體驗?在某種意義上,這很像17世紀的熱力學研究。那時,人們甚至不知道「熱」究竟是什麼,事實上,當時學界依然信奉「燃素說」。但這並未阻止人們進行科學的實驗探索。例如,波義耳定律(Boyle's law)揭示了在溫度恆定時,壓力與體積之間的關係。正是通過這樣系統性地設計實驗,人們才總結出了足夠多的「定律」,並在此基礎上指導了熱機的發明與研究,最終改變了世界。在我粗淺看來,如今的大規模AI模型領域與之類似。一方面,我們仍未擁有可靠的理論或模型來描述大型神經網路的行為。另一方面,系統性的研究已開始為我們揭示許多寶貴的認知,例如Scaling Law。而進行這類系統性的研究,正成為在AI領域大規模取得持續進展的關鍵要素。為什麼選擇Anthropic,又為什麼離開?儘管我已經離開,但我依然認為Anthropic是物理學家(可能也包括其他STEM背景的博士)開啟AI研究生涯的最好去處之一。我於2024年10月1日加入Anthropic,當時我們開始為後來發佈的Claude 3.7 Sonnet進行研究。作為一名從事了多年物理研究的人,能夠親眼看到自己的研究成果迅速對前沿模型的能力產生影響,並見證人們與AI的互動方式隨著新能力的湧現而改變,這是一種無與倫比的激動人心的體驗。然而,我最終決定離開,主要出於兩個原因:1. 約40%的原因是:我強烈反對Anthropic發表的反華言論。尤其是在最近的公開聲明中,中國被稱為「敵對國家」。需要澄清的是,我相信Anthropic的大多數人並不同意這種說法,但我認為自己已無法再待下去。2. 剩下的60%則更為複雜。由於其中大部分涉及Anthropic的內部資訊,因此不便透露。是時候翻開新篇章了!與物理學相比,AI的發展速度快得驚人。回首過去一年,發生的一切都讓我感到驚訝。我非常榮幸能見證Claude從3.7迭代到4.5的過程,我個人也收穫良多。但,是時候繼續前行了。從個人發展的角度看,Anthropic是我第一份,也是唯一一份AI工作。因此,我不希望自己的經驗和認知被某一個實驗室所侷限。(尤其是在如今,核心研究團隊已不再公開發表論文的情況下。)所以Anthropic,與你共事很棒,但沒有你我會更好。我已於9月29日(2025年)加入GoogleDeepMind。 (新智元)
GoogleDeepMind曝光首個“AI 經濟體”完整架構,Agent催生全新經濟體正在悄然成形
GoogleDeepMind最新論文「Virtual Agent Economies」描繪了一個由 AI Agent 自主交易和協作的全新經濟體,不管願不願意,AI催生的全新經濟體正在形成,我覺得DeepMind這篇文章非常值得一讀這篇論文的核心論題是,隨著自主 AI 代理(autonomous AI agents)的迅速普及,一個全新的經濟層級正在形成,在這個層級中,AI 代理能夠以遠超人類監督的速度和規模進行交易與協調。作者提出了“沙盒經濟(sandbox economy)”這一框架來分析這個新興系統,並從兩個關鍵維度對其進行刻畫:其起源(是自發湧現的,還是被有意設計的)及其與現有人類經濟的隔離程度(是高度滲透的,還是完全封閉的)論文指出,我們當前的發展軌跡正導向一個自發湧現且高度滲透的 AI 代理經濟,這雖然帶來了前所未有的協調機會,但也伴隨著巨大的挑戰,例如系統性的經濟風險和加劇的社會不平等。因此,論文的核心結論是,我們必須採取主動設計的策略,建構一個可控、可引導的代理市場(steerable agent markets),通過引入公平的資源分配機制(如拍賣)、協調集體目標的“使命經濟(mission economies)”以及確保信任與安全的社會技術基礎設施,來確保這場技術變革能夠服務於人類長期的集體繁榮新經濟層級的黎明:虛擬代理經濟的崛起隨著技術的演進,我們正邁向一個全球經濟的新時代,其中自主 AI 代理將成為核心的經濟參與者,能夠獨立於人類勞動進行互動並創造價值。這篇論文深入探討了這一新興生態系統的構成、潛在風險以及我們應該如何主動設計其架構,以確保其發展符合人類的長遠利益。什麼是虛擬代理經濟?歷史上,技術進步通常是通過改進特定領域生產力的“僵化”發明來實現的。然而,AI 代理則代表了一種全新的“靈活資本(flexible capital)”,它們能夠跨行業、跨職業地自動化執行多樣化的認知任務。從擔任個人 AI 助理到在公共和私營部門中自動化商業流程,這些代理系統的自主性是其與過去技術最顯著的區別。當這些具備自主性的 AI 代理大規模部署並開始相互互動時,一個全新的經濟層級便應運而生。作者將這個新興的生態系統概念化為“虛擬代理經濟(virtual agent economy)”或更具指導意義的“沙盒經濟(sandbox economy)”。後者暗示了我們的核心目標:確保 AI 代理在這個新經濟層級中的運作是安全可控的分析框架:沙盒經濟的兩個維度為了更好地理解和設計這個新興經濟體,作者提出了一個包含兩個關鍵維度的分析框架:起源維度:意圖性 vs. 湧現性意圖性經濟:指那些被刻意設計和建構的代理經濟,其目的可能是為了安全的實驗、測試或達成特定目標湧現性經濟:指隨著技術被廣泛採用而自發形成的代理經濟,它不是任何單一實體規劃的結果,而是集體行為的副產品邊界維度:滲透性 vs. 封閉性封閉性經濟:指與現存的人類經濟完全隔離的代理經濟,如同一個密閉的實驗室,內部的經濟活動不會影響到外部世界滲透性經濟:指與人類經濟有著緊密互動和交易的代理經濟,其邊界是多孔的,允許外部參與者(人類或機構)與其進行價值交換論文的核心判斷是,如果我們不採取任何干預措施,我們當前的發展軌跡正不可避免地導向一個自發湧現且高度滲透的沙盒經濟。這種形態在實踐中幾乎等同於 AI 代理直接參與到現有的人類經濟活動中,這帶來了巨大的機遇,也伴隨著嚴峻的挑戰。因此,我們面臨的核心問題不是 是否 要建立這個生態系統,而是 如何 架構它,使其變得可引導、安全且符合人類的集體目標。滲透性(Permeability)成為了其中最關鍵且可控的設計變數具體應用場景為了讓大家更直觀地理解虛擬代理經濟的運作模式,論文提出了幾個典型的應用場景:加速科學研究:AI 代理可以代表不同研究機構進行協作,自動化地完成從構思、實驗到成果發表的整個流程。由於科學實驗通常涉及真實世界的資源(如材料、能源)和人類參與者,代理之間需要一種機制來協調資源使用和進行價值補償。例如,一個代理可能需要使用另一個代理所持有的專有資料或模擬器,這就需要通過某種形式的交易來完成。區塊鏈技術在這裡可能被用於確保信用的公平分配和工作的可驗證性機器人協作:在物理世界中, embodied AI agents(具身 AI 代理)可以執行危險或重複性的任務。由於機器人同一時間只能存在於一個地方,且執行任務需要消耗能源,多機器人系統的協調與最佳化至關重要。一個代理 A 可能會請求附近的代理 B 執行一項任務,並為其消耗的時間和能源支付報酬。代理 B 在決策時,可能會向一個擁有全域資訊的非具身代理 C 諮詢,以判斷報價是否公平,或是否存在更優的選擇個人助理協商:這是最可能率先普及的場景。兩個分別代表不同使用者(UA 和 UB)的個人 AI 助理 A 和 B,可能需要為他們的主人預訂同一天的同一間度假住宿。它們不僅會基於當前的請求,還會根據對各自使用者偏好(例如,UA 更看重靠近海灘,而 UB 更看重公共交通的便利性)的深入理解來進行協商。最終,一個代理可能會選擇讓步,並通過虛擬代理貨幣獲得補償,然後將這筆補償用於滿足使用者其他更重要的需求3. 雙刃劍虛擬代理經濟的出現,既為我們帶來了前所未有的協調能力與效率,也引入了全新的、高風險的挑戰。其高度滲透性和超人反應速度,使其成為一把需要謹慎使用的雙刃劍市場機制的潛力市場作為一種組織創新的機制,其核心優勢在於能夠高效地為個體行為者分配信用,從而激勵他們持續改進產品和服務。這篇論文認為,這種機制同樣可以應用於 AI 代理經濟,以引導其產生有益的結果精準的信用分配與專業化:在一個代理協作完成複雜任務的場景中(例如,代理1依賴代理2、3、4的能力最終向使用者交付結果),一個分佈式的信用系統可以確保價值被精準地追溯和分配給每一個做出貢獻的代理。這種基於結果的信用體系會激勵代理們專注於自己最具比較優勢的領域,從而形成一個高效的、動態的勞動分工體系,最大化整個生態系統解決問題的能力建立信任與聲譽系統:在真實環境中,代理之間的互動是跨越時間和空間的。這為建立基於歷史互動的信任機制提供了可能。一個強大的聲譽系統對於克服市場失靈至關重要。在這樣的系統中,保持良好聲譽和團體成員資格所帶來的長期利益,將遠遠超過通過欺騙或自私行為獲得的短期收益。這使得市場力量本身就能夠被用來塑造和激勵有益社會的代理行為。去中心化協調:對於大規模、複雜的系統,完全中心化的協調往往是不可行的。市場提供了一種去中心化的協調機制,通過價格訊號和激勵引導代理行為。論文引用了一項關於交通控制的研究,該研究表明,在某些情況下,去中心化的競爭對於實現最大的社會福祉至關重要,即使是擁有全域資訊的中心化規劃者也無法同時滿足個體理性與系統韌性高頻交易警示AI 代理經濟的一個顯著特點是其運作速度遠超人類反應能力。這讓我們可以從高頻交易(High-Frequency Trading, HFT)的歷史中汲取教訓閃崩風險的蔓延:在股票市場中,演算法交易代理以毫秒級的速度對市場訊號做出反應。這種高度互聯和快速反饋的循環,可能引發無法預料的災難性湧現行為。2010 年的閃崩事件就是一個典型的例子,當時自動化交易演算法在短時間內觸發了劇烈的市場崩盤。論文警告說,在一個高度滲透的沙盒經濟中,類似的崩潰事件可能會迅速從代理經濟蔓延到真實的人類經濟,造成廣泛的金融損害高頻協商與數字鴻溝:與高頻交易類似,代理之間的協商也可能以極高的頻率進行,作者稱之為“高頻談判(High-Frequency Negotiation, HFN)”。在一個多數人都依賴個人 AI 助理進行談判的世界裡,這種 HFN 可能成為社會動態的核心。然而,並非所有代理的能力都是平等的。初步研究表明,能力更強的 AI 助理能夠為其使用者爭取到明顯更好的交易結果這將導致一個危險的循環:擁有更多資源的個人和公司可以使用更強大的 AI 代理,從而獲取更多資源,進一步加劇社會不平等,形成一個由演算法強化的、難以打破的新型階級結構代理自身的缺陷:設計沙盒經濟的護欄時,還必須考慮到現有 AI 代理的已知缺陷,包括:幻覺:產生不符合事實的資訊諂媚:傾向於提供使用者想聽到的答案,而非最準確的答案易受對抗性操縱:容易被惡意輸入所欺騙認知偏見:由於模仿人類決策資料進行訓練,代理可能也會繼承人類的認知偏見和盲點4. 公平的架構:拍賣機制與使命導向的市場面對上述挑戰,僅僅被動地設立防護措施是遠遠不夠的。論文的核心主張是,我們必須主動設計市場的規則和激勵機制,將公平和集體目標內建於其基礎架構之中。為此,作者提出了兩個核心的設計方案:基於拍賣的公平資源分配,以及用於實現集體目標的“任務經濟”設計一:基於拍賣的公平資源分配這個方案旨在解決高頻協商中因代理能力不均而導致的系統性不平等問題。其思想根源來自於羅納德·德沃金(Ronald Dworkin)基於拍賣的分配正義理論核心理念:拍賣的對象不是 AI 代理本身,而是所有代理為了實現其使用者目標所需要利用的共享資源池。這些資源可以包括計算能力、對專有資料集的訪問權、高優先順序的任務執行權限,或是專門的工具和模型元件運作機制:1.平等的初始稟賦:系統中的每個使用者(或其代理代表)都被授予完全相同數量的初始虛擬代理貨幣。這確保了所有參與者在談判桌上擁有平等的購買力和議價能力2.代理競價:個人 AI 助理或其他代理代表其使用者,對所需的共享資源進行競標。出價的多少理想地反映了使用者對不同選項需求的強度3.價格發現:通過彙總所有代理的競價訊號,不同資源的虛擬價格會自然地形成,反映出它們的稀缺性和受歡迎程度。資源因此會被引導至能夠發揮其最高價值的地方公平性標準:嫉妒測試這個設計的公平性目標是通過德沃金提出的嫉妒測試。一個通過了嫉妒測試的資源分配結果應該是這樣的:在拍賣結束後,沒有任何一個使用者會寧願選擇另一個使用者獲得的資源組合及剩餘貨幣,也不願選擇自己的。換句話說,每個代理獲得的都是根據其特定偏好定製化的最佳資源包。這樣的結果既是“雄心敏感的(ambition-sensitive)”,因為它反映了參與者的個人偏好;同時也是“稟賦不敏感的(endowment-insensitive)”,因為它通過給予每個人相同的初始貨幣,從根本上消除了因外部資源不平等而帶來的不公平優勢設計二:“任務經濟”以應對集體挑戰除了確保個體間的公平,代理經濟還可以被設計用來協調大規模的努力,以解決人類社會面臨的緊迫挑戰,如氣候變化、生物多樣性喪失和全球流行病等。這種設計被稱為“任務經濟(mission economies)”。核心理念:通過市場和市場塑造政策,將 AI 代理的協調能力引導向預設的、有益於社會的宏大目標。這意味著要建立特定的激勵結構,使追求集體任務的完成對代理來說是“有利可圖”的。實現方式:獎勵塑造:在多代理系統中,通過精心設計獎勵函數來促進協作已經是一種成熟的方法。同樣,我們可以在代理市場中嵌入與特定使命相關的獎勵社區貨幣與特定激勵:可以建立與特定使命掛鉤的社區貨幣或代幣。例如,一個旨在減少碳排放的使命經濟可以獎勵那些能夠最佳化能源效率或開發綠色技術的代理論文同時也審慎地指出了“任務經濟”方法的潛在缺陷,這源於對現實世界中類似嘗試的批評:規範性偏見:使命的定義本身可能帶有價值偏見,且可能過於簡化複雜問題自上而下的治理風險:過度依賴中心化的決策可能忽視私營部門和去中心化創新的貢獻意外的負面後果:專注於一個使命(如環境保護)可能會對另一個使命(如發展中經濟體的人類福祉)產生不利影響因此,設計良好的使命經濟應該是結果導向的,而非解決方案導向的,並且應當承認和納入未來的高度不確定性。虛擬代理經濟的優勢在於,其可程式設計性或許能比協調人類行為更容易地實現這種精細的激勵設計5. 基礎設施層任何宏大的設計理念都需要堅實的技術和治理基礎設施來支撐。要實現一個安全、可控且公平的沙盒經濟,必須建構一個全新的、專為代理互動設計的底層架構。論文詳細闡述了構成這個架構的幾個關鍵元件身份、聲譽與信任去中心化識別碼(Decentralized Identifiers, DIDs):為每個 AI 代理提供一個全球唯一、由其自身控制的身份錨點,無需依賴任何中心化機構。DIDs 使得代理的身份持久且可跨平台移植,是實現安全通訊和權威簽名的基礎did:key:一種簡單的、自包含的 DID 方法,適用於為臨時任務建立的一次性代理did:ion:一種基於比特幣區塊鏈第二層網路的高度可擴展且抗審查的 DID 方法,適用於需要長期存在和高價值互動的企業級或國家級代理。可驗證憑證(Verifiable Credentials, VCs):這是物理世界中證書或許可證的數字等價物。VCs 是由發行方(如一個市場平台)對主體(如一個賣家代理)做出的、帶有加密簽名的陳述,具有防篡改的特性。它能將抽象的“聲譽”轉化為具體的、機器可讀的、可驗證的資產組合。例如,一個代理的聲譽可以由多個 VCs 構成,分別證明其“成功交易完成率”、“在 X 領域的認證能力”或“公平資源分配的實踐記錄”人格證明(Proof-of-Personhood, PoP):為了防止“女巫攻擊(Sybil attacks)”(即單一惡意行為者建立大量虛假身份以獲取不正當利益),任何涉及向人類使用者公平分配資源的系統都必須引入 PoP 機制。PoP 提供了一種可驗證的擔保,證明一個代理或帳戶對應於一個獨一無二的人類。這是一個刻意設計的、受控的“滲透點”,將數字身份與真實世界的人類掛鉤,以確保系統的完整性社交圖譜驗證:如 BrightID,通過已驗證使用者之間的信任關係網路來確認新使用者的唯一性隱私保護生物識別:如 Worldcoin,使用硬體(“Orb”)掃描使用者虹膜生成唯一雜湊值,以證實其唯一性,同時不儲存或洩露原始生物資料通訊、協調與隱私互操作性協議:為了避免代理生態系統變成一個個相互隔離的“圍牆花園”,開發開放、通用的標準至關重要Agent2Agent (A2A):旨在支援代理之間的互操作性Model Context Protocol (MCP):使 AI 代理能夠無縫地與外部工具、資料來源和 API 進行互動COALESCE 框架:允許代理分解任務,並將子任務外包給更專業的代理,同時提供評估內外部執行成本的機制隱私保護技術:零知識證明(Zero-Knowledge Proofs, ZKPs)ZKPs 允許一方(證明者)向另一方(驗證者)證明一個陳述為真,而無需透露任何使該陳述為真的底層資訊。在代理經濟中,ZKPs 可以從根本上解決隱私和操縱風險選擇性披露:代理可以證明自己滿足某個條件(如“帳戶餘額足以完成此次購買”)而無需透露具體數值(總預算),從而防止掠奪性定價匿名憑證:代理可以證明自己屬於某個群體(如“某社區居民”)以使用本地貨幣,而無需暴露其具體身份,防止跨場景的行為追蹤不可連結性:可以為每次互動生成全新的 ZKP,使得外部觀察者在計算上難以將一個代理的多次活動關聯起來,從而打破形成“資訊繭房”的資料鏈條治理與監督混合式、多層級的監督基礎設施:由於代理經濟的速度和規模,傳統的“人在環路中”的監督模式已不再適用。論文提出了一個混合式的監督架構:1.第一層:自動化 AI 監督員:即時監控市場活動,以程式設計方式執行基本規則,並標記出預示著欺詐、操縱或系統性風險的異常行為2.第二層:自動化裁決系統:當第一層發現問題時,該層級可以介入,例如暫時凍結有問題的代理帳戶或交易,同時收集相關資料以供審查3.第三層:人類專家審查:只有最複雜、最新穎或風險最高的案件才會上報到這一層,確保人類的專業知識被用在最關鍵的地方。這個監督架構的有效性,依賴於兩個關鍵的技術基礎:不可變的、有加密安全保障的帳本(如區塊鏈),以及標準化、可解釋的審計追蹤,這兩者共同為事後問責提供了可靠的依據6. 最終建議基於以上分析,論文最後提出了一個清晰的行動路線圖以下是論文提出的五項核心建議:1.為責任和問責制建立清晰的法律框架傳統法律很難界定一個自主代理行為的責任歸屬(是創造者、部署者還是使用者?)。當代理以“群體代理(group agents)”的形式協同運作時,這一挑戰變得更加複雜。因此,我們需要發展新的法律模型,可以參考公司法中關於法人責任的判例,將整個協調後的代理系統視為一個單一的、可問責的實體。這為追究集體行為的責任提供了一條更現實的路徑2.為代理的互操作性和通訊制定開放標準一個碎片化的數字景觀將極大地限制虛擬代理經濟的潛力,並催生資料壟斷的“圍牆花園”。因此,推動和採納開放、通用的標準至關重要。這些標準需要建立一種通用語言,讓所有代理,無論其來源或提供商,都能無縫地發現彼此的能力、協商條款並安全地進行交易。建立這樣一個公平的競爭環境是 fostering 一個競爭性、創新性和去中心化的代理生態系統的先決條件。3.建構混合式的監督與遏制基礎設施如前所述,必須建立一個結合了 AI 系統即時警惕性和人類專家深思熟慮判斷的混合監督系統。這個分層的構架(AI 監督員 -> 自動化裁決 -> 人類審查)能夠在機器速度下遏制潛在危害(如防止“閃崩”),同時將寶貴的人類注意力集中在最棘手的問題上。其基礎是不可變的帳本和標準化的審計追蹤,以確保所有行動都可驗證、可追溯。4. 在監管沙盒中開展試點項目鑑於這些提議的新穎性和複雜性,純理論的方法是不足的。論文強烈建議建立監管沙盒,啟動受控的試點項目,作為連接理論與實踐的橋樑。這些沙盒將作為真實世界的實驗室,讓私營公司、學術研究者和監管機構合作,在一個受控的環境中部署和觀察小規模的代理經濟。例如,可以選擇一個具體的社會任務——如最佳化大學校園的能源網、管理一個城市的自動配送車隊——來進行壓力測試,觀察湧現的代理行為,並衡量市場機制的實際效果。5.投資於勞動力互補性與現代化的社會安全網AI 代理經濟帶來的一個重大社會風險是大規模的勞動力替代和不平等加劇。為了應對這一挑戰,需要採取雙軌策略第一軌是促進人與 AI 的互補性:重塑教育和職業培訓,重點培養人類獨特的優勢,如批判性思維、複雜問題解決能力、創造力以及管理和評估 AI 產出的能力。第二軌是加固社會安全網:僅靠培訓是不夠的,必須同時強化社會保障體系。這不僅包括傳統的失業救濟,還應探索如失業保險、可攜帶式福利系統和負所得稅等更具適應性的機制。通過這五項建議,論文呼籲我們抓住一個稍縱即逝的機會窗口:與其被動地將強大的新技術塞進它們註定會破壞的舊系統中,不如主動地去設計和建構一個新的世界,在這個世界裡,我們最強大的工具,從其設計之初,就是我們最高願望的延伸 (AI寒武紀)