#AlphaFold
80後諾獎得主:AlphaFold下一步融合大模型
正值AlphaFold問世五周年,其設計者、也是憑藉AlphaFold獲得諾貝爾化學獎的John Jumper公開表示:AlphaFold的下一步是與大模型整合。不過具體方法並沒有透露,或許已有所思路,甚至已經在進程之中。五年期間,AlphaFold已經幫助全球300多萬研究人員,預測了數億種蛋白質的三維結構,並影響了超50萬篇相關論文。可以說,這是繼量子力學和分子生物學革命後,生命科學的另一個重大躍遷。繼最初的「結構預測革命」、隨後的「科研常規工具」化,AlphaFold及其繼承技術正進入新的大模型階段。AlphaFold+大模型即使在AI浪潮不斷湧來的今天,AlphaFold仍然是AI+生命科學最具里程碑意義的一次落地。作為由GoogleDeepMind開發的AI科研工具,AlphaFold能夠精確預測蛋白質的三維結構。利用儲存在序列和結構資料庫中的大量實驗數據,該網絡被訓練以發現氨基酸序列之間的關聯和模式。自2020年首次公開AlphaFold2以來,它迅速成為結構生物化學領域的堅實基座,接著又陸續推出了可預測多個蛋白質結構的AlphaFold Multimer,以及迄今為止速度最快的AlphaFold 3。現在AlphaFold已從最初單純地蛋白質結構預測,發展到能夠處理更為複雜的多分子複合體以及更廣泛的生物分子交互作用。科學家也據此,實現了相當多的成果突破:例如最近來自密蘇里大學的研究團隊,借助AlphaFold,成功揭開了心血管疾病的秘密——壞膽固醇(LDL),並刊登上了《Nature》。LDL是動脈粥狀硬化、冠心病等心臟疾病的主要風險因子,核心由ApoB100蛋白組成,但由於其體積巨大、結構複雜,同時又與脂肪緊密纏繞,長期以來科學家都無法確認它的原子級三維結構。於是他們利用AlphaFold先對其胺基酸序列進行結構預測,再將產生的模型擬合到密度圖中,並逐步優化,直到與實驗數據對齊。最終揭示了ApoB100的籠狀結構,為後續推動心血管疾病治療提供了理論基礎。再比如說,利用AlphaFold研究蜜蜂的抗病性。研究聚焦於蜜蜂體內的關鍵蛋白Vitellogenin(簡稱Vg),該蛋白不僅支持群體後代餵養,也與蜜蜂的免疫力、抗壓力息息相關。在AlphaFold的幫助下,研究人員得以在兩天時間內完成過去數年的工作,解密了Vg蛋白的近原子級結構模型,對瀕危族群的保育起到了關鍵性指導作用。另外,AlphaFold在一些非常規用法上也依舊作用顯著。去年與John Jumper同獲諾貝爾化學獎的計算生物學家David Baker,就正在嘗試利用AlphaFold預測蛋白質合成設計的成功率。或者有些團隊​​也會將AlphaFold當作搜尋引擎使用,在成千上萬個候選蛋白中篩選出最有可能與目標蛋白結合的一種。……總之,AlphaFold的作用不勝枚舉,它已經不僅僅是單一的結構預測工具,更是當代實驗設計的重要組成部分之一。那麼接下來AlphaFold又將何去何從呢?據John Jumper所說,下一步將會是AlphaFold與更廣泛的AI大模型結合。AlphaFold仍將持續推動結構預測成為研究流程中的基礎一環,但同時,其結構預測能力也會同大模型強強結合,提升到能讀懂科學文獻資料、做科學推理的程度。也就是說,接下來的AlphaFold在預測結構之外,或許還能提出假設、設計實驗流程甚至自動產生研究思路。對於一些較複雜的多分子多功能係統,例如蛋白質之間的相互作用、核酸(DNA/RNA)的相互作用等,AlphaFold也能更好地幫助理解對應的生物過程。這就好比Google的另一個系統AlphaEvolve,使用一個大模型來產生問題的解決方案,然後再用第二個模型負責檢查並過濾掉錯誤訊息。二者思路類似,不過一個面向數學和電腦科學領域,一個立足生物化學。首位「80後」諾獎得主負責領導開發AlphaFold的,則是DeepMind創辦人兼CEO哈薩比斯和John Jumper。其中,John Jumper還是最年輕的諾貝爾化學獎得主,也是第一位80後諾獎得主。他本科就讀范德堡大學,主修數學和物理,隨後在劍橋大學獲得理論凝聚態物理碩士,並在芝加哥大學博士期間轉向理論化學。他的博士論文是研究如何將機器學習技術應用於蛋白質動力學研究。2017年,正在讀博士後的他聽說了GoogleDeepMind正在從遊戲AI開發秘密轉向蛋白質結構預測,於是他申請了這份工作。事實上,在AlphaFold之前,GoogleDeepMind就嘗試了名為「Foldit」的蛋白質折疊遊戲,這還是因為哈薩比斯從劍橋求學時代起就對蛋白質折疊問題的關注,他希望透過預測蛋白質結構,找到解決阿茲海默症等疾病的方法。但遊戲終歸只是遊戲,在面對真實的分子結構上顯然不夠用,因為真實的蛋白質折疊的訓練資料極為固定有限。要確定一個蛋白質結構,往往需要耗費數月甚至數年時間,而這個過程已經持續了將近半個世紀。於是他們轉向研發了AlphaFold。雖然初代AlphaFold在第13屆CASP(蛋白質結構預測關鍵評估賽事)中嶄露頭角,成功預測出43個蛋白質中的其中25個,力壓其餘的97名參賽者,證明了用“機器學習+統計信息”推斷蛋白質結構是可行的。但哈薩克言,當時的預測品質還不足以讓生物學家在實際中應用,其針對複雜蛋白的準確性、泛化性還存在嚴重缺陷。在意識到僅依靠標準的機器學習方法無法取得成功後,DeepMind內部專門成立了一個攻堅小組,利用Transformer推翻重構了AlphaFold 2,並逐步融入生物學專業知識。但早期的AlphaFold 2表現相比AlphaFold 1還有所下滑,這也一度讓他們害怕方向是否有錯誤。於是在這個階段他們採取一種交替模式——一方面嘗試將舊系統性能壓榨到極限,一方面給予新系統的研發團隊自由試誤的空間:允許短期的性能下降,只求不斷嘗試各種新想法。直到某一天奇蹟發生,它突然變得非常好。那天早上,團隊其中一個成員上班打開電腦,突然發現AlphaFold 2在某一組蛋白質上表現出奇地好,預測的結構精度達到了1.5埃,大約相當於一個原子的寬度。但她的第一個反應不是興奮,而是害怕,因為結果好到讓她確信自己犯了錯誤,於是接下來幾天她和團隊成員一起試圖找出錯誤原因。結果事實上,這裡沒有錯誤——換言之,新系統成功了。於是他們參加了CASP 14競賽,並專注於攻克了一個名為ORF8的SARS-CoV-2冠狀病毒蛋白。結果讓人震驚,準確度均分從原先的60+/100,提升至92.4/100,而此前其它方法還停留在40分左右。至此,這個困擾學界50餘年的重大挑戰──蛋白質折疊問題終於得到了解決方案。而在取得突破之後,DeepMind更是將AlphaFold的程式碼全部開源,並向全世界免費發布了2億個蛋白質的結構預測資料。AlphaFold的出現,標誌著生物化學領域正式向AI智能發展,也讓哈薩比斯和John Jumper獲得了2024年的諾貝爾化學獎。諾獎組委會是這樣評價這份工作的:毫不誇張地說,AlphaFold在結構生物化學領域引發了革命,並為設計前所未見的蛋白質開闢了全新的可能性。但在此之前,John Jumper接受採訪時曾謙遜地表示,自己的獲獎機率只有10%,他更多的是期待能有越來越多科學家利用AlphaFold實現醫學和生物學的突破。而現在,他對自己未來的規劃是:作為年輕的諾獎得主,這讓我感到擔憂。接下來我將嘗試做一些深入研究的小事情,而對於第二次衝擊諾貝爾獎,我認為那是個陷阱。(量子位元)
AlphaFold的下一步是什麼?對話諾獎得主John Jumper
2017 年,剛剛從理論化學博士畢業不久的 John Jumper 聽說,Google DeepMind 正悄然從“打造能擊敗人類的遊戲 AI”這條路線轉向一個全新的秘密項目:利用人工智慧預測蛋白質結構。他隨即投遞了簡歷。三年後,他便迎來了足以載入科學史冊的時刻。在 CEO Demis Hassabis 的合作領導下,他共同開發的 AI 系統 AlphaFold2,能夠以接近一個原子寬度的精度預測蛋白質的三維結構——其精準度與實驗室耗時數月的傳統技術相當,卻只需數小時即可得出結果。AlphaFold2 攻克了生物學界 50 年來懸而未決的一道大題。“這是我建立 DeepMind 的理由。事實上,這也是我整個職業生涯投身 AI 的原因。”Hassabis 曾對筆者表示。2024 年,Jumper 與 Hassabis 因這一突破共同獲得諾貝爾化學獎。(來源:MIT TR)五年前的這個星期,AlphaFold2 的橫空出世讓科學界震驚不已。如今熱潮已退,它究竟帶來了那些真正持久的影響?科研人員現在如何使用它?它的下一步又將指向何方?筆者與 Jumper 進行了深入交談。“這五年非常不真實,”Jumper 笑著說,“我幾乎已經記不得不認識這麼多記者的日子了。”在 AlphaFold2 之後,DeepMind 又推出了能夠預測多蛋白複合體結構的 AlphaFold Multimer,以及速度更快的 AlphaFold3。團隊還將 AlphaFold 應用於全球廣泛使用的蛋白資料庫 UniProt,如今已預測約 2 億種蛋白質結構,幾乎囊括了科學界已知的一切蛋白。儘管影響巨大,Jumper 對 AlphaFold 仍保持著科學家的謹慎:“這不意味著裡面的每個預測都是確定無疑的。它是一個預測資料庫,也攜帶著預測本身的全部侷限。”解開蛋白質之謎,為何如此艱難?蛋白質是生命的“分子機器”。它們構成肌肉、羽毛、角,負責運送氧氣、傳遞訊號;它們讓神經元放電、幫助我們消化食物、驅動免疫系統。這一切功能都依賴於它們摺疊成的三維結構。然而,要從一條氨基酸鏈推斷其最終結構,極其困難。蛋白可能摺疊成天文數量級的結構,預測正確的那一個,就像在宇宙中找一枚硬幣。Jumper 和團隊採用了 Transformer 神經網路——與大語言模型同源——以捕捉序列中的遙遠關聯。但 Jumper 認為真正的秘訣是他們迭代速度快:“我們做出了一個能以驚人速度給出錯誤答案的系統。正因為如此,我們才能大膽嘗試各種想法。”他們儘可能向模型灌注蛋白結構相關資訊,如來自不同物種的演化線索。效果遠超預期。“我們確信自己抓住了重大突破,確信這是一次理念上的飛躍。”他沒有預料到的是,研究人員會直接下載軟體並立即用於如此廣泛的用途。他說:通常來說,真正產生影響的是之後幾代的版本,等一些問題被解決之後。“我對科學家們如何負責地使用它感到非常驚訝。無論是在理解上還是在實踐中,他們使用它的程度恰好與它的可信程度相匹配,既不過度信任也不過低信任。”有那些令他印象深刻的應用?蜜蜂的抗病研究。Jumper 提到一個團隊,使用 AlphaFold 研究蜜蜂的抗病性:“他們想研究一種與蜂群崩潰有關的蛋白。我從沒想過 AlphaFold 有一天會走進蜜蜂科學。”“超出適應症”的創新用法。他特別提到幾類不是 AlphaFold 本來設計用途,但卻因其能力被開闢的新方向。其一,蛋白設計。華盛頓大學的 David Baker(去年諾獎得主)利用 AlphaFold 的能力加速合成蛋白設計。他們開發了 RoseTTAFold,也嘗試用 AlphaFold Multimer 來提前判斷設計是否可行。“如果 AlphaFold 自信預測出你想要的結構,你就去做;若它猶豫不決,你就不做。光是這點,就讓設計速度提升了十倍。”其二,把 AlphaFold 當“結構搜尋引擎”。兩個研究組曾試圖找出人類精子與卵子在受精時結合的關鍵蛋白。他們已知其中一個卵子蛋白,但不知道精子端的對應物。於是他們拿已知的卵子蛋白讓 AlphaFold 逐一預測與全部 2000 個精子表面蛋白的結合結構。AlphaFold 自信指出了某一個。隨後的實驗驗證無誤。“以前沒人會做 2000 次結構比對來找一個答案,你現在可以做,這是 AlphaFold 真正改變科研方式的地方。”AlphaFold2 面世時,筆者曾採訪過幾位早期使用者。五年後,我再次聯絡了其中一位,加州大學舊金山分校的分子生物學家 Kliment Verba。“毫無疑問,它非常有用。我們每天都在用。”但它也有明顯的限制。許多科研問題涉及多個蛋白之間或蛋白與小分子之間的複雜互動,而 AlphaFold 在這類預測中的精準度較低。Verba 說:“有時候你會拿到一個預測,讓你琢磨半天,這到底是真是假?它處在模糊邊界上。”他笑稱:“有點像 ChatGPT——它把真話和胡話都說得同樣自信。”儘管如此,他們常用 AlphaFold(2 和 3)來做“虛擬實驗”:先在電腦裡篩選可能有價值的方向,再決定要不要投入真實實驗室資源。“它沒取代實驗,但確實極大增強了實驗效率。”下一波浪潮如今,許多初創公司和研究機構正在從 AlphaFold 出發,開發更專注於藥物發現的模型。例如今年 MIT 的研究人員與 AI 藥物公司 Recursion 合作,推出了一種名為 Boltz-2 的模型,它不僅能預測蛋白結構,還能預測潛在藥物分子與其靶點的結合效果;上個月,初創公司 Genesis Molecular AI 發佈了另一種結構預測模型 Pearl,該公司聲稱 Pearl 在某些與藥物開發相關的問題上比 AlphaFold3 更準確。Pearl 是互動式的,可以讓藥物開發者將任何額外的資料輸入模型,以指導預測。那新藥會因此更快出現嗎?Jumper 並不樂觀主義過頭:“蛋白結構預測只是生物研究中的一步。我們不是只差一個結構就能治癒疾病。”他打比方說:“如果我們真的只差十萬美元(過去確定一個蛋白結構的成本)就能完成某事,那這件事早就被做了。”但他仍希望結構預測能發揮更大作用:“既然我們現在有一把威力巨大的錘子,那就儘量讓它敲更多的釘子。”接下來呢?Jumper 的下一步計畫,是把 AlphaFold 的“垂直深能力”與 LLM 的“橫向理解能力”結合起來。“我們已經有能閱讀科學文獻、能進行部分科學推理的機器了;也有能在蛋白結構預測上達到超人水平的系統。現在的問題是:怎麼讓它們協同?”這讓筆者想到 DeepMind 另一個系統 AlphaEvolve——一個 LLM 生成假設,另一個模型負責篩選。它已在數學和電腦科學領域取得多個實際發現。我問他是否也在做類似方向,他只是微笑。“我不便多說。但如果未來 LLM 在科學發現中的作用越來越大,我一點也不會意外。這是一個巨大而開放的問題。”對於下一步的規劃?Jumper 說:“這多少讓我有些不安。我可能是 75 年來最年輕的化學獎得主。”他補充:“我現在大概處在職業中點。我的策略是從一些小想法開始,慢慢沿著線索往下拉。下一次我發表的成果,不需要是第二個諾獎的候選。我認為那是個陷阱。” (麻省理工科技評論APP)
那個最可能帶領人類達成AGI的男人,更新了終極路線圖:世界模型+人形機器人,再造下一個AlphaFold
Google DeepMind 的Demis Hassabis是我認為目前最有可能帶領人類達成AGI的人,除了本身就是技術天才以外,從他過往的深度採訪以及哲學觀點,對AI的理解非常牛逼,今天這篇文章是Demis剛剛在All-In Summit 的深度訪談,這是他最新的觀點Demis認為像Genie 3這樣的世界模型才是通往 AGI 的必經之路,讓 AI 真正理解我們所處的物理現實,由世界模型所引導的人形機器人是未來的機器人關鍵形態,Google內部正在推行機器人界的 Android戰略,Demis內涵了Sam Altman的GPT-5是博士級的AI說法,認為這是無稽之談,我們距離實現真正的AGI還需要5到10年,目前存在一到兩個關鍵的不存在的理論突破另外Demis還透露他領導者一家名為Isomorphic Labs 的公司,這家公司可以被看作是諾獎級成果 AlphaFold 的延伸,目標是建構一系列“鄰近的 AlphaFold”徹底顛覆藥物設計開發臨床試驗全過程Google DeepMind 的角色與 AlphaFold 的諾貝爾獎之路Demis Hassabis 首先分享了他獲得諾貝爾獎的經歷,這一榮譽不僅是對他個人成就的肯定,更是對 AI 在基礎科學領域取得歷史性突破的認可。他將獲得諾貝爾獎的整個過程描述為一種超現實的體驗,從接到瑞典的電話通知,到在斯德哥爾摩參加持續一周、充滿歷史感的頒獎典禮,每一步都令人震撼。其中最令他感動的時刻,是在一本擁有 120 年歷史的諾貝爾名冊上籤下自己的名字,與愛因斯坦、瑪麗·居里、費曼等科學巨匠並列。Hassabis 提到,諾貝爾獎的評選不僅看重科學突破本身,也極其關注其在真實世界中產生的深遠影響,而 AlphaFold 正是這樣一個典範在分享完個人榮譽後,Hassabis 清晰地定義了 Google DeepMind 在 Alphabet 集團中的戰略定位。他將 Google DeepMind 形容為整個 Google 和 Alphabet 的引擎室。經過內部整合,Google DeepMind 彙集了公司內所有頂尖的 AI 研發力量,形成了一個擁有約 5,000 名員工的強大團隊,其中超過 80% 是工程師和博士級研究員。這個團隊的核心任務是建構前沿的 AI 模型,並將其深度整合到 Google 的所有產品和服務中核心模型 Gemini:作為旗艦模型,Gemini 不僅是對話式 AI 的基礎,其多模態能力 (multimodal) 使其能夠處理和輸出文字、圖像、音訊、視訊等多種資訊格式。如今,全球數十億使用者已經通過各種方式與 Gemini 模型進行互動,例如 Google 搜尋的 AI 概覽 (AI overview)、Gemini 應用等,就在昨天 Gemini APP已經超越ChatGPT成為蘋果應用程式商店下載量第一的應用廣泛的產品整合:DeepMind 的技術正在被全面地融入到 Google 的生態系統中,包括 Workspace 辦公套件、Gmail 等,旨在提升使用者體驗和工作效率前沿與應用的結合:Hassabis 強調了 Google DeepMind 獨特的優勢,即能夠將最前沿的科學研究與大規模的商業應用緊密結合,實現從理論到實踐的快速轉化,讓最新的 AI 技術能立即觸達數十億使用者總而言之,Google DeepMind 不再僅僅是一個獨立的研究機構,而是驅動整個 Alphabet 集團智能化轉型的核心動力。它負責建構從基礎大模型到專有應用模型的全方位 AI 能力,並通過 AlphaFold 這樣的項目,展示了 AI 作為工具來解決人類最根本科學問題的巨大潛力Genie 3 世界模型在訪談中,Hassabis 重點介紹了 Genie 3 的革命性技術,它代表了 AI 在理解和生成物理世界方面的重大飛躍。Genie 3 是一個世界模型,其核心能力是僅通過單一的文字提示,就能生成一個可互動的、動態的虛擬世界。這與傳統的遊戲開發或視訊生成有著本質的區別傳統的 3D 虛擬世界建構,依賴於 Unity 或 Unreal 這樣的渲染引擎。開發者需要手動建立 3D 模型,編寫物理規則(如光線如何反射、物體如何碰撞),並設計所有互動邏輯。這是一個極其複雜且耗費人力的過程。而 Genie 3 的工作方式完全不同,它顛覆了這個流程:端到端的生成:使用者看到的每一個像素都是由 Genie 3 模型即時動態生成的。在使用者與環境互動之前,這個世界的某些部分甚至根本不存在。例如,在一個演示中,當玩家視角轉向一個新區域時,該區域的景象才被即時創造出來;當視角轉回時,之前留下的痕跡(如牆上的塗鴉)依然存在,這證明模型維持了世界的內部一致性逆向工程物理規律:Genie 3 的能力並非來自預設的物理程式碼,而是通過學習數百萬計的視訊和遊戲錄影等資料,自主地逆向工程出了我們世界運行的直觀物理規律。它理解了光影、水面反射、材質流動和物體行為等複雜現象,並將這些理解應用於世界的生成中,使得生成的環境看起來既真實又合乎邏輯即時互動與控制:Genie 3 生成的不僅僅是靜態視訊,而是一個可以被使用者控制的動態環境。使用者可以通過鍵盤的箭頭鍵和空格鍵等簡單操作,在生成的世界中移動和互動,例如控制一個穿著小雞套裝的人,或是在沙灘上奔跑的狗。使用者還可以通過輸入新的文字指令Hassabis 強調,建構像 Genie 3 這樣的世界模型,其戰略意義遠不止於遊戲或娛樂。它是實現通用人工智慧 (AGI) 的關鍵路徑之一。他認為,一個真正的 AGI 系統不能只理解抽象的語言或數學,它必須深刻理解我們所處的物理世界 。這種理解能力是實現以下目標的基礎:高級機器人技術:機器人要在現實世界中安全、有效地執行任務,就必須具備對環境的直觀物理感知和預測能力。Genie 3 所展現的能力,正是未來機器人模型所需要的核心智能助理與智能眼鏡:一個能夠在你日常生活中提供幫助的智能眼鏡助理,必須理解你所處的物理環境和上下文 (physical context),才能給出真正有用的建議多模態模型的演進:Genie 3 和 Google 的文生視訊模型 VEO,都是 Gemini 從一開始就追求多模態能力的體現。通過生成動態世界,AI 證明了它對世界動態規律的深刻理解,這比單純處理靜態資料要複雜得多Hassabis 個人對此項目感觸頗深,因為他在 90 年代曾親自編寫遊戲和圖形引擎,深知手動實現這一切的難度。看到 AI 能夠如此毫不費力地完成這些複雜的任務,讓他感到非常震撼。Genie 3 的出現,標誌著 AI 正在從理解內容,邁向理解並創造可互動的世界AI 在機器人領域的現狀與未來訪談中,Hassabis 深入探討了機器人技術,特別是視覺-語言-行為模型 (vision-language-action models) 的發展現狀和未來方向。這類模型的目標是建立一個通用系統,能夠通過攝影機觀察物理世界,理解人類的自然語言指令(文字或語音),並將其轉化為具體的物理動作Hassabis 指出,當前的 Gemini 模型已經具備了強大的物理世界理解能力,使用者可以通過手機上的 Gemini Live 功能,將攝影機對準周圍環境,體驗其神奇的識別和分析能力。而機器人技術,正是這一能力的自然延伸。Gemini 機器人模型:Google DeepMind 已經開發了專門的 Gemini 機器人模型,這是在通用 Gemini 模型的基礎上,使用額外的機器人資料進行微調的版本。這些模型能夠將高層次的語言指令,如“把黃色的物體放進紅色的桶裡”,直接轉化為機器人手臂精確的馬達運動。這種多模態模型的優勢在於,它能將現實世界的常識性理解帶入人機互動中,使得與機器人的溝通更加自然和直觀“機器人界的 Android”戰略:Hassabis 確認,Google 正在探索一種類似 Android 在移動裝置領域的策略,即建立一個通用的、跨平台的機器人軟體層或作業系統 (OS layer)。這個系統一旦足夠成熟,能夠適配多種硬體裝置,就有可能催生一個龐大的機器人硬體生態系統,極大地加速機器人產品和公司的發展垂直整合與端到端學習:除了平台化戰略,Google 也在探索將最新的 AI 模型與特定的機器人硬體設計進行深度垂直整合。這種端到端的學習方法 (end-to-end learning) 同樣具有巨大潛力,兩條路線都在積極推進中。關於機器人的具體形態,特別是人形機器人的價值,Hassabis 的觀點也發生了演變。他過去傾向於認為針對特定任務的專用形態機器人會是主流,例如在工廠流水線或實驗室中,最佳化形態以適應特定任務會更高效。然而,他現在認為,在通用或個人應用場景中,人形機器人可能至關重要與人類世界相容:我們的物理世界,從樓梯、門把手到各種工具,都是圍繞人類的形態設計的。與其大規模改造現有環境來適應機器人,不如設計一個能夠無縫融入這個環境的機器人形態,這在經濟和實踐上都更具可行性通用性與專業性的並存:他最終的結論是,未來將是兩種形態並存的世界。工業領域會有高度專業化的機器人,而在與日常生活互動的場景中,人形機器人將扮演重要角色儘管前景廣闊,Hassabis 也坦言機器人技術仍處於相對早期的階段。他預測,未來幾年內會出現一個令人驚嘆的wow moment,但在此之前,演算法和硬體都還需要進一步發展。他認為,當前的模型在可靠性和對世界的理解上仍需提升。同時,硬體方面也面臨一個關鍵的時機問題:過早地投入大規模生產,可能會導致工廠剛建成,新一代更靈巧、更可靠的機器人設計就問世了。他用一個計算歷史的比喻來形容當前的狀態,或許我們正處於個人電腦的70年代,但他也補充道,在這個時代,十年發生的事情可能在一年內就完成了邁向AGI 的挑戰:衡量標準、創造力與模型進展Hassabis 在訪談中詳細闡述了他對通用人工智慧 (AGI) 的看法,並指出了當前 AI 技術距離實現 AGI 所面臨的核心挑戰。他認為,AGI 的真正標誌不僅僅是完成任務的能力,更在於其是否具備人類頂尖科學家和藝術家所擁有的真正的創造力。他明確指出,當今的 AI 系統尚不具備這種創造力。它們可以證明一個已有的猜想,但無法獨立提出一個全新的、深刻的科學假說或理論。為了更具體地衡量 AGI,他提出了幾個極具挑戰性的測試標準:科學發現的再現:給一個 AI 系統設定一個知識截止日期,比如 1901 年,看它是否能像愛因斯坦在 1905 年那樣,獨立推匯出狹義相對論。如果 AI 能做到這一點,那將是 AGI 即將實現的有力證據從策略到創造:以 AlphaGo 為例,它雖然在圍棋比賽中擊敗了世界冠軍,並創造了“第 37 手”這樣前所未有的新策略,但這仍是在既定規則下的最佳化。一個真正的 AGI,應該能夠創造出像圍棋這樣優雅、美觀且富有深度的新遊戲,而不僅僅是玩好一個已有的遊戲根據 Hassabis 的分析,當前 AI 系統要達到 AGI 水平,主要缺失以下幾個核心能力:直覺飛躍 (Intuitive Leaps):頂尖的科學家之所以偉大,不在於他們的技術能力,而在於他們能夠進行創造性的、跨領域的聯想和模式匹配,實現直覺上的突破。目前的 AI 更擅長漸進式的改進,而非這種根本性的思維跳躍一致性與可靠性 (Consistency):他反駁了當前某些模型已達到博士級智能的說法,認為這種描述是無稽之談(此處內涵Sam Altman ,😁) 。雖然模型在某些方面表現出色,但它們在整體能力上遠未達到博士水平。一個簡單的問題,如果換種方式提問,模型就可能在高中數學甚至簡單的計數上犯錯。一個真正的 AGI 系統不應出現這種不一致性持續學習 (Continual Learning):模型需要具備線上學習的能力,能夠即時地接收新知識或根據反饋調整自身行為,而不是依賴於大規模的離線重新訓練基於以上判斷,Hassabis 預測,我們距離能夠完成上述任務的 AGI 系統大約還有 5 到 10 年 的時間。他傾向於認為,僅僅依靠擴大模型規模 (scaling) 可能不足以實現 AGI,我們可能還需要 一到兩個目前尚未出現的理論性突破同時,他也回應了關於大語言模型性能增長放緩或趨於一致的觀點。他表示,在 Google DeepMind 內部,他們並未觀察到這種停滯。相反,他們仍然看到技術以極快的速度在進步。他認為,外界之所以有這種感覺,可能是因為只關注了語言模型這一個維度。而 Google DeepMind 正在更廣闊的領域取得突破,例如前面提到的 Genie 世界模型、VEO 視訊模型,以及像 Nano-Banana 這樣的創意工具,這些都展示了 AI 能力仍在飛速擴展AI 賦能科學與創意:從 Isomorphic Labs 到 Nano-BananaHassabis 強調,利用 AI 加速科學發現和改善人類健康,是他投身 AI 事業的初衷和最終目標。他認為這是 AI 最重要的應用方向,而 AGI 將成為科學研究的終極工具。DeepMind 在這方面已經取得了一系列成就,除了眾所周知的 AlphaFold,AI 還被應用於材料設計、控制核聚變反應堆中的電漿體、天氣預測以及解決奧數難題等多個領域為了將 AI 在生物科學領域的突破商業化並產生更大影響,Hassabis 同時還領導著一家名為 Isomorphic Labs 的公司Isomorphic Labs 的使命:這家公司可以被看作是 AlphaFold 的延伸。AlphaFold 解決了蛋白質結構預測這一關鍵問題,但這只是藥物發現漫長流程中的一步。Isomorphic Labs 的目標是建構一系列“鄰近的 AlphaFold” (adjacent AlphaFolds),用 AI 解決藥物研發中的其他瓶頸問題,例如設計能夠精確結合到蛋白質特定靶點且副作用最小的化學分子重塑藥物發現流程:Hassabis 的願景是,在未來十年內,利用 AI 將傳統需要數年甚至十年的藥物發現周期,縮短到幾周甚至幾天。目前,Isomorphic Labs 已經與禮來 (Eli Lilly)、諾華 (Novartis) 等製藥巨頭建立了合作夥伴關係,並擁有自己的內部藥物研發項目,專注於癌症、免疫學等領域。他透露,預計明年將進入臨床前階段除了硬核的科學應用,Hassabis 也對 AI 在創意領域的潛力感到興奮,並以 Google 最近火爆全網的圖像生成工具 Nano-Banana 為例,闡述了 AI 如何實現“創造力的大眾化” 。Nano-Banana 的獨特之處:它不僅是一個頂級的圖像生成器,其最強大的特性之一是一致性和對指令的精確遵循。使用者可以反覆迭代,對圖像的特定部分進行修改,而模型會保持其他部分不變。這種可控性讓使用者能夠最終得到自己心中所想的完美效果賦能專業人士與大眾:Hassabis 認為 AI 創意工具將帶來兩個層面的影響1.大眾化:像 Nano-Banana 這樣的工具,讓任何沒有專業技能(如 Photoshop)的普通人都能輕鬆創作出高品質的視覺內容,無需學習複雜的軟體介面。這極大地降低了創作的門檻2.超級賦能專業人士:同時,AI 也為頂尖的專業創作者(如電影導演)提供了強大的助力。它能讓這些專業人士的生產力提升 10 倍甚至 100 倍,他們可以低成本、快速地嘗試各種創意想法,從而更快地實現其藝術願景未來的娛樂形態:Hassabis 展望,未來的娛樂可能會演變成一種新的藝術形式,其中包含共同創作的元素。頂尖的創意大師將建構引人入勝的動態世界和故事情節,而普通使用者也能在這些世界中進行某種程度的共同創作。這種互動式的、個性化的內容體驗,將由像 Genie 這樣的技術驅動,最終可能改變我們消費和參與娛樂內容的方式AI 的底層架構與未來展望:混合模型、能源消耗與科學黃金時代在訪談的最後部分,Hassabis 深入探討了支撐 AI 發展的底層技術架構、備受關注的能源問題,並對未來十年做出了展望。關於模型架構,他解釋了當前許多先進 AI 系統,包括 AlphaFold,實際上採用的是一種混合模型的設計。這種架構結合了兩種不同方法的優點:機率性學習元件:這部分基於神經網路和 Transformer 等技術,從海量資料中學習模式和規律。它具有強大的泛化能力,但其表現依賴於資料的質量和數量確定性規則元件:在許多科學領域(如生物、化學),我們並沒有足夠的資料來讓模型從零開始學習所有知識。因此,需要將一些已知的、確定性的物理或化學規則(例如原子間的鍵角、原子不能重疊等)作為約束或先驗知識直接建構到模型中Hassabis 指出,這種混合架構的挑戰在於如何讓學習系統和手工設計的規則系統協同工作。AlphaGo 就是一個典型的例子,它結合了用於評估棋局模式的神經網路和用於規劃搜尋的蒙特卡洛樹搜尋演算法。他認為,最終的目標是儘可能將規則元件中的知識“上游化” (upstream it into the learning component),即通過改進學習演算法,讓模型能夠通過端到端學習自主發現這些規律,就像 AlphaZero 所做的那樣,它擺脫了對人類棋譜資料的依賴,實現了更強的通用性對於 AI 發展帶來的能源消耗激增問題,Hassabis 提出了一個雙向的觀點。效率的提升:一方面,Google DeepMind 一直在努力提升模型的效率。因為服務數十億使用者的內部需求(如 AI 概覽)要求模型必須具備極低的延遲和成本。通過蒸餾等技術(用一個大模型來訓練一個性能相近的小模型),過去兩年模型的效率已經提升了 10 倍到 100 倍前沿探索的需求:另一方面,儘管伺服器端的模型效率在提高,但對能源的總需求並未減少。這是因為研究人員仍在不斷探索 AGI 的邊界,需要訓練更大、更複雜的前沿模型AI 的能源回報:他堅信,從長遠來看,AI 為解決能源和氣候變化問題所做的貢獻,將遠遠超過其自身的能源消耗。AI 可以在最佳化電網系統、設計新型材料和能源、提升能源使用效率等方面發揮巨大作用最後,當被問及對未來十年的預測時,Hassabis 認為,我們將在未來十年內擁有真正的 AGI。而 AGI 的到來,將開啟一個科學的新文藝復興和黃金時代。屆時,從能源到人類健康,各個領域的科學發現都將以前所未有的速度湧現,深刻地改變人類社會 (AI寒武紀)