80後諾獎得主:AlphaFold下一步融合大模型

正值AlphaFold問世五周年,其設計者、也是憑藉AlphaFold獲得諾貝爾化學獎的John Jumper公開表示:

AlphaFold的下一步是與大模型整合。

不過具體方法並沒有透露,或許已有所思路,甚至已經在進程之中。

五年期間,AlphaFold已經幫助全球300多萬研究人員,預測了數億種蛋白質的三維結構,並影響了超50萬篇相關論文。

可以說,這是繼量子力學和分子生物學革命後,生命科學的另一個重大躍遷。

繼最初的「結構預測革命」、隨後的「科研常規工具」化,AlphaFold及其繼承技術正進入新的大模型階段。



AlphaFold+大模型

即使在AI浪潮不斷湧來的今天,AlphaFold仍然是AI+生命科學最具里程碑意義的一次落地。

作為由GoogleDeepMind開發的AI科研工具,AlphaFold能夠精確預測蛋白質的三維結構。

利用儲存在序列和結構資料庫中的大量實驗數據,該網絡被訓練以發現氨基酸序列之間的關聯和模式。

2020年首次公開AlphaFold2以來,它迅速成為結構生物化學領域的堅實基座,接著又陸續推出了可預測多個蛋白質結構的AlphaFold Multimer,以及迄今為止速度最快的AlphaFold 3。

現在AlphaFold已從最初單純地蛋白質結構預測,發展到能夠處理更為複雜的多分子複合體以及更廣泛的生物分子交互作用。

科學家也據此,實現了相當多的成果突破:

例如最近來自密蘇里大學的研究團隊,借助AlphaFold,成功揭開了心血管疾病的秘密——壞膽固醇(LDL),並刊登上了《Nature》。

LDL是動脈粥狀硬化、冠心病等心臟疾病的主要風險因子,核心由ApoB100蛋白組成,但由於其體積巨大、結構複雜,同時又與脂肪緊密纏繞,長期以來科學家都無法確認它的原子級三維結構。

於是他們利用AlphaFold先對其胺基酸序列進行結構預測,再將產生的模型擬合到密度圖中,並逐步優化,直到與實驗數據對齊。

最終揭示了ApoB100的籠狀結構,為後續推動心血管疾病治療提供了理論基礎。

再比如說,利用AlphaFold研究蜜蜂的抗病性

研究聚焦於蜜蜂體內的關鍵蛋白Vitellogenin(簡稱Vg),該蛋白不僅支持群體後代餵養,也與蜜蜂的免疫力、抗壓力息息相關。

在AlphaFold的幫助下,研究人員得以在兩天時間內完成過去數年的工作,解密了Vg蛋白的近原子級結構模型,對瀕危族群的保育起到了關鍵性指導作用。

另外,AlphaFold在一些非常規用法上也依舊作用顯著。

去年與John Jumper同獲諾貝爾化學獎的計算生物學家David Baker,就正在嘗試利用AlphaFold預測蛋白質合成設計的成功率。

或者有些團隊​​也會將AlphaFold當作搜尋引擎使用,在成千上萬個候選蛋白中篩選出最有可能與目標蛋白結合的一種。

……

總之,AlphaFold的作用不勝枚舉,它已經不僅僅是單一的結構預測工具,更是當代實驗設計的重要組成部分之一。

那麼接下來AlphaFold又將何去何從呢?

據John Jumper所說,下一步將會是AlphaFold與更廣泛的AI大模型結合

AlphaFold仍將持續推動結構預測成為研究流程中的基礎一環,但同時,其結構預測能力也會同大模型強強結合,提升到能讀懂科學文獻資料、做科學推理的程度。

也就是說,接下來的AlphaFold在預測結構之外,或許還能提出假設、設計實驗流程甚至自動產生研究思路。

對於一些較複雜的多分子多功能係統,例如蛋白質之間的相互作用、核酸(DNA/RNA)的相互作用等,AlphaFold也能更好地幫助理解對應的生物過程。

這就好比Google的另一個系統AlphaEvolve,使用一個大模型來產生問題的解決方案,然後再用第二個模型負責檢查並過濾掉錯誤訊息。

二者思路類似,不過一個面向數學和電腦科學領域,一個立足生物化學。



首位「80後」諾獎得主

負責領導開發AlphaFold的,則是DeepMind創辦人兼CEO哈薩比斯John Jumper

其中,John Jumper還是最年輕的諾貝爾化學獎得主,也是第一位80後諾獎得主

他本科就讀范德堡大學,主修數學和物理,隨後在劍橋大學獲得理論凝聚態物理碩士,並在芝加哥大學博士期間轉向理論化學。

他的博士論文是研究如何將機器學習技術應用於蛋白質動力學研究。

2017年,正在讀博士後的他聽說了GoogleDeepMind正在從遊戲AI開發秘密轉向蛋白質結構預測,於是他申請了這份工作。

事實上,在AlphaFold之前,GoogleDeepMind就嘗試了名為「Foldit」的蛋白質折疊遊戲,這還是因為哈薩比斯從劍橋求學時代起就對蛋白質折疊問題的關注,他希望透過預測蛋白質結構,找到解決阿茲海默症等疾病的方法。

但遊戲終歸只是遊戲,在面對真實的分子結構上顯然不夠用,因為真實的蛋白質折疊的訓練資料極為固定有限。

要確定一個蛋白質結構,往往需要耗費數月甚至數年時間,而這個過程已經持續了將近半個世紀

於是他們轉向研發了AlphaFold

雖然初代AlphaFold在第13屆CASP(蛋白質結構預測關鍵評估賽事)中嶄露頭角,成功預測出43個蛋白質中的其中25個,力壓其餘的97名參賽者,證明了用“機器學習+統計信息”推斷蛋白質結構是可行的。

但哈薩克言,當時的預測品質還不足以讓生物學家在實際中應用,其針對複雜蛋白的準確性、泛化性還存在嚴重缺陷。

在意識到僅依靠標準的機器學習方法無法取得成功後,DeepMind內部專門成立了一個攻堅小組,利用Transformer推翻重構了AlphaFold 2,並逐步融入生物學專業知識。

但早期的AlphaFold 2表現相比AlphaFold 1還有所下滑,這也一度讓他們害怕方向是否有錯誤。於是在這個階段他們採取一種交替模式——

一方面嘗試將舊系統性能壓榨到極限,一方面給予新系統的研發團隊自由試誤的空間:允許短期的性能下降,只求不斷嘗試各種新想法。

直到某一天奇蹟發生,它突然變得非常好。

那天早上,團隊其中一個成員上班打開電腦,突然發現AlphaFold 2在某一組蛋白質上表現出奇地好,預測的結構精度達到了1.5埃,大約相當於一個原子的寬度。

但她的第一個反應不是興奮,而是害怕,因為結果好到讓她確信自己犯了錯誤,於是接下來幾天她和團隊成員一起試圖找出錯誤原因。

結果事實上,這裡沒有錯誤——換言之,新系統成功了

於是他們參加了CASP 14競賽,並專注於攻克了一個名為ORF8的SARS-CoV-2冠狀病毒蛋白。

結果讓人震驚,準確度均分從原先的60+/100,提升至92.4/100,而此前其它方法還停留在40分左右。

至此,這個困擾學界50餘年的重大挑戰──蛋白質折疊問題終於得到了解決方案。

而在取得突破之後,DeepMind更是將AlphaFold的程式碼全部開源,並向全世界免費發布了2億個蛋白質的結構預測資料。

AlphaFold的出現,標誌著生物化學領域正式向AI智能發展,也讓哈薩比斯和John Jumper獲得了2024年的諾貝爾化學獎。

諾獎組委會是這樣評價這份工作的:

毫不誇張地說,AlphaFold在結構生物化學領域引發了革命,並為設計前所未見的蛋白質開闢了全新的可能性。

但在此之前,John Jumper接受採訪時曾謙遜地表示,自己的獲獎機率只有10%,他更多的是期待能有越來越多科學家利用AlphaFold實現醫學和生物學的突破。

而現在,他對自己未來的規劃是:

作為年輕的諾獎得主,這讓我感到擔憂。接下來我將嘗試做一些深入研究的小事情,而對於第二次衝擊諾貝爾獎,我認為那是個陷阱。(量子位元)