Nature封面!GoogleDeepMind開源“生命底層程式碼”,一鍵破解98%基因暗物質!

就在今天,GoogleDeepMind開源人類底層程式碼!

AlphaGenome登上了Nature封面,標誌著 DeepMind 在生物計算領域繼 AlphaFold 之後再下一城。

相較於同類模型,AlphaGenome能夠一次性輸入100萬個鹼基對,並在單鹼基對的精度上預測數千種表徵其調控活性的分子特性。

這是DNA領域的里程碑式突破。

如今,AlphaGenome只需讀入一段DNA序列,提取調控基序與表徵活性,便可對數千種分子特性高度預測。

該研究也得到了醫學大佬的認可,美國醫學院院士,斯克里普斯研究轉化研究生的創始人和主任Eric  Topol表示,這是AI在生命科學方面的又一大進步。

早在2025 年6月,DeepMind就率先在 bioRxiv 發佈 AlphaGenome 預印本並推出 API,目前已經有來自160個國家的3000多名研究人員使用。

如今,該成果被《自然》正式刊發,團隊正式對外開源了全部研究程式碼和模型權重。

我們可以期待,在完全開放原始碼的情況下,有多少人類基因秘密被科學家們解開。

解鎖人類98%的“垃圾基因”

AlphaGenome由Google DeepMind的負責人DemisHassabis領導,他此前憑藉蛋白質模型AlphaFold2,獲得了2024年諾貝爾化學獎。

Demis Hassabis曾放出豪言:「未來十年,AI將治癒所有疾病」

而AlphaGenome出世意味著,人類向理解生命本質又邁進一大步。

要知道,距離全球科學家完成人類基因組測序,已經過去了23年了。

但迄今為止,科學家仍然沒能解開DNA的秘密。

以往的觀點認為,人類DNA僅有2%,剩下的98%都是DNA都是“無用”的非編碼區。

然而,現在剩下的98%並非是無用的基因,其中蘊含著豐富的調控資訊,包括調控基因開關、影響胚胎發育、參與形成特殊RNA、維持染色體結構等。

因此AlphaGenome,其核心意義正是為瞭解碼這98%的“暗物質”區域。

它能夠系統預測非編碼DNA序列的功能和變異影響,幫助科學家從海量無用資訊中高效篩選出真正具有生物學意義的寶藏,從而理解疾病機制、助力藥物研發。

解開人類底層密碼

該模型基於Google DeepMind 的基因組學模型 Enformer 建構,採用Loop-aware 架構,並和此前推出的預測編碼區變異的AlphaMissense互補。

同時,AlphaGenome整合了人類和小鼠的基因組資料,包含5930 條人類以及1128 條小鼠基因組訊號,這些訊號與基因表達、DNA 可及性和剪接等功能相關。

這也讓AlphaGenome做到了以往同類模型到達不了的高度。

1、又長又精準,100萬鹼基對的長序列輸入

此前的模型要麼能處理長序列但解析度低(如Enformer和Borzoi),要麼解析度高但只能處理短序列(如SpliceAI和BPNet)。

但AlphaGenome它一次就能掃描長達100萬個DNA鹼基對的廣闊區域,與此同時它做到了能夠預測到單個鹼基對的精度

2、多模態大模型,多個任務一次搞定

現有模型要麼專注於單一任務,例如剪接預測等,要麼是多模態但某些任務表現不佳。

而AlphaGenome能夠做到一次輸入後,可以同時預測基因變體對數千種基因組的影響,包括基因表達、組蛋白修飾、剪下等各個方面,科學家不用再切換多個工具了。

更重要的是,AlphaGenome做到了性能全面領先。

對單條DNA 序列進行預測時,AlphaGenome 在 24 項評估中有 22 項表現優於最佳外部模型。

而在預測變異的調控效應時,它在 26 項評估中有 24 項表現與最佳外部模型相當或更優,尤其在預測eQTL方向上,比此前最佳模型提高超25%。

RNA剪貼錯誤是造成疾病的常見原因,AlphaGenome的創新性在於,能夠直接從序列預測剪下點。

在7個權威的剪接變異基準測試中,AlphaGenome在其中6個上實現了SOTA 性能,包括根據ClinVar、sQTL因果關係和GTEx剪接異常值預測剪接變異的致病性。

除了能夠預測多種分子特性外,AlphaGenome還能在一秒鐘內高效評估一個基因變異對所有這些特性的影響。

它通過對比突變序列與未突變序列的預測結果,並針對不同模態採用不同方法高效總結這種對比來實現這一功能。

不僅如此,對比此前的預印本,DeepMind團隊還最佳化了以下內容。

更好地理解生命

就在論文發佈同一天,DeepMind還上傳了一支視訊,邀請團隊對該工作進行分享。

針對後續如何完善AlphaGenome,團隊表示:

1、拓展對複雜變異類型的預測支援,使模型能解讀更真實的臨床與科研遺傳變異,覆蓋更多疾病機理

2、提升易用性,將數千個複雜評分彙總為更易解讀的單一評分

3、拓展資料與物種範圍,目前只包含人類和小鼠,未來可能納入更多物種和更多細胞類型的資料

這些都將進一步提高AlphaGenome在實際科研中的實用性。

從AlphaFold再到AlphaGenome,DeepMind打開了一扇窺見生命與疾病最根本過程的窗口。

近期科技女皇木頭姐的一份報告,再次點燃了人們對AI+醫療保健的熱情。

報告預測,到2030年,測序整個人類基因組的成本可能下降約十倍,降至10美元(如今約100美元)。

測序成本降低將導致資料量增長10倍,意味著人類基因資料將遠遠超過現有的數量。

當然,海量資料本身不是價值,解讀才是。

AlphaGenome正是為解讀資料中最複雜、資訊量最大的DNA序列而生,能將原始資料轉化為可理解的生物學知識。

當前,AlphaGenome已經學會了DNA的基本原理,未來有望為為罕見病診斷、癌症精準醫療、藥物靶點發現提供新途徑。

包括但不限於:

發現新的疾病標記物和藥物靶點(尤其是在非編碼區)

解釋患者基因檢測結果,指導精準用藥

設計合成生物學元件,為基因療法和細胞療法提供設計工具

此外,它在預測RNA剪接異常等方面的能力,對於理解許多罕見病和癌症至關重要,能直接推動相關藥物研發。

可以預見,未來的多組學AI平台可能會整合類似AlphaGenome的先進基因組模型,使其與蛋白質、代謝組等模型協同工作,形成一個統一的生命系統模擬與預測環境。

屆時,人類不只是能夠獲得DNA資料,而是真正理解生命的運行。 (智藥局)