GoogleAlpha家族再登Nature封面!刷新基因組預測SOTA,精準定位遠端致病突變

GoogleAlpha家族,再登Nature封面!

這次推出的全新成員AlphaGenome,將AI的預測疆域拓展到了最為宏大且神秘的人類基因組圖譜

AlphaGenome能夠同時對11種不同的基因調控過程進行綜合預測,精準捕捉基因深處的複雜互動。

它能深入分析複雜的基因剪接機制,識別細胞如何從單個基因生成多種蛋白質,以及這一過程何時會出錯導致疾病。

例如,AlphaGenome對白血病相關基因TAL1的致病突變進行了精準還原,精準預測出8000個鹼基之遙的區域發生的突變引起病變。

這能讓人類更進一步瞭解免疫細胞失控增殖引發癌症的深層成因,同時也證明了該模型不僅能處理已知資料,更能對從未見過的DNA片段及其未知突變做出精準預測。

綜合成績方面,其預測性能在各項測試中均持平或超越現有程序,成為當前基因組預測領域的SOTA模型。

目前,Google DeepMind已面向非商業研究開放AlphaGenome API。

同時預測11種基因調控過程

AlphaGenome建構了一個統一的預測框架,單次推理即可覆蓋基因組的廣泛特徵。

該模型直接對11種不同的生物學過程進行綜合預測,涵蓋了基因表達(RNA-seq)、轉錄因子結合、組蛋白修飾,以及染色質在三維空間中的折疊接觸圖譜。

不僅預測範圍廣泛,精度方面,在各項嚴格的基準測試中,AlphaGenome也刷新了多項紀錄。

在針對基因組軌跡預測的24項評估中,它取得了22項SOTA

以及在直接關聯疾病研究的變異效應預測任務中,它與Borzoi、Enformer等現有模型進行了26輪對決,並在25輪中勝出,證明了其在捕捉微小基因變異後果上的精準度。

在極其複雜的RNA剪接過程中,AlphaGenome實現了對剪接動力學的完整模擬。它能夠同時計算剪接位點(Splice sites)、位點使用率(Usage)以及具體的剪接連接點(Splice junctions)。

以動脈組織中的DLG1基因案例為例,DNA序列中一個微小的4鹼基缺失(TACTC>T),就會導致關鍵的外顯子被錯誤跳過。

AlphaGenome精準捕捉到了這一連串反應,計算出受影響外顯子的使用率大幅下降,並直接描繪出了因此產生的那條異常剪接連接通路。

除了編碼基因,基因組的奧秘同樣散佈在廣闊的非編碼區中,對於這部分基因序列,AlphaGenome利用其長程預測能力,解析了距離靶基因超過10kb的遠端增強子。

這種對“超距作用”的掌控,解決了全基因組關聯分析(GWAS)中的核心難題——

GWAS雖然能找出大量與疾病相關的變異位點,但這些位點絕大多數位於非編碼區,往往距離它們真正影響的靶基因數千甚至數萬鹼基之遙。

在測試中,AlphaGenome成功為49%的GWAS相關位點指明了明確的調控方向,解析率大幅超越了傳統方法。

這種能力在白血病相關基因TAL1的研究中得到了直觀驗證,AlphaGenome成功鎖定了一個距離TAL1基因轉錄起始位點8000個鹼基之遙的插入突變,並給出了完整的致病邏輯鏈條。

模型預測,這個突變在原本沉寂的區域創造了一個MYB轉錄因子的結合位點。

隨後的In Silico Mutagenesis (ISM) 分析進一步揭示,這個新出現的位點招募了H3K27ac等活性標記,形成了一個新增強子(Neo-enhancer)。

正是這個新誕生的開關,遠端強制啟動了本應關閉的TAL1基因,最終導致T細胞癌變。

AlphaGenome所展現的這些能力,不僅提升了從DNA序列預測分子表型的精準性,也為解析非編碼區變異的生物學功能提供了可操作的預測手段。

那麼,AlphaGenome背後都有那些關鍵技術呢?

CNN+Transformer混合架構

為了實現高精度的基因組預測,AlphaGenome採用了一種基於U-Net的混合主幹網路,融合了摺積神經網路與Transformer的技術優勢

該架構利用摺積層提取局部的DNA序列特徵,同時引入Transformer模組利用注意力機制捕捉跨越長距離的鹼基依賴關係

這種混合設計最終生成了兩種形式的嵌入表示,分別是用於預測線性基因組功能軌跡的一維嵌入,以及專門用於重構染色體在三維空間中折疊結構(接觸圖譜)的二維嵌入。

在U-Net結構的具體設計中,編碼器通過摺積模組逐步降低序列解析度以提取高維特徵,中間層的Transformer塔在低解析度下處理長程資訊,最後解碼器通過跳躍連接(Skip connections)逐步恢復至單鹼基解析度。

基於這一架構,AlphaGenome將輸入窗口擴展到了100萬個鹼基對(1Mb),足以覆蓋絕大多數遠端增強子與啟動子之間的相互作用區域,確保模型在進行預測時擁有完整的上下文視野。

支撐該模型訓練的是一個覆蓋人類與小鼠雙物種的工業級規模資料集。

模型利用了來自ENCODE、GTEx及4D Nucleome Project等公開資源,針對人類基因組的5930種功能軌跡和小鼠基因組的1128種功能軌跡進行了端到端的監督學習。

這些資料覆蓋了不同的組織、細胞類型及細胞系,確保模型能夠學習到基因調控在不同生理環境下的通用規則。

在訓練策略上,AlphaGenome實施了一套兩階段流程以兼顧泛化能力與推理效率。

第一階段為預訓練,採用了嚴格的4折交叉驗證策略,將基因組劃分為互不重疊的區間,確保模型在未見過的測試集上進行評估。

第二階段採用了蒸餾策略,研究團隊建構了一個由所有預訓練模型組成的全折疊教師模型集合,並用它們來指導單個學生模型進行學習。

在此過程中,系統引入了嚴苛的資料增強策略,包括隨機移位、反向互補,甚至引入了隨機突變。

這種高難度的訓練迫使學生模型不僅僅是記憶訓練資料,而是必須掌握DNA序列背後深層的語法規則,從而在面對未見過的變異時表現出更強的魯棒性。

工程化方面,AlphaGenome利用序列平行(Sequence Parallelism)技術,將1Mb的長輸入序列切分為多個片段(如131 kb),並分配至8個互聯的TPU v3裝置上同步計算。

這種軟硬體協同的架構,使得模型能夠在保持單鹼基解析度精度的同時,完成大規模訓練任務,最終得到的蒸餾模型在單個GPU上僅需不到1秒即可完成推理。

參考連結:
[1]https://www.nature.com/articles/s41586-025-10014-0
[2]https://deepmind.google/blog/alphagenome-ai-for-better-understanding-the-genome/
[3]https://www.nytimes.com/2026/01/28/science/alphagenome-ai-deepmind-genetics.html (量子位)