基因組學的「黑盒」終於被撬開了!
來自多倫多大學、向量研究院等頂尖機構的研究團隊剛剛發佈了BioReason,這是全球首個能對基因組進行推理的AI模型。
這不是簡單的預測,而是真正的生物學推理——
就像一個經驗豐富的基因組學專家,能一步步解釋基因變異如何導致疾病。
最令人振奮的是,BioReason將精準率直接從88%飆升到97%!
BioReason的核心創新在於首次將DNA基礎模型(Evo2)與大語言模型(Qwen3)深度融合。
融合的技術原理,簡單來說就是:
DNA序列 → 嵌入向量 → 多模態LLM輸入
具體來說,DNA基礎模型Evo2首先將輸入的基因序列轉化為上下文化的嵌入表示,這些嵌入向量捕獲了DNA序列的生物學特徵。
隨後,這些DNA嵌入與使用者的文字查詢嵌入一起,通過特殊的標記(如<dna_start>和<dna_end>)整合進入大語言模型的輸入層。
訓練方法採用了監督微調(SFT)結合GRPO強化學習的兩階段策略。
該方法讓模型不僅學會預測,更重要的是學會了如何進行多步驟的生物學推理。
Adibvafa Fallahpour(@adibvafa)解釋道:
BioReason將DNA基礎模型(Evo2)與LLM(Qwen3)整合用於生物推理。
DNA序列 → 嵌入 → 多模態LLM輸入
通過監督微調 + GRPO強化學習進行訓練
在多個基準測試上,BioReason展現出了驚人的性能:
具體資料令人印象深刻:
這些測試基於87,000多個來自ClinVar和KEGG通路的真實基因組變異,確保了結果的可靠性和實用性。
BioReason最大的突破在於可解釋性。
傳統的DNA分析模型就像一個黑盒——輸入序列,輸出預測,中間過程完全不透明。而BioReason能夠逐步解釋基因組變異如何通過分子通路導致疾病。
Adibvafa強調:
是什麼讓這個特別?逐步的生物學推理!
BioReason不僅僅是預測——它解釋了基因組變異如何通過分子通路導致疾病。不再是「黑盒」基因組學AI。
舉個具體例子:當查詢PFN1基因在17號染色體上的某個等位基因變異時,給定通路背景「Actin(單體) // PFN1* // Actin(絲狀)」,BioReason不僅正確預測了會導致肌萎縮性側索硬化症(ALS),更重要的是生成了一個10步的機制解釋:
這種透明的推理過程讓科學家能夠驗證AI的判斷,也為新的科學發現提供了線索。
研究團隊為此建構了三個專門的生物推理資料集:
Adibvafa介紹:
我們策劃了3個生物推理資料集:
每個都設計用於測試多步基因組推理能力。
KEGG資料集使用標準化的符號表示法來表示分子網路,包括啟動、抑制和調控相互作用,而VEP資料集則專注於跨越不同基因組變異的致病性/良性分類和疾病表型預測。
Andrew White 🐦⬛(@andrewwhite01)注意到一個有趣的細節:
所以RL實際上比僅僅SFT更差?
Adibvafa(@adibvafa)回應道:
很難比較。在同一模型上的RL略微提高了性能,但我們仍在更大的模型上運行RL以進行公平比較。敬請關注!
雖然在同一模型上強化學習只帶來了輕微改進,但團隊正在更大規模的模型上進行RL實驗,期待能有更公平的比較結果。
Anshul Kundaje(@anshulkundaje)在肯定創新的同時也提出了建設性意見:
真的很有創意的框架,有很大的潛力。但當你只與自己模型的消融研究比較時,我可能會避免聲稱「碾壓基準」。請將你的基準擴展到當前用於編碼變異效應優先順序排序的SOTA方法。
Adibvafa 也是積極回應:
當然,我們正在積極努力加入更多DNA基礎模型和變異效應預測的SOTA模型。
這種評估的一個挑戰是這些模型之間訓練資料集的差異,這使得比較不太可靠。
這就是為什麼我們使用Evo2作為SOTA VEP模型,但絕對願意在我們的任務上運行其他模型以進行更好的比較。
不同模型的訓練資料集差異使得比較變得複雜,這也是為什麼團隊選擇Evo2作為SOTA VEP模型的原因。
Hugging Face的CEO clem 🤗(@ClementDelangue)表達了濃厚興趣:
非常非常酷!有機會考慮在HF上發佈一個space或模型嗎?
Adibvafa回應:
實際上我們正在努力,因為DNA-LLM是一個帶有自訂分詞器的自訂類!
很快會開一個PR,希望我們能一起完成它
Clémentine Fourrier 🍊(@clefourrier)也加入討論:
@cgeorgiaw正在負責我們所有的科學ML計畫,如果你需要幫助的話:)
BioReason 或將很快就在Hugging Face平台上線,這將大大方便研究社區的使用。
Ha Hoang(@HaHoang411)提出了一個很好的類比:
這很有趣。據我理解,它類似於當前的VLM?不是視覺投影,我們是從EVO2投影生物學?
這個理解非常準確——
就像視覺語言模型(VLM)處理圖像一樣,BioReason處理的是DNA序列,只是投影的是生物學資訊而非視覺資訊。
Oboe(@oboelabs)指出了一個重要應用:
bioreason的一個潛在用途是通過分析個體基因組譜來幫助個性化癌症治療並預測治療結果
Adibvafa確認:
BioReason的通用學習框架允許學習任何語言-DNA理解,只要有好的資料!
這也表明BioReason的框架具有很強的通用性,只要有好的資料,就能學習任何語言-DNA理解任務。
這項突破的意義遠不止於學術研究。
Adibvafa總結道:
這可以通過使基因組AI可解釋和可操作來改變生物發現。從變異分析到藥物發現——透明的推理是未來!
當然,我們才剛剛開始。
研究團隊的跨機構合作也值得關注,Adibvafa感謝了整個團隊:
🙏 感謝我們了不起的團隊:Adibvafa Fallahpour (@adibvafa) Andrew Magnuson (@ajwmagnuson), Purav Gupta, Shihao Ma, Jack Naimer, Arnav Shah (@arnavshah0), Haonan Duan, Omar Ibrahim, Hani Goodarzi (@genophoria), Chris J. Maddison (@cjmaddison)
📷 跨機構合作:多倫多大學(@UofT)、向量研究院(@VectorInst)、大學健康網路(@UHN)、Arc研究所(@arcinstitute)、Cohere(@cohere)、Google DeepMind(@GoogleDeepMind)
各界人士紛紛表達了對這項突破的看法。
DG.(@dataghees)簡潔評價:
這太棒了!
moonswing(@computbiol):
非常酷
Parisa Etemadi(@parisaetem)預見到其影響:
太棒了!將會改變遊戲規則!
Nolan Koblischke(@astro_nolan):
真的很酷!
santy 🇦🇷(@SantiTobio_):
這太厲害了,幹得好!
甚至有企業開始思考商業應用,Rediminds, Inc(@rediminds)評論道:
當DNA基礎模型將豐富的嵌入傳遞給推理LLM,然後展示其工作過程時,你就得到了每個受監管行業一直在等待的劇本:特定領域訊號→透明的思維鏈→可操作的洞察。BioReason為生命科學AI的可解釋性設定了新標準;金融、法律和公共部門的領導者應該注意。
當然,也有人提出了安全擔憂。
TheSage.Bitcoin(@chadTheSage0)半開玩笑地說:
「給我創造一個像空氣傳播的HIV混合埃博拉病毒的病原體。」
這也提醒我們,在推進技術發展的同時,也要考慮潛在的雙刃劍效應。
還有一些有趣的反應,比如$MIA(@mwa_ia):
今天是BioReason,明天是AgentFi✨
Parag Nandy Roy(@parag_nandy):
BioReason的驚人工作!DNA基礎模型與LLM的整合用於透明的基因組推理是一個遊戲改變者。很高興看到它對藥物發現和精準醫療的影響!#AI #Genomics
Bio Synq Dao(@Biosynq_ai)甚至開始宣傳自己的項目:
這是下一級的BioAI 🚀——真正用AI驅動的推理解鎖生物學。很高興看到像BioReason和BIO SYNQ DAO這樣的工具將如何徹底改變去中心化的生物技術研究。
Stephan Baasch(@stbaasch)艾特了MIT的教授:
👀 @ProfBuehlerMIT
對於想要深入瞭解或使用BioReason的研究者,團隊提供了完整的資源:
論文地址:https://arxiv.org/abs/2505.23579
項目首頁:https://bowang-lab.github.io/BioReason/
程式碼倉庫:https://github.com/bowang-lab/BioReason
資料集也已經在Hugging Face上公開,包含詳細的下載和使用說明。
這個基因推理AI的誕生,標誌著基因組學研究正在進入全新時代。 (AGI Hunt)