北京大學電腦學院張銘教授團隊聯合華盛頓大學等團隊,成功提出了生物活性基礎模型ActFound,登上國際AI頂刊。在跨域生物活性預測、先導小分子最佳化、癌症藥物反應上,ActFound表現出色。
小分子生物活性在藥物研發中扮演著至關重要的角色。
生物活性反映了小分子與生物系統中特定靶點(如蛋白質、受體或酶)相互作用並引起可測量的生物學反應的程度,是篩選潛在藥物候選物、最佳化分子結構以及預測藥物療效和安全性的關鍵指標。
精準預測和評估生物活性不僅可以大幅縮短藥物篩選時間、降低研發成本,還能幫助研究人員理解藥物作用機制,從而加速新藥開發處理程序,為患者帶來更有效、更安全的治療方案。
在生物活性預測領域,已有的基於物理的計算方法如自由能微擾(FEP)可以給出精準的預測,但是他們卻面臨著計算成本高昂的問題。
近年來,深度學習方法展現出巨大潛力,但面臨著實驗資料有限和不同實驗測量的生物活性不相容的問題。
以往研究者使用了遷移學習、多工學習和元學習等先進機器學習技術,但是他們只在特定類型(例如Ki,Kd,IC50)和單位為摩爾濃度的生物活性資料上訓練,使得模型難以泛化到具有從未見過的類型(例如EC50)或者單位(例如‘%’)的生物活性預測任務上。
為解決這一挑戰,北京大學電腦學院張銘教授團隊聯合華盛頓大學助理教授王晟、博士後肖之屏和復旦大學教授徐盈輝等,提出了一個由ChEMBL資料庫中160萬個實驗測量的生物活性資料訓練而成的生物活性基礎模型——ActFound。
目前,這項工作已登上國際頂尖人工智慧期刊Nature Machine Intelligence (簡稱NMI,最新影響因子為18.8)。
ActFound的核心思想是採用成對學習方法,學習同一組實驗中兩個小分子之間的相對生物活性差異,從而避開不同實驗之間的生物活性的不相容問題。該模型還利用元學習技術,幫助模型在僅有少量資料的情況下提升預測準確度。
審稿人認為成對學習和元學習的組合不但成功解決了活性預測的核心問題,而且還對其他領域的發展有所啟發。
在六個生物活性評測基準資料集上,ActFound展現出了準確的預測能力,以及在不同生物活性類型和分子骨架之間的強大泛化能力。
研究還表明,ActFound可以作為領先的基於物理的計算工具FEP+的替代方案,僅使用少量資料進行微調就能達到相當的性能。
為了驗證ActFound模型的性能和實際價值,研究團隊進行了一系列生物活性預測任務的實驗。
首先,研究人員在六個不同的資料集上評估了ActFound的性能,ActFound在ChEMBL、BindingDB、FS-Mol、pQSAR-ChEMBL、Davis和Kiba上的表現優於所有九種對比方法,展示了其在幾乎所有類型實驗中的廣泛適用性。
在跨域生物活性預測方面,ActFound同樣超越了現有的最先進方法,證明了在不同類型的生物活性資料上良好的泛化能力。
其次,研究團隊將ActFound與自由能微擾(FEP)計算工具進行了比較,以展示ActFound在先導小分子最佳化方面的實際價值。
實驗結果表明,ActFound具有作為FEP+替代工具的潛力。
具體來說,Actfound在僅僅使用了平均4.8個分子進行微調的情況下,ActFound的效果超越了FEP+。且Actfound可以在一秒之內預測超過一萬化合物的活性,然而FEP需要24-48個GPU小時才能計算一對分子的相對活性差值。
最後,研究人員展示了使用ActFound預訓練的癌症藥物反應預測模型的出色表現。
實驗結果表明,使用ActFound初始化的癌症藥物反應預測模型無需微調就具有出色的表現,進一步證明了ActFound的廣泛應用潛力。
總的來說, 這些實驗結果展示了ActFound作為一個生物活性基礎模型,不僅在各種生物活性預測任務中表現出色,還顯示了在藥物開發和發現的其他環節的應用前景。
這些發現為解決現有生物活性預測方法中的侷限性提供了有效的解決方案,同時也為加速藥物研發過程提供了新的可能性。 (新智元)