Google豪華陣容打造AI科學家，用測試時間計算加速科學發現，CEO皮猜也來站台了

2025/02/20

•

CEO皮猜親自站台，Google的最新研究狠狠火了——

為科學家群體推出“科研搭子”AI co-scientist，一個能夠利用高級推理綜合大量文獻、生成新穎假設，並提出詳細研究計畫的多智能體AI系統。

劃重點，該系統將與OpenAI o1/DeepSeek-R1相似的測試時間計算用來加速科學發現。

據皮猜介紹，這個系統已經在肝臟纖維化治療、抗菌耐藥性和藥物再利用等重要研究領域取得了初步成果。

而且趁熱打鐵，Google這次還面向全球科學家推出了一個“可信測試計畫”，大家現在都可以申請。

另外，從致謝名單可以看到，這項研究集齊了Google內部豪華陣容，包括Google Research、Deepmind以及Cloud AI teams，還有頂尖高校科學家參與測試……

正如網友所言，說不定AI智能體未來某天就獲得諾貝爾獎了。

文獻綜述/提出假設/報告一條龍搞定

直接來看AI co-scientist的運作過程。

其目標非常清晰，當科學家文字給出研究主題後，它會借助多個AI智能體幫助生成新的研究假設、詳細的研究概述和實驗方案。

參與其中的智能體包括但不限於：

生成（Generation）：提出新的假設或想法
反思（Reflection）：評估和分析生成的假設
排名（Ranking）：對假設進行優先順序排序
進化（Evolution）：通過迭代改進假設
鄰近性（Proximity）：探索與現有知識相近或相關的領域
元審查（Meta-review）：對整個過程進行監督和最佳化

這些智能體通過自動化反饋不斷迭代，生成、評估和改進假設，從而形成自我最佳化循環，最終輸出高品質研究方案。

而作為科學家，具體可以通過以下幾種方式參與協作。

比如最開始給系統提供粗略的想法或一些研究主題or方向，讓它幫你進一步細化；或者對AI的輸出提供自然語言反饋，讓它進一步調整。

此外，科學家還能使用其他工具，如網路搜尋或一些專業領域的AI模型，來進一步提高研究質量。

深挖二者具體協作過程，還能看到當科學家提出研究目標後，有一個監督智能體（Supervisor Agent）來負責工作分配。

專業智能體（紅色框，具有獨特的角色和邏輯）；
科學家的輸入和反饋（藍色框）；
系統資訊流（深灰色箭頭）；
智能體間的反饋（智能體內部的紅色箭頭）。

從上面可以看出，整個AI co-scientist系統的運作較為簡單。

測試時間計算用於科學發現

當然，這項研究的主要亮點是：

擴展測試時間計算（test-time）來大大增強其推理能力，包括上面提到的自我對弈、假設排名和進化過程等關鍵推理步驟。

在研究中，AI co-scientist利用Elo評級系統來衡量和提升其在解決科學問題方面的能力。

具體而言，Elo評級是一個動態的評估指標，通常用於衡量比賽者的相對技能水平。研究人員對比了AI co-scientist（藍色線）和Gemini 2.0（紅色線）在GPQA（General Problem-solving Question Answering）基準測試上的平均精準率。

結果發現，高Elo評級的系統在解決挑戰性問題時，能夠提供更準確答案。（正相關）

這表明了，Elo評級可以作為一個有效的指標，用來預測和提升AI co-scientist在科學問題解決方面的性能。

接下來，七位領域專家精選了15個開放的研究目標，並提出了相應的最佳解決方案。

目標是，利用自動化的Elo評估指標，來對比AI co-scientist和其他最先進智能體和推理模型（Gemini 2.0 Pro版本和推理版本，以及人類專家）在解決這些複雜問題上的表現。

結果顯示，AI co-scientist明顯表現最佳。

此外，隨著AI系統投入更多時間進行推理和改進，其自我評估的質量得到了顯著提升，甚至超出了傳統模型以及在某些情況下無法解決問題的人類專家的水平。

更關鍵的，基於對11個研究目標子集的分析，專家評估認為AI co-scientist在新穎性和影響力方面的表現優於其他基線模型。

為了進一步評估AI co-scientist用於科學發現的實際潛力，研究團隊進行了一系列端到端的實驗室實驗。

這些實驗專注於三個關鍵的生物醫學領域：藥物再利用、新治療靶點的提出以及抗菌耐藥性的背後機制。

實驗中，AI co-scientist不僅受到了專家的指導和反饋，而且涵蓋了從簡單到複雜的多種研究場景。

話不多說，我們具體來看其取得的初步成果。

首先，藥物再利用是一種將已經批准用於其他疾病的藥物用於治療新疾病的策略。這種方法能夠縮短藥物開發的時間和成本，並且可以快速地將有效的治療方案帶給患者。

這一次，研究人員將目光瞄準了急性髓系白血病（AML），AI co-scientist通過分析大量的生物醫學資料，包括藥物的化學結構、藥效學和遺傳資訊，來預測那些現有藥物可能對AML有效。

最終，AI co-scientist提出了3種可能藥物。而且在進一步驗證中，它所建議的藥物在多個AML細胞系中，以臨床相關的濃度抑制了腫瘤的活力，證明了其有效性。

而比藥物再利用更複雜的識別新型治療靶點中，研究人員聚焦於肝纖維化這種疾病。

肝纖維化的治療是當前肝病研究的重點，而尋找有效的治療靶點是關鍵。

過程中，AI co-scientist通過對大量生物醫學資料的分析，包括基因表達譜、蛋白質互作網路和已知藥物資料庫，來識別與肝纖維化相關的關鍵分子和生物學路徑。

對比它所提出的一系列潛在治療方案，和傳統的纖維化誘導劑（作為陰性對照）以及抑製劑（作為陽性對照）來看，所有由AI co-scientist建議的藥物都顯示出有希望的活性（p值小於0.01）。

這意味著這些藥物在治療肝纖維化方面具有很高的可能性。

最後，在第三次實驗中，通過分析大量的遺傳學、蛋白質結構和藥物活性資料，AI co-scientist也被發現能夠識別和預測細菌耐藥的潛在機制。

具體而言，在囊膜形成噬菌體誘導的染色體島（cf-PICIs）中，研究人員利用AI co-scientist的能力來探索cf-PICIs在多種細菌物種中的存在和功能機制。

AI co-scientist通過分析和整合大量的生物學文獻和資料，獨立提出了一個新的假設：

cf-PICIs可能通過與多種噬菌體尾部相互作用來擴大其宿主範圍。

而這一假設得到了實驗室實驗的驗證。

不過需要提醒，儘管AI co-scientist已經在科學發現上取得一系列初步成果，但Google也點出了其侷限性：

文獻綜述能力、事實核查、與外部工具的交叉檢查、自動評估技術以及更大規模的評估等，均需要進一步完善。

現在，感興趣的研究人員or團隊可以申請一波了~ (量子位)