全球首個AI科學家天團出道!007做實驗碾壓人類博士,生化環材圈巨震


【新智元導讀】世界首個公開可用AI科學家天團,剛剛組團出道!FutureHouse發佈了四個AI科學家Agent,科研能力直接超越o3,文獻搜尋已經超過人類博士。

就在剛剛,世界上首個公開可用的AI科學家登場了!


前GoogleCEO Eric Schmidt投資的一家非營利組織FutureHouse,官宣發佈四個超人類的AI科學家智能體。

通用智能體:Crow(烏鴉)

自動化文獻綜述智能體:Falcon(獵鷹)

調研智能體:Owl(貓頭鷹)

實驗智能體:Phoenix(鳳凰)


這些智能體都是專門為科學研究而開發。

Crow、Falcon和Owl通過了嚴格的基準測試,在搜尋精度和精準性上已經超越了目前頂級搜尋模型,比如o3-mini,GPT-4.5,Claude-3.7。


LitQA基準測試精度(正確答案 / 已回答問題)和精準率(正確答案 / 所有問題)比較

FutureHouse還通過實驗,驗證了它們在直接文獻搜尋任務中,檢索和綜合能力比博士水平的研究人員具有更高的精度。


在問答、文章總結和矛盾檢測這三個任務中,PaperQA2與人類博士的性能對比

在未來一兩年內,我們將見證:今天科學家所做的大部分桌面工作,都會通過這些AI科學家的幫助而加速!


完勝人類的AI科學家

FutureHouse董事兼CEO Sam Rodriques表示:我們的AI科學家智能體,執行起科學任務來已經完勝人類!

通過把它們串聯起來,我們已經很快有了全新的生物學發現。


這次FutureHouse發佈的AI科學家,跟以往那些AI科學家有什麼不同呢?

這主要就體現在,Crow、Falcon和Owl可以訪問大量完整的科學文字

這就意味著,你可以向它們提出關於實驗方案和研究侷限性的更詳細的問題。

而一般的網路搜尋智能體,通常只能訪問摘要,這就會錯過這些問題。

而且,它們還能使用各種因素來區分來源質量,確保它們不會依賴低品質的論文,或者是流行的科學來源。

最後還有一點,也是至關重要的一點,就是FutureHouse會為使用者提供一個API,允許研究者將這些智能體直接整合到他們的工作流中。

網友熱評:為我量身打造

已經有網友摩拳擦掌,表示自己已經在想像使用起這個AI科學家的樣子了。


有人表示,自己如今已經63歲了,有過12年的學界經驗,和25年的私人診所經驗,感覺這些AI科學家非常適合自己。



當然,也有人提出疑問:這些產品使用的資料經過允許了嗎?


誠然,目前這些智能體還不能自主完成大多數的科學研究。

不過我們已經可以用它們來生成和評估新的假設,規劃新的實驗,速度還比以前快很多。

另外,Future House內部還有專門用於資料分析、假設生成、蛋白質工程等方面的智能體,未來幾個月內即將上線。



人類科研效率在下降,該AI上場了!

所以,AI科學家具體是怎麼工作的?

FutureHouse的三位科學家,為我們提供了詳盡的解答。


據他們介紹,FutureHouse的平台,是從科學第一的角度建構的,而不僅僅是為了吸引儘可能多的使用者。

這三位科學家,本身對於科學就有著十分濃厚的興趣。

比如左邊的Michaela,在過去十年中,一直對控制人類細胞基因調控的分子機制十分好奇;中間的Mike是一位計算材料科學博士。

右邊的Andrew表示,當他們共同創立未來之家時,他們注意到很多生產力和科學都在下降——每年人類發表的論文都越來越多,但突破卻越來越少。

與此同時,AI卻已經進化到了可以真正加速科學發展的程度。

因此,他們希望能讓AI科學家做到自動化科研的全過程,如搜尋文獻、生成假設和進行分析。

其中,Crow非常適合文獻檢索問題,尤其是需要使用開放目標等資料來源的問題提供簡潔答案的時候。


Falcon是一個更深度的搜尋工具,會考慮更多的來源,會在回答中為我們提供長篇報告。


Owl則專注於先例搜尋,如果你好奇某項科研此前是否已經被做過,它的用武之地就來了。而且,它非常擅長梳理出某研究和過去研究的細微差別。

Phoenix則是一名化學藥劑師,比其他科學家顯得更定製化,更關注化學問題。



從PCOS開始,找到值得研究的新藥

比如Michaela表示,自己的朋友最近表示自己有多囊卵巢綜合徵(PCOS),卻很難找到一種非激素的治療方法。


Michaela就實測了一番,是否能用這些AI科學家從零知識獲得明確的可驗證假設。

首先,她去問Falcon:請對PCOS進行全面解釋。然後,AI科學家就開始工作了,並且我們可以看到全程的推理過程。


可以看到,Falcon建立了自己的搜尋詞,去搜尋已發表的論文,這一切都是它自行決定的。


更特別的是,跟主流的Agent不同,FutureHouse的AI科學家可以訪問科學文獻的全文。引用次數、引用圖表、來自那些期刊,都一清二楚。

在下一步,它抽出了其中的19份論文,同時還納入了治療PCOS的臨床實驗資訊。

隨後,就發生了一個非常密集的推理過程,Falcon會找到與所提問題最相關的背景證據。在整個系統中,這種資訊漏斗的功能極其強大。


幾位科學家表示,這個AI是目前該領域性能最強的資訊提取系統之一。

下一步,就該Crow出場了。它被問到一個相當具體的問題:在基因組關聯研究中,那些關鍵基因跟PCOS相關?是否有人做過更清晰的篩選?

果然,Crow發現了此前的研究:已經有人在一項功能基因組學研究中, 將特定基因表達的增加,與細胞培養中睾酮表達的增加聯絡起來。

但這是為什麼呢?AI科學家也能找到答案。

就這樣,我們從對PCOS一無所知的小白,一下子掌握了決定該領域的一個關鍵差距,本來這會耗費我們大量時間去閱讀資料、與專家交談的,現在全都省去了。


甚至我們還可以點選連結,看到實際的推理軌跡:AI會解釋為什麼選擇這項來源。


對於科學家而言,AI科學家的輔助無疑意義重大。

因為在生物學或藥物設計領域擁有豐富經驗的研究者,並不會成為工程師,對於諸如抓取論文、設定分佈式資料庫、速率限制這類事都並不擅長。

而這,就是FutureHouse平台誕生的意義。

那如何在提出假設和檢驗假設這兩方面取得進展呢?這就需要Phoenix出場了。

我們可以向它提問,讓它給出三種可以治療由DENND1A過度表達引起的疾病的新型化合物。(這是基於此前AI科學家給出的調研結果)


因為在這個階段,我們需要找到能治療PCOS的藥物。

我們可以從與蛋白質結合的分子開始,確保它更易溶解,不會進入肝臟或腎臟,以及沒有獲得過專利。

在提問中,我們瞭解到,目前不存在已知的針對該基因的結合劑。這就提供了一個很好的線索,甚至值得投入資金來進行藥物研發。


最後,AI科學家給出了一份關於不同候選分子的報告,列出了它們已知的結合物,以及為什麼可能與調節DENND1A的表達有關。

這樣,它就給出了下一步研究的起點,我們可以直接去實驗室中驗證了。


1年造出AI科學家

FutureHouse的科學總監/聯合創始人Andrew White,在X上回顧了過去一年的研發歷程。


2024年6月,FutureHouse發佈了Lab-Bench基準測試。


2024年9月,FutureHous成功開發了PaperQA2智能體。


PaperQA2示意圖:與傳統的RAG不同,在PaperQA2中LLM決定將那些工具應用於查詢。

2024年10月,他們編寫了17,000篇關於人類編碼基因的維基百科文章,驗證了AI科學家的可行性。

2024年12月,他們利用新的框架和訓練方法,在多個任務上了訓練智能體——在分子克隆和文獻研究方面超過生物學專家20多個精準率點。

昨天,他們隆重發佈了FutureHouse平台。



獨具匠心的智能體,

真正改變科研

與傳統智能體相比,FutureHouse智能體的優勢非常獨特:


它們不僅能夠訪問海量高品質的免費論文和專業科學工具,而且還能從專業的論文資料庫中精準搜尋資訊

它們還能模仿研究人員,採用多種方法評估資訊來源的質量。

而且這些智能體的推理過程完全透明,對每個資訊來源都進行了多階段的深入分析。

更重要的是,使用者可以清晰地查看整個推理過程,瞭解智能體得出結論的每一步依據。

此外,FutureHouse平台具備良好的擴展性。

科學家個人往往難以維護自己的AI智能體部署,因此FutureHouse不僅提供了網頁端介面,還開放了API,便於研究人員將其整合進實際工作流中。

通過大規模整合和連結這些智能體,科學家能夠大幅提升科學發現的速度與效率。



已知的具體應用場景

這個平台尤其擅長應對以下兩類問題:

需要詳盡全文文獻分析的研究課題,

或需要運用專業化學工具的探索任務。


具體應用場景包括:

挖掘疾病路徑中的未知機制:使用者可利用Falcon獲取背景知識,Crow挖掘關鍵基因關聯,Owl定位研究空白。

這些操作只要幾分鐘就能完成,而傳統的文獻調研要花費數周時間。

系統梳理文獻中的矛盾:使用者可利用Falcon分析數百篇論文中爭議性話題的矛盾證據,精準指出需要進一步實驗去澄清的爭議點。

深入剖析實驗方法:由於智能體可以訪問計畫全部的科學論文,使用者可詳細詢問實驗方法或研究侷限性,挖掘摘要中難以察覺的關鍵細節。

通過API定製研究流程:研究團隊利用API建構軟體系統,即時監控最新論文,或大規模搜尋文獻,為篩選實驗結果提供全面的背景知識支援。

尋找目標蛋白的結合候選物:科學家可指示Phoenix基於現有資料,篩選結合目標蛋白的候選物,同時滿足溶解度、官能團或新穎性等複雜要求。


探索化學知識:Phoenix能判斷化合物的新穎性、估算成本、預測化學反應結果,甚至比較直接購買與自行合成化學品的成本。 (新智元)