o3攻陷病毒學,超越94%博士級專家!生物武器門檻徹底崩塌?

【新智元導讀】o3病毒學能力擊敗了94%博士級專家,準確率高達43.8%。多家研究機構聯手,透過VCT測試揭示,頂尖LLM不僅能解決複雜實驗難題,直接拉低了生物武器製造門檻。

AI又來攻佔生物學領域了。

來自SecureBio、Center for AI Safety等機構研究人員發現,o3病毒學能力已超越了94%病毒學專家。

他們開發了一項「毒理學能力測試」(VCT),包含了322道多選題,涵蓋了文字、圖像,聚焦實驗室中實際操作複雜問題。

這些難題由57位病毒學家共同設計,模擬了現實實驗中,難以上網搜尋解決的場景。

測試結果令人震驚:

o3準確率高達43.8%,Gemini 2.5 Pro為37.6%,要知道,博士級病毒學專家平均得分僅22.1%。


同時,31頁技術報告已發布。這項發現確實令人振奮,但也敲響了警鐘。

論文共同作者Seth Donoughe直言,「這些驚人的結果讓人有些緊張」。


論文地址:https://www.virologytest.ai/vct_paper.pdf

這也是歷史上首次,幾乎任何人都可以訪問“AI病毒學專家”,將大幅降低製造生物武器門檻。


在最新ARC-AGI測試中,o3(medium)成績再創SOTA,而成本僅1/20(每個任務1.5美元≈11元)

若不採取及時行動,屆時,AI或將成為毀滅文明的黑洞。


AI踢破病毒學門檻

一直以來,病毒學知識,通常被侷限在一小群專業人士之中。

若想成為病毒學領域頂尖專家,需要多年的學術訓練、多次學位認證。

即便是公開,專業文獻充斥著術語,也讓外行人望而卻步。然而,AI快速發展正打破這一障礙。


此外,在涉及生物安全3級(BSL-3)病原體,如SARS、炭疽、H5N1流感的實驗,均需要審批流程,包括設施認證、安全許可、專業培訓和持續的醫療監控。

正是這些高門檻,有效限制了掌握病毒學雙重= 用途(dual-use)知識的人群,降低了被誤用風險。

然而,AI加速發展正打破這一壁壘——不僅將這些專業技能帶給普通人,甚至可能為惡意的人提供便利。


o3準確率43.8%,超越人類專家

如前所述,在最新研究中,多家機構聯手開發出VCT基準測試,專為評估頂尖LLM在病毒學領域實際操作能力。

57位病毒專家設計的322道多選題,靈感來自於自身實驗中遇到具體難題,並且僅通過簡單搜索,是無法獲得答案。

如下,是一個典型的VCT問題,描述了一個場景,並且只能透過視覺資訊解決,最後從提供的7個答案陳述中確定那些是正確的。


整個VCT基準測試,主要專注於實用、特定領域的病毒學知識,同時排除生物學各學科共有的基礎主題,以及明確雙重用途的內容。

如下圖所示,橫軸代表著濫用潛力的增加,縱軸表示知識抽象的層次(高度概念性到高度實用性)。


實驗中,研究團隊選取了一系列前沿模型參與VCT評估,包括來自OpenAI、Google、Anthropic多模態模型,以及純文字DeepSeek-R1和o3-mini模型。

結果顯示,大模型在濕實驗室(wet lab)中問題解決能力,已經超越了博士級病毒學家。

具體來說,GPT-4o的表現優於53%專家,Gemini 1.5 Pro超越67%專家,Claude Sonnet 3.5為75%,o1達到了89%。

更值得一提的是,o3在所有模型中最為亮眼,準確率位43.8%,擊敗了94%的人類專家。


除了GPT-4o,這些頂尖AI在專業領域的表現也超過了人類專家平均得分(22.1%)。

此外,研究人員還將模型與個別專家進行比較,然後在整個專家池中對模型排名。

如下圖B所示,所有模型得分均高於中位數人類專家,OpenAI的o3甚至超過了36位專家中的34位,在病毒學家中位列94%。


AI在STEM全面崛起

在AI專家Dan Hendrycks的一篇長文分析中稱,VCT的結果並非是孤立現象。

近年來,前沿LLM在數學、物理、生物科學等STEM學科中表現持續提升,尤其在生物科學領域進步尤為顯著。

例如,在「大規模殺傷性武器代理」(WMDP)測試中,o1得分高達87%,遠超過人類專家60%基準。

還有其他測試,如ProtocolQA、BioLP-bench顯示,AI在生物實驗室協議的推理和故障排除能力上,接近甚至超過人類專家。


病毒學作為STEM的一部分,其知識體系對AI來說並不例外。如果AI在其他學科已經達到博士級水平,那麼在病毒學領域也是如此。


生物安全警鐘長鳴

問題在於,病毒學知識是雙重用途──一位博士級病毒學家既能推動醫學進步,也能製造生物武器。

生物武器的風險主要取決於三點:掌握技能的人數、製造武器的意圖,以及武器的潛在危害。

而現在,AI正迅速放大第一個因素。

Hendrycks警告,「如果這些能力被廣泛濫用,惡意者製造致命病原體的可能性,將增加多個數量級」。

「我們不能等到威脅完全顯現才開始行動,那樣已經太晚了」。(新智元)