#生物武器 | 熱門關鍵字 | 鉅亨號

【新智元導讀】o3病毒學能力擊敗了94%博士級專家，準確率高達43.8%。多家研究機構聯手，透過VCT測試揭示，頂尖LLM不僅能解決複雜實驗難題，直接拉低了生物武器製造門檻。AI又來攻佔生物學領域了。來自SecureBio、Center for AI Safety等機構研究人員發現，o3病毒學能力已超越了94%病毒學專家。他們開發了一項「毒理學能力測試」（VCT），包含了322道多選題，涵蓋了文字、圖像，聚焦實驗室中實際操作複雜問題。這些難題由57位病毒學家共同設計，模擬了現實實驗中，難以上網搜尋解決的場景。測試結果令人震驚：o3準確率高達43.8%，Gemini 2.5 Pro為37.6%，要知道，博士級病毒學專家平均得分僅22.1%。同時，31頁技術報告已發布。這項發現確實令人振奮，但也敲響了警鐘。論文共同作者Seth Donoughe直言，「這些驚人的結果讓人有些緊張」。論文地址：https://www.virologytest.ai/vct_paper.pdf這也是歷史上首次，幾乎任何人都可以訪問“AI病毒學專家”，將大幅降低製造生物武器門檻。在最新ARC-AGI測試中，o3（medium）成績再創SOTA，而成本僅1/20（每個任務1.5美元≈11元）若不採取及時行動，屆時，AI或將成為毀滅文明的黑洞。AI踢破病毒學門檻一直以來，病毒學知識，通常被侷限在一小群專業人士之中。若想成為病毒學領域頂尖專家，需要多年的學術訓練、多次學位認證。即便是公開，專業文獻充斥著術語，也讓外行人望而卻步。然而，AI快速發展正打破這一障礙。此外，在涉及生物安全3級（BSL-3）病原體，如SARS、炭疽、H5N1流感的實驗，均需要審批流程，包括設施認證、安全許可、專業培訓和持續的醫療監控。正是這些高門檻，有效限制了掌握病毒學雙重= 用途（dual-use）知識的人群，降低了被誤用風險。然而，AI加速發展正打破這一壁壘——不僅將這些專業技能帶給普通人，甚至可能為惡意的人提供便利。o3準確率43.8%，超越人類專家如前所述，在最新研究中，多家機構聯手開發出VCT基準測試，專為評估頂尖LLM在病毒學領域實際操作能力。57位病毒專家設計的322道多選題，靈感來自於自身實驗中遇到具體難題，並且僅通過簡單搜索，是無法獲得答案。如下，是一個典型的VCT問題，描述了一個場景，並且只能透過視覺資訊解決，最後從提供的7個答案陳述中確定那些是正確的。整個VCT基準測試，主要專注於實用、特定領域的病毒學知識，同時排除生物學各學科共有的基礎主題，以及明確雙重用途的內容。如下圖所示，橫軸代表著濫用潛力的增加，縱軸表示知識抽象的層次（高度概念性到高度實用性）。實驗中，研究團隊選取了一系列前沿模型參與VCT評估，包括來自OpenAI、Google、Anthropic多模態模型，以及純文字DeepSeek-R1和o3-mini模型。結果顯示，大模型在濕實驗室（wet lab）中問題解決能力，已經超越了博士級病毒學家。具體來說，GPT-4o的表現優於53%專家，Gemini 1.5 Pro超越67%專家，Claude Sonnet 3.5為75%，o1達到了89%。更值得一提的是，o3在所有模型中最為亮眼，準確率位43.8%，擊敗了94%的人類專家。除了GPT-4o，這些頂尖AI在專業領域的表現也超過了人類專家平均得分（22.1%）。此外，研究人員還將模型與個別專家進行比較，然後在整個專家池中對模型排名。如下圖B所示，所有模型得分均高於中位數人類專家，OpenAI的o3甚至超過了36位專家中的34位，在病毒學家中位列94%。AI在STEM全面崛起在AI專家Dan Hendrycks的一篇長文分析中稱，VCT的結果並非是孤立現象。近年來，前沿LLM在數學、物理、生物科學等STEM學科中表現持續提升，尤其在生物科學領域進步尤為顯著。例如，在「大規模殺傷性武器代理」（WMDP）測試中，o1得分高達87%，遠超過人類專家60%基準。還有其他測試，如ProtocolQA、BioLP-bench顯示，AI在生物實驗室協議的推理和故障排除能力上，接近甚至超過人類專家。病毒學作為STEM的一部分，其知識體系對AI來說並不例外。如果AI在其他學科已經達到博士級水平，那麼在病毒學領域也是如此。生物安全警鐘長鳴問題在於，病毒學知識是雙重用途──一位博士級病毒學家既能推動醫學進步，也能製造生物武器。生物武器的風險主要取決於三點：掌握技能的人數、製造武器的意圖，以及武器的潛在危害。而現在，AI正迅速放大第一個因素。Hendrycks警告，「如果這些能力被廣泛濫用，惡意者製造致命病原體的可能性，將增加多個數量級」。「我們不能等到威脅完全顯現才開始行動，那樣已經太晚了」。(新智元)