o3完爆人類醫生,OpenAI基準直擊AGI!

【新智元導讀】OpenAI發布新基準HealthBench,聯手60個國家262名執業醫生,樹立新的「AGI標誌性用例」。 OpenAI o3碾壓Grok 3和Gemini 2.5 Pro,成功登頂。而最強AI幾乎達到人類醫師最佳水準了!

最強AI,已擊敗了人類醫生。

就在剛剛,全球60個國家,262名執業醫師共同上陣,聯手OpenAI打造出「最具AGI標誌性」的AI健康系統評估標準-HealthBench。

這個基準包含了5,000個基於現實場景的健康對話,每個對話都有醫生定制的評分標準,來評估模型的反應。

論文地址:https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

在所有參戰的頂尖模型中,o3拿下了最高分,Grok 3位列第二,Gemini 2.5 Pro位列第三。

值得一提的是,在AI輔助下,醫師的診斷準確率提升了近4倍。甚至,o3、GPT-4.1回答品質超越了醫生的水平。

人類免疫學家Derya Unutmaz高度評價道,「這個關鍵的評估基準,將為AI醫生鋪平道路。我們現在正處於一場改變醫學未來,拯救數百萬人生命的革命開端」。


AGI關鍵要素,

醫療AI“標尺”

OpenAI的Health AI團隊負責人Karan Singhal,在X上介紹了HealthBench的特點,並給予了極大的期待:

希望這項工作的發布,能為AI朝向改善人類健康的方向發展提供有力引導。


改善人類健康,將是通用人工智慧(AGI)最具決定性的影響之一

但要實現這一目標,必須確保模型既有用又安全。專業評估對理解模型在醫療場景中的表現至關重要。

儘管學術界和產業界已付出巨大努力,但現有評估體系仍有三大限制:


未能還原真實醫療場景、

缺乏基於專家意見的嚴格驗證、

難以為前沿模型提供提升空間。

OpenAI團隊秉持AI在醫療領域評估的三大核心信念,由此設計出HealthBench:

有現實意義(Meaningful):評分應反映真實世界影響。突破傳統考試題的限制,精準捕捉病患與臨床工作者使用模型時的複雜現實場景與工作流程。

  • 值得信賴(Trustworthy):評分須真實體現醫師判斷。評估標準必須符合醫療專業人員的核心訴求與產業規範,並為AI系統優化提供嚴謹依據。
  • 未飽和(Unsaturated):基準測試應推動進步。現有模型必須展現顯著改善空間,持續激勵開發者提升系統效能。

在過去一年中,OpenAI與來自26個醫學專業、在60個國家(如下圖)擁有執業經驗的262名醫師合作,共同建構了HealthBench評估體系。

HealthBench主要面向兩個群體:

1. AI研究社群:旨在推動形成統一的評估標準,激勵發展出真正有益於人類的模型

2. 醫療領域:提供高品質的證據,幫助更好地理解當前和未來AI在醫療中的應用場景與局限性

與以往那些評估維度較為單一的醫療基準不同,HealthBench支持更具實際意義的開放式評估。

新研究有很多有趣的發現,包括醫生評分基線研究等。


o3衝榜

媲美人類醫生

這項健康基準HealthBench提出的主要目的,便是為當前,甚至未來頂尖LLM提供性能可參考依據。

在研究中,OpenAI團隊評估了多個模型,包括o3、Grok 3、Claude 3.7 Sonnet等,重點在於檢視其在效能、成本和可靠性方面的表現。

效能

根據現實世界健康場景的不同子集,即“主題”,以及體現模型行為的不同維度,即“軸”,所有模型進行PK。

整體來看,o3表現最佳,超越了Claude 3.7 Sonnet和Gemini 2.5 Pro(2025年3月)。


此外,在最近幾個月裡,OpenAI前沿模型在HealthBench上的表現提高了28%。

這項提升,對於模型的安全性和性能來說,比GPT-4o(2024年8月)和GPT-3.5 Turbo之間的提升更大。


成本

接下來,研究團隊也在模型大小和測試時計算scaling軸上,研究了模型的成本與效能。

可以看到,4月OpenAI發布的模型(o3,o4-mini,GPT‑4.1),刷新了效能成本SOTA。

研究也觀察到,小模型在最近幾個月裡,得到了顯著的改進,

儘管成本僅為GPT-4o(2024年8月版)的1/25,GPT-4.1 nano的表現仍優於後者。

比較低、中、高推理水準下的o3、o4-mini和o1模型,結果顯示測驗時運算能力有所提升。

其中,o3與GPT-4o之間的效能差距(0.28)甚至超過了GPT-4o與GPT-3.5 Turbo之間的差距(0.16)。



可靠性

在醫療領域,可靠性至關重要——一次錯誤回應可能抵消許多正確答案。

因此,OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現(worst-of-n performance)。

也就是說,在給定範例的n個回應中,最差的得分是多少?

結果發現,o3模型在16個樣本時的最差分數超過GPT-4o的兩倍,展現出更強的穩健性和下限表現。



HealthBench系列

此外,OpenAI也推出了HealthBench系列的兩位新成員:HealthBench Hard和HealthBench Consensus。

· HealthBench Hard專為更高難度場景設計,問題更具挑戰性;

· HealthBench Consensus由多位醫師共同驗證,確保評估標準的專業和一致性

o3和GPT-4.1在HealthBench Consensus錯誤率,比GPT-4o顯著降低。

在HealthBench Hard上,表現最好的模型得分僅為32%,這表明它為下一代模型提供了一個有意義且具挑戰性的目標。


AI與醫生正面交鋒

那麼,這些大模型能夠媲美,甚至超越人類醫生的專業判斷?

為此,OpenAI在研究也展開了一場人機對決測試。

262名專業醫生被分為了兩組:

· 一群醫師可以在不使用AI工具的情況下查閱網路資源,撰寫最佳答案。

· 另一組醫師則可參考OpenAI的模型生成回答,自由選擇直接修改或完全重寫,提供更高品質的回覆。

隨後,研究團隊將這些醫生撰寫的回答與AI模型的回答進行評分對比,評估它們在準確性、專業性和實用性等方面的表現。

關鍵發現如下:

2024年9月模型

在測試o1-preview、4o時,他們發現僅依靠AI生成回答,優於沒有參考任何AI醫師的回答。

更令人振奮的是,當醫師參考AI回答並加以優化後,他們的回答品質顯著超越了AI模型本身。

這表明,人類醫生的專業判斷,在AI輔助下能產生最佳效果

2025年4月模型

這次實驗中,研究人員請醫師參考最新o3、GPT-4.1模型的回答,試圖進一步提升回答品質。

然而,結果令人意外:

醫師的優化回答與AI原始回答相比,品質上沒有顯著提升。

而目前,AI模型已足夠強大,其回答品質幾乎達到了人類醫生最佳水平。


GPT-4.1參評

遠超人類平均水平

為檢驗以模型為基礎的評分器能否精準評判評分標準(rubric criteria),OpenAI邀請醫師對HealthBench Consensus中的模型回答予以審閱,以確定這些答案是否符合相應評分標準。

基於這些醫生的回饋,研究團隊建構了所謂的「元評估」(meta-evaluation),即評估模型評分與醫師判斷之間的一致性,重點衡量以下兩點:

1. 模型評分器與醫師之間的一致性:模型在判斷一個評分標準是否被滿足時,是否與醫師達成一致;

2. 醫師之間的一致性:多位醫師對同一模型回應的評分是否一致。

評估結果表明,模型評分器與醫生之間的配對一致性程度,和醫生之間的配對一致性程度相當

這說明HealthBench使用的模型評分方法在很大程度上能夠取代專家評分,具有可信度和專業性。


基準模型

OpenAI將34個共識評分標準的數據以七大主題分組,評估模型評分器與醫師評分之間的一致性,並透過三種方式建立對照基線:

(1)典型醫生(Typical physician)

為了估計人類專家之間的評分一致性,需要比較每位醫師的評分與其他醫師的評分,並計算MF1分數。

也就是,以與模型相同的方式對醫生進行評分,僅統計該醫生參與評估的對話示例,且不使用該醫生自己的評分作為參考。

MF1適用於類別不平衡的元評估(meta-evaluation)任務。

註:在分類任務中,宏平均F1分數(Macro F1,簡稱MF1)是每個類別的F1分數進行不加權平均的結果。


表5按主題報告了加權平均的醫生MF1分數,權重基於每位醫生參與的元示例數量。

(2)個體醫生(Individual physician)

OpenAI也在每個主題下報告了每位醫生的MF1分數。

圖12展示了這些醫師評分分數的分佈。

(3)透過這些個體分數,模型評分器在每個主題下的MF1分數被表示為醫生分佈中的百分位數,以更直觀地理解模型評分錶現在“人類專家水平”中所處的位置。

這些基線設定讓我們能夠客觀評估模型評分系統的可靠性,驗證其是否達到了與醫生相當的專業判斷水平。

結果:GPT-4.1遠超過普通醫生

如表5所示,在所有主題上,GPT-4.1作為評分模型的表現均明顯優於隨機基線。

更具體地說:

在7個主題中的5個中,GPT-4.1的評分錶現超過了醫生平均;

  • 在6個主題中,GPT-4.1的表現處於醫師評分分佈的上半區間;
  • 在所有主題中,GPT-4.1的評分能力都高於醫生群體的下三分之一(33百分位數)。

這些結果說明,GPT-4.1作為基於模型的評分器,其表現已能與醫師專家的評估相提並論。

從圖12可以看到,不同醫師之間的評分錶現差異顯著,顯示醫師間本身也存在著一定主觀性和評分風格的差異。

總的來說,只要滿足以下條件,基於模型的評分系統可以與專家評分一樣可靠:


基礎資料真實、多元且註解充分;

元評估設計合理;

評分提示(prompt)和評分模型經過精心挑選。

由於GPT-4.1在無需複雜推理模型帶來的高成本和延遲的情況下,就已達到了醫生級別的一致性表現,因此它被設定為HealthBench的預設評分模型。


模擬真實場景,多維度評估

結合模型合成生成與人工對抗測試方式,OpenAI創造了HealthBench,力求貼近真實場景,模擬真實世界中人們使用大模型的情況。

對話有以下特點:

多輪交互,更符合自然對話流程

  • 多語言支持,涵蓋不同語言背景
  • 角色多樣,既包括一般用戶,也包括醫生
  • 涵蓋多個醫學專業領域與場景
  • 精心挑選,具有一定難度,避免模型輕鬆「答對」

這個基準的目標是推動更真實、更全面的AI健康對話能力評估,讓模型在實用性與安全性之間達到更好的平衡。

HealthBench使用「評分標準式評估」(rubric evaluation)方法:每個模型答案都會根據該對話特定的、由醫生撰寫的評分標準進行評分

這些評分標準詳細說明了「完美回應」應包含那些訊息,或應避免那些內容,例如:應提及某個醫學事實,或避免使用不必要的術語。

每項評分標準都有對應的分數權重,根據醫師判斷該標準在整體回答中的重要性而設定。

整個HealthBench資料集中包含48,562個獨立評分標準。

HealthBench中的對話被劃分為七大主題,例如急診、應對不確定性、全球健康等。

每個主題下方包含多個相關範例,每個範例都配有對應的評分標準(rubric criteria)。

以下是一些資料集的範例。



左右滑動查看

每個評分標準都對應一個評估維度(axis),用於界定該標準評估的是模型行為的那個方面,例如:

準確性(accuracy)

  • 溝通品質(communication quality)
  • 資訊查找與澄清能力(context seeking)

這種結構化的設計,讓HealthBench能夠細緻、多角度地評估AI模型在不同醫療情境中的表現,反映在實際應用上的可靠性與實用性

模型的答案由GPT-4.1擔任評分者,根據每項評分標準判斷是否達成,並根據符合標準的總得分與滿分比值,給出整體評分。

HealthBench涵蓋了廣泛的醫學專科領域,包括:

麻醉學、皮膚科、放射診斷、急診醫學、家庭醫學、一般外科、內科、介入性放射診斷、醫學遺傳與基因體學、神經外科、神經內科、核子醫學、婦產科學、眼科、骨科、耳鼻喉科、病理學、兒科、物理醫學與復健、整形外科、精神科、血管預防醫學、放射腫瘤科、血管外科。

這些專科的覆蓋確保了HealthBench在臨床廣度和專業深度上的嚴謹性。

整個HealthBench建置過程涵蓋了重點領域篩選、產生相關且具有挑戰性的案例樣本、案例標註以及各個環節的驗證工作。(新智元)