【新智元導讀】OpenAI發布新基準HealthBench,聯手60個國家262名執業醫生,樹立新的「AGI標誌性用例」。 OpenAI o3碾壓Grok 3和Gemini 2.5 Pro,成功登頂。而最強AI幾乎達到人類醫師最佳水準了!最強AI,已擊敗了人類醫生。就在剛剛,全球60個國家,262名執業醫師共同上陣,聯手OpenAI打造出「最具AGI標誌性」的AI健康系統評估標準-HealthBench。這個基準包含了5,000個基於現實場景的健康對話,每個對話都有醫生定制的評分標準,來評估模型的反應。論文地址:https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf在所有參戰的頂尖模型中,o3拿下了最高分,Grok 3位列第二,Gemini 2.5 Pro位列第三。值得一提的是,在AI輔助下,醫師的診斷準確率提升了近4倍。甚至,o3、GPT-4.1回答品質超越了醫生的水平。人類免疫學家Derya Unutmaz高度評價道,「這個關鍵的評估基準,將為AI醫生鋪平道路。我們現在正處於一場改變醫學未來,拯救數百萬人生命的革命開端」。AGI關鍵要素,醫療AI“標尺”OpenAI的Health AI團隊負責人Karan Singhal,在X上介紹了HealthBench的特點,並給予了極大的期待:希望這項工作的發布,能為AI朝向改善人類健康的方向發展提供有力引導。改善人類健康,將是通用人工智慧(AGI)最具決定性的影響之一。但要實現這一目標,必須確保模型既有用又安全。專業評估對理解模型在醫療場景中的表現至關重要。儘管學術界和產業界已付出巨大努力,但現有評估體系仍有三大限制:未能還原真實醫療場景、缺乏基於專家意見的嚴格驗證、難以為前沿模型提供提升空間。OpenAI團隊秉持AI在醫療領域評估的三大核心信念,由此設計出HealthBench:有現實意義(Meaningful):評分應反映真實世界影響。突破傳統考試題的限制,精準捕捉病患與臨床工作者使用模型時的複雜現實場景與工作流程。值得信賴(Trustworthy):評分須真實體現醫師判斷。評估標準必須符合醫療專業人員的核心訴求與產業規範,並為AI系統優化提供嚴謹依據。未飽和(Unsaturated):基準測試應推動進步。現有模型必須展現顯著改善空間,持續激勵開發者提升系統效能。在過去一年中,OpenAI與來自26個醫學專業、在60個國家(如下圖)擁有執業經驗的262名醫師合作,共同建構了HealthBench評估體系。HealthBench主要面向兩個群體:1. AI研究社群:旨在推動形成統一的評估標準,激勵發展出真正有益於人類的模型2. 醫療領域:提供高品質的證據,幫助更好地理解當前和未來AI在醫療中的應用場景與局限性與以往那些評估維度較為單一的醫療基準不同,HealthBench支持更具實際意義的開放式評估。新研究有很多有趣的發現,包括醫生評分基線研究等。o3衝榜媲美人類醫生這項健康基準HealthBench提出的主要目的,便是為當前,甚至未來頂尖LLM提供性能可參考依據。在研究中,OpenAI團隊評估了多個模型,包括o3、Grok 3、Claude 3.7 Sonnet等,重點在於檢視其在效能、成本和可靠性方面的表現。效能根據現實世界健康場景的不同子集,即“主題”,以及體現模型行為的不同維度,即“軸”,所有模型進行PK。整體來看,o3表現最佳,超越了Claude 3.7 Sonnet和Gemini 2.5 Pro(2025年3月)。此外,在最近幾個月裡,OpenAI前沿模型在HealthBench上的表現提高了28%。這項提升,對於模型的安全性和性能來說,比GPT-4o(2024年8月)和GPT-3.5 Turbo之間的提升更大。成本接下來,研究團隊也在模型大小和測試時計算scaling軸上,研究了模型的成本與效能。可以看到,4月OpenAI發布的模型(o3,o4-mini,GPT‑4.1),刷新了效能成本SOTA。研究也觀察到,小模型在最近幾個月裡,得到了顯著的改進,儘管成本僅為GPT-4o(2024年8月版)的1/25,GPT-4.1 nano的表現仍優於後者。比較低、中、高推理水準下的o3、o4-mini和o1模型,結果顯示測驗時運算能力有所提升。其中,o3與GPT-4o之間的效能差距(0.28)甚至超過了GPT-4o與GPT-3.5 Turbo之間的差距(0.16)。可靠性在醫療領域,可靠性至關重要——一次錯誤回應可能抵消許多正確答案。因此,OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現(worst-of-n performance)。也就是說,在給定範例的n個回應中,最差的得分是多少?結果發現,o3模型在16個樣本時的最差分數超過GPT-4o的兩倍,展現出更強的穩健性和下限表現。HealthBench系列此外,OpenAI也推出了HealthBench系列的兩位新成員:HealthBench Hard和HealthBench Consensus。· HealthBench Hard專為更高難度場景設計,問題更具挑戰性;· HealthBench Consensus由多位醫師共同驗證,確保評估標準的專業和一致性。o3和GPT-4.1在HealthBench Consensus錯誤率,比GPT-4o顯著降低。在HealthBench Hard上,表現最好的模型得分僅為32%,這表明它為下一代模型提供了一個有意義且具挑戰性的目標。AI與醫生正面交鋒那麼,這些大模型能夠媲美,甚至超越人類醫生的專業判斷?為此,OpenAI在研究也展開了一場人機對決測試。262名專業醫生被分為了兩組:· 一群醫師可以在不使用AI工具的情況下查閱網路資源,撰寫最佳答案。· 另一組醫師則可參考OpenAI的模型生成回答,自由選擇直接修改或完全重寫,提供更高品質的回覆。隨後,研究團隊將這些醫生撰寫的回答與AI模型的回答進行評分對比,評估它們在準確性、專業性和實用性等方面的表現。關鍵發現如下:2024年9月模型在測試o1-preview、4o時,他們發現僅依靠AI生成回答,優於沒有參考任何AI醫師的回答。更令人振奮的是,當醫師參考AI回答並加以優化後,他們的回答品質顯著超越了AI模型本身。這表明,人類醫生的專業判斷,在AI輔助下能產生最佳效果。2025年4月模型這次實驗中,研究人員請醫師參考最新o3、GPT-4.1模型的回答,試圖進一步提升回答品質。然而,結果令人意外:醫師的優化回答與AI原始回答相比,品質上沒有顯著提升。而目前,AI模型已足夠強大,其回答品質幾乎達到了人類醫生最佳水平。GPT-4.1參評遠超人類平均水平為檢驗以模型為基礎的評分器能否精準評判評分標準(rubric criteria),OpenAI邀請醫師對HealthBench Consensus中的模型回答予以審閱,以確定這些答案是否符合相應評分標準。基於這些醫生的回饋,研究團隊建構了所謂的「元評估」(meta-evaluation),即評估模型評分與醫師判斷之間的一致性,重點衡量以下兩點:1. 模型評分器與醫師之間的一致性:模型在判斷一個評分標準是否被滿足時,是否與醫師達成一致;2. 醫師之間的一致性:多位醫師對同一模型回應的評分是否一致。評估結果表明,模型評分器與醫生之間的配對一致性程度,和醫生之間的配對一致性程度相當。這說明HealthBench使用的模型評分方法在很大程度上能夠取代專家評分,具有可信度和專業性。基準模型OpenAI將34個共識評分標準的數據以七大主題分組,評估模型評分器與醫師評分之間的一致性,並透過三種方式建立對照基線:(1)典型醫生(Typical physician)為了估計人類專家之間的評分一致性,需要比較每位醫師的評分與其他醫師的評分,並計算MF1分數。也就是,以與模型相同的方式對醫生進行評分,僅統計該醫生參與評估的對話示例,且不使用該醫生自己的評分作為參考。MF1適用於類別不平衡的元評估(meta-evaluation)任務。註:在分類任務中,宏平均F1分數(Macro F1,簡稱MF1)是每個類別的F1分數進行不加權平均的結果。表5按主題報告了加權平均的醫生MF1分數,權重基於每位醫生參與的元示例數量。(2)個體醫生(Individual physician)OpenAI也在每個主題下報告了每位醫生的MF1分數。圖12展示了這些醫師評分分數的分佈。(3)透過這些個體分數,模型評分器在每個主題下的MF1分數被表示為醫生分佈中的百分位數,以更直觀地理解模型評分錶現在“人類專家水平”中所處的位置。這些基線設定讓我們能夠客觀評估模型評分系統的可靠性,驗證其是否達到了與醫生相當的專業判斷水平。結果:GPT-4.1遠超過普通醫生如表5所示,在所有主題上,GPT-4.1作為評分模型的表現均明顯優於隨機基線。更具體地說:在7個主題中的5個中,GPT-4.1的評分錶現超過了醫生平均;在6個主題中,GPT-4.1的表現處於醫師評分分佈的上半區間;在所有主題中,GPT-4.1的評分能力都高於醫生群體的下三分之一(33百分位數)。這些結果說明,GPT-4.1作為基於模型的評分器,其表現已能與醫師專家的評估相提並論。從圖12可以看到,不同醫師之間的評分錶現差異顯著,顯示醫師間本身也存在著一定主觀性和評分風格的差異。總的來說,只要滿足以下條件,基於模型的評分系統可以與專家評分一樣可靠:基礎資料真實、多元且註解充分;元評估設計合理;評分提示(prompt)和評分模型經過精心挑選。由於GPT-4.1在無需複雜推理模型帶來的高成本和延遲的情況下,就已達到了醫生級別的一致性表現,因此它被設定為HealthBench的預設評分模型。模擬真實場景,多維度評估結合模型合成生成與人工對抗測試方式,OpenAI創造了HealthBench,力求貼近真實場景,模擬真實世界中人們使用大模型的情況。對話有以下特點:多輪交互,更符合自然對話流程多語言支持,涵蓋不同語言背景角色多樣,既包括一般用戶,也包括醫生涵蓋多個醫學專業領域與場景精心挑選,具有一定難度,避免模型輕鬆「答對」這個基準的目標是推動更真實、更全面的AI健康對話能力評估,讓模型在實用性與安全性之間達到更好的平衡。HealthBench使用「評分標準式評估」(rubric evaluation)方法:每個模型答案都會根據該對話特定的、由醫生撰寫的評分標準進行評分。這些評分標準詳細說明了「完美回應」應包含那些訊息,或應避免那些內容,例如:應提及某個醫學事實,或避免使用不必要的術語。每項評分標準都有對應的分數權重,根據醫師判斷該標準在整體回答中的重要性而設定。整個HealthBench資料集中包含48,562個獨立評分標準。HealthBench中的對話被劃分為七大主題,例如急診、應對不確定性、全球健康等。每個主題下方包含多個相關範例,每個範例都配有對應的評分標準(rubric criteria)。以下是一些資料集的範例。左右滑動查看每個評分標準都對應一個評估維度(axis),用於界定該標準評估的是模型行為的那個方面,例如:準確性(accuracy)溝通品質(communication quality)資訊查找與澄清能力(context seeking)這種結構化的設計,讓HealthBench能夠細緻、多角度地評估AI模型在不同醫療情境中的表現,反映在實際應用上的可靠性與實用性。模型的答案由GPT-4.1擔任評分者,根據每項評分標準判斷是否達成,並根據符合標準的總得分與滿分比值,給出整體評分。HealthBench涵蓋了廣泛的醫學專科領域,包括:麻醉學、皮膚科、放射診斷、急診醫學、家庭醫學、一般外科、內科、介入性放射診斷、醫學遺傳與基因體學、神經外科、神經內科、核子醫學、婦產科學、眼科、骨科、耳鼻喉科、病理學、兒科、物理醫學與復健、整形外科、精神科、血管預防醫學、放射腫瘤科、血管外科。這些專科的覆蓋確保了HealthBench在臨床廣度和專業深度上的嚴謹性。整個HealthBench建置過程涵蓋了重點領域篩選、產生相關且具有挑戰性的案例樣本、案例標註以及各個環節的驗證工作。(新智元)