滿血o3降智和幻覺倍增的原因可能找到了


OpenAI推出的滿血O3“跑分”(Benchmark)貌似又被獨立測試揭穿是刷榜了,而奇怪的測試基準資料可能就是o3降智和幻覺倍增的原因?



你可能要問了,一個數學基準測試,與降智和幻覺有什麼關係?

事情要從去年12月說起。OpenAI隆重推出O3模型時,公佈了一個當時看來非常驚人的成績:在專門針對數學問題的挑戰性基準測試 FrontierMath 上,O3的得分超過了 25%

這個成績有多厲害?要知道,當時的頂尖模型在這個榜單上也只能勉強達到約 2%。OpenAI O3的這個數字,基本上是斷崖式領先

真實成績只有10%...?

然而,Epoch AI ( FrontierMath測試基準公司)這兩天發佈了他們對 滿血版O3 的獨立測試結果。

這一測不要緊,結果卻讓人大跌眼鏡:Epoch發現,滿血O3在同一基準測試上的得分竟然只有約 10%! 這個分數,雖然相對其他模型依然有優勢,但和OpenAI最初那個25%+的“王牌”表現相比,差距可不是一點半點。Epoch直言,這個分數遠低於OpenAI最初公佈的最高成績,測試成績放在o3mini high和o4 mini當中看起來很奇怪,滿血的o3竟然不如早先發佈的o3 mini high


為什麼會有這麼大的差距?原因找到了

根據Epoch和相關方的說法,主要有幾點:

測試環境與方法不同: Epoch 提到,OpenAI最初公佈的那個高分,可能是在更強大的內部計算環境、或使用了更複雜的測試時間計算資源(比如多輪思考、內部推理鏈等)下得出的。這就像運動員平時訓練時有教練指導、使用輔助器材,和正式比賽時的表現可能不一樣

測試資料集不同: FrontierMath 基準測試本身也在更新。OpenAI最初可能使用了包含180道問題的舊版資料集進行測試,而Epoch測試的是包含290道問題的新版資料集。題目難度和數量變了,分數自然可能不一樣

模型版本不同: 這是最關鍵的一點!據ARC Prize基金會等機構透露(他們也測試過O3的預發佈版本),OpenAI 公開發佈給使用者使用的 O3 模型,特別是針對聊天和產品應用進行過最佳化的版本,與OpenAI最初用於跑分的那個性能更強的預發佈版本是“不同的模型”。簡單來說,公開版的計算層級(可以理解為模型的“大小”或“算力”)更小。通常來說,計算層級更大的模型能獲得更好的跑分成績

定位不同: OpenAI技術人員Wenda Zhou也在一次直播中解釋說,公開發佈的O3是針對成本效率和通用性進行了最佳化,以便更好地服務於實際應用。因此,它的表現可能與純粹追求最高跑分、不計成本的演示版本存在“基準測試差異”。

寫在最後

看起來這個所謂的滿血版的o3也是一個最佳化的版本,一切都可以說通了,本來滿血o3是要被整合到GPT5里邊的,但是由於deepseek的衝擊,還有成本等原因,最終奧特曼還是改變了注意,最佳化版o3還是單獨推出了,有可能更好的模型被雪藏了,個人揣測這可能就是o3降智和幻覺增加的原因 (AI寒武紀)