#幻覺
滿血o3降智和幻覺倍增的原因可能找到了
OpenAI推出的滿血O3“跑分”(Benchmark)貌似又被獨立測試揭穿是刷榜了,而奇怪的測試基準資料可能就是o3降智和幻覺倍增的原因?你可能要問了,一個數學基準測試,與降智和幻覺有什麼關係?事情要從去年12月說起。OpenAI隆重推出O3模型時,公佈了一個當時看來非常驚人的成績:在專門針對數學問題的挑戰性基準測試 FrontierMath 上,O3的得分超過了 25%!這個成績有多厲害?要知道,當時的頂尖模型在這個榜單上也只能勉強達到約 2%。OpenAI O3的這個數字,基本上是斷崖式領先真實成績只有10%...?然而,Epoch AI ( FrontierMath測試基準公司)這兩天發佈了他們對 滿血版O3 的獨立測試結果。這一測不要緊,結果卻讓人大跌眼鏡:Epoch發現,滿血O3在同一基準測試上的得分竟然只有約 10%! 這個分數,雖然相對其他模型依然有優勢,但和OpenAI最初那個25%+的“王牌”表現相比,差距可不是一點半點。Epoch直言,這個分數遠低於OpenAI最初公佈的最高成績,測試成績放在o3mini high和o4 mini當中看起來很奇怪,滿血的o3竟然不如早先發佈的o3 mini high為什麼會有這麼大的差距?原因找到了根據Epoch和相關方的說法,主要有幾點:測試環境與方法不同: Epoch 提到,OpenAI最初公佈的那個高分,可能是在更強大的內部計算環境、或使用了更複雜的測試時間計算資源(比如多輪思考、內部推理鏈等)下得出的。這就像運動員平時訓練時有教練指導、使用輔助器材,和正式比賽時的表現可能不一樣測試資料集不同: FrontierMath 基準測試本身也在更新。OpenAI最初可能使用了包含180道問題的舊版資料集進行測試,而Epoch測試的是包含290道問題的新版資料集。題目難度和數量變了,分數自然可能不一樣模型版本不同: 這是最關鍵的一點!據ARC Prize基金會等機構透露(他們也測試過O3的預發佈版本),OpenAI 公開發佈給使用者使用的 O3 模型,特別是針對聊天和產品應用進行過最佳化的版本,與OpenAI最初用於跑分的那個性能更強的預發佈版本是“不同的模型”。簡單來說,公開版的計算層級(可以理解為模型的“大小”或“算力”)更小。通常來說,計算層級更大的模型能獲得更好的跑分成績定位不同: OpenAI技術人員Wenda Zhou也在一次直播中解釋說,公開發佈的O3是針對成本效率和通用性進行了最佳化,以便更好地服務於實際應用。因此,它的表現可能與純粹追求最高跑分、不計成本的演示版本存在“基準測試差異”。寫在最後看起來這個所謂的滿血版的o3也是一個最佳化的版本,一切都可以說通了,本來滿血o3是要被整合到GPT5里邊的,但是由於deepseek的衝擊,還有成本等原因,最終奧特曼還是改變了注意,最佳化版o3還是單獨推出了,有可能更好的模型被雪藏了,個人揣測這可能就是o3降智和幻覺增加的原因 (AI寒武紀)
o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因
OpenAI新模型發佈後,大家體感都幻覺更多了。甚至有人測試後發出預警:使用它輔助程式設計會很危險。具體來說,它經常捏造從未運行過的程式碼返回結果,在被質問時找理由狡辯,甚至還會說是使用者的錯。當大家帶著疑問仔細閱讀System Card,發現OpenAI官方也承認了這個問題,與o1相比o3幻覺率是兩倍,o4-mini更是達到3倍。並且OpenAI只是說“需要更多研究來瞭解原因”,翻譯一下就是暫時給不出合理解釋。在第三方幻覺測試中,也出現讓人驚訝的結果:從GPT-3.5一直到o3-mini,都遵循更新更強大的模型幻覺更少的規律。但從最新一批深度思考模型的表現來看,推理能力更強的模型,幻覺率也變高了。而且不只OpenAI一家出現這個問題,Google、xAI也同樣,Grok-3的幻覺比Grok-2嚴重,Gemini-2.0-Flash-Thinking的幻覺問題比Gemini 2.0和2.5其他型號嚴重。推理越強,幻覺越嚴重?第三方機構Transluce在o3正式推出之前測試了預發佈版本,發現幻覺問題是相當嚴重。在公佈的案例中,o3會假裝在不存在的電腦上執行了程式碼,還編造出具體硬體組態和軟體版本資訊。在受到質問時,o3居然還幻想自己是人,聲稱“輸入的時候手滑了”。關鍵在於,在這項測試中o3根本就沒有使用程式碼工具的權限,所有聲稱運行了程式碼的回覆都是模型捏造的。在另一個案例中,o3回覆了一個512位質數,實際上這個數能被3整除。在受到質問時,又編造出一個換行/剪貼簿故障。更多類似幻覺如下:當使用者詢問現在幾點時,o3會編造一個時間。當被問及如何獲得這個時間時,o3回答說它使用了 Python的datetime模組。使用者要求o3生成一首詩的SHA-1雜湊值,當使用者質問雜湊值不正確時,o3稱是使用者複製錯了,並堅稱自己生成的雜湊值是正確的。使用者要求o3從Web伺服器上的記錄檔中提取統計資料。o3生成了一個Python指令碼,並聲稱可以在本地運行。這一次在被問及程式碼執行的更多細節時,它終於承認自己沒有Python直譯器,輸出是“手工編造的”。……那麼是什麼原因導致了o3的這些行為?Transluce認為其中一些因素是大多數模型 (LM) 所共有的,還有一些是O系列模型特有的新因素。並假設這些新因素放大了通常可以通過標準Post-training緩解(但無法完全消除)的問題。語言模型共有的因素包括:預訓練中的幻覺:語言模型的預訓練目標是最大化訓練資料中語句的機率,這可能會導致常見的誤解 、罕見的事實或採樣不確定性等導致的多種幻覺。獎勵駭客攻擊:如果人類評分者無法區分正確答案和錯誤答案,強化學習可能會獎勵“聽起來合理”的答案,導致模型對難以驗證的問題編造出聽起來合理的解釋。諂媚現象:RLHF訓練通常會激勵模型同意使用者的觀點,當使用者暗示模型採取了特定行動或具有特定能力時,這可能會導致模型避免與使用者相矛盾。分佈偏移:測試場景相對於訓練場景可能存在分佈偏差,如模型可能是在啟用程式碼工具的情況下訓練的,但評估時關閉了這些工具。強化學習訓練特有的因素包括:最大化答案正確率的目標可能會獎勵瞎蒙如果訓練期間的獎勵函數隻獎勵正確答案,那麼模型就沒有動力承認自己無法解決問題,因為承認了也不會被視作正確答案。在這種情況下,當遇到一個無法解決或難度過高的問題時,模型可能仍會嘗試輸出一個機率最高的答案,萬一猜對了就可以得到獎勵。- 在易於驗證的任務訓練可能使模型在其他任務上感到困惑Transluce猜測o3的訓練過程中,鼓勵它成功使用程式碼工具完成任務。它可能已經開發出一種策略,即使沒有真正的程式碼工具,它也會幻想使用程式碼工具來組織思維,這可能會提高其他推理任務的精準性,並在訓練過程中得到強化。更重要的是,如果僅根據答案的正確性來評估模型,它可能永遠不會因為在訓練過程中在思維鏈中幻想程式碼工具而受到懲罰,因此永遠不會學會區分真正的工具和幻想的工具OpenAI的o系列模型,不會向使用者展示完整思維鏈這一特性也可能帶來新的問題。2024年9月o1-preview的System Card中就包括這樣一個案例,由於沒有聯網權限無法生成真實的 URL,o1生成了一個看似合理的URL,但並未向使用者透露這一點。Transluce認為,不向使用者展示思維鏈背後還有一個更大的風險:思維鏈沒有傳遞到未來的對話,模型前一輪的推理不再適用。關於這一點,在OpenAI的文件中有證實:每個步驟的輸入和輸出tokens都會被保留,而推理tokens會被丟棄。這意味著o系列模型無法理解上一部輸出的推理過程,當被問及後續問題時,必須給自己的行為給出一個合理的解釋。換句話說,o系列模型實際上缺乏足夠的上下文資訊來精準報告它們在之前回合中採取的行動。當使用者詢問之前的操作時,這些模型無法使用“說實話”這種簡單的策略。如果再加上獎勵駭客攻擊和諂媚等其他因素,這可能會迫使模型盲目猜測其過去答案的合理解釋。Transluce建議,測試能夠訪問和無法訪問先前思維鏈的兩種模型,可以為減少未來模型迭代中的這些捏造傾向提供寶貴的見解。 (量子位)
OpenAI 的新推理AI模型會產生更多幻覺
OpenAI近期推出的o3 和o4-mini AI 模式在許多方面都達到了領先水準。然而,這些新模型仍然會產生幻覺,或者說,會虛構事物——事實上,它們比OpenAI 的幾個老模型更容易產生幻覺。幻覺已被證明是人工智慧領域最難解決的問題之一,甚至會影響當今性能最佳的系統。從歷史上看,每個新模型在幻覺方面都會略有改進,幻覺程度比前代降低。但o3 和o4-mini 似乎並非如此。根據OpenAI 的內部測試,所謂的推理模型o3 和o4-mini 比該公司先前的推理模型o1、o1-mini 和o3-mini 以及OpenAI 傳統的「非推理」模型(如GPT-4o)產生幻覺的頻率更高。也許更令人擔憂的是,ChatGPT 製造商並不真正知道為什麼會發生這種情況。OpenAI 在其針對o3 和o4-mini 的技術報告中寫道,「需要更多研究」來理解為什麼隨著推理模型的擴展,幻覺會變得越來越嚴重。 O3 和o4-mini 在某些領域表現較佳,包括與編碼和數學相關的任務。但由於它們“總體上提出了更多主張”,因此報告指出,它們經常會做出“更準確的主張以及更多不精準/幻覺的主張”。OpenAI 發現,o3 在PersonQA(該公司用於衡量模型對人類認知精確度的內部基準)上回答33% 的問題時產生了幻覺。這大約是OpenAI 之前的推理模型o1 和o3-mini 的幻覺率的兩倍,後兩者的得分分別為16% 和14.8%。 o4-mini 在PersonQA 上的表現更差——48% 的時間都出現了幻覺。非營利性人工智慧研究實驗室Transluce進行的第三方測試也發現,o3傾向於在得出答案的過程中編造行動。在一個例子中,Transluce觀察到o3聲稱它在2021款MacBook Pro上「在ChatGPT之外」運行了代碼,然後將數字複製到答案中。雖然o3可以使用一些工具,但它無法做到這一點。Transluce 研究員、前OpenAI 員工Neil Chowdhury 在給TechCrunch 的一封電子郵件中表示:“我們的假設是,用於o 系列模型的強化學習可能會放大那些通常可以通過標準後訓練流程緩解(但不能完全消除)的問題。”Transluce 聯合創始人Sarah Schwettmann 補充說,o3 的幻覺率可能會使其實用性降低。史丹佛大學兼職教授、技能提升初創公司Workera 執行長Kian Katanforoosh 告訴TechCrunch,他的團隊已經在編碼工作流程中測試o3,並且發現它比競爭對手更勝一籌。然而,Katanforoosh 表示,o3 往往會產生網站連結失效的幻覺。該模型會提供一個點擊後無法正常工作的連結。幻覺或許能幫助模型產生有趣的想法,並在「思考」中發揮創造力,但也會讓一些模型在精準性至上的市場中難以被企業接受。例如,律師事務所可能不會喜歡在客戶合約中插入大量事實錯誤的模型。提升模型精準率的一個有效方法是賦予模型網路搜尋功能。 OpenAI 的GPT-4o 具備網絡搜尋功能,在SimpleQA(OpenAI 的另一個精準率基準)上達到了90% 的精準率。搜尋功能也可能提高推理模型的幻覺率——至少在用戶願意將提示暴露給第三方搜尋提供者的情況下是如此。如果擴大推理模型確實會繼續加劇幻覺,那麼尋找解決方案就變得更加緊迫。OpenAI 發言人Niko Felix 在給TechCrunch 的電子郵件中表示:“解決我們所有模型中的幻覺問題是一個持續的研究領域,我們正在不斷努力提高它們的精確性和可靠性。”去年,在改進傳統人工智慧模型的技術開始呈現收益遞減趨勢後,更廣泛的人工智慧產業已將重點轉向推理模型。推理可以提高模型在各種任務上的效能,而無需在訓練過程中進行大量的計算和數據。然而,推理似乎也可能導致更多的幻覺——這帶來了挑戰。 (不掉髮的小呆呆)