GPT-5 為何不「胡說八道」 了? OpenAI 新論文講透了
GPT-5發佈之後,雖然其性能並未能達成業界的「飛躍」期望,但其中最亮眼的就是幻覺率的大幅下降。
OpenAI給出的資料顯示,GPT-5出現事實錯誤的機率比GPT-4o 低約45%,比OpenAI o3 低約80%。
但這提升背後的原因卻一直沒有對外公開。在System Card裡,OpenAI將此歸功於強化學習訓練,他們似乎利用了一些最新的訓練方法,讓這些模型學會了“完善自己的思考過程,嘗試不同的策略,並認識到自己的錯誤”,然而,具體的方法卻一直成謎。
9月4日,OpenAI 久違的發佈了一篇論文《語言模型為何會產生幻覺》(Why Language Models Hallucinate)。
雖然OpenAI未完全公開所有技術細節,但結合這篇官方論文和已發佈的技術文件,我們可以窺見其核心思路。
幻覺產生,在預訓練階段是不可避免的
幻覺是不可避免的,這個結論並不新鮮。但過往的研究基本上很少從語言模型本身的機製出發探討,而更多是圍繞著訓練資料的問題。
OpenAI的新論文一開始就證明了:「幻覺」是LLM統計學習本質下必然會產生的、可預測的副產品。
OpenAI的論證邏輯很簡單:產生可靠資訊比判斷是否可靠更難,而判斷是否可靠本身必然會有失敗的地方。
首先,論文利用語言模型自回歸預測的本質,定義了其內在的「判斷力」。
模型在評估一個句子時,會以逐詞預測的方式,將每一步的條件機率連乘,得出一個總機率值。這個機率值反映了該句子與模型在海量資料中學到的統計規律的符合程度。基於此,研究人員提出了一個理論上的“是否有效”(Is-It-Valid, IIV)判斷者:當一個句子的內部機率高於某個設定的閾值時,即被判斷為“有效”,反之則為“無效”。
簡單理解就是,模型生成的話“看起來熟、順”就“有效”,反之則無效。
然而,這個理論上的「判斷者」並非永遠可靠。在處理那些「面生,但又似乎那裡見過」的灰色訊息時,它必然會出錯。論文列舉了多種導致判斷失效的場景,包括:因資料稀疏(如「孤例」事實)導致模型只能猜測;模型本身能力不足以理解複雜概念;以及計算複雜、資料分佈偏移和訓練資料本身包含錯誤(垃圾進,垃圾出)等情況。
對於這種不可避免的「判斷錯誤」會帶來多大的後果,論文給出了一個嚴格的數學結論:(生成模型的錯誤率)≥ 2 ×(IIV 判斷器的錯誤率)。
這個放大效應的根源在於,判斷層面上的錯誤,必然會導致兩種以上的幻覺。比如說1+1,模型給判斷成等於3了。這會衍生出至少兩種幻覺,一個是1+1=3,這是幻覺;另一種是1+1不等於2,這又是幻覺。他們都來自於同一個錯誤的判斷。
因此,結論是清晰的:只要訓練資料中不可避免地存在長尾、稀疏和充滿雜訊的部分,模型在判斷層面就必然會失敗。而模型在判斷上犯的每一個錯誤,都會被放大並傳導至生成任務。因此生成中的幻覺也是不可避免的。
對於人類來講,幻覺也基本上是不可避免。我們也有很多拿不定到底是不是的事情,但人類有「知之為知之,不知為不知」的諺語。對於拿不定的東西,我們可以選擇說不知道。
對於模型來講,對齊的過程本應是教導它們「不知為不知」的一個過程。比如說提高其內部與IIV類似的「有效性判別器」的閾值,或突出那些更可能的答案。
但OpenAI論文的後半部正證明了後訓練,在當下的評估體系下,沒辦法做好它們在這方面的工作。
後訓練,未能有效抑制幻覺
後訓練並非是完全無效的。在論文中,OpenAI給出了一個校準的概念。
在預訓練模型中,一個詞的機率分佈實際上是完全按照其訓練材料產生的,這意味著它的自信程度基本上反映了訓練資料中的真實情況。在模型的預訓練中,為了達到損失函數最小化的目標,模型就會自然而然地被校準。
但這也會產生一種平原效應,即模型面對的許多選項的自信度都挺大的,都可以越過IIV判斷器的閾值,因此很容易產生幻覺。
後訓練過程的介入,透過明確的偏好回饋(例如,人類偏好答案A而不是B、C、D)來強行改變這片平坦的機率荒原。
這個過程導致了模型的“非校準”,讓機率分佈更集中,模型被教導要將絕大部分機率集中到那個被認為是“最佳”的答案上,形成一個陡峭的山峰。同時,其他曾經看似合理的選項(B、C、D等)的機率被大大壓制,遠低於IIV判斷閾值。
透過這種方式,模型不再需要在多個弱選項之間進行猜測,因為它被明確地告知了應該選擇那座「山峰」。當這座山峰恰好是正確答案時,模型便成功地克服了因不確定性導致的幻覺,幻覺率也因此降低。
然而這種「非校準」是一把雙面刃。它在減少「因不確定而猜測」的幻覺的同時,也可能增加了「過度自信」的風險。
而後訓練的一個重點方向就是減少這種過度自信。讓模型能夠說出「我不知道」。
但目前絕大多數被廣泛用於衡量AI模型能力的主流評估基準,如GPQA3、MMLU-Pro和SWE-bench等,都普遍採用一種「二元評分制」。在這些Benchmark裡,答案只被簡單判定為「正確」(得1分)或「錯誤」(得0分)。
這種評分機制帶來了一個嚴重問題:它會系統性地懲罰不確定性。當模型面對一個它沒有把握的問題時,如果它選擇誠實地回答“我不知道”(IDK)或拒絕回答,其得分將是0分。這和直接給出一個錯誤的「最佳猜測」答案分數完全相同。在這種規則下,放棄回答是一種“蠢”策略,而毫無根據的“虛張聲勢”,反而成了追求更高分數的理性選擇。
因此在當下為了在跑分上贏得競爭對手,彰顯自己實力的模型訓練中,去讓模型誠實回答「我不知道」反而是一件吃力不討好的事情。
因此,後訓練過程對模型幻覺的消除在技術底層是有效的,但在實踐上並沒被引導。目前的行業評估標準正在系統性地獎勵產生幻覺的行為。只要這種「懲罰誠實、獎勵猜測」的評估範式不變,幻覺問題就將繼續成為阻礙AI系統邁向更高可靠性的頑固障礙。
GPT-5可能的幻覺殺手鐧與DeepSeek R1的短板
雖然文章沒有真正深入後訓練過程的細節中去解釋這一問題,而只是批判了對錯二元的benchmark。但若將其應用至RL領域,就能發現其結論仍具有合理性。
這個推論就是:如果一個強化學習(RL)過程本身也採取了二元的獎勵路徑,那麼它極有可能導致模型抑制幻覺的能力降低。
強化學習的核心是透過一個「獎勵模型」(Reward Model)來指導語言模型的行為。語言模型產生一個回答,獎勵模型為這個回答評分,然後語言模型根據分數來調整自己的策略,以期未來能獲得更高的分數。
若獎勵模型採用的是一種極端二元評分(如「好答案」+1/「壞答案」-1),會導致以下問題:
- 事實性錯誤答案,得-1分。
- 誠實但無幫助的答案,同樣得-1分。
這就復現了論文在Benchmark的缺陷:一個採用二元獎勵路徑的RL流程,會從訓練的根源上鼓勵模型「虛張聲勢」。它不會鼓勵模型去學習如何校準自己的不確定性,反而會懲罰這種不確定性的表達。
目前主流的獎勵模型有兩種。
一種是ORM(結果獎勵模型),它基本上就跟我們上面假設的那種情況一樣。以使用了ORM的DeepSeekR1為例,其獎勵模型就由兩個路徑構成,一個是最終答案是否正確,一個是格式是否正確。這就是一個極端的二元路徑。只要最終答案正確,就給高分。
這樣更強化二元性路徑的後訓練,很有可能在減少「猶豫型」幻覺的同時,增加「頑固型」或「過度自信型」的幻覺。因為這些自信性幻覺更頑固,反而可能會推高整體幻覺率。
這也許就是為什麼DeepSeekR1在問世後,面對了很大的幻覺挑戰的問題,在Vectara HHEM幻覺測試中,它的幻覺率居然高達14.3%,遠高於預訓練模型DeepSeekV3。
而使用PRM(過程獎勵模型)的模型,如同期的OpenAI o3,其幻覺率則僅有6.8%,未及DeepSeek R1的一半。
這是因為PRM會檢視模型的「思路」(如Chain-of-Thought),當發現某一步推理是基於一個捏造的事即時,就會在那一步給予負回饋。這迫使模型學會忠於事實地進行推理。雖然其在過程中仍然是依賴對每一步的「好/壞」或「對/錯」的判斷,也有兩極的形式。
而在GPT-5中,根據The Information爆料,其極有可能引入了Universal Verifier的技術,來超越原來的可驗證的對錯二元評價標準。例如目前比較熱門的Rubric(評分細則)的方法。它會讓另一個「驗證模型」依據一套複雜的、非二元的標準(如事實性、邏輯性、細微差別)進行評分。這將從根本上瓦解二元激勵對強化學習過程帶來的負面影響。
這也許就是GPT-5模型能夠做到如此低幻覺率的訣竅。
當然,這一切可能還遠遠不夠。論文最後,研究者提議最好的解決幻覺的方法是在後訓練階段引入帶有懲罰的評分機制。
此機制會在指令中明確告知模型過度自信會有巨大代價(例如,答對得1分,答錯得-1,過度自信答錯扣9分,不答得0分),迫使模型從一個單純的「得分最佳化器」轉變為一個「風險評估器」。它必須精確地校準自身的置信度,只有當確信度夠高時才敢於回答。
也許只有讓模型不只是專注於得分,而是專注於真,幻覺問題才有可能被解決。 (騰訊研究院)