【新智元導讀】GPT-5.5被扒出「假思考」,用兩小時就被偷偷換成mini,200美元月費買了個「薛定諤的腦子」。Trace命令實錘,官方文件親自認領。往後有紛紛吐槽:OpenAI,你糊弄誰呢?
ChatGPT又被爆「降智」了!
就在這兩天,𝕏上率先炸鍋。
網友Lisan al Gaib發現,GPT-5.5用了一兩個小時後突然變傻,每個請求都是秒回,質量斷崖式下跌。
但介面上顯示的,依然還是「GPT-5.5 Extended Thinking」。
也就是說,思考的標籤還掛著,但思考本身已經消失了。
200美元/月,買了個「薛定諤的模型」
OpenAI開發者論壇上,一篇投訴帖同步爆了。
Agentify.sh表示,GPT-5.5用著用著會突然喪失遵循指令的能力。
眼瞧著它興沖沖地宣佈「修好了」,結果程式碼質量差到引發大面積回退。
之前5.5-med就能輕鬆搞定的UI任務,現在連最簡單的改動都搞不定。
升到5.5-high,沒用。再升到xhigh,還是不行。
而且xhigh以前能跑好幾個小時,現在明顯縮短了。
帖子一出,回覆區瞬間炸了。
有人直接退回了5.4。
有人用的是xhigh最高檔,但「跟上周比明顯拉胯,長任務頻繁出錯,完全不遵循工作流」。
有人反映更離譜的情況,「簡單查詢也要轉很久,你打斷它糾正方向,它直接無視你,繼續按之前錯誤的計畫走」。
沒錯,所有人都在描述同一個現象——GPT的腦子,不知道什麼時候被偷偷換掉了。
GPT-5.5目前的表現跟5.3差不多,毫不誇張。頭幾天還驚豔得不行,現在完全找不到當初那個模型的影子了。
不是錯覺,OpenAI自己白紙黑字寫著
為了驗證,Lisan al Gaib專門做了一個對比測試。
同一個帳號,ChatGPT端用Extended Thinking跑出來的全是垃圾,轉頭到Codex端用xhigh,立刻恢復正常。
用他的原話說就是,Codex「簡直比這玩意兒聰明40億倍」。
開發者Andrew Curran則想了個妙招——直接問模型「你的訓練資料截止日期是什麼?」
模型回答,August 2025。
問題是,GPT-5.5 Thinking的截止日期是12月。8月,是Instant版本的截止日期!
也就是說,他選的是Thinking,系統實際給他跑的是Instant。
介面上模型標籤一個字都沒變,但背後的模型已經被偷偷換掉了……
搞笑的是,這次OpenAI竟然在自己的幫助文件裡替使用者做了實錘。
根據OpenAI Help Center的官方說明,Plus使用者每3小時最多傳送160條GPT-5.5消息。
用完之後,系統會靜默切換到mini模型,直到額度重設。
注意「靜默」兩個字。
沒有彈窗提示,沒有模型標籤變化,沒有任何視覺反饋。
你還以為自己在用旗艦模型,對面已經悄悄換成了mini。
Pro使用者也別高興太早。
Heavy思考模式,那個Pro獨享的最高推理檔位,在伺服器負載高的時候,同樣會被容量限流。同樣沒有預警。
換句話說,200美元/月的Pro訂閱,買到的是一個隨時可能被「偷樑換柱」的服務。
而這種「標籤沒變,腦子換了」的操作,在Codex端更早就被人抓包了。
今年2月,GitHub上出現了一個issue,一個Pro使用者用trace命令抓到,自己請求的是GPT-5.3 Codex,實際返回的模型是GPT-5.2。
連5.2 Codex都不是,是更低的基礎版5.2。
他貼出了復現命令:
RUST_LOG='codex_api::sse::responses=trace' codex exec --skip-git-repo-check -s read-only -m 'gpt-5.3-codex' 'hi' 2>&1 >/dev/null | rg -o --replace '$1' '"model":"([^"]+)"' | head -n1輸出:gpt-5.2-2025-12-11預期:gpt-5.3-codex
多個Pro使用者在同一個issue下確認了同樣的降級。
而且這種降級是「粘性的」,不會自己恢復,也沒有任何解釋。
甚至,在4月GPT-5.5發佈當天,還有使用者報告Fast模式的速度跟Standard差不多,但計費還是按Fast來的。
簡單任務跑了7分49秒,正常應該5-6分鐘。
OpenAI承認了,然後就沒有然後了
5月15日,OpenAI的status頁面出現了一條記錄。
GPT5.5 Performance Degradation,我們正在調查部分使用者反映的GPT-5.5性能下降問題。
5月17日,狀態更新為「已解決」。
但從論壇帖子的時間線來看,5月24-26日的降智投訴比5月15日那波更猛。
要麼「解決」了的問題又回來了,要麼壓根就沒真正解決。
每次升級都是一次「降智爭議」
雖然各家都會遇到「模型變蠢」的吐槽,但OpenAI從GPT-5到GPT-5.5的每個更新,一次都沒缺席。
每一次OpenAI都說在調查,每一次都說已解決,然後下一個版本繼續。
2025年8月,GPT-5首發。Reddit的熱帖標題直接就是「GPT-5太爛了」。使用者投訴短回覆、更多拒絕、更少人格感。
OpenAI被迫緊急恢復GPT-4o選項。奧特曼在Reddit AMA上親自承認「比我們預期的顛簸」。
2025年12月,GPT-5.2。翻譯質量倒退,編造不存在的API,拒絕執行5.1能輕鬆完成的風格指令。
2026年2月,GPT-5.3-Codex。Pro使用者被靜默降級到5.2,trace命令實錘。
2026年3月,GPT-5.4。OpenAI社區論壇出現「GPT-5.4在Codex裡明顯退化了」帖子,網友回覆全部確認。
2026年5月初,GPT-5.5 Instant上線。回覆長度縮短30%,emoji幾乎消失。網友總結:精度提升了,但溫度消失了。
2026年5月下旬,也就是現在。Thinking模式的降智投訴再次爆發。
Lisan al Gaib透露,自從GPT-5發佈時他帶頭打了那場ChatGPT Plus額度爭奪戰之後,「每周都會收到這樣的私信」。
最新一條是有人求他幫忙把xhigh/heavy thinking要回來。
跑分最強的那天,是發佈日
chatgptdisaster.com整理了1087條經過驗證的使用者投訴,其中一類被反覆提到的場景叫「路由層失靈」,UI顯示GPT-5.5 Pro,輸出完全是另一個檔次的東西。
使用者描述了一個可復現的模式,長會話後模型開始「完全無視你說的話」,但模型選擇器上還掛著頂配標籤。
最荒誕的註腳是,Plus使用者160條/3小時用完後自動切換mini的機制,在OpenAI官方文件裡被描述為一項「功能」。
為什麼會這樣?Lisan al Gaib分析認為,答案就兩個字,省錢。
算力與盈利能力的緊縮正影響著每一個人。處處精打細算,不放過任何省錢的機會。
然而,就在GPT-5.5使用者集體投訴的同一周,GPT-5.6的身影已經出現在了Codex後台日誌裡。
內部代號iris-alpha,150萬Token上下文,Polymarket給出的6月發佈機率超過85%。
一邊是5.5使用者連基礎體驗都保不住,一邊是5.6已經在後台悄悄跑真實流量。
這就是2026年的ASI競賽。
造新模型的速度越來越快,但讓舊模型好好跑完一個會話卻越來越難。
跑分最強的那一天永遠是發佈日,之後每一天都是薛定諤的GPT。 (新智元)
