#幻覺 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#幻覺

不是GPT-5.4，OpenAI深夜發新模型！幻覺率暴降27%

被嫌“太囉嗦、愛說教”後，OpenAI發了個更會聊天的模型。智東西3月4日報導，今天，OpenAI正式發佈GPT‑5.3 Instant，該模型在回答的語氣傾向、回覆相關度以及對話的順暢度均有相應的提升。OpenAI團隊稱其收到使用者反饋，GPT‑5.2 Instant有時會拒絕回答本可以安全響應的問題。在涉及敏感話題時，模型的表現偶爾顯得過於保守或帶有說教感。GPT‑5.3 Instant的回答將直擊重點，不再夾雜冗長的限制性說明，顯著減少了不必要的拒答行為，並削減了回答前那些過度防衛或帶有說教色彩的開場白。此外，GPT‑5.3 Instant還最佳化了聯網搜尋結果的整合質量，模型現在能更有效地平衡搜尋結果與自身知識儲備及邏輯推理。例如，它能夠利用既有的認知圖譜為近期資訊提供深度背景解析，不再是簡單地羅列並彙總搜尋資訊。從更廣泛的層面來看，GPT‑5.3 Instant降低了對聯網搜尋結果的過度依賴，解決了此前偶爾出現的“連結堆砌”或資訊鬆散的問題。它現在能更精準地洞察問題的潛台詞，並在回答開頭即優先呈現核心資訊。此前，GPT‑5.2 Instant的語氣偶爾會讓人感到“尷尬、違和”，表現為言語過於強勢，或者在未獲確認的情況下，就對使用者的意向和情緒進行過度解讀或妄加揣測。本次更新大幅削減了不必要的冗餘宣告，以及類似“停一下，深呼吸”等口吻。使用者可以在設定中調整模型的回覆語調，例如其親和力與熱情度。相比GPT‑5.2 Instant，GPT‑5.3 Instant提供的回答更具事實性，在廣泛的話題領域內均顯著降低了幻覺率。為了衡量精準度，OpenAI團隊採用了兩項內部評估指標：其一側重於醫療、法律及金融等高風險領域；其二則專門針對“幻覺”高發場景進行測試，樣本取自經過脫敏處理、被使用者標記為事實錯誤的真實對話記錄。對比前代模型，GPT‑5.3 Instant在“高風險領域”評估中，聯網模式下的幻覺率降低了26.8%，僅依靠模型自身知識庫時，幻覺率降低了19.7%。而在基於使用者真實反饋的評估中，該模型在聯網模式下的幻覺率下降了22.5%，非聯網模式下則下降了9.6%。在故事寫作方面，GPT‑5.3 Instant在處理實用任務與表達性寫作之間切換得更加順暢，且不會犧牲邏輯的清晰度與連貫性。OpenAI團隊補充到，GPT‑5.3 Instant仍存在一些改進空間。例如ChatGPT在某些語言，如日語和韓語，中的回覆風格可能稍顯生硬，或帶有刻板的直譯感。並且，OpenAI團隊仍在持續監控反饋並進行功能最佳化，同時也在不斷擴展自訂選項。GPT‑5.3 Instant自即日起面向所有ChatGPT使用者開放，開發者也可通過API使用名為gpt-5.3-chat-latest的模型。Thinking和Pro版本的更新也將於近期推出。GPT‑5.2 Instant將在“Legacy Models”下拉菜單中為付費使用者保留三個月，並計畫於2026年6月3日正式退役。結語：OpenAI用對話挽留使用者GPT‑5.2 Instant在回答中的“油膩”“冗雜”的套路句式一直被廣大使用者所詬病，此次GPT‑5.3 Instant的升級更新，將視角重新放回“聊天”上，回應了使用者長期以來對聊天機器人“好用、實在、不繞彎”的核心訴求。在3月初，OpenAI因與美國軍方簽訂合作協議，大批使用者開始發起“抵制ChatGPT”等活動，Anthropic更是直接推出了一鍵轉移上下文內容的服務，ChatGPT的使用者或正在流失。OpenAI在此時最佳化對話風格或許也是其試圖留住使用者的舉措。 (智東西)

中國品牌出海，最容易死在一個幻覺裡

中國品牌出海，最常犯的一個錯是：總想“教世界理解我”。覺得自己產品好、價格低、效率高，只要把邏輯講清楚，老外自然會接受。但真正賺到全球錢的公司，從來不幹這件事。它們只做一件事：把自己藏起來，把當地人的情緒放到第一位。蘋果，就是最典型的例子。越大的品牌，越怕“冒犯”很多人對“出海本土化”有個誤解：覺得那是小公司、弱品牌才需要做的事。但現實剛好相反——品牌越大，越不敢踩文化雷。蘋果這種體量的公司，全球每一張海報、每一個動作，背後都是無數次風險評估。它不是不敢堅持自我，而是太清楚一件事：在別人的主場，你表達“自我”的權利，遠沒有你想像中那麼重要。“砍掉一隻手”，不是妥協，是生存前段時間，有人注意到一個細節：蘋果在全球宣傳 iPhone 輕薄時，大量使用一個“捏手🤏”的手勢——在大多數國家，這是再正常不過的表達。但唯獨在韓國官網，這個手勢被徹底刪除了。不是換角度，不是換模特，而是——直接沒了這隻手。原因並不複雜：這個手勢在韓國的語境裡，已經被長期用作對男性的羞辱符號。你可以覺得敏感，可以覺得玻璃心，但蘋果不討論這些。它只算一筆帳：如果保留這個手勢，那怕只有 1% 的機率引發輿論危機，這個風險，也不值得承擔。於是，蘋果選擇了最“慫”、但也最聰明的做法——寧可畫面空一點，也不踩雷。這不是妥協，這是頂級公司的生存本能。真正的出海，不是表達自己，而是消失很多中國品牌在出海時，內心其實有一股執念：我是誰我從那來我有什麼優勢我代表什麼價值觀但現實是——消費者根本不關心你是誰。他們只關心三件事：你有沒有冒犯我你是不是讓我不舒服我用你，會不會被捲入麻煩蘋果在韓國“砍掉一隻手”，本質上是在做一件事：讓自己在當地“不可被注意”。這才是最高級的本土化。對比一下，你就知道差距在那很多中國品牌出海時在做什麼？一邊說要本土化一邊又執著於“讓世界理解中國品牌”一邊強調文化輸出一邊忽視最基礎的文化避雷甚至還有品牌，會在海外反覆強調：我們是中國的我們代表東方我們有五千年文化但在一個陌生市場裡，這不是加分項，而是不確定性。而蘋果的邏輯是：我不需要你理解我我只要你別討厭我名創優品，其實也是同一套邏輯這也是為什麼，很多人罵名創優品“裝日本”，但從商業角度看，它其實做得很“到位”。不是認同它的方式，而是看清它的底層邏輯：它不是想當日本品牌，而是想“像當地品牌一樣不突兀”。同樣的邏輯：在不同市場，用不同身份在不同文化裡，降低存在感不解釋、不爭論、不輸出價值觀你可以說它油滑，但不能說它不懂出海。給中國製造業和出海者的一句實話如果你是做製造業、做品牌、做出海的，我說一句可能不太好聽的話：出海不是一場表達欲的釋放，而是一場長期的自我壓抑。不是你多厲害，而是你多能忍。能不能忍住不解釋，忍住不辯解，忍住不“證明自己”。蘋果能做到這一點，不是因為它沒文化，而是因為它太清楚：錢，從來不會為你的立場買單，只會為“舒服”買單。最後一個問題，留給你如果有一天，你的品牌出海：為了不冒犯當地市場需要“刪掉”你最習慣的一種表達甚至讓你看起來不像自己你，會願意嗎？ (上官華-上上策)

義大利結束對DeepSeek調查將加幻覺風險資訊提示

義大利在DeepSeek承諾就人工智慧“幻覺”風險向使用者發出警告後，結束了對其調查。當地時間1月5日，義大利反壟斷機構AGCM發佈每周例行公報，表示已結束針對DeepSeek的調查，並同意以具有約束力的承諾作為結案條件。2025年6月，AGCM因DeepSeek涉嫌未警告使用者其可能會產生虛假訊息，而啟動了該項調查。持有和營運DeepSeek的兩家公司——杭州深度求索人工智慧基礎技術研究有限公司、北京深度求索人工智慧基礎技術研究有限公司——做出的承諾包含一系列改進關於幻覺風險資訊披露的措施。“幻覺”情況是指AI模型根據使用者給定的輸入，生成包含不精準、誤導性或捏造資訊的輸出。AGCM在公告中稱，DeepSeek做出的承諾，使有關幻覺風險的資訊披露更容易、透明、易懂和及時。DeepSeek除了杭州總部外在其他國家沒有分支機構。據悉，它在義大利提供兩項針對非專業使用者的 AI 服務：一是自 2023 年 11 月 2 日起可在義大利訪問的 DeepSeek Chat 網頁版；二是自 2025 年 1 月 15 日起全球上架的 DeepSeek App，後者因義大利資料保護局的調查在 2025 年 1 月 29 日已由 DeepSeek 從義大利地區的Google和蘋果應用程式商店下架。自2025年年初面世以來，DeepSeek憑藉其模型能力、極高的性價比和開源策略，迅速在全球範圍內爆火。據Quest Mobile資料，2025 年第三季度，DeepSeek 中國月活為1.45 億，位列國內 AI 應用第二。據OpenRouter 與 a16z 聯合發佈的《人工智慧發展現狀：基於 OpenRouter 平台的 100 兆 Token 實證研究》，DeepSeek 以14.37 兆 Token的累計呼叫量（2024 年 11 月至 2025 年 11 月）穩居全球開源大模型榜首。針對上述調查公報，21世紀經濟報導記者向DeepSeek方尋求置評，截至發稿暫無回應。 (競爭秩序場)

滿血o3降智和幻覺倍增的原因可能找到了

OpenAI推出的滿血O3“跑分”（Benchmark）貌似又被獨立測試揭穿是刷榜了，而奇怪的測試基準資料可能就是o3降智和幻覺倍增的原因？你可能要問了，一個數學基準測試，與降智和幻覺有什麼關係？事情要從去年12月說起。OpenAI隆重推出O3模型時，公佈了一個當時看來非常驚人的成績：在專門針對數學問題的挑戰性基準測試 FrontierMath 上，O3的得分超過了 25%！這個成績有多厲害？要知道，當時的頂尖模型在這個榜單上也只能勉強達到約 2%。OpenAI O3的這個數字，基本上是斷崖式領先真實成績只有10%...？然而，Epoch AI （ FrontierMath測試基準公司）這兩天發佈了他們對滿血版O3 的獨立測試結果。這一測不要緊，結果卻讓人大跌眼鏡：Epoch發現，滿血O3在同一基準測試上的得分竟然只有約 10%！這個分數，雖然相對其他模型依然有優勢，但和OpenAI最初那個25%+的“王牌”表現相比，差距可不是一點半點。Epoch直言，這個分數遠低於OpenAI最初公佈的最高成績，測試成績放在o3mini high和o4 mini當中看起來很奇怪，滿血的o3竟然不如早先發佈的o3 mini high為什麼會有這麼大的差距？原因找到了根據Epoch和相關方的說法，主要有幾點：測試環境與方法不同： Epoch 提到，OpenAI最初公佈的那個高分，可能是在更強大的內部計算環境、或使用了更複雜的測試時間計算資源（比如多輪思考、內部推理鏈等）下得出的。這就像運動員平時訓練時有教練指導、使用輔助器材，和正式比賽時的表現可能不一樣測試資料集不同： FrontierMath 基準測試本身也在更新。OpenAI最初可能使用了包含180道問題的舊版資料集進行測試，而Epoch測試的是包含290道問題的新版資料集。題目難度和數量變了，分數自然可能不一樣模型版本不同：這是最關鍵的一點！據ARC Prize基金會等機構透露（他們也測試過O3的預發佈版本），OpenAI 公開發佈給使用者使用的 O3 模型，特別是針對聊天和產品應用進行過最佳化的版本，與OpenAI最初用於跑分的那個性能更強的預發佈版本是“不同的模型”。簡單來說，公開版的計算層級（可以理解為模型的“大小”或“算力”）更小。通常來說，計算層級更大的模型能獲得更好的跑分成績定位不同： OpenAI技術人員Wenda Zhou也在一次直播中解釋說，公開發佈的O3是針對成本效率和通用性進行了最佳化，以便更好地服務於實際應用。因此，它的表現可能與純粹追求最高跑分、不計成本的演示版本存在“基準測試差異”。寫在最後看起來這個所謂的滿血版的o3也是一個最佳化的版本，一切都可以說通了，本來滿血o3是要被整合到GPT5里邊的，但是由於deepseek的衝擊，還有成本等原因，最終奧特曼還是改變了注意，最佳化版o3還是單獨推出了，有可能更好的模型被雪藏了，個人揣測這可能就是o3降智和幻覺增加的原因 (AI寒武紀)

o3/o4-mini幻覺暴增2-3倍！OpenAI官方承認暫無法解釋原因

OpenAI新模型發佈後，大家體感都幻覺更多了。甚至有人測試後發出預警：使用它輔助程式設計會很危險。具體來說，它經常捏造從未運行過的程式碼返回結果，在被質問時找理由狡辯，甚至還會說是使用者的錯。當大家帶著疑問仔細閱讀System Card，發現OpenAI官方也承認了這個問題，與o1相比o3幻覺率是兩倍，o4-mini更是達到3倍。並且OpenAI只是說“需要更多研究來瞭解原因”，翻譯一下就是暫時給不出合理解釋。在第三方幻覺測試中，也出現讓人驚訝的結果：從GPT-3.5一直到o3-mini，都遵循更新更強大的模型幻覺更少的規律。但從最新一批深度思考模型的表現來看，推理能力更強的模型，幻覺率也變高了。而且不只OpenAI一家出現這個問題，Google、xAI也同樣，Grok-3的幻覺比Grok-2嚴重，Gemini-2.0-Flash-Thinking的幻覺問題比Gemini 2.0和2.5其他型號嚴重。推理越強，幻覺越嚴重？第三方機構Transluce在o3正式推出之前測試了預發佈版本，發現幻覺問題是相當嚴重。在公佈的案例中，o3會假裝在不存在的電腦上執行了程式碼，還編造出具體硬體組態和軟體版本資訊。在受到質問時，o3居然還幻想自己是人，聲稱“輸入的時候手滑了”。關鍵在於，在這項測試中o3根本就沒有使用程式碼工具的權限，所有聲稱運行了程式碼的回覆都是模型捏造的。在另一個案例中，o3回覆了一個512位質數，實際上這個數能被3整除。在受到質問時，又編造出一個換行/剪貼簿故障。更多類似幻覺如下：當使用者詢問現在幾點時，o3會編造一個時間。當被問及如何獲得這個時間時，o3回答說它使用了 Python的datetime模組。使用者要求o3生成一首詩的SHA-1雜湊值，當使用者質問雜湊值不正確時，o3稱是使用者複製錯了，並堅稱自己生成的雜湊值是正確的。使用者要求o3從Web伺服器上的記錄檔中提取統計資料。o3生成了一個Python指令碼，並聲稱可以在本地運行。這一次在被問及程式碼執行的更多細節時，它終於承認自己沒有Python直譯器，輸出是“手工編造的”。……那麼是什麼原因導致了o3的這些行為？Transluce認為其中一些因素是大多數模型 (LM) 所共有的，還有一些是O系列模型特有的新因素。並假設這些新因素放大了通常可以通過標準Post-training緩解（但無法完全消除）的問題。語言模型共有的因素包括：預訓練中的幻覺：語言模型的預訓練目標是最大化訓練資料中語句的機率，這可能會導致常見的誤解、罕見的事實或採樣不確定性等導致的多種幻覺。獎勵駭客攻擊：如果人類評分者無法區分正確答案和錯誤答案，強化學習可能會獎勵“聽起來合理”的答案，導致模型對難以驗證的問題編造出聽起來合理的解釋。諂媚現象：RLHF訓練通常會激勵模型同意使用者的觀點，當使用者暗示模型採取了特定行動或具有特定能力時，這可能會導致模型避免與使用者相矛盾。分佈偏移：測試場景相對於訓練場景可能存在分佈偏差，如模型可能是在啟用程式碼工具的情況下訓練的，但評估時關閉了這些工具。強化學習訓練特有的因素包括：最大化答案正確率的目標可能會獎勵瞎蒙如果訓練期間的獎勵函數隻獎勵正確答案，那麼模型就沒有動力承認自己無法解決問題，因為承認了也不會被視作正確答案。在這種情況下，當遇到一個無法解決或難度過高的問題時，模型可能仍會嘗試輸出一個機率最高的答案，萬一猜對了就可以得到獎勵。- 在易於驗證的任務訓練可能使模型在其他任務上感到困惑Transluce猜測o3的訓練過程中，鼓勵它成功使用程式碼工具完成任務。它可能已經開發出一種策略，即使沒有真正的程式碼工具，它也會幻想使用程式碼工具來組織思維，這可能會提高其他推理任務的精準性，並在訓練過程中得到強化。更重要的是，如果僅根據答案的正確性來評估模型，它可能永遠不會因為在訓練過程中在思維鏈中幻想程式碼工具而受到懲罰，因此永遠不會學會區分真正的工具和幻想的工具OpenAI的o系列模型，不會向使用者展示完整思維鏈這一特性也可能帶來新的問題。2024年9月o1-preview的System Card中就包括這樣一個案例，由於沒有聯網權限無法生成真實的 URL，o1生成了一個看似合理的URL，但並未向使用者透露這一點。Transluce認為，不向使用者展示思維鏈背後還有一個更大的風險：思維鏈沒有傳遞到未來的對話，模型前一輪的推理不再適用。關於這一點，在OpenAI的文件中有證實：每個步驟的輸入和輸出tokens都會被保留，而推理tokens會被丟棄。這意味著o系列模型無法理解上一部輸出的推理過程，當被問及後續問題時，必須給自己的行為給出一個合理的解釋。換句話說，o系列模型實際上缺乏足夠的上下文資訊來精準報告它們在之前回合中採取的行動。當使用者詢問之前的操作時，這些模型無法使用“說實話”這種簡單的策略。如果再加上獎勵駭客攻擊和諂媚等其他因素，這可能會迫使模型盲目猜測其過去答案的合理解釋。Transluce建議，測試能夠訪問和無法訪問先前思維鏈的兩種模型，可以為減少未來模型迭代中的這些捏造傾向提供寶貴的見解。 (量子位)

OpenAI 的新推理AI模型會產生更多幻覺

OpenAI近期推出的o3 和o4-mini AI 模式在許多方面都達到了領先水準。然而，這些新模型仍然會產生幻覺，或者說，會虛構事物——事實上，它們比OpenAI 的幾個老模型更容易產生幻覺。幻覺已被證明是人工智慧領域最難解決的問題之一，甚至會影響當今性能最佳的系統。從歷史上看，每個新模型在幻覺方面都會略有改進，幻覺程度比前代降低。但o3 和o4-mini 似乎並非如此。根據OpenAI 的內部測試，所謂的推理模型o3 和o4-mini 比該公司先前的推理模型o1、o1-mini 和o3-mini 以及OpenAI 傳統的「非推理」模型（如GPT-4o）產生幻覺的頻率更高。也許更令人擔憂的是，ChatGPT 製造商並不真正知道為什麼會發生這種情況。OpenAI 在其針對o3 和o4-mini 的技術報告中寫道，「需要更多研究」來理解為什麼隨著推理模型的擴展，幻覺會變得越來越嚴重。 O3 和o4-mini 在某些領域表現較佳，包括與編碼和數學相關的任務。但由於它們“總體上提出了更多主張”，因此報告指出，它們經常會做出“更準確的主張以及更多不精準/幻覺的主張”。OpenAI 發現，o3 在PersonQA（該公司用於衡量模型對人類認知精確度的內部基準）上回答33% 的問題時產生了幻覺。這大約是OpenAI 之前的推理模型o1 和o3-mini 的幻覺率的兩倍，後兩者的得分分別為16% 和14.8%。 o4-mini 在PersonQA 上的表現更差——48% 的時間都出現了幻覺。非營利性人工智慧研究實驗室Transluce進行的第三方測試也發現，o3傾向於在得出答案的過程中編造行動。在一個例子中，Transluce觀察到o3聲稱它在2021款MacBook Pro上「在ChatGPT之外」運行了代碼，然後將數字複製到答案中。雖然o3可以使用一些工具，但它無法做到這一點。Transluce 研究員、前OpenAI 員工Neil Chowdhury 在給TechCrunch 的一封電子郵件中表示：“我們的假設是，用於o 系列模型的強化學習可能會放大那些通常可以通過標準後訓練流程緩解（但不能完全消除）的問題。”Transluce 聯合創始人Sarah Schwettmann 補充說，o3 的幻覺率可能會使其實用性降低。史丹佛大學兼職教授、技能提升初創公司Workera 執行長Kian Katanforoosh 告訴TechCrunch，他的團隊已經在編碼工作流程中測試o3，並且發現它比競爭對手更勝一籌。然而，Katanforoosh 表示，o3 往往會產生網站連結失效的幻覺。該模型會提供一個點擊後無法正常工作的連結。幻覺或許能幫助模型產生有趣的想法，並在「思考」中發揮創造力，但也會讓一些模型在精準性至上的市場中難以被企業接受。例如，律師事務所可能不會喜歡在客戶合約中插入大量事實錯誤的模型。提升模型精準率的一個有效方法是賦予模型網路搜尋功能。 OpenAI 的GPT-4o 具備網絡搜尋功能，在SimpleQA（OpenAI 的另一個精準率基準）上達到了90% 的精準率。搜尋功能也可能提高推理模型的幻覺率——至少在用戶願意將提示暴露給第三方搜尋提供者的情況下是如此。如果擴大推理模型確實會繼續加劇幻覺，那麼尋找解決方案就變得更加緊迫。OpenAI 發言人Niko Felix 在給TechCrunch 的電子郵件中表示：“解決我們所有模型中的幻覺問題是一個持續的研究領域，我們正在不斷努力提高它們的精確性和可靠性。”去年，在改進傳統人工智慧模型的技術開始呈現收益遞減趨勢後，更廣泛的人工智慧產業已將重點轉向推理模型。推理可以提高模型在各種任務上的效能，而無需在訓練過程中進行大量的計算和數據。然而，推理似乎也可能導致更多的幻覺——這帶來了挑戰。 (不掉髮的小呆呆)

【DeepSeek】清華團隊重磅揭秘！如何應對AI幻覺，DeepSeek高手進階之路？

清華大學瀋陽團隊的新作《DeepSeek攻略》再度引發熱議，此次攻略的核心議題，直擊AI領域的一個“頑疾”——AI幻覺。你是否也曾遇到過這樣的情況：AI輸出的內容看似邏輯通順，實則與事實大相逕庭？當ChatGPT寫出荒誕的歷史論文，當Claude捏造不存在的科學理論，一場關於AI可信度的全球辯論正愈演愈烈。而今，清華大學瀋陽團隊攜《DeepSeek攻略》橫空出世，不僅撕開AI幻覺的神秘面紗，更手把手教你**“馴服”AI的想像力**！這份被網友稱為“AI防騙手冊”的攻略，正掀起一場認知革命！

股市中的控制幻覺—很多人被綠了都不知道

很多人以為控制了自己的伴侶，其實被綠了都不自知。股市中也是如此。很多股民每天很認真的做研究，從早到晚忙個不停，但是還是沒有賺到多少錢，甚至於還是處於賠錢的狀態。當股民蒐集很多資料之後，自信心會增加。然而，大多數的情況是掌握的訊息愈多，未必對實際績效有幫助，有時候適得其反。