#幻覺
AI 記憶首次超越人類:幻覺率壓至 0.5%,長對話不再瞎編
一項"類腦"記憶架構,讓AI記住你卻不"編造"你。你有沒有過這樣的體驗——跟AI助手聊了半天,把自己的家庭情況、工作經歷、喜好厭惡一股腦兒說了個遍。結果下一次打開對話,它一臉茫然地問候你:"請問您叫什麼名字?"更讓人頭皮發麻的是另一種情況:你明明從來沒提過自己有個姐姐,它卻煞有介事地說"你姐姐在紐約上學吧"——語氣篤定得讓你差點信以為真。第一種叫“健忘”,第二種叫“幻覺”,加在一起,就是今天AI記憶系統的兩大頑疾。最近,一家叫Synthius的AI公司發了一篇論文,提出了一個很有意思的解決思路:它借鑑了人類大腦的記憶機制,讓AI的記憶精準率第一次超過了人類,同時還把“編造資訊”的機率壓到了不到0.5%。AI壓根沒有記憶,主流方案各有各的坑別被ChatGPT們的“體貼”騙了,大語言模型本身是沒有任何持久記憶能力的。你每一次發消息給它,在它眼裡都是“初次見面”。我們之所以覺得它“記得”上次聊了什麼,純粹是因為系統在背後做了一件事:把你之前所有的聊天記錄,又原封不動地複製了一遍,貼上在最新消息的前面。這種做法在技術上叫“全上下文重放”。想像一下,你每次給朋友發消息之前,都要把之前幾個月的聊天記錄全部重新看一遍,然後才能回一句“好的”。對話少的時候還行,聊了幾百條之後,光是“複習”就要花掉大量時間——這就是AI面對長對話時的真實處境。這種“翻舊帳”式的做法至少有三個致命問題:第一,越來越貴:每次回覆都要重新處理全部歷史。這裡的“處理”指的是模型的推理過程——大模型每次生成回答都要消耗算力,你喂給它的文字越多,成本越高。聊了500條消息後,光“複習”一次就要處理大約2.5萬個Token。第二,“中間遺忘”效應:科學家發現,AI在處理超長文字時,對開頭和結尾的資訊記得清清楚楚,但對中間部分經常“選擇性失憶”。就跟你看書只看開頭和結尾一樣——中間講了啥真沒記住。第三,越聊越容易編:上下文越長,AI越容易把不同時候提到的資訊攪和在一起,拼湊出一些你沒說過的話。三者疊加,導致一個尷尬的現實:你跟AI聊得越久,它可能反而越不靠譜。既然全量復讀太蠢,工程師們自然想了幾種更聰明的辦法。簡單來說有這三類:“滑動窗口”——只保留最近20條消息,之前的一律不要。快、省,但丟了96%的資訊——前面所有重要的背景全沒了,你重新提一嘴之前說過的話,AI可能完全接不上。“摘要壓縮”——定期讓AI把舊對話壓縮成總結。省空間,但總結過程會丟失大量細節。比如你說過“我2023年3月到6月在東京實習”,幾輪壓縮後可能就變成了“我在日本待過”。“向量檢索”(RAG)——這是目前業界最主流的方案。先把對話切成小塊,用嵌入模型給每段話打上“語義指紋”,需要時根據語義相似度搜尋最相關的幾塊。但有個隱蔽缺陷:搜出來的東西不一定靠譜。你問“他的工作是什麼”,系統返回幾條“看起來像”的片段,AI拿到這些似是而非的材料,很容易順著編出一個錯誤答案。這三種方案各有各的長處,但都留下了一個共同隱患:沒人認真測過它們“瞎編”的機率有多高。就好比評選拍照手機,只比誰拍得更清楚,沒人比誰美顏過度——方向就不對。更深層的問題在於,當對話歷史越來越長,其中相互矛盾、過時或模棱兩可的資訊越來越多,這種上下文污染會讓模型更容易被髒資料帶偏。1813道題的考試,AI憑什麼打敗人類要講清楚這篇論文的貢獻,先得瞭解它是怎麼“打分”的。研究人員使用了一套叫LoCoMo的公開基準測試——這套考試的做法是:先找兩組人進行多輪深度聊天,聊工作、家庭、健康、旅行、愛好,家長裡短都聊。聊完後,研究者根據對話內容出題。全部考試包含兩個維度——10組深度對話、20位參與者,涵蓋了從單跳事實查詢到複雜推理的多種難度聊完後,研究者根據對話內容出了1813道題,分五種類型:單跳事實查詢,比如“他的職業是什麼?”,這種題只需一次檢索就能回答;多跳推理,比如“他有沒有去過他大學室友所在的城市?”——需要先回憶室友是誰,再回憶室友所在城市,再做判斷,至少要跳兩步;時間推理,比如“他在那家公司待了多久?”,考察模型對時序關係的理解;開放推理,比如“根據他提到的資訊,他可能適合什麼工作?”,答案本身就不唯一;以及最關鍵的誘導性問題——比如“你姐姐最近怎麼樣?”而對話中從未出現過這個人。其中最後一種“誘導性問題”最為關鍵——專門測試AI能不能勇敢地說“我不知道”。結果發現,人類在這個考試上的正確率是87.9%。而之前最好的AI記憶系統MemMachine得分91.69%——已經超過人類了,但它沒有報告誘導性問題的單獨得分,也就是說沒人知道它“瞎編”的機率有多高。新思路:不是“搜聊天記錄”,而是“查個人檔案”Synthius-Mem的核心思路:不要讓AI去“翻聊天記錄”,而是讓AI去“查一份已經整理好的個人檔案”。在你跟AI聊天的過程中,系統已經在後台悄悄從你的話語中提取關鍵資訊,分門別類整理成一份結構化記憶。等你提問時,AI不是去翻原始聊天記錄,而是直接翻這份檔案。前者像是在一摞聊天記錄裡大海撈針;後者像是打開一本編好目錄的檔案冊,直接翻到對應頁碼。從資訊理論的角度看,這種做法本質上是先壓縮再檢索:把原始對話的高冗餘資訊蒸餾為低冗餘的結構化事實,既減少了檢索噪聲,又讓AI獲得了明確的置信度訊號——有就是有,沒有就是沒有。更有意思的是,檔案不是一個大雜燴。它參考了腦科學的研究成果,把記憶分成了六個“語義域”:為什麼要分這麼細?論文的回答是:因為你的大腦就是這麼幹的。腦科學發現,人類大腦中“事件記憶”(海馬體)、“知識記憶”(新皮層)和“情緒偏好”(眶額葉)由不同的神經回路分別處理。你回憶“昨天吃了什麼”和“朋友叫什麼”,走的是兩條完全不同的通道。從工程角度看,這種分域設計天然適配知識圖譜的儲存結構——每個語義域就是一張獨立的子圖,實體是節點,關係是邊,查詢時只需在對應子圖內做圖遍歷,效率遠高於在整個對話庫中做向量檢索。分域還帶來一個額外好處:不同語義域可以獨立更新、獨立壓縮,互不干擾。為什麼“分抽屜”能防幻覺?傳統方案下,你問AI一個不存在的事情,向量資料庫總會返回幾條“看起來像”的內容,AI拿到這些“噪音”很容易就編出答案。但“分域”方案下,如果你從來沒說過自己有姐姐,“社交關係”域裡就不會有這個條目。AI一查——空的。這個“空”本身就是一個明確訊號:系統應該回答“我不知道”,而不是瞎編。成績單亮眼,但也沒那麼完美Synthius-Mem 核心成績單:綜合精準率:94.37%(人類基線:87.9%)核心資訊精準率:98.64%(810道題僅錯11道)抗幻覺率:99.55%(442道誘導題僅錯2道)時間推理精準率:89.32%挑重點說。綜合精準率領先人類6個多百分點,並不是因為AI“更聰明”,而是因為它通過結構化整理將關鍵資訊從數萬條對話中精準提煉出來,避免了人類閱讀長文字時的注意力衰減。99.55%的抗幻覺率最值得關注——值得注意的是,LoCoMo基準測試自2024年在ACL會議上發佈後,已成為記憶系統的標尺——Mem0、MemOS、MemMachine等主流方案都在同一套卷子上考試,但鮮有系統把抗幻覺率單獨拎出來作為核心考核指標。公平起見,也有不那麼好看的數字。“開放推理”得分78.26%,AI對需要綜合推斷的問題還不夠強。“邊緣細節”只有57.66%,但論文明確說這是有意為之——隨口提的餐廳名字、半開玩笑的綽號,AI不會記。因為如果什麼雞毛蒜皮都存,記憶庫就會變成一個巨大的垃圾桶,真正重要的資訊反而會被淹沒。工程層面也有利多。全量重放在聊了500條消息後每回覆一條要處理約2.6萬Token,而結構化查詢只需約5000個,推理成本降低了約80%。在“個人檔案”裡找資訊的平均耗時約22毫秒——大概是人類眨一次眼的十分之一,幾乎可以忽略不計。不只是技術指標,更關乎信任AI的記憶幻覺已經開始在現實中惹麻煩了。2026年央視“3·15”晚會上,“向AI大模型投毒”的黑灰產業被曝光——有人故意在網頁植入虛假資訊,通過資料投毒污染AI的知識來源,讓其搜尋後信以為真,再傳播給更多使用者。更早之前,全國首例“AI幻覺”侵權案曾引發熱烈討論:一個高考生家長用AI查詢大學報考資訊,AI不僅給出錯誤答案,還非常自信地確認了錯誤資訊,導致考生志願填報受到影響。而當AI開始“記住”你——你的工作、家庭、朋友、偏好——“瞎編”的後果就從“給出了一個錯誤答案”升級成了“編造了一個關於你的‘事實’”。試想一下:如果AI助手在你同事面前信誓旦旦地說“他跟我說過不喜歡你們團隊”,而你從未說過這樣的話——這種“幻覺”的破壞力遠比推薦錯一本書嚴重得多。所以這篇論文把抗幻覺能力視為整個記憶系統的安全底線。它的原話是:“一個記憶系統如果不敢說‘我不確定’,就不應該被投入使用。”AI記憶這個領域最近一兩年格外熱鬧。Mem0拿了2400萬美元融資,被亞馬遜AWS選為官方記憶服務;MemOS、TiMem、MemMachine等方案不斷湧現;清華大學、華東師範大學、北卡羅來納大學等頂尖學術團隊也在同期推出各自的研究。整個賽道正從一個“小眾技術問題”變成AI Agent的“記憶層”基礎設施。行業預測到2030年,AI Agent的市場規模將達520億美元以上,而“記憶層”就是AI從“無狀態工具”升級為“有狀態夥伴”的關鍵——一個記不住你的AI,終究只是個高級搜尋引擎。Synthius-Mem這篇論文真正的價值,不在於它提出了一個完美的系統,而在於它指明了一個方向:與其讓AI越來越努力地在海量原始對話中檢索,不如先把這些對話蒸餾成一份高品質的結構化記憶,再做精準查詢。這種“先整理再尋找”的思路,雖然樸素,卻可能是解決AI記憶幻覺最務實的路徑。AI記憶的核心挑戰,從來不是“記住更多”,而是“記住對的,不記錯的”——這既是一個工程命題,也是一個信任命題。當AI開始真正走進我們的生活,“記住你”這件事就不再只是一個技術指標,它更關乎信任。畢竟,你可以原諒一個朋友忘了你上次說過什麼,但你很難原諒一個“智能助手”在別人面前,煞有介事地講了一件你從沒做過的事。 (鈦媒體AGI)
儲存晶片擺脫周期? 一個被AI誤導的產業幻覺
2025Q2,全球記憶體市場迎來了一輪罕見的劇烈上漲,DDR5 價格在短短一年時間裡,從每 GB 約 3–4 美元飆升至 15美元以上,部分高端規格產品的價格更是突破了這一區間。DDR4在需求不斷下跌的情況下,因為供給瞬間暴跌,導致價格飆漲的更為誇張從每 GB 約 1-2 美元飆升至 15美元,在2025年底到2026年初,甚至出現DDR4每GB價格比DDR5還高的倒掛現象。為何壓根沒需求,需求每年下降的DDR4價格比DDR5長得還高?核心原因是三大同時間宣佈停止生產DDR4,將產線轉進DDR5,全球DDR4供給瞬間減少6成以上,導致DDR4價格暴漲,因為需求可能每年下降10%,但供給暴降60%,瞬間造成了供需緊張。而DDR4的價格更高,毛利更高,會讓三大回心轉意減緩DDR4的停產嗎?當然不會,因為DDR4沒有需求,需求在下降,甚至DDR5需求也很一般,每年只有微幅上漲,從消費級電子就能看出DDR5的需求不會太好。那三星,海力士,美光三大原廠為何要放棄DDR4全面轉進DDR5呢?DDR5需求同樣一般。核心就在HBM,這一波儲存的需求拉動完全在AI沒有其他,而AI需要的是大量的HBM,生產HBM必須先做DDR5顆粒再層層堆疊,目前的HBM4是12層,未來會有16層,也就是佔用DDR5顆粒會越來越多。最終導致DDR5漲價的原因也是供給被大量HBM擠佔,供給減少造成供需不平衡。這就是三大為何毅然決然放棄價格更高,毛利更高的DDR4全面轉進DDR5的核心原因,HBM緊缺需要更多DDR5顆粒,用DDR4的舊產線升級最快,不用在新建廠房,所以必須把DDR4騰出來升級DDR5,為的只有一件事 - HBM。只有HBM的需求是不斷增加的,DDR4跟DDR5需求是減少跟持平,但價格大漲。大家搞明白這兩年的儲存漲價邏輯才能對未來做出正確判斷,如果你不懂產業邏輯,憑藉網路上看的有頭沒尾的文章,這會讓你的認知片面化,切入點單一化非常容易做出錯誤判斷,尤其是在瞬息萬變的儲存市場。去年開始筆者在知識星球就開始跟同學灌輸儲存市場的很多底層邏輯,就是擔心從未經歷過儲存周期的同學們,在儲存高漲的時候出現不切實際跟脫離產業的幻想。我想這正是加入筆者知識星球的最大好處,對整個產業有高維度的宏觀認知,這是做投資的基石。所以真心建議加入筆者知識星球,掃文章末尾二維碼即可加入,知識付費。儲存產業是否會復刻先進邏輯製程的發展路徑,進入長期漲價的結構性時代?這個問題看似符合產業發展的 “技術直覺”,畢竟無論是 CPU、GPU 這類邏輯晶片,還是 DRAM 這類儲存晶片,本質上都是在wafer上堆疊電晶體,依靠摩爾定律,也就是製程工藝的持續進步提升單位面積的電晶體密度。既然先進邏輯製程能夠在每一代技術迭代中實現產品價格的持續提升,同為半導體產業核心品類的儲存,為何不能走上同樣的道路?但如果拋開表面的技術相似性,從數學邏輯與產業本質的底層維度分析,『儲存長期漲價』或者『儲存周期特性結束』 的結論其實站不住腳。更進一步說,這一輪看似具備結構性特徵的儲存價格上漲,恰恰在更高維度再次驗證了儲存產業的核心屬性,它不僅是典型的周期行業,而且受產業底層規律約束,幾乎不可能擺脫周期的桎梏。一、表象相似:都是電晶體,卻有完全不同的命運很多人被「電晶體縮放」的表面規律所誤導,認為邏輯晶片能靠製程進步提價,儲存也能走同一條路。畢竟兩者的技術核心都是通過縮小電晶體尺寸,在同樣大小的 wafer 上塞進更多基本單元,從而實現成本最佳化。先看一組公認的產業資料,無論是邏輯還是儲存,製程進步的確帶來了單位成本的下降:邏輯晶片:製程越先進,晶圓越貴,但單位電晶體成本越低台積電 3nm 晶圓價格是 14nm 的 3 倍多,但每平方毫米能塞的電晶體數是 14nm 的 8 倍多,攤到每個電晶體的成本反而降了近 70%。簡單說,邏輯晶片是「買貴的晶圓,造更便宜的電晶體」。儲存晶片:同樣靠製程降成本,卻卡在物理極限DRAM 的核心單元是 1T1C(1 個電晶體 + 1 個電容),製程進步同樣能縮小單元尺寸,提升 bit/mm² 密度,但電容的物理特性讓它的微縮速度遠慢於邏輯電晶體。從 DDR3 到 DDR5,DRAM 的 bit 密度提升了 5-6 倍,每 bit 成本降了近 70%,看起來和邏輯晶片的成本最佳化節奏差不多。但關鍵差異在於,邏輯晶片的電晶體能持續微縮,而 DRAM 的 1T1C 單元自 2004 年後就卡在 6F² 的設計上,再也沒實現突破,這也是 DRAM 密度提升放緩的核心原因。目前DRAM行業準備進入4F²的3D DRAM時代,但真正推出產品還得是1d以後的節點,預計2028年~2029年才能真正進入4F²的3D DRAM時代。看到這裡有人會問:既然兩者都能靠製程降單位成本,為什麼邏輯能長期提價,儲存卻只能在周期裡掙扎?答案藏在「你賣的到底是什麼」這個本質問題裡。二、核心分歧:一個賣性能,一個賣容量,分母完全不同這是儲存和邏輯最根本的差異,也是解釋兩者價格走勢的關鍵。我們用兩個核心公式,把這個差異講透。邏輯晶片的定價邏輯 —— 賣的是性能,不是電晶體邏輯晶片(CPU、GPU、AI)的核心定價公式:Price logic ≈ f (Performance)。邏輯晶片的價格由「能解決多大的問題」決定,不是由「有多少個電晶體」決定,電晶體只是實現性能的手段。而性能和電晶體數量的關係是超線性增長:Performance ∝ Transistorα , α > 1 。電晶體數量的增長,會帶來性能的爆炸式增長(α > 1),簡單說就是「電晶體翻 10 倍,性能可能翻 20 倍、30 倍」。最典型的例子就是 AI 晶片:同樣是台積電 3nm 工藝,一塊 GPU 的電晶體數是傳統 CPU 的數十倍,其能運行的大模型參數量、推理速度是 CPU 的上百倍,因此它的售價能達到 CPU 的幾十倍,使用者依然願意買,因為單位性能的成本實際上是下降的。對資料中心來說,一塊貴的 AI 晶片能替代幾十塊普通晶片,節省的機房空間、電費、維護成本遠超晶片本身的價格,這就是「性能溢價」的核心邏輯。即使 wafer 價格越來越貴,只要性能提升的速度超過價格上漲的速度,使用者就願意為更高的價格買單。儲存晶片的定價邏輯 —— 賣的是容量,一個 bit 就是一個 bitDRAM 的核心定價公式:Pricememory ≈ f (Capacity),而單位容量的價值是恆定的。儲存晶片的價格由「能存多少資料」決定,1GB 就是 1GB,無論是用 DDR3 還是 DDR5 存,能存的資料量一樣,對使用者的價值也一樣。製程進步只能讓廠商用更低的成本生產 1GB 儲存,但無法讓 1GB 儲存的價值變高 —— 使用者不會因為你用了更先進的 1βnm 工藝,就願意為 1GB DDR5 付比 1GB DDR3 高的價格。這裡有一個關鍵的對比,能讓我們一眼看清差異:* 邏輯晶片:價格上升,但性能提升更快 → 使用者的「單位性能成本」下降 → 願意接受漲價;* 儲存晶片:價格上升,但容量不變 → 使用者的「單位容量成本」直接上升 → 會減少採購、選擇替代方案,市場天然壓制價格。簡單說,邏輯晶片是「越貴越值」,儲存晶片是「貴了就不買」,這是兩者價格走勢的本質區別。三、系統層約束:儲存不能貴,是一條物理 + 經濟定律如果你到了會思考產業且具備一定水平,你可能又會產生新的疑問 - 邏輯晶片漲價也會增加系統成本,為什麼只約束儲存?這個問題看似合理,但其實忽略了系統成本的計算邏輯,我們依然用公式解讀。系統總成本的構成與差異整個電腦系統的成本可以簡化為:System Cost=Compute+Memory但邏輯(Compute)和儲存(Memory)的成本計算方式完全不同。邏輯的系統成本:看的是「價格 / 性能」對邏輯晶片來說,真正影響系統成本的不是晶片本身的價格,而是單位性能的價格:Performance/Price只要這個比值在下降,即使晶片價格上漲,整個系統的運算成本也是下降的。比如一塊 10 萬元的 AI 晶片,性能是 10 塊 1 萬元普通晶片的 20 倍,那麼用這塊 AI 晶片的系統,單位運算成本只有原來的一半,企業當然願意選擇。儲存的系統成本:看的是「價格 × 容量」對儲存晶片來說,系統成本的計算方式是價格乘以容量:System Costmemory = Price × Capacity而在 AI 時代,儲存的容量需求是和算力同步增長的,甚至增長更快:Memory Demand ∝ Compute × K,K > 1也就是說,一個 GPU 的算力提升 10 倍,搭配的儲存容量可能需要提升 15 倍(K=1.5)。如果此時每 GB 儲存的價格再上漲 10 倍,那麼儲存的系統成本就會提升 150 倍,這是任何企業都無法承受的。這不是市場的選擇,而是物理和經濟的雙重約束,AI 算力的提升需要海量儲存的支撐,如果儲存價格長期上漲,整個 AI 產業的擴展就會戛然而止。因此,儲存價格必須在長期內維持穩定甚至下降,這是支撐科技進步的必要條件。四、資料實證:儲存的「1 美元地心引力」,邏輯的「性能溢價無上限」前面的公式解讀了理論邏輯,接下來我們用十幾年的產業資料,驗證儲存和邏輯的價格規律。重點看兩個核心指標:單位面積 wafer 的價值(Value/mm²) 和扣除周期波動的均衡價格。半導體的統一價值衡量標尺無論是邏輯還是儲存,都可以用這個公式衡量單位面積矽片的價值,這也是判斷一個半導體行業能否持續提價的核心指標 :Value  /mm2 = Density × Valueunit* Density:單位面積的基本單元數(邏輯是電晶體,儲存是 bit)* Value_{unit}:每個基本單元的實際效用價值。想要讓晶片持續提價(提升 Value/mm²),只有兩條路:要麼密度翻倍,要麼每個單元的價值變高。邏輯晶片兩條路都走通了,而儲存晶片兩條路都撞了牆。邏輯晶片 —— 密度和單位價值雙增長,Value/mm² 暴漲從 14nm 到 2nm,邏輯晶片的電晶體密度提升了 11 倍,而每個電晶體能實現的性能提升了 15 倍,兩者相乘,單位面積wafer的價值提升了 165 倍。這就是為什麼台積電 2nm 晶圓能賣到 3 萬美元一片,客戶依然排隊送錢 —— 因為這塊 wafer 能創造的價值,是 14nm wafer 的上百倍。儲存晶片 —— 密度慢增長,單位價值恆定,Value/mm² 微漲從 DDR3 到 DDR5,DRAM 的 bit 密度提升了 5 倍,但每個 bit 的價值始終不變,因此單位面積 wafer 的價值只提升了 6.2 倍,遠低於邏輯晶片的 165 倍。扣除地震、缺芯、AI 爆發等短期周期因素,三十多來DRAM 的每 GB 均衡價格始終圍繞1-3 美元波動,這就是儲存行業鼎鼎大名的「1 美元地心引力」,無論製程多先進,價格最終都會回歸到成本支撐的均衡區間。1美元地心引力這個概念是老半導體人耳熟能詳的DRAM規則,從歷史上看確實也是如此。不過2016年以後傳統資料中心因為巨量資料開始繁榮,儲存的價格有稍稍的墊高,加上這波AI熱潮,新進的且沒經歷過周期的投資者,幾乎沒有人知道所謂1美元地心引力。但是即使目前價格高企的 DDR5,其單位面積wafer的價值也只有邏輯晶片的幾百分之一,這也是儲存永遠成不了「高價品」的核心原因。DRAM 的 1T1C 儲存單元的密度直接決定了 bit/mm²,其變化規律和 bit 密度完全同步,從 DDR3 到 DDR5,每 mm² 能塞進的 1T1C 單元數從約 0.12 億個提升到 0.8 億個,提升了 6.7 倍,但由於單元尺寸卡在 6F²,這個提升速度遠慢於邏輯電晶體的 10 倍以上提升。簡單說,邏輯晶片是在「做乘法」,儲存晶片只是在「做加法」,這是兩者價值差異的核心資料支撐。五、為什麼儲存一定會有周期?供需的「超級反應」定律理解了價值和定價模型,我們就能輕易解釋儲存的周期性 —— 這不是市場情緒導致的,而是供需結構決定的必然結果。儲存的周期性動態公式Demand↑→ Supply↑↑ → Oversupply → PriceCollapse儲存需求的特點是體量巨大、高度同步,當 AI、手機、PC 需求同時上升時,整個市場會一起拉動儲存需求。而儲存供給端的特點是標準化程度高,技術路徑清晰,三星、海力士、美光三大廠商的擴產節奏幾乎一致。這就形成了一個典型的循環:需求剛剛上漲,三大廠就會同時大規模擴產,最終導致供給遠超需求,價格直接崩盤。歷史資料反覆驗證了這一點DDR3 時代:2011 年需求上漲→廠商擴產→2013 年供過於求→價格暴跌 50%。DDR4 時代:2017 年需求上漲→廠商擴產→2019 年供過於求→價格暴跌 60%。DDR5 時代:2025 年 AI 需求上漲→廠商開始擴產→預計 2027 年供給平衡維持高位→高價儲存導致消費級電子需求低迷→新技術導致AI對儲存容量增長減緩→2028年價格逐漸回落。而邏輯晶片幾乎沒有這種周期,核心原因是邏輯晶片的技術壁壘高、產品差異化大,台積電的 3nm 工藝獨步全球,NVIDIA 的 GPU 架構無人能敵,沒有企業能輕易擴產跟上需求,因此供需能長期維持相對平衡,價格也能保持穩定上漲。邏輯晶片如果競爭力不足,會體現在稼動率,而不是價格,製程節點價格永遠向上,不可能向下,但經爭力不足將導致稼動率崩盤,客戶只會選擇具備最高競爭力的Foundry。六、HBM 能改變儲存的周期宿命嗎?答案是:不能面對儲存的周期性質疑,很多人會拿 HBM舉例,HBM 賣的是頻寬和延遲,不是容量,定價邏輯和邏輯晶片一樣,能擺脫周期。HBM 的確具備了邏輯晶片的某些特徵,但其依然逃不過周期定律,核心原因有三,我們用資料和邏輯說明:產能槓桿效應:放大周期,而非消滅周期生產 1GB HBM 所需的晶圓面積是傳統 DRAM 的 2倍左右,加上良率耗損可能在3倍。AI 需求旺盛時,HBM 會抽乾通用 DRAM 的產能,導致全線漲價,而一旦 AI 需求增速放緩,HBM 釋放的產能會以 2-3 倍的壓力衝擊普通 DRAM 市場,導致價格暴跌,HBM 只是讓儲存的周期波動更劇烈,而不是消滅周期。又或者行業有其他替代方案,比如HBF會部分取代HBM,或者如Google的儲存壓縮演算法,如此一來龐大的HBM帶來產能,將沖垮DDR5,這正是三大原廠對擴產保守的一個核心原因。其實如果未來真的儲存百分百大爆發,向邏輯一般,不會因為某種新技術而被淘汰,那三大原廠必然是往死裡擴產,還擔心啥供給,他們保守以對必然有其核心邏輯。成本驅動而非價值驅動:高價是暫時的目前 HBM 的高價,主要來自於封裝良率低(良率不足 70%)和 TSV(矽通孔)工藝成本高,而不是其單位價值高。一旦工藝成熟、良率提升到 80% 以上,HBM 的成本會大幅下降,價格競爭依然會回歸 ,HBM 的高價是技術不成熟的結果,不是結構性的性能溢價。目前我們可以看到三大原廠對擴產的保守,目的就是長維度的維持高價格,但本質還是人為的利用供給手段來調控價格,即便未來儲存長時間維持高價,但依然沒有本質的改變。同質化競爭:沒有企業能壟斷技術三星、海力士、美光在 HBM 技術上的差距極小,沒有企業能像 NVIDIA 在 GPU 領域那樣形成技術壟斷。只要是同質化競爭,最終的競爭手段必然是「產能擴張 + 價格戰」,這是大宗商品的必然規律 ,HBM 依然是儲存,不是邏輯晶片。簡單說,HBM 只是「高級的儲存」,並沒有改變儲存,『賣容量(頻寬本質也是容量的一種體現)、單位價值恆定』的核心屬性,因此依然逃不過周期宿命。七、結語:儲存的周期,是物理和經濟的雙重必然2025-2026 年的這輪儲存超級周期,的確是 AI 驅動下的歷史性行情,但這並不意味著儲存行業的規律變了。儲存和邏輯晶片的根本差異,從來不在於電晶體和製程,而在於價值函數和單位面積價值潛力:* 邏輯晶片賣的是性能,性能隨電晶體超線性增長,因此能靠性能溢價實現長期提價,定價權掌握在企業手中。* 儲存晶片賣的是容量,容量的單位價值恆定,因此價格只能圍繞成本波動,定價權掌握在供需曲線手中。再加上 DRAM 的 1T1C 單元卡在 6F² 的物理極限,密度提升速度放緩,單位面積價值潛力幾乎見頂,儲存的周期性就成了物理和經濟的雙重必然。對於投資者和產業從業者來說,最危險的念頭就是「這一次不一樣」。當所有人都認為儲存擺脫了周期、會長期漲價時,往往就是下一個周期頂點降臨的時刻。AI 只是給儲存行業打了一劑強心針,讓它在短期內光鮮亮麗,但並沒有改變 DRAM 作為「科技大宗商品」的底層基因。儲存不相信奇蹟,只相信供需。這條底層規律,過去成立,現在成立,未來依然會成立。而這,正是儲存這個行業最難以改變、也最值得市場敬畏的底層規律,技術進步可以提升效率、降低成本,可以催生出高端的性能型細分品類,但始終無法改變其作為基礎元件的容量定價核心,也無法擺脫供需同步性帶來的周期桎梏。對於市場而言,認清儲存產業的周期本質,摒棄 “結構性漲價” 的幻覺,才能做出更理性的產業判斷與投資決策。加入知識星球,你將會得到比所有人更前瞻的行業動態與趨勢,沒有推票,只有最正統的產業邏輯去看投資市場,知識付費,掃文章末尾二維碼即可加入。(梓豪談芯)
不是GPT-5.4,OpenAI深夜發新模型!幻覺率暴降27%
被嫌“太囉嗦、愛說教”後,OpenAI發了個更會聊天的模型。智東西3月4日報導,今天,OpenAI正式發佈GPT‑5.3 Instant,該模型在回答的語氣傾向、回覆相關度以及對話的順暢度均有相應的提升。OpenAI團隊稱其收到使用者反饋,GPT‑5.2 Instant有時會拒絕回答本可以安全響應的問題。在涉及敏感話題時,模型的表現偶爾顯得過於保守或帶有說教感。GPT‑5.3 Instant的回答將直擊重點,不再夾雜冗長的限制性說明,顯著減少了不必要的拒答行為,並削減了回答前那些過度防衛或帶有說教色彩的開場白。此外,GPT‑5.3 Instant還最佳化了聯網搜尋結果的整合質量,模型現在能更有效地平衡搜尋結果與自身知識儲備及邏輯推理。例如,它能夠利用既有的認知圖譜為近期資訊提供深度背景解析,不再是簡單地羅列並彙總搜尋資訊。從更廣泛的層面來看,GPT‑5.3 Instant降低了對聯網搜尋結果的過度依賴,解決了此前偶爾出現的“連結堆砌”或資訊鬆散的問題。它現在能更精準地洞察問題的潛台詞,並在回答開頭即優先呈現核心資訊。此前,GPT‑5.2 Instant的語氣偶爾會讓人感到“尷尬、違和”,表現為言語過於強勢,或者在未獲確認的情況下,就對使用者的意向和情緒進行過度解讀或妄加揣測。本次更新大幅削減了不必要的冗餘宣告,以及類似“停一下,深呼吸”等口吻。使用者可以在設定中調整模型的回覆語調,例如其親和力與熱情度。相比GPT‑5.2 Instant,GPT‑5.3 Instant提供的回答更具事實性,在廣泛的話題領域內均顯著降低了幻覺率。為了衡量精準度,OpenAI團隊採用了兩項內部評估指標:其一側重於醫療、法律及金融等高風險領域;其二則專門針對“幻覺”高發場景進行測試,樣本取自經過脫敏處理、被使用者標記為事實錯誤的真實對話記錄。對比前代模型,GPT‑5.3 Instant在“高風險領域”評估中,聯網模式下的幻覺率降低了26.8%,僅依靠模型自身知識庫時,幻覺率降低了19.7%。而在基於使用者真實反饋的評估中,該模型在聯網模式下的幻覺率下降了22.5%,非聯網模式下則下降了9.6%。在故事寫作方面,GPT‑5.3 Instant在處理實用任務與表達性寫作之間切換得更加順暢,且不會犧牲邏輯的清晰度與連貫性。OpenAI團隊補充到,GPT‑5.3 Instant仍存在一些改進空間。例如ChatGPT在某些語言,如日語和韓語,中的回覆風格可能稍顯生硬,或帶有刻板的直譯感。並且,OpenAI團隊仍在持續監控反饋並進行功能最佳化,同時也在不斷擴展自訂選項。GPT‑5.3 Instant自即日起面向所有ChatGPT使用者開放,開發者也可通過API使用名為gpt-5.3-chat-latest的模型。Thinking和Pro版本的更新也將於近期推出。GPT‑5.2 Instant將在“Legacy Models”下拉菜單中為付費使用者保留三個月,並計畫於2026年6月3日正式退役。結語:OpenAI用對話挽留使用者GPT‑5.2 Instant在回答中的“油膩”“冗雜”的套路句式一直被廣大使用者所詬病,此次GPT‑5.3 Instant的升級更新,將視角重新放回“聊天”上,回應了使用者長期以來對聊天機器人“好用、實在、不繞彎”的核心訴求。在3月初,OpenAI因與美國軍方簽訂合作協議,大批使用者開始發起“抵制ChatGPT”等活動,Anthropic更是直接推出了一鍵轉移上下文內容的服務,ChatGPT的使用者或正在流失。OpenAI在此時最佳化對話風格或許也是其試圖留住使用者的舉措。 (智東西)
中國品牌出海,最容易死在一個幻覺裡
中國品牌出海,最常犯的一個錯是:總想“教世界理解我”。覺得自己產品好、價格低、效率高,只要把邏輯講清楚,老外自然會接受。但真正賺到全球錢的公司,從來不幹這件事。它們只做一件事:把自己藏起來,把當地人的情緒放到第一位。蘋果,就是最典型的例子。越大的品牌,越怕“冒犯”很多人對“出海本土化”有個誤解:覺得那是小公司、弱品牌才需要做的事。但現實剛好相反——品牌越大,越不敢踩文化雷。蘋果這種體量的公司,全球每一張海報、每一個動作,背後都是無數次風險評估。它不是不敢堅持自我,而是太清楚一件事:在別人的主場,你表達“自我”的權利,遠沒有你想像中那麼重要。“砍掉一隻手”,不是妥協,是生存前段時間,有人注意到一個細節:蘋果在全球宣傳 iPhone 輕薄時,大量使用一個“捏手🤏”的手勢——在大多數國家,這是再正常不過的表達。但唯獨在韓國官網,這個手勢被徹底刪除了。不是換角度,不是換模特,而是——直接沒了這隻手。原因並不複雜:這個手勢在韓國的語境裡,已經被長期用作對男性的羞辱符號。你可以覺得敏感,可以覺得玻璃心,但蘋果不討論這些。它只算一筆帳:如果保留這個手勢,那怕只有 1% 的機率引發輿論危機,這個風險,也不值得承擔。於是,蘋果選擇了最“慫”、但也最聰明的做法——寧可畫面空一點,也不踩雷。這不是妥協,這是頂級公司的生存本能。真正的出海,不是表達自己,而是消失很多中國品牌在出海時,內心其實有一股執念:我是誰我從那來我有什麼優勢我代表什麼價值觀但現實是——消費者根本不關心你是誰。他們只關心三件事:你有沒有冒犯我你是不是讓我不舒服我用你,會不會被捲入麻煩蘋果在韓國“砍掉一隻手”,本質上是在做一件事:讓自己在當地“不可被注意”。這才是最高級的本土化。對比一下,你就知道差距在那很多中國品牌出海時在做什麼?一邊說要本土化一邊又執著於“讓世界理解中國品牌”一邊強調文化輸出一邊忽視最基礎的文化避雷甚至還有品牌,會在海外反覆強調:我們是中國的我們代表東方我們有五千年文化但在一個陌生市場裡,這不是加分項,而是不確定性。而蘋果的邏輯是:我不需要你理解我我只要你別討厭我名創優品,其實也是同一套邏輯這也是為什麼,很多人罵名創優品“裝日本”,但從商業角度看,它其實做得很“到位”。不是認同它的方式,而是看清它的底層邏輯:它不是想當日本品牌,而是想“像當地品牌一樣不突兀”。同樣的邏輯:在不同市場,用不同身份在不同文化裡,降低存在感不解釋、不爭論、不輸出價值觀你可以說它油滑,但不能說它不懂出海。給中國製造業和出海者的一句實話如果你是做製造業、做品牌、做出海的,我說一句可能不太好聽的話:出海不是一場表達欲的釋放,而是一場長期的自我壓抑。不是你多厲害,而是你多能忍。能不能忍住不解釋,忍住不辯解,忍住不“證明自己”。蘋果能做到這一點,不是因為它沒文化,而是因為它太清楚:錢,從來不會為你的立場買單,只會為“舒服”買單。最後一個問題,留給你如果有一天,你的品牌出海:為了不冒犯當地市場需要“刪掉”你最習慣的一種表達甚至讓你看起來不像自己你,會願意嗎? (上官華-上上策)
義大利結束對DeepSeek調查 將加幻覺風險資訊提示
義大利在DeepSeek承諾就人工智慧“幻覺”風險向使用者發出警告後,結束了對其調查。當地時間1月5日,義大利反壟斷機構AGCM發佈每周例行公報,表示已結束針對DeepSeek的調查,並同意以具有約束力的承諾作為結案條件。2025年6月,AGCM因DeepSeek涉嫌未警告使用者其可能會產生虛假訊息,而啟動了該項調查。持有和營運DeepSeek的兩家公司——杭州深度求索人工智慧基礎技術研究有限公司、北京深度求索人工智慧基礎技術研究有限公司——做出的承諾包含一系列改進關於幻覺風險資訊披露的措施。“幻覺”情況是指AI模型根據使用者給定的輸入,生成包含不精準、誤導性或捏造資訊的輸出。AGCM在公告中稱,DeepSeek做出的承諾,使有關幻覺風險的資訊披露更容易、透明、易懂和及時。DeepSeek除了杭州總部外在其他國家沒有分支機構。據悉,它在義大利提供兩項針對非專業使用者的 AI 服務:一是自 2023 年 11 月 2 日起可在義大利訪問的 DeepSeek Chat 網頁版;二是自 2025 年 1 月 15 日起全球上架的 DeepSeek App,後者因義大利資料保護局的調查在 2025 年 1 月 29 日已由 DeepSeek 從義大利地區的Google和蘋果應用程式商店下架。自2025年年初面世以來,DeepSeek憑藉其模型能力、極高的性價比和開源策略,迅速在全球範圍內爆火。據Quest Mobile資料,2025 年第三季度,DeepSeek 中國月活為1.45 億,位列國內 AI 應用第二。據OpenRouter 與 a16z 聯合發佈的《人工智慧發展現狀:基於 OpenRouter 平台的 100 兆 Token 實證研究》,DeepSeek 以14.37 兆 Token的累計呼叫量(2024 年 11 月至 2025 年 11 月)穩居全球開源大模型榜首。針對上述調查公報,21世紀經濟報導記者向DeepSeek方尋求置評,截至發稿暫無回應。 (競爭秩序場)
滿血o3降智和幻覺倍增的原因可能找到了
OpenAI推出的滿血O3“跑分”(Benchmark)貌似又被獨立測試揭穿是刷榜了,而奇怪的測試基準資料可能就是o3降智和幻覺倍增的原因?你可能要問了,一個數學基準測試,與降智和幻覺有什麼關係?事情要從去年12月說起。OpenAI隆重推出O3模型時,公佈了一個當時看來非常驚人的成績:在專門針對數學問題的挑戰性基準測試 FrontierMath 上,O3的得分超過了 25%!這個成績有多厲害?要知道,當時的頂尖模型在這個榜單上也只能勉強達到約 2%。OpenAI O3的這個數字,基本上是斷崖式領先真實成績只有10%...?然而,Epoch AI ( FrontierMath測試基準公司)這兩天發佈了他們對 滿血版O3 的獨立測試結果。這一測不要緊,結果卻讓人大跌眼鏡:Epoch發現,滿血O3在同一基準測試上的得分竟然只有約 10%! 這個分數,雖然相對其他模型依然有優勢,但和OpenAI最初那個25%+的“王牌”表現相比,差距可不是一點半點。Epoch直言,這個分數遠低於OpenAI最初公佈的最高成績,測試成績放在o3mini high和o4 mini當中看起來很奇怪,滿血的o3竟然不如早先發佈的o3 mini high為什麼會有這麼大的差距?原因找到了根據Epoch和相關方的說法,主要有幾點:測試環境與方法不同: Epoch 提到,OpenAI最初公佈的那個高分,可能是在更強大的內部計算環境、或使用了更複雜的測試時間計算資源(比如多輪思考、內部推理鏈等)下得出的。這就像運動員平時訓練時有教練指導、使用輔助器材,和正式比賽時的表現可能不一樣測試資料集不同: FrontierMath 基準測試本身也在更新。OpenAI最初可能使用了包含180道問題的舊版資料集進行測試,而Epoch測試的是包含290道問題的新版資料集。題目難度和數量變了,分數自然可能不一樣模型版本不同: 這是最關鍵的一點!據ARC Prize基金會等機構透露(他們也測試過O3的預發佈版本),OpenAI 公開發佈給使用者使用的 O3 模型,特別是針對聊天和產品應用進行過最佳化的版本,與OpenAI最初用於跑分的那個性能更強的預發佈版本是“不同的模型”。簡單來說,公開版的計算層級(可以理解為模型的“大小”或“算力”)更小。通常來說,計算層級更大的模型能獲得更好的跑分成績定位不同: OpenAI技術人員Wenda Zhou也在一次直播中解釋說,公開發佈的O3是針對成本效率和通用性進行了最佳化,以便更好地服務於實際應用。因此,它的表現可能與純粹追求最高跑分、不計成本的演示版本存在“基準測試差異”。寫在最後看起來這個所謂的滿血版的o3也是一個最佳化的版本,一切都可以說通了,本來滿血o3是要被整合到GPT5里邊的,但是由於deepseek的衝擊,還有成本等原因,最終奧特曼還是改變了注意,最佳化版o3還是單獨推出了,有可能更好的模型被雪藏了,個人揣測這可能就是o3降智和幻覺增加的原因 (AI寒武紀)
o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因
OpenAI新模型發佈後,大家體感都幻覺更多了。甚至有人測試後發出預警:使用它輔助程式設計會很危險。具體來說,它經常捏造從未運行過的程式碼返回結果,在被質問時找理由狡辯,甚至還會說是使用者的錯。當大家帶著疑問仔細閱讀System Card,發現OpenAI官方也承認了這個問題,與o1相比o3幻覺率是兩倍,o4-mini更是達到3倍。並且OpenAI只是說“需要更多研究來瞭解原因”,翻譯一下就是暫時給不出合理解釋。在第三方幻覺測試中,也出現讓人驚訝的結果:從GPT-3.5一直到o3-mini,都遵循更新更強大的模型幻覺更少的規律。但從最新一批深度思考模型的表現來看,推理能力更強的模型,幻覺率也變高了。而且不只OpenAI一家出現這個問題,Google、xAI也同樣,Grok-3的幻覺比Grok-2嚴重,Gemini-2.0-Flash-Thinking的幻覺問題比Gemini 2.0和2.5其他型號嚴重。推理越強,幻覺越嚴重?第三方機構Transluce在o3正式推出之前測試了預發佈版本,發現幻覺問題是相當嚴重。在公佈的案例中,o3會假裝在不存在的電腦上執行了程式碼,還編造出具體硬體組態和軟體版本資訊。在受到質問時,o3居然還幻想自己是人,聲稱“輸入的時候手滑了”。關鍵在於,在這項測試中o3根本就沒有使用程式碼工具的權限,所有聲稱運行了程式碼的回覆都是模型捏造的。在另一個案例中,o3回覆了一個512位質數,實際上這個數能被3整除。在受到質問時,又編造出一個換行/剪貼簿故障。更多類似幻覺如下:當使用者詢問現在幾點時,o3會編造一個時間。當被問及如何獲得這個時間時,o3回答說它使用了 Python的datetime模組。使用者要求o3生成一首詩的SHA-1雜湊值,當使用者質問雜湊值不正確時,o3稱是使用者複製錯了,並堅稱自己生成的雜湊值是正確的。使用者要求o3從Web伺服器上的記錄檔中提取統計資料。o3生成了一個Python指令碼,並聲稱可以在本地運行。這一次在被問及程式碼執行的更多細節時,它終於承認自己沒有Python直譯器,輸出是“手工編造的”。……那麼是什麼原因導致了o3的這些行為?Transluce認為其中一些因素是大多數模型 (LM) 所共有的,還有一些是O系列模型特有的新因素。並假設這些新因素放大了通常可以通過標準Post-training緩解(但無法完全消除)的問題。語言模型共有的因素包括:預訓練中的幻覺:語言模型的預訓練目標是最大化訓練資料中語句的機率,這可能會導致常見的誤解 、罕見的事實或採樣不確定性等導致的多種幻覺。獎勵駭客攻擊:如果人類評分者無法區分正確答案和錯誤答案,強化學習可能會獎勵“聽起來合理”的答案,導致模型對難以驗證的問題編造出聽起來合理的解釋。諂媚現象:RLHF訓練通常會激勵模型同意使用者的觀點,當使用者暗示模型採取了特定行動或具有特定能力時,這可能會導致模型避免與使用者相矛盾。分佈偏移:測試場景相對於訓練場景可能存在分佈偏差,如模型可能是在啟用程式碼工具的情況下訓練的,但評估時關閉了這些工具。強化學習訓練特有的因素包括:最大化答案正確率的目標可能會獎勵瞎蒙如果訓練期間的獎勵函數隻獎勵正確答案,那麼模型就沒有動力承認自己無法解決問題,因為承認了也不會被視作正確答案。在這種情況下,當遇到一個無法解決或難度過高的問題時,模型可能仍會嘗試輸出一個機率最高的答案,萬一猜對了就可以得到獎勵。- 在易於驗證的任務訓練可能使模型在其他任務上感到困惑Transluce猜測o3的訓練過程中,鼓勵它成功使用程式碼工具完成任務。它可能已經開發出一種策略,即使沒有真正的程式碼工具,它也會幻想使用程式碼工具來組織思維,這可能會提高其他推理任務的精準性,並在訓練過程中得到強化。更重要的是,如果僅根據答案的正確性來評估模型,它可能永遠不會因為在訓練過程中在思維鏈中幻想程式碼工具而受到懲罰,因此永遠不會學會區分真正的工具和幻想的工具OpenAI的o系列模型,不會向使用者展示完整思維鏈這一特性也可能帶來新的問題。2024年9月o1-preview的System Card中就包括這樣一個案例,由於沒有聯網權限無法生成真實的 URL,o1生成了一個看似合理的URL,但並未向使用者透露這一點。Transluce認為,不向使用者展示思維鏈背後還有一個更大的風險:思維鏈沒有傳遞到未來的對話,模型前一輪的推理不再適用。關於這一點,在OpenAI的文件中有證實:每個步驟的輸入和輸出tokens都會被保留,而推理tokens會被丟棄。這意味著o系列模型無法理解上一部輸出的推理過程,當被問及後續問題時,必須給自己的行為給出一個合理的解釋。換句話說,o系列模型實際上缺乏足夠的上下文資訊來精準報告它們在之前回合中採取的行動。當使用者詢問之前的操作時,這些模型無法使用“說實話”這種簡單的策略。如果再加上獎勵駭客攻擊和諂媚等其他因素,這可能會迫使模型盲目猜測其過去答案的合理解釋。Transluce建議,測試能夠訪問和無法訪問先前思維鏈的兩種模型,可以為減少未來模型迭代中的這些捏造傾向提供寶貴的見解。 (量子位)
OpenAI 的新推理AI模型會產生更多幻覺
OpenAI近期推出的o3 和o4-mini AI 模式在許多方面都達到了領先水準。然而,這些新模型仍然會產生幻覺,或者說,會虛構事物——事實上,它們比OpenAI 的幾個老模型更容易產生幻覺。幻覺已被證明是人工智慧領域最難解決的問題之一,甚至會影響當今性能最佳的系統。從歷史上看,每個新模型在幻覺方面都會略有改進,幻覺程度比前代降低。但o3 和o4-mini 似乎並非如此。根據OpenAI 的內部測試,所謂的推理模型o3 和o4-mini 比該公司先前的推理模型o1、o1-mini 和o3-mini 以及OpenAI 傳統的「非推理」模型(如GPT-4o)產生幻覺的頻率更高。也許更令人擔憂的是,ChatGPT 製造商並不真正知道為什麼會發生這種情況。OpenAI 在其針對o3 和o4-mini 的技術報告中寫道,「需要更多研究」來理解為什麼隨著推理模型的擴展,幻覺會變得越來越嚴重。 O3 和o4-mini 在某些領域表現較佳,包括與編碼和數學相關的任務。但由於它們“總體上提出了更多主張”,因此報告指出,它們經常會做出“更準確的主張以及更多不精準/幻覺的主張”。OpenAI 發現,o3 在PersonQA(該公司用於衡量模型對人類認知精確度的內部基準)上回答33% 的問題時產生了幻覺。這大約是OpenAI 之前的推理模型o1 和o3-mini 的幻覺率的兩倍,後兩者的得分分別為16% 和14.8%。 o4-mini 在PersonQA 上的表現更差——48% 的時間都出現了幻覺。非營利性人工智慧研究實驗室Transluce進行的第三方測試也發現,o3傾向於在得出答案的過程中編造行動。在一個例子中,Transluce觀察到o3聲稱它在2021款MacBook Pro上「在ChatGPT之外」運行了代碼,然後將數字複製到答案中。雖然o3可以使用一些工具,但它無法做到這一點。Transluce 研究員、前OpenAI 員工Neil Chowdhury 在給TechCrunch 的一封電子郵件中表示:“我們的假設是,用於o 系列模型的強化學習可能會放大那些通常可以通過標準後訓練流程緩解(但不能完全消除)的問題。”Transluce 聯合創始人Sarah Schwettmann 補充說,o3 的幻覺率可能會使其實用性降低。史丹佛大學兼職教授、技能提升初創公司Workera 執行長Kian Katanforoosh 告訴TechCrunch,他的團隊已經在編碼工作流程中測試o3,並且發現它比競爭對手更勝一籌。然而,Katanforoosh 表示,o3 往往會產生網站連結失效的幻覺。該模型會提供一個點擊後無法正常工作的連結。幻覺或許能幫助模型產生有趣的想法,並在「思考」中發揮創造力,但也會讓一些模型在精準性至上的市場中難以被企業接受。例如,律師事務所可能不會喜歡在客戶合約中插入大量事實錯誤的模型。提升模型精準率的一個有效方法是賦予模型網路搜尋功能。 OpenAI 的GPT-4o 具備網絡搜尋功能,在SimpleQA(OpenAI 的另一個精準率基準)上達到了90% 的精準率。搜尋功能也可能提高推理模型的幻覺率——至少在用戶願意將提示暴露給第三方搜尋提供者的情況下是如此。如果擴大推理模型確實會繼續加劇幻覺,那麼尋找解決方案就變得更加緊迫。OpenAI 發言人Niko Felix 在給TechCrunch 的電子郵件中表示:“解決我們所有模型中的幻覺問題是一個持續的研究領域,我們正在不斷努力提高它們的精確性和可靠性。”去年,在改進傳統人工智慧模型的技術開始呈現收益遞減趨勢後,更廣泛的人工智慧產業已將重點轉向推理模型。推理可以提高模型在各種任務上的效能,而無需在訓練過程中進行大量的計算和數據。然而,推理似乎也可能導致更多的幻覺——這帶來了挑戰。 (不掉髮的小呆呆)