在AI佔據中心舞台的時代,一個價值數千億美元的科技巨頭剛剛公開承認了一個令人震驚的事實:它的最新旗艦模型三分之一時間都在撒謊!
這不禁讓人思考,為何一家產品經常無法說出真相的公司能獲得如此天價估值?
如果你的伴侶或朋友在你提問時有相當比例的回答都在編造事實,這無疑會對你們的關係造成嚴重危機。然而,OpenAI的最新模型似乎認為這不是問題。
根據OpenAI自家的事實基準測試工具SimpleQA,公司在發佈公告中不得不承認,其最新大型語言模型GPT-4.5在37%的時間裡會"產生幻覺"——這是AI行業委婉的說法,實際上就是指它會自信滿滿地編造事實並將其呈現為真相。
是的,你沒看錯:在測試中,這家估值數千億美元公司的最新AI模型,每三個回答中就有超過一個是徹頭徹尾的謊言!😱
更令人難以置信的是,OpenAI竟然試圖將GPT-4.5的"編造問題"包裝成一項優勢——理由僅僅是它比公司的其他模型"少撒謊"一些。
同一張展示新模型頻繁編造內容的圖表也顯示,GPT-4o這個所謂的高級"推理"模型在SimpleQA基準測試中有61.8%的時間產生幻覺。而OpenAI的o3-mini,一個更小更廉價的推理模型版本,被發現驚人地有80.3%的時間在編造事實。
當然,這個問題並不僅限於OpenAI一家。
去年撰寫了一篇關於AI幻覺率研究論文的康奈爾大學博士生Wenting Zhao在接受TechCrunch採訪時解釋道:"目前,即使是最優秀的模型也只能在約35%的時間內生成不含幻覺的文字。我們研究工作中最重要的發現是,我們還不能完全信任模型生成的輸出。"
一家產品難以講述真相的公司獲得數千億美元投資,這一事實本身就令人難以置信。更令人深思的是,這反映了整個AI行業的現狀:他們向我們銷售的是昂貴且資源消耗巨大的系統,這些系統聲稱接近人類智能水平,卻連基本事實都無法正確表述。
隨著OpenAI的大語言模型性能逐漸趨於平穩,該公司顯然正在努力重新引導當初ChatGPT首次發佈時那股令人興奮的熱潮。
但要實現這一目標,我們可能需要看到真正的突破,而不僅僅是老一套的改良版本。 (澤問科技)