#AI全知評測
GPT-5.1 Arc-AGI登頂,AI全知評測發佈,結果出乎意料
Arc-AGI官方公佈了GPT5.1的最新評測,在一代和二代評測中5.1均登頂,其中5.1超過了5 pro,而且成本大幅下降artifical analysis推出了AI模型全知評測,只有三家頭部模型是正分隆重推出AA-Omniscience,這是我們針對40多個主題的知識和幻覺的新基準。在該基準下,除三個模型外,所有模型更有可能產生幻覺而非給出正確答案。語言模型中的嵌入式知識對於許多實際應用場景至關重要。缺乏知識,模型會做出錯誤的假設,並且在實際環境中運行的能力也會受到限制。像網路搜尋這樣的工具可以提供支援,但模型需要知道要搜尋什麼(例如,當 MCP 查詢明確指向“模型上下文協議”時,模型不應該搜尋“多客戶端持久化”)。對事實資訊的臆想會阻礙模型的可靠性,而所有主要的評估資料集都加劇了這一問題。對正確答案不加懲罰的評分機制會激勵模型(以及訓練它們的實驗室)嘗試回答每一個問題。這個問題在知識領域尤為突出:事實資訊絕不應該被捏造,但在其他情況下,即使嘗試失敗也可能是有益的(例如,編寫新的特徵)。全知指數是我們報告的AA-全知模型的關鍵指標,它通過扣除模型猜測而非承認不知道答案時的分數來懲罰模型的“幻覺”。AA-全知模型顯示,除三個模型外,所有模型在面對難題時,更有可能出現“幻覺”而非給出正確答案。AA-全知模型將與人工智慧分析指數相輔相成,納入對知識和“幻覺”機率的衡量。詳情如下,更多圖表請見帖子。AA-Omniscience 詳情:- 🔢涵蓋 6 個領域(“商業”、“人文與社會科學”、“健康”、“法律”、“軟體工程”和“科學、工程與數學”)的 42 個主題的 6,000 個問題)- 🔍 89 個子主題,包括 Python 資料庫、公共政策、稅收等,使讀者能夠更清晰地瞭解模型在各個細微領域中的優勢和不足之處。- 🔄為了懲罰虛假資訊,我們的知識可靠性指數指標會對錯誤答案進行懲罰。- 📊 3 項指標:精準率(正確率)、幻覺率(錯誤率佔錯誤/未作答的百分比)、全知指數(+1 (正確計 1 分,錯誤但已作答計 1 分,未作答計 0 分,即模型未嘗試作答)。- 🤗開源測試資料集:我們開源了 600 道題(10 %) ,以支援實驗室開發真實可靠的模型。主題分佈和模型性能遵循完整資料集( @huggingface連結如下)。- 📃論文:請參閱下方的研究論文連結主要發現:- 🥇 Claude 4.1 Opus 在全知指數中位列第一,緊隨其後的是上周的 GPT-5.1 和 Grok 4:即使是最好的前沿模型得分也僅略高於 0,這意味著它們在構成 AA-全知指數的難題上給出正確答案的次數僅比給出錯誤答案的次數略高。 @AnthropicAI的領先優勢源於其較低的幻覺率,而 OpenAI 和 xAI 的排名主要取決於更高的精準率(正確率)。- 🥇 xAI 的 Grok 4 在全知精準率(我們簡單的“正確率”指標)中排名第一,GPT-5 和 Gemini 2.5 Pro 位列其後: @xai的勝利可能得益於參數總數和預訓練計算量的增加: @elonmusk上周透露,Grok 4 的總參數數為 3 兆,這可能比 GPT-5 和其他專有模型更大。🥇克勞德軟體在幻覺率排行榜上遙遙領先:Anthropic包攬了幻覺率最低的前三名,其中克勞德4.5 Haiku以28%的幻覺率領先,比GPT-5(高)和Gemini 2.5 Pro低三倍多。克勞德4.5 Sonnet和克勞德4.1 Opus緊隨其後,幻覺率均為48%。💭高知識水平並不能保證低幻覺率:幻覺率衡量的是模型在缺乏必要知識時進行猜測的頻率。精準率最高的模型,包括 GPT-5 模型和 Gemini 2.5 Pro,由於其傾向於猜測而非放棄,因此並未在全知指數中名列前茅。人因模型往往能更好地應對不確定性,其中 Claude 4.5 Haiku 的幻覺率最低,僅為 26%,領先於 4.5 Sonnet 和 4.1 Opus (48 %)📊模型因領域而異:模型在AA-Omniscience的六個領域中表現各異,沒有那個模型在所有領域都佔據絕對優勢。Anthropic的Claude 4.1 Opus在法律、軟體工程以及人文社科領域表現領先,而@OpenAI的GPT-5.1在商業問題上可靠性最高,xAI的Grok 4在健康以及科學、工程和數學領域表現最佳。模型的選擇應與具體應用場景相符,而不是盲目選擇總體領先的模型。📈較大的模型在精準率上得分更高,但可靠性並非總是如此:較大的模型往往具有更高的嵌入式知識水平,例如 Kimi K2 Thinking 和 DeepSeek R1 (0528) 在精準率排行榜上優於較小的模型。但這種優勢並非總是體現在全知指數上。例如,來自@AIatMeta的 Llama 3.1 405B 勝過較大的 Kimi K2 變體,因為它在所有模型中幻覺率最低 (51 %) (大道至簡不簡單)