馬斯克Grok 4逆天跑分洩露，「人類最後考試」豪取45%全場第一名！

2025/07/05

•

Grok 4跑分提前洩露，在「人類最後考試」中高達45%的得分，遠超Gemini與Claude，成為目前測試中最強模型之一。馬斯克表示Grok 4以「第一原理」建構推理機制，Grok 4有望改寫LLM格局。

Grok 4馬上就來，馬斯克說的！

甚至，現在部署的Grok，已經在能力上有了顯著的提升。

同時，網友LEGIT的一張截圖，更是直接洩漏了Grok 4和Grok 4 Code在多個關鍵基準評測上的跑分。

目前，這項消息已經得到了AI圈知名大佬Tibor Blaho的確認。

根據洩漏的資料，Grok 4在GPQA、AIME 25和SWE-bench評測中可謂是「遙遙領先」，全面碾壓GoogleGemini 2.5 Pro、OpenAI o3和Claude 4 Opus。

GPQA（研究生級物理與天文學問題）：Grok 4得分87-88%，略優於Gemini 2.5 Pro的86.4%，明顯超過Claude 4 Opus的79.6%。

AIME 25（2025美國數學邀請賽）：Grok 4得分95%，大幅超越Claude 4 Opus的75.5%，並優於OpenAI o3的88.9%。

SWE-bench（真實軟體工程問題）：Grok 4 Code得分72-75%，略優於Claude Opus 4的72.5%，略高於OpenAI o3的71.7%。

不僅如此，Grok 4還在涵蓋範圍最廣、難度最高的終極閉卷學術基準「人類最後的考試」（Human Last Exam，HLE）上取得了默認35%、最高45%的驚人高分。

這也意味著，最強狀態下的Grok 4，得分是現任老闆Gemini 2.5 Pro的2倍——高出了整整24個百分點。

相較於正確率只有10.7%的Claude 4 Opus，成績直接翻了4倍還多。

HLF這門考試堪稱殘酷，是專為挫敗LLM的銳氣而設計：

橫跨100多個學科的2,500道專家級試題
14%為多模態題型（文字+圖像）
24%的問題為多項選擇題
設有防記憶陷阱和隱藏測試集，用於阻止“作弊式訓練”

下圖是所含知識的高層次視覺化圖表，其中的每個類別也包含有許多具體學科。

要知道，大多數前沿模型在這分數面前都望塵莫及。

如果這次洩漏屬實，那麼Grok 4就算闖過了AI基準測試領域最難的關卡之一。

由於在HLF的得分異常地高，Grok 4的發佈再度引起了社群的廣泛討論。

是的，如果屬實，這意味著該模型具有極其強大的世界知識。

看到如此強大的Grok 4，網友們已經迫不及待了，紛紛線上催更：

Grok 4原始碼洩露

大家對於Grok 4的期待可以說是完全拉滿了。

馬斯克先前的採訪中，曾經透露。

Grok 3.5 正試圖從第一原理出發進行推理，也就是將物理學的方法應用到思考過程中。

Grok-3.5正是現今的Grok 4，老馬決定一步到位，從Grok-3直接到Grok 4，不再擠牙膏了。

這似乎預示著Grok 4的能力會非常大的突破！

幾天前，X上就有人發現在xAI控制台原始碼中發現的2個Grok 4模型：Grok 4和Grok 4 Code

Grok 4：

最新、最卓越的旗艦模型，在自然語言、數學及推理領域展現無與倫比的性能，堪稱萬能的完美之選

Grok 4 Code：

專為程式設計伴侶量身打造的模型。可以向它諮詢程式碼相關的問題，或直接將其嵌入到程式碼編輯器中

也有人持懷疑態度

當然也有人似乎是被之前Grok 3的炒作「傷透了心」。

HLE的建立者Dan Hendrycks是xAI的親密顧問（相比其他實驗室而言）。

網友們想知道Dan Hendrycks是否只提供了安全方面的建議，還是以某種方式給出了增強科學知識細節的具體研發建議。

這不禁讓人聯想到先前Llama 4的翻車鬧劇，也是因為提前進行了「針對性的訓練」。

馬斯克親自帶貨

馬斯克曾在6月27日發文稱，正和團隊加班加點的研發Grok。

將在7月4日後發佈Grok 4，按照美東時間，今天開始，任何時候都有可能見證Grok 4的發佈。

馬斯克特地強調了，需要一次大型訓練來發展了「特殊」的編碼模型。

在5月20日的微軟Build 2025大會上，馬斯克現場講述了Grok 3.5（Grok 4）將從第一原理出發進行建造。

馬斯克：

尤其是在即將發佈的Grok 3.5中，我們的目標是讓模型從 第一原理 出發進行推理。

也就是說，像物理學家那樣思考，借用物理的工具來分析問題。

如果你想要探索事物的本質真相，就必須把問題分解到最基本、最可能正確的公理層面，然後再從這些基礎出發向上推理。

接著，你可以將最終結論與這些基本原理進行校驗。在物理學中，如果你得出的結果違反了能量守恆或動量守恆，那你要麼發現了諾獎等級的新理論，要麼——更可能的是——你搞錯了。

所以我們打造Grok 3.5的核心目標，就是以物理的基本原理為指導，應用這些方法來推理各種問題，力求以最小的誤差，接近真實。

當然，出錯是難免的，但我們的目標是持續減少這些錯誤。這個方向對於AI 安全至關重要。

我長久以來都在思考AI安全問題，而我最終得出的結論，其實可以用一句老話來概括： 誠實是最好的策略 。

這不僅是道德要求，更是安全保障。當然我們也會犯錯，但我們承諾會盡快修正這些錯誤。

我們也非常期待開發者社群的回饋——你們需要什麼？我們那裡做錯了？又該如何改進？

我們希望Grok成為一個讓開發者充滿期待的工具，一個他們的聲音能真正被聽到的平台。

Grok將不斷進化，努力滿足開發者的需求。

編碼能力成為必爭之地

根據Grok API先前的模型推測，這次Grok 4 Code將是發佈的重頭戲，也許還會有Grok 4 mini。

馬斯克特地提到Grok 4的編碼能力，也是受到如今各家的影響，編碼能力稱為了衡量新模型的試金石。

Google

Gemini2.5包括改進的程式碼產生、複雜程式碼重構/轉換、上下文管理、更好的PR評審能力，以及可自訂命令等。
Gemini CLI是近期推出的命令列AI助手，基於Gemini2.5 Pro，可處理長達百萬token的上下文，支援包括程式碼編寫、偵錯、內容生成和任務管理於一體的多功能開發體驗。

Anthropic

Claude 4（包含Opus與Sonnet）是Anthropic迄今最強大的模型系列，顯著提升編碼與AI agent能力。
Claude Code專注於終端環境使用，提供從程式碼編輯、問題修復、架構理解，到執行測試、lint、git操作、PR建立的一站式工具。

OpenAI

新版Codex是基於OpenAI o3微調而來的，用於自然語言翻譯程式碼，延續迄今生成工具（如GitHubCopilot）的核心能力。

DeepSeek

DeepSeek‑R1‑0528是DeepSeek推出的R1最新版本，定位為全能推理與編碼能力提升模式。

既然老馬著重提到了編碼能力，那麼也許這次是值得期待的。（新智元）

科技