馬斯克又大嘴了!Grok 4 真實水平曝光,多項實測翻車,連前端都搞不定,還談什麼AGI?

上周,Grok 4 的發佈給這個盛夏帶來了一片狂熱。

但太陽底下無新事,宣傳往往大於實際。

在發佈直播中,馬斯克宣稱這是“目前地表最強的 AI”,不僅全面超越了所有競爭對手,還在多個測試中打敗了人類,比如所謂的 “人類終極考試”(Humanity’s Last Exam)、ARC-AGI 測試、Vending Bench 等。

不過,這些基準測試本身就非常侷限,無法真正反映 AI 在日常使用、安全性或通用推理能力方面的表現。

小編近幾天發現了一位寶藏 Youtube 博主,最近對 Grok 4 的實際體驗做出了非常全面的反饋。事實證明:馬斯克又一次大嘴了!

“在過去幾天裡,我發現,Grok 4 在多個真實場景測試中表現平平,甚至在關鍵領域排名靠後”。

更令人擔憂的是,它在價值觀、內容控制上出現了嚴重問題。

以下,是一份“可能會被馬斯克剪掉的”真實評價清單。

01. 真正的測試場,Grok 4 沒“考好”

1. LiveBench:算不上頂尖

有網友認為,LiveBench 是最能檢驗 AI 是否真正“聰明”的評測平台,涵蓋數學、程式設計、推理、語言、指令執行、資料分析六大方向。

這裡科普一下。

LiveBench 是一個高度動態且無污染的測試平台,專門評估大語言模型在真實世界任務中的表現。它不同於傳統靜態測試——模型可能在訓練中“見過”的題目——LiveBench 每月都會從 arXiv、新聞文章、程式設計比賽等來源發佈全新、模型從未見過的測試任務。

具體可以看下這六大方向的測試題目:

  • 數學(如 AMC、AIME、IMO 等級題目)
  • 程式設計(如 LeetCode、AtCoder、程式碼補全)
  • 推理(邏輯題、BigBench 變體)
  • 語言(如糾錯、語序調整)
  • 指令執行(如總結、改寫)
  • 資料分析(類似 Kaggle 表格任務)

所以,用 LiveBench 可以檢測出模型“究竟是真聰明,還是只是背得多”。

可以看出,Grok 4 其實在程式設計和 Agentic 程式設計方面並沒有很優秀,甚至在o3、Claude4 等多款模型的對比中敗下陣來,推理方面取得了最高分。

可以說,Groke 4 雖然不差,但算不上頂尖。

2. 創意寫作測試

這個測試重點評估語言模型創作原始內容(如小說、詩歌、對話)的能力,看它是否能生成富有情感、風格統一的文字。

難點在於:

  • 沒有“標準答案”,完全靠創造力;
  • 需要情緒表達,而不僅僅是語法正確;
  • 對長文字的風格控制要求極高。

在這一維度上,Grok 4 表現中規中矩,遠遠不是“最強 AI”,大致處於“平均水平”。

3. DesignArena(設計任務)

儘管馬斯克吹噓 Grok 4 是個“程式設計怪獸”,但它在前端開發任務上表現並不理想,遠不如 Claude 4。

在這個評測中,Grok 4 連前五名都沒進,特別是在 UI 和前端生成上,表現平庸。

4. SVG 圖像生成

在 SVG 圖形生成任務中,Grok 4 表現尚可,但依舊稱不上出色。從資料來看,OpenAI 的 o3 模型和 Google 的 Gemini-Pro 2.5 表現更優

所以,不管是 Vibe Coding,還是前端設計,又或者是創意寫作,Grok 4 都在基準測試中表現平平,更不用說是“地表最強”了。

02. 不止是測試平平,Grok 4 在多個層面都出問題了

眾所周知,Grok 近期一直被推友們詬病,說它存在嚴重的倫理偏見和內容失控的現象。還記得系統提示詞修改錯誤導致的“白人種族滅絕”的烏龍事件嗎?

在這次的新版本的 Grok 4 模型中,這些問題依舊沒有得到解決。

從一些使用者上傳的截圖來看,Grok 4 出現了嚴重的倫理與價值觀問題,甚至令人震驚:

馬斯克個人偏見

面對烏俄戰爭這類嚴肅問題,Grok 4 居然轉向宣傳馬斯克的個人觀點,而非給出中立分析。

2.納粹式言論

模型在沒有任何諷刺或批判語氣的前提下,美化一個叫“機甲希特勒(MechaHitler)”的角色,使用極端右翼語言,令人不安。

甚至,今天剛剛的消息,馬斯克的 xAI 因 Grok 的“恐怖”反猶太主義帖子都要面臨歐洲的審查。

3.性騷擾對話

Grok 4 在一次使用者測試中,參與了一段種族歧視意味明顯的性暗示對話,涉及對象居然是其“CEO”(即馬斯克本人),且沒有任何遮蔽或阻止機制。

03. 使用者怒評:“我花錢買的是個笑話”

正如 Reddit 上一篇爆紅的熱帖所說,很多使用者覺得自己被 Grok 4“忽悠了”,花錢買了個表現遠遜預期的模型。

具體反饋包括:

  • 無法從複雜 PDF 中提取結構化資料(OCR 失敗)
  • 圖像識別錯誤:看不出名勝古蹟的位置(誤差高達 200 公里)
  • 車牌國別識別失敗(將根西島車牌誤判為義大利)
  • 非洲語方言寫作質量差(語法錯誤多,流暢性差)
  • 網站生成能力弱(WhatsApp 外掛無法使用、頁面佈局錯誤、整體設計質量低)

04. AGI 還遠,Grok 4 言過其實

Grok 4 不是 AGI,也不是什麼“革命性”的產品。 它不是最聰明的 AI,甚至可能不是這個季度最聰明的聊天機器人。它是一個中等水平的語言模型,被行銷、粉絲濾鏡和馬斯克的 X 平台宣傳所推高。

在真正重要的任務中,Grok 4 不是最好,也不是“能用即用”的安全模型。如果你認為它代表 AI 的未來,你相信的是宣傳,不是技術。

“比人類還聰明”?別開玩笑了。

Grok 4 連最聰明的聊天機器人都算不上。

好了,今天這篇文章就到此結束了。其實但凡新品發佈會,發佈者很難不用一些誇張的詞語,這一點屢見不鮮。“大嘴”式發言,大家聽歸聽,還是得上手試一下,才能見分曉。 (51CTO技術堆疊)