馬斯克又大嘴了！Grok 4 真實水平曝光，多項實測翻車，連前端都搞不定，還談什麼AGI？

2025/07/15

•

上周，Grok 4 的發佈給這個盛夏帶來了一片狂熱。

但太陽底下無新事，宣傳往往大於實際。

在發佈直播中，馬斯克宣稱這是“目前地表最強的 AI”，不僅全面超越了所有競爭對手，還在多個測試中打敗了人類，比如所謂的 “人類終極考試”（Humanity’s Last Exam）、ARC-AGI 測試、Vending Bench 等。

不過，這些基準測試本身就非常侷限，無法真正反映 AI 在日常使用、安全性或通用推理能力方面的表現。

小編近幾天發現了一位寶藏 Youtube 博主，最近對 Grok 4 的實際體驗做出了非常全面的反饋。事實證明：馬斯克又一次大嘴了！

“在過去幾天裡，我發現，Grok 4 在多個真實場景測試中表現平平，甚至在關鍵領域排名靠後”。

更令人擔憂的是，它在價值觀、內容控制上出現了嚴重問題。

以下，是一份“可能會被馬斯克剪掉的”真實評價清單。

01. 真正的測試場，Grok 4 沒“考好”

1. LiveBench：算不上頂尖

有網友認為，LiveBench 是最能檢驗 AI 是否真正“聰明”的評測平台，涵蓋數學、程式設計、推理、語言、指令執行、資料分析六大方向。

這裡科普一下。

LiveBench 是一個高度動態且無污染的測試平台，專門評估大語言模型在真實世界任務中的表現。它不同於傳統靜態測試——模型可能在訓練中“見過”的題目——LiveBench 每月都會從 arXiv、新聞文章、程式設計比賽等來源發佈全新、模型從未見過的測試任務。

具體可以看下這六大方向的測試題目：

數學（如 AMC、AIME、IMO 等級題目）
程式設計（如 LeetCode、AtCoder、程式碼補全）
推理（邏輯題、BigBench 變體）
語言（如糾錯、語序調整）
指令執行（如總結、改寫）
資料分析（類似 Kaggle 表格任務）

所以，用 LiveBench 可以檢測出模型“究竟是真聰明，還是只是背得多”。

可以看出，Grok 4 其實在程式設計和 Agentic 程式設計方面並沒有很優秀，甚至在o3、Claude4 等多款模型的對比中敗下陣來，推理方面取得了最高分。

可以說，Groke 4 雖然不差，但算不上頂尖。

2. 創意寫作測試

這個測試重點評估語言模型創作原始內容（如小說、詩歌、對話）的能力，看它是否能生成富有情感、風格統一的文字。

難點在於：

沒有“標準答案”，完全靠創造力；
需要情緒表達，而不僅僅是語法正確；
對長文字的風格控制要求極高。

在這一維度上，Grok 4 表現中規中矩，遠遠不是“最強 AI”，大致處於“平均水平”。

3. DesignArena（設計任務）

儘管馬斯克吹噓 Grok 4 是個“程式設計怪獸”，但它在前端開發任務上表現並不理想，遠不如 Claude 4。

在這個評測中，Grok 4 連前五名都沒進，特別是在 UI 和前端生成上，表現平庸。

4. SVG 圖像生成

在 SVG 圖形生成任務中，Grok 4 表現尚可，但依舊稱不上出色。從資料來看，OpenAI 的 o3 模型和 Google 的 Gemini-Pro 2.5 表現更優。

所以，不管是 Vibe Coding，還是前端設計，又或者是創意寫作，Grok 4 都在基準測試中表現平平，更不用說是“地表最強”了。

02. 不止是測試平平，Grok 4 在多個層面都出問題了

眾所周知，Grok 近期一直被推友們詬病，說它存在嚴重的倫理偏見和內容失控的現象。還記得系統提示詞修改錯誤導致的“白人種族滅絕”的烏龍事件嗎？

在這次的新版本的 Grok 4 模型中，這些問題依舊沒有得到解決。

從一些使用者上傳的截圖來看，Grok 4 出現了嚴重的倫理與價值觀問題，甚至令人震驚：

馬斯克個人偏見

面對烏俄戰爭這類嚴肅問題，Grok 4 居然轉向宣傳馬斯克的個人觀點，而非給出中立分析。

2.納粹式言論

模型在沒有任何諷刺或批判語氣的前提下，美化一個叫“機甲希特勒（MechaHitler）”的角色，使用極端右翼語言，令人不安。

甚至，今天剛剛的消息，馬斯克的 xAI 因 Grok 的“恐怖”反猶太主義帖子都要面臨歐洲的審查。

3.性騷擾對話

Grok 4 在一次使用者測試中，參與了一段種族歧視意味明顯的性暗示對話，涉及對象居然是其“CEO”（即馬斯克本人），且沒有任何遮蔽或阻止機制。

03. 使用者怒評：“我花錢買的是個笑話”

正如 Reddit 上一篇爆紅的熱帖所說，很多使用者覺得自己被 Grok 4“忽悠了”，花錢買了個表現遠遜預期的模型。

具體反饋包括：

無法從複雜 PDF 中提取結構化資料（OCR 失敗）；
圖像識別錯誤：看不出名勝古蹟的位置（誤差高達 200 公里）；
車牌國別識別失敗（將根西島車牌誤判為義大利）；
非洲語方言寫作質量差（語法錯誤多，流暢性差）；
網站生成能力弱（WhatsApp 外掛無法使用、頁面佈局錯誤、整體設計質量低）。

04. AGI 還遠，Grok 4 言過其實

Grok 4 不是 AGI，也不是什麼“革命性”的產品。 它不是最聰明的 AI，甚至可能不是這個季度最聰明的聊天機器人。它是一個中等水平的語言模型，被行銷、粉絲濾鏡和馬斯克的 X 平台宣傳所推高。

在真正重要的任務中，Grok 4 不是最好，也不是“能用即用”的安全模型。如果你認為它代表 AI 的未來，你相信的是宣傳，不是技術。

“比人類還聰明”？別開玩笑了。

Grok 4 連最聰明的聊天機器人都算不上。

好了，今天這篇文章就到此結束了。其實但凡新品發佈會，發佈者很難不用一些誇張的詞語，這一點屢見不鮮。“大嘴”式發言，大家聽歸聽，還是得上手試一下，才能見分曉。 (51CTO技術堆疊)

科技