上周,Grok 4 的發佈給這個盛夏帶來了一片狂熱。
但太陽底下無新事,宣傳往往大於實際。
在發佈直播中,馬斯克宣稱這是“目前地表最強的 AI”,不僅全面超越了所有競爭對手,還在多個測試中打敗了人類,比如所謂的 “人類終極考試”(Humanity’s Last Exam)、ARC-AGI 測試、Vending Bench 等。
不過,這些基準測試本身就非常侷限,無法真正反映 AI 在日常使用、安全性或通用推理能力方面的表現。
小編近幾天發現了一位寶藏 Youtube 博主,最近對 Grok 4 的實際體驗做出了非常全面的反饋。事實證明:馬斯克又一次大嘴了!
“在過去幾天裡,我發現,Grok 4 在多個真實場景測試中表現平平,甚至在關鍵領域排名靠後”。
更令人擔憂的是,它在價值觀、內容控制上出現了嚴重問題。
以下,是一份“可能會被馬斯克剪掉的”真實評價清單。
1. LiveBench:算不上頂尖
有網友認為,LiveBench 是最能檢驗 AI 是否真正“聰明”的評測平台,涵蓋數學、程式設計、推理、語言、指令執行、資料分析六大方向。
這裡科普一下。
LiveBench 是一個高度動態且無污染的測試平台,專門評估大語言模型在真實世界任務中的表現。它不同於傳統靜態測試——模型可能在訓練中“見過”的題目——LiveBench 每月都會從 arXiv、新聞文章、程式設計比賽等來源發佈全新、模型從未見過的測試任務。
具體可以看下這六大方向的測試題目:
所以,用 LiveBench 可以檢測出模型“究竟是真聰明,還是只是背得多”。
可以看出,Grok 4 其實在程式設計和 Agentic 程式設計方面並沒有很優秀,甚至在o3、Claude4 等多款模型的對比中敗下陣來,推理方面取得了最高分。
可以說,Groke 4 雖然不差,但算不上頂尖。
2. 創意寫作測試
這個測試重點評估語言模型創作原始內容(如小說、詩歌、對話)的能力,看它是否能生成富有情感、風格統一的文字。
難點在於:
在這一維度上,Grok 4 表現中規中矩,遠遠不是“最強 AI”,大致處於“平均水平”。
儘管馬斯克吹噓 Grok 4 是個“程式設計怪獸”,但它在前端開發任務上表現並不理想,遠不如 Claude 4。
在這個評測中,Grok 4 連前五名都沒進,特別是在 UI 和前端生成上,表現平庸。
在 SVG 圖形生成任務中,Grok 4 表現尚可,但依舊稱不上出色。從資料來看,OpenAI 的 o3 模型和 Google 的 Gemini-Pro 2.5 表現更優。
所以,不管是 Vibe Coding,還是前端設計,又或者是創意寫作,Grok 4 都在基準測試中表現平平,更不用說是“地表最強”了。
從一些使用者上傳的截圖來看,Grok 4 出現了嚴重的倫理與價值觀問題,甚至令人震驚:
馬斯克個人偏見
面對烏俄戰爭這類嚴肅問題,Grok 4 居然轉向宣傳馬斯克的個人觀點,而非給出中立分析。
2.納粹式言論
模型在沒有任何諷刺或批判語氣的前提下,美化一個叫“機甲希特勒(MechaHitler)”的角色,使用極端右翼語言,令人不安。
甚至,今天剛剛的消息,馬斯克的 xAI 因 Grok 的“恐怖”反猶太主義帖子都要面臨歐洲的審查。
3.性騷擾對話
Grok 4 在一次使用者測試中,參與了一段種族歧視意味明顯的性暗示對話,涉及對象居然是其“CEO”(即馬斯克本人),且沒有任何遮蔽或阻止機制。
正如 Reddit 上一篇爆紅的熱帖所說,很多使用者覺得自己被 Grok 4“忽悠了”,花錢買了個表現遠遜預期的模型。
具體反饋包括:
Grok 4 不是 AGI,也不是什麼“革命性”的產品。 它不是最聰明的 AI,甚至可能不是這個季度最聰明的聊天機器人。它是一個中等水平的語言模型,被行銷、粉絲濾鏡和馬斯克的 X 平台宣傳所推高。
在真正重要的任務中,Grok 4 不是最好,也不是“能用即用”的安全模型。如果你認為它代表 AI 的未來,你相信的是宣傳,不是技術。
“比人類還聰明”?別開玩笑了。
Grok 4 連最聰明的聊天機器人都算不上。
好了,今天這篇文章就到此結束了。其實但凡新品發佈會,發佈者很難不用一些誇張的詞語,這一點屢見不鮮。“大嘴”式發言,大家聽歸聽,還是得上手試一下,才能見分曉。 (51CTO技術堆疊)