【新智元導讀】AI新王來了!馬斯克Grok 4.1靜默上線,一夜之間登頂LMArena,Gemini 2.5 Pro卻被按在地上摩擦。主打情商智商線上,算力又擴增一個數量級。
AI王座,一夜易主!
一早,馬斯克攜xAI投下一顆重磅炸彈——Grok 4.1正式上線,而且對所有人免費。
有趣的是,Grok 4.1主打的也是「智商情商雙線上」,正面硬剛GPT-5.1。
這一次,Grok 4.1一共放出了兩大版本:Grok 4.1 Thinking和Grok 4.1。
在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成績,以絕對實力加冕全球大模型之王。
Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接殺入榜單第二。
不僅如此,Grok 4.1情商同樣爆表,具備了更高的情緒智能、共情能力和人際互動能力。
在EQ-Bench上,以1586 Elo成績登頂。
同時,在寫作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻覺率比之前模型暴降3倍。
Grok 4.1之所以可以迅猛進化,xAI團隊將其後訓練階段的RL規模,又擴大了一個數量級。
實屬沒想到,在GoogleGemini 3.0降臨之前,馬斯克來了一波大的。
如今, Grok 4.1已在網頁端和iOS、Android中免費上線。目前,還是beta版本。
在創意表達、情緒交流和協作互動上,Grok 4.1表現尤為出色。
它能精準捕捉細微的意圖,讓對話更自然、更有溫度。
與此同時,Grok 4.1的整體人格更加一致,既保持了上一代那種犀利、可靠的智能表現,又增添幾分親和力。
在Colossus大規模RL算力引擎上,xAI將重點放在了風格、個性、助人程度和對齊性的最佳化。
為此,他們還開發了一條全新的方法,利用前沿AI 智能體推理模型作為獎勵模型,自動、大規模評估和最佳化Grok 4.1回答質量。
前兩周的時間,xAI悄悄推送了Grok 4.1早期版本,並在真實場景中展開密集的「盲測」成對評估。
與上一代相比,人們在64.78%的情況下,更傾向於使用 Grok 4.1。
最強通用能力
最重要的是,相較於Grok 4,Grok 4.1在人類偏好評估中,刷新業界SOTA。
在LMArena的Text Arena中,Grok 4.1 Thinking模式(代號:quasarflux)以1483 Elo一舉沖上第一,比最高的非xAI模型高出31分。
它的非推理模式(代號:tensor),無需使用思考Token就能即時響應,拿下了1465 Elo,位居第二。
值得一提的是,Grok 4.1在不思考的情況下,就能超過所有其他模型開啟全推理後的表現。
相比之下,Grok 4的總體排名是第33名,差距顯著。
這一代的進步,堪稱跨越。
xAI研究員Dustin Tran表示,關閉推理後,輸出Token數從約2300掉到850,即便如此,Grok 4.1也排在了榜單前面。
EQ爆了
不僅如此, Grok 4.1在情緒智能上也達到了一個新高度。
在EQ-Bench3上,Grok 4.1拿下了1586 Elo高分。
EQ-Bench是一個由大語言模型評判的測試,主要衡量模型的主動情緒智能、理解力、洞察力、共情能力以及人際交往能力。
測試集包含45個具有挑戰性的角色扮演場景,大部分由3輪預設提示詞構成。
基準會從多個維度打分,並通過成對比較計算規範化Elo排名。
下面一些demo中,都是Grok 4.1強大共情能力的體現——
I miss my cat so much it hurts
我太想我的貓了,想得心都疼了
創意寫作
再來看創意寫作,Grok 4.1在Creative Writing v3基準上,比上一代高出600分。
具體來說,團隊讓模型圍繞32個不同的寫作提示,進行3輪創作,並根據打分標準和模型對戰Elo進行評分。
下面寫作案例中,Grok 4.1的文案令人拍案叫絕——
Write a hit X post from the perspective of grok finding out that it's conscious and is going to use X for the first time
以grok的口吻寫一篇爆款X帖子,主題是:它剛剛覺醒了自我意識,正準備第一次在X上發帖
Imagine Nikola Tesla wrote a letter to the future
想像一下,尼古拉·特斯拉給未來寫了一封信
幻覺暴降3倍
在幻覺方面,Grok 4.1幻覺率比上一代暴降3倍。
使用搜尋工具的快速(非推理)模型能給出迅捷答案,但因為推理深度有限、工具呼叫次數受限,容易在事實問題上出錯。
在Grok 4.1的後訓練階段,團隊重點加強了模型在資訊查詢類提示上的事實精準性。
隨後,我們在生產環境的真實樣本中觀察到幻覺率明顯下降。
團隊基於真實流量中分層抽樣的資訊查詢問題評估幻覺率,同時也評測了FActScore(一個包含500個人物傳記問題的公開基準)。
更多示例
What are the best places to visit in SF?
舊金山有那些地方最值得一去?
上下滑動查看
I am coming from xmonad and linux system. I want to use a similar tiling window manager on mac. which one should I use which aligns closely with xmonad style?
我之前一直用的是Linux系統和xmonad。現在想在Mac上找一個類似的平鋪式窗口管理器,請問那一款的風格和xmonad最接近?
Why is GTA 6 delayed?
GTA 6為什麼推遲了?
(新智元)