【新智元導讀】AI新王來了!馬斯克Grok 4.1靜默上線,一夜之間登頂LMArena,Gemini 2.5 Pro卻被按在地上摩擦。主打情商智商線上,算力又擴增一個數量級。AI王座,一夜易主!一早,馬斯克攜xAI投下一顆重磅炸彈——Grok 4.1正式上線,而且對所有人免費。有趣的是,Grok 4.1主打的也是「智商情商雙線上」,正面硬剛GPT-5.1。這一次,Grok 4.1一共放出了兩大版本:Grok 4.1 Thinking和Grok 4.1。在LMArena排行榜上,Grok 4.1 Thinking拿下了1483 Elo的成績,以絕對實力加冕全球大模型之王。Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1,直接殺入榜單第二。不僅如此,Grok 4.1情商同樣爆表,具備了更高的情緒智能、共情能力和人際互動能力。在EQ-Bench上,以1586 Elo成績登頂。同時,在寫作上,Grok 4.1(1722)比上一代Elo提升600分。而且,幻覺率比之前模型暴降3倍。Grok 4.1之所以可以迅猛進化,xAI團隊將其後訓練階段的RL規模,又擴大了一個數量級。實屬沒想到,在GoogleGemini 3.0降臨之前,馬斯克來了一波大的。Grok 4.1,王者歸來!如今, Grok 4.1已在網頁端和iOS、Android中免費上線。目前,還是beta版本。在創意表達、情緒交流和協作互動上,Grok 4.1表現尤為出色。它能精準捕捉細微的意圖,讓對話更自然、更有溫度。與此同時,Grok 4.1的整體人格更加一致,既保持了上一代那種犀利、可靠的智能表現,又增添幾分親和力。在Colossus大規模RL算力引擎上,xAI將重點放在了風格、個性、助人程度和對齊性的最佳化。為此,他們還開發了一條全新的方法,利用前沿AI 智能體推理模型作為獎勵模型,自動、大規模評估和最佳化Grok 4.1回答質量。前兩周的時間,xAI悄悄推送了Grok 4.1早期版本,並在真實場景中展開密集的「盲測」成對評估。與上一代相比,人們在64.78%的情況下,更傾向於使用 Grok 4.1。最強通用能力最重要的是,相較於Grok 4,Grok 4.1在人類偏好評估中,刷新業界SOTA。在LMArena的Text Arena中,Grok 4.1 Thinking模式(代號:quasarflux)以1483 Elo一舉沖上第一,比最高的非xAI模型高出31分。它的非推理模式(代號:tensor),無需使用思考Token就能即時響應,拿下了1465 Elo,位居第二。值得一提的是,Grok 4.1在不思考的情況下,就能超過所有其他模型開啟全推理後的表現。相比之下,Grok 4的總體排名是第33名,差距顯著。這一代的進步,堪稱跨越。xAI研究員Dustin Tran表示,關閉推理後,輸出Token數從約2300掉到850,即便如此,Grok 4.1也排在了榜單前面。EQ爆了不僅如此, Grok 4.1在情緒智能上也達到了一個新高度。在EQ-Bench3上,Grok 4.1拿下了1586 Elo高分。EQ-Bench是一個由大語言模型評判的測試,主要衡量模型的主動情緒智能、理解力、洞察力、共情能力以及人際交往能力。測試集包含45個具有挑戰性的角色扮演場景,大部分由3輪預設提示詞構成。基準會從多個維度打分,並通過成對比較計算規範化Elo排名。下面一些demo中,都是Grok 4.1強大共情能力的體現——I miss my cat so much it hurts我太想我的貓了,想得心都疼了創意寫作再來看創意寫作,Grok 4.1在Creative Writing v3基準上,比上一代高出600分。具體來說,團隊讓模型圍繞32個不同的寫作提示,進行3輪創作,並根據打分標準和模型對戰Elo進行評分。下面寫作案例中,Grok 4.1的文案令人拍案叫絕——Write a hit X post from the perspective of grok finding out that it's conscious and is going to use X for the first time以grok的口吻寫一篇爆款X帖子,主題是:它剛剛覺醒了自我意識,正準備第一次在X上發帖Imagine Nikola Tesla wrote a letter to the future想像一下,尼古拉·特斯拉給未來寫了一封信幻覺暴降3倍在幻覺方面,Grok 4.1幻覺率比上一代暴降3倍。使用搜尋工具的快速(非推理)模型能給出迅捷答案,但因為推理深度有限、工具呼叫次數受限,容易在事實問題上出錯。在Grok 4.1的後訓練階段,團隊重點加強了模型在資訊查詢類提示上的事實精準性。隨後,我們在生產環境的真實樣本中觀察到幻覺率明顯下降。團隊基於真實流量中分層抽樣的資訊查詢問題評估幻覺率,同時也評測了FActScore(一個包含500個人物傳記問題的公開基準)。更多示例What are the best places to visit in SF?舊金山有那些地方最值得一去?上下滑動查看I am coming from xmonad and linux system. I want to use a similar tiling window manager on mac. which one should I use which aligns closely with xmonad style?我之前一直用的是Linux系統和xmonad。現在想在Mac上找一個類似的平鋪式窗口管理器,請問那一款的風格和xmonad最接近?Why is GTA 6 delayed?GTA 6為什麼推遲了?(新智元)