#AI王座 | 熱門關鍵字 | 鉅亨號

【新智元導讀】AI新王來了！馬斯克Grok 4.1靜默上線，一夜之間登頂LMArena，Gemini 2.5 Pro卻被按在地上摩擦。主打情商智商線上，算力又擴增一個數量級。AI王座，一夜易主！一早，馬斯克攜xAI投下一顆重磅炸彈——Grok 4.1正式上線，而且對所有人免費。有趣的是，Grok 4.1主打的也是「智商情商雙線上」，正面硬剛GPT-5.1。這一次，Grok 4.1一共放出了兩大版本：Grok 4.1 Thinking和Grok 4.1。在LMArena排行榜上，Grok 4.1 Thinking拿下了1483 Elo的成績，以絕對實力加冕全球大模型之王。Thinking版要比Gemini 2.5 Pro高出整整31分。即便是非推理模式的Grok 4.1，直接殺入榜單第二。不僅如此，Grok 4.1情商同樣爆表，具備了更高的情緒智能、共情能力和人際互動能力。在EQ-Bench上，以1586 Elo成績登頂。同時，在寫作上，Grok 4.1（1722）比上一代Elo提升600分。而且，幻覺率比之前模型暴降3倍。Grok 4.1之所以可以迅猛進化，xAI團隊將其後訓練階段的RL規模，又擴大了一個數量級。實屬沒想到，在GoogleGemini 3.0降臨之前，馬斯克來了一波大的。Grok 4.1，王者歸來！如今， Grok 4.1已在網頁端和iOS、Android中免費上線。目前，還是beta版本。在創意表達、情緒交流和協作互動上，Grok 4.1表現尤為出色。它能精準捕捉細微的意圖，讓對話更自然、更有溫度。與此同時，Grok 4.1的整體人格更加一致，既保持了上一代那種犀利、可靠的智能表現，又增添幾分親和力。在Colossus大規模RL算力引擎上，xAI將重點放在了風格、個性、助人程度和對齊性的最佳化。為此，他們還開發了一條全新的方法，利用前沿AI 智能體推理模型作為獎勵模型，自動、大規模評估和最佳化Grok 4.1回答質量。前兩周的時間，xAI悄悄推送了Grok 4.1早期版本，並在真實場景中展開密集的「盲測」成對評估。與上一代相比，人們在64.78%的情況下，更傾向於使用 Grok 4.1。最強通用能力最重要的是，相較於Grok 4，Grok 4.1在人類偏好評估中，刷新業界SOTA。在LMArena的Text Arena中，Grok 4.1 Thinking模式（代號：quasarflux）以1483 Elo一舉沖上第一，比最高的非xAI模型高出31分。它的非推理模式（代號：tensor），無需使用思考Token就能即時響應，拿下了1465 Elo，位居第二。值得一提的是，Grok 4.1在不思考的情況下，就能超過所有其他模型開啟全推理後的表現。相比之下，Grok 4的總體排名是第33名，差距顯著。這一代的進步，堪稱跨越。xAI研究員Dustin Tran表示，關閉推理後，輸出Token數從約2300掉到850，即便如此，Grok 4.1也排在了榜單前面。EQ爆了不僅如此， Grok 4.1在情緒智能上也達到了一個新高度。在EQ-Bench3上，Grok 4.1拿下了1586 Elo高分。EQ-Bench是一個由大語言模型評判的測試，主要衡量模型的主動情緒智能、理解力、洞察力、共情能力以及人際交往能力。測試集包含45個具有挑戰性的角色扮演場景，大部分由3輪預設提示詞構成。基準會從多個維度打分，並通過成對比較計算規範化Elo排名。下面一些demo中，都是Grok 4.1強大共情能力的體現——I miss my cat so much it hurts我太想我的貓了，想得心都疼了創意寫作再來看創意寫作，Grok 4.1在Creative Writing v3基準上，比上一代高出600分。具體來說，團隊讓模型圍繞32個不同的寫作提示，進行3輪創作，並根據打分標準和模型對戰Elo進行評分。下面寫作案例中，Grok 4.1的文案令人拍案叫絕——Write a hit X post from the perspective of grok finding out that it's conscious and is going to use X for the first time以grok的口吻寫一篇爆款X帖子，主題是：它剛剛覺醒了自我意識，正準備第一次在X上發帖Imagine Nikola Tesla wrote a letter to the future想像一下，尼古拉·特斯拉給未來寫了一封信幻覺暴降3倍在幻覺方面，Grok 4.1幻覺率比上一代暴降3倍。使用搜尋工具的快速（非推理）模型能給出迅捷答案，但因為推理深度有限、工具呼叫次數受限，容易在事實問題上出錯。在Grok 4.1的後訓練階段，團隊重點加強了模型在資訊查詢類提示上的事實精準性。隨後，我們在生產環境的真實樣本中觀察到幻覺率明顯下降。團隊基於真實流量中分層抽樣的資訊查詢問題評估幻覺率，同時也評測了FActScore（一個包含500個人物傳記問題的公開基準）。更多示例What are the best places to visit in SF?舊金山有那些地方最值得一去？上下滑動查看I am coming from xmonad and linux system. I want to use a similar tiling window manager on mac. which one should I use which aligns closely with xmonad style?我之前一直用的是Linux系統和xmonad。現在想在Mac上找一個類似的平鋪式窗口管理器，請問那一款的風格和xmonad最接近？Why is GTA 6 delayed?GTA 6為什麼推遲了？(新智元)