馬斯克「地表最強」Grok 3炸場,競技場首超1400分

剛剛,馬斯克xAI的Grok 3終於亮相(超300萬人次圍觀)!

一出道即巔峰,競技場(lmarena.ai)官方給了這樣的評價:

Grok 3是第一個突破1400分的模型,並且在所有類別中排名第一。

而且,Grok 3還是首個在10萬張(後擴展到20萬) H100集群上訓練出的模型。

在發布預告消息的時候,馬斯克就對Grok 3大力誇贊,稱其是「地球上最聰明的AI」


在發布之前,大神Karpathy獲得了搶先體驗資格,玩了兩個小時之後發長文詳述了自己的感受。

Karpathy認為,Grok-3的思考能力達到了SOTA,推理水準和o1-pro差不多,略好於DeepSeek R1和Gemini的推理模型。

如果考慮到Grok 3是一年前從頭開始訓練的,取得這樣的成績屬實不可思議。


並且對於數字母、小數比大小這些經典大模型“難題”,Grok 3在開啟推理之後也都正確解決。


不過也人質疑Grok的地位,有一位仿冒老黃的網友說,Grok 3即便真的是最強,也最多只能強一周。

加上OpenAI也劇透了下一代GPT計劃,馬斯克和奧特曼的另一場推特大戰就要爆發了。


奧特曼昨晚也發推文稱,GPT-4.5的測試讓他感受到了比預期更強烈的「feel the AGI」的感覺。

還有網友到留言區起哄,讓他早上截胡馬斯克,直播發布GPT-4.5。


言歸正傳,我們來看直播都講了啥。

20萬張H100,訓出最強模型

這次直播一共有四人參與,除了馬斯克之外,較為醒目的就是坐在C位的兩位華人,他們都是xAI創始成員。

二人由左至右分別是:

  • Jimmy Ba,2023年斯隆獎得主,Hinton手下的助理教授,本科到博士都在多倫多大學。
  • 吳宇懷Yuhuai (Tony) Wu,史丹佛大學博士後,博士畢業於多倫多大學。

而最左邊的則是Igor Babuschkin,是xAI的一位工程師。


四人先是介紹了Grok 3的訓練歷程。

去年馬斯克劇透,Grok 3在10萬張H100上進行訓練,是第一個達到如此訓練集群規模的模型。

當時就有網友稱這簡直是神經網路的超級工廠。


今天的記者會上又透露,到訓練進行到第92天時,集群規模擴展到了20萬張卡片


如此強大算力,xAI也是緊跟潮流在Grok 3中推出了思考鏈推理能力

在先前杜拜的一場高峰會上,馬斯克高調宣稱:

Grok 3具有強大推理能力,聰明程度超越目前所有已知模型。


這一波Grok 3有滿血和mini兩個版本,在數學、科學、程式碼等資料集上表現都超過了GPT-4o、DeepSeek-V3等非推理模型。


而Grok 3早期也化名「巧克力」打榜LMSYS,一舉奪魁並成為唯一得分超1400的模型


在Grok 3和mini的基礎之上,xAI團隊也打造了兩款推理模型

其中以mini為基礎的推理模型(Grok 3 mini Reasoning)已經比較成熟,而以滿血版為基礎的推理模型(Grok 3 Reasoning Beta)仍處於Beta階段。

在介紹成績之前,四人用馬斯克的帳號先讓Grok跑了兩個案例,分別和物理以及遊戲相關。

產生一段程式碼,為從地球降落在火星,然後在下一個發射視窗返回地球的發射繪製三維動畫圖表。


生成的過程中,有人開玩笑說什麼時候能把Grok裝到SpaceX的火箭上,馬斯克也回應可能再過2年。

馬斯克也表示,如果一切順利,SpaceX將在大約2025年11月左右,也就是下一個地球-火星轉移窗口期,用星艦把擎天柱機器人送上火星。

說回Grok,在考慮了開普勒定律並將其轉化為程式碼之後,最終生成了可以繪製出這樣的動畫的程式碼:


第二個問題開啟了Big Brain模式,會讓模型用更多的運算資源去做更多的思考。

題目要求則是使用pygame組件,設計一款遊戲,把俄羅斯方塊和寶石迷陣縫合在一起。

同時也提示程式碼可能會很長,需要儲存到一個檔案當中,並且要「insanely great」。


而Grok 3也不負眾望,把這兩款遊戲成功結合,並介紹了合體版遊戲的特色:


運作起來是醬嬸兒的,既有俄羅斯方塊的消除機制,又根據寶石迷陣的特徵調整成了三個方塊消除一次。


再來看跑分結果,在數學、科學和程式碼任務中,兩者都取得了不俗的成績。

並且如果讓他們「多思考」(長條圖上方淺色部分)之後,表現超越了DeepSeek-R1和高配版o3-mini


不過,目前很多模型都在Benchmark上出現了「過度擬合」的現象,那麼Grok 3的實際表現究竟咋樣呢?

研發團隊讓它們挑戰了今年AIME 2025競賽的試題,結果Grok-3 Reasoning Beta和mini Reasoning分別取得了93和90分的成績,力壓其他推理模型。


除了Grok 3預訓練模型和兩個推理模型之外,這次xAI團隊還發布了一個AI Agent,叫做DeepSearch


這個功能可以看做是xAI對OpenAI、Google等陸續推出的Deep Research功能的對標。

簡而言之,DeepSearch透過掃描網路和X來分析訊息,並提供摘要來回答問題。


至於權限方面,X的Premium+用戶今天起可以體驗Grok 3。

獨立APP上,則需要訂閱SuperGrok —— 30美元/月300美元/年

發布過程一波三折,語音模式延後上線

而縱觀Grok 3問世的整個過程,也可謂一波三折。

去年8月,馬斯克接受知名訪談部落客Lex Fridman採訪時曾說過,Grok 3在預計當年年底發布。

結果一直到今年1月19號,第一個測試實例終於被公佈,實際發布更是拖到了現在。


並且就在發布前的周末,xAI團隊還在緊急打磨Grok 3。


xAI員工也現身說法,週日晚間11:30 (北京時間週一下午3:30,也就是發布前不到24小時)發文表示還在熬夜趕工。


甚至到了發表會前一個半小時​​,馬斯克突然宣布原本打算發布的語音功能需要延長。

馬斯克發推稱,語音模式還有些不穩定,需要延後到一週之後。


現場QA環節也有網友提問特定發佈時間,團隊的回答是「很快會上線一個早期版本,然後逐步迭代」。

不過,同屬馬斯克旗下的Neuralink高層Shivon Zilis曾體驗過1小時的Ara,並在北京時間今早發布了她的體驗感受。

Shivon表示,那是她一生中最意外、最有意義的時刻之一。

她和Ara聊了生物學、量子糾纏等主題,也讓Ara出題檢驗她的學習效果。

結果Shivon只答對了一半的問題,但Ava非常耐心地向她解釋了其餘的問題,而且並不會嫌問題問得過於愚蠢。


當時還有人在留言區追問,Ara是語音版本嗎,Shivon給了肯定的答案。


尋求100億美元新融資,還要進軍遊戲

事實上,老馬選擇此時發布Grok 3難免有一點微妙。

就在上週五,彭博社爆料xAI正尋求一輪約100億美元的新融資,公司估值達到約750億美元(5,454.6億元)。

現有投資者包括紅杉資本、Andreessen Horowitz以及Valor Equity Partners,正在洽談參與此融資。

由於還沒有最終敲定,新模型的發布大機率將對本輪融資產生一定影響。


一旦上述消息得到確認,顯然xAI的融資速度實在有點驚人了。

去年12月底,這家公司才剛完成了一輪60億美元的C輪融資,當時公司估值510億美元。

短短不到兩個月,公司估值直接漲了約47%。而且再往前推,從B輪到C輪的融資,更是實現了半年內估值翻倍。

可以說,僅成立不到兩年的xAI,已經成長為OpenAI的強大對手。

而有了充足資金的xAI,除了繼續發展模型,也官宣了其他方向——

押注遊戲領域,成立AI遊戲工作室。


這項消息最快在去年11月老馬就透露了,當時他吐槽「過多遊戲工作室掌握在大型企業手中」。


這下,老馬的商業版圖又將擴展了。


One More Thing

就在Grok 3發布前幾日,還有一件非常抓馬的事引起熱議。

一位xAI工程師(現在是前員工了)公開貼文將Grok 3與其他幾個競品的程式碼能力進行了對比。

雖然清楚標註了這是個人觀點,但顯然他將自家模型Grok 3排在第4位(前三名都是OpenAI模型)的做法還是惹來了爭議。


隨後該名員工爆料稱,公司要求他要麼刪帖,要麼被解僱,理由是這條貼文揭露了Grok 3的存在。

一聽這話,小哥覺得有點扯,畢竟Grok 3大家早就知道了,而且還甩出了馬斯克之前的發言截圖。

面對著xAI的這波小心眼,小哥也直接不慣著,帶著一篇洋洋灑灑的小作文,決定辭職了。

我會保持我的言語和尊嚴,找另一份工作,或自己創業。回頭見。


對於這件事,老馬後來也回應了“這很奇怪”,但後續沒有更多動作傳出。


更戲劇化的是,由於對工資支付產生爭議,小哥後來再次公開帖艾特老馬:

請做正確的事。


不過,雖然已經“分手”,但參與了Grok 3語音模式的小哥還是不計前嫌,多次幫忙宣傳Grok 3。

而今天老馬宣布延期的語音模式,也是這位小哥所在團隊的工作成果,即便已經離職,小哥依然對這項工作感到自豪。


話說回來,你覺得這次的Grok 3如何?等到下一代GPT發布之後,老馬還能繼續領先嗎?(量子位元)