馬斯克突然「發射」Grok-2 !𝕏爆火AI生圖網友玩瘋,數學編碼追平GPT-4o

xAI連發兩款模型Grok-2和Grok-2 mini,相較上一代在編碼、數學、推理方面性能大漲,而且在LMSYS總榜上與GPT-4o不相上下。最讓人興奮的是,最強AI生圖Flux能力已經在𝕏上線了。



Grok-2測試版來的,讓人猝不及防。

剛剛,Xai官方丟出一篇博文,官宣Grok-2測試版正式發佈。

而且,一發就是兩彈——Grok-2 + 輕量級Grok-2 mini。



馬斯克稱,Grok進展的速度驚人,只能用坐上火箭來形容。



相較於上一代Grok-1.5,Grok-2取得了顯著的進步,在聊天、編碼、推理方面,再次刷新SOTA。

大模型競技場LMSYS上,Grok-2早期版本sus-column-r在總榜上位列第三,可與GPT-4o抗衡,碾壓Claude 3.5 Sonnet。



此外,Grok-2在「編碼」和「數學」榜單位列第2,Hard Prompts位列第4。



網友:馬斯克的Grok已經是榜上第五個GPT-4級模型了,保不齊最終版那天就超到了TOP 1

目前,Grok-2和Grok-2 mini均在𝕏上開啟了測試。本月底,兩個模型的API將會放出。

值得一提的是,X平台這次還融合了爆火的Flux AI生圖能力。



這一點,今早就有網友提前放出了預告。



就看Grok生成美女的能力,真有點TED演講者那味兒了。



下面這位網友用Luma和Grok 2.0結合後,大讚做出的視訊簡直就像電影截圖一樣。



Grok-2能力如何?

Grok-2其實早就在我們身邊了,只是沒有人得知。

如前所述,早期版本sus-column-r在LMSYS平台,接受了多種基準的評測。

在LLM排行榜中,Grok-2整體Elo評分(1281分),優於Claude 3.5和GPT-4。



就勝率來看,Grok-2遠遠領先DeepSeek V2、Claude 3 Opus,相較於指令微調版的Llama 3.1超大杯,勝率為58%。

與GPT-4o和GPT-4o mini幾乎打成平手。



在Xai內部,研究人員採用了類似的流程,以評估模型。

這裡,他們訓練了專門的AI系統——AI導師,在模擬Grok真實世界互動的任務中,與新模型進行互動。

每次互動中,AI導師會收到Grok生成的2個響應,並根據指南中列出的特定標準,選擇更優的響應。

實驗過程中,研究團隊重點評估了模型在兩個關鍵領域的能力:

一是遵循指令,二是提供精準、事實性的資訊。


結果發現,Grok-2利用檢索內容進行推理,以及工具使用方面,得到了大幅提升。

比如,它可以正確識別缺失資訊、推理事件的順序,甚至剔除無關的帖子。

可以看得出,就AI導師的偏好來看,Grok-2勝券在握。



接下來,具體看看Grok-2在不同基準上的表現吧。

性能評估

研究人員在一系列基準測試中評估了Grok-2,包括推理、閱讀理解、數學、科學、寫程式碼。

宏觀講,相較於之前的Grok-1.5模型,Grok-2和Grok-2 mini都得到了顯著的改進。

下圖中可以看出,Grok-2和Grok-2 mini在研究生等級科學知識(GPQA)、數學競賽問題(MATH),程式碼(HumanEval)領域,顯著提分10%-20%。

而且,另一個值得關注的現像是,Grok-2 mini是小參數版本的Grok-2。

但是,Grok-2 mini的性能絲毫不輸,幾乎接近大模型的性能,可見並沒有因為參數減少,而縮減模型的性能。



與前沿模型相比,Grok-2在編碼、數學、通用知識領域,與GPT-4o、Llama 3 405B有一定的差距,但結果非常接近。

它遠遠超過了GPT-4 Turno、Claude 3 Opus基準的性能。

另外,在視覺化任務中,比如視覺化數學推理(MathVista)和基於文件的問題回答(DocVQA)上,Grok-2表現出色。

令人驚喜的是,經典的「strawberry難題」,也被Grok 2.0一舉攻克。



在𝕏上的體驗

當然了,Grok模型的每次迭代,就是為了更好地服務𝕏。

經過幾個月的不斷改進,全面升級之後的Grok,也有了新的介面和功能。



所有的Premium和Premium+使用者,都可以訪問這次新推出的Grok-2和Grok-2 mini。

作為𝕏上最強的AI助手,Grok-2具備文字和視覺理解的高級能力,並整合了來自平台的即時資訊。

Grok-2 mini則是一個規模較小但功能強大的模型,提供了速度和質量之間的最佳平衡。

與前輩相比,Grok-2在廣泛的任務中更直觀、可控且多功能,無論是尋找答案、協作寫作還是解決程式設計任務。



最近FLUX的爆火,讓全網都見識到了這款文生圖模型的強勁實力。

如今,xAI正在與推出它的「Black Forest Labs」合作,嘗試利用FLUX.1來增強Grok在𝕏上的功能。

網友實測生圖

拿到測試資格的網友們,已經迫不及待地上手測試了。



生成喬治華盛頓這樣人物的圖片,果然FLUX最拿手。



在吃熱狗的馬斯克,有點兒不像本尊。



說到馬斯克,下面這個海盜版大家覺得如何?



還有角鬥士馬斯克,以及馬斯克在火星。



此外,也有網友生成了一張小扎拖著腮幫子眉頭緊鎖的照片。



這位網友表示,Grok 2.0的生圖功能比Llama要好,而且沒有「愚蠢的護欄」。



宮殿裡的豪車、美少女戰士、一座雕塑、魔法書院,Grok都拿捏了。



看得出來,這位網友主打的就是一個精緻。



加菲貓頭戴紅帽,附上「Make Mondays Great Again」,可見Grok在生成帶有字型的圖像時,也非常精緻。



和聊天一樣,Grok生圖還可以生成兩種不同模式的,簡言之兩種風格的圖像——趣味和常規。



網友分別測試了這兩種模式,趣味模式下Grok的自畫像,更像是一位故事中的聖者。



而常規模式下的自畫像,反倒有些搞笑了。

它竟把自己設想成了,(類似)一份惠靈頓牛排。



API即將上線

除了能夠在𝕏上體驗之外,Grok-2和Grok-2 mini還將在8月底正式上線企業API平台。

xAI表示,Grok-2的API將基於新的定製技術堆疊。

一方面是支援多區域推理部署,可以實現全球範圍的低延遲訪問。

另一方面是支援增強的安全功能,例如強制多因素認證(如使用Yubikey、Apple TouchID或TOTP),豐富的流量統計,以及高級計費分析(包括詳細的資料匯出)等等。

此外,xAI還提供了一個管理API,讓開發者和企業可以將團隊、使用者和計費管理整合到現有的內部工具和服務中。



接下來是什麼?

自從2023年11月Grok-1發佈以來,xAI一直在以驚人的速度發展。

現在的Grok-2和Grok-2 mini,已經具備了更強的搜尋能力和改進的回覆功能,並且可以對𝕏的帖子進行更深入的洞察。

不久之後,xAI還會𝕏和API上發佈Grok的另一個核心體驗——多模態理解預覽版。

隨著Grok-2的推出,xAI再一次站到了AI開發的前沿。並且,有了新叢集的加持,模型的推理能力也將得到進一步加強。 (新智元)