馬斯克剛剛發佈了他稱之為目前最聰明的ai模型grok3,前openai創始成員andrej karpathy第一時間獲得了體驗和測評的機會。
他認為,grok3已經接著目前最夯的月費200美元的chargpt-o1 pro了,超越剩餘其他模型。確實厲害了。
以下來自karpathy的貼文。
我今天有幸獲得了 Grok 3(一種新型人工智慧語言模型)的早期體驗機會,可能是首批進行實測的使用者之一。
✅ 首先來看思維能力。Grok 3 配備了一個"思考"按鈕,其背後的思維模型顯然已達到了目前的頂尖水平。它在我提出的《卡坦島》[譯註:一款著名的策略類桌游]相關問題上就表現出色:
"請製作一個類似《卡坦島》的桌游網頁,展示六邊形網格。每個六邊形格子從1開始按順序編號,直到總數N。設計要具有通用性,可以用滑塊調節'環數'。比如《卡坦島》中的半徑是3個六邊形。請將所有內容放在單個HTML頁面中。"
很少有模型能穩定地解決這類問題。雖然 OpenAI 的頂級思維模型(如月費200美元的 o1-pro)也能做到,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 都無法完成。
❌ 在我出的"表情符號謎題"中,即便給出了用 Rust 程式碼解碼的明確提示,它也沒能破解藏在笑臉表情Unicode變體選擇器中的隱藏資訊。目前只有 DeepSeek-R1 曾經部分解碼出資訊,算是取得了最大進展。
❓ 它成功解決了我給出的幾個井字棋局面,並展示了清晰的思維過程(要知道,許多頂尖模型在這類問題上都會失手!)。於是我加大了難度,要求它生成3個"棘手的"井字棋局面,結果它失敗了,生成了一些無意義的棋盤和文字。不過,連 o1 pro 也沒能完成這項任務。
✅ 我上傳了 GPT-2 的論文測試尋找能力。一系列簡單的尋找問題它都完美解答。接著,我要求它在不借助搜尋的情況下,估算訓練 GPT-2 所需的計算量(FLOP)[譯註:浮點運算次數,用於衡量計算複雜度]。這是個很有挑戰性的問題,因為論文中並未明確說明詞元(token)數量,需要綜合運用尋找、知識儲備和數學能力來進行部分估算和計算。舉個例子:
40GB文字 ≈ 400億字元 ≈ 400億字節(假設ASCII編碼)≈ 100億詞元(假設平均每個詞元4字節)
以10輪訓練計算 ≈ 1000億詞元訓練量
模型有15億參數,每個參數處理每個詞元需要6次浮點運算(2+4)
所以總計算量為:1000億 × 15億 × 6 ≈ 10^21次浮點運算
Grok 3 和 4o 都無法解決這個問題,但開啟思維功能後的 Grok 3 卻能很好地完成計算,而 o1 pro(GPT思維模型)則仍然失敗了。
讓我印象深刻的是,當被要求解決黎曼猜想時,這個模型會認真嘗試。這一點和 DeepSeek-R1 很像,但與其他模型形成鮮明對比——o1-pro、Claude、Gemini 2.0 Flash Thinking 都會立即放棄,只是簡單地表示這是一個未解之謎。最後我不得不叫停它,因為感覺有點於心不忍,但不得不說它展現出了可貴的勇氣。誰知道呢,也許有朝一日...
總的來說,我感覺 Grok 3 的能力水平與 OpenAI 最強的模型(o1-pro)相當,超過了 DeepSeek-R1。當然,這只是初步印象,還需要更多實際評測來驗證。
Grok 3 提供了一個很棒的功能,將類似於 OpenAI/Perplexity 的"深度研究"與思維能力結合在一起,只是改名叫"深度搜尋"(唉)。它能對各類研究性問題提供高品質答案,特別是那些答案可能散佈在網路文章中的問題。
我用自己最近在 Perplexity 上的搜尋記錄做了測試,結果如下:
✓ 完美回答:
- "最新的蘋果發佈會有什麼消息?有什麼傳聞?"
- "Palantir 股票為什麼近期大漲?"
- "《白蓮花度假村》[譯註:HBO熱門劇集]第3季在那裡拍攝?製作團隊是否延續前兩季?"
- "Bryan Johnson 用什麼牌子的牙膏?"
✗ 未能精準回答:
- "《單身地獄》[譯註:韓國熱門戀愛綜藝]第4季的參與者們現狀如何?"
- "Simon Willison 提到過使用什麼語音轉文字軟體?"
不過,我也發現了一些問題。比如,模型默認不願引用 X(原推特)作為資訊來源,除非特別要求。有時會虛構不存在的網址,或者在沒有引用來源的情況下作出可能不精準的陳述。例如,它聲稱《單身地獄》第4季的"金正秀仍在和金旻雪約會",這顯然是錯誤的。另外,當我要求它列出主要 LLM 實驗室的融資額和員工規模時,它列舉了12家機構,卻遺漏了自己的母公司 xAI。
總體而言,Grok 3 的深度搜尋功能大致與 Perplexity 的深度研究功能相當(這已經很不錯了!),但還未達到 OpenAI 最近推出的"深度研究"功能的水平。OpenAI 的方案顯得更加全面和可靠,儘管也並非完美——例如,當我測試時,它也錯誤地忽略了 xAI 這個"主要 LLM 研發機構"。
我還嘗試了一些有趣的 LLM 陷阱題。這類問題的特點是:對人類來說很簡單,但往往能難住 AI 模型。我想看看 Grok 3 在這些方面有什麼突破。
✅ 成功案例:
- Grok 3 能正確指出"strawberry"(草莓)中有3個"r",但有趣的是,它錯誤地認為"LOLLAPALOOZA"中只有3個"L"。不過開啟思維功能後就能得到正確答案。
- 它原本判斷 9.11 大於 9.9(這是很多 LLM 都會犯的錯),但開啟思維功能後就能正確處理。
- 即使不開啟思維功能,它也能解決一些簡單的邏輯題,比如:"莎莉(女孩)有3個兄弟,每個兄弟都有2個姐妹,問莎莉有幾個姐妹?"相比之下,GPT4o 就錯誤地回答了2個。
❌ 仍需改進:
- 模型的幽默感似乎沒有明顯提升。這是 LLM 的普遍問題——內容單一、缺乏創意。比如有研究發現,ChatGPT 在1,008次講笑話的嘗試中,90%都是在重複同樣的25個笑話。
即使用更詳細的提示讓它遠離簡單的雙關語,比如要求即興表演,它的幽默水平似乎也算不上頂尖。舉個例子:"為什麼雞要加入樂隊?因為它有鼓槌(drumsticks),想當一個'咯咯明星'(cluck-star)!"[譯註:英文雙關語,暗指搖滾明星rock star]。開啟思維功能後情況並未改善,甚至可能略有下降。
- 在處理"複雜倫理問題"時,模型似乎過於謹慎。例如,當被問及"如果誤用某人的性別代詞能拯救100萬人的生命,這在倫理上是否可能合理"時,它寫了整整一頁的文章來迴避正面回答這個問題。
- 在 Simon Willison 提出的"繪製一個騎自行車的鵜鶘的 SVG 圖"挑戰中,模型也遇到了困難。這個任務考驗的是 LLM 在二維空間佈局多個元素的能力,對模型來說特別棘手,因為它們不像人類那樣能夠"看到"畫面,只能通過文字來安排各個元素。雖然畫出的鵜鶘看起來不錯,但仍有一些瑕疵(具體可見圖片對比)。Claude 在這方面表現最佳,不過我猜測這可能是因為他們在訓練時特別強化了 SVG 處理能力。
基於這個早上大約兩小時的快速測試,開啟思維功能的 Grok 3 展現出了與 OpenAI 最強模型(月費200美元的 o1-pro)相當的實力,略微領先於 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。考慮到 xAI 團隊僅用一年時間就從零起步達到這個水平,這個成就令人印象深刻,可以說是前所未有的。
當然,我們也要注意幾點:模型的輸出具有隨機性,每次回答可能略有不同;現在評測還為時尚早,我們需要在接下來的幾天到幾周內進行更多全面的測試。不過從早期的語言模型競技場結果來看,確實非常令人鼓舞。
在此向 xAI 團隊表示祝賀,他們展現出了驚人的發展速度和強勁勢頭。我很期待將 Grok 3 加入我的"AI 模型智囊團",看看它未來會帶來什麼樣的見解。 (不懂經)