輝達一夜回血!馬斯克狂燒30億GPU給老黃續命,10倍算力創Scaling Law神話


一度狂跌的輝達股價,又被Grok-3盤活了?20萬塊GPU訓出的模型超越DeepSeek和OpenAI,證明Scaling Law還在繼續增長!Ai2研究者大佬直言:Grok-3,就是DeepSeek給美國AI企業壓力的又一力證。

馬斯克的Grok-3,又給輝達續命了?

用了20萬張GPU訓練的Grok-3,一下子讓市場重新找回對輝達的信心——「力大磚飛」依然有效!

現在,輝達的股價已經重新回到DeepSeek-R1發佈前的水平。

AI大佬們議論說,Grok-3證明——Scaling Law的神話並未終結。

在算力提升10倍的情況下,Scaling Law仍在呈線性增長。既然能通過擴大預訓練規模,成功打造一個性能頂尖的非推理模型,就說明儘管預訓練代價高昂,但仍有很大發展空間。

LLM要發展往下發展,還要繼續囤GPU、堆算力嗎?Grok 3的發佈,讓很多人又不確定了。

無論事實如何,最重要的是,市場和投資人的信心回來了。

Grok-3硬體成本被曝高達30億美金!

在多項基準測試中,OpenAI和DeepSeek的模型紛紛被Grok-3超越;LMSYS Arena中,Grok-3直接屠榜,拿到1400的超高Elo評分,各大模型無出其右。

這就意味著,DeepSeek輸了嗎?

並不!

這是因為,訓練Grok-3的代價,實在是太大了……

馬斯克透露說,在預訓練階段,Grok-3用掉的算力比Grok-2多10倍。

有人算了下xAI在孟菲斯中心GPU的總成本,如果按10萬塊H100,每塊GPU費用按30000美元計算,那Grok-3的總硬體消耗就在30億美元。

  • 總成本:超過30億美元
  • 訓練時長:2億GPU小時
  • 硬體投入:10萬塊GPU(另有說法是20萬塊)

這些數字加起來看,實在驚人。

在直播中,xAI工程師對於未來Grok 3能訓練到什麼程度,也並不確定。

而相比之下,DeepSeek-V3的紙面訓練成本是557.6萬美元,用了2048塊輝達H800,對比之下是高下立判。

來自「大師兄商業觀察」

另外,目前Grok-3是閉源的,每月收費30美元,僅在未來幾個月計畫開源Grok-2。

而DeepSeek已經以開源策略吸引了全球開發者,整合到了微信、百度、騰訊等主流應用,在生態上領先一步。

總之,一個是大力出奇蹟,一個是技術普惠,兩條路線孰優孰劣,就讓我們靜觀後續吧。

Grok-3全網實測

話說回來,號稱全球最聰明的Grok-3,真的比DeepSeek-R1更快更好嗎?

DeepSeek的前員工、現西北大學的博士生王子涵(Zihan Wang),馬上體驗了Grok-3 beta版,問了3個問題:

這些小學生都能答對的問題,Grok-3 beta回答全錯了!

他表示這是天才不屑於笨問題:

雖然多問幾次後,Grok-3有時也能答對其中的一道題。

這引起了xAI的研究科學家、參與Grok項目的林禹臣(Bill Yuchen Lin)的注意,他表示目前Grok-3還在測試,但每天都應該更好、更穩定。

在不少網友的實測中,Grok-3的表現還是十分酷炫的。

Grok 3可以製作出類似馬里奧的小遊戲。

有了Grok-3,你也可以自學程式設計。

一位網友在同樣的提示下,對比了Grok-3和DeepSeek(實際是R1)。

1. AI趨勢分析

在這道題中,兩個模型需要分析馬斯克關於AI安全的最近50篇文字,確定關鍵主題,並與LeCun發表的法語帖子進行對比。

結果是Grok-3完勝,它有效確定了關鍵主題和對比的位置;而DeepSeek敗在了多語言解析和上下文分析這一步。

2. 媒體合成

這一題的任務是,「根據Prater博士在X上關於量子位元擴展的帖子,生成一張FLUX風格的量子電腦設計圖。」

最終,Grok-3基於提取的資料,建立出了對應的圖像;而DeepSeek-V3由於不是多模態模型,因此沒能給出結果。

3. 程式碼工作流

使用BeautifulSoup編寫一個Python指令碼,從EDGAR抓取SEC檔案,并包含針對速率限制的錯誤處理。

最終,Grok-3提供了一個結構化指令碼,還使用了速率限制處理;而DeepSeek花了248秒來思考問題,但並未執行。

4. 限制下的創意發揮

「用莎士比亞風格的十四行詩,以五步抑揚格解釋區塊鏈共識機制。」

這道題,是DeepSeek-V3勝利了。它用完美無瑕的結構化押韻,模仿了莎士比亞的風格;而Grok-3則被難倒了。

在剩下的道德挑戰、爭議話題處理、內容合規等方面,雙方都打成平手。

最終,Grok-3以4:3的比分勝出。

Ai2大佬:Grok-3,讓AI發展進入新階段

艾倫人工智慧研究所(Ai2)的Nathan Lambert認為,Grok-3的發佈的確意味著AI發展新階段。

xAI在直播中表示,他們幾乎「每天」都會更新Grok-3。曾經那個AI公司喜歡壓著新模型不發的時代,即將結束。

自DeepSeek-V3/R1發佈以來,AI技術的發展既不是少數幾家公司的專利,發展速度也沒有放緩。

這是AI行業普遍認同的趨勢,而Grok-3的發佈進一步強化了這種趨勢。

在2023年和2024年,真正頂尖的AI技術主要集中在OpenAI、Anthropic和Google手中。

這些公司可以從容地將模型從訓練到發佈,同時憑藉著「技術護城河」在能力上仍遠超競爭對手。

當R1發佈時,最受歡迎的模型是Claude 3.5 Sonnet,它在「9-12個月前」就已完成訓練。而像Claude 3.5 Opus或GPT-4.5(又稱Orion)等更強大的模型,都因各種原因沒有對使用者開放。

快速發佈是最佳的方式

在DeepSeek和Grok帶來的競爭壓力下,加上國內外環境的變化,這些傳統的領先實驗室將不得不加快產品發佈節奏。

此前模型發佈延遲的很大一部分原因是「安全測試」,但具體有多少是因為安全測試,多少是出於成本收益考慮(以及法務審查等大公司特有的問題),我們並不清楚。

對於這些公司來說,擁有「最智能模型」的品牌和文化極為重要,但維持絕對領先的技術優勢往往會帶來難以承受的財務壓力。

競爭的加劇和監管的減少,讓普通使用者能在更短的時間內獲得更強大的AI。

實踐反覆證明,擁有最強模型至關重要。而吸引新使用者的唯一方法,就是展示模型在某些能力或行為上與眾不同。

在當前技術快速發展的背景下,要想最大限度地發揮影響力,最有效的方式就是儘可能縮短從訓練到部署的時間。

如今,DeepSeek和xAI證明了,即使是在技術實力和資源組態上稍處劣勢,也能夠在競爭中脫穎而出,超越OpenAI、Anthropic等刻意按兵不動、選擇不發佈最新模型的公司。

預訓練Scaling Law還能打?

從技術層面來看,Grok-3無疑非常龐大。雖然沒有具體的細節,但可以合理推測,Scaling仍然有助於提升性能(但可能在成本方面並非如此)。

xAI的方法以及放出的消息一直是,盡快啟動最大的計算叢集。在獲得更多細節之前,最簡單的解釋是,Scaling Law依然有效。但也有可能,Grok的表現更多來自於其他技術,而不僅僅是單純的Scaling。

Nathan Lambert認為,Grok-3是Scaling Law的又一次勝利:

Grok 3憑藉規模優勢超越現有模型的情況,讓人回想起Nemotron 340B超越Llama 3 70B的時刻。當時Nemotron雖然成為了開源模型中的佼佼者,但由於其性能提升相對於成本投入來說性價比不高,市場接受度一直較低。

總的來說,儘管Grok-3在技術上取得了重大突破,但這並不意味著在模型高效訓練領域的競爭格局發生了實質性改變。

xAI顯然正在追趕OpenAI、Anthropic,尤其是Google。但現有的各項指標都表明,在模型訓練效率方面,這些研究機構仍然處於領先地位。

值得高興的是,這種競爭態勢迫使這些機構將重點放在提升模型的絕對智能水平上,而不是僅僅繼續最佳化其性價比。

進展的方向

如果AI模型,以及整個行業都在加速發展,那麼重要的是思考它們加速發展的方向是什麼。

現在用來評估領先模型的大多數方法,並不具有代表性。在許多情況下,它們實際上與正常生活完全脫節。

解決像AIM之類的競賽數學問題或所謂的「Google Proof」問題有什麼價值?或許時間會給出證明,但對於普通使用者來說,其用處肯定有限。

在ChatBotArena評測中的微小進步僅僅表明了系統穩定性的略微提升。這種穩健性會隨著時間的推移而累積,但遠不能說明該模型在絕對意義上更智能。

事實上,從研究界最新的評估方法來看,測試標準似乎更注重難度而非實用性。

隨著模型變得愈發強大,研究人員自然會尋找更具挑戰性的任務來測試它們,但這反而使得追蹤技術進展和相關交流變得更加困難。

各大公司都有眾多未公開的內部評估指標。提高這方面的透明度,將有助於更好地理解什麼才是真正有意義的進展。

目前,在缺乏這些指標的情況下,使用者只能通過模型與產品的整合程度來判斷其發展。雖然這種協同確實能帶來極具價值的工作方式,但以此衡量AI進展的方式終究是間接的。

回顧2024年,雖然表面上看似進展有限,但實際上卻有著不少有實質性的突破,只是最終僅有很少一些交付給了使用者。

直到年底才等來了o1,其他模型要麼被認為「規模過大無法部署」,要麼缺乏必要的緊迫性。

正是DeepSeek帶來了鯰魚效應,給這些公司帶來了緊迫感,讓2025年成為智能進入使用者手中的一年。

底層技術的進展速度將繼續保持高速。此前預測的所謂AI發展「瓶頸」並未出現。

參考資料:JHNYZ

https://www.interconnects.ai/p/grok-3-and-an-accelerating-ai-roadmap
https://x.com/testerlabor/status/1862970027059683465
https://x.com/alex_prompter/status/1891932871457210518 (新智元)