馬斯克又又又跳票了!說好年底推出的“重大飛躍”的Grok 3,遲遲未現身!AI大廠集體啞火的“下一代模型”,再度驗證AI撞牆論!



有沒有人發現——馬斯克又又又又跳票了??

你說好“年底”發的Grok 3呢?不會是2025年年底吧

“Grok 3經過100k H100的訓練後,2024年底應該會非常特別。”馬斯克在7月的一篇X平台帖子中寫道,提到xAI在孟菲斯建立的龐大GPU叢集。



在12月15日的帖子表示,“Grok 3將是一次重大的飛躍”。



然而,今天都1月3日了,也沒有聽說即將發佈Grok 3的消息!

事實上,就算最近xAI有所動作,也只能期待一個折中版的2.5了。

根據推特AI博主Tibor Blaho的帖子,他在xAI網站上發現的某些程式碼表明,可能即將發佈中間模型“Grok 2.5”。



查看完整程式碼可移步:

https://archive.is/FlmBE


作為馬斯克和奧特曼的“打擂台”之作,Grok 系列確實是一個成功的攪局者。

也因此,馬斯克預告的Grok 3將帶來的“飛躍”,在目前稍顯冷清的大模型發佈中備受關注。

馬斯克本人在做客Fridman的播客中似乎預想到了Grok將會面臨的困難。

“你希望Grok 3是最先進的?”主持人問道。

“希望是這樣。”馬斯克回答。“我的意思是,這是目標。我們可能會失敗。但這就是我們的願景。”


01 AI牆的證明:大模型的下一代集體缺席

這不是馬斯克第一次“畫餅”沒有兌現。眾所周知,馬斯克關於產品發佈時機的聲明通常最多隻是理想化的目標。

被玩梗後,馬斯克自己都跳出來澄清,“對於基於時間的預測,我通常以 50% 的百分位數日期為目標,這意味著我的預測一半會遲到,一半會提前。”



但Grok 3的缺席卻有所不同,因為它是“AI撞牆”論調中不斷增加的證據之一。

去年,AI初創公司Anthropic未能按時推出其頂級Claude 3 Opus模型的繼任者。在宣佈下一代模型Claude 3.5 Opus將在2024年底發佈幾個月後,Anthropic將該模型的相關資訊從開發者文件中刪除了。(根據一份報告,Anthropic確實在去年完成了Claude 3.5 Opus的訓練,但決定發佈它並不符合經濟效益。)

據報導,Google和OpenAI最近幾個月也在其旗艦模型上遭遇了挫折。

這可能是當前AI Scaling Law“過時”的證據——即公司們正在採用的增加模型能力的方法似乎已經失靈。

在不久前,使用大量計算資源和更大規模的資料集來訓練模型,能夠獲得顯著的性能提升。但隨著每一代模型的推出,增益開始縮小,這促使公司們尋求替代技術。

Grok 3推遲的原因可能有其他方面。例如,xAI的團隊規模比許多競爭對手小得多。


02 變得冷清的模型圈:上一代旗艦模型的推出時間

在AI模型最瘋狂的成長期,幾乎每一天都能在AI報導的標題中看到“一夜變天”“新王登場”這樣的詞彙。

曾經有多熱鬧,現在就有多落寞。

過去的半年,雖然依舊有很多強大的模型推出,但旗艦模型的發佈節奏明顯變得遲緩了。

以下是一些AI科技巨頭,和他們的旗艦模型推出時間,能夠更直觀地感受到“下一代模型”的空缺已久:

OpenAI - GPT-4

發佈時間:2023年3月

Google DeepMind - Gemini 1.5

發佈時間:2024年2月

Anthropic - Claude 3.5

發佈時間:2024年6月

Meta-Llama 3.1

發佈時間:2024年7月

xAI - Grok 2

發佈時間:2024年8月

OpenAI-o1

發佈時間:2024年9月

許多觀點(包括OpenAI前首席研究官)認為o1其實就是“下一代模型”。該模型的計算能力是GPT-4的100倍。

然而,o1 能力增長來源於思維鏈的加持,而非傳統的Scaling Law。

由此可見,從去年下半年開始,大模型的發展似乎已經陷入了集體“啞火”的狀態,呈現出傳說中的那面無形的“牆”的輪廓。


03 另闢蹊徑,大模型要繞過那面牆

年底Ilya一句“預訓練走向終結”在AI圈掀起討論的狂潮。

觀之國內,AI大佬也紛紛尋找AI訓練的轉機與突破。

其中,月之暗面的創始人楊植麟是對預訓練仍抱有樂觀的少數派。在Kimi數學模型發佈的時候,他說自己“對Scaling Law仍然樂觀,認為預訓練模型還有半代到一代的提升空間,這個空間大機率會由頭部大模型在明年釋放出來。”

但他也依然承認,Scaling Law的範式有所變化:“做Post-train(後訓練)也要Scaling,只是說你Scaling的起點很低。可能很長一段時間,你的算力就不會是瓶頸,這個時候創新能力是更重要的。”

在媒體報導中,上海人工智慧實驗室主任助理、領軍科學家喬宇同樣表示“並不是說Scaling  Law要被拋棄了,而是應該尋找新的Scaling  Law維度,很多難題並不能單純靠擴大模型規模、資料、算力解決,我們需要更豐富的模型架構和更高效的學習方法,同時也希望在AGI發展過程中,能有來自中國的核心貢獻,找到與中國資源稟賦更加匹配的、自主的技術路線”。

階躍星辰首席科學家張祥雨則更“激進”一些,他直白表示,他對兆以上參數大模型的能力提升,並不絕對樂觀。他說“根據我們的觀察,隨著大模型規模的不斷擴大,歸納相關的能力快速提升,而且可能會繼續遵循Scaling Law,但其演繹能力,包括數學和推理方面的能力,隨著模型Side進一步提升,不僅沒有增長,反而在下降。” (51CTO技術堆疊)