Anthropic稱DeepSeek未超越前沿,僅是訓練時間更晚:我們也可以用「500萬美元或廣告中宣傳的任何金額來訓練它」

最近,Anthropic的研究員Trenton Bricken在接受Dwarkesh Patel採訪時,對DeepSeek的成就提出了一個頗具爭議性的觀點。

他聲稱:DeepSeek並沒有真正超越AI前沿,它只是訓練得更晚而已。

「我們也能用500萬美元訓練出來!」

Bricken在採訪中詳細解釋了他的觀點:

DeepSeek是在Claude 3 Sonnet發佈九個月之後才開始訓練的。如果我們今天重新訓練同樣的模型,或者和DeepSeek同時進行訓練工作,我們也可以用500萬美元或者廣告中宣傳的任何金額來訓練它。

他進一步強調:

令人印象深刻或者說令人驚訝的是,DeepSeek確實達到了前沿水平。但我認為仍然存在一個普遍的誤解,認為他們遠超前沿。我不認為這是對的,我覺得他們只是等待了時機,然後能夠利用所有其他人也在經歷的效率提升。

這番話的潛台詞很明顯:DeepSeek的成功更多是時機問題,而非技術突破。

網友:「聽起來像失敗者的藉口」

對於Bricken的這番言論,網友們的反應可謂是極具嘲諷。

Roger Sterling(@rogersterling__) 回懟:

聽起來像一個失敗者的藉口

anku(@whoisanku) 更是直接地表示:

自我安慰

網友們的評論反映出了外界對Anthropic這種「事後諸葛亮」式解釋的質疑。

畢竟,如果真的這麼容易,為什麼Anthropic當時沒有去做呢?

怕使用者不願意付費了?

還是擔心投資人不打錢呢?

DeepSeek的發佈節奏

而就在這場爭議發酵的同時,DeepSeek的下一步動作也浮出水面。

根據最新消息,DeepSeek 或計畫在7月推出V4版本,R2 則可能在8月跟進,這比之前傳言的5月發佈時間有所推遲。

值得注意的是,DeepSeek一直保持著大約7個月的旗艦模型發佈節奏

V1:2023年10月

  • V2:2024年5月
  • V3:2024年12月
  • V4:預計2025年7月

這種規律性的發佈節奏顯示出DeepSeek團隊的戰略規劃能力和對市場時機的精準把握。

誰在「等待時機」?

Bricken的觀點雖然有一定道理——技術確實在快速迭代,後發者可以享受到前人積累的效率提升——但這種說法也暴露出了一種微妙的心態。

過去兩年裡,模型訓練效率的提升確實令人驚嘆。 如Bricken所說,這些效率增益讓後來者能夠以更低的成本達到同樣的效果。

但問題在於:時機本身就是競爭力的一部分。

DeepSeek選擇利用有限的資源,在「正確的時間」進入,利用已有的技術積累和效率提升,這本身就是一種戰略智慧。

把這種成功歸結為「只是等待」,多少有些酸葡萄的味道。

真正的問題或許是:為什麼其他公司沒有在同樣的時機做出同樣的選擇?

隨著DeepSeek V4和R2的臨近發佈,這場關於「前沿」和「時機」的爭論註定還會繼續。

而市場最終會用腳投票,告訴我們什麼才是真正的技術實力和正確的戰略。 (AGI Hunt)