Anthropic稱DeepSeek未超越前沿，僅是訓練時間更晚：我們也可以用「500萬美元或廣告中宣傳的任何金額來訓練它」

2025/05/25

•

最近，Anthropic的研究員Trenton Bricken在接受Dwarkesh Patel採訪時，對DeepSeek的成就提出了一個頗具爭議性的觀點。

他聲稱：DeepSeek並沒有真正超越AI前沿，它只是訓練得更晚而已。

「我們也能用500萬美元訓練出來！」

Bricken在採訪中詳細解釋了他的觀點：

DeepSeek是在Claude 3 Sonnet發佈九個月之後才開始訓練的。如果我們今天重新訓練同樣的模型，或者和DeepSeek同時進行訓練工作，我們也可以用500萬美元或者廣告中宣傳的任何金額來訓練它。

他進一步強調：

令人印象深刻或者說令人驚訝的是，DeepSeek確實達到了前沿水平。但我認為仍然存在一個普遍的誤解，認為他們遠超前沿。我不認為這是對的，我覺得他們只是等待了時機，然後能夠利用所有其他人也在經歷的效率提升。

這番話的潛台詞很明顯：DeepSeek的成功更多是時機問題，而非技術突破。

對於Bricken的這番言論，網友們的反應可謂是極具嘲諷。

Roger Sterling(@rogersterling__) 回懟：

聽起來像一個失敗者的藉口

anku(@whoisanku) 更是直接地表示：

自我安慰

網友們的評論反映出了外界對Anthropic這種「事後諸葛亮」式解釋的質疑。

畢竟，如果真的這麼容易，為什麼Anthropic當時沒有去做呢？

怕使用者不願意付費了？

還是擔心投資人不打錢呢？

而就在這場爭議發酵的同時，DeepSeek的下一步動作也浮出水面。

根據最新消息，DeepSeek 或計畫在7月推出V4版本，R2 則可能在8月跟進，這比之前傳言的5月發佈時間有所推遲。

值得注意的是，DeepSeek一直保持著大約7個月的旗艦模型發佈節奏：

V1：2023年10月

這種規律性的發佈節奏顯示出DeepSeek團隊的戰略規劃能力和對市場時機的精準把握。

Bricken的觀點雖然有一定道理——技術確實在快速迭代，後發者可以享受到前人積累的效率提升——但這種說法也暴露出了一種微妙的心態。

過去兩年裡，模型訓練效率的提升確實令人驚嘆。 如Bricken所說，這些效率增益讓後來者能夠以更低的成本達到同樣的效果。

但問題在於：時機本身就是競爭力的一部分。

DeepSeek選擇利用有限的資源，在「正確的時間」進入，利用已有的技術積累和效率提升，這本身就是一種戰略智慧。

把這種成功歸結為「只是等待」，多少有些酸葡萄的味道。

真正的問題或許是：為什麼其他公司沒有在同樣的時機做出同樣的選擇？

隨著DeepSeek V4和R2的臨近發佈，這場關於「前沿」和「時機」的爭論註定還會繼續。

而市場最終會用腳投票，告訴我們什麼才是真正的技術實力和正確的戰略。 (AGI Hunt)