最近,Anthropic的研究員Trenton Bricken在接受Dwarkesh Patel採訪時,對DeepSeek的成就提出了一個頗具爭議性的觀點。
他聲稱:DeepSeek並沒有真正超越AI前沿,它只是訓練得更晚而已。
Bricken在採訪中詳細解釋了他的觀點:
DeepSeek是在Claude 3 Sonnet發佈九個月之後才開始訓練的。如果我們今天重新訓練同樣的模型,或者和DeepSeek同時進行訓練工作,我們也可以用500萬美元或者廣告中宣傳的任何金額來訓練它。
他進一步強調:
令人印象深刻或者說令人驚訝的是,DeepSeek確實達到了前沿水平。但我認為仍然存在一個普遍的誤解,認為他們遠超前沿。我不認為這是對的,我覺得他們只是等待了時機,然後能夠利用所有其他人也在經歷的效率提升。
這番話的潛台詞很明顯:DeepSeek的成功更多是時機問題,而非技術突破。
對於Bricken的這番言論,網友們的反應可謂是極具嘲諷。
Roger Sterling(@rogersterling__) 回懟:
聽起來像一個失敗者的藉口
anku(@whoisanku) 更是直接地表示:
自我安慰
網友們的評論反映出了外界對Anthropic這種「事後諸葛亮」式解釋的質疑。
畢竟,如果真的這麼容易,為什麼Anthropic當時沒有去做呢?
怕使用者不願意付費了?
還是擔心投資人不打錢呢?
而就在這場爭議發酵的同時,DeepSeek的下一步動作也浮出水面。
根據最新消息,DeepSeek 或計畫在7月推出V4版本,R2 則可能在8月跟進,這比之前傳言的5月發佈時間有所推遲。
值得注意的是,DeepSeek一直保持著大約7個月的旗艦模型發佈節奏:
V1:2023年10月
這種規律性的發佈節奏顯示出DeepSeek團隊的戰略規劃能力和對市場時機的精準把握。
Bricken的觀點雖然有一定道理——技術確實在快速迭代,後發者可以享受到前人積累的效率提升——但這種說法也暴露出了一種微妙的心態。
過去兩年裡,模型訓練效率的提升確實令人驚嘆。 如Bricken所說,這些效率增益讓後來者能夠以更低的成本達到同樣的效果。
但問題在於:時機本身就是競爭力的一部分。
DeepSeek選擇利用有限的資源,在「正確的時間」進入,利用已有的技術積累和效率提升,這本身就是一種戰略智慧。
把這種成功歸結為「只是等待」,多少有些酸葡萄的味道。
真正的問題或許是:為什麼其他公司沒有在同樣的時機做出同樣的選擇?
隨著DeepSeek V4和R2的臨近發佈,這場關於「前沿」和「時機」的爭論註定還會繼續。
而市場最終會用腳投票,告訴我們什麼才是真正的技術實力和正確的戰略。 (AGI Hunt)