DeepSeek利空算力?

其實具體邏輯,從12月deepseek v3到這周的r1,我們前前後後分析過很多次了,不妨總結梳理下

1. 海外廣泛引用的550萬美金是v3,而不是r1的訓練成本,且550萬隻是v3實際訓練成本的零頭。v3論文原話:上述成本僅包括DeepSeek-V3 的正式訓練,不包括與架構、演算法、資料相關的前期研究、消融實驗的成本。社群內一位演算法工程師就曾說“v3用了幻方自己的r1模型生成資料,這個部分的反覆嘗試要不要算在成本裡呢?”一個意思。

2. 前沿探索和後發追趕,所需要的算力本就不是一個量級。表現為訓練同一代模型所需算力每隔N個月就是指數級降低。原因包括演算法本身的進步(FP8、混合MoE)、算力的持續通縮、復現方法如蒸餾等對資料的濃縮。最關鍵的是,探索就意味著會有浪費,而後發追趕“站在巨人肩膀上”本就可以規避浪費。就比如o1的訓練成本肯定遠超GPT-4,幻方r1的訓練成本肯定也超過v3。而從o3到o4/o5,從r1到r2/r3,訓練算力只會更多。

3. 單次訓練降本了,不代表整體訓練成本會下降。訓練效率提高,實驗室就減少投入嗎?不會,真實邏輯是:基於更高效率,榨乾算力,去攫取更大收益。就拿幻方來說,infra最佳化降本能力這麼強、提前囤卡也挺多、沒怎麼擴張API服務專注於研究與訓練的情況下,依然還在缺卡。橫向對比之下,北美某些花了更多錢的實驗室,的確顯得很尷尬...但他們之後就降本增效嗎?不會。消化吸收幻方開放原始碼的方法+比幻方多得多的算力=攫取智能的更大提升。訓練算力最應該擔心的是撞牆,算力使用效率提高,反而可能是提高了模型本身的天花板。

4. 幻方代表的是整個開源相對閉源的一次勝利。對社區的貢獻會快速轉化為整個開源社區的繁榮。如果真的說利空的Loser,那可能是閉源模型。中國這一點已經提前經歷了,被Llama支配的恐懼,跑不過Llama3的中國閉源模型公司被迫倒閉、轉應用、轉開源。而今天中國開源打到了北美閉源...如果現在還不如r1(以及即將到來的r2 r3),那這家公司的API價值基本歸0。但說實話這個過程的確會讓模型訓練參與方快速縮減。

5. 最關鍵的,以上討論都是訓練,而未來顯然更大需求來自推理。有一點被大家忽略了,幻方對推理成本的消減,比訓練來的更為震撼。今天大家都看到了AMD宣佈支援幻方v3,用我們嘉賓Y博的話就是:DeepSeek架構的優雅之處就在於,和標準的transformer架構比較起來, 並沒有引入特殊的算子。理論上可以相對輕鬆支援各種類型卡...(這也是被GPU禁運逼出來的)大家體會下這句話的份量,以及對於CUDA的啟示...幻方這幫人都是手擼算子的天才...

推理成本降低,對算力是利多還是利空?比訓練更好理解。請對比:剛推出來貴到沒人用的o1,以及掀起API價格戰之後的豆包。推理成本的降低大機率會帶來應用的繁榮,反而會拉動更大的算力需求。

這裡再引用下星球Y博的評論,現在回頭看非常前瞻:DeepSeek-V3將支援私有部署和自主微調,為下游應用提供遠大於閉源模型時代的發展空間。未來一兩年,大機率將見證更豐富的推理晶片產品、更繁榮的LLM應用生態。

6. 如何平衡北美仍在瘋狂的基建,和過去浪費的投資?美國的確CSP仍在瘋狂搶電,都搶到2030年去了。其實各大CSP過去2年千億美金砸下去,沒有一家單純是為了訓練,基本都是自身業務需求+推理業務增長驅動。只有微軟為OpenAI準備的算力credit、AWS算力租賃給了下遊客戶用於訓練、Meta/xAI部分算力用於自身訓練,但算力大頭都是因為自身的推薦系統業務/自動駕駛業務本身需求。以及微軟已經相當於拒絕了Sam Altman繼續All in的訴求,轉而聚焦回報更確定的推理(Satya親口這麼說)。

因此幻方這件事對北美CSP來說,客觀來講,過去某些訓練投入的確是打水漂了。為冒險、探索新市場付出的必要成本。但看未來,開放原始碼的整體繁榮一定最終是利多這些“中間商”。之前我們闡述過,他們其實不是親自冒險的礦工,他們只是鏟子的搬運工,以及基於這些模型(無論開源or閉源)建立更具商業價值的應用生態。卡並不只是用於訓練,越來越大比例會挪到推理。假如訓練的高效讓模型更快進步,應用生態更加繁榮,他們怎麼可能不繼續投呢?

最後,繼續引用下《the bitter lesson》:長遠來看,算力才是真正的決勝因素。歷史的經驗一次又一次地告誡我們,AI研究者常常試圖將人類的知識灌輸到AI演算法中,這種做法在短期內通常有效,並且帶來個人成就感和虛榮心。但長遠來看,它會造成瓶頸,甚至阻礙進一步發展。最終的突破性進展往往源於一種截然不同的思路,即通過搜尋學習來擴展算力規模。而那些最終的成功往往伴隨著苦澀,難以被下嚥,因為算力的成功,意味著對我們以人類為中心的固有思維和虛榮心,是一記響亮的耳光。 (資訊平權)