上午第一時間發在星球:
大家更關心的事情,下一個是什麼?其實參考這次的FlashMLA,猜測方向大概就是過去已發表論文中的程式碼實現。不複雜,核心思想大概就是:“論文你們都學不會,ok,程式碼直接扔你們...”
V3/r1中的招太多了,MTP多token預測、混合精度FP8訓練、Dualpipe雙重流水線訓練、Long CoT長思維鏈、還有一些底層通訊算子的最佳化。這些原始“手稿”或程式碼,可能就是後面4天的內容之一。
轉頭一想,這分明是為輝達GPU、CUDA庫繼續增添成功實踐範本......進一步鞏固和加強了N卡壁壘。這不就是人盡皆知的所謂“CUDA護城河”的完美案例嗎?
問了幾位身在或非常瞭解DS團隊的老師,情況的確如此:“DeepSeek目前非常依賴N卡或GPGPU” 。現在看當5天repo發佈結束,可能不是DS繞過了N卡,而是把N卡用到了極致,玩出了花...
最近國內AI的崛起,引發了一系列“戰狼情節”,比如對DS完全繞過輝達實現國產AI完全自主可控的期待blabla。但實際情況是,DS非常純粹,目標只有AGI,並不是要為國產卡做多大貢獻,也不是為了打掉輝達多少市值。從務實角度看,DS缺人,也缺時間,輝達GPU依然是目前最省力、省時間、省資源的方案。
當然國產卡的進步已經非常快,昇騰910實現了國產卡訓練,已經是巨大突破(AMD都沒做到的事情,華為做到了)。而昇騰與矽基流動合作成功實踐了DS r1的推理,最佳化後性能已經能與hopper看齊。後面4天中,說不定也有非N卡相關的實踐。看國內AI capex邊際增量最大也是國產算力。但從務實的角度,無論對於DeepSeek還是我們的雲廠、infra、應用廠商來說,算力卡只是工具,不是目的,目的是基於工具撬動和轉化出更大商業價值。對算力卡的要求,無非是保證穩定供給、性價比、易用性、可得性等綜合因素上的平衡。國內角度、更務實的操作,肯定是能進口多少進口多少,買不到就上備選方案...
DS目標是AGI,還真不是做空輝達 (資訊平權)