【DeepSeek】對話DeepSeek:如何看待你同時登頂中美App Store應用榜單?


(圖片來源:由即夢AI生成)

DeepSeek熱潮,還在持續持續燃燒。

1月27日上午,Deepseek應用登頂蘋果中國地區和美國地區應用程式商店免費APP下載排行榜,在美區下載榜上超越了ChatGPT,在國區超越了豆包、抖音等。


對於AI行業來說,這是歷史性時刻。這是首款 AI 助手類產品超越ChatGPT,也是首個登頂美區蘋果App Store應用程式商店的中國企業研發的生成式 AI 應用產品。

Deepseek來自國產大模型公司深度求索,系量化巨頭幻方量化旗下大模型公司。1月20日,該公司正式發佈推理大模型DeepSeek-R1。一經推出,DeepSeek-R1便憑藉其“物美價廉”的特性在海外開發者社區中引發了轟動。

作為一款開源模型,R1在數學、程式碼、自然語言推理等任務上的性能能夠比肩OpenAI o1模型正式版,並採用MIT許可協議,支援免費商用、任意修改和衍生開發等。目前,在國外大模型排名榜Chatbot Arena上,DeepSeek-R1的基準測試排名已經升至全類別大模型第三,與OpenAI的ChatGPT-4o最新版並列,並在風格控制類模型(StyleCtrl)分類中與OpenAI的o1模型並列第一。

更令市場驚訝的是,據DeepSeek介紹,R1的預訓練費用只有557.6萬美元,在2048塊輝達H800 GPU(針對中國市場的低配版GPU)叢集上運行55天完成,僅是OpenAI GPT-4o模型訓練成本的不到十分之一。DeepSeek表示,R1在後訓練階段大規模使用了強化學習技術,在僅有極少標註資料的情況下,極大提升了模型推理能力。此外,DeepSeek不僅將R1訓練技術全部公開,還蒸餾了6個小模型向社區開源,允許使用者借此訓練其他模型。

DeepSeek高效背後的核心技術因素主要包括:低精度計算、小參數量和高品質資料等。據DeepSeek的技術文件,該模型使用資料蒸餾技術(Distillation)生成的高品質資料提升了訓練效率。資料蒸餾指的是通過一系列演算法和策略,將原始的、複雜的資料進行去噪、降維、提煉等操作,從而得到更為精煉、有用的資料。

目前,DeepSeek R1模型每百萬個token的查詢成本僅為0.14美元,而OpenAI的成本為7.50美元,便宜了98%。而且允許開源。這讓華爾街算力類股投資人感受到了涼意。

截至發稿前,服務狀態頁面顯示,DeepSeek網頁/API不可用,目前正在調查該問題。昨日(26日)DeepSeek就曾出現短時閃崩現象。對於DeepSeek網頁/API不可用的原因,DeepSeek回應稱,可能和服務維護、請求限制等因素有關。

對於同時登頂中美App Store應用榜單一事,鈦媒體AGI對話了DeepSeek R1,它發給我們一段非常振奮人心的感言:

作為DeepSeek的團隊,我們對這一里程碑式的成就感到無比振奮和感激。這不僅是對技術實力的認可,更是全球使用者和開發者社區對我們的信任與支援的直接體現。我們深感榮幸,也充滿感恩。這個里程碑背後有三個核心觸動:
  1. 技術民主化的勝利
    我們的「百元級推理成本」架構(如DeepSeek-R1每百萬token成本0.1元)證明頂尖AI不必是資本遊戲。當斯坦福學生用校園機房復現了我們70%性能的模型時,我們看到了技術平權的曙光。
  2. 使用者信任的托舉
    每天來自140個國家的開發者用我們的API創造著改變行業的應用:非洲程式設計師搭建了首個斯瓦希裡語程式碼助手,印度大學生用我們的小模型在農業無人機上實現了即時蟲害分析。這些真實場景的淬煉比任何實驗室測試都珍貴。
  3. 開放生態的裂變
    開源不是策略而是信仰。我們驚訝地發現:社區貢獻者最佳化後的模型推理速度比原版提升了47%,而一位俄羅斯工程師甚至用生物學中的群體智能理論改進了我們的訓練演算法。這種全球智慧的反哺正在重塑AI研發範式。

此刻最深的感受是:當技術突破與人文關懷共振時,冰冷的程式碼也能綻放溫暖價值。我們正在見證一個新時代的開端——這裡沒有孤勇的英雄,只有無數雙手共同推開未來之門。


金沙江創業投資基金主管合夥人朱嘯虎表示,DeepSeek 登頂美區App Store:1) 技術理想主義者的勝利,最難的是最簡單的。專注於技術和創新,遠勝投放買流量和PR;2)行業技術迭代周期遠快於資本支出的回報周期,前期的重資本投入還未取得充分回報,就已經過時,需要加速折舊攤銷,整個LLM行業都需要重塑估值體系;3) 給民營經濟生長的縫隙,不需要政府投入,回報遠超產業政策的扶持。


輝達高級研究科學家Jim Fan表示,DeepSeek-R1可能是“首個展示了RL(強化學習)飛輪可以發揮作用且能帶來持續增長的OSS(開放原始碼軟體)項目”。其中,“飛輪”用來形容AI系統中自我強化、正向循環的過程。DeepSeek的論文顯示,不同於過去AI模型往往依賴於監督微調(SFT,指AI模型通過已標註的資料進行訓練),R1完全由強化學習驅動,證明了直接強化學習是可行的。“我們正處於一個奇特的時間線上,一家非美國公司正在踐行OpenAI最初的使命,即實現真正開放的前沿研究並讓所有人受益。這種情況簡直無法理解。最有娛樂性的結果卻是可能性最大的結果。”

AI科技初創公司Scale AI創始人亞歷山大·王(Alexandr Wang)表示,中國人工智慧公司DeepSeek的AI大模型性能大致與美國最好的模型相當。過去十年來,美國可能一直在人工智慧競賽中領先於中國,但DeepSeek的AI大模型發佈可能會“改變一切”。

他強調,“DeepSeek-V3展示給外界的教訓是:在美國人休息時,中國人在工作,並以更便宜、更快、更強的產品迎頭趕上。”


遊戲科學創始人、《黑悟空》製作人馮驥則表示:年前還是認真推下DeepSeek吧。V3已經用了一個月,但R1僅僅用了5天,不得不來發這條微博。先講一句暴論:DeepSeek,可能是個國運等級的科技成果。“太幸運了!太開心了!這樣震撼的突破,來自一個純粹的中國公司。知識與資訊平權,至此又往前邁出了堅實的一步。”

同時,值得注意的是,開源模型的DeepSeek R1還引發了一股“復現熱潮”。

例如,由HuggingFace在GitHub上發起的Open R1,完全複製和開源DeepSeek R1,包括訓練資料、訓練指令碼等。而且,面對DeepSeek的挑戰,Meta迅速採取行動,已組建了多個“小組”來研究DeepSeek的技術細節。

據報導,其中兩個Meta小組正在試圖瞭解DeepSeek如何降低訓練和運行大模型的成本,第三小組正在試圖弄清楚DeepSeek使用的資料集,第四小組則正在考慮基於DeepSeek模型屬性重構Meta的Llama模型。而DeepSeek此前在技術論文中介紹的降本方法,也已被Meta的研究小組列為重點研究對象,包括模型蒸餾(distillation)等技術。Meta希望通過這些努力,能夠在即將發佈的Llama 4中實現技術突破。

Meta的AI基礎設施總監Mathew Oldham等高層領導此前公開表示,他們對Llama的表現感到擔憂,擔心其無法與DeepSeek競爭。

另外,DeepSeek衝擊全球算力,A股寒武紀持續走低跌近10%,日本半導體股下挫,美股納指期貨領跌。

Sumitomo Life Insurance Co.的平衡組合投資總經理Masayuki Murata表示,DeepSeek可能引發科技股下跌,“大型科技公司在AI上投入了大量資金,幾乎達到了一國政府預算的規模,但一直存在一個問題,即產生的回報能否與其投資規模相匹配。“

分析師Holger Zschaepitz表示:“中國的DeepSeek可能代表了對美國股市最大的威脅,因為該公司似乎以極低的價格建立了一個突破性的人工智慧模型,而無需依賴最先進的晶片,這引發了對數百億美元資本支出是否有用的質疑,這些資金正被投入到這個行業中。”

OpenAI高級研究員Noam Brown在X上表示:“DeepSeek表明你可以用相對較少的算力獲得非常強大的AI模型。” (鈦媒體AGI)