「伺服器繁忙,請稍後再試。」
一年前,我也是被這句話硬控的使用者之一。
DeepSeek 帶著 R1 在一年前的昨天(2025.1.20)橫空出世,一出場就吸引了全球的目光。
那時候為了能順暢用上 DeepSeek,我翻遍了自部署教學,也下載過不少號稱「XX - DeepSeek 滿血版」的各類應用。
一年後,說實話,我打開 DeepSeek 的頻率少了很多。
豆包能搜尋、能生圖,千問接入了淘寶和高德,元寶有即時語音對話和微信公眾號的內容生態;更不用說海外的 ChatGPT、Gemini 等 SOTA 模型產品。
當這些全能 AI 助手把功能列表越拉越長時,我也很現實地問自己:「有更方便的,為什麼還要守著 DeepSeek?」
於是,DeepSeek 在我的手機裡從第一屏掉到了第二屏,從每天必開變成了偶爾想起。
看一眼 App Store 的排行榜,這種「變心」又似乎不是我一個人的錯覺。
免費應用下載榜的前三名,已經被國產網際網路大廠的「御三家」包攬,而曾經霸榜的 DeepSeek,已經悄悄來到了第七名。
在一眾恨不得把全能、多模態、AI 搜尋寫在臉上的競品裡,DeepSeek 顯得格格不入,51.7 MB 的極簡安裝包,不追熱點,不卷宣發,甚至連視覺推理和多模態功能都還沒上。
但這正是最有意思的地方。表面上看,它似乎真的「掉隊」了,但實際是 DeepSeek 相關的模型呼叫仍是多數平台的首選。
而當我試圖總結 DeepSeek 過去這一年的動作,把視線從這個單一的下載榜單移開,去看全球的 AI 發展,瞭解為什麼它如此地不慌不忙,以及即將發佈的 V4,又準備給這個行業帶來什麼新的震動;
我發現這個「第七名」對 DeepSeek 來說毫無含金量,它一直是那個讓巨頭們真正睡不著覺的「幽靈」。
當全球的 AI 巨頭都在被資本裹挾著,通過商業化來換取利潤時,DeepSeek 活得像是一個唯一的自由球員。看看它的競爭對手們,無論是國內剛剛港股上市的智譜和 MiniMax,還是國外瘋狂捲投資的 OpenAI 和 Anthropic。
為了維持昂貴的算力競賽,就連馬斯克都無法拒絕資本的誘惑,前幾天剛剛才為 xAI 融了 200 億美元。
但 DeepSeek 至今保持著「零外部融資」的紀錄。
年度私募百強榜,按照公司平均收益排名,幻方量化位於第七名,百億以上規模排名第二|圖片來源:https://www.simuwang.com/news/285109.html
在這個所有人都急著變現、急著向投資人交作業的時代,DeepSeek 之所以敢掉隊,是因為它背後站著一台超級「印鈔機」,幻方量化。
作為 DeepSeek 的母公司,這家量化基金在去年實現了超高的 53% 回報率,利潤超過 7 億美元(約合人民幣 50 億元)。
梁文鋒直接用這筆老錢,來供養「DeepSeek AGI」的新夢。這種模式,也讓 DeepSeek 極其奢侈地擁有了對金錢的掌控權。
App Store 的下載量排名,對於一家需要向 VC 證明「日活增長」的創業公司來說是命門。但對於一家只對 AI 發展負責、不僅不缺錢還不想被錢通過 KPI 控制的實驗室來說,這些有關市場的排名掉隊,或許正是它得以保持專注、免受外界噪音干擾的最佳保護色。
即便 DeepSeek 可能根本不在意,我們是否已經選擇了其他更好用的 AI 應用,但它過去這一年帶來的影響,可以說各行各業都沒有錯過。
矽谷的「DeepSeek 震撼」
最開始的 DeepSeek,不僅僅是一個好用的工具,更像是一個風向標,用一種極其高效且低成本的方式,打碎了矽谷巨頭們精心編織的高門檻神話。
如果說一年前的 AI 競賽是比誰的顯示卡多、誰的模型參數大,那麼 DeepSeek 的出現,硬生生把這場競賽的規則改寫了。在 OpenAI 及其內部團隊(The Prompt) 的最近發佈總結回顧中,他們不得不承認,
DeepSeek R1 的發佈在當時給 AI 競賽帶來了「極大的震動(jolted)」,甚至被形容為一場「地震級的衝擊(seismic shock)」。
DeepSeek 一直在用實際行動證明,頂尖的模型能力,不需要天價的算力堆砌。
根據 ICIS 情報服務公司最近的分析,DeepSeek 的崛起徹底打破了算力決定論。它向世界展示了,即使在晶片受到限制、成本極其有限的情況下,依然可以訓練出性能比肩美國頂尖系統的模型。
這直接導致了全球 AI 競賽從「造出最聰明的模型」,轉向了「誰能把模型做得更高效、更便宜、更易於部署」。
微軟報告裡的「另類」增長
當矽谷巨頭們還在爭奪付費訂閱使用者時,DeepSeek 也開始在被巨頭遺忘的地方紮根。
在微軟上周發佈的《2025 全球 AI 普及報告》中,DeepSeek 的崛起被列為 2025 年「最意想不到的發展之一」。報告揭示了一個有意思的資料:
微軟在報告裡也不得不承認,DeepSeek 的成功更加確定了,AI 的普及不僅取決於模型有多強,更取決於誰能用得起。
下一個十億級 AI 使用者,可能不會來自傳統的科技中心,而是來自 DeepSeek 覆蓋的這些地區。
歐洲:我們也要做 DeepSeek
不僅是矽谷,DeepSeek 的影響跨越了整個地球,歐洲也不例外。
歐洲一直是被動地使用美國的 AI,雖然也有自己的模型 Mistral,但一直不溫不火。DeepSeek 的成功讓歐洲人看到了一條新路,既然一家資源有限的中國實驗室能做到,歐洲為什麼不行?
據連線雜誌最近的一篇報導,歐洲科技界正在掀起一場「打造歐洲版 DeepSeek」的競賽。不少來自歐洲的開發者,開始打造開源大模型,其中一個叫 SOOFI 的歐洲開放原始碼專案更是明確表示,「我們將成為歐洲的 DeepSeek。」
DeepSeek 過去這一年的影響,也加劇了歐洲對於「AI 主權」的焦慮。他們開始意識到,過度依賴美國的閉源模型是一種風險,而 DeepSeek 這種高效、開放原始碼的模式,正是他們需要的參照。
影響還在繼續,如果說一年前的 R1 是 DeepSeek 給 AI 行業的一次示範,那麼即將到來的 V4,會不會又是一次反常識的操作。
根據前段時間零零散散的爆料,和最近公開的技術論文,我們梳理了關於 V4 最值得關注的幾個個核心訊號。
1. 新模型 MODEL1 曝光
在 DeepSeek-R1 發佈一周年之際,官方 GitHub 程式碼庫意外曝光了代號為「MODEL1」的全新模型線索。
在程式碼邏輯結構中,「MODEL1」是作為與「V32」(即 DeepSeek-V3.2)並列的獨立分支出現的,這一細節意味著「MODEL1」並不共享 V3 系列的參數配置或基礎架構,而是一個全新的、獨立的技術路徑。
結合之前的爆料和洩露的程式碼片段,我們梳理了「MODEL1」可能存在的技術特徵:
業界普遍推測,DeepSeek 近期發表的兩篇重磅論文——關於最佳化殘差連結的 「mHC」 以及 AI 記憶模組 「Engram」,極有可能被整合進「MODEL1」的架構中,從而解決長上下文記憶和計算效率的核心痛點。
此前有傳聞稱,DeepSeek 計畫在 2 月中旬(春節前後) 發佈下一代旗艦模型 V4。此次 GitHub 程式碼的提前部署,在時間線上與該傳聞高度吻合。如果屬實,這將是繼 R1 之後,DeepSeek 推出的第二個重要模型。
值得一提的是,全球最大的 AI 開源社區 Hugging Face 最近也專門發文復盤了 R1 發佈這一年的影響,核心觀點就是「中國 AI 真的站起來了」。
他們認為 R1 的出現是個分水嶺,證明了那怕算力受限,靠開源也能實現技術上的彎道超車,讓中國 AI 產業從封閉走向了開源爆發。在他們看來,R1 的真正價值在於降低了門檻:
技術上: 公開推理細節,讓高級能力可復用。 ·應用上: 寬鬆協議(MIT)讓模型迅速融入商業落地。
心理上: 建立了中國 AI 從「追隨」到「引領」的自信。 2025 年,中國開源模型的下載量在全球都佔據了主導地位,不僅國內的大廠和創業公司都在全面擁抱開源,甚至國外現在很多所謂的新模型,實際上都建立在中國開源模型的基礎之上。
附上部落格地址:https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment
2. 復刻「春節突襲」
DeepSeek 似乎偏愛在農曆新年這個時間節點搞事情。有消息透露,DeepSeek 計畫在 2 月中旬(農曆新年前後)發佈新一代旗艦模型 V4。去年的 R1 也是在這個時間節點發佈,隨後在春節假期引爆了全球關注。
不得不說,這種時機選擇避開了歐美科技圈的常規發佈擁堵期,還充分用到了長假期間使用者的嘗鮮心理,確實能為病毒式的傳播埋下種子。
3. 核心能力是卷程式碼和超長上下文
在通用對話已經趨於同質化的今天,V4 選擇了一個更硬核的突破口:生產力等級的程式碼能力。
據接近 DeepSeek 的人士透露,V4 並沒有止步於 V3.2 在基準測試上的優異表現,而是在內部測試中,讓其程式碼生成和處理能力,直接超越了 Anthropic 的 Claude 和 OpenAI 的 GPT 系列。
更關鍵的是,V4 試圖解決當前程式設計 AI 的一大痛點:「超長程式碼提示詞」的處理。這意味著 V4 不再只是一個幫我們寫兩行指令碼的助手,它試圖具備理解複雜軟體項目、處理大規模程式碼庫的能力。
為了實現這一點,V4 也改進了訓練流程,確保模型在處理海量資料模式時,不會隨著訓練深入而出現「退化」。
4. 關鍵技術:Engram
比起 V4 模型本身,更值得關注的是 DeepSeek 在上周聯合北京大學團隊發表的一篇重磅論文。
這篇論文揭示了 DeepSeek 能夠在算力受限下持續突圍的真正底牌,是一項名為 「Engram(印跡/條件記憶)」 的新技術。
HBM(高頻寬記憶體)是全球 AI 算力競爭的關鍵領域之一,當對手都在瘋狂囤積 H100 顯示卡來堆記憶體時,DeepSeek 再次走了一條不尋常的路。
在顯示卡資源日趨緊張的背景下,DeepSeek 的這篇論文好像也在說,他們從未把希望完全寄託在硬體的堆砌上。
DeepSeek 這一年的進化,本質上是在用反常識的方式,解決 AI 行業的常識性難題。
它一年進帳 50 億,能夠用來訓練出上千個 DeepSeek R1,卻沒有一味卷算力,卷顯示卡,也沒有傳出要上市,要融資的消息,反而開始去研究怎麼用便宜記憶體替代昂貴的 HBM。
過去一年,它幾乎是完全放棄了全能模型的流量,在所有模型廠商,每月一大更,每周一小更的背景下,專注推理模型,一次又一次完善之前的推理模型論文。
這些選擇,在短期看都是「錯的」。不融資,怎麼跟 OpenAI 拼資源?不做多模態的全能應用,生圖生視訊,怎麼留住使用者?規模定律還沒失效,不堆算力,怎麼做出最強模型?
但如果把時間線拉長,這些「錯的」選擇,可能正在為 DeepSeek 的 V4 和 R2 鋪路。
這就是DeepSeek的底色,在所有人都在卷資源的時候,它在卷效率;在所有人都在追逐商業化的時候,它在追逐技術極限。V4 會不會繼續這條路?還是會向「常識」妥協?答案或許就在接下來的幾周。
但至少現在我們知道,在 AI 這個行業裡,反常識,有時候才是最大的常識。
下一次,還是 DeepSeek 時刻。 (愛范兒)