矽谷不眠夜:DeepSeek為何震動美國科技界?

DeepSeek 給矽谷帶來的震撼還在持續,並不見降溫的跡象。如果和幾個月前的《黑神話·悟空》在歐美受到的追捧相比,DeepSeek 的出現可謂是“石破天驚”,充滿了各種不可能、不合理。它講述了一個如何在層層封鎖、勁敵環伺的背景下鐵樹生花的故事,讓美國精心設定的人工智慧技術小院高牆展現出了坍塌的風險。

“我們正生活在一個特殊的時代:一家非美國公司在真正踐行著 OpenAI 最初的使命——開展真正開放的前沿研究,為所有人賦能。這看似不合常理,但最富戲劇性的往往最可能發生。”這是輝達高級研究科學家 Jim Fan 在社交媒體上發出的感慨。

就在最近,這家一年多前還名不見經傳的中國 AI 公司,以其新發佈的推理大模型 R1 在全球 AI 界掀起了一場風暴。這個模型不僅在性能上比肩甚至超越了 OpenAI 的 o1,並完全開源,且以極低的成本實現了這一突破。這一事件迅速觸動了美國科技界的神經。


圖丨Google 新聞首頁推薦內容(來源:Google)

微軟 CEO Satya Nadella 在達沃斯世界經濟論壇上直言:“DeepSeek 新模型的表現令人印象深刻,尤其是在模型推理效率方面。我們必須認真對待來自中國的這些發展。”Scale AI 的 CEO Alexandr Wang 甚至將其稱為一款“震撼世界的模型(earth-shattering model)”。“我們發現 DeepSeek...... 的性能與美國最好的模型不相上下。”


圖丨 Alexandr Wang 相關採訪(來源:CNBC)

事實上,DeepSeek-R1 的出現確實引發了矽谷的一場小型地震。沃頓商學院教授 Ethan Mollick 對 R1 的內部思考過程讚歎不已:“DeepSeek 的原始思維鏈非常迷人。它真的讀起來就像一個人在大聲思考。既迷人又奇特”。著名風險投資人、Mosaic 瀏覽器聯合發明人馬克·安德森也表示:“DeepSeek R1 是我見過的最令人驚嘆和印象深刻的突破之一,作為開放原始碼專案,這是給世界的一份重要禮物。”這種開源精神甚至讓一位軟體工程師將“OGOpenAI.com”域名重新導向到了 DeepSeek,以此暗示 DeepSeek 更像早期的 OpenAI,踐行著開源 AI 的理念。


圖丨相關推文(來源:X)

最直接的衝擊體現在同樣倡導開放原始碼的 Meta 上。據美國匿名職場社區 teamblind 爆料,DeepSeek 的一系列動作已經讓 Meta 的生成式 AI 團隊陷入恐慌。一位 Meta 員工在帖子中寫道:“工程師們正在瘋狂地分析 DeepSeek,試圖從中複製任何可能的東西。這一點都不誇張。”更令他們擔憂的是,“當生成式 AI 組織中的每個‘領導’的薪資都比訓練整個 DeepSeek-V3 的成本還要高,而我們有好幾十個這樣的‘領導’時,他們要如何面對高層?”

儘管 Meta 的首席 AI 科學家 Yann LeCun 強調,這不應被解讀為“中國在 AI 領域超越美國”,而是“開源模型正在超越專有模型”。然而,祖克柏隨後的舉措還是暴露了 Meta 的焦慮:宣佈加速研發 Llama 4,計畫投資 650 億美元擴建資料中心,並部署 130 萬枚 GPU 以“確保 2025 年 Meta AI 成為全球領先模型”。


圖丨祖克柏在相關貼文中附上的 2 吉瓦資料中心位置圖(來源:Facebook)

艾倫人工智慧研究所的研究科學家 Nathan Lambert 稱,“在這一點上,Meta 絕非個例”他認為,R1 的發佈標誌著推理模型研究的一個重要轉折點。在此之前,推理模型一直是工業研究的重要領域,但缺乏一篇開創性的論文。就像 GPT-2 對預訓練的重要性,或者 InstructGPT 對後訓練的影響一樣,我們一直在等待一個推理模型研究的里程碑。Lambert 指出:“推理研究和進展現在已經鎖定——預計 2025 年將有巨大的進展,而且更多將是公開的。”

那麼,是什麼讓 DeepSeek-R1 如此特別?R1-zero 採用的訓練策略證明了僅通過強化學習(RL,Reinforcement Learning),無監督式微調(SFT,Supervised Fine-Tun-ing),大模型也可以有強大的推理能力。Hyperbolic 聯合創始人兼 CTO Yuchen Jin 將這一突破與 AlphaGo 進行類比:“就像 AlphaGo 使用純 RL 下了無數盤圍棋並最佳化其策略以獲勝一樣,DeepSeek 正在使用相同的方法來提升其能力。2025 年可能會成為 RL 的元年。”

不過,R1-Zero 在可用性方面存在的一些小問題表明,要訓練出一個出色的推理模型,需要的不僅僅是大規模的 RL。

在 R1-Zero 的基礎上,團隊針對 R1 採用了一個四階段的訓練方案:首先是對合成推理資料進行“冷啟動”監督微調;其次是對推理問題進行大規模強化學習訓練,直到收斂;第三是對 3/4 的推理問題和 1/4 的一般查詢進行拒絕採樣,開始向通用模型過渡;最後是混合推理問題和一般偏好調整的強化學習訓練。這個過程不僅實現了高效的訓練,還保持了模型的可讀性和最終性能。


圖丨 DeepSeek 採用的 GRPO(Group Relative Policy Optimization)演算法框架(來源:arXiv

更關鍵的是,DeepSeek 通過創新性的方法,在有限的計算資源下實現了這些突破。正如微軟 AI 前沿研究實驗室首席研究員 Dimitris Papailiopoulos 所說,R1 最令人驚訝的是其工程簡單性:“DeepSeek 追求精準的答案,而不是詳細說明每個邏輯步驟,這顯著減少了計算時間,同時保持了高效率。”

儘管 R1 備受關注,DeepSeek 仍然相對神秘。創立於 2023 年 7 月的 DeepSeek 一直是一家低調的公司。公司創始人梁文鋒畢業於浙江大學資訊與電子工程專業,此前創立了管理約 80 億美元資產的避險基金幻方量化(High-Flyer)。與 OpenAI 的 Sam Altman 類似,梁文鋒的目標也是建構通用人工智慧(AGI)。

DeepSeek 的成功與其獨特的發展策略密不可分。在美國實施晶片出口管制之前,梁文鋒就收購了大量輝達 A100 晶片。據有關媒體報導,公司庫存超過 1 萬塊,而 AI 研究諮詢公司 SemiAnalysis 創始人 Dylan Patel 預估這個數量至少是 5 萬塊。這種前瞻性的佈局為該公司的技術突破奠定了基礎。

更重要的是,面對晶片限制,DeepSeek 將挑戰轉化為創新機遇。美國西北大學電腦科學博士生、前 DeepSeek 員工 Zihan Wang 告訴《麻省理工科技評論》:“整個團隊熱衷於將硬體挑戰轉化為創新機會。”他補充說,在 DeepSeek 工作期間,他能夠獲得充足的計算資源並有自由進行實驗,“這是大多數應屆畢業生在任何公司都不會得到的待遇。”

這種創新精神體現在效率的提升上。在 2024 年 7 月接受採訪時,梁文鋒承認中國公司在 AI 工程技術方面相對落後:“我們必須消耗兩倍的計算力才能達到相同的結果。再加上資料效率差距,這可能意味著需要四倍的計算力。我們的目標是不斷縮小這些差距。”梁文鋒本人也深度參與研究過程,與團隊一起進行實驗。

而 DeepSeek 最終找到了減少記憶體使用和加快計算速度的方法,同時沒有明顯犧牲精準性。

實際上,中國公司在這方面已經形成了某種共識,他們不僅追求效率,而且也在越來越多地擁抱開源原則。阿里雲已發佈了超過 100 個新的開源 AI 模型,支援 29 種語言,涵蓋程式設計和數學等各種應用。據中國資訊通訊研究院的白皮書顯示,全球 AI 大語言模型數量已達 1,328 個,其中 36% 來自中國,使中國成為僅次於美國的第二大 AI 技術貢獻國。

“這一代中國年輕研究者特別認同開源文化,因為他們從中獲益良多,”塔夫茨大學技術政策助理教授 Thomas Qitong Cao 說。

卡內基國際和平基金會的 AI 研究員 Matt Sheehan 則指出:“美國的出口管制反而逼得中國公司不得不想辦法提高效率,把有限的算力用到極致。考慮到算力短缺,我們可能會看到更多企業開始抱團取暖。”

“在 AI 行業出現一定的分工是很自然的事情,也更節省資源,”Cao 補充說,“AI 發展得太快了,中國企業必須保持靈活才能適應。”


圖丨相關推文(來源:X)

隨著 DeepSeek 等中國公司在 AI 領域的崛起,全球 AI 競爭格局正在發生微妙變化。如果中國公司能夠以更低的成本實現同等或更好的性能,而且這些模型還大都開源,美國公司賴以維持的技術優勢和高估值可能會受到挑戰。這種擔憂已經反映在輝達等 AI 概念公司的股價上,有分析師甚至指出:“事實上,中國量化基金的一群超級天才將導致納斯達克崩盤,但目前還沒有人意識到這一點。”

不過,現在就高呼“中國 AI 已經超越美國”或“遙遙領先”還為時過早。如清華大學電腦系長聘副教授劉知遠所說:“DeepSeek 的突破確實證明了中國 AI 通過有限資源的極致高效利用,實現以少勝多的獨特優勢,中美 AI 差距正在縮小。”

但現在還遠未到“勝券在握”的時候。劉知遠認為:“AGI 新技術還在加速演進,未來發展路徑還不明確。中國仍在追趕階段,已經不是望塵莫及,但也只能說尚可望其項背。在別人已經探索出的路上跟隨快跑還是相對容易的,接下來如何在迷霧中開拓新路,才是更大的挑戰。”

從大疆到宇樹,再到當紅的 DeepSeek,越來越多的中國科技公司成為美國科技界繞不過去的熱門話題,一方面體現出中國公司在供應鏈優勢下對成本的極致敏感,這加速了技術民主化的趨勢;更體現出技術競爭的魅力,如果切換一下視角則會發現,矽谷這段時間感受到的震撼則是過去兩年中國同行的常態。 (DeepTech深科技)