【DeepSeek】改變了AI的遊戲規則

這兩天,中美AI領域發生了兩件大事:

在美國發佈AI禁令後,川普隨即宣佈了一項預算高達5000億美元的AGI計畫——星際之門,以保證其在AI領域的領先地位。

而在大洋彼岸的中國,一家名為Deepseek的中國創業公司,只用了2048塊顯示卡,就訓練出了一個能與頂級模型相媲美的Deepseek-V3模型。

Deepseek最引人注目的並不只是它的技術指標,而是其所代表的效率革命,僅依靠少量的硬體組態和幾十名年輕的博士生,就打破了美國的AI資源限制,完成了跨越式的技術突破。

更重要的是,Deepseek選擇了完全開放原始碼的路線,將程式碼、模型權重和訓練日誌全部公開。沒有人會忘記開放原始碼的力量,雖然定義智慧型手機的是iOS,但Android才是那個讓手機行業真正繁榮,普惠深入世界各個角落的人。

正如Perplexity CEO Aravind Srinivas所說:歷史告訴我們,一旦開源追上甚至超越閉源軟體,所有開發者都會轉向開源。

以此為轉折點,DeepSeek不僅改變了AI原有的競爭規則,也讓美國和中國的AI路線走向了不同的兩個方向:巨額投入與追求效率、封閉與開源。


/ 01 /

DeepSeek突破的三層意義

之所以DeepSeek能夠引起如此廣泛的討論,不僅在於其技術指標,更在於其對於AI行業的重要意義。

首先,DeepSeek重新定義了大模型的競爭壁壘。過去兩年裡,OpenAI每年要花費上百億美金,來維持自己在AI領域的優勢地位。

而現在遊戲規則變了。“DeepSeek”證明,數千萬美元的投資也能取得顯著成果。

不久前,UC伯克利博士生潘家怡和另兩位研究人員,在CountDown遊戲中復現了DeepSeek R1-Zero。實驗中,團隊驗證了通過強化學習RL,3B的基礎語言模型也能夠自我驗證和搜尋。

更誇張的是,整個實現成本僅不到30美金(約217元)。這意味著,低成本建構具備推理能力的模型已成為可能,預訓練模型的巨額投入不再是必需。

這背後也引出了一個深層次的問題:

當一家公司能在缺乏頂級晶片的情況下,以極低成本建立突破性的 AI 模型時,我們不得不重新思考:那些投入的數千億美元資本支出,真的物有所值嗎?

這是OpenAI需要回答的問題。

其次,與OpenAI的閉源路線不同,DeepSeek選擇完全開放原始碼的路線,將程式碼、模型權重和訓練日誌全部公開。

當開源模型性能媲美市場上最強大的模型,甚至在部分領域有所超越時,會吸引越來越多的開發者參與。

原因很簡單,開放原始碼軟體成本低廉,成本越低,開發者的吸引力就越大。因為這將大大降低建構應用程式的成本。

這有點像蘋果和Android的故事。回顧移動網際網路時代,定義智慧型手機0到1的是iOS,但讓手機行業真正繁榮普惠深入世界各個角落的是Android。

在Meta 副總裁兼首席人工智慧科學家楊立昆看來,DeepSeek的成功,與其說是”中國超越美國”,倒不如說是開源模型正在超越專有模型。

第三,Deepseek的技術突破,背後是AI研發開放性的勝利,這與美國的AI封鎖形成了鮮明對比。

具體來說,在一個被GPU短缺和晶片禁運困擾的環境中,一家從未被計入中國“AI 六小龍”的量化基金公司,用少量的硬體組態和幾十名年輕的博士生,就完成了跨越式的技術突破。

作為一個後來者,Deepseek的突破雖然離不開自身的努力,但更重要的是,開放的技術交流環境,包括論文、開放原始碼和各種正式或非正式的人才交流,為創新突破創造了條件。

這揭示了AI行業的另一個關鍵特性:模型研發具有很強的外部性。特別是在蒸餾與合成資料等技術存在的情況下,後來者的追趕和學習效應異常強勁。這種內卷加外卷的結果,也是模型能力變好,而成本快速下降的原因。

輝達科學家Jim Fan也提到了開放性對於AI發展的影響:

不管你喜歡與否,AI的未來不會是被“安全委員會”控制的瓶中精靈。每個網際網路使用者都將能在他們的“烤面包機筆記本”上運行高階模型。這是歷史潮流,我們應該順勢而為,而不是逆流而上。

當美國不斷強化AI技術封鎖的當下,Deepseek的突破又何嘗不是對於美國AI制裁的一種“反噬”。


/ 02 /

找到中國大模型的商業化答案

之前,李開復一直在表達一個觀點:

中國做AI的優勢從來不是在不設預算上限的情況下去做突破性研究,而是在好、快、便宜和可靠性之間找出最優解。

在相當長時間裡,國內大模型一直處於很尷尬的處境,訓練階段不僅被技術封鎖,還容易被海外開源降維打擊。

如今,Deepseek的突破代表了一種新的可能性——即通過算力效率的提升,實現更繁榮的LLM應用生態。

長期來看,AI應用生態能否跑通,取決於每個國家的成本結構、商業模式、經濟模型、產品供給能力,大家各有不同,是個複雜的商業問題。

固然,中國買不到最新的晶片,單位Flops的推理成本永遠比海外高,但這也倒逼中國infra出現了各種“工程式創新”,去探索更高效的算力最佳化方式。

至少從目前看,國內推理最佳化進展比大家想像要快。一旦算力最佳化這事跑通,國內大模型在商業層面建立良性循環也不是沒有可能。

也就是說,中美未來AI將是兩個完全不同的故事:美國押注模型能力提升,中國追求模型效率的極限。

一旦算力最佳化這事跑通,國內大模型在商業層面建立良性循環也不是沒有可能。

也就是說,中美未來AI將是兩個完全不同的故事:美國押注模型能力提升,中國追求模型效率的極限。

這就很像當年網際網路所發生的故事。過去十年,中國和美國在網際網路領域講了兩個完全不同的故事:矽谷加倍投入企業軟體,而中國則將賭注押在消費者應用上。

自Google和Meta後,美國科技業幾乎放棄了在消費網際網路上再造流量入口的嘗試,轉而選擇全面擁抱SaaS。軟體也完美接力上一個十年中的消費移動應用,成為新十年的主流投資趨勢,也跑出了很多優秀公司。

而中國在消費網際網路展現了非凡的生命力,字節跳動把短影片生意做到了全世界,美團把本地生活做成了一個千億美元的生意,而拼多多也成長為阿里、亞馬遜一外的電商新一極。

在GPT橫空出世之後,美國SaaS公司率先受益,紛紛開始向客戶提供AI功能,通過之前建立的客戶基礎和產品場景直接產生商業回報,大大提升了在AI上創新投入的回報確定性。而中國的AI應用卻因為缺乏場景和商業模式而進展緩慢。

隨著AI應用的逐漸落地,模型效率將會成為打通中國大模型商業化循環的一把“鑰匙”。 (烏鴉智能說)