1月27日一早,DeepSeek在中國區和美國區蘋果App Store免費榜上同時衝到了下載量第一,超過原先霸榜的ChatGPT,這也是國產應用首次實現這一成就。而半個月前(1月11日),DeepSeek的App才剛剛上線iOS和Android的應用市場。
當天晚些時候,DeepSeek應用程式開始出現當機。公司稱其服務受到了大規模惡意攻擊,因此將暫時限制新使用者註冊。當晚開盤的美國科技股則集體大跌——費城半導體指數(SOX)下跌9.2%,創下2020年3月以來的最大跌幅。其中輝達股價下跌近17%,市值蒸發近6000億美元,規模創美股史上最大。此外,博通、台積電、ASML、Google和微軟也分別跌了17.4%、13%、7%、4%和2.14%。就連WTI原油盤中也一度下挫3%,因為有交易員認為,如果大模型的訓練和推理不再需要那麼多算力,那麼資料中心的電力需求也會減少,自然也不需要那麼多石油來發電。
DeepSeek稱DeepSeek-R1模型在各項能力上追平OpenAI o1。
DeepSeek是一家位於杭州的大模型公司,2023年才創立。2024年年中之前,這家公司並沒有引起市場多少關注。但2024年最後一個月,它密集發佈了多個模型。其中聖誕節後發佈的名為DeepSeek-V3(以下簡稱「V3」)的模型,宣稱在性能上「相當於」業界領先的閉源模型GPT-4o與Claude-3.5-Sonnet,「優於」最好的開源模型Meta的Llama 3,且總訓練成本僅為557.6萬美元,這個數字只有(據估計投資超過5億美元)前者的1%;臨近2025年農曆春節的1月20日,它又發佈了一個名為DeepSeek-R1(以下簡稱「R1」)的模型,同樣的,DeepSeek在論文中聲稱R1模型「在一系列任務上實現了與OpenAI o1相當的性能」。
1月29日,彭博社引述要求不具名的知情人士報導,稱微軟的安全研究人員在2024年秋季發現DeepSeek的員工使用OpenAI的API竊取了大量資料,言下之意是這些資料可能被用來訓練V3或R1模型。然而OpenAI明確規定不允許其他公司使用其模型生成的資料訓練模型,2023年年中,字節跳動就曾因類似行為與OpenAI發生摩擦。目前DeepSeek暫未對此言論發表回覆。
麻煩不止於此,同日義大利當局要求 DeepSeek 提供有關該公司如何處理使用者資料的資訊,DeepSeek將有20天時間來準備答覆,目前DeepSeek已從義大利地區蘋果和Google的應用程式商店下架了應用。
外界對於DeepSeek仍存在大量質疑,比如其模型是否只是美國先進模型的蒸餾模型、其創新是否真的重要,以及美國科技股是否反應過度。這些問題DeepSeek其實在技術報告中基本都回答了。
1月27日的市場震盪比DeepSeek在模型論文中發表的驚人資料晚了差不多一個月。直到一周前的2025達沃斯論壇上,雖然已有不少人談起DeepSeek,但意見也多為保守或充滿質疑的。比如DeepMind首席執行官Demis Hassabis就在達沃斯聲稱,DeepSeek的模型的確有些「出人意料」,但他表示「對DeepSeek模型的工作原理並不確定,包括它在多大程度上依賴其他美國公司模型的結果」。
在這種懷疑「V3是個蒸餾模型——蒸餾了美國的前沿模型」的觀點之外,另外一種不願相信DeepSeek成果的聲音代表來自Scale AI的首席執行官Alexandr Wang。他在接受CNBC採訪時聲稱,DeepSeek擁有5萬塊輝達最先進的AI晶片H100,言下之意是DeepSeek違反了美國的晶片禁運政策,才取得了模型突破。由於晶片管制,2022年秋季起,輝達就不再向中國市場提供其最高端的AI晶片H100,取而代之的產品是記憶體和頻寬都更受限的H800——性能僅為H100的一半。
然而與此同時,Meta員工在匿名網站稱,DeepSeek僅用1%的投入就實現了超越Llama 3的性能這件事,已經使公司AI團隊陷入恐慌,特別是考慮到公司正在訓練的下一代模型Llama 4的預期投入比Llama 3還要貴好幾倍。技術媒體The Information緊接著報導稱,Meta成立了4個專門研究小組來研究DeepSeek的工作原理,並基於此來改進Llama。在V3發佈之前,Llama是全球能力最強的開源模型,直到V3發佈後取而代之。
如果只有V3的效率,DeepSeek可能並不能引起足夠注意。1月20日發佈的R1模型為DeepSeek的熱度添了重要的一把火——這是一個類o1的推理模型,並且即刻就能在應用程式中體驗到。與ChatGPT等其他聊天機器人的不同之處在於,DeepSeek的同名聊天機器人在回應使用者提問時,會將思維鏈條(Chain of Thought,CoT)完全展示出來,其作為機器人認真揣摩使用者需求、試圖將使用者所有說出口或隱晦表達的情緒都安慰到位的「內心活動」激發了大量使用者的熱情。商業的本質在於創造稀缺,無論在人類成員還是AI成員中,共情能力都是稀缺品。
CoT是類o1模型都在發展的一項能力,人類差不多也是如此進行推理的。然而這類思考過程同時也是各人工智慧公司想要保密的重要資料資產。如果你在ChatGPT中詢問它的o1模型是如何思考的,幾次之後,OpenAI可能就會發郵件給你警告要撤銷你的帳號了。
風險投資機構Andreessen Horowitz (a16z)的創始人安德森(Marc Andreessen)對R1的描述是「人工智慧的Sputnik時刻」,Sputnik是蘇聯於1957年首次發射的人造衛星。另外一些人則稱DeepSeek這一系列模型的發佈是美國AI界的「珍珠港事件」。意思是作為全球人工智慧領域的技術高地,美國正在失去自己所建構的AI商業模式和技術護城河。
DeepSeek的突破來自於兩個層面:低成本和推理能力。其中,V3的突破主要在於訓練成本和計算效率,R1開闢了訓練推理模型的新路徑。
具體來說,V3的採用了優於傳統MoE(專家模型)架構的DeepSeekMoE架構,以及優於傳統多頭注意力(MHA)的DeepSeekMLA(多頭潛在注意力)。
傳統稠密模型,比如GPT-3.5,在訓練和推理過程中啟動全部參數。然而事實上,並非模型的每個部分都是當前任務所必需的。因此,MoE的理念是將模型區分為多個「專家」,推理時只啟動對任務必要的專家。GPT-4也是一個MoE模型,據說有超過1.67兆個參數,其中大部分參數分佈在16個專家模組(如FFN層)中,每次完成特定任務時,大約一到兩個專家會被啟動,所以大大降低了計算量。DeepSeek的V3擁有6710億參數,其中活躍專家中的參數總和為370億。
DeepSeek在V3模型論文中稱,相較於傳統MoE,DeepSeekMoE使用了「更細粒度」的專家,使專家更加專門化,單個專家僅數十億參數,提升了任務適配性;同時,DeepSeekMoE將一些專家隔離為「共享專家」,用於減輕專家之間的知識冗餘,從而使V3模型在啟動相同數量專家和參數的情況下表現更好。
多頭注意力(Multi-Head Attention,MHA)是生成式AI計算的核心機制,它讓模型可以同時關注使用者輸入的不同層面,平行處理這些不同維度的資訊,再將其整合起來完成響應。。這一併行處理過程與圖像處理中的平行計算類似,因此過去用於圖形處理的GPU(Graphics Processing Unit)成了AI計算的理想硬體平台。
不過這一過程同時會產生大量快取,限制了推理效率。DeepSeekMLA找到了一種對其中的快取資料進行聯合壓縮的方法,從而大大減少推理期間的記憶體使用,保證高效推理。DeepSeek在論文中稱,得益於這些創新,其V2模型(V3模型的上一代)在單節點搭載8塊H800 GPU的情況下,實現了超過每秒5萬個token的生成吞吐量,是上一代模型最大生成吞吐量的5.76倍。
傳統大模型回答使用者需求時只預測下一個token,V3通過MTP技術同時預測下2個token。這裡的關鍵是第二個預測token的精準性問題(即「接受率」,預測的token能被最終採用的比例)。DeepSeek評估稱,在不同生成主題中,其模型所生成的第二個token的接受率達到了85%至90%。這種高接受率意味著V3能夠以接近傳統單token預測模式兩倍的速度來生成文字。
FP8的意思是8位浮點(floating-point),數字越高,意味著計算精度越高,但與此同時計算速度會降低。DeepSeek使用了FP8資料格式來訓練V3,並在模型計算的不同環節實現了資料在FP8、BF16、FP32等不同精度下的靈活和交替使用,即一種混合精度框架。在參數通訊的部分過程,DeepSeek也做到了FP8精度的傳輸。通過這一過程,DeepSeek實現了加速訓練和減少GPU記憶體使用,並「首次在超大規模模型上驗證了FP8混合精度訓練框架的有效性」。
DeepSeekMoE + DeepSeekMLA架構早在DeepSeek開發V2模型時期就已開拓,V2模型驗證了這一組合可以在保持性能的前提下兼顧高效訓練與推理,V3不過是在此基礎上進行了多項改進。真正使得V3模型在能力上超越Llama 3的,是另一項創新——自我獎勵。
在進行了不到兩個月的預訓練、花費了266.4萬個GPU小時後,DeepSeek又用0.5萬個GPU小時對V3進行了一種以「自我獎勵」和蒸餾為主的後訓練。
強化學習的典型案例是AlphaGo,通過為模型提供圍棋規則,並告訴它怎樣算是贏得比賽,然後模型就會自己找到滿足這一切目標的路徑。不過這種機器學習方式中的最大難題是如何設定獎勵函數,數學、程式設計、圍棋等推理能力要求高的領域通常具有明確的答案,邊界分明,然而除此之外的其他生活領域卻未必如此。OpenAI的o1模型發佈之後,外界充滿了對其究竟對強化學習過程設定獎勵函數的好奇。OpenAI不再open後,DeepSeek在其論文中表明了它是如何給V3模型設定獎勵函數的——直接將V3模型自身作為獎勵生成模型,自己決定是否獎勵自己。
DeepSeek將V3的判斷能力與GPT-4 o和Claude-3.5的判斷能力進行了比較,稱V3的性能與GPT-4o-0806和Claude-3.5-Sonnet-1022的最佳版本相當,並且,V3的判斷能力還可以通過投票技術來增強。因此,DeepSeek將V3的評價和多次投票結果作為「獎勵函數」,為開放式問題提供自我獎勵。
DeepSeek認為,有判斷能力的基礎模型本身就是足夠好的獎勵模型。
「LLM(大語言模型)本身就是一款多功能處理器,能夠將來自不同場景的非結構化資訊轉化為獎勵,最終促進LLMs的自我完善。」DeepSeek在發表V3模型的論文中稱,意思是如果一個大模型足夠優秀、有判斷力,那麼它應該像優秀的人類一樣,足夠用來對AI的回答作出評價。這一過程是V3模型超越Llama 3的關鍵。
「資源的詛咒」一詞用在這個時候再合適不過了。相較於中國廠商,美國大模型公司們都有多得多的現金和算力為其大模型開發開路,輝達也在不斷推出算力更強大同時也更昂貴的晶片滿足這些大廠的需要。大模型的Scaling Law(縮放定律)早就從模型本身向上延伸至了資金環節。不少大模型廠商——不止國內,都因預訓練的昂貴在去年下半年退出遊戲。
對那些資源豐富的大廠而言,阻力最小的方法是大肆招聘、支付高薪以及向輝達支付高昂費用。而DeepSeek-V系列的幾乎所有創新都與適應頻寬受限的H800晶片有關。
V3的訓練成本公佈之後,外界對它的最大質疑就是它可能是個從其他先進模型那裡蒸餾出來的模型。
在V3、R1模型的相關論文中,DeepSeek的確都在結尾強調了在蒸餾技術上的探索。比如在V3模型中,DeepSeek就使用了從DeepSeek-R1系列模型中提取的推理能力——R1作為教師模型生成了80萬訓練樣本進行訓練。「從DeepSeek R1系列模型中提取推理CoT(思維鏈),並將其納入標準LLMs(大語言模型),特別是DeepSeek-V3。我們的流水線將R1的驗證和反思模式優雅地整合到了DeepSeek-V3中,顯著提高了其推理性能。」DeepSeek在論文中稱。
除了將從R1系列模型中提取的80萬思維鏈樣本用以訓練V3,DeepSeek還進一步探索了將這些資料應用於阿里巴巴旗下的Qwen2.5系列模型後的效果。DeepSeek在論文中稱,經過這種後訓練的Qwen系列模型(DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Qwen-32B)效果「明顯優於之前的版本,並與o1-mini相當」。「我們證明了較大模型的推理模式可以被提取到較小的模型中」,DeepSeek稱,這為大模型的「後訓練」最佳化提供了一個有希望的新方向。
不過,這些嘗試並不意味著DeepSeek的低成本模型V3本身是個蒸餾模型。根據其論文中的說法,V3的上一代模型V2使用了8.1兆個token資料訓練,V3模型的預訓練資料擴展到了14.8兆。論文顯示,V3總共使用了約280萬GPU小時(包括266.4萬小時預訓練、11.9萬小時上下文長度訓練和0.5萬小時後訓練),完成了約39.7億億次浮點運算。這個計算量與訓練14.8兆token的資料集的理論需求相符。也就是說,按照DeepSeek的DeepSeekMoE+DeepSeekMLA架構、用FP8的低精度訓練和傳輸資料、一次預測多個token,DeepSeek的確可以做到不到600萬美元的成本。這是個合理數字。
V3模型和R1系列模型都是基於V3模型的更基礎版本V3-Base開發的。相較於V3(類4o)模型,R1(類o1)系列模型進行了更多自我評估、自我獎勵式的強化學習作為後訓練。
在R1之前,業界大模型普遍依賴於RLHF(基於人類反饋的強化學習),這一強化學習模式使用了大量由人類撰寫的高品質問答以瞭解「什麼才是好的答案」,幫助模型在獎勵不明確的情況下知道如何作困難的選擇。正是這項技術的使用使得GPT-3進化成了更通人性的GPT-3.5,製造了2022年年底ChatGPT上線時的驚喜體驗。不過,GPT的不再進步也意味著這一模式已經到達瓶頸。
R1系列模型放棄了RLHF中的HF(human feedback,人類反饋)部分,只留下純粹的RL(強化學習)。在其首代版本R1-Zero中,DeepSeek相當激進地啟動了如下強化學習過程:為模型設定兩個獎勵函數,一個用於獎勵「結果正確」的答案(使用外部工具驗證答案的最終正確性),另一個獎勵「思考過程正確」的答案(通過一個小型驗證模型評估推理步驟的邏輯連貫性);鼓勵模型一次嘗試幾個不同的答案,然後根據兩個獎勵函數對它們進行評分。
DeepSeek稱,R系列模型在強化學習中湧現出了「反思」能力。
DeepSeek發現,由此進入強化學習過程的R1-Zero生成的答案可讀性較差,語言也常常中英混合,但隨著訓練時間增加,R1-Zero能不斷「自我進化」,開始出現諸如「反思」這樣的複雜行為,並探索解決問題的替代方法。這些行為都未曾被明確程式設計。
DeepSeek稱,這種「啊哈時刻」出現在模型訓練的中間階段。在此階段,DeepSeek-R1-Zero通過重新評估其初始方法來學習分配更多的思考時間。「這一刻彰顯了強化學習的力量和美妙——只要提供正確的激勵,模型會自主開發高級解決問題的策略。」DeepSeek稱,經過數千個這樣的「純強化學習」步驟,DeepSeek-R1-Zero在推理基準測試中的性能就與OpenAI-o1-0912的性能相匹配了。
DeepSeek在論文中說,「這是第一個驗證LLMs的推理能力可以純粹通過RL(強化學習)來激勵,而不需要SFT(supervised fine-tuning,基於監督的微調)的開放研究。」
不過,由於純強化學習訓練中模型過度聚焦答案正確性,忽視了語言流暢性等基礎能力,導致生成文字中英混雜。為此DeepSeek又新增了冷啟動階段——用數千條鏈式思考(CoT)資料先微調V3-Base模型,這些封包含規範的語言表達和多步推理示例,使模型初步掌握邏輯連貫的生成能力;再啟動強化學習流程,生成了大約60萬個推理相關的樣本和大約20萬個與推理無關的樣本,將這80萬個樣本資料再次用於微調V3-Base後,就得到了R1——前面提到,DeepSeek還用這80萬個以思維鏈為主的資料微調了阿里巴巴的Qwen系列開源模型,結果表明其推理能力也提升了。
DeepSeek在V3模型上的創新都是工程上的,其突破的更大意義在於改變大模型的既有商業模式以及美國對華的晶片制裁——V3的大量創新都與為克服使用H800而不是H100所帶來的記憶體頻寬不足有關。為此,DeepSeek甚至繞過了輝達的程式設計工具CUDA,對每塊H800晶片上132個處理單元中的20個進行了重新程式設計,以專門用於管理跨晶片通訊。
相較而言,R1在純強化學習上的探索至少達到了與OpenAI o1相當的水平,o1背後的技術是否與R1相同的問題目前未知,OpenAI沒有公開過其o1模型的強化學習方案。不同大模型公司在強化學習中設定獎勵函數的方式從來都千差萬別。
不過,還不能說R1徹底解決了推理問題,至少隻要基於o1的代操作AI——Operator還不能像人一樣自如操作各種電子裝置,就不能說這種水平的AI就是通用人工智慧了。目前,Operator理論上可以根據使用者要求執行滑鼠和鍵盤允許的所有操作:只要使用者口頭交代一下,它就可以幫使用者訂外賣或尋找旅遊路線;遇到問題或者操作出錯時,它能利用強化學習帶來的推理能力自我糾錯;實在無法解決問題時,它會將控制權交還給使用者——就像自動駕駛一樣,AI遇到無法決策的困境時會將方向盤交還給人類司機。也和自動駕駛一樣,這種「接管率」將是觀察基於強化學習的AI是否在進步的指標之一。
美國科技股1月27日的表現已經初步表明了DeepSeek接連發佈的幾個模型對市場的影響力大小和範圍。
DeepSeek的低成本模型發佈之際,美國總統川普剛剛宣佈一個總額達5000億美元的AI基礎設施項目,OpenAI、軟銀等都已承諾參與其中。稍早前,微軟已經表示2025年將在AI基礎設施上投入800億美元,Meta的祖克柏則計畫在2025年為其人工智慧戰略投資600億至650億美元。DeepSeek的低成本模型使人們開始懷疑這些規模驚人的投資是否是種浪費,如果只用數百萬美元,而不是數億元,就能訓練一個4o等級的模型,那大模型對於GPU晶片的需求可能只是當下的1/10甚至1/100。
輝達的股價因此跌得最厲害,不過長遠看,受衝擊最大的不一定是輝達,而會是其他自研大模型並根據模型呼叫建立商業模式的公司,OpenAI、Anthropic、月之暗面、字節跳動等都屬於這一範圍。推理成本上,OpenAI o1每百萬輸入和百萬輸出token分別收取15美元和60美元,而DeepSeek R1同樣輸入與輸出的價格分別只要0.55美元和2.19美元,差不多隻是前者的3%。此前,OpenAI向使用其最先進模型o1的使用者收取每月200美元的訂閱費,而且仍然處於虧損狀態並打算提價,DeepSeek R1的出現可能令ChatGPT的提價計畫泡湯。
此外,一大批中國大模型公司比如字節跳動和月之暗面2024年花在使用者增長上的廣告費可能會打水漂。資料監測公司Sensor Tower的資料顯示,自今年1月11日上線以來,DeepSeek App的累計下載量已超過300萬次,其中,80%的下載量集中在1月20日至1月26日的一周內。如果保持這種增速,DeepSeek不久就會進入有千萬使用者的AI應用陣營。
股價大跌近17%後,輝達在一份聲明中稱,DeepSeek的成果證明了市場對輝達晶片的需求會更多(而不是更少)。這一說法有一定道理,因為當模型訓練和推理都變得更便宜、只需要消耗更少算力,人工智慧的商業化可以進展更快,比如,R1的小型版本能夠在普通家庭電腦上運行,這將有助於推動AI應用的普及與民主化——像蘋果這樣為大模型提供終端裝置的公司會是贏家。1月27日的美國科技股大跌中,蘋果也是僅有的兩家沒有下跌的技術公司,另一家是擁有雲端運算業務的亞馬遜,它同樣在自研大模型上落後,但擁有無論什麼模型都需要的雲端運算生意。
相較於訓練環節,進入商業化後的推理環節會消耗更多倍的算力。而且,更有效的使用計算的方法並不意味著更多的算力沒有用。不過短期內,向輝達大手筆下單的技術公司們會變得更謹慎。
當然,最大的贏家還是消費者。
DeepSeek由梁文峰於2023年12月創立,在此之前,他於2015年成立了名為「幻方量化」(High-Flyer)的量化避險基金,該基金通過AI分析金融資料從而作出交易決策。2019 年,幻方量化成為國內首個募資超過1000億元的的量化避險基金。
雖然一直有聲音認為金融市場就像變幻莫測的天氣一樣無法預測,這些人可能正確,但1980年代以來,不斷有數學家和電腦科學家希望為價格建模,並據此賺到錢。1988年至2018年的30年間,美國量化投資巨頭文藝復興科技創造了39.1%的年化復合收益率,遠超過巴菲特、索羅斯等傳統靠人來決定何時下注的投資大師。
這些量化基金並不追求預測金融市場下一刻的價格,而是專注於尋找發現市場中存在特定的價格模式。比如「24小時效應」模式:周一的價格變化常常是周五趨勢的延續,而這個趨勢到了周二就會反轉(24小時效應);「周末效應」:如果市場在周五展現出清晰的上升趨勢,那麼周五收盤前買入再到下周一一早賣出,也大機率會賺錢;再比如有的資產一旦第一天升值了,它第二天大機率會繼續升值,反之亦然。這些有預測能力的金融訊號就此成為量化基金們用以指導投資的交易因子(indicators),雖然潛在盈利空間沒那麼大,只要交易頻率夠高(與價值投資倡導的剛好相反),量化基金們就能吃到市場的肥尾。
大模型擅長從大規模資料中尋找模式,這種能力正對熱衷從金融資料中尋找交易因子的量化基金的胃口。幻方量化也不例外。DeepSeek目前尚未推出相應的金融投資大模型,不過這只是時間問題。 (新皮層NewNewThing)