全球使用者增長最快的應用程式已不再是ChatGPT,而是DeepSeek。
Sensor Tower的統計顯示,DeepSeek應用程式自1月11日發佈後,20天左右(2月1日前後)日活使用者數就超過了1000萬(約1200萬),達到ChatGPT(約5200萬)的23%。
另一家統計機構QuestMobile給出的數字更加激進,它表示,DeepSeek的日活躍使用者在1月28日首次超越豆包(約1695萬),隨後在2月1日突破3000萬大關——按SimilarWeb的資料計算,ChatGPT獲得同樣規模的日活用了11個月時間,DeepSeek只用了20天,成為有史以來最快達到這一里程碑的應用程式。
3000萬日活已經超過ChatGPT目前日活(以5200萬計算)的一半,且按照目前的增速,DeepSeek在使用者規模上超過ChatGPT只是時間問題。
DeepSeek改變的不止是使用者的使用習慣,還有基於AI的整個生態。
自OpenAI在2024年9月推出o1模型起,OpenAI對於推理模型技術方案的保護就格外重視,它不僅沒有像以往那樣發佈該模型的技術報告,使用者多次詢問ChatGPT它是怎麼思考的話還會收到封號警告的郵件,OpenAI透露的關鍵詞只有「強化學習」和「思維鏈」(Chain of Thought,CoT)。
所以在它之後發佈的智譜GLM-Zero模型,月之暗面k0-math、k1、k1.5模型,阿里巴巴Marco-o1、QwQ模型,乃至DeepSeek的R1模型,都是各家AI公司對o1模型盲人摸象般的復現,R1模型只是其中最接近o1能力的那一個。而如今,隨著DeepSeek將推理模型開源並公開了詳細的技術報告,首當其衝的就是一直閉源的OpenAI。
於是在DeepSeek火爆全網時,OpenAI的反應是最快的。1月31日,OpenAI在DeepSeek成為全球媒體焦點時迅速發佈了全新推理模型o3-mini,並首次向免費使用者開放該模型,使用者只要在提問時選中「推理」即可使用。
緊接著的2月7日,OpenAI還首次公開了o3-mini在執行推理時的思維鏈,就像DeepSeek做的那樣,然而很快就有使用者質疑這個思維鏈看起來像被處理過。OpenAI研究員Noam Brown表示「這些雖然不是原始的思維鏈,但已經非常接近了」,CEO Sam Altman也承認展示出來的思維鏈已經「被二次處理過」,他給出的原因是「原始思維鏈缺少可讀性」。
行動起來的還有阿里巴巴,1月29日,阿里通義團隊發佈了超過20兆token的MoE模型Qwen2.5-Max,特別提升了文字生成、結構化資料分析和指令遵循等能力。作為非推理模型,Qwen2.5-Max號稱在數學程式設計等基準測試中不弱於o1與R1等推理模型。
未來幾個月,在龐大的使用者需求和開源社區的努力下,准o1等級的推理模型將大機率成為標配。
DeepSeek在C端市場的爆火同樣極大帶動了B端市場的需求。雖然DeepSeek官方一直面向B端市場提供模型呼叫服務,甚至去年5月的大模型價格戰就是由這家公司首先打響的,但這一次突然暴漲的流量遠遠超過了其伺服器的承受能力,2月6日DeepSeek官方暫停了基於API的模型呼叫服務充值。
這讓一些第三方雲廠商獲得分食DeepSeek開源生意的機會。
1月29日至30日中國春節假期期間,微軟、亞馬遜、輝達等美國巨頭搶先宣佈接入DeepSeek模型。假期過後,國內的重要雲廠商阿里巴巴、華為、百度、字節、三大通訊營運商等也都快速跟進,宣佈自家的雲平台接入了DeepSeek模型。
在此之前,大部分雲廠商都會接入Llama、Mistral等知名開源模型或者洽談部分閉源模型以滿足客戶的多樣性需求,但在市場推廣策略上還是以自研模型為主,例如阿里雲主推通義模型,百度智能雲主推文心模型。但如今DeepSeek模型已成為國內各家雲廠商的主推模型。例如百度智能雲趁機推出「首個自研萬卡叢集」,號稱提升了模型訓練與推理的效率與穩定性,並且模型呼叫價格比DeepSeek官方便宜一半。
同樣嗅到商機的還有矽基流動、潞晨科技等新型雲端運算服務公司。這些公司基本都在大模型興起之後創立,試圖借助大模型這一細分市場切入雲端運算領域,與阿里雲、華為雲等傳統雲端運算公司競逐市場。2月1日,矽基流動宣佈基於華為雲的昇騰晶片部署了DeepSeek模型。隨後2月4日,潞晨科技也宣佈了類似合作。
然而,這些都不等於解決DeepSeek官方應用和API呼叫面臨的容量不足問題。直到現在,使用者打開DeepSeek時仍然常常收到「伺服器繁忙,請稍後再試」的通知。DeepSeek將如何擴容成為國產GPU公司和雲端運算平台都想知道的問題——這直接意味著訂單。
就在矽基流動等公司宣佈基於華為的昇騰晶片部署了DeepSeek模型之後,國內的眾多GPU初創公司比如沐曦、天數智芯、摩爾執行緒、海光資訊、壁仞科技等也相繼宣佈適配DeepSeek模型。
「新皮層」獲得的消息稱,國產AI晶片目前仍然不足以滿足大模型的訓練需求,但已經能勝任算力需求沒有那麼高的推理環節。這使得AI推理市場對輝達的依賴度降低,國產GPU公司由此獲得機會。
不過也有AI晶片創業者對「新皮層」表示,DeepSeek不一定要通過自購晶片才能擴容,尋求雲廠商的合作也是可選項。他猜測DeepSeek眼下可能正在與阿里雲、騰訊雲等雲端運算廠商討論合作。
2月7日晚間,市場傳聞阿里巴巴將以10億美元投資DeepSeek,其美股股價也於當日開盤前漲了超過4%。不過阿里後來否認了該傳聞。
作為一個開源模型,DeepSeek的低成本和高性能正在改變不少公司針對「自研大模型」的戰略。
1月29日,過去一年估值從5.2億美元飆升至90億美元的明星AI創業公司Perplexity選擇接入DeepSeek-R1模型作為可選模型之一,這家以AI搜尋作為招牌的公司在此之前僅接入過OpenAI、Anthropic兩家公司的第三方模型。
在國內,同為AI搜尋公司的秘塔科技也在2月2日宣佈接入「滿血版」DeepSeek-R1推理模型。在此之前,這家公司一直使用著自研模型來提供服務。
同樣改變戰略的還有網易有道。2023年,網易曾經推出自研教育大模型「子曰」,前不久還發佈了推理模型「子曰-o1」,「教學過程中最大的場景、最難的問題都依賴理科大模型的能力」,有道CEO周楓當時曾這麼說。但2月6日,網易有道就改變了方向,宣佈旗下AI教育應用將全面接入DeepSeek-R1,聲稱在推理模型的幫助下,全科學習助手「有道小P」將提供「更具深度、更強精準性的解題思路」。Hi Echo、有道智雲、QAnything等口語私教、翻譯、知識庫產品也將陸續升級。
Perplexity、秘塔科技和網易有道的選擇意味著,這些公司將自己定義為要在產品層取勝的公司,將不再在模型層戀戰。「如果你的目標是建立以產品為核心的公司,就不要在訓練自有模型上浪費時間。」Perplexity創始人Aravind Srinivas一年前所確立的創業邏輯曾遭受「套殼」產品的質疑,如今卻開始成為共識——正是由於DeepSeek的火爆。
對於網易有道這樣的中小型公司來說,DeepSeek這種開源模型問世自然是個好消息,但對於字節跳動、百度等宣稱要「all in AI」的技術巨頭來說,這個選擇就沒那麼容易作了。
DeepSeek發佈後,華為、百度、字節等公司旗下的不少AI應用都宣佈了接入DeepSeek。其中華為AI助手小藝於2月5日宣佈接入DeepSeek-R1;2月8日,百度智能雲宣佈旗下的客悅、曦靈、甄知、一見等4款AI應用完成了對DeepSeek模型的適配,例如曦靈數字人平台開始採用R1推理模型來創作視訊指令碼,百度文小言也在同一天的App更新說明中特別提到「接入DeepSeek-R1模型最佳化了拍照解題功能」;就連在2024年的大模型大戰中通過「大力出奇蹟」暫時壓倒眾多大模型選手的字節跳動,也於2月7日宣佈,其辦公產品飛書的多維表格功能已接入DeepSeek-R1模型,使用者可以在AI欄位捷徑中直接呼叫。
從產品角度說,選擇性能更強、成本更低的模型(那怕它是第三方模型)是個理性做法,畢竟使用者滿意度至上。但從公司角度看,放棄投資數十億元的自研模型,這樣的決策就沒那麼好向董事會與股東交代了。這個選擇對於剛剛試圖在大模型領域大手筆投入的小米和理想同樣困難。 (新皮層NewNewThing)