【DeepSeek】衝擊之下,大模型六小強如何「回應」?

馬上整整1個月了!

這一個月以來,全球大模型市場受DeepSeek攪動,無不方寸大亂

中外大廠、初創公司都頭好禿,全被追著問:你們對DeepSeek怎麼看?DeepSeek出來你們怎麼辦?

有避而不談的,也有主動回應的。

國內,比如騰訊,昨天剛剛在微信開啟灰度測試“AI搜尋”功能,接入的就是DeepSeek-R1;比如百度,當即宣佈4月起文心一言免費用,下一代文心模型決定開源……

國外,比如OpenAI,緊急發佈o3-mini、上新深度搜尋、公開o3思維鏈條;比如GoogleDeepMind,新發佈的Gemini 2.0系列,新增模型型號Gemini 2.0 Flash-Lite,其API砍價能力比DeepSeek還狠;

然而正當全球AI大模型格局重塑之際,放眼國內,不少人還很關心一件事:

六家已成為獨角獸的大模型創業公司,零一萬物、百川智能、階躍星辰、智譜華章、月之暗面、MiniMax江湖人稱大模型六小強。

在DeepSeek猛烈的衝擊波下,他們正在如何應對?

衝擊之下,六小強都有啥“回應”

六小強中,沒有任何一家站出來,正面表達對DeepSeek的看法。

但這不代表它們沒有行動——畢竟比起高談闊論,落地的實際行動更值得用來證明。

註:以下均為六小強1月20日(含)後的動態

零一萬物

DeepSeek-R1問世之前,創始人李開復博士已公開表示,零一萬物將不再追求訓練超級大模型。

經過為期半年多的探索驗證,他們明確表示,參數適中同時性能優異、推理速度更快、推理成本更低的輕量化模型更適合商用場景,“會成為AI-First應用爆發的催化劑”。

而DeepSeek問世之後,零一萬物對外曝光的首個動作,選擇了攜手蘇州——

2月14日,零一萬物與蘇州高新區聯合成立的產業大模型基地正式授牌。

該大模型基地聚焦垂直產業,重點打造製造、金融、醫療、政務、生物、具身等多個領域的行業大模型解決方案,聯合產業鏈上下7家企業,“探索大模型技術從實驗室走向生產線的產業化路徑”。

在現場,李開復談道,在人工智慧技術重構產業的關鍵節點,大模型絕非“空中樓閣”,而是驅動實體經濟的核心引擎。


而零一萬物官方表示:

繼1月2日與阿里雲聯合成立“產業大模型聯合實驗室”之後,零一萬物再度於產業大模型方向落子。
此次於蘇州高新區落地的“產業大模型基地”進一步加速了零一萬物模型能力商業落地的處理程序。


百川智能

DeepSeek-R1發佈5天後,1月25日,百川智能發佈新模型Baichuan-M1-preview。

這是百川第一個全場景推理大模型。所謂全場景,指的是該模型同時具備語言、視覺和搜尋三個領域的推理能力。

與此同時,百川依然奔赴轉向醫療的道路上:

Baichuan-M1-preview解鎖了醫療循證模式,官方解釋它“實現了從醫療證據檢索到深度推理的完整端到端服務,能夠快速、精準地回答醫療臨床、科研問題”。

2月13日,以Baichuan-M1為底座打造的「AI兒科醫生」經過近一個月的內測後,在京“上崗”。

針對臨床推理,它首先會基於一訴五史生成診療假設,繼而通過檢驗檢查資料進行假設證偽與排除,最終經由自反思機制對剩餘假設進行機率排序,輸出符合臨床思維路徑的診療建議。

官方消息顯示,當天,北京兒童醫院開展了國內首次“AI兒科醫生+多學科專家”的雙醫平行多學科會診。與會人員除了多科室13位專家,還有該醫院與百川智能、小兒方健康科技(這家是百川投資的醫療資料公司)聯合研發的「AI兒科醫生」。

與會者對一位顱底腫物伴隨抽動症狀的患兒進行了多學科會診,另一邊,工程師將患者的主訴和病歷資料輸入模型。

AI兒科醫生也給出了與專家組會診結果高度吻合的建議。


階躍星辰

DeepSeek-R1發佈當天,階躍星辰正處於模型上新處理程序中。

1月20日當天發佈的兩款模型均為語言模型,一款是輕量級、響應快、性價比高的Step-2-mini,與自家模型玩意參數的Step-2相比,Step-2-mini以3%左右的參數量保有80%以上的性能。

另一款是主打文學創作的Step-2 文學大師版,“專為創作而生”。

而後兩天內,階躍繼續保持節奏對外發佈。

21日,升級語音模型Step-1o Audio,又上新多模態理解大模型Step-1o Vision。後者發佈首測就衝上來了大模型競技場前10,位列視覺領域國產第1。

22日,發佈視訊生成模型Step-Video V2版本,該版本在前代V1基礎上,從VAE模型、DiT架構與RL融合、多模態大模型應用三方面基礎上升級而來。


模型側更新外,階躍星辰旗下應用「躍問」也在1月24日推出了全新功能,躍問AI創意板。

它的功能是“不用程式碼就能在3步內實現想法,開發應用”,並且將成果全平台分享。

BTW,量子位發現,躍問不知何時已經偷偷接入了DeepSeek-R1……


以及農曆新年前頻繁動作之時,階躍星辰系統負責人朱亦博就在朋友圈小小劇透,年後階躍有大動作。

而“大動作”本身,或許會在2月21日階躍星辰舉辦的首屆“Step Up 生態開放日”上揭曉。至於有無針對DeepSeek-R1的回應性動作或戰略,也要等到下周會上才見分曉了。

智譜華章

2月11日,清華大學電腦系教授、智譜創立發起人唐傑在巴黎大王宮舉行的第三屆人工智慧行動峰會邊會“人工智慧技術進步與應用”上發言。

也是唯一參加該峰會的大模型代表。

在闡述對AGI的5個階段劃分後,唐傑表示現在正處於L2和L3交匯處,即“對齊機器與人類的意圖”和“機器自我學習”的交匯處。

而2025年的關鍵詞,部分摘錄如下:

  • 自主的、具有Agent能力的大型語言模型(Agentic LLMs)將成為日常生活和工作的核心。
  • 通過給定高層次目標,自主的LLMs將制定計畫、利用數字裝置並執行複雜項目,而所需的人類干預極少。
  • 這些自主系統將不再僅僅是孤立的實體,而是將協同工作,互補優勢,以更高效地完成任務。


此外,面對DeepSeek攪動風雲,智譜的“回應”更多落實在開年頻頻落地上。

首先是2月11日,繼續開展和三星的合作。

具體表現為讓Agentic GLM(智譜專為手機研發的系統級大模型)登陸三星最新款Galaxy S25系列手機,提供基於AI的即時語音和視訊通話,以及實現視覺理解和系統功能呼叫、AI搜尋、文案寫作等功能。

(此處確與同日唐傑發言部分內容相呼應)

其次是量子位注意到,雖未對外官宣,但智譜近日悄悄開始和二次元很火熱的AI畫圖捏角色的應用軟體「捏ta」展開合作。

一方面,智譜在自家視訊模型上線了捏ta;另一方面,二家基於智譜的CogVideoX-2模型等,在涅ta發起聯名活動。

月之暗面

你說巧不巧?DeepSeek-R1發佈一個半小時後,月之暗面官方公眾號宣佈了旗下Kimi k1.5多模態思考模型。

相關論文《Kimi k1.5:Scaling Reinforcement Learning With LLMs》中顯示,k1.5模型設計和訓練有幾個關鍵要素:

長上下文展開

k1.5團隊將RL的上下文窗口擴展到128k,背後的一個關鍵思想是使用部分展開(partial rollouts)來提高訓練效率。

策略最佳化改進

k1.5團隊推匯出long-CoT的RL公式,並採用線上鏡像下降的變體進行穩健的策略最佳化。

簡潔框架

上述二者的結合為通過LLMs學習簡歷了一個簡潔的RL框架,最終實現在不依賴蒙特卡洛樹搜尋、價值函數和過程獎勵模型等情況下實現更強性能。

多模態能力

即具備聯合推理文字和視覺兩種模態的能力。

2月12日,OpenAI展示o3輕鬆拿下IOI 2024金牌的那篇最新報告論文中,介紹部分就提及了DeepSeek-R1和Kimi k1.5分別通過CoT提升大模型在數學和程式設計上的性能。


MiniMax

現在回頭看1月20日,真的是神仙打架熱鬧非凡——

當天,MiniMax也有模型上新。

升級發佈T2A-01系列語音模型,並上線了海螺語音產品(同樣兼顧模型與產品的推動)。

T2A-01系列包含T2A-01-HD、T2A-01-Turbo兩款模型,API服務同步上線MiniMax開放平台。該系列模型支援17種語言及上百種預置音色。

依託該系列模型,在海螺AI,使用者僅需輸入文字即可生成自然、流暢的超擬人人聲,最長可輸入多達10000字元。且可根據需要自由組態輸出語音的情緒、語速、音高,甚至調整音色效果。

這裡特別提及一個1月20日前發生的事情,那就是1月15日,MiniMax創始人兼CEO閆俊傑對談《晚點》稿件發出,其中展示和透露出MiniMax在當時對2025年的調整和計畫。

最重要的一點就是“開源”。

如果重新選,第一天就應該開源。因為開源能加速技術進化。

這一點呼應了當日MiniMax官宣MiniMax-01系列模型,且發佈即開源。


其中,MiniMax-01首次大規模擴展了新型Lightning Attention架構,替代了傳統Transformer架構,使模型能夠高效處理4M token上下文。

綜上,截至推送,六小強近期動態如下:


被衝擊的不只是六小強

當然了,DeepSeek這頭深海巨鯨此次扔出R1,攪動的不僅僅是國內六家大模型獨角獸的圈子。

也就是說,放眼國內,被衝擊的不只是六小強,沒有一家科技巨頭或AI大模型公司置身事外。

衝擊之下有新的視角,新的轉變。

譬如DeepSeek「大膽啟用業界經驗不夠豐富的年輕技術人才,以此作為追求突破性技術創新一環」的故事,就在街頭巷尾廣為流傳,重新叩問了每一個企業對用人標準的定義。

譬如百度,在放出宣佈文心一言即將免費的消息後,緊跟著宣佈了決定背叛閉源大模型的決定——將在未來幾個月中陸續推出文心大模型4.5系列,並於6月30日起正式開源。

在被問到DeepSeek是否是意料之中時,李彥宏也在日前的迪拜AI峰會上坦言:

我認為,創新是不能被計畫的。
你不知道創新何時何地到來,你所能做的是,營造一個有利於創新的環境。

衝擊之下有新的發展,新的機遇。

雲端運算廠商和AI Infra平台/公司,第一時間上線DeepSeek API,不僅陸續搭載上671B滿血版,還爭相最佳化截斷率、回覆速度、精準率等等,有的還推出利多本地部署的框架,再破大模型推理門檻。

為湧入巨量使用者的DeepSeek分流,讓更多使用者從不同管道把AI用起來。

另一邊,以騰訊為例,從雲平台騰訊雲、騰訊雲旗下大模型知識應用開發平台知識引擎、國民應用微信、AI智能工作台ima、主力AI應用元寶全方位擁抱DeepSeek,紛紛宣佈接入R1模型,還用自身能力為其使用體驗添磚加瓦。

而華為、阿里、字節等大廠們及旗下應用、團隊們,也都在這樣做。

它們開放相容,擁抱的不光是DeepSeek,更是使用者體驗最佳的模型——不管是否是“純自研”。

還是那句話,神仙競技,凡人撿漏,AI普惠,多多益善。


當然,被攪動的池水裡,不止航行著國內的船隻。

放眼國際,DeepSeek的名字已經成為華爾街分析師會議上最高頻提到的AI公司。

隨著Alphabet(Google母公司)、AMD、Palantir和亞馬遜等科技巨頭公佈收益,DeepSeek被提及的次數還在增長。

外媒用很簡短的一句話形容這一“盛況”:

“DeepSeek, DeepSeek, DeepSeek。”


具體到國外大模型玩家身上,面對“DeepSeek衝擊波”,有急得跳腳的,也有反思與擷取精粹的。

單舉一個例子,就能看到頂尖巨頭對此作出“回應”的態度之綜合:

OpenAI,緊急地首次向使用者免費推出推理模型o3-mini,CEO奧特曼還在Reddit“有問必答”活動中罕見公開反思:

在開源權重AI模型這個問題上,(個人認為)我們站在了歷史錯誤的一邊。

去年12月底穩坐高台,拉長戰線連續直播12天的擠牙膏式打法不見了。

OpenAI現在已經能在一日之內連續官宣GPT-4.5幾周內上線,GPT-5幾月內面世,以及關於模型路線規劃調整、既有模型迭代更新的多個新消息。


而在大模型賽道之外,DeepSeek衝擊帶來的影響力如何,大家肉眼可見——

DeepSeek逢山開路,無數第三方爭先恐後接入合作R1、V3等模型。

據不完全統計,目前接入DeepSeek模型的第三方,包括infra平台、手機廠商、Web/App應用、智駕終端等在內,已超百家。

GitHub上,V3/R1不斷攀升的星標數量,代表著更多人可以把DeepSeek用起來。

然後生態繁榮,生生不息。


由是深海巨鯨向AGI更深處求索,丟下R1這枚深水炮彈後,坊間開始流傳一個新梗。

DeepSeek衝擊帶來的是什麼?

是「一鯨起,萬物生」。 (量子位)