中國創業公司的3年存活率,大約是10%,AI創業公司只會更低,DeepSeek的出現,加速了中國國產大模型公司的生死戰。短短的兩年半,從“百模大戰”到“十模共生”,就連被給予厚望的大模型“六小虎”,其中兩虎已經宣佈退出基模的研發。中國國產大模型公司之間的競爭相當慘烈,並且還沒有到終局,本文就來聊一聊,近期對大模型產業的觀察與思考。
1、Agent爆發,標誌著基模進入可用階段
人工智慧科學家吳恩達,曾提出Agent的四個核心要素:反思、工具呼叫、規劃和多智能體協作。比如,一個電商 Agent 能根據使用者需求自動比價、生成購物清單、跟蹤物流;一個醫療 Agent 能分析病例、輔助診斷、制定治療方案,等等。而 Agent 的核心能力“反思”,本質上則是依賴大模型的推理和深度思考能力 。
2025年被稱為Agent元年,各種Agent已遍地開花,從釘釘智能客服,到位元組的扣子空間,再到百度心響App,以及剛剛融資5億的Manus。Agent興起不僅僅是一個趨勢,更是基礎大模型能力達到一個臨界值的標誌。只有大模型具備了足夠強的理解、推理和決策能力,才能支撐起現實世界中的各種應用場景。同時這也意味著,基礎大模型開始從研究、炫技階段,邁入可用、產業化的新階段。
2、基礎大模型公司,不超過3家
李開復曾公開表示,最終基礎大模型公司可能也就2-3家,其實道理很容易理解,基礎大模型是典型的技術密集、資本密集、資料密集型行業,壁壘極高,馬太效應非常明顯。訓練一個頂尖大模型,動輒需要上萬張高性能GPU,數月乃至更久的訓練時間,海量的優質資料,以及頂尖的演算法科學家團隊。這樣的投入,堪比“軍備競賽”,小玩家根本上不了牌桌。這一特點也基本注定基礎大模型的終局----只會留下極少數的基礎大模型“寡頭”。
根據K哥的觀察以及行業內的普遍共識,目前國內基礎大模型第一梯隊玩家,大致有以下幾家:
1、阿里Qwen:開源生態的 “基建狂魔”
阿里的通義大模型佈局全面,通義系列模型從 0.5B 到 110B 全尺寸覆蓋,阿里 Qwen 系列已開源 200 余個模型,全球下載量超 3 億次,Qwen 衍生模型數超 10 萬個,已超越美國 Llama 成為全球最大的開源模型,開發者生態規模僅次於 Hugging Face。這種 “開源獲客 - 商業版變現” 的模式,跟Android系統的生態邏輯,有異曲同工之妙:通過免費開源吸引開發者、建立技術品牌影響力,再通過企業版、定製化服務盈利。
比如,淘寶用通義千問最佳化推薦演算法,有效提升使用者轉化率;夸克推出的 AI 作業助手,覆蓋 K12 教育場景。更關鍵的是,阿里雲未來三年投入 3800 億建設 AI 基礎設施,自研的“光系列”晶片和液冷資料中心,為模型訓練提供了底層保障,讓大模型成為水電煤一樣的基礎設施,也讓自己的全棧技術佈局,成為別的企業難以踰越的護城河。
2、深度求索DeepSeek:用工程創新 “掀翻桌子”
火爆出圈的DeepSeek,則是憑藉驚豔的工程創新,在大模型江湖殺出一條獨特血路。它搞出降秩 KV 矩陣,搭配混合專家架構,參數數量直接砍掉約 60%,算力消耗大幅削減,訓練成本低至行業頭部模型的 1/10。還有它的 GROP 演算法強化學習,跳過傳統 SFT 微調,用 “模糊思考 + 精確證明” 的訓練套路,讓數學、程式碼生成任務上表現無可挑剔,在 LMSYS Org 榜單奪魁。
更具前瞻性的是DeepSeek的開源策略,不僅建構起了以中國為圓心的全球 AI 生態,還在其他公司追求“更大更強”之際,用自己的技術實力和戰略眼光開闢了“更省更快”的新賽道,直接“顛覆”API 定價,把 AI 服務從高端“奢侈品”,變成大眾用得起的 “日用品”。
3、位元組豆包:流量加持的“全能選手”
位元組的 AI 戰略帶著鮮明的 “張一鳴烙印”:低調佈局,卻步步精準。張一鳴作為“一把手”,親自掛帥 AI 戰略,整合超千人的頂尖 AI 科學家軍團。而抖音、今日頭條等旗下產品,每天產生的海量視訊資料,更為其多模態模型提供了充分的“養料”。
一個典型案例是 “豆包 AI 助手” 的迭代:初期只是簡單的聊天機器人,如今已能根據使用者輸入的文字生成短影片指令碼、自動剪輯視訊,甚至通過分析使用者表情推薦內容。這種 “流量 + AI” 的閉環,讓位元組的模型訓練擁有天然優勢。此外,位元組在視訊生成、即時互動等領域的技術突破,也在一步步重新定義和拓展“內容創作”的邊界。
4、百度文心大模型:搜尋巨頭的 AI 涅槃
百度是國內最早佈局大模型的公司之一,文心大模型已經迭代到 ERNIE 4.0 版本。其核心優勢在於“搜尋 + 大模型”的深度融合。比如,使用者搜尋 “如何煮咖啡”,文心大模型不僅能給出步驟,還能生成對應的視訊教學、推薦咖啡豆購買連結。這種 “內容+服務” 的一體化能力,讓百度在 To C 場景中佔據先機。網盤、文庫、地圖等國民級應用,幾乎都用AI重新做了一遍,而且商業上的表現格外亮眼,是國內第一批找到PMF的AI產品。
此外,百度還在努力破圈,實現大模型的落地應用。比如,在工業領域,百度與三一重工合作探索裝置智能化維護。在政務場景中,百度依託文心大模型為某地區打造 “政務雲腦”,提升服務效率等。這家老牌大廠正持續發力,努力為自己在AI時代扳回一城。
除了以上四家大模型公司 ,國內AI圈還有一批極具潛力的“後浪”在奮力追趕,試圖在基礎模型或其核心能力上實現突破,成為下一個“DeepSeek”。
1、智譜AI:開源+閉源,生態完整
背靠清華大學知識工程實驗室,智譜 AI 帶著濃濃的 “學院派” 基因。它的 GLM 系列模型在中文問答、程式碼生成領域表現優異,其所堅持的“開源+閉源”雙輪驅動策略,更是捷報頻傳。
開源方面,智譜2025 年大手筆開源多款模型,吸引全球開發者挖掘潛在問題、貢獻最佳化思路,模型性能也因此一路飆升;閉源商業化同樣風生水起,2024 年中標 32 個政府及企業項目,攬金 1.29 億元。在金融、醫療、政務等 20 多個行業裡,智譜的模型都成了核心生產力工具。
智譜的發展如同它的定位,2G/2B 業務齊頭並進,一邊紮根政府項目,助力數字政務升級;一邊幫企業智能客服、智能辦公,全方位提升效率,讓自己的生態更完整,發展更穩健。
2、MiniMax:音訊、視訊,一騎絕塵
在多模態賽道尤其是音視訊領域,MiniMax絕對是不容忽視的存在。其自研的語音大模型能夠生成媲美真人的、富有情感的語音,在社交、遊戲、教育等場景有巨大潛力。在視訊生成上也同樣出色,輸入文字指令碼,幾秒鐘就能渲染出特效炫酷、劇情緊湊的短影片,極大降低成本。MiniMax推出的AI社交應用“星野”、AI助手“海螺AI”等產品,也展現了其將技術快速產品化的能力。
此外,創始人閆俊傑曾是商湯科技副總裁,對技術和商業都有著極為深刻理解。在當前短視訊、直播帶貨火爆全網,對音訊特效、視訊內容自動化生產需求井噴的市場環境下,帶領MiniMax和各大短影片平台、音訊內容創作社區深度合作,為創作者持續輸送 “彈藥”,在垂直賽道越跑越快,一騎絕塵。
3、月之暗面:長文字、數學能力強
月之暗面專注長文字處理與數學推理,這堪稱知識密集型場景的硬核需求。比如,在學術研究領域,長篇文獻綜述撰寫,它能梳理海量文獻脈絡,精準提煉關鍵觀點;在金融風控領域,又能靠它分析長篇財務報告、挖掘隱藏風險點,給出量化評估建議。
Kimi在數學推理等領域也展現出不俗的實力,其推出的 k0-math 數學推理模型在多個基準測試中表現優異,並在中考、高考、考研及 MATH 等基礎數學測試中的表現超越了 OpenAI 的 o1-mini 和 o1-preview 模型。
4、階躍星辰:多模態領域表現突出
階躍星辰成立短短兩年,就推出 22 款自研基座模型,其中 16 款多模態模型,佔比超 7 成,被稱為 “多模態卷王”。它堅持理解生成一體化路線,這種技術遠見,完美契合當下 AI 從多模態融合邁向一體化的大趨勢。階躍的多模態模型不僅在國內外權威榜單上頻頻奪冠,更是和產業界展開了深度融合,比如和 OPPO 手機合作 “一鍵問屏” 功能,使用者長按手機介面,就能智能檢索螢幕內容相關資訊;和智元機器人攜手,為具身機器人裝上 “智慧眼睛”,精準識別環境、靈活規劃行動路徑。
此外,階躍星辰的商業化之路也走得非常紮實,比如茶百道接入它家Step-1V 多模態理解大模型,實現智能巡檢、AIGC 行銷,門店營運效率大幅提升,也讓階躍星辰收穫了更多的付費使用者。
從當年的“百模大戰”,到後來的“AI六小虎”,再到如今的“新基模五強”,為什麼短短兩三年的時間,就有那麼多紅極一時的AI企業,或出局或“泯然眾人矣”?一個極為重要原因就是:有些企業只懂燒錢做技術,不懂賺錢做商業。
如上文提到的,大模型是資本密集型、人才密集型、資料密集型行業。但僅僅有錢、有人、有資料,就能成功嗎?未必。商業的本質是創造價值並獲取價值。技術再先進,如果不能轉化為使用者願意買單的產品或服務,不能形成可持續的商業模式,最終也只是曇花一現。這就像“必要條件”和“充分條件”的關係,錢、人、資料是必要條件,但成功的商業化才是充分條件。
所以我們會看到,無論是OpenAI與微軟的深度繫結,通過Azure雲服務和Copilot系列產品變現;還是國內的阿里、百度、位元組,依託自身的雲服務和豐富應用場景推動大模型落地,都體現了“技術+場景+商業”的閉環邏輯。而這也恰恰暗合了商業達爾文主義:能活下來的一定是踩中時代節奏、滿足市場剛需、又能實現商業模式自洽的企業,而不會是技術浪漫主義者,或AI理想主義者。
最後,中國或許真的不需要幾十上百家公司,都去卷基礎大模型。這既不經濟,也不高效。少數幾家巨頭在基礎模型層面持續投入,提供穩定、強大、且成本可控的“AI底座”就足夠了。更多的創新和機會,應該在於應用層,在於如何利用大模型,結合行業Know-how,解決實際問題,創造真正的商業價值。 (技術領導力)