#中國大模型
牌桌被掀,中國模型換了一種贏法
AI這場“絕命遊戲”中,IPO是勇士的勛章。AI圈今天的大事,大家都知道了。2026年1月8日,中國AI大模型初創公司智譜,正式在港交所掛牌上市,成為“全球大模型第一股”。一天後,另一家模型公司MiniMax,也將緊隨其後敲鐘。技術變革僅僅席捲三年,站上潮頭,實屬不易。2023年,這些AGI(通用人工智慧)的理想主義者,快速被推至台前。伴隨著高估值、高起點而來的,難免是最為嚴苛的審視和比較。比如2025年初,DeepSeek的異軍突起,促使六小虎中的幾家不得不迅速調整業務、裁撤團隊,才度過了至暗時刻。在厚雪長坡的大模型領域,任何暫時的落後、誤判,都會成為“德不配位”的佐證。即便在順利IPO的當下,比起祝福,帳上的虧損才更是人們的談資。但我們往往忽略了,恰恰是這一群資金不算雄厚、試錯成本卻不低的大模型創業公司,標記了中國大模型處理程序的幾個重要節點。中國首個MoE(混合專家架構)大模型,出自智源“悟道”,首款爆款AI應用Kimi,來自月之暗面。後來,全球首個能操作手機的通用Agent,是智譜發佈的AutoGLM,比後來的豆包手機早了整整14個月;現如今,全球首家IPO的大模型初創企業,也是來自中國的智譜。比起摳招股書上的虧損,如今對前沿創新型行業、對創業者們而言,更有價值的命題在於,分析這幾家中國大模型創業公司如何在競爭殘酷的大模型賽道呈現出強大的生命力,並如何一直在AI馬拉松上領跑。IPO,無論對於智譜和MiniMax,還是對於正在路上的科技創業者而言,都是一個樂觀的訊號——這意味著,創新者不會被時代輕易地拋棄。01. 六小虎重奪榮耀將時間倒回一年前,年初DeepSeek V3、R1的口碑爆發,讓六小虎一度迎來口碑和市場份額的至暗時刻。創新的訓練和推理架構,讓DeepSeek一躍成為國際上知名度最高的中國大模型,為了同開放原始碼的DeepSeek爭取市場聲量,六小虎也不得不忍痛割去閉源的部分利潤,快速跟進。於是,“失意”便成為了常態。脈脈資料顯示,截至2025年7月,41.07%的六小虎員工,將自己的狀態改成了“求職中”。但出乎意料的是,2025下半年以來,在模型研發的突破上,六小虎展現出了遠超預期的爆發力。“基座模型的性能,就是模型廠商的競爭力。”DeepSeek的掀桌,讓模型行業迅速拉齊了這一共識。其中,頗具火藥味的一幕發生在2025年7月。為了爭奪全球開源模型的SOTA的位置,各個玩家都使出了渾身解數。智譜的一名投資人告訴我們,DeepSeek之後的每一次模型迭代,智譜的員工都抱著“背水一戰”的信念,將性能打磨到“最Sharp”。2025年7月28日發佈的GLM-4.5,首發48小時內就一躍沖上Hugging Face的全球熱門榜榜首。同年9月,GLM-4.5在權威模型競技場ChatBot Arena及WebDev Arena全球排行榜中,還穩居全球前五。背水一戰的成果,是行業的良性競爭:旗艦模型的迭代節奏不僅更快,迭代質量還一直保持線上。GLM-4.5發佈僅兩個月後,智譜又交出了在Coding能力上與Anthropic、OpenAI並列第一的GLM-4.6;3個月後,在主流基準測試中,程式碼能力對齊Claude Sonnet 4.5的GLM-4.7,又緊接著開源。12月,在模型綜合能力榜單Artificial Analysis中,GLM-4.7獲得開源模型與國產模型雙料榜首。圖源:Artificial Analysis今天,智譜創立發起人兼首席科學家唐傑發佈內部信,宣佈將很快推出GLM-5。信中表示,在智譜旗艦模型GLM-4.7發佈後,其MaaS ARR年化收入從2000萬增至超5億,10個月獲25倍增幅,與Anthropic指數級增長同頻。另一個反轉的事實是,一度被認為“受到DeepSeek毀滅性打擊”的B端業務,反而在下半年成為了“確定的錢”。即便一舉動搖了B端市場,但DeepSeek的爆火,也變相完成了對企業客戶的市場教育。線性資本董事總經理鄭燦曾在媒體採訪中直言:“DeepSeek的作用,尤其體現在市場教育方面,格外節省了成本。”與此同時,企業客戶也意識到,強調模型能力的同時,B端服務是一套強調模型廠商行業認知、服務能力的體系。這意味著,理解企業的業務,為企業提供基於專業資料的定製化訓練和部署服務是有門檻的。很快,一些B端客戶發現了部署DeepSeek的弊端:幻覺多,在真正理解業務上有短板——半年後,市場對DeepSeek的追捧回歸了理性。相對地,做大了的B端蛋糕,被那些具有成熟服務能力的模型廠商承接了下來。最具代表性的案例,是以大模型API呼叫為主要商業模式的智譜。全球大模型平台OpenReutor的資料顯示,GLM-4.5和GLM-4.6自上線以來,呼叫量穩居全球前10,同時付費流量收入超過所有國產模型之和。更重要的是,大模型在B端的商業化生態,也逐漸擺脫“專做政企市場”“髒活累活”的刻板標籤,變得愈發成熟健康。智譜高級副總裁吳瑋傑在小紅書表示:在智譜的客戶群中,G端客戶不到20%,網際網路佔比50%;同時,公司本地化的毛利率一直保持在60%以上,是傳統公司均值的2倍,帳期也遠低於行業平均水平。在招股書中,我們或許只能看到,2025年上半年,來自本地化部署的收入佔比高達84.8%。但招股書無法顯示的一面是,隨著GLM-4.5等一系列高性能模型的發佈,API呼叫和訂閱,已經逐漸代替本地化部署,成為智譜收入的第一增長曲線。據36氪瞭解,僅智譜MaaS開放平台(bigmodel.cn)中面向開發者的訂閱產品GLM Coding,ARR在上線2個月內,就快速突破了1億元。2025年全年,智譜MaaS同比增速超900%,冪次增長態勢顯著優於海外龍頭同期表現。歸根結底,誰掌握最前沿的技術,誰就掌握了商業遊戲的制定權。02. 從“中國的OpenAI”轉向“世界的中國模型”一年前,以OpenAI為靶點的追趕,是一種常態。直到2024年末,AI資深從業者之間的共識,還是中國大模型與OpenAI差了將近6個月的時間。這也導致,OpenAI任何一次的模型更新和發佈,都會引發中國AI創業者的“被吞噬恐慌”。OpenAI創始人兼CEO Sam Altman曾直言:任何試圖在我們爆炸半徑內建立的初創公司或產品,都會被碾壓。今年開始,一個在模型領域悄然發生的轉變是,成為“中國的OpenAI”或者“中國的Anthropic”,不再作為一種定位或目標,被中國廠商們頻頻提起。中國模型被世界看到,已經是確定性的事實。其中的主力軍,不全然是資源優渥的大廠,而是幾家“續航能力”一度不被看好的六小虎。海外的商業化表現,是中國模型被海外市場認可和接納的側面印證。在兩家“六小虎”最近披露的招股書中可以看到,2025年截至9月30日,MiniMax的境外收入,佔到了總收入的73.1%。受到美國出口管制的智譜,看似在海外最大的北美市場失去了入場機會。但出人意料的是,36氪獲悉,智譜面向開發者的模型業務獲得自全球184個國家的15萬開發者每月付費。這意味著,無論是模型能力,還是性價比和落地場景,中國模型初創公司都有獨特的優勢。先來看一個美國開發者案例。2025年9月,一名來自美國的資料科學家Manpreet Singh發帖,控訴Anthropic旗下的Claude Code能力存在缺陷——早些時候,Anthropic官方也承認,由於推理堆疊的更新問題,Claude Opus 4.1和Opus 4的質量的確有所下降。但相對地,包含Claude Code使用權益的最低訂閱價(Pro方案,不包含Opus 4.1的使用權益),也要每個月17美元(合人民幣約120元)。最後,這名資料科學家轉向使用智譜旗下的模型GLM-4.5。他在部落格中提到,GLM-4.5的Coding性能接近Claude Sonnet 4,但API價格僅為後者的1/7,包含Coding功能的GLM Coding Plan,月費最低僅20元人民幣,價格是Claude Code的1/6。這是中國大模型的高性價比,被世界看見的一個縮影。智譜的模型GLM-4.6,這一年來出現在全球最大推理晶片公司Cerebras,主流AI平台Cline、Kilo、Vercel,以及AI Coding頂流工具Cursor和Windsurf的產品服務、基座模型中。月之暗面的Kimi-K2、MiniMax的模型,近期也上架了亞馬遜雲科技的模型服務平台Bedrock。此前,矽谷基金Social Capita的創始人Chamath Palihapitiya,就公然帶頭“倒戈”中國模型。將大量工作負載轉向Kimi K2後,他評價:“K2的性能確實足夠強,而且說實話,比OpenAI和Anthropic便宜太多了。”用高性價比,重建大模型的定價秩序,只是中國模型的一個側面。中國獨立模型開發廠商的存在,為全球客戶提供多元化的模型選擇、建立健康的商業生態,有至關重要的意義。其中一個典型案例是,2025年初,智譜拿下了某“一帶一路”國家的海外訂單,價值千萬美元。近期馬來西亞宣佈其國家級MaaS平台,基於智譜Z.ai的開源基礎模型建構。知情人士曾告訴36氪,這些訂單的性質,是“國家級主權大模型”的共建——出於國家資料安全的考量,第三方獨立模型廠商,將承擔愈發重要的角色。“在美國或歐洲競爭對手之前,(智譜)將中國的系統和標準鎖定在新興市場。”這股獨立力量的崛起,也引起了OpenAI的重視。2025年6月,OpenAI分析師發現,智譜在多個地區獲得了政府的訂單。他們評價:“智譜展示了一種負責任的、透明的、隨時可審計的中國AI替代方案。”這意味著,中國大模型絕對不是“平替”。正如智譜高級副總裁吳瑋傑所言:“中國開始輸出主權大模型,替國家建構數字主權。”03. 什麼是大模型的長期主義?在這個時間節點,很多人可能忘記了2023年初的景象。彼時技術的黑箱、高昂的成本,都讓大模型創業成為一場“絕命賭局”。美團聯合創始人王慧文最早躬身入局大模型賽道時,曾對36氪“智能湧現”直言:“現在(AI領域)我覺得大家要同舟共濟,別互相拆台。”“勇於踏上這條路的人我都鼓掌,上路的都是勇士。”兩年的時間,滄海桑田。六小虎之中,已經有兩家公司擱置了基座大模型的預訓練,或聚焦業務,往醫療這一垂類領域發力,或開始轉型,做各類行業解決方案。“活下去”,對大多數大模型創業公司而言,成為比“探索智力上限”更重要的命題。帳上的虧損,是這場“絕命賭局”的一個註腳。招股書顯示,智譜和MiniMax,兩家公司在過去三年裡燒了近110億元。其中,將近70%的支出用於模型研發。尤其是智譜,2024年研發投入高達21.95億元,佔當年總支出的約80%。曾有人將大模型之戰,比喻為“看不到終點,也停不下來的征途”。畢竟,每個先進模型的領先窗口,往往只有幾個月;而對於資源並不充沛的初創企業而言,每一次模型訓練,都是燃燒在數萬、數十萬張算力卡上的賭局。但如今,行業中形成的共識是:依然需要有人去做“難而正確”的事。科技行業的殘酷性在於,只有成功的一瞬會被銘記。但在這一瞬背後,創新者的投入是難以計量的。比如,在ChatGPT引爆科技圈的那個冬天之前,OpenAI已經蟄伏了近7年——前期GPT-1、GPT-2等“無名成果”的經驗累積,才造就了GPT-3.5。再比如2025年初一鳴驚人的DeepSeek,如果沒有此前團隊在MLA、新MoE架構、self-play等技術上的一系列創新,就不會有V3和R1的突破——其中的投入,是梁文鋒在訪談中隱隱透露的“與頭部大廠匹配的人才薪資”“不設上限的算力額度”。這也意味著,AI領域的長期主義,是持續創新和投入的定力。在玩家紛紛轉型或退場的當下,留在牌桌上的大模型公司,都是勇士。平心而論,MiniMax和智譜披露的虧損,是AI發展仍處於早期的證明,也是創新所需代價的客觀憑證。如果將110億元,與未來大模型能撬動的千億、兆增強相比,顯然是ROI極高的一筆投入。對於多數行業而言,IPO是一家企業的業務已經進入成熟期的標誌。但放置仍處於發展早期的AI行業,IPO有著更為深遠的意義。隨著近一年來,騰訊、字節、阿里的持續高調入場,大模型初創公司面對的競爭愈發白熱化。但市場仍然需要獨立的第三方開發廠商。事實證明,如今AI領域重要的創新和發佈,大多來自幾家初創企業。無論是海外的OpenAI、Anthropic,還是DeepSeek和留在牌桌上的幾家六小虎們——初創企業更為靈活的組織形態、不被業務慣性拖累的運行模式、更加中立,是大廠無可比擬的優勢。比如智譜此前對外表示,前十大網際網路公司九家都在用他們的模型,幾乎涵蓋所有頭部網際網路大廠的coding平台。IPO對資金籌措的好處是顯而易見的。比如,智譜此次IPO募資規模預計達43億港元——募資的效率,遠超面向一級市場的融資。更重要的是,IPO為中國模型公司,開闢一條通往世界的通道。當下,中國第一梯隊的模型公司,即便技術能力已經達到與國際一流廠商掰手腕的水平,但估值和市場認知度,依然與之相差甚遠。比如,法國AI模型公司Mistral AI的最新估值為140億美元;IPO前,MiniMax的估值約42億美元,智譜估值為243.8億元(約35億美元)。兩者的估值之間,幾乎有3-4倍的差距。上市的好處是顯而易見的:智譜和MiniMax將有望獲得更公允的價值評判,以及更廣泛的國際影響力。IPO後,智譜的市值預計超過500億港元,是此前估值的約2倍。與此同時,在廠商競爭力某種程度上也是人才競爭力的當下,IPO讓初創公司,在國際上有了更響亮的人才號召力。在這一意義上,對繼續攀登AGI高峰的勇士而言,IPO是給長期主義者的獎勵,給創新者的勛章。 (36氪)
中國大模型團隊登Nature子刊封面,劉知遠語出驚人:期待明年“用AI造AI”
過去半個世紀,全球科技產業的資本開支與創新節奏,都和一個規律緊密相連,那就是摩爾定律——晶片性能每18個月翻一番。在摩爾定律之外,還有一個“安迪-比爾定律”,它講的是,摩爾定律所主導的硬體性能提升的紅利,會迅速被軟體複雜度的增加所抵消。安迪指的是英特爾前CEO安迪·格魯夫,而比爾,指的是微軟創始人比爾·蓋茲。這種“硬體供給、軟體消耗”的螺旋上升,驅動了PC與網際網路時代的產業進化。時移世易,安迪、比爾都已經退出產業一線,但是規律的底層邏輯並未改變,而且被新的“安迪·比爾”推向更高的極致。ChatGPT的爆發拉開了生成式人工智能時代的大幕,在Scaling Law(規模法則)的主導下,模型參數指數級膨脹,軟體對算力的索取遠超摩爾定律的供給速度,AI發展的邊際成本急劇上升。當硬體供給遭遇能源、資料等天花板時,舊的“安迪比爾”式增長範式開始失效。產業需要一場逆向革命。大模型作為AI時代的“軟體”,需要通過極致的演算法與工程化重構,在現有硬體上爆發更強的能力。2025年,中國大模型公司成為這一路徑的最堅定實踐者。從DeepSeek V3通過細粒度混合專家(MoE)架構以1/10算力成本對標頂尖模型,到Kimi等團隊在稀疏注意力機制上的突破,被稱為“東方力量”的中國大模型公司,正試圖用架構創新努力拉平客觀存在的算力差距。清華大學電腦系副教授劉知遠及其聯合創立的面壁智能團隊,也是其中的典型代表。他們發佈的MiniCPM("小鋼炮")系列模型,僅用約1/10的參數規模,即可承載對標雲端大模型的智能水平,成為端側高效AI的案例。2025年11月,劉知遠團隊的研究登上全球頂級學術期刊《自然·機器智能》(Nature Machine Intelligence)封面,正式提出大模型的“密度法則”(Densing Law)。基於對51個主流大模型的嚴謹回測,論文揭示了驚人的非線性進化規律:從2023年到2025年,大模型的智能密度以每3.5個月翻倍的速度狂飆。這是一條比摩爾定律陡峭5倍的進化曲線。這意味著,每100天,就可以用一半參數量實現當前最優模型相當的性能。每100天成本減半,一年後成本就可能降至原來的十分之一。如此快的迭代速度,對技術創新、產業落地提出了不同以往的挑戰。劉知遠在與騰訊科技的對話中直言:如果一家大模型公司發佈一款新的模型後“3到6個月無法收回成本”,這家公司的商業模式就不可持續,因為後來者很快就能以四分之一的資源實現同等能力。當研發迭代周期被壓縮至百天量級,人類的智力供給已逼近極限,產業的終極形態必將發生質變。工業革命的標誌是機器製造機器,而劉知遠期待的AI時代生產力標誌,將是“用AI製造AI”。唯有如此,才能支撐這場超越摩爾定律的智能風暴。騰訊科技:我們今天的主題是您和團隊最新發表在《自然·機器智能》上的關於大模型“能力密度”(Densing Law)的論文。您能介紹一下這項研究的背景嗎?劉知遠: 雖然這篇論文是 2025 年發表的,但這個想法早在 2024 年上半年就已經開始萌生。2023 年初,ChatGPT 的出現引發了全球對大模型的追逐,中國團隊也不例外,當時大家都在研究如何復現 ChatGPT。到了 2023 年下半年,一線的團隊基本完成了復現工作。那時候我們開始思考大模型未來的發展路徑。有些團隊可能會繼續沿用 ChatGPT 的技術路線,通過增加參數規模、投入更多資料來訓練 GPT-4 水平的模型。這條路線雖然確定性高,但意味著要花費更多經費,這顯然不是一條可持續的發展路徑。你不可能無限地增加成本來換取更強的能力。因此,我們開始探討如何用更低的成本、更高的質量來實現模型能力。2024 年初,我們推出的 Mini CPM 系列模型驗證了這一點:我們可以用更少的參數,實現歷史上需要幾倍甚至幾十倍參數才能達到的能力。這是經驗性的結果,我們想尋找其背後的規律,於是促成了 2024 年對“密度法則”的探索。圖:Densing Law論文登上Nature Machine Intelligence封面騰訊科技:這項研究是否因為中國的國情,使我們更重視大模型的效率問題?它在國內外是獨一無二的嗎?劉知遠: 追求效率當然有中國算力有限的國情因素。我們必須關注如何用更少的算力實現更高品質的模型。這也是為什麼 2024 年下半年,《經濟學人》的一篇封面文章提到,中國企業正通過技術創新繞過“算力牆”,並舉了面壁智能和 DeepSeek 的例子。但同時,追求效率也符合人工智慧本身的發展規律。人工智慧是一場堪比工業革命的科技浪潮,如果要讓每個人都受益,技術就不能昂貴。我們必須像歷史上任何一次科技革命那樣,用更低的成本實現更高品質的產品和服務。因此,我們自信地認為,密度法則對人工智慧的未來發展具有重要意義。騰訊科技:在“密度法則”中,一個關鍵概念是量化“智能”,但這本身是一個難題。在研究開始前,您為什麼覺得這件事是行得通的?劉知遠: 這個問題問得非常好。實際上,我們在密度法則這篇論文裡並沒有真正解決“如何度量智能總量”這個科學問題,而是找了一條取巧的辦法:找一個參照物(Reference Model)。我們假設用同一套技術方案訓練的模型,無論尺寸大小,其密度大致相同。我們將這套方案訓練出的模型作為 Reference Model,並假設其密度為 1。然後,我們觀察目標模型達到某種智能水平時,Reference Model 需要多大參數才能達到相同水平。通過比較兩者達到相同能力所需的參數量,我們就可以算出目標模型的相對密度。這種方法規避了直接計算模型內部智能總量的難題。當然,如何衡量智能的總量(Mass)是未來幾年人工智慧需要攻克的基礎科學問題。歷史上任何大的科技革命背後都有科學理論支撐,如資訊理論之於通訊,熱力學之於蒸汽機。智能科學未來也需要解決如何衡量智能總量的問題。騰訊科技:您在2024年WAIC期間曾提到模型的“密度法則”周期是8個月,但最終論文的結果是3.5個月。為什麼進化的速度比您預期的快這麼多?劉知遠: 2024年年中我們剛有這個想法時,研究尚在初期,觀測的時間跨度和模型數量都有限,所以當時的資料不夠穩定。我們2024年下半年發佈的版本算出來是3.3個月,到今年正式發表時,我們補充了2025年的新模型資料,周期修正為3.5個月。其實,具體的周期是三個月還是八個月並非最重要,最重要的是,這個速度遠遠快於摩爾定律的18個月。這意味著我們正以前所未有的速度迎來一場智能革命。每100天成本減半,一年後成本就可能降至原來的十分之一。同時,我們確實觀察到了一個加速現象。2023年之前,這個周期接近五個月;2023年之後,則縮短到三個多月。我們猜測,這是因為ChatGPT引發了全球性的關注,更多的資源和人才投入加速了技術創新。所以,“密度法則”並非自然規律,而是我們人類社會在該科技領域的一種“自我實現”:投入越多,密度增長越快。騰訊科技: 剛才提到投入,大模型有暴力美學的 Scaling Law,您覺得 Densing Law 和 Scaling Law 是統一的還是矛盾的?劉知遠:我認為它們是硬幣的兩面,相輔相成。“規模法則”的表像是模型越大、能力越強,其背後是我們找到了一條通用的智能構造方案(Transformer架構+序列預測學習),使得在一個模型內持續增加智能成為可能。它開啟了通往通用人工智慧的道路。在坐標系中,“規模法則”是一條參數規模越大、模型能力越強的持續上升曲線。而“密度法則”告訴我們,通過在模型架構、資料治理、學習方法等方面的持續技術創新,我們可以用更小的參數承載更多的智能,從而找到一條更加“陡峭”的“規模法則”曲線。也就是說,用相同的參數實現更強的能力,或者用更少的參數實現相同的能力。所以,沒有“規模法則”就不會有“密度法則”,兩者都是人工智慧發展中至關重要的規律。騰訊科技:“規模法則”似乎正面臨資料、算力和能源的天花板。密度法則何時會遇到瓶頸?劉知遠: Scaling Law的持續發展確實面臨電力、算力、資料等約束。而 Densing Law 正是實現更可持續Scaling Law 的方式。通過技術創新提高密度,我們可以在算力或成本基本不變的情況下,持續提升模型能力。例如DeepSeek V3宣稱用 1/10 的算力實現同等能力,OpenAI 的 API 價格持續下降,都反映了內部通過技術創新用更小的模型提供同等服務。當然,資料枯竭問題可能需要依賴另一項技術——大規模強化學習來解決,即讓模型通過自我探索生成高品質資料進行學習。騰訊科技:2025年有那些讓您覺得驚豔的技術突破,能讓 Densing Law 更加陡峭?劉知遠:今年是模型架構創新的大年,主要有三個方向:第一,以DeepSeek V3為代表的細粒度混合專家(MoE)架構走向成熟,通過稀疏啟動少數專家來大幅提升計算效率。第二,稀疏注意力(Sparse Attention)機制大行其道,通過減少注意力計算中的內容參與度,有效處理長序列。這兩者分別最佳化了Transformer的FFN層和Attention層,實現了計算的“按需分配”。第三,復興循環神經網路(RNN)思想,通過與Transformer混合架構,利用其“記憶”機制降低計算複雜度。這些創新都在變相地提升模型密度。此外,大規模強化學習的應用也取得了巨大飛躍,尤其在數學和程式碼領域,模型通過自我探索持續提升能力,暫時還看不到盡頭。這解決了資料枯竭的問題。騰訊科技: 您覺得密度法則能推廣到多模態模型或世界模型嗎?劉知遠: 我認為這是一個普遍規律。雖然不同領域的倍增周期可能不同,但只要是通用的、遵循 Scaling Law 的模型,未來也一定會遵循 Densing Law。就像晶片摩爾定律和電池密度提升一樣,技術創新總是追求用更少的資源實現更高的性能。騰訊科技:您如何看待Google最新發佈的Gemini 3?它是否可被稱為里程碑式的突破?劉知遠:我們內部認為Gemini 3是一個非常重要的里程碑。它在圖像生成中對文字的控制達到了前所未有的高度,這表明其模型的可控性和對世界的理解能力達到了一個新水平。我們推測,它不只依賴於Diffusion模型,很可能將自回歸(Auto-regressive)的思想融入其中,實現了生成過程的逐層細化和高度一致性。歷史上,所有文生圖模型都難以處理好文字內容,Gemini 3的突破,在我看來是一個非常值得關注的新範式。這也印證了密度法則:只要能實現某種智能,未來一定可以在更小的終端上運行。比如 Gemini 3 現在的能力,未來一定可以在手機、PC 或汽車晶片上跑起來。騰訊科技: 現在還沒有出現能替代智慧型手機的端側 AI 裝置,是不是因為 Densing Law 還沒進化到位?劉知遠: 端側裝置的發展受限於多個因素。第一,還沒有形成好的端側應用場景。現在的手機助手雖然使用者多,但並未與硬體緊密結合。第二,端側技術生態尚未形成。AGI 發展還沒收斂,模型能力還在持續提升,且在產品設計上還沒法完全規避錯誤。就像早期的搜尋引擎也是經過產品打磨才普及一樣,AGI 結合智能終端也需要一個過程。一旦產品形態成熟,智能終端的廣泛應用就會成為可能。騰訊科技: 您提到 MiniCPM 4 可以看作一種“模型製程”,這個怎麼理解?劉知遠: 我更願意把這一代模型比作晶片製程。通過技術創新,我們形成了一套新的模型製程,無論建構什麼尺寸的模型,其密度都更高。例如 MiniCPM 4 在處理長序列時速度提升了 5 倍,意味著可以用更少的計算量承載更強的能力。但目前的挑戰在於,硬體支援還不夠好。我們正在努力做軟硬協同最佳化,希望在消費級硬體上真正跑出理想狀態。騰訊科技: 這需要和高通、聯發科等硬體廠商協同創新嗎?劉知遠: 我們跟硬體廠商交流密切。但硬體廠商受摩爾定律 18 個月周期的影響,架構調整更審慎。而模型每 3 個月就進化一次。所以短期內是軟體適配硬體,長期看硬體會針對穩定的新技術做最佳化。現在端側晶片廠商已經在認真解決大模型運行的瓶頸,比如訪存問題。騰訊科技: 之前大家嘗試過剪枝、量化等方法來做小模型,這和原生訓練的高密度模型相比如何?劉知遠: 我們做過大量實驗,剪枝、蒸餾、量化都會降低模型密度。量化通過後訓練可以恢復一部分效果,是目前端側比較落地的做法。但蒸餾現在已經融合進資料合成體系,不再是簡單的“大蒸小”。剪枝目前還沒找到保持密度的好方法。就像你不能通過剪裁把 14nm 晶片變成 7nm 晶片一樣,要把密度做高,必須從頭建構一套複雜的原生技術體系,包括架構設計、資料治理、學習方法和軟硬協同。這本身就是技術護城河。騰訊科技:“密度法則”對產業界意味著什麼?對於創業公司來說,機會在那裡?劉知遠:3.5個月的迭代周期意味著,任何一個投入巨資訓練的大模型,如果不能在3到6個月內通過商業化收回成本,這種模式就很難持續。因為很快就會有技術更新的團隊用更低的成本實現同樣的能力。因此,雲端API服務的競爭會極其慘烈,最終可能只會剩下幾家擁有海量使用者和強大技術迭代能力的頭部廠商。對於創業公司而言,機會可能在於“端側智能”。端側場景的約束條件非常明確(如功耗、算力、響應時間),這使得技術優勢,即誰能把模型密度做得更高,成為唯一的競爭點,大廠的“鈔能力”(如不計成本的投入)在這裡難以發揮。雖然手機廠商也在高度關注,但它們的決策會更審慎。我們認為,端側智能會先從智能座艙等對功耗不那麼敏感的場景開始,而最終,AGI時代一定會有屬於它自己的智能終端形態,這是我們希望探索的星辰大海。騰訊科技: 面對算力軍備競賽和快速折舊,您怎麼看泡沫論?劉知遠: 快速發展肯定伴隨局部泡沫,但整體上我們正進入智能革命時代。如果以 18 個月為周期,資訊革命走了 50 個周期;如果 AI 也走 50 個周期,按現在的速度,大概到 2030-2035 年就能實現全球普惠的 AGI。未來網際網路的主體不再只是人,還有無數智能體。雖然訓練模型的廠商會收斂,但推理算力需求會爆炸式增長。騰訊科技: 李飛飛(美國國家工程院院士)說 AI 是文明級技術,您對這場革命樂觀嗎?劉知遠: 我相當樂觀。騰訊科技:如果AI變得無比強大,未來人類會不會無事可做?劉知遠:我不這樣認為。未來一定是人機協同,人是把關人。人類知識大爆炸導致我們只能成為細分專家,阻礙了跨領域創新。人工智慧可以幫助我們成為知識的主人而不是奴隸,去探索宇宙、生命等更多未解之謎。騰訊科技: 您2026年最期待的創新是什麼?劉知遠: 我最期待“用 AI 製造 AI”。明年一個重要節點是自主學習(Self-play)。目前的強化學習還依賴人類給標準答案,未來模型如果能自主判斷探索結果的價值,就實現了自主學習。在此基礎上,結合密度法則的提升,我們有可能為每個人建構專屬的、持續學習的個人大模型。未來的生產標誌就是“用 AI 製造 AI”。不再依賴有限的人力,而是由 AI 來賦能 AI 的研發和製造。這將是一個指數級加速的過程。 (騰訊科技)
DeepSeek正在殺死中國大模型
中國創業公司的3年存活率,大約是10%,AI創業公司只會更低,DeepSeek的出現,加速了中國國產大模型公司的生死戰。短短的兩年半,從“百模大戰”到“十模共生”,就連被給予厚望的大模型“六小虎”,其中兩虎已經宣佈退出基模的研發。中國國產大模型公司之間的競爭相當慘烈,並且還沒有到終局,本文就來聊一聊,近期對大模型產業的觀察與思考。01. 基礎大模型,開始進入可用階段1、Agent爆發,標誌著基模進入可用階段人工智慧科學家吳恩達,曾提出Agent的四個核心要素:反思、工具呼叫、規劃和多智能體協作。比如,一個電商 Agent 能根據使用者需求自動比價、生成購物清單、跟蹤物流;一個醫療 Agent 能分析病例、輔助診斷、制定治療方案,等等。而 Agent 的核心能力“反思”,本質上則是依賴大模型的推理和深度思考能力 。2025年被稱為Agent元年,各種Agent已遍地開花,從釘釘智能客服,到位元組的扣子空間,再到百度心響App,以及剛剛融資5億的Manus。Agent興起不僅僅是一個趨勢,更是基礎大模型能力達到一個臨界值的標誌。只有大模型具備了足夠強的理解、推理和決策能力,才能支撐起現實世界中的各種應用場景。同時這也意味著,基礎大模型開始從研究、炫技階段,邁入可用、產業化的新階段。2、基礎大模型公司,不超過3家李開復曾公開表示,最終基礎大模型公司可能也就2-3家,其實道理很容易理解,基礎大模型是典型的技術密集、資本密集、資料密集型行業,壁壘極高,馬太效應非常明顯。訓練一個頂尖大模型,動輒需要上萬張高性能GPU,數月乃至更久的訓練時間,海量的優質資料,以及頂尖的演算法科學家團隊。這樣的投入,堪比“軍備競賽”,小玩家根本上不了牌桌。這一特點也基本注定基礎大模型的終局----只會留下極少數的基礎大模型“寡頭”。02. 盤點國內“第一梯隊”基礎大模型根據K哥的觀察以及行業內的普遍共識,目前國內基礎大模型第一梯隊玩家,大致有以下幾家:1、阿里Qwen:開源生態的 “基建狂魔”阿里的通義大模型佈局全面,通義系列模型從 0.5B 到 110B 全尺寸覆蓋,阿里 Qwen 系列已開源 200 余個模型,全球下載量超 3 億次,Qwen 衍生模型數超 10 萬個,已超越美國 Llama 成為全球最大的開源模型,開發者生態規模僅次於 Hugging Face。這種 “開源獲客 - 商業版變現” 的模式,跟Android系統的生態邏輯,有異曲同工之妙:通過免費開源吸引開發者、建立技術品牌影響力,再通過企業版、定製化服務盈利。比如,淘寶用通義千問最佳化推薦演算法,有效提升使用者轉化率;夸克推出的 AI 作業助手,覆蓋 K12 教育場景。更關鍵的是,阿里雲未來三年投入 3800 億建設 AI 基礎設施,自研的“光系列”晶片和液冷資料中心,為模型訓練提供了底層保障,讓大模型成為水電煤一樣的基礎設施,也讓自己的全棧技術佈局,成為別的企業難以踰越的護城河。2、深度求索DeepSeek:用工程創新 “掀翻桌子”火爆出圈的DeepSeek,則是憑藉驚豔的工程創新,在大模型江湖殺出一條獨特血路。它搞出降秩 KV 矩陣,搭配混合專家架構,參數數量直接砍掉約 60%,算力消耗大幅削減,訓練成本低至行業頭部模型的 1/10。還有它的 GROP 演算法強化學習,跳過傳統 SFT 微調,用 “模糊思考 + 精確證明” 的訓練套路,讓數學、程式碼生成任務上表現無可挑剔,在 LMSYS Org 榜單奪魁。更具前瞻性的是DeepSeek的開源策略,不僅建構起了以中國為圓心的全球 AI 生態,還在其他公司追求“更大更強”之際,用自己的技術實力和戰略眼光開闢了“更省更快”的新賽道,直接“顛覆”API 定價,把 AI 服務從高端“奢侈品”,變成大眾用得起的 “日用品”。3、位元組豆包:流量加持的“全能選手”位元組的 AI 戰略帶著鮮明的 “張一鳴烙印”:低調佈局,卻步步精準。張一鳴作為“一把手”,親自掛帥 AI 戰略,整合超千人的頂尖 AI 科學家軍團。而抖音、今日頭條等旗下產品,每天產生的海量視訊資料,更為其多模態模型提供了充分的“養料”。一個典型案例是 “豆包 AI 助手” 的迭代:初期只是簡單的聊天機器人,如今已能根據使用者輸入的文字生成短影片指令碼、自動剪輯視訊,甚至通過分析使用者表情推薦內容。這種 “流量 + AI” 的閉環,讓位元組的模型訓練擁有天然優勢。此外,位元組在視訊生成、即時互動等領域的技術突破,也在一步步重新定義和拓展“內容創作”的邊界。4、百度文心大模型:搜尋巨頭的 AI 涅槃百度是國內最早佈局大模型的公司之一,文心大模型已經迭代到 ERNIE 4.0 版本。其核心優勢在於“搜尋 + 大模型”的深度融合。比如,使用者搜尋 “如何煮咖啡”,文心大模型不僅能給出步驟,還能生成對應的視訊教學、推薦咖啡豆購買連結。這種 “內容+服務” 的一體化能力,讓百度在 To C 場景中佔據先機。網盤、文庫、地圖等國民級應用,幾乎都用AI重新做了一遍,而且商業上的表現格外亮眼,是國內第一批找到PMF的AI產品。此外,百度還在努力破圈,實現大模型的落地應用。比如,在工業領域,百度與三一重工合作探索裝置智能化維護。在政務場景中,百度依託文心大模型為某地區打造 “政務雲腦”,提升服務效率等。這家老牌大廠正持續發力,努力為自己在AI時代扳回一城。03. 中國需要更多DeepSeek除了以上四家大模型公司 ,國內AI圈還有一批極具潛力的“後浪”在奮力追趕,試圖在基礎模型或其核心能力上實現突破,成為下一個“DeepSeek”。1、智譜AI:開源+閉源,生態完整背靠清華大學知識工程實驗室,智譜 AI 帶著濃濃的 “學院派” 基因。它的 GLM 系列模型在中文問答、程式碼生成領域表現優異,其所堅持的“開源+閉源”雙輪驅動策略,更是捷報頻傳。開源方面,智譜2025 年大手筆開源多款模型,吸引全球開發者挖掘潛在問題、貢獻最佳化思路,模型性能也因此一路飆升;閉源商業化同樣風生水起,2024 年中標 32 個政府及企業項目,攬金 1.29 億元。在金融、醫療、政務等 20 多個行業裡,智譜的模型都成了核心生產力工具。智譜的發展如同它的定位,2G/2B 業務齊頭並進,一邊紮根政府項目,助力數字政務升級;一邊幫企業智能客服、智能辦公,全方位提升效率,讓自己的生態更完整,發展更穩健。2、MiniMax:音訊、視訊,一騎絕塵在多模態賽道尤其是音視訊領域,MiniMax絕對是不容忽視的存在。其自研的語音大模型能夠生成媲美真人的、富有情感的語音,在社交、遊戲、教育等場景有巨大潛力。在視訊生成上也同樣出色,輸入文字指令碼,幾秒鐘就能渲染出特效炫酷、劇情緊湊的短影片,極大降低成本。MiniMax推出的AI社交應用“星野”、AI助手“海螺AI”等產品,也展現了其將技術快速產品化的能力。此外,創始人閆俊傑曾是商湯科技副總裁,對技術和商業都有著極為深刻理解。在當前短視訊、直播帶貨火爆全網,對音訊特效、視訊內容自動化生產需求井噴的市場環境下,帶領MiniMax和各大短影片平台、音訊內容創作社區深度合作,為創作者持續輸送 “彈藥”,在垂直賽道越跑越快,一騎絕塵。3、月之暗面:長文字、數學能力強月之暗面專注長文字處理與數學推理,這堪稱知識密集型場景的硬核需求。比如,在學術研究領域,長篇文獻綜述撰寫,它能梳理海量文獻脈絡,精準提煉關鍵觀點;在金融風控領域,又能靠它分析長篇財務報告、挖掘隱藏風險點,給出量化評估建議。Kimi在數學推理等領域也展現出不俗的實力,其推出的 k0-math 數學推理模型在多個基準測試中表現優異,並在中考、高考、考研及 MATH 等基礎數學測試中的表現超越了 OpenAI 的 o1-mini 和 o1-preview 模型。4、階躍星辰:多模態領域表現突出階躍星辰成立短短兩年,就推出 22 款自研基座模型,其中 16 款多模態模型,佔比超 7 成,被稱為 “多模態卷王”。它堅持理解生成一體化路線,這種技術遠見,完美契合當下 AI 從多模態融合邁向一體化的大趨勢。階躍的多模態模型不僅在國內外權威榜單上頻頻奪冠,更是和產業界展開了深度融合,比如和 OPPO 手機合作 “一鍵問屏” 功能,使用者長按手機介面,就能智能檢索螢幕內容相關資訊;和智元機器人攜手,為具身機器人裝上 “智慧眼睛”,精準識別環境、靈活規劃行動路徑。此外,階躍星辰的商業化之路也走得非常紮實,比如茶百道接入它家Step-1V 多模態理解大模型,實現智能巡檢、AIGC 行銷,門店營運效率大幅提升,也讓階躍星辰收穫了更多的付費使用者。04. 最終比拚的是商業化能力從當年的“百模大戰”,到後來的“AI六小虎”,再到如今的“新基模五強”,為什麼短短兩三年的時間,就有那麼多紅極一時的AI企業,或出局或“泯然眾人矣”?一個極為重要原因就是:有些企業只懂燒錢做技術,不懂賺錢做商業。如上文提到的,大模型是資本密集型、人才密集型、資料密集型行業。但僅僅有錢、有人、有資料,就能成功嗎?未必。商業的本質是創造價值並獲取價值。技術再先進,如果不能轉化為使用者願意買單的產品或服務,不能形成可持續的商業模式,最終也只是曇花一現。這就像“必要條件”和“充分條件”的關係,錢、人、資料是必要條件,但成功的商業化才是充分條件。所以我們會看到,無論是OpenAI與微軟的深度繫結,通過Azure雲服務和Copilot系列產品變現;還是國內的阿里、百度、位元組,依託自身的雲服務和豐富應用場景推動大模型落地,都體現了“技術+場景+商業”的閉環邏輯。而這也恰恰暗合了商業達爾文主義:能活下來的一定是踩中時代節奏、滿足市場剛需、又能實現商業模式自洽的企業,而不會是技術浪漫主義者,或AI理想主義者。最後,中國或許真的不需要幾十上百家公司,都去卷基礎大模型。這既不經濟,也不高效。少數幾家巨頭在基礎模型層面持續投入,提供穩定、強大、且成本可控的“AI底座”就足夠了。更多的創新和機會,應該在於應用層,在於如何利用大模型,結合行業Know-how,解決實際問題,創造真正的商業價值。 (技術領導力)