#基礎大模型 | 熱門關鍵字 | 鉅亨號

【新智元導讀】中國基礎大模型市場，徹底變天了！如今牌桌上的玩家已經變成了「基模五強」——字節、阿里、階躍星辰、智譜和DeepSeek。接下來的巔峰之戰，關鍵制勝點又會在那裡？DeepSeek的橫空出世，已經徹底改變了全球的AI局勢。從此，不僅中美大模型競爭格局改變，國產大模型的產業版圖，也被一舉打破！縱觀中國基礎大模型的市場，可以看到，如今的基礎大模型版圖已然改天換地，演變為全新的五強格局——字節、阿里、階躍星辰、智譜，以及DeepSeek。新基模五強突圍，下一個制勝點在那？脫穎而出的這五強，為何能成為留在最後的玩家？答案很簡單——要麼有錢，要麼有人。前者，道理不言自明。訓練大模型是明牌重注，要麼得自家有糧，要麼就得有大腿。像字節、阿里、DeepSeek，都屬於有糧的類型；而智譜和階躍星辰，則無疑屬於後者。其中，上海隊的階躍星辰，最新一輪融資發生在24年底至25年初，B輪已融資數億美金；北京隊的智譜，在2025年3月已經拿下18億人民幣的融資。而說到人，當然就是高密度人才，尤其要有行業認可的技術領軍人物。我們仔細盤盤就能發現，五強在這方面是分足鼎立，各有骨幹。字節的吳永輝，阿里的吳泳銘、周靖人，階躍星辰的姜大昕、張祥雨、朱亦博，智譜的唐傑、張鵬，DeepSeek的梁文鋒，都是在業界足以撼動局勢的人物。滿足了有錢又有人，在這方面起跑線上各家都差不多，接下來要比拚的，就是硬貨了。基模五強，各領風騷其實仔細分析，就能發現這五強的共性。要麼是全才，模型的能力要能做到全面覆蓋，且性能在第一梯隊。要麼就是專才，模型在某一方面遙遙領先。阿里：開源王者，全球第三阿里以「開源王者」的獨特定位，不僅在國內市場佔據重要席位，更在全球AI開源生態中，穩居全球TOP 3模型貢獻者。斯坦福2025年人工智慧指數報告可以說，阿里是國內過最開源自研LLM網際網路巨頭，也是全球唯一一家實現「全尺寸、全模態」開放原始碼的雲端運算廠商。可以說，作為開源最早、最完整的大公司，阿里在AI的投入上最堅決，也是如今佈局最全、最先賺到錢的中國網際網路大廠。自2023年以來，通義團隊累積開源200+模型，涵蓋了千問（Qwen）大語言模型和萬相（Wan）視覺生成模型兩大基座系列。這些模型覆蓋了文字生成、視覺/語音理解生成、文生圖，以及視訊生成等全模態，參數規模從0.5B到235B不等，跨越119種語言及方言。兩年前，國內LLM市場尚處於「百模」混戰階段，阿里率先將Qwen-7B開源，吸引了全球開發者的關注。截至目前，Qwen全球下載量超3億，衍生模型數量超10萬，超越Llama成為全球第一開源模型。在Hugging Face社區，2024年Qwen系列佔全球模型下載量的30%以上，穩居第一。25年2月，Hugging Face全球開源大模型榜單中，排名前十開源模型全部基於Qwen二次開發在這場「燒錢」的遊戲中，未來三年，阿里還將投入3800億元用於AI研發，用於雲和AI硬體基礎設施，總額超過去十年總和。這一投入規模在國內網際網路公司中首屈一指，恰恰展現了阿里在AI賽道上的戰略決心。相較於其他大模型玩家，阿里憑藉成熟的商業化路徑和廣泛的客戶基礎，率先實現了投入到回報的閉環。截止2025年1月底，通過阿里雲百煉平台呼叫通義大模型API的企業已超過29萬。字節：巨型航母，重回創業字節的大模型以「綜合能力強」為特色，覆蓋了文字生成、圖像理解、視訊生成、語音處理等多模態領域。在這場技術與資源的巔峰對決之中，字節不僅在自研大模型和AI應用領域，展現出了「凶殘的戰鬥力」。目前，字節旗下的AI應用超20多款，爆火核心產品「豆包」憑藉其強大文字生成和多模態能力，迅速佔領使用者心智，月活使用者超1億。視訊生成工具「即夢」也被賦予了更高的戰略優先順序，已在虛擬偶像、電商直播等領域，實現商業化落地。同樣，字節在AI程式設計領域不敢落後。他們推出的AI程式設計工具Trae，直接對標Cursor等AI整合開發環境。在企業服務方面，基於豆包大模型，火山引擎「飛連」也在多場景落地AI應用等。字節的全面佈局，還體現在其生態整合能力上。通過抖音、今日頭條、飛書等平台，字節將大模型嵌入到內容推薦、協同辦公中，形成了技術到應用的生態閉環。而如今，字節以「巨型航母重回創業」姿態，憑藉雄厚資金、超高人才密度、多方向全面佈局，成為中國AI賽道領跑者之一。階躍星辰：低調的大模型國家隊跟其他家相比，階躍星辰可以算是這五強中最低調的大模型國家隊了。可以說，階躍星辰是生於上海、長於上海的國家隊。2024年底，階躍星辰完成了總額達數億美元的融資，核心投資方包括上海國有資本投資有限公司及其旗下基金，戰略和財務投資人包括騰訊投資、五源資本、啟明創投等。如今，才成立2年的階躍星辰，已累計發佈22款自研基座模型，覆蓋文字、語音、圖像、視訊、音樂、推理，其中有16款是多模態模型，性能領跑全行業，成為行業內公認的「多模態卷王」。其中，Step-1o Vision便在2025年初分別在知名大模型競技場Chatbot Arena和國內權威評估平台「司南」（OpenCompass）中，分別拿下了視覺領域中國大模型第一，以及多模態模型榜單第一的成績。更難得的是，階躍星辰的多模態矩陣既全面，又在全行業領先。要知道，多模態模型的核心，就是綜合能力，既要求語音、圖片、視訊多個模態的能力，又要求模型能理解、生成、推理。在此佈局上，階躍星辰的每條線都達到了第一梯隊。而多模還有一大難點，就是融合過程中不能損失單個模特的性能，尤其不能降智。而階躍星辰採取了原生多模的方式，在此方面經驗獨到。在階躍星辰看來，多模態是通往AGI的必經之路。隨著多模態互動和推理的融合愈加成熟，更多Agent會在智能終端上湧現。現在，階躍星辰正在發力徹底解決視覺領域根本難題——表徵和對齊的基礎問題，也即「predict next frame」。未來，按照階躍星辰的多模研發路徑，AI將能建模物理世界互動，模擬整個世界，建構世界模型。至此，AGI就將實現。在成立之初，姜大昕團隊曾繪製過這樣一幅智能演進路線圖，將智能進化分為模擬世界、探索世界、歸納世界三個階段與此同時，階躍星辰的核心技術人員已經在一線親歷十年AI發展，這支隊伍的人才密度極高，既有技術洞察，又有實戰經驗，堪稱是基模的「夢之隊」。其中，創始人、CEO姜大昕曾擔任微軟全球副總裁，微軟亞洲網際網路工程院副院長、首席科學家。入選2025年IEEE Fellow的姜大昕博士，是唯一來自中國大模型創業公司的入選者。而首席科學家張祥雨，其參與著作的《用於圖像識別的深度殘差學習》論文（ResNet）是21世紀以來全球被引用次數最多的論文，引用量已超過25萬次。商業化方面，目前已有多家頭部企業和大量AI應用開發者對階躍的多模態模型表示認可，紛紛接入。同時，階躍還將智能終端Agent視為大模型落地的核心突破點，已和吉利汽車、千里科技、OPPO、智元機器人、原力靈機、TCL等達成了深度合作。智譜：全端創新，發力智能體作為國內首個開啟IPO大模型創業公司，智譜背靠清華技術底蘊以「學院派」獨特氣質脫穎而出，在基座模型、多模態技術和智能體展開全面佈局。目前，智譜已經建立了新一代認知大模型技術體系，研發了全端自主GLM系模型，性能指標與國際頂尖LLM對齊。去年8月，GLM-4-Plus問世在多個任務上表現優異，與GPT-4系不相上下。今年4月，智譜再次開源32B/9B系列GLM模型，包括基座、推理和沉思模型。以320億參數比肩千億參數主流模型性能。其中的GLM-Z1-Rumination沉思模型，便是智譜對AGI下一代技術的最新探索。在智能體方面，智譜先於OpenAI提出Phone Use概念並推出Agent產品，並行布了全球首個集深度研究與實際操作於一體L3級智能體——AutoGLM沉思。如今，他們正憑藉AutoGLM及GLM-PC與全球車企、PC及手機廠商展開深度合作，推動大模型從Chat走向Act。智譜的商業化路徑以2G和2B業務為核心，深度繫結政府和企業需求。其建構了MaaS私有化部署和智能體平台等服務模型，形成了包含百萬規模開發者的模型服務新生態。據統計，MaaS平台支撐80余萬企業、應用開發者。這種學院派創業模式，使得智譜在技術深度和戰略穩定上，佔據領先優勢。DeepSeek：研究導向，厚積薄發DeepSeek，則是五強中目前最受國外矚目的一位。在中美AI競賽中，也是被提及最多、存在感最強的一家。可以說，這是一位特立獨行的技術奇兵，直接以一己之力，掀翻了大模型的牌桌。DeepSeek技術的特點，就是聚焦語言模型，特別是數理能力，走堅定的開源路線。今年過年時，DeepSeek-R1給全世界帶來了億點點震撼，以極低的計算資源，取得了媲美GPT-4等頂級AI模型的性能。相比OpenAI、Anthropic訓模型時動輒投入的數億美元資金、數萬張高端GPU，DeepSeek四兩撥千斤的核心秘訣，就在於下面這種極致的工程最佳化。比如，MoE架構讓模型總參數量達到671B，而在執行階段卻只需啟動37B，大幅降低了計算需求；多token預測（MTP），則提高了AI的訓練效率，避免逐字預測；多頭潛注意力（MLA），讓模型更精準地分配了計算資源。總之，DeepSeek成功的關鍵，就在於偏研究型的導向，而非以盈利為短期目標。從研究角度鼓勵工程師提效，不必面臨財務變現壓力。而DeepSeek團隊，也匯聚了多位頂尖人才。創始人梁文鋒，在用人上也有著自己獨特的原則。比如，以應屆和畢業一兩年的人才為主，不追求規模，而是建構小而精的團隊。隨著大規模的破圈，雲廠商、行業夥伴紛紛積極接入，讓模型的生命力持續旺盛。在DeepSeek的熱潮下，如今已經有億萬普通使用者開始擁抱AI。決戰下一階段「智能上限」與「多模態能力」當「基模五強」的格局初步形成，競爭的焦點也隨之轉向更為核心和前沿的技術領域。技術決勝點，聚焦何處？顯然，追求更高的「智能上限」和突破的「多模態能力」，已成為通往AGI路上必須搶攻的兩大技術高地。一方面，追求智能的上限，仍是當下大模型領域最重要的事情。當前領先的模型雖然在許多工中表現驚豔，但在邏輯推理、常識理解、長文字處理等方面，仍有較大的提升空間。提升智能上限的最終目標，是邁向能夠執行任何人類智力任務的AGI，這需要模型具備更深層次的理解、學習、推理和創造能力。另一方面，多模態理解與生成的統一是走向AGI的必經之路。人類通過多種感官與世界互動，並獲取資訊。要讓AI真正理解並融入複雜的世界，就必須賦予其處理和融合文字、圖像、音訊、視訊等多種模態資訊的能力。當理解與生成統一，不僅能推動智能體在智能終端的普及，還能通過具身智能與物理世界互動，自己收集環境資料，建構世界模型。在世界模型的基礎上，再加上複雜任務的規劃、抽象概念歸納的能力，強化學習演算法能力，以及超級對齊能力，就有可能實現AGI。總而言之，未來對更高智能上限的無盡探索和多模態能力的深度融合，將是決定這場競賽勝負的關鍵。如今站在AGI的門檻前，「基模五強」的競爭不僅是技術的較量，更是資源、人才、生態的全面博弈。字節、阿里、階躍星辰、智譜、DeepSeek這五大領軍者，正以其各自獨特的優勢和戰略遠見，引領中國AI不斷逼近世界前沿。而這場競爭的終點，或許正是AGI的曙光。 (新智元)

中美十家主要大模型公司平均每8.5天就會發佈一款新的基礎大模型，全球大模型賽程加快全球基礎大模型玩家主要在中國和美國，兩國核心玩家自今年初開始，在新一代大模型的發佈節奏上越來越密，一代比一代強——大模型的競爭中，卷模型這件事情依舊是確定的。4月29日凌晨4點，阿里發佈了Qwen3系列模型，這是阿里的大模型系列中最強的。它再次縮小和美國頭部基礎大模型之間的能力差。Qwen3在全球開發者社區GitHub發佈後四個小時獲得1.7萬個星標，刷新了開源大模型的熱度紀錄。Qwen3系列模型包含2個混合專家（MoE）模型和6個稠密（Dense）模型，覆蓋6億、17億、40億、80億、140億、320億、300億、2350億全尺寸參數規模。其中，Qwen3-235B-A22B是Qwen3系列模型中性能最強的，它僅次於全球性能最強的大模型——OpenAI旗下的o3。阿里Qwen3技術文件披露，它在基準測試中的得分，和DeepSeek-R1、OpenAI旗下的o1、o3-mini，Google的 Gemini-2.5-Pro等全球一流大模型不相上下。讓模型性能提升的有效方式包括，準備更多算力或更多資料。Qwen3沒有披露訓練過程使用的算力規模，但披露了使用的資料量。Qwen3技術文件披露，訓練使用的資料量相比上一代顯著增長。上一代Qwen2.5是在18兆個token（詞元，大模型推理算力單位，每個字元都是一個Token）上進行預訓練的，但Qwen3使用的資料量幾乎是其兩倍，達到了約36兆個token，甚至涵蓋了119種語言和方言。全球大模型行業在2024下半年一直存在一個共識——“Scaling Law”（規模定律，模型性能由算力、模型、資料規模決定）在放緩。簡單的堆砌算力已經無法讓模型性能得到大幅度提升。然而，沒有任何一家大公司因此放棄訓練基礎模型，它們仍在探索新的模型性能提升的方法。僅在今年1月至4月末，包括阿里、騰訊、字節跳動、百度、DeepSeek等中國主要的大模型公司，以及OpenAI、Anthropic（亞馬遜投資的AI創業公司）、xAI（特斯拉創始人馬斯克旗下的AI創業公司）、Google、Meta等美國主要的大模型公司均發佈了新款基礎大模型。2025年過去了119天，中國、美國參與模型競爭的10家主要大模型公司，發佈或更新了14款基礎大模型。平均每8.5天就會更新一款新的基礎大模型。大模型的軍備競賽，仍然在提速。大模型的軍備競賽強度加大2023年-2024年，全球大模型的性能提升幅度極大。2024年下半年開始有所放緩，但各家競爭強度依舊沒有降低，基礎模型能力的競爭仍然激烈。因為，模型能力始終是決定客戶規模的核心因素。一位科技公司演算法負責人今年1月曾對我們表示，大模型是長跑，模型每3個-6個月就會有一輪重大升級。長期迭代並保持性能領先很重要。一旦模型能力落後，就會被競爭對手搶走客戶。這也是為什麼，幾乎每一家大型科技公司，仍然在訓練自己下一代大模型。那怕需要萬卡、十萬卡，訓練也始終不會停止。中國大模型創業公司DeepSeek是加快賽程的鯰魚。DeepSeek在倒逼大廠重拾緊迫感。今年2月，一位中國科技公司大模型領頭人形容，“幾個大廠不緊不慢地賽跑。現在，賽道上突然橫插進一匹黑馬，但現在賽道上突然橫插進DeepSeek這匹黑馬，格局完全亂了。”他的團隊對DeepSeek-R1迅速參考借鑑後，在2月末上線了自研的推理大模型。他承認，這款模型是“趕鴨子上架”，整個訓練周期不到兩周，甚至沒有經過反覆測試就上線了。中國在這場模型競爭中，目前緊緊咬住了美國公司。國際市場調研機構Artificial Analysis今年1月末發佈的《人工智慧現狀：中國報告》顯示，美國大模型的性能依舊領先，但中國不落後，且差距在縮小。全世界最頂尖的21款模型，阿里的通義、DeepSeek等中國公司一共躋身六款，其中阿里有兩款。2025年大模型除了卷性能，另一個競爭方向是，降低算力成本。阿里雲通義大模型業務總經理徐棟4月9日對《財經》表示，2025年中國大模型的發展主脈絡之一仍是，提升精度並降低算力成本。這在工程化上有很多工作可以做。中國客戶最希望用到的模型，簡單說就是多、快、好、省。比如，阿里最新發佈的Qwen3家族模型，一共有八款。模型參數（可以理解成模型大小，參數越大往往性能越強、精度越高）覆蓋了6億、17億、40億、80億、140億、320億、300億、2350億等不同範圍。模型參數覆蓋廣，意味著可以適用於不同的業務之中，可以滿足多種需求。其中小尺寸模型可以在滿足基本需求的情況下節省算力成本，大尺寸模型則適合追求極限性能的使用者。Qwen3模型的部署成本大幅降低。其中Qwen3-235B-A22B這款旗艦模型參數雖然高達2350億，但由於採用了MoE（混合專家模型）架構，提問時它會把問題分派給不同的專家模型。因此，每次呼叫時只啟動220億參數。它所需要的算力也大幅減少。阿里方面稱，使用Qwen3-235B-A22B大致需要4張輝達H20 AI晶片。它消耗的算力僅為DeepSee-R1旗艦671B版本的25%-35%，模型部署成本可以降低60%。商業化是賽點為什麼一定要降低算力成本？邏輯很簡單。其一，2025年大模型的競爭焦點從訓練走向推理，低成本、高性能的模型變得更重要。其二，AI應用正在爆發，固化多年的網際網路應用格局可能會出現新的生機。對大廠來說，現在比兩年前大模型爆發初期的機會更多了，但競爭難度在變大。前兩年，它們只需準備萬卡算力、訓出千億參數的模型，然後看別人“卷”應用。現在，它們得買十萬卡的算力，訓又好又便宜的模型，還要自己下場在To B（面向企業級）、To C（面向消費者）兩個方向同時探索AI應用。不過正是由於模型性能不斷提升、成本不斷降低，它的商業模式正在逐漸跑通。某科技公司的一位戰略規劃人士透露，2024年中國各個模型廠商的模型呼叫收入普遍只有千萬元、數億元。這部分收入寥寥無幾。但模型呼叫帶來的算力消耗、公共雲四大件（計算、儲存、網路、資料庫）收入增長，反而更可觀。因此，阿里雲等廠商願意用免費開放原始碼的方式，刺激市場需求。國際市場調研機構IDC資料顯示，2024年12月中國大模型日均呼叫量9522億次，2024年6月這個資料只有963億次。也就是說，2024年6月-12月中國大模型日均呼叫量增長了近10倍。阿里、字節跳動等大廠的模型呼叫增長速度更快。《財經》瞭解到，阿里、字節跳動近一年日均Token呼叫量增長已經超過100倍。阿里方面預期，通義模型2025年模型呼叫增長量還將增長數十倍。這意味著阿里、字節跳動的這部分收入的規模將遠超2024年。某中國頭部科技公司的一位戰略規劃人士分析，以字節跳動旗下的豆包大模型為例，豆包日均token使用量12兆。如果模型呼叫價格不變，按照每百萬tokens平均定價0.8元計算，單月收入約為2.88億，全年收入有可能在30億元左右。不過這只是靜態、粗略的計算方式。因為隨著模型呼叫量數十倍增長，模型價格可能也還將以十倍的速度下降。另一家中國頭部科技公司的一位戰略規劃人士則認為，目前在雲端運算的賽場上，阿里和字節跳動競爭是最激烈的。字節跳動旗下雲服務火山引擎正在全力投入人工智慧，不惜用價格戰的方式爭奪阿里雲的市場份額。由於不計成本投入，火山引擎目前暫時尚在虧損。某雲端運算頭部公司的一位一線銷售人士今年1月曾對《財經》表示，火山引擎甚至用2折-3折的方式挖角阿里雲的客戶。《財經》獲得的一份資料顯示，火山引擎預計2025年營收將超過200億元，預計營收增速遠超60%。不過，阿里雲的優勢是，營收、利潤規模更大，目前有足夠厚的家底應對競爭，而且已經走上了正向循環。2024年阿里雲營收1135億元，同比增長7.3%；EBITA（阿里雲通常把EBITA利潤作為盈利指標，該口徑剔除了股權激勵、無形資產攤銷等非現金因素）利潤96億元，利潤率8.4%。阿里雲也是大模型的最大受益者之一。在大模型的帶動下，阿里雲2024年營收增速、利潤水平都在不斷回升。2024年四季度，阿里雲營收317.4億元，增速回升到兩位數，達到13.1%；EBITA利潤31.4億元，利潤率為9.9%，達到歷史最高水平。 (財經雜誌)