中美十家主要大模型公司平均每8.5天就會發佈一款新的基礎大模型,全球大模型賽程加快
全球基礎大模型玩家主要在中國和美國,兩國核心玩家自今年初開始,在新一代大模型的發佈節奏上越來越密,一代比一代強——大模型的競爭中,卷模型這件事情依舊是確定的。
4月29日凌晨4點,阿里發佈了Qwen3系列模型,這是阿里的大模型系列中最強的。它再次縮小和美國頭部基礎大模型之間的能力差。Qwen3在全球開發者社區GitHub發佈後四個小時獲得1.7萬個星標,刷新了開源大模型的熱度紀錄。
Qwen3系列模型包含2個混合專家(MoE)模型和6個稠密(Dense)模型,覆蓋6億、17億、40億、80億、140億、320億、300億、2350億全尺寸參數規模。
其中,Qwen3-235B-A22B是Qwen3系列模型中性能最強的,它僅次於全球性能最強的大模型——OpenAI旗下的o3。阿里Qwen3技術文件披露,它在基準測試中的得分,和DeepSeek-R1、OpenAI旗下的o1、o3-mini,Google的 Gemini-2.5-Pro等全球一流大模型不相上下。
讓模型性能提升的有效方式包括,準備更多算力或更多資料。Qwen3沒有披露訓練過程使用的算力規模,但披露了使用的資料量。
Qwen3技術文件披露,訓練使用的資料量相比上一代顯著增長。上一代Qwen2.5是在18兆個token(詞元,大模型推理算力單位,每個字元都是一個Token)上進行預訓練的,但Qwen3使用的資料量幾乎是其兩倍,達到了約36兆個token,甚至涵蓋了119種語言和方言。
全球大模型行業在2024下半年一直存在一個共識——“Scaling Law”(規模定律,模型性能由算力、模型、資料規模決定)在放緩。簡單的堆砌算力已經無法讓模型性能得到大幅度提升。然而,沒有任何一家大公司因此放棄訓練基礎模型,它們仍在探索新的模型性能提升的方法。
僅在今年1月至4月末,包括阿里、騰訊、字節跳動、百度、DeepSeek等中國主要的大模型公司,以及OpenAI、Anthropic(亞馬遜投資的AI創業公司)、xAI(特斯拉創始人馬斯克旗下的AI創業公司)、Google、Meta等美國主要的大模型公司均發佈了新款基礎大模型。
2025年過去了119天,中國、美國參與模型競爭的10家主要大模型公司,發佈或更新了14款基礎大模型。平均每8.5天就會更新一款新的基礎大模型。大模型的軍備競賽,仍然在提速。
大模型的軍備競賽強度加大
2023年-2024年,全球大模型的性能提升幅度極大。2024年下半年開始有所放緩,但各家競爭強度依舊沒有降低,基礎模型能力的競爭仍然激烈。
因為,模型能力始終是決定客戶規模的核心因素。
一位科技公司演算法負責人今年1月曾對我們表示,大模型是長跑,模型每3個-6個月就會有一輪重大升級。長期迭代並保持性能領先很重要。一旦模型能力落後,就會被競爭對手搶走客戶。這也是為什麼,幾乎每一家大型科技公司,仍然在訓練自己下一代大模型。那怕需要萬卡、十萬卡,訓練也始終不會停止。
中國大模型創業公司DeepSeek是加快賽程的鯰魚。DeepSeek在倒逼大廠重拾緊迫感。今年2月,一位中國科技公司大模型領頭人形容,“幾個大廠不緊不慢地賽跑。現在,賽道上突然橫插進一匹黑馬,但現在賽道上突然橫插進DeepSeek這匹黑馬,格局完全亂了。”
他的團隊對DeepSeek-R1迅速參考借鑑後,在2月末上線了自研的推理大模型。他承認,這款模型是“趕鴨子上架”,整個訓練周期不到兩周,甚至沒有經過反覆測試就上線了。
中國在這場模型競爭中,目前緊緊咬住了美國公司。國際市場調研機構Artificial Analysis今年1月末發佈的《人工智慧現狀:中國報告》顯示,美國大模型的性能依舊領先,但中國不落後,且差距在縮小。全世界最頂尖的21款模型,阿里的通義、DeepSeek等中國公司一共躋身六款,其中阿里有兩款。
2025年大模型除了卷性能,另一個競爭方向是,降低算力成本。
阿里雲通義大模型業務總經理徐棟4月9日對《財經》表示,2025年中國大模型的發展主脈絡之一仍是,提升精度並降低算力成本。這在工程化上有很多工作可以做。中國客戶最希望用到的模型,簡單說就是多、快、好、省。
比如,阿里最新發佈的Qwen3家族模型,一共有八款。模型參數(可以理解成模型大小,參數越大往往性能越強、精度越高)覆蓋了6億、17億、40億、80億、140億、320億、300億、2350億等不同範圍。模型參數覆蓋廣,意味著可以適用於不同的業務之中,可以滿足多種需求。其中小尺寸模型可以在滿足基本需求的情況下節省算力成本,大尺寸模型則適合追求極限性能的使用者。
Qwen3模型的部署成本大幅降低。其中Qwen3-235B-A22B這款旗艦模型參數雖然高達2350億,但由於採用了MoE(混合專家模型)架構,提問時它會把問題分派給不同的專家模型。因此,每次呼叫時只啟動220億參數。它所需要的算力也大幅減少。
阿里方面稱,使用Qwen3-235B-A22B大致需要4張輝達H20 AI晶片。它消耗的算力僅為DeepSee-R1旗艦671B版本的25%-35%,模型部署成本可以降低60%。
商業化是賽點
為什麼一定要降低算力成本?邏輯很簡單。
其一,2025年大模型的競爭焦點從訓練走向推理,低成本、高性能的模型變得更重要。
其二,AI應用正在爆發,固化多年的網際網路應用格局可能會出現新的生機。
對大廠來說,現在比兩年前大模型爆發初期的機會更多了,但競爭難度在變大。
前兩年,它們只需準備萬卡算力、訓出千億參數的模型,然後看別人“卷”應用。現在,它們得買十萬卡的算力,訓又好又便宜的模型,還要自己下場在To B(面向企業級)、To C(面向消費者)兩個方向同時探索AI應用。
不過正是由於模型性能不斷提升、成本不斷降低,它的商業模式正在逐漸跑通。
某科技公司的一位戰略規劃人士透露,2024年中國各個模型廠商的模型呼叫收入普遍只有千萬元、數億元。這部分收入寥寥無幾。但模型呼叫帶來的算力消耗、公共雲四大件(計算、儲存、網路、資料庫)收入增長,反而更可觀。因此,阿里雲等廠商願意用免費開放原始碼的方式,刺激市場需求。
國際市場調研機構IDC資料顯示,2024年12月中國大模型日均呼叫量9522億次,2024年6月這個資料只有963億次。也就是說,2024年6月-12月中國大模型日均呼叫量增長了近10倍。
阿里、字節跳動等大廠的模型呼叫增長速度更快。《財經》瞭解到,阿里、字節跳動近一年日均Token呼叫量增長已經超過100倍。阿里方面預期,通義模型2025年模型呼叫增長量還將增長數十倍。這意味著阿里、字節跳動的這部分收入的規模將遠超2024年。
某中國頭部科技公司的一位戰略規劃人士分析,以字節跳動旗下的豆包大模型為例,豆包日均token使用量12兆。如果模型呼叫價格不變,按照每百萬tokens平均定價0.8元計算,單月收入約為2.88億,全年收入有可能在30億元左右。不過這只是靜態、粗略的計算方式。因為隨著模型呼叫量數十倍增長,模型價格可能也還將以十倍的速度下降。
另一家中國頭部科技公司的一位戰略規劃人士則認為,目前在雲端運算的賽場上,阿里和字節跳動競爭是最激烈的。字節跳動旗下雲服務火山引擎正在全力投入人工智慧,不惜用價格戰的方式爭奪阿里雲的市場份額。由於不計成本投入,火山引擎目前暫時尚在虧損。
某雲端運算頭部公司的一位一線銷售人士今年1月曾對《財經》表示,火山引擎甚至用2折-3折的方式挖角阿里雲的客戶。《財經》獲得的一份資料顯示,火山引擎預計2025年營收將超過200億元,預計營收增速遠超60%。
不過,阿里雲的優勢是,營收、利潤規模更大,目前有足夠厚的家底應對競爭,而且已經走上了正向循環。2024年阿里雲營收1135億元,同比增長7.3%;EBITA(阿里雲通常把EBITA利潤作為盈利指標,該口徑剔除了股權激勵、無形資產攤銷等非現金因素)利潤96億元,利潤率8.4%。
阿里雲也是大模型的最大受益者之一。在大模型的帶動下,阿里雲2024年營收增速、利潤水平都在不斷回升。2024年四季度,阿里雲營收317.4億元,增速回升到兩位數,達到13.1%;EBITA利潤31.4億元,利潤率為9.9%,達到歷史最高水平。 (財經雜誌)