#Qwen3系列
阿里Qwen3深夜開源!8款模型、整合MCP,性能超DeepSeek-R1,2小時狂攬16.9k星
開源大模型新王!Qwen3連發8種規格支援119種語言。阿里通義大模型新成員Qwen3系列模型終於亮相!智東西4月29日報導,今日凌晨4點,阿里雲正式開源Qwen3系列模型,包含2個MoE模型、6個稠密模型。發佈2小時,Qwen3模型在GitHub上的star數已超過16.9k。其中旗艦模型Qwen3-235B-A22B,在程式設計、數學、通用能力等基準評估中的表現優於DeepSeek-R1、OpenAI o1、OpenAI o3-mini、Grok-3和Gemini-2.5-Pro等業界知名模型。此次全新升級的Qwen3系列有以下5大關鍵特性:8種參數大小的稠密與MoE模型:0.6B、1.7B、4B、8B、14B、32B和Qwen3-235B-A22B(2350億總參數和220億啟動參數)、Qwen3-30B-A3B(300億總參數和30億啟動參數);引入混合思考模式:使用者可切換“思考模式、“非思考模式”,自己控制思考程度;推理能力提升:在數學、程式碼生成和常識邏輯推理方面超越QwQ(在思考模式下)和Qwen2.5 instruct models(在非思考模式下);支援MCP(模型上下文協議),Agent能力提升:可以在思考和非思考模式下實現大語言模型與外部資料來源和工具的整合,並完成複雜任務;支援119種語言和方言:具備多語言理解、推理、指令跟隨和生成能力。目前,Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台上開源,均遵循Apache 2.0許可證。在部署方面,其部落格提到,建議開發者使用SGLang和vLLM等框架,並推薦本地部署的開發者使用Ollama、LMStudio、MLX、llama.cpp等工具。值得一提的是,Qwen3模型採用了不同的命名方案,後訓練模型不再使用“-Instruct”後綴,基礎模型的後綴是“-Base”。體驗地址:https://chat.qwen.ai/部落格地址:https://qwenlm.github.io/blog/qwen3/GitHub地址:https://github.com/QwenLM/Qwen3Hugging Face地址:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f01.以小搏大!啟動參數僅1/10 實現性能反超6個稠密模型中,0.6B~4B參數規模的模型上下文長度為32K,8B~32B參數規模的模型上下文長度為128K。2個MoE模型的上下文長度均為128K。小型MoE模型Qwen3-30B-A3B,在啟動參數是QwQ-32B的1/10的情況下,實現了性能反超。且參數規模更小的Qwen3-4B模型,實現了與Qwen2.5-72B-Instruct的性能相當。其他基準測試評估結果顯示,Qwen3-1.7B/4B/8B/14B/32B-Base的性能分別與Qwen2.5-3B/7B/14B/32B/72B-Base相當。其部落格還特別提到,在STEM、程式設計和推理等領域,Qwen3稠密模型的性能甚至優於參數規模更大的Qwen2.5系列模型。▲Qwen3系列與Qwen2.5系列基準測試對比02. 引入混合思考模式支援119種語言、MCP協議Qwen3系列模型的關鍵特性包括引入混合思維模式、支援119種語言和方言、整合MCP協議以提升Agent能力。其中,混合思維模式指的是支援思考和非思考兩種模式。思考模式下,模型會逐步推理,花費時間給出最終答案,這適用於需要深入思考的複雜問題;非思考模式下,模型提供快速、幾乎瞬間的響應,適用於對響應速度敏感的問題。▲思考和非思考模式對比這使得使用者可以根據任務需求控制模型進行的“思考”程度。例如,對於更難的問題可以使用擴展推理來解決,而對於較簡單的問題則可以直接回答,無需延遲。此外,這兩種模式的整合還增強了模型實施穩定和高效思考預算控制的能力,這種設計使使用者能夠組態特定任務的預算,平衡實現成本效率和推理質量。在多語言方面,Qwen3模型支援119種語言和方言。此外,Qwen3系列模型在程式設計和Agent能力方面性能提升,整合了MCP協議。03. 預訓練資料集翻番 模型兼顧逐步推理、快速響應與Qwen2.5相比,Qwen3的預訓練資料集大小翻了兩倍。Qwen2.5在1800億個token上進行預訓練,Qwen3基於大約3600億個token進行預訓練。為了這一大型資料集,研發人員收集了網路資料、PDF文件資料等,然後使用Qwen2.5-VL從這些文件中提取文字,並使用Qwen2.5提高提取內容的質量。同時,為了增加數學和程式碼資料量,研發人員使用了Qwen2.5-Math和Qwen2.5-Coder來生成教科書、問答對和程式碼片段等合成資料。預訓練過程分為三個階段:在第一階段,模型在超過3000億個token上進行了預訓練,上下文長度為4K個token。這一階段為模型提供了基本語言技能和一般知識;在第二階段,其通過增加STEM、程式設計和推理任務等知識密集型資料的比例來改進資料集,並讓模型在額外的500億個token上進行預訓練;第三階段,研發人員使用高品質的長上下文資料將上下文長度擴展到32K個token,使得模型可以處理較長的輸入。在後訓練階段,為了開發既能逐步推理又能快速響應的混合模型,研發人員採取了四階段訓練流程:思維鏈(CoT)冷啟動、基於推理的強化學習、思維模式融合、通用強化學習。第一階段,其使用多樣化的長思維鏈資料微調模型,涵蓋各種任務和領域,如數學、程式設計、邏輯推理和STEM問題,這個過程旨在使模型具備基本的推理能力。第二階段專注於擴大強化學習的計算資源,利用基於規則的獎勵來增強模型的探索和利用能力。第三階段,通過在長思維鏈資料和常用指令微調資料組合上微調,將非思考能力整合到思考模型中。這些資料由第二階段增強的思考模型生成,確保推理能力和快速響應能力的無縫融合。第四階段,其將強化學習應用於超過20個通用領域任務,包括指令遵循、格式遵循和Agent能力等任務,以進一步增強模型的一般能力和糾正不良行為。04. 結語:Agent生態爆發前夜最佳化模型架構和訓練方法推進智能升級通過擴大預訓練和強化學習的規模,可以看到Qwen3系列模型以更小的參數規模實現了更高的智能水平,其整合的混合思考模式,使得開發者能更靈活控制模型預算。研發人員還提到,未來其將圍繞以下幾個維度繼續提升模型能力:最佳化模型架構和訓練方法,以實現擴展資料規模、增加模型大小、延長上下文長度、拓寬模態的目標,並通過環境反饋推進長期推理的強化學習。如今,AI產業正從關注模型訓練的時代過渡到一個以訓練Agent為中心的時代,未來大模型能力的實際應用價值將逐漸被放大,通義大模型系列也正以此為目標繼續推進升級。 (智東西)
阿里Qwen3系列模型發佈,中美基礎大模型競爭強度加大
中美十家主要大模型公司平均每8.5天就會發佈一款新的基礎大模型,全球大模型賽程加快全球基礎大模型玩家主要在中國和美國,兩國核心玩家自今年初開始,在新一代大模型的發佈節奏上越來越密,一代比一代強——大模型的競爭中,卷模型這件事情依舊是確定的。4月29日凌晨4點,阿里發佈了Qwen3系列模型,這是阿里的大模型系列中最強的。它再次縮小和美國頭部基礎大模型之間的能力差。Qwen3在全球開發者社區GitHub發佈後四個小時獲得1.7萬個星標,刷新了開源大模型的熱度紀錄。Qwen3系列模型包含2個混合專家(MoE)模型和6個稠密(Dense)模型,覆蓋6億、17億、40億、80億、140億、320億、300億、2350億全尺寸參數規模。其中,Qwen3-235B-A22B是Qwen3系列模型中性能最強的,它僅次於全球性能最強的大模型——OpenAI旗下的o3。阿里Qwen3技術文件披露,它在基準測試中的得分,和DeepSeek-R1、OpenAI旗下的o1、o3-mini,Google的 Gemini-2.5-Pro等全球一流大模型不相上下。讓模型性能提升的有效方式包括,準備更多算力或更多資料。Qwen3沒有披露訓練過程使用的算力規模,但披露了使用的資料量。Qwen3技術文件披露,訓練使用的資料量相比上一代顯著增長。上一代Qwen2.5是在18兆個token(詞元,大模型推理算力單位,每個字元都是一個Token)上進行預訓練的,但Qwen3使用的資料量幾乎是其兩倍,達到了約36兆個token,甚至涵蓋了119種語言和方言。全球大模型行業在2024下半年一直存在一個共識——“Scaling Law”(規模定律,模型性能由算力、模型、資料規模決定)在放緩。簡單的堆砌算力已經無法讓模型性能得到大幅度提升。然而,沒有任何一家大公司因此放棄訓練基礎模型,它們仍在探索新的模型性能提升的方法。僅在今年1月至4月末,包括阿里、騰訊、字節跳動、百度、DeepSeek等中國主要的大模型公司,以及OpenAI、Anthropic(亞馬遜投資的AI創業公司)、xAI(特斯拉創始人馬斯克旗下的AI創業公司)、Google、Meta等美國主要的大模型公司均發佈了新款基礎大模型。2025年過去了119天,中國、美國參與模型競爭的10家主要大模型公司,發佈或更新了14款基礎大模型。平均每8.5天就會更新一款新的基礎大模型。大模型的軍備競賽,仍然在提速。大模型的軍備競賽強度加大2023年-2024年,全球大模型的性能提升幅度極大。2024年下半年開始有所放緩,但各家競爭強度依舊沒有降低,基礎模型能力的競爭仍然激烈。因為,模型能力始終是決定客戶規模的核心因素。一位科技公司演算法負責人今年1月曾對我們表示,大模型是長跑,模型每3個-6個月就會有一輪重大升級。長期迭代並保持性能領先很重要。一旦模型能力落後,就會被競爭對手搶走客戶。這也是為什麼,幾乎每一家大型科技公司,仍然在訓練自己下一代大模型。那怕需要萬卡、十萬卡,訓練也始終不會停止。中國大模型創業公司DeepSeek是加快賽程的鯰魚。DeepSeek在倒逼大廠重拾緊迫感。今年2月,一位中國科技公司大模型領頭人形容,“幾個大廠不緊不慢地賽跑。現在,賽道上突然橫插進一匹黑馬,但現在賽道上突然橫插進DeepSeek這匹黑馬,格局完全亂了。”他的團隊對DeepSeek-R1迅速參考借鑑後,在2月末上線了自研的推理大模型。他承認,這款模型是“趕鴨子上架”,整個訓練周期不到兩周,甚至沒有經過反覆測試就上線了。中國在這場模型競爭中,目前緊緊咬住了美國公司。國際市場調研機構Artificial Analysis今年1月末發佈的《人工智慧現狀:中國報告》顯示,美國大模型的性能依舊領先,但中國不落後,且差距在縮小。全世界最頂尖的21款模型,阿里的通義、DeepSeek等中國公司一共躋身六款,其中阿里有兩款。2025年大模型除了卷性能,另一個競爭方向是,降低算力成本。阿里雲通義大模型業務總經理徐棟4月9日對《財經》表示,2025年中國大模型的發展主脈絡之一仍是,提升精度並降低算力成本。這在工程化上有很多工作可以做。中國客戶最希望用到的模型,簡單說就是多、快、好、省。比如,阿里最新發佈的Qwen3家族模型,一共有八款。模型參數(可以理解成模型大小,參數越大往往性能越強、精度越高)覆蓋了6億、17億、40億、80億、140億、320億、300億、2350億等不同範圍。模型參數覆蓋廣,意味著可以適用於不同的業務之中,可以滿足多種需求。其中小尺寸模型可以在滿足基本需求的情況下節省算力成本,大尺寸模型則適合追求極限性能的使用者。Qwen3模型的部署成本大幅降低。其中Qwen3-235B-A22B這款旗艦模型參數雖然高達2350億,但由於採用了MoE(混合專家模型)架構,提問時它會把問題分派給不同的專家模型。因此,每次呼叫時只啟動220億參數。它所需要的算力也大幅減少。阿里方面稱,使用Qwen3-235B-A22B大致需要4張輝達H20 AI晶片。它消耗的算力僅為DeepSee-R1旗艦671B版本的25%-35%,模型部署成本可以降低60%。商業化是賽點為什麼一定要降低算力成本?邏輯很簡單。其一,2025年大模型的競爭焦點從訓練走向推理,低成本、高性能的模型變得更重要。其二,AI應用正在爆發,固化多年的網際網路應用格局可能會出現新的生機。對大廠來說,現在比兩年前大模型爆發初期的機會更多了,但競爭難度在變大。前兩年,它們只需準備萬卡算力、訓出千億參數的模型,然後看別人“卷”應用。現在,它們得買十萬卡的算力,訓又好又便宜的模型,還要自己下場在To B(面向企業級)、To C(面向消費者)兩個方向同時探索AI應用。不過正是由於模型性能不斷提升、成本不斷降低,它的商業模式正在逐漸跑通。某科技公司的一位戰略規劃人士透露,2024年中國各個模型廠商的模型呼叫收入普遍只有千萬元、數億元。這部分收入寥寥無幾。但模型呼叫帶來的算力消耗、公共雲四大件(計算、儲存、網路、資料庫)收入增長,反而更可觀。因此,阿里雲等廠商願意用免費開放原始碼的方式,刺激市場需求。國際市場調研機構IDC資料顯示,2024年12月中國大模型日均呼叫量9522億次,2024年6月這個資料只有963億次。也就是說,2024年6月-12月中國大模型日均呼叫量增長了近10倍。阿里、字節跳動等大廠的模型呼叫增長速度更快。《財經》瞭解到,阿里、字節跳動近一年日均Token呼叫量增長已經超過100倍。阿里方面預期,通義模型2025年模型呼叫增長量還將增長數十倍。這意味著阿里、字節跳動的這部分收入的規模將遠超2024年。某中國頭部科技公司的一位戰略規劃人士分析,以字節跳動旗下的豆包大模型為例,豆包日均token使用量12兆。如果模型呼叫價格不變,按照每百萬tokens平均定價0.8元計算,單月收入約為2.88億,全年收入有可能在30億元左右。不過這只是靜態、粗略的計算方式。因為隨著模型呼叫量數十倍增長,模型價格可能也還將以十倍的速度下降。另一家中國頭部科技公司的一位戰略規劃人士則認為,目前在雲端運算的賽場上,阿里和字節跳動競爭是最激烈的。字節跳動旗下雲服務火山引擎正在全力投入人工智慧,不惜用價格戰的方式爭奪阿里雲的市場份額。由於不計成本投入,火山引擎目前暫時尚在虧損。某雲端運算頭部公司的一位一線銷售人士今年1月曾對《財經》表示,火山引擎甚至用2折-3折的方式挖角阿里雲的客戶。《財經》獲得的一份資料顯示,火山引擎預計2025年營收將超過200億元,預計營收增速遠超60%。不過,阿里雲的優勢是,營收、利潤規模更大,目前有足夠厚的家底應對競爭,而且已經走上了正向循環。2024年阿里雲營收1135億元,同比增長7.3%;EBITA(阿里雲通常把EBITA利潤作為盈利指標,該口徑剔除了股權激勵、無形資產攤銷等非現金因素)利潤96億元,利潤率8.4%。阿里雲也是大模型的最大受益者之一。在大模型的帶動下,阿里雲2024年營收增速、利潤水平都在不斷回升。2024年四季度,阿里雲營收317.4億元,增速回升到兩位數,達到13.1%;EBITA利潤31.4億元,利潤率為9.9%,達到歷史最高水平。 (財經雜誌)