#Qwen3-Next
阿里Qwen3-Next商用:開啟mamba架構時代,訓練便宜10倍推理快10倍!
底層架構換代升級大模型開始彎道超車9月12日,阿里通義千問發表了全新大模型Qwen3-Next系列以及系列首款模型Qwen3-Next-80B-A3B。這是一款開放原始碼的超稀疏MoE模型,也是全球第一款將mamba線性注意力架構從科學研究領域帶入大眾市場的大模型,可望直接開啟大模型底層架構市場的全面變革。新模型最突出的就是在長上下文應用中的極高效率和速度,Qwen3-Next-80B-A3B總共擁有80B參數,但每個token僅啟動3.9B參數,相比Qwen3-32B這種更小的模型,訓練便宜10倍,推理快10倍。尤其是在32K+上下文中,這種成本和效率價值更加突出。千問官方表示:Qwen3-Next-80B-A3B-Instruct接近自家235B參數旗艦模型產品。 Qwen3-Next-80B-A3B-Thinking表現優於Gemini-2.5-Flash-Thinking。目前使用者可在anycoder平台體驗兩款模型的Vibe Coding能力,也可在Qwen Chat中直接使用。不過由於是全新大模型底層框架,與Transformer長期累積下來的技術堆疊相容性未知,需要開源社區進一步運作,才能真正形成技術變革。架構基礎資訊根據官方資訊,Qwen3-Next-80B-A3B 採用了混合Transformer-Mamba 架構,結合了以下關鍵技術創新:混合注意力機制(Hybrid Attention):模型將傳統Transformer 的注意力機制取代為3個Gated DeltaNet全新mamba線性注意力層(平行)與1個Gated Attention傳統softmax指數注意力層的組合。這種混合機制解決了大模型隨著輸入資料量增加算力消耗呈指數型增長的問題,最佳化了超長上下文建模的效率,支援高達256K 令牌的上下文長度,相對於傳統Transformer 模型在處理長序列時的高計算複雜度,顯著降低了計算成本。這也是新模型框架中「線性」和「指數性」的含義。高稀疏性混合專家(MoE)架構:Qwen3-Next-80B-A3B 使用了高稀疏性的Mixture-of-Experts(MoE)架構,512名專家,10名路由+1名共享,總計80B 參數,但每次推理僅啟動3.9B 參數。這種設計透過選擇性地啟動部分專家網路,極大地減少了每token的計算量(FLOPs),從而提升推理速度和效率。例如,在處理超過32K 令牌的上下文時,推理吞吐量是Qwen3-32B-Base 的10 倍,同時訓練成本僅為後者的10%。穩定性最佳化:模型引入了零中心化和權重衰減的層歸一化(LayerNorm)等技術,以增強預訓練和後訓練的穩定性。此外,多token預測(Multi-Token Prediction, MTP)技術進一步提升了預訓練效能與推理速度。支援多語言和複雜任務:Qwen3-Next-80B-A3B 支援119 種語言,擅長工具呼叫和複雜推理任務,效能在某些基準測試中可媲美Qwen3-235B-A22B-Instruct-2507。什麼是Mamba線性架構?Qwen3-Next-80B-A3B明確採用了Mamba 架構,作為其混合Transformer-Mamba 架構的一部分。具體來說:Mamba 架構簡介:Mamba 是一種基於狀態空間模型(State Space Models, SSMs)的架構,最初由Gu 和Dao 等人提出(參考arXiv:2312.00752)。與Transformer 的二次複雜度(O(n²))注意力機制不同,Mamba 使用線性複雜度(O(n))的計算方式,透過結構化狀態空間序列(Structured State Space Sequence, S4)來高效處理長序列資料。 Mamba 的核心優勢在於其高效的上下文建模能力和較低的記憶體佔用,特別適合超長上下文任務。但容易遺失海量資料中的長期關係,因此主流操作都是與Transformer混合使用。這也是未來大模型底層架構技術的重要發展方向。Qwen3-Next-80B-A3B 中的Mamba 實現:根據官方描述,Qwen3-Next-80B-A3B 的混合注意力機制中,Gated DeltaNet是Mamba 架構的關鍵組成部分。 Gated DeltaNet 結合了門控機制(Gating)和Mamba 的狀態空間模型,透過動態選擇性地處理輸入序列,最佳化了長上下文的建模效率。這種機制與傳統Transformer 的全域注意力不同,Mamba 的線性複雜度使得模型在處理長序列時能顯著減少計算資源需求。在具體實現上,Gated DeltaNet 和Gated Attention 的結合可能透過以下方式實現:Gated DeltaNet:基於Mamba 的狀態空間模型,使用門控機制動態調整狀態轉移的權重,以更好地捕捉序列中的長期依賴關係。Gated Attention:在局部或特定場景下補充Transformer 風格的注意力機制,增強模型在短距離依賴或複雜推理任務中的表現。這種混合設計允許模型在保持Mamba 高效性的同時,保留Transformer 在某些任務上的優勢。Mamba 在MoE 架構中的作用:Mamba 的線性複雜度與高稀疏性MoE 架構結合,進一步降低了計算量。 MoE 架構透過選擇性地啟動少量專家(3.9B 參數),而Mamba 的高效序列處理能力確保了即使在超長上下文下,模型也能快速完成推理。例如,官方資料表明,Qwen3-Next-80B-A3B 在處理32K 以上令牌時,推理吞吐量顯著優於傳統密集模型。如何實現Mamba 線性架構?Mamba 線性架構在Qwen3-Next-80B-A3B 中的實現可以從以下幾個方面進行推測和分析:狀態空間模型(SSM)核心:Mamba 的核心是基於狀態空間模型的序列建模,其數學形式可以簡化為:[h_t = A h_{t-1} + B x_t, \quad y_t = C h_t]其中( h_t ) 是隱狀態,( x_t ) 是輸入,( A )、( B ) 是可學習的參數、參數或可學習的參數。 Qwen3-Next-80B-A3B 的Gated DeltaNet 可能透過門控機制動態調整( A ) 和( B ),以增強模型對不同情境的適應性。門控機制增強:Gated DeltaNet 可能藉鑑了Mamba 的改進版本(如Mamba-2),透過引入門控單元(如類似LSTM 的門控結構)來控制資訊流,從而在保持線性複雜度的同時提升模型的表現力。與Transformer 的混合:混合架構的實現可能透過分層設計完成。例如,模型可能在較低層級使用Mamba 的Gated DeltaNet 處理長距離依賴,在較高層引入Gated Attention 進行局部精細化建模。這種分層策略平衡了效率和效能。穩定性最佳化:為確保Mamba 和MoE 的穩定性,Qwen3-Next-80B-A3B 可能採用了專門的訓練技巧,如GSPO(Gradient-based Sparse Parameter Optimization),以解決混合注意力機制和高稀疏性MoE 在強化學習(RL)訓練中的穩定性挑戰。性能與優勢透過結合Mamba 的線性架構和MoE 的稀疏性,Qwen3-Next-80B-A3B 實現了以下優勢:高效率的長上下文處理:支援256K token的上下文長度,推理吞吐量高,適合檔案總結、長對話等任務。低訓練和推理成本:相較於Qwen3-32B-Base,訓練成本降低至10%,推理效率提升10 倍。強大的任務表現:在複雜推理和工具呼叫任務中表現出色,與更大規模的模型(如Qwen3-235B)表現相當。 (AI頓悟湧現時)
阿里深夜幹了件大事,成本暴降90%!
32B尺寸比肩235B性能,兩大新模型已開源。智東西9月12日報導,今天凌晨,阿里通義實驗室正式發佈下一代基礎模型架構Qwen3-Next,並訓練了基於該架構的Qwen3-Next-80B-A3B-Base模型,該模型擁有800億個參數,僅啟動30億個參數。Base模型在Qwen3預訓練資料的子集上訓練,包含15T tokens訓練資料,僅需Qwen3-32B 9.3%的GPU計算資源,針對超過32k的上下文,推理吞吐量可達到Qwen3-32B的10倍以上。同時,基於Base模型,阿里開源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思維模型(Thinking),模型支援原生262144個token上下文長度,可擴展至1010000個token。其中,Qwen3-Next-80B-A3B-Instruct僅支援指令(非思考)模式,其輸出中不生成<think></think>塊;Qwen3-Next-80B-A3B-Thinking僅支援思考模式,為了強制模型進行思考,默認聊天範本自動包含<think>。指令模型的性能表現與參數規模更大的Qwen3-235B-A22B-Instruct-2507相當,思維模型優於Google閉源模型Gemini-2.5-Flash-Thinking。▲指令模型測試基準▲思維模型測試基準在架構升級方面,相比阿里4月底的Qwen3 MoE模型,新增了混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的最佳化,以及提升推理效率的多Token預測(MTP)機制等。新模型已在魔搭社區和Hugging Face開源,開發者也可通過Qwen Chat或阿里雲百煉、NVIDIA API Catalog體驗Qwen3-Next。開發者在Qwen的X評論區稱讚其新增的多Token預測(MTP)機制,稱這是最令人印象深刻的部分。Qwen Chat地址:https://chat.qwen.aiHugging Face地址:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d魔搭社區:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a阿里雲百煉:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen301.指令模型接近235B旗艦模型思維模型超Gemini-2.5總的來看在性能方面,指令模型接近阿里參數規模235B的旗艦模型,思維模型表現優於Gemini-2.5-Flash-Thinking。其基座模型為Qwen3-Next-80B-A3B-Base,僅使用1/10的Non-Embedding啟動參數,在大多數基準測試中,性能表現與Qwen3-32B-Base相近。但其總訓練成本為Qwen3-32B-Base的10%不到。得益於其新的混合模型架構,Qwen3-Next在推理效率方面,與Qwen3-32B相比,Qwen3-Next-80B-A3B在預填充(prefill)階段,在4k tokens的上下文長度下,吞吐量接近前者的7倍,當上下文長度超過32k時,吞吐量提升達到10倍以上。在解碼(decode)階段,該模型在4k上下文下實現近4倍的吞吐量提升,在超過32k的長上下文場景中能保持10倍以上的吞吐優勢。具體來看,其指令模型表現優於Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,並取得了幾乎與參數規模更大的Qwen3-235B-A22B-Instruct-2507模型相近的結果。只有在面向大模型的綜合性評測基準、高難度數學推理基準AIME25中,指令模型的表現略遜色於Qwen3-235B-A22B-Instruct-2507,在程式設計、複雜問答與長對話的評測中表現更好。Qwen3-Next-80B-A3B-Instruct在RULER上所有長度的表現明顯優於層數相同、注意力層數更多的Qwen3-30B-A3B-Instruct-2507,甚至在256k範圍內都超過了層數更多的Qwen3-235B-A22B-Instruct-2507。思維模型的表現優於預訓練成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全面超過Google的閉源模型Gemini-2.5-Flash-Thinking,並在部分指標上接近阿里最新旗艦模型Qwen3-235B-A22B-Thinking-2507。02.混合注意力、MoE、穩定最佳化多Token預測加持研究人員在部落格中提到,Qwen3-Next是針對大模型在上下文長度和總參數兩方面不斷擴展的未來趨勢而設計。Qwen3-Next採用的是Qwen3 36T預訓練語料的均勻採樣子集,包含15T tokens的訓練資料,其訓練所消耗的GPU Hours不到Qwen3-30A-3B的80%;與Qwen3-32B相比,僅需9.3%的GPU計算資源,即可實現更優的模型性能。這一模型結構相較其4月底推出的Qwen3的MoE模型,新增了多種新技術並進行了核心改進,包括混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的最佳化,以及提升推理效率的多Token預測(MTP)機制等。混合注意力機制:用Gated DeltaNet(線性注意力)和Gated Attention(門控注意力)的組合替換標準注意力,實現超長上下文長度的有效上下文建模。研究人員發現Gated DeltaNet相比常用的滑動窗口注意力(Sliding Window Attention)和Mamba2有更強的上下文學習能力, 並在3:1的混合比例下,即75%層使用Gated DeltaNet,25%層保留標準注意力,能一致超過超越單一架構,實現性能與效率的雙重最佳化。同時在保留的標準注意力中,研究人員進一步引入多項增強設計,包括沿用先前工作的輸出門控機制,緩解注意力中的低秩問題,將單個注意力頭維度從128擴展至256,僅對注意力頭前25%的位置維度加入旋轉位置編碼,提高長度外推效果。高稀疏度混合專家(MoE):在MoE層中實現極低的啟動比率,大幅減少每個token的FLOPS,同時保留模型容量。研究人員的實驗表明,在使用全域負載平衡後,當啟動專家固定時,持續增加專家總參數可帶來訓練loss的穩定下降。此前,Qwen3系列的MoE專家啟動比約為1比16,Qwen3-Next實現了1比50的啟動比。穩定性最佳化:包括零中心化和權重衰減LayerNorm等技術,以及其他增強穩定性以實現魯棒的預訓練和後訓練。研究人員發現,注意力輸出門控機制能消除注意力池與極大啟動等現象,保證模型各部分的數值穩定。多Token預測(MTP):提升預訓練模型性能並加速推理,Qwen3-Next特別最佳化了MTP多步推理性能,通過訓練推理一致的多步訓練,進一步提高了實用場景下的投機採樣(Speculative Decoding)接受率。03.結語:3B啟動參數對標旗艦模型!阿里憑架構創新為模型降本提速Qwen3-Next的突破點在於同時實現了大規模參數容量、低啟動開銷、長上下文處理與平行推理加速。此外結合注意力機制、MoE設計等方面的多項架構創新,阿里通義此次實現僅啟動3B參數模型就能對標規模更大模型的性能,使得模型在性能與效率之間找到更佳平衡點,同時為降低模型訓練、推理成本提供了有效路徑。研究人員在部落格提到,未來他們將持續最佳化這一架構並開發Qwen3.5。與此同時近期阿里通義已經推出數個不同領域的模型,如超兆參數的Qwen3-Max-Preview、文生圖及編輯模型Qwen-Image-edit、語音識別模型Qwen3-ASR-Flash等。隨著其多領域模型的持續落地與開源,阿里通義在開源社區的技術影響力正逐步增強。 (智東西)