個人電腦也能跑出頂級程式設計智能體?今日凌晨,阿里開源了一款小型混合專家模型Qwen3-Coder-Next,專為程式設計智能體(Agent)和本地開發打造。該模型總參數80B,啟動參數僅3B,在權威基準SWE-Bench Verified上實現了超70%的問題解決率,性能媲美啟動參數規模大10-20倍的稠密模型。Qwen3-Coder-Next的主要增強功能如下:1、高效MoE架構:僅需啟動3B參數,可達到與啟動參數數量高出10-20倍的模型相當的性能,包括37B啟動參數的DeepSeek-V3.2、32B啟動參數的Kimi K2.5等,降低視訊記憶體與算力需求。2、更強智能體能力:擅長長段推理、複雜工具使用以及從執行失敗中恢復,在動態程式設計任務中性能強大。3、與真實世界的IDE多樣化整合:其256k的上下文長度,加上對各種腳手架範本的適應性,使其能夠與OpenClaw、Qwen Code、Claude Code、Web Dev、Browser use、Cline等不同的CLI/IDE平台無縫整合,支援多樣化的開發環境。Qwen3-Coder-Next在實際開發中能理解需求、編寫程式碼,還能與環境互動、完成任務,可以在沒有人工干預的情況下生成可玩的網頁遊戲,部署服務並自動測試。阿里在程式設計智能體上進展不斷。就在昨日,阿里雲CTO周靖人、阿里千問大模型技術負責人林俊暘署名的論文在Arxiv平台上發表,為推進下一代程式設計Agent的發展提供了新資源和可靠方法。簡單來說,他們提出了一個可擴展的高效框架SWE-Universe,用於從GitHub拉取請求自動建構真實世界的軟體工程(SWE)可驗證環境。利用一個建構Agent,團隊將真實世界的多語言SWE環境的數量擴展到接近百萬級(807693個)。最後,團隊將該技術應用於Qwen3-Max-Thinking,並在SWE-Bench Verified測試中取得了75.3%的高分。▲論文截圖回到本次面向產業推出的新模型來看,團隊已正式開源Qwen3-Coder-Next(Base)與Qwen3-Coder-Next(Instruct)兩個版本,支援研究、評測及商業應用多種場景。Qwen3-Coder-Next一經發佈引起了廣泛關注,有網友在社交平台X上稱這一模型“尺寸完美”,也有網友表示自己等便攜版的Qwen3-Coder已經很久了。▲社交平台X網友對Qwen3-Coder-Next模型的部分評論01.實測看齊10-20倍啟動參數模型趕超DeepSeek-V3.2儘管啟動參數規模很小,Qwen3-Coder-Next在多項智能體評測上仍能匹敵或超過若干更大的開源模型。該模型在SWE-Bench、TerminalBench 2.0和Aider等多個主流程式設計智能體基準上的表現如下。▲Qwen3-Coder-Next實測表現使用SWE-Agent框架時,Qwen3-Coder-Next在SWE-Bench Verified上達到70%以上,超過了DeepSeek-V3.2,接近GLM-4.7、MiniMax M2.1。在多語言設定以及更具挑戰的SWE-Bench-Pro基準上,Qwen3-Coder-Next同樣超過了DeepSeek-V3.2,還較大幅度領先於GLM-4.7、MiniMax M2.1。在效率方面,Qwen3-Coder-Next與同類模型在SWE-Bench-Pro基準上進行對比分析,每次推理僅啟動3B參數,卻能達到與啟動參數量達其10-20倍的模型相當的基準性能,包括37B啟動參數的DeepSeek-V3.2、32B啟動參數的GLM-4.7、32B啟動參數的Kimi K2.5等。雖然專有的全注意力模型在絕對性能上仍保持領先優勢,但Qwen3-Coder-Next在面向低成本智能體部署的應用場景中,仍能在效率與性能之間取得更優的帕累托權衡。▲Qwen3-Coder-Next實測表現02.創新智能體訓練配方:強化智能體訓練的訊號Qwen3-Coder-Next模型基於Qwen3-Next-80B-A3B-Base建構,採用混合注意力與MoE的新架構;通過大規模可執行任務合成、環境互動與強化學習進行智能體訓練,在降低推理成本的同時,提升程式設計與智能體能力。Qwen3-Coder-Next並不只依賴參數規模擴張,而是將重點放在擴展智能體訓練訊號(agentic training signals)上。團隊使用大規模的可驗證程式設計任務與可執行環境進行訓練,讓模型能夠直接從環境反饋中學習,而非僅依賴靜態文字。訓練過程主要包括:1、持續預訓練:在以程式碼與智能體為中心的大規模資料上進行。2、監督微調:基於高品質的智能體互動軌跡,最佳化模型的行為。3、領域專家訓練:針對軟體工程、問答、Web/UX等特定領域,精細化專家能力。4、專家知識蒸餾:最終將27個專家的能力融合至一個輕量的、可部署的單一模型。這套“配方”的核心目標,是教會模型長時程推理、熟練使用工具,以及從執行錯誤中有效恢復——這些正是實用程式設計智能體所需的核心能力。03.多樣化整合下游應用無人工干預完成遊戲生成部署Qwen3-Coder-Next的價值還體現在於其低部署門檻與應用體驗。得益於僅3B的啟動參數,開發者可靈活將其整合至多種場景:作為本地IDE外掛,實現自動修復與程式碼生成;建構命令列智能體(CLI Agent),通過自然語言操作終端、管理項目;部署於企業內部網路環境,打造私有化、高響應的程式設計輔助系統。“小啟動、快響應、強能力”為程式設計智能體的規模化落地提供了更具可行性的路徑。該模型可整合到多種下游應用中,下文展示其在OpenClaw、Qwen Code、Claude Code、Web Dev、Browser use、Cline等場景中的示例。1、Web Dev:建立聊天介面(Creating a Chat Interface)2、CLI:桌面清理(Desktop Cleanup)3、OpenClaw:建立聊天介面(Creating a Chat Interface)4、Browser Use Agent:在亞馬遜上搜尋商品(Searching for a Product on Amazon)5、coder.qwen.ai:開發一個五子棋遊戲(Building a Gomoku Game)04.結語:研發落地雙投入阿里加碼程式設計智能體程式設計智能體正成為阿里千問團隊的強攻領域。Qwen3-Coder-Next在程式設計智能體基準上表現強勁,展現了技術在實用場景中的應用價值。而周靖人、林俊暘署名的新論文則代表了其程式設計智能體新的前沿進展,形成了研發和落地兩條路快步走的趨勢。展望未來,團隊認為強大的智能體能力,如自主使用工具、應對難題、管理複雜任務,是更好程式設計智能體的關鍵。接下來團隊計畫提升模型的推理與決策能力、支援更多工,並根據使用反饋快速迭代更新。 (智東西)