#Qwen3
燒掉300億後,阿里又新開戰場
外賣大戰沒有絕對贏家今年夏天的外賣補貼大戰,彷彿一瞬間把我們帶回了十年前的網際網路各種補貼大戰,不用再做複雜算術題,只要會點外賣就能享受優惠。相信大部分人或多或少都享受到了外賣優惠甚至免單,但我們吃爽了,幾家平台卻“虧爽了”,虧得最少的京東也付出了三季度虧損150億左右的代價。那麼網際網路巨頭們為何又捲出重來盯上“你手中的外賣”呢?因為“外賣真香”,外賣是苦生意,外賣成本高利潤薄,這些他們都知道。但是外賣業務卻是難以放棄的陣地,因為做閃購零售業務必須要做高頻業務來帶動,而外賣就是最好的切入點,沒有之一,只有外賣市場擁有新增1億日活訂單的可能。從阿里第三季財報我們可以看出這場“大戰”的必要性,財報顯示,包含即時零售在內,整個中國電商集團的EBITA同比減少了約338億元,主要由於“對即時零售、使用者體驗以及科技的投入所致”。本季度阿里現金流淨額為100.99億元,相比同期下降約68%,自由現金流從2024年同期淨流入137.35億元,變為淨流出218.40億元,主要因為“對即時零售的投入以及雲基礎設施支出增加”。財通證券、高盛對即時零售虧損的預估均為360億元,多家主流分析師認為在350億元左右。虧損確實不少,但是從流量入口的來算帳的話還是可以的,淘寶閃購日均訂單突破了8000萬單;淘寶APP日活使用者達4.4億(據QuestMobile資料),月活使用者首次突破10億,月度交易買家數達3億,相比4月提升200%。據蔣凡透露,10月以來,淘寶閃購的每單虧損較7、8月降低一半。淘寶閃購在第一階段完成了規模的快速擴張,第二階段的經濟效益最佳化符合預期,這為外賣業務長期可持續發展奠定了基礎,也增加了在即時零售長期投入的信心。不誇張的說,即時零售,100天閃電戰,一度追平友商單量規模。這一戰,讓阿里整合淘天、飛豬、餓了麼為阿里巴巴中國電商集團,並進一步演化為大消費平台,在競爭激烈的電商市場,重獲增長,收入增速恢復到15%,遠超拼多多的9%增速。另一方面,看空的聲音還很強,有些還有一定道理。據多家機構評估,Q3中國即時零售市場GTV(交易總額)中,美團與淘寶閃購的比例約為6:4,美團繼續以優勢領跑,在中高客單價市場,美團優勢更為明顯,在實付15元以上訂單的市場份額中佔比超三分之二,實付30元以上訂單的市場份額中佔比超過70%。訂單量上,本季度美團即時零售日均訂單峰值1.5億。從數字對比來看,美團用阿里五分之二的虧損,守住了60%的GTV份額,而且使用者與商戶生態未受衝擊,核心使用者還能持續拉新。客觀來說阿里的進攻當然沒有打垮美團,但是美團作為防守方短期內壓力會更大。雖然美團單均虧損只有一塊多,而阿里是三四塊,可以得出美團效率更高的結論。但正因為美團在市場中佔據接近六成的恐怖市場份額,會導致美團的總量虧損一定是更驚人的,線下履約鏈條是複雜且標準化程度相對較低的,每一單的虧損帶來的鏈條虧損一定是更多的。美團的護城河還在,但已經沒有那麼強了。相比之下,市場更注意的是美團護城河被侵蝕後能不能恢復。有美團人士對媒體表示,原來美團對戰爭很自信,但現在美團也不確定護城河能不能夠恢復,因為這是一個跟阿里長期博弈的過程。對阿里來說流量入口之戰已經迫在眉睫,阿里如果不做,市場份額會被美團、抖音、京東不斷地蠶食,這件事看似是進攻,其實也是在防守。Q3財報會議上阿里高管,已經將即時零售的重點放在最佳化投入結構、減少虧損上——本財季,是淘寶閃購投入的高點,整體投入會在下個季度出現“顯著收縮”。被問到"對消費者端的補貼是否維持原有強度"的時候,吳泳銘沒有直接回答,而是將話題多次轉向“客單價的上漲”,“改變我們的補貼方式”。但對阿里來說最好的流量入口真的只有外賣嗎?筆者覺得不一定,AI或許是更大更有前景的流量入口,且阿里已經拿到了一些入場券,有並不輸於同行的表現。阿里仍在加碼AI總的來看,市場目前最關心的還是AI驅動的雲端運算增長。對於外賣大戰是否能在長期拉動淘寶天貓的增長,資本市場半信半疑,尚未形成一致意見。高盛表示,市場低估了阿里雲在國際雲領域的增長潛力,以及國際雲的收入還要給獨立的雲估值,所以阿里的敘事非常吸引外資,尤其是在近期看到Google用TPU訓練出最好的Gemini 3模型後,阿里的敘事幾乎是一模一樣。從基礎設施到基礎模型,再到終端市場應用,正為阿里現有業務開闢增量增長空間與盈利機遇。阿里的財報足以證明高盛所言非虛,阿里在財報裡表示,旺盛的AI需求推動雲智能集團收入進一步加速,季度收入同比增長34%,其中AI相關產品收入連續9個季度實現3位數增長。阿里Qwen3-Max在多項專項測試中躋身全球第一梯隊,性能超越GPT-5、Claude Opus 4等國際頂級模型。據Omdia報告,2025年上半年,阿里雲在中國AI雲市場份額達35.8%,超過第二至第四名總和。在企業級市場,阿里雲的AI能力正被越來越多全球頭部客戶認可,NBA、萬豪、中國銀聯、博世等企業近期均與阿里雲達成AI合作。不難看出阿里在AI全產業鏈確定性很高的。尤其是從供給側來看,當前全球AI伺服器產業鏈各環節——從半導體製造廠、儲存器廠商到CPU供應商——自今年下半年起普遍缺貨,擴產周期至少需要兩三年。阿里最新的PPU晶片在關鍵參數上已經達到了輝達特供版H20的水平,在推理場景和雲服務協同方面具備優勢,其相容輝達CUDA生態對開發者較為友好。所以阿里在當前就會變得“比較搶手”,阿里可能是為數不多能夠對外提供高品質AI全端算力服務的企業。從市場角度來說,目前分析師都在關注,AI資本開支是否足夠,模型能力是否領先,沒有足夠的資金就不足以長期留在牌桌上。過去四個季度,阿里資本開支已達1200億元。對此,阿里巴巴CFO徐宏在財報電話會上明示:當前AI需求旺盛,未來不排除會根據需求再增加投入,“3800億元這個數還是提少了”。那麼阿里憑什麼這麼有信心呢?除了AI雲業務之外,阿里還有什麼大招呢?千問打開C端流量入口11月17日,阿里正式推出“千問”APP公測版,背靠其開源模型Qwen3,並同步宣佈國際版即將上線。事實上,把“千問”端上C端舞台,阿里有十六年連續投入與路徑累積。從2009年阿里雲成立,到達摩院設立、再到近年來在大模型領域的密集技術突破,阿里掌握“模型+算力+生態”三條命脈。技術層面,Qwen系列從0.5B到480B參數的全尺寸佈局、以及覆蓋文字、圖像、語音、視訊等全模態開源矩陣,使得阿里能把底層能力無縫派生到行業場景與終端應用。阿里不一定實現GoogleAI晶片的故事,但阿里的故事一定是基於自身特點生長出來的能力。11月初,香港大學商學院的講台上,阿里巴巴集團主席蔡崇信就給出了答案:AI 競賽的贏家,不是誰的模型最好,而是誰能讓更多人用起來。蔡崇信在對談中明確表示:阿里不靠模型賺錢,靠的是雲基礎設施變現。在很多人眼裡,阿里開源 Qwen 是一種公益性質的技術分享。但在阿里內部,它被視為撬動雲服務增長的一種必要決策。Qwen已經殺入了矽谷市場。Airbnb CEO布萊恩·切斯基公開表示,公司正“大量依賴Qwen”,因其比OpenAI模型更快更好。輝達CEO黃仁勳表示,Qwen已佔據全球開源模型的大部分市場,並在持續擴大份額。阿里開放原始碼的模型Qwen正在成為矽谷的根基。過去存在對於阿里系應用的刻板印象,那就是工具屬性強,用完即走,其使用者留存和流量成本也高,所以阿里是幾家大廠“流量飢渴”最嚴重的。但千問或許可以打破這個魔咒,千問App公測一周下載量突破1000萬次。千萬量級是AI產品的重要門檻,ChatGPT實現這一目標用了40天,DeepSeek用時20天,而千問僅用一周,刷新了紀錄。在傳統應用模式中,使用者需要打開多個App,分別完成介面點選、資訊篩選和格式轉換等步驟。但在千問的體驗中,上述任務可以通過一個復合指令觸發。另外,阿里巴巴正計畫將地圖、外賣、訂票、辦公、學習、購物、健康等各類生活場景接入千問APP,讓千問具備更強大的辦事能力。更重要的是,阿里把這些能力放在自有雲上進行訓練與推理最佳化,構成“訓練端—推理端—應用端”的閉環,這種閉環在落地效率與成本控制上對C端產品而言至關重要。千問助手與其說像APP,不如說正在成為一個作業系統,如果真的能夠成為一個相對完整能力的系統,那麼使用者留存和復購的問題就不再是問題。據《21世紀商業評論》,今年10月,豆包接入抖音商城,正式上線“商品卡”功能。使用者隨便問幾句商品推薦,豆包不僅提供資訊羅列,還附上連結,供點選跳轉到抖音商城。 總之,豆包的成績驗證了AI原生應用從零開始拔高流量,再用流量變現的路徑是可行的。這是阿里在C端的又一次創業,也是阿里擅長的資源創新戰役,過去的阿里雲如此,相信千問也會如此。寫在最後當前AI泡沫論不僅有市場,已經在美股和港股市場產生了一些擾動,但問題的關鍵真的是估值太高泡沫太大了嗎?筆者認為大眾更多的質疑還是在於AI實際產出比,能不能服務我的業務,產出比如何?而在這些方面,是阿里一直重點關注,所以阿里選擇了開放原始碼的路,一條短期在財報上會比較難看,建構AI基礎成本更高的路,但一定是條更踏實的路。 (首席商業評論)
阿里攻勢不減,這一仗是AI to C
將千問定義為“AI時代的未來之戰”,阿里並非一時興起,而是戰略的必然。阿里AI通往未來的野心越來越清晰了。11月13日,阿里巴巴傳聞將秘密啟動“千問”項目,當日股價最高上漲6%。11月17日,“傳言”落地成了現實:阿里巴巴正式官宣“千問”,全力進軍AI to C市場——千問App公測版正式上線,並同步提供網頁和PC版。面向全球市場的千問App國際版也將在近期上線,基於全球性能第一的開源模型Qwen3,以及與各類生活場景生態的結合,與ChatGPT直接對戰。上線首日,有消息稱千問公測便因使用者湧入過載,遭遇流量洪峰,部分服務出現擁堵和中斷。隨後,“阿里巴巴千問崩了”相關話題沖上微博熱搜。對此,阿里千問通過其官方微博回應稱:“我好著呢,狀態良好,歡迎來問。”11月18日,千問App在公測上線次日便迅速衝入蘋果App Store免費應用總榜第四位。市場對千問的熱情,首先源於技術期待。千問底座基於阿里開源模型Qwen3。自2023年全面開源以來,阿里Qwen在技術上全球領先。截至目前,Qwen共計開源模型超300款,覆蓋文字、程式設計、圖像等全模態,下載量突破6億次,衍生模型超17萬個。將千問定義為“AI時代的未來之戰”,阿里並非一時興起,而是戰略的必然。來源:受訪者今年9月的雲棲大會上,吳泳銘宣佈了阿里雲的新定位,要做全球領先的“全端人工智慧服務商”。通義千問希望成為下一代作業系統,阿里雲要成為“超級AI雲”,把Token做成未來的電。吳泳銘還拋出了一個關鍵論斷:“通用人工智慧AGI並非AI發展的終點,而是全新的起點。AI不會止步於AGI,它將邁向超越人類智能、能夠自我迭代進化的超級人工智慧(ASI)。”而通往ASI的第二階段便是“自主行動”,AI不再侷限於語言交流,AI掌握工具使用和程式設計能力以“輔助人”,且具備了在真實世界中行動的能力。這裡面有兩個隱含的重要資訊,一個是“全端”。AI發展至今,已經不是單純技術上的迭代和比拚了,而是一場體系性的革命。這意味著大廠之間的競賽已經不侷限於軟體/硬體、B端/C端的單點突破,而是全鏈條的競爭,任何一個環節的短板都有可能成為制約整體的瓶頸。阿里在模型層上很強,但在與海外ChatGPT、Gemini的全端比拚中,要追求系統上的最優,在C端的佈局不能過於謹慎。另一個重要資訊便是ASI的“自主行動”。不久的未來,AI將重構整個基礎設施、軟體和應用體系,顛覆人機互動的入口。從這個角度來看,千問比拚的也並非單純的C端應用能力,更是下一代的流量入口。AI to C,阿里必須要做,而且必須要贏。而千問,正是目前承載著阿里野心的最佳載體。01 阿里的AI野望目前的千問App幾乎整合了通義系模型的能力,在千問的對話欄中,支援深度思考、AI修圖、翻譯、即時記錄、拍照講題、AI生視訊、PPT創作、AI生圖等多種功能。阿里方面表示,這次發佈的千問App還只是一個初級版本,它不僅“會聊天”,未來還將成為“能辦事”的AI助手。雖然剛剛上線,千問已經展現出了一定的辦事能力。比如,一句指令就能在幾秒鐘完成一份研究報告,並製作成幾十頁的精美PPT。這種產品形態,與全球已擁有8億使用者的ChatGPT有著明顯的相似性。二者均以全場景AI入口為核心定位,通過統一的互動介面,滿足使用者從日常閒聊、知識查詢到複雜任務處理的全維度需求。在當下的全球競爭中,使用者對AI工具的期待已從單點功能轉向全端賦能:一個基礎模型如果只支援文字或者圖像某一個能力,未來空間必然受到制約。但在“模型即產品”的時代邏輯下,C端產品強大與否,更要看底層能力。在這一層面,阿里雲有充足底氣。Qwen下載量超過Llama。來源:受訪者自全面開源以來,阿里Qwen已經超越Llama等模型,成為全球性能最強、應用最廣泛的開源大模型。在AI雲端運算層,阿里巴巴營運著中國第一、全球領先的AI基礎設施和雲端運算網路。三方機構Omdia資料顯示,中國AI雲市場阿里雲佔比35.8%,超過2到4名總和;在已採用生成式AI的財富中國500強中,超53%的企業選擇阿里雲,滲透率位列第一。黃仁勳在2025年GTC大會上的演示,Qwen在全球開源模型中市佔率最高且還在增長。來源:受訪者Qwen還在迅速搶佔矽谷市場。Airbnb CEO布萊恩·切斯基公開表示,公司正“大量依賴Qwen”。輝達CEO黃仁勳也表示過,Qwen已佔據全球開源模型的大部分市場,並在持續擴大份額。近期,阿里發佈的旗艦模型Qwen3-Max,性能超過GPT5、Claude Opus 4等國際競爭者,躋身全球前三。不久前,千問更在與ChatGPT、Gemini、Grok等全球頂級模型PK的實盤投資大賽中斬獲冠軍。對阿里而言,並非此時才開始重視AI C端,而是阿里這一場AI敘事的線索彙集到今天,放大C端戰果的時機剛好成熟。吳泳銘在雲棲大會上的發言佐證了這一點。當各家科技公司還在“通用人工智慧”(AGI)道路上苦苦求索、爭論不休時,吳泳銘已對下一程“超級人工智慧”(ASI)打開暢想,其意在展露阿里對AI長期投入的決心。面向未來,吳泳銘將通往ASI的路徑分為三個階段:第一階段是“智能湧現”,AI通過學習人類知識具備泛化智能,目前通義千問已進入這一階段;第二階段是“自主行動”,AI掌握工具使用和程式設計能力以“輔助人”;第三階段是“自我迭代”,AI通過連接物理世界的全量原始資料實現自學習,最終達成“超越人”。阿里管理層認為,目前大模型的能力已經進入到“輔助人”的Agentic AI時代。C端應用湧現並接入現實場景的時機已到。阿里千問項目的產品經理在接受《晚點LatePost》採訪時提到:當下做C端的時機剛剛好,一方面是模型成熟度,Qwen3-Max整體性能、效果都已經達到全球領先。另外不管是三方生態,還是阿里集團內部,Agent生態都到了更能被模型普遍呼叫、能解決更多問題的階段。儘管現在國內已經有多款大模型產品提供給C端使用者選擇,但在阿里千問項目的產品經理看來,“客觀來說,還處於初級階段,還沒有真正演進到能解決很多實際問題的程度。”02 打造未來的AI生活入口那麼,AI to C為何在今天對阿里變得如此重要?在阿里的生態中,現有最大體量的to C產品無疑是淘寶、支付寶、高德。而下一個時代,流量入口或許將被AI重構。從這個角度思考,就不難理解阿里全力投入AI to C的必要性——這並非單純的C端產品競爭,而是一場事關未來入口的爭奪戰。強大的模型和完整的生活消費生態,構成阿里AI to C的競爭力。阿里方面也表示,千問App的戰略目標是打造未來的AI生活入口,成為阿里全端生態系統的“中樞神經”。比如,在傳統手機OS裡,淘寶找商品、支付寶付錢、飛豬訂酒店,每個步驟都要切換App。未來,千問或將讓使用者無需關心“服務來自那個App”,只需說“規劃周末親子游,訂門票、酒店,用餘額寶支付”,系統便可以在淘寶上比價下單,或自動完成跨平台協同,打破應用壁壘。雲棲大會阿里AI七連發,通義佔據HF全球模型榜單前十中的七席。來源:受訪者阿里的“合力”與“聚焦”的趨勢越來越明顯。今年以來,阿里打破業務類股壁壘,電商、支付、本地生活、雲端運算、健康、文娛等多條業務線,都在圍繞AI進行資源整合與重構。這些線索最終都指向一個“大腦”,那就是千問——或許在未來不久,千問會成為阿里生態內的服務連接器,以及新的高頻流量入口;讓阿里的各個生態協同性更強,將分散的場景需求與業務能力匹配,實現流量的二次啟動。當然,“打通生態”絕非易事,打破部門牆也將是對阿里組織能力的巨大考驗。但今年淘寶閃購和餓了麼、高德等業務的協同作戰、流量互導,實現了單業務線難以達成的增長突破,也激發了阿里內部的戰鬥力和士氣,證明了打破壁壘的可能性。毫無疑問,阿里必須打贏AI to C這場戰役,這不僅關乎搶佔全球AI競爭主導權的當下,更決定了阿里未來在數字生態領域的生死成敗。03 三場硬仗,阿里持續進擊回過頭看,阿里從2月宣佈未來三年投入3800億重注AI,到5月強勢入局即時零售、9月上線高德掃街榜,再到11月上線千問App、全力進軍AI to C,今年阿里多條業務線接連爆發,逐漸匯聚為一股強勁的增長勢頭。在幾場關鍵戰役中,阿里在持續增長的AI需求驅動下,阿里雲收入加速增長至26%,AI相關產品收入連續8個季度實現同比三位數增長。在競爭激烈的即時零售市場,淘寶閃購快速拿下市場份額,日訂單峰值達1.2億單,協同效應更帶動電商MAC(月度活躍消費者數)增長25%。9月高德發佈“掃街榜”,上線僅23天使用者數便突破4億。單一產品的成功或許有偶然,但業務生態的繁榮必然依賴佈局。阿里正在推進的這盤大棋,關鍵在於發揮協同效應——各業務類股深度聯動,帶動公司整體勢能持續回升。更重要的是,在這場關乎未來的AI時代競爭中,人們看到那個敢於破局、持續進擊的阿里又回來了。這也構成阿里未來最堅實的發展底氣。 (中國企業家雜誌)
中國大模型首進全球三甲,阿里扔出技術“核彈”
阿里雲在2025雲棲大會上擲出一枚技術“核彈”,Qwen3-Max以兆參數和36兆訓練token數,在全球AI競賽中重新洗牌。01 阿里Qwen3-Max突破全球AI三強9月24日,阿里巴巴通過“通義千問Qwen”微信公眾號正式宣佈推出Qwen3-Max——該公司迄今為止“規模最大、能力最強的模型”。該模型的預覽版在權威的LMArena文字排行榜上位列全球第三,超越了OpenAI的GPT-5-Chat。Qwen3-Max-Instrurct測評分數這不僅是一次技術迭代,更是中國AI企業首次在通用大模型核心評測中躋身全球頂尖陣營。Qwen3-Max的正式版本在程式碼能力和智能體能力方面進一步提升,在涵蓋知識、推理、程式設計、指令遵循的全面基準測試中均達到業界領先水平。Qwen3-Max作為阿里通義千問家族的旗艦模型,展現了令人矚目的技術規格。模型總參數超過1T(兆),預訓練資料量達到36T tokens。Qwen3-Max-Thinking-Heavy 測評分數這一參數規模使Qwen3-Max穩穩站在全球大模型的第一梯隊。在模型架構上,Qwen3-Max採用了MoE(混合專家)架構。這種設計允許模型根據不同任務啟動不同的專家網路,既保證了模型的能力,又提高了計算效率。與傳統的密集模型相比,MoE架構在大規模擴展時具有明顯優勢。Qwen3-Max還支援1M tokens的上下文長度,這一指標對於處理長文件、複雜程式碼庫和延展對話至關重要。超長上下文支援意味著模型可以理解和處理更為複雜的資訊結構,為高級推理任務奠定基礎。在訓練效率方面,Qwen3-Max實現了30%的MFU(模型浮點運算利用率)提升,表明阿里在訓練超大規模模型方面已經積累了深厚的技術經驗。02 性能表現 全面超越國際頂尖模型的實測資料Qwen3-Max在多項國際權威基準測試中展現出卓越實力。在專注於解決現實程式設計挑戰的SWE-Bench Verified測試中,Qwen3-Max-Instruct版本取得了69.6分的優異成績,穩居全球第一梯隊。在評估智能體工具呼叫能力的Tau2-Bench測試中,Qwen3-Max更是實現了突破性表現,以74.8分超越Claude Opus 4與DeepSeek-V3.1。數學推理能力上,Qwen3-Max的推理增強版本Qwen3-Max-Thinking展現出非凡性能,在AIME 25和HMMT等高難度數學推理測試中均取得滿分100分的成績,這是國內大模型首次在此類測試中獲得滿分。該模型在解數學題時懂得調動工具,能夠寫程式碼做題,同時增加測試時的計算資源也讓模型表現進一步提升。在涵蓋知識、推理、程式設計、指令遵循、人類偏好對齊、智能體任務和多語言理解的全面基準測試中,Qwen3-Max-Instruct版本均達到業界領先水平,展現出全面而均衡的能力圖譜。03 戰略意義 中國大模型技術的里程碑突破Qwen3-Max的發佈標誌著中國在大模型領域正式躋身全球第一梯隊。這一成就對國內AI產業發展具有深遠戰略意義。大模型預訓練的Scaling Law(規模化法則)認為,持續增長資料和參數規模是通向AGI的可能路徑之一。面對自然資料數量有限的挑戰,有學者認為預訓練的Scaling Law即將逼近上限,但Qwen3-Max的性能突破顯示,繼續增巨量資料、模型參數,依然能鍛造出更強的模型。阿里雲已建構起從0.5B到超兆參數的全尺寸模型覆蓋,包含三百多個大模型,可滿足不同場景的需求。這種全端式佈局為AI技術在各行業的應用落地奠定了堅實基礎。Qwen3-Max的成功驗證了“算力投入—模型提升—應用落地”的正向閉環模式,預計將推動國內AI產業在2025年第四季度迎來應用商業化的加速期。Qwen3-Max的發佈不僅代表技術突破,更具有深遠的產業影響。阿里巴巴集團CEO吳泳銘在雲棲大會上表示,大模型是下一代作業系統,而AI雲是下一代電腦。公司計畫三年內投入超過3800億元用於AI模型與基礎設施建設,彰顯了對AI技術的長期承諾。資本市場對這一突破反應積極。模型發佈當日,阿里巴巴港股漲幅擴大至逾4.5%,創近4年來新高;美股夜盤漲超5%。值得注意的是,美國"女股神"凱西·伍德(Cathie Wood)重新開倉買入阿里巴巴股份,為四年來首次,顯示國際資本對中國AI技術的認可。04 全球競爭格局的重塑Qwen3-Max的成功標誌著全球AI競爭格局正在重塑。當前LMArena排行榜前三名分別是Google的Gemini-2.5-Pro、Anthropic的Claude-Opus-4.1和OpenAI的GPT-O3。Qwen3-Max的崛起使中國首次在頂級大模型競爭中躋身第一梯隊,改變了由美國科技巨頭主導的競爭格局。從技術路線來看,Qwen3-Max採用了與GPT-5-Chat不同的發展路徑。GPT-5-Chat是OpenAI專門為企業級對話設計的獨立模型,支援多模態輸入、上下文感知和自然語言理解。而Qwen3-Max更注重通用能力與專業能力的平衡,在保持強大對話能力的同時,在程式碼生成、邏輯推理等專業領域表現突出。隨著Qwen3-Max-Thinking推理版本的正式發佈臨近,阿里雲有望在高端企業市場與國際廠商展開直接競爭,重塑全球AI大模型市場格局。05 編輯點評 從追隨者到規則制定者Qwen3-Max的里程碑意義遠超技術本身:它標誌著中國大模型首次在核心能力標準(程式設計、數學、工具呼叫)上主導話語權。當GPT-5因忽視使用者體驗跌落神壇,阿里以“頂級性能+場景深耕”的組合拳打開新局。隨著Thinking版本即將發佈,中國AI的“算力投入—模型提升—應用落地”閉環正加速形成——大模型的競爭,終於迎來東方時間。 (壹零社)
阿里一夜扔出三個開源王炸!猛刷32項開源SOTA
阿里持續發力多模態大模型。智東西9月23日消息,深夜,阿里通義大模型團隊連放三個大招:開源原生全模態大模型Qwen3-Omni、語音生成模型Qwen3-TTS、圖像編輯模型Qwen-Image-Edit-2509更新。Qwen3-Omni能無縫處理文字、圖像、音訊和視訊等多種輸入形式,並通過即時流式響應同時生成文字與自然語音輸出。其在36項音訊及音視訊基準測試中斬獲32項開源SOTA與22項總體SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等閉源強模型,同時其圖像和文字性能也在同尺寸模型中達到SOTA水平。Qwen3-TTS支援17種音色與10種語言,在語音穩定性與音色相似度評估中超越SeedTTS、GPT-4o-Audio-Preview等主流產品。Qwen-Image-Edit-2509的首要更新是支援多圖編輯,可以拼接不同圖片中的人物+人物、人物+物體等。▲阿里開源首頁阿里開源了Qwen3-Omni-30B-A3B-Instruct(指令跟隨)、Qwen3-Omni-30B-A3B-Thinking(推理)和通用音訊字幕器Qwen3-Omni-30B-A3B-Captioner。Hugging Face開源地址:https://huggingface.co/QwenGitHub開源地址:https://github.com/QwenLM/Qwen3-Omni01. 支援119種語言互動能隨意定製、修改人設在通義千問國際版網站上,只需點選輸入框右下角,即可喚起視訊通話功能。目前該功能仍處於Beta測試階段。我們在實際測試中發現,網頁端的視訊互動體驗尚不穩定,因此轉而使用通義千問國際版App進行進一步體驗。在App中,Qwen-Omni-Flash的視訊響應延遲較低,幾乎達到無感水平,接近真人面對面交流的流暢度。Qwen-Omni-Flash具備良好的世界知識儲備,我們通過識別啤酒品牌、植物等畫面進行測試,模型均能給出精準回答。官方部落格提到,Qwen3-Omni支援119種文字語言互動、19種語音理解語言與10種語音生成語言,延遲方面純模型端到端音訊對話延遲低至211ms,視訊對話延遲低至507ms,還能支援30分鐘音訊理解。但在實際使用中,當模型輸出英語、西班牙語等外語時,仍可察覺其發音帶有明顯的普通話語調特徵,不夠自然地道。而在粵語互動場景下,Qwen-Omni-Flash仍會不時夾雜普通話詞彙,一定程度上影響了對話的沉浸感。官方演示的幾個Demo中,展示了西班牙語、法語、日語的互動效果。該模型可以分析義大利餐廳的菜單,然後用法語為朋友推薦義大利面,其回覆提到了經典的義大利面,並結合菜單的說明進行了簡要介紹。Qwen3-Omni還能查看網站內容,為使用者總結這是巴塞隆納畢加索博物館的官方網站,提到五座建築以及相關街道的歷史背景等。日語交流場景中,模型可以分析視訊中人物所處的環境,以及他們交流的內容是什麼。Qwen3-Omni支援system prompt隨意定製,可以修改回覆風格、人設等。演示中,模型扮演的角色是廣東幼兒園老師,通過模型的特點總結圖為小朋友講解Qwen3-Omni,其涵蓋了圖片中模型的四個特點,還用了小朋友更容易理解的比喻。多人互動場景中,Qwen3-Omni也能分析人物的性別、說話的語氣、內容等。例如下面這段談話中,既有說四川話的女生邀請朋友來玩,還有說普通話的男生失戀了,以及另外的男生被偷狗等不同事件,Qwen3-Omni被問到那個女生說的什麼方言、說了什麼,其問答分析出了是四川話,進行了自我介紹、發出邀請、讚美家鄉。讓模型分析視訊中那個人最開心,Qwen3-Omni認為是最後一個說話的小王,重點分析了他的語氣和豎大拇指的動作。此外,Qwen3-Omni還支援分析音樂風格、元素,以及對視訊中畫面進行推理,如當其分析出視訊中的使用者是在解數學題,還會對這道題進行解答。02. 22項測試達SOTA預訓練不降智Qwen3-Omni在全方位性能評估中,單模態任務表現與參數規模相當的Qwen系列單模態模型持平,在音訊任務中表現更好。該模型在36項音視訊基準測試中,32項取得開源領域最佳性能,22項達到SOTA水平,性能超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等閉源模型,在語音識別與指令跟隨任務中達到Gemini-2.5-Pro相同水平。其部落格提到,Qwen3-Omni採用Thinker-Talker架構,Thinker負責文字生成、Talker專注於流式語音Token生成,直接接收來自Thinker的高層語義表徵。為實現超低延遲流式生成,Talker通過自回歸方式預測多碼本序列:在每一步解碼中,MTP模組輸出當前幀的殘差碼本,隨後Code2Wav合成對應波形,實現逐幀流式生成。其創新架構設計的要點包括,音訊編碼器採用了基於2000萬小時音訊資料訓練的AuT模型,具備通用音訊表徵能力;Thinker與Talker均採用MoE架構,支援高並行與快速推理。同時,研究人員在文字預訓練早期混合單模態與跨模態資料,可實現各模態混訓性能相比純單模態訓練性能不下降,同時顯著增強跨模態能力。AuT、Thinker、Talker+Code2wav採用全流程全流式,支援首幀Token直接流式解碼為音訊輸出。此外,Qwen3-Omni支援function call,實現與外部工具/服務的高效整合。03. 發佈文字轉語音模型多項基準測試達SOTA阿里通義還發佈了文字轉語音模型Qwen3-TTS-Flash。其主要特點包括:中英穩定性:Qwen3-TTS-Flash的中英穩定性在seed-tts-eval test set上,取得了SOTA的表現,超越SeedTTS、MiniMax、GPT-4o-Audio-Preview;多語言穩定性和音色相似度上,Qwen3-TTS-Flash在MiniMax TTS multilingual test set上,WER在中文、英文、義大利語、法語達到SOTA,顯著低於MiniMax、ElevenLabs、GPT-4o-Audio-Preview,英文、義大利語、法語的說話人相似度顯著超越MiniMax、ElevenLabs、GPT-4o-Audio-Preview。高表現力:Qwen3-TTS-Flash具備高表現力的擬人音色,能夠穩定、可靠地輸出高度遵循輸入文字的音訊。豐富的音色和語種:Qwen3-TTS-Flash提供17種音色選擇,每一種音色均支援10種語言。多方言支援:Qwen3-TTS-Flash支援方言生成,包括普通話、閩南語、吳語、粵語、四川話、北京話、南京話、天津話和陝西話。語氣適應:經過海量資料訓練,Qwen3-TTS-Flash能夠根據輸入文字自動調節語氣。高魯棒性:Qwen3-TTS-Flash能夠自動處理複雜文字,抽取關鍵資訊,對複雜和多樣化的文字格式具有很強的魯棒性。快速生成:Qwen3-TTS-Flash具有極低首包延遲,單並行首包模型延遲低至97ms。在具體性能方面,在MiniMax TTS multilingual test set上,Qwen3-TTS-Flash在中文、英文、義大利語和法語的WER均達到了SOTA,顯著低於MiniMax、ElevenLabs和GPT-4o-Audio-Preview。在說話人相似度方面,Qwen3-TTS-Flash在英文、義大利語和法語均超過了上述模型,在多語言的語音穩定性和音色相似度上展現出了卓越的表現。研究人員引入了多項架構升級和加速策略,使得模型實現更低的首包延遲和更快的生成速度。04. 圖像編輯模型更新支援多圖編輯阿里此次還推出了圖像編輯模型Qwen-Image-Edit-2509的月度迭代版本。相比於8月發佈的Qwen-Image-Edit,Qwen-Image-Edit-2509的主要特性包括:多圖編輯支援:對於多圖輸入,Qwen-Image-Edit-2509基於Qwen-Image-Edit結構,通過拼接方式進一步訓練,從而提供“人物+人物”、“人物+商品”,“人物+場景”等多種玩法。單圖一致性增強:對於單圖輸入,Qwen-Image-Edit-2509提高了一致性,主要體現在以下方面:人物編輯一致性增強,包括增強人臉ID保持,支援各種形象照片、姿勢變換;商品編輯一致性增強,包括增強商品ID保持,支援商品海報編輯;文字編輯一致性增強,除了支援文字內容修改外,還支援多種文字的字型、色彩、材質編輯。原生支援ControlNet,包括深度圖、邊緣圖、關鍵點圖等。05. 結語:多模態賽道發力!阿里通義家族模型加速擴員此次三大模型的新進展進一步強化了通義在多模態生成領域的競爭力,其中Qwen3-TTS-Flash在多說話人能力、多語言支援、多方言適配以及文字處理魯棒性等方面實現了性能突破,且與Qwen3-Omni結合實現了大模型語音表現的更新。阿里通義大模型的團隊在部落格中提到,對於Qwen3-Omni未來他們將沿多個技術方向持續推進模型升級,包括多說話人ASR、視訊OCR、音視訊主動學習等核心能力建設,並強化基於智能體的工作流與函數呼叫支援。阿里在多模態大模型領域持續發力,且部分性能全面超越競品,未來或許能在更多實際應用場景中推動落地。 (智東西)
阿里Qwen3-Next商用:開啟mamba架構時代,訓練便宜10倍推理快10倍!
底層架構換代升級大模型開始彎道超車9月12日,阿里通義千問發表了全新大模型Qwen3-Next系列以及系列首款模型Qwen3-Next-80B-A3B。這是一款開放原始碼的超稀疏MoE模型,也是全球第一款將mamba線性注意力架構從科學研究領域帶入大眾市場的大模型,可望直接開啟大模型底層架構市場的全面變革。新模型最突出的就是在長上下文應用中的極高效率和速度,Qwen3-Next-80B-A3B總共擁有80B參數,但每個token僅啟動3.9B參數,相比Qwen3-32B這種更小的模型,訓練便宜10倍,推理快10倍。尤其是在32K+上下文中,這種成本和效率價值更加突出。千問官方表示:Qwen3-Next-80B-A3B-Instruct接近自家235B參數旗艦模型產品。 Qwen3-Next-80B-A3B-Thinking表現優於Gemini-2.5-Flash-Thinking。目前使用者可在anycoder平台體驗兩款模型的Vibe Coding能力,也可在Qwen Chat中直接使用。不過由於是全新大模型底層框架,與Transformer長期累積下來的技術堆疊相容性未知,需要開源社區進一步運作,才能真正形成技術變革。架構基礎資訊根據官方資訊,Qwen3-Next-80B-A3B 採用了混合Transformer-Mamba 架構,結合了以下關鍵技術創新:混合注意力機制(Hybrid Attention):模型將傳統Transformer 的注意力機制取代為3個Gated DeltaNet全新mamba線性注意力層(平行)與1個Gated Attention傳統softmax指數注意力層的組合。這種混合機制解決了大模型隨著輸入資料量增加算力消耗呈指數型增長的問題,最佳化了超長上下文建模的效率,支援高達256K 令牌的上下文長度,相對於傳統Transformer 模型在處理長序列時的高計算複雜度,顯著降低了計算成本。這也是新模型框架中「線性」和「指數性」的含義。高稀疏性混合專家(MoE)架構:Qwen3-Next-80B-A3B 使用了高稀疏性的Mixture-of-Experts(MoE)架構,512名專家,10名路由+1名共享,總計80B 參數,但每次推理僅啟動3.9B 參數。這種設計透過選擇性地啟動部分專家網路,極大地減少了每token的計算量(FLOPs),從而提升推理速度和效率。例如,在處理超過32K 令牌的上下文時,推理吞吐量是Qwen3-32B-Base 的10 倍,同時訓練成本僅為後者的10%。穩定性最佳化:模型引入了零中心化和權重衰減的層歸一化(LayerNorm)等技術,以增強預訓練和後訓練的穩定性。此外,多token預測(Multi-Token Prediction, MTP)技術進一步提升了預訓練效能與推理速度。支援多語言和複雜任務:Qwen3-Next-80B-A3B 支援119 種語言,擅長工具呼叫和複雜推理任務,效能在某些基準測試中可媲美Qwen3-235B-A22B-Instruct-2507。什麼是Mamba線性架構?Qwen3-Next-80B-A3B明確採用了Mamba 架構,作為其混合Transformer-Mamba 架構的一部分。具體來說:Mamba 架構簡介:Mamba 是一種基於狀態空間模型(State Space Models, SSMs)的架構,最初由Gu 和Dao 等人提出(參考arXiv:2312.00752)。與Transformer 的二次複雜度(O(n²))注意力機制不同,Mamba 使用線性複雜度(O(n))的計算方式,透過結構化狀態空間序列(Structured State Space Sequence, S4)來高效處理長序列資料。 Mamba 的核心優勢在於其高效的上下文建模能力和較低的記憶體佔用,特別適合超長上下文任務。但容易遺失海量資料中的長期關係,因此主流操作都是與Transformer混合使用。這也是未來大模型底層架構技術的重要發展方向。Qwen3-Next-80B-A3B 中的Mamba 實現:根據官方描述,Qwen3-Next-80B-A3B 的混合注意力機制中,Gated DeltaNet是Mamba 架構的關鍵組成部分。 Gated DeltaNet 結合了門控機制(Gating)和Mamba 的狀態空間模型,透過動態選擇性地處理輸入序列,最佳化了長上下文的建模效率。這種機制與傳統Transformer 的全域注意力不同,Mamba 的線性複雜度使得模型在處理長序列時能顯著減少計算資源需求。在具體實現上,Gated DeltaNet 和Gated Attention 的結合可能透過以下方式實現:Gated DeltaNet:基於Mamba 的狀態空間模型,使用門控機制動態調整狀態轉移的權重,以更好地捕捉序列中的長期依賴關係。Gated Attention:在局部或特定場景下補充Transformer 風格的注意力機制,增強模型在短距離依賴或複雜推理任務中的表現。這種混合設計允許模型在保持Mamba 高效性的同時,保留Transformer 在某些任務上的優勢。Mamba 在MoE 架構中的作用:Mamba 的線性複雜度與高稀疏性MoE 架構結合,進一步降低了計算量。 MoE 架構透過選擇性地啟動少量專家(3.9B 參數),而Mamba 的高效序列處理能力確保了即使在超長上下文下,模型也能快速完成推理。例如,官方資料表明,Qwen3-Next-80B-A3B 在處理32K 以上令牌時,推理吞吐量顯著優於傳統密集模型。如何實現Mamba 線性架構?Mamba 線性架構在Qwen3-Next-80B-A3B 中的實現可以從以下幾個方面進行推測和分析:狀態空間模型(SSM)核心:Mamba 的核心是基於狀態空間模型的序列建模,其數學形式可以簡化為:[h_t = A h_{t-1} + B x_t, \quad y_t = C h_t]其中( h_t ) 是隱狀態,( x_t ) 是輸入,( A )、( B ) 是可學習的參數、參數或可學習的參數。 Qwen3-Next-80B-A3B 的Gated DeltaNet 可能透過門控機制動態調整( A ) 和( B ),以增強模型對不同情境的適應性。門控機制增強:Gated DeltaNet 可能藉鑑了Mamba 的改進版本(如Mamba-2),透過引入門控單元(如類似LSTM 的門控結構)來控制資訊流,從而在保持線性複雜度的同時提升模型的表現力。與Transformer 的混合:混合架構的實現可能透過分層設計完成。例如,模型可能在較低層級使用Mamba 的Gated DeltaNet 處理長距離依賴,在較高層引入Gated Attention 進行局部精細化建模。這種分層策略平衡了效率和效能。穩定性最佳化:為確保Mamba 和MoE 的穩定性,Qwen3-Next-80B-A3B 可能採用了專門的訓練技巧,如GSPO(Gradient-based Sparse Parameter Optimization),以解決混合注意力機制和高稀疏性MoE 在強化學習(RL)訓練中的穩定性挑戰。性能與優勢透過結合Mamba 的線性架構和MoE 的稀疏性,Qwen3-Next-80B-A3B 實現了以下優勢:高效率的長上下文處理:支援256K token的上下文長度,推理吞吐量高,適合檔案總結、長對話等任務。低訓練和推理成本:相較於Qwen3-32B-Base,訓練成本降低至10%,推理效率提升10 倍。強大的任務表現:在複雜推理和工具呼叫任務中表現出色,與更大規模的模型(如Qwen3-235B)表現相當。 (AI頓悟湧現時)
阿里深夜幹了件大事,成本暴降90%!
32B尺寸比肩235B性能,兩大新模型已開源。智東西9月12日報導,今天凌晨,阿里通義實驗室正式發佈下一代基礎模型架構Qwen3-Next,並訓練了基於該架構的Qwen3-Next-80B-A3B-Base模型,該模型擁有800億個參數,僅啟動30億個參數。Base模型在Qwen3預訓練資料的子集上訓練,包含15T tokens訓練資料,僅需Qwen3-32B 9.3%的GPU計算資源,針對超過32k的上下文,推理吞吐量可達到Qwen3-32B的10倍以上。同時,基於Base模型,阿里開源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思維模型(Thinking),模型支援原生262144個token上下文長度,可擴展至1010000個token。其中,Qwen3-Next-80B-A3B-Instruct僅支援指令(非思考)模式,其輸出中不生成<think></think>塊;Qwen3-Next-80B-A3B-Thinking僅支援思考模式,為了強制模型進行思考,默認聊天範本自動包含<think>。指令模型的性能表現與參數規模更大的Qwen3-235B-A22B-Instruct-2507相當,思維模型優於Google閉源模型Gemini-2.5-Flash-Thinking。▲指令模型測試基準▲思維模型測試基準在架構升級方面,相比阿里4月底的Qwen3 MoE模型,新增了混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的最佳化,以及提升推理效率的多Token預測(MTP)機制等。新模型已在魔搭社區和Hugging Face開源,開發者也可通過Qwen Chat或阿里雲百煉、NVIDIA API Catalog體驗Qwen3-Next。開發者在Qwen的X評論區稱讚其新增的多Token預測(MTP)機制,稱這是最令人印象深刻的部分。Qwen Chat地址:https://chat.qwen.aiHugging Face地址:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d魔搭社區:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a阿里雲百煉:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen301.指令模型接近235B旗艦模型思維模型超Gemini-2.5總的來看在性能方面,指令模型接近阿里參數規模235B的旗艦模型,思維模型表現優於Gemini-2.5-Flash-Thinking。其基座模型為Qwen3-Next-80B-A3B-Base,僅使用1/10的Non-Embedding啟動參數,在大多數基準測試中,性能表現與Qwen3-32B-Base相近。但其總訓練成本為Qwen3-32B-Base的10%不到。得益於其新的混合模型架構,Qwen3-Next在推理效率方面,與Qwen3-32B相比,Qwen3-Next-80B-A3B在預填充(prefill)階段,在4k tokens的上下文長度下,吞吐量接近前者的7倍,當上下文長度超過32k時,吞吐量提升達到10倍以上。在解碼(decode)階段,該模型在4k上下文下實現近4倍的吞吐量提升,在超過32k的長上下文場景中能保持10倍以上的吞吐優勢。具體來看,其指令模型表現優於Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,並取得了幾乎與參數規模更大的Qwen3-235B-A22B-Instruct-2507模型相近的結果。只有在面向大模型的綜合性評測基準、高難度數學推理基準AIME25中,指令模型的表現略遜色於Qwen3-235B-A22B-Instruct-2507,在程式設計、複雜問答與長對話的評測中表現更好。Qwen3-Next-80B-A3B-Instruct在RULER上所有長度的表現明顯優於層數相同、注意力層數更多的Qwen3-30B-A3B-Instruct-2507,甚至在256k範圍內都超過了層數更多的Qwen3-235B-A22B-Instruct-2507。思維模型的表現優於預訓練成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全面超過Google的閉源模型Gemini-2.5-Flash-Thinking,並在部分指標上接近阿里最新旗艦模型Qwen3-235B-A22B-Thinking-2507。02.混合注意力、MoE、穩定最佳化多Token預測加持研究人員在部落格中提到,Qwen3-Next是針對大模型在上下文長度和總參數兩方面不斷擴展的未來趨勢而設計。Qwen3-Next採用的是Qwen3 36T預訓練語料的均勻採樣子集,包含15T tokens的訓練資料,其訓練所消耗的GPU Hours不到Qwen3-30A-3B的80%;與Qwen3-32B相比,僅需9.3%的GPU計算資源,即可實現更優的模型性能。這一模型結構相較其4月底推出的Qwen3的MoE模型,新增了多種新技術並進行了核心改進,包括混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的最佳化,以及提升推理效率的多Token預測(MTP)機制等。混合注意力機制:用Gated DeltaNet(線性注意力)和Gated Attention(門控注意力)的組合替換標準注意力,實現超長上下文長度的有效上下文建模。研究人員發現Gated DeltaNet相比常用的滑動窗口注意力(Sliding Window Attention)和Mamba2有更強的上下文學習能力, 並在3:1的混合比例下,即75%層使用Gated DeltaNet,25%層保留標準注意力,能一致超過超越單一架構,實現性能與效率的雙重最佳化。同時在保留的標準注意力中,研究人員進一步引入多項增強設計,包括沿用先前工作的輸出門控機制,緩解注意力中的低秩問題,將單個注意力頭維度從128擴展至256,僅對注意力頭前25%的位置維度加入旋轉位置編碼,提高長度外推效果。高稀疏度混合專家(MoE):在MoE層中實現極低的啟動比率,大幅減少每個token的FLOPS,同時保留模型容量。研究人員的實驗表明,在使用全域負載平衡後,當啟動專家固定時,持續增加專家總參數可帶來訓練loss的穩定下降。此前,Qwen3系列的MoE專家啟動比約為1比16,Qwen3-Next實現了1比50的啟動比。穩定性最佳化:包括零中心化和權重衰減LayerNorm等技術,以及其他增強穩定性以實現魯棒的預訓練和後訓練。研究人員發現,注意力輸出門控機制能消除注意力池與極大啟動等現象,保證模型各部分的數值穩定。多Token預測(MTP):提升預訓練模型性能並加速推理,Qwen3-Next特別最佳化了MTP多步推理性能,通過訓練推理一致的多步訓練,進一步提高了實用場景下的投機採樣(Speculative Decoding)接受率。03.結語:3B啟動參數對標旗艦模型!阿里憑架構創新為模型降本提速Qwen3-Next的突破點在於同時實現了大規模參數容量、低啟動開銷、長上下文處理與平行推理加速。此外結合注意力機制、MoE設計等方面的多項架構創新,阿里通義此次實現僅啟動3B參數模型就能對標規模更大模型的性能,使得模型在性能與效率之間找到更佳平衡點,同時為降低模型訓練、推理成本提供了有效路徑。研究人員在部落格提到,未來他們將持續最佳化這一架構並開發Qwen3.5。與此同時近期阿里通義已經推出數個不同領域的模型,如超兆參數的Qwen3-Max-Preview、文生圖及編輯模型Qwen-Image-edit、語音識別模型Qwen3-ASR-Flash等。隨著其多領域模型的持續落地與開源,阿里通義在開源社區的技術影響力正逐步增強。 (智東西)
阿里首個超兆參數新王登基! Qwen3-Max屠榜全SOTA,碾壓DeepSeek V3.1
阿里迄今為止,參數最大的模型誕生了!昨夜,Qwen3-Max-Preview(Instruct)官員宣上線,超1兆參數性能爆表。直接用成績說話——在全球主流權威基準測試中,Qwen3-Max-Preview狂攬非推理模型「C」位,直接碾壓Claude-Opus 4(Non-Thinking)、Kimi-K2、DeepSeek-V3.1。甚至,它把自家Qwen3-235B-A22B-Instruct-2507狂甩身後,堪稱「AI卷王本王」。知識推理評測(SuperGPQA)拿下64.6分數學推理評測(AIME25)拿下80.6分,斷崖式領先競爭程式設計評測(LiveCodeBench V6)拿下57.5分複雜問題解決和人類偏好對齊評測(Arena-Hard v2)拿下86.1分,優勢巨大被稱為「無法被操控的」評測(LiveBench)拿下79.3分驚豔的性能表現再次證明了,Scaling仍然有效,參數越大模型性能越強。總的來說,Qwen3-Max-Preview有以下幾大亮點:表現更強、知識更廣、更擅長對話、任務處理、指令遵循。新模型可支援100+語言,還針對RAG、工具呼叫進行最佳化。模型一出,全網立即開始了實測。@karminski-牙醫實驗中,Qwen3-Max-Preview前端能力明顯超越DeepSeek-V3.1。例如,在一個杯子流體模擬中,Gemini 2.5在傾倒前杯子底部有嚴重bug,DeepSeek-V3.1杯子中物體倒出的狀態(最後有一條線)不對,而Qwen3-Max-Preview比較符合物理常識。Qwen3-Max-Preview還能完美產生一個騎自行車的鵜鶘SVG、一鍵直出精美前端網頁,一張照片做出像素花園。目前,模型已正式上線阿里雲百煉平台,可透過API直接呼叫。同時,Qwen Chat也同步上線新模型,支援免費使用。在百煉平台上,最大支援256k上下文,依token數階梯計費:0-32k token:輸入0.006元/千token;輸出0.024元/千token32k-128k token:輸入0.01元/千token;輸出0.04元/千token128k-252k token:輸入0.015元/千token;輸出0.06元/千token (新智元)