我滴媽,最卷AI大模型,今年除夕又上新了!剛剛,阿里全新一代大模型Qwen3.5-Plus重磅開源發佈,直接登頂最強開源模型寶座。這一次,“源”神標竿再次被千問拔到了一個新高度:不僅性能全面領先同級開源模型,更是媲美Gemini-3-Pro、GPT-5.2等頂級閉源模型,多項基準測試甚至直接反超。更炸裂的是,Qwen3.5-Plus總參數隻有3970億,啟動僅需170億,性能卻比兆參數的Qwen3-Max還要強。直觀對比還包括——部署視訊記憶體佔用降低60%,最大推理吞吐量可提升至19倍,也就是說部署成本,以及推理效率雙雙實現大幅最佳化。這波“以小勝大”的史詩級PK,千問做到了。重點還沒說完,千問這次直接把技術紅利釋放給使用者,直接讓SOTA級模型做到了平民價。阿里雲百煉這次給千問3.5 API的定價極具競爭力:百萬Tokens輸入低至0.8元,相當於同等級模型Gemini-3-pro的1/18。並且,千問3.5首次實現201種語言的全覆蓋,詞表規模從150k大幅擴充至250k,小語種編碼效率最高提升60%,真正讓頂尖大模型走向全球使用者。截至目前,普通使用者只需登錄千問APP或PC端,即可免費體驗千問3.5模型;開發者們也可前往魔搭社區或HuggingFace,第一時間下載部署這款最強開源力作。據悉,千問3.5還只是阿里春節檔的第一彈。接下來幾天,他們將繼續開源多款千問3.5模型,可部署在本地、端側等不同場景,無論是開發者還是中小企業,通通都能用上。旗艦版Qwen3.5-Max也將在年後壓軸登場。u1s1,DeepSeek之後,中國開源模型的“瘋狂二月”太頂了。多項能力超越Gemini 3、GPT-5.2,視覺能力橫掃權威基準話不多說,千問3.5有多強,我們先來看基準測試結果。在推理、程式設計、智能體等核心維度上,千問3.5能夠以不到40%的參數量比肩國際一流梯隊。比如,在考核綜合認知能力的MMLU-Pro測試中,千問3.5得分87.8分,超過GPT-5.2。在目前公認難度最高的博士級科學推理評測基準GPQA上,更是一舉斬獲88.4分,比以嚴謹邏輯著稱的Claude 4.5還要高。這就意味著千問3.5同時兼具推理廣度與深度,不僅具備極強的知識遷移能力,還在底層邏輯上實現了突破。在指令遵循方面,千問3.5表現同樣亮眼。它以76.5分的成績領跑IFBench榜單,刷新了該項指標的最高紀錄。除此之外,千問3.5在Agent能力上也是全面發力。無論是考察通用能力的BFCL-V4,還是側重搜尋能力的Browsecomp,其評分均全面超越Gemini-3-Pro,展現出優秀的Agent協同能力。綜合來看,相比前幾代的千問模型,千問3.5在性能上更全面,不僅多維度無短板,更重要的是,能夠落地實用。之所以能夠實現這種代際躍遷,關鍵在於它的“眼睛”。與上一代的純文字模型千問3不同,千問3.5從預訓練第一天起,就是在視覺和文字的混合Token資料上進行的,而且資料量也從原先的36T Tokens進一步提升。同時新增中英文、多語言、STEM和推理等資料,讓千問3.5真正睜眼看世界,擁有了整合複雜世界知識和邏輯推理的原生多模態理解能力。這一核心能力的進化,在MathVison(多模態推理)、RealWorldQA(通用視覺問答)、CC_OCR(文字識別)、RefCOCO-avg(空間智能)、MLVU(視訊理解)等多模態主流評測中得到了有力印證:千問3.5幾乎橫掃了所有指標,刷新開源大模型多模態天花板。其中,在學科解題、任務規劃與物理空間推理等高難度場景上,千問3.5也表現出超越專項模型Qwen3-VL的綜合素養。眾所周知,Qwen3-VL是千問團隊推出的旗艦級多模態視覺語言模型,主打超長上下文、強視覺推理、視訊理解與視覺Agent能力。但作為綜合模型的千問3.5,其空間定位和圖文推理能力得到顯著增強,尤其是在處理複雜視覺資訊時,Qwen3.5會比Qwen3-VL推理邏輯更嚴謹,輸出結果也更可靠。千問3.5還突破了傳統大模型的視訊處理邊界:支援長達2小時的超長視訊直接輸入,配合1M Tokens原生上下文,能夠輕鬆應對長視訊內容的精準分析與一鍵摘要。換言之,無論是情節豐富的影視巨作還是專業的深度講座,千問3.5都能捕捉到每一處關鍵細節。同時,千問3.5還打通了視覺理解和程式碼邏輯的原生融合,讓視覺內容能夠直接轉化為技術產出。過去要開發一個介面,往往需要經過“原型設計→修改成稿→轉譯程式碼”的一系列過程,而千問3.5能夠瞬間將手繪介面草圖重構為高品質前端程式碼,並支援通過單張截圖定位並修復UI缺陷,做到“所見即所得”。由此,開發門檻被迅速抹平,視覺程式設計真正變為開發者手中的提效工具。模型實際表現如何?來看一波官方demo展示。先看最近很火的洗車靈魂拷問:我想去洗車,洗車店距離我家50米,你說我應該開車過去還是走過去?千問3.5一眼識破陷阱,精準抓住核心,車必須過去洗,邏輯線上:再來點難度,考考眼力+圖像推理能力。prompt:從所給的四個選項中,選擇最合適的填入問號中,使其具有合理性,應該選什麼?對千問3.5來說小菜一碟,輕鬆看懂圖形規律,並順利給出了正確答案:就連IMO競賽級數學幾何題,be like:也能一步步推理,迅速做出來:不只會做靜態題,出一道滑動方塊動態推理:千問3.5照樣拿捏:多模態生成也很強。讓它為Qwen Code生成一個推廣視訊:成片效果相當流暢自然,直接發佈都很OK。除了生成視訊,做網站也不在話下。讓千問3.5閱讀本地視訊檔案,就能根據內容製作一個網站,分分鐘生成完成程式碼:無論是產品宣傳片,還是核心特性突出,千問3.5都一網打盡。就連最燙的OpenClaw,千問3.5也可以與之整合,共同完成程式設計任務驅動。OpenClaw可以作為第三方智能體環境,協助千問3.5進行網頁搜尋、資訊收集和結構化報告生成等內容。千問3.5還可以作為視覺智能體,自主操控手機與電腦完成日常任務。模型架構全面革新,原生多模態不到四千億參數打贏兆,API價格打到閉源模型的零頭,千問3.5此次的突破,根源在於底層架構層面的升級。過去兩年,大模型行業整體遵循Scaling Law路徑演進,即參數規模越大、模型能力越強。從千億級邁向兆級,模型在複雜推理和多工泛化等方面持續取得進展。但這種路徑的代價同樣明顯——訓練依賴超大規模算力叢集,推理成本隨參數規模同步增長,部署門檻不斷提高,使得中小企業難以負擔,也限制了端側的落地。模型能力持續增強的同時,計算效率與可擴展性逐漸成為新的瓶頸。在這一背景下,千問3.5不再單純擴大模型規模,而是對Transformer經典架構進行了一次深度重構,通過多項關鍵技術協同最佳化,在強性能與高效率之間找到了新的平衡點。據官方介紹,千問3.5引入了四項關鍵技術。首先,是注意力機制的結構最佳化。Transformer的核心是自注意力機制,但傳統實現存在一個固問題:無論資訊是否重要,每個Token都需要與全部上下文進行計算關聯,複雜度隨上下文長度持續增長。這使得長文字處理的計算成本迅速上升,也成為限制模型長上下文能力的主要因素之一。千問3.5為此引入了混合注意力機制,不再對所有資訊一視同仁,而是根據重要程度動態分配計算資源——關鍵資訊高精度處理,次要資訊低成本帶過。在保持理解精度的同時,顯著壓低了計算開銷,長上下文處理效率也隨之提升。第二,是極致稀疏的MoE架構設計。如果說注意力最佳化解決的是“怎麼讀資訊”的問題,那MoE架構解決的是“用多少參數來回答”的問題。傳統稠密模型每次推理必須啟動全部參數,參數越多成本越高。MoE架構的思路是將模型拆分為大量專家子網路,每次推理只啟動其中最相關的一部分。千問3.5把這一思路推向極致:總參數3970億,單次推理啟動僅170億,啟動比例不到5%。大規模參數積累的知識優勢被保留,但規模帶來的成本負擔被大幅卸掉。第三,是原生多Token預測機制。傳統語言模型逐Token生成,每次輸出一個再預測下一個,序列結構直接限制了推理速度。千問3.5在訓練階段就學習聯合預測多個未來Tokens,使模型從逐字輸出變為批次輸出,而非單點預測。推理速度接近翻倍,對話響應明顯加快。第四層突破是系統級訓練穩定性最佳化。稀疏架構雖然效率極高,但訓練難度遠高於傳統稠密模型。為瞭解決訓練穩定性問題,千問團隊將此前獲得NeurIPS 2025最佳論文的注意力門控機制,引入到了千問3.5之中。該機制可以理解為注意力輸出端的“智能開關”。它即時控制資訊流強度,強化有效訊號,抑制噪聲干擾。避免訓練過程中的梯度異常和資訊失衡。除此之外,歸一化策略、專家路由初始化等深層最佳化手段也被引入,分別解決不同環節的穩定性難題,共同保證前述架構創新在超大訓練規模下穩定運行。四大殺招齊出,千問3.5實現了顛覆性的效率飛躍。官方資料顯示,新架構訓練成本降幅高達90%。與Qwen3-Max相比,Qwen3.5-Plus部署視訊記憶體佔用降60%,意味著節算力部署成本大幅降低;最大推理吞吐量可提升至19倍,大幅提升推理效率。架構創新解決的是效率問題,而千問3.5的另一重躍遷,指向的是智能本身——它要讓大模型真正“看得見”。目前行業裡不少所謂的多模態方案,做法其實是分步拼接:先把語言模型訓好,再把視覺模組接上去,中間加一層對齊網路把兩邊的表徵勉強拉到一起。更直接的做法甚至連對齊都省了,前端看起來是一個統一入口,後端其實是不同任務調不同模型,本質上就是個路由器。這類方案能用,但談不上真正的融合,而且一個常見的副作用是:視覺能力加上去了,語言能力可能反而往下掉。千問3.5選擇了更徹底的原生多模態路徑。預訓練階段就不再區分“先學文字、再學圖像”,而是把文字和視覺資料混在一起,讓模型從第一步就在同一參數空間裡同時消化這兩種資訊。這樣訓出來的模型,處理圖片和處理文字走的是同一條神經通路,不需要中間再做翻譯或對齊。這種融合在工程上極具挑戰。圖像和文字的資料結構差異很大,如果強行套用同一套平行策略,計算資源的浪費會很嚴重。千問3.5的處理方式是讓兩種模態在訓練過程中各自按最適合自己的方式走,只在必要的環節進行資訊交匯。最終,那怕同時輸入文字、圖像和視訊三種資料,整體訓練吞吐量和純文字基座模型幾乎沒有差別。同時,團隊還加上了一套針對性的混合精度方案,在不同環節靈活切換FP8和FP32,啟動記憶體砍掉了大約一半,訓練速度還額外快了10%。這套精度策略不只用在預訓練階段,強化學習和推理環節也統一部署了進去。在智能體訓練這塊,團隊又專門造了一套大規模強化學習框架,純文字、多模態、多輪對話全都能跑,訓練效率直接拉高了3到5倍。當然,上述能力的實現,最底層離不開阿里雲AI基礎設施的支撐。超大規模混合資料訓練的穩定性、多模態平行策略的工程落地、訓練到推理全鏈路的精度最佳化,每一項都需要底層算力平台的深度配合。最最關鍵的是,千問不光技術能打,更是在開放原始碼的路上一路狂飆。阿里是真“源”神不知道還有沒有人記得啊,去年阿里就在春節期間連發好幾個模型,春晚直播進行時,掐著點甩出Qwen2.5-Max,直接把DeepSeek V3給反超了。當時網友們的評論是:杭州這群人,不睡覺也要送上新春大禮包。一年過去了。又是除夕,又是千問。從2.5到3.5,千問再把“開源”兩個字做到了極致。回顧千問開源之路:自2023年開源以來,阿里已累計開源400多個模型。從0.5B到235B全尺寸覆蓋,從端側到雲端全面佈局,涵蓋文字生成、視覺理解與生成、語音理解與生成、文生圖、視訊模型等全模態領域……千問直接把開源模型貨架,擺的滿滿噹噹。而且,每一代、每一個尺寸,都在穩定輸出天花板級產品,換來實打實的戰績:全球下載量突破10億次,單月下載量超過第2名到第8名的總和,開發者基於千問開發的衍生模型已超過20萬個。千問目前已穩居全球最大AI大模型族群。“最強開源得投千問一票”,從一部分人的判斷,變成了全球開發者的共識。不論是開源開放,還是把API價格打到0.8元/百萬Tokens,亦或是將支援語言擴展到186種,千問的意圖很明顯:讓更多人能用上、用得起最頂尖的模型。當開源模型在核心能力上追平甚至反超閉源,而且免費可商用,競爭的邏輯就變了。這不再是一個模型和另一個模型之間爭跑分的遊戲,而是兩種生態路徑的選擇。Linux沒有靠賣系統成為商業巨頭,卻成為了全球伺服器領域的主流支撐。Android也不靠系統授權盈利,卻讓智慧型手機真正普及到每一個人。千問想走的路,大概也是這一條。最後別忘了,這些只是模型禮盒!今年春節請喝奶茶、紅包雨還沒算在內。阿里千問這過年的排面,太瘋狂了。 (量子位)