#阿里通義
阿里將推出國際版“千問”,與ChatGPT競爭
《科創板日報》獲悉,阿里巴巴已秘密啟動“千問”項目,基於Qwen最強模型打造一款同名個人AI助手——千問APP,全面對標ChatGPT,加入全球AI應用的頂級競賽。阿里核心管理層將其視為“AI時代的未來之戰”,希望借助Qwen的開源技術優勢贏得競爭。這是年初公佈3800億投入AI基礎設施之後,阿里AI戰略的又一重要佈局。此前,阿里重兵一直放在B端AI市場,通過阿里雲向各行各業提供模型API服務。基於Qwen的優秀性能和國際影響力,阿里管理層認為啟動千問C端之戰的時機已經成熟。阿里巴巴已經抽調上百名工程師秘密辦公。在阿里巴巴位於杭州的總部園區,已有兩層辦公樓被劃為該項目的專屬區域。面向全球市場的國際版千問APP也在同步研發,將借助Qwen模型的海外影響力與ChatGPT直接爭奪海外使用者。Qwen大模型的研發始於三年前,目前已經成為全球排名第一的開源大模型。資料顯示,Qwen系列模型的全球下載量已突破6億次。Airbnb CEO布萊恩·切斯基此前公開表示,公司正“大量依賴Qwen”,因其比openAI模型更快更好。輝達CEO黃仁勳表示,Qwen已佔據全球開源模型的大部分市場,並在持續擴大份額。不過,阿里雲與通義大模型雖然在AI基礎設施層面技術領先,卻缺乏直達消費者的應用載體。2024年底至2025年初,阿里巴巴就已經通過一系列組織架構調整和戰略部署,正式加碼AI To C業務。2024年12月,阿里巴巴將AI應用“通義”的產品團隊從阿里雲智能劃入智能資訊事業群。調整後,通義的PC端及App端團隊與夸克平級,共同探索AI在C端市場的應用場景,而通義實驗室仍保留在阿里雲體系內,繼續負責基礎技術研發。今年3月13日,阿里巴巴宣佈推出AI旗艦應用——新夸克,作為阿里巴巴AI To C的代表產品。而此次秘密研發的阿里“千問” APP,後續將與夸克如何協同發展,仍有待進一步明確。據麥肯錫預測,到2030年,全球AI To C市場規模將達到1.3兆美元,年均增長率超過35%。這個數字讓任何科技企業都無法忽視。在阿里之外,字節旗下豆包已經獲取了海量使用者流量。根據QuestMobile《2025年三季度AI應用價值榜》,豆包月活環比增長22.2%至1.59億,月均下載量達3447萬。騰訊元寶則一度靠著DeepSeek流量急速攀升。QuestMobile資料顯示,2025年上半年,騰訊元寶的月活使用者數同比增長55.2%。隨著AI應用融入更廣大使用者的日常生活,阿里、字節、百度等廠商之間的比拚也逐漸升溫,曾經在網際網路、移動網際網路時代屢次上演的競爭大戲,如今將在AI的舞台上迎來全新演繹。 (財聯社AI daily)
阿里深夜幹了件大事,成本暴降90%!
32B尺寸比肩235B性能,兩大新模型已開源。智東西9月12日報導,今天凌晨,阿里通義實驗室正式發佈下一代基礎模型架構Qwen3-Next,並訓練了基於該架構的Qwen3-Next-80B-A3B-Base模型,該模型擁有800億個參數,僅啟動30億個參數。Base模型在Qwen3預訓練資料的子集上訓練,包含15T tokens訓練資料,僅需Qwen3-32B 9.3%的GPU計算資源,針對超過32k的上下文,推理吞吐量可達到Qwen3-32B的10倍以上。同時,基於Base模型,阿里開源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思維模型(Thinking),模型支援原生262144個token上下文長度,可擴展至1010000個token。其中,Qwen3-Next-80B-A3B-Instruct僅支援指令(非思考)模式,其輸出中不生成<think></think>塊;Qwen3-Next-80B-A3B-Thinking僅支援思考模式,為了強制模型進行思考,默認聊天範本自動包含<think>。指令模型的性能表現與參數規模更大的Qwen3-235B-A22B-Instruct-2507相當,思維模型優於Google閉源模型Gemini-2.5-Flash-Thinking。▲指令模型測試基準▲思維模型測試基準在架構升級方面,相比阿里4月底的Qwen3 MoE模型,新增了混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的最佳化,以及提升推理效率的多Token預測(MTP)機制等。新模型已在魔搭社區和Hugging Face開源,開發者也可通過Qwen Chat或阿里雲百煉、NVIDIA API Catalog體驗Qwen3-Next。開發者在Qwen的X評論區稱讚其新增的多Token預測(MTP)機制,稱這是最令人印象深刻的部分。Qwen Chat地址:https://chat.qwen.aiHugging Face地址:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d魔搭社區:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a阿里雲百煉:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen301.指令模型接近235B旗艦模型思維模型超Gemini-2.5總的來看在性能方面,指令模型接近阿里參數規模235B的旗艦模型,思維模型表現優於Gemini-2.5-Flash-Thinking。其基座模型為Qwen3-Next-80B-A3B-Base,僅使用1/10的Non-Embedding啟動參數,在大多數基準測試中,性能表現與Qwen3-32B-Base相近。但其總訓練成本為Qwen3-32B-Base的10%不到。得益於其新的混合模型架構,Qwen3-Next在推理效率方面,與Qwen3-32B相比,Qwen3-Next-80B-A3B在預填充(prefill)階段,在4k tokens的上下文長度下,吞吐量接近前者的7倍,當上下文長度超過32k時,吞吐量提升達到10倍以上。在解碼(decode)階段,該模型在4k上下文下實現近4倍的吞吐量提升,在超過32k的長上下文場景中能保持10倍以上的吞吐優勢。具體來看,其指令模型表現優於Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,並取得了幾乎與參數規模更大的Qwen3-235B-A22B-Instruct-2507模型相近的結果。只有在面向大模型的綜合性評測基準、高難度數學推理基準AIME25中,指令模型的表現略遜色於Qwen3-235B-A22B-Instruct-2507,在程式設計、複雜問答與長對話的評測中表現更好。Qwen3-Next-80B-A3B-Instruct在RULER上所有長度的表現明顯優於層數相同、注意力層數更多的Qwen3-30B-A3B-Instruct-2507,甚至在256k範圍內都超過了層數更多的Qwen3-235B-A22B-Instruct-2507。思維模型的表現優於預訓練成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全面超過Google的閉源模型Gemini-2.5-Flash-Thinking,並在部分指標上接近阿里最新旗艦模型Qwen3-235B-A22B-Thinking-2507。02.混合注意力、MoE、穩定最佳化多Token預測加持研究人員在部落格中提到,Qwen3-Next是針對大模型在上下文長度和總參數兩方面不斷擴展的未來趨勢而設計。Qwen3-Next採用的是Qwen3 36T預訓練語料的均勻採樣子集,包含15T tokens的訓練資料,其訓練所消耗的GPU Hours不到Qwen3-30A-3B的80%;與Qwen3-32B相比,僅需9.3%的GPU計算資源,即可實現更優的模型性能。這一模型結構相較其4月底推出的Qwen3的MoE模型,新增了多種新技術並進行了核心改進,包括混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的最佳化,以及提升推理效率的多Token預測(MTP)機制等。混合注意力機制:用Gated DeltaNet(線性注意力)和Gated Attention(門控注意力)的組合替換標準注意力,實現超長上下文長度的有效上下文建模。研究人員發現Gated DeltaNet相比常用的滑動窗口注意力(Sliding Window Attention)和Mamba2有更強的上下文學習能力, 並在3:1的混合比例下,即75%層使用Gated DeltaNet,25%層保留標準注意力,能一致超過超越單一架構,實現性能與效率的雙重最佳化。同時在保留的標準注意力中,研究人員進一步引入多項增強設計,包括沿用先前工作的輸出門控機制,緩解注意力中的低秩問題,將單個注意力頭維度從128擴展至256,僅對注意力頭前25%的位置維度加入旋轉位置編碼,提高長度外推效果。高稀疏度混合專家(MoE):在MoE層中實現極低的啟動比率,大幅減少每個token的FLOPS,同時保留模型容量。研究人員的實驗表明,在使用全域負載平衡後,當啟動專家固定時,持續增加專家總參數可帶來訓練loss的穩定下降。此前,Qwen3系列的MoE專家啟動比約為1比16,Qwen3-Next實現了1比50的啟動比。穩定性最佳化:包括零中心化和權重衰減LayerNorm等技術,以及其他增強穩定性以實現魯棒的預訓練和後訓練。研究人員發現,注意力輸出門控機制能消除注意力池與極大啟動等現象,保證模型各部分的數值穩定。多Token預測(MTP):提升預訓練模型性能並加速推理,Qwen3-Next特別最佳化了MTP多步推理性能,通過訓練推理一致的多步訓練,進一步提高了實用場景下的投機採樣(Speculative Decoding)接受率。03.結語:3B啟動參數對標旗艦模型!阿里憑架構創新為模型降本提速Qwen3-Next的突破點在於同時實現了大規模參數容量、低啟動開銷、長上下文處理與平行推理加速。此外結合注意力機制、MoE設計等方面的多項架構創新,阿里通義此次實現僅啟動3B參數模型就能對標規模更大模型的性能,使得模型在性能與效率之間找到更佳平衡點,同時為降低模型訓練、推理成本提供了有效路徑。研究人員在部落格提到,未來他們將持續最佳化這一架構並開發Qwen3.5。與此同時近期阿里通義已經推出數個不同領域的模型,如超兆參數的Qwen3-Max-Preview、文生圖及編輯模型Qwen-Image-edit、語音識別模型Qwen3-ASR-Flash等。隨著其多領域模型的持續落地與開源,阿里通義在開源社區的技術影響力正逐步增強。 (智東西)
“清華系”VS“阿里系”:誰將定義中國大模型的下一個“範式”?
隨著“百模大戰”的喧囂逐漸退去,中國大模型產業正從技術競賽轉嚮應用落地的深水區。在這場重塑AI格局的處理程序中,兩大“隱形門派”——以清華背景企業為代表的“清華系”,與從阿里“通義”體系走出的創業者構成的“阿里系”,正成為影響未來走向的關鍵力量。源起:學院派與實戰派的兩條路徑“清華系”的根基深植於清華大學電腦系的知識工程實驗室(KEG),在唐傑教授的帶領下,團隊長期深耕知識圖譜、圖神經網路與預訓練模型。這一學派強調理論驅動,追求技術本質的突破。智譜華章便是這一學術傳統的商業延續。其CEO張鵬為清華博士,公司依託GLM(通用語言模型)架構,走出了一條不同於GPT和BERT的技術路線,體現出強烈的“學院派”氣質。而月之暗面則由清華校友楊植麟創立,團隊融合了清華的理論深度與Google Brain的工程經驗。其產品Kimi憑藉支援百萬級長文字輸入的能力,在2023至2024年間迅速引爆市場,展現了“理論+工程”雙輪驅動的潛力。相比之下,“阿里系”的創業者則是在商業實戰中錘煉出的“羅馬軍團”。阿里自2017年設立達摩院以來,持續投入AI研發,並於2023年推出通義千問(Qwen)系列大模型,建構了“模型+平台+業務”的閉環生態。從這一體系中走出的創業者,如前阿里副總裁賈揚青創辦的Lepton AI,以及螞蟻集團前首席AI科學家漆遠創立的無限光年,都帶有鮮明的“場景驅動”烙印。他們更關注技術如何與金融、電商、物流等真實產業結合,擅長高並行、低延遲的系統部署,追求技術的可規模化與商業回報。分野:理想主義與實用主義的碰撞?技術路徑的差異,也對應出兩種截然不同的創業哲學。“清華系”創始人多為學者或頂尖研究員,創業故事常帶有理想主義色彩。他們追求長期技術壁壘,建構以學術成就為核心的“知識共同體”。融資時,他們講述的是“改變世界的技術”和“國家戰略需求”,吸引國家級基金與頂級風投。而“阿里系”則更像一支“戰友聯盟”,創始人多為身經百戰的業務將才。他們決策迅速、執行高效,擅長講述清晰的商業邏輯。在資本眼中,他們的履歷本身就是信用背書——一個被驗證過的團隊,正奔赴一個兆級市場。這種差異也體現在資源爭奪上:兩者都在搶奪頂尖AI人才、GPU算力和企業客戶市場。但“清華系”瞄準的是大模型“智力本質”的突破,在尋求商業突破時更試圖定義下一代AI範式;“阿里系”則聚焦於應用層的快速落地,力求在紅海中建立商業護城河。競合:對手,也是盟友儘管表面上是競爭對手,但“清華系”與“阿里系”之間卻存在著複雜的合作關係。一個耐人尋味的現像是:阿里巴巴通過其戰略投資部門,同時投資了“清華系”的智譜和月之暗面。這意味著,阿里既是“阿里系”創業者的“母校”,也是“清華系”新銳的金主。這種佈局,實則是阿里在核心技術自研之外,建構的“雙軌生態”戰略——既通過通義守住基本盤,又通過投資外部創新力量對衝風險、搶佔前沿。此外,所有大模型玩家都依賴共同的上游生態:輝達的GPU、阿里雲等算力平台、以及ModelScope等開源社區。他們的競爭客觀上推動了產業鏈成熟,共同做大了中國AI的“蛋糕”。未來:融合才是終局?“清華系”與“阿里系”的對決,本質上是中國AI發展兩條路徑的交鋒:由理生工(從理論出發推動工程)與由工反理(在工程實踐中倒逼理論突破)。未來的勝出者,或許不是某一陣營的全面勝利,而是兩類基因的融合體——既擁有“清華系”的技術深度,又具備“阿里系”的商業敏銳。這類新一代AI企業,將不再被簡單的“門派”標籤所定義,而是以更系統、更成熟的能力,迎接全球競爭。當喧囂退去,這場“門派之爭”最終指向的,是中國科技產業對長期主義與系統能力的集體回歸。誰能在理論與商業之間找到最佳平衡,誰就有望定義中國大模型的下一個“範式”。 (元界)
比亞迪裝上阿里“最強大腦”!接入阿里通義大模型
阿里雲與比亞迪宣佈達成深度合作,比亞迪全系車型正式接入阿里通義大模型。這一技術升級將徹底改變車載互動體驗:使用者只需一句語音指令,即可通過智能座艙完成訂火車票、點外賣、查詢快遞等複雜操作。例如,使用者說“幫我訂明早去上海的高鐵票”,系統會自動調取日曆確認行程並完成購票;若詢問“淘寶買的快遞到那了”,座艙能精準識別淘寶App並模擬點選查詢物流資訊。此次合作的核心技術支撐是阿里雲AI智能體Mobile-Agent。它基於全視覺解決方案,結合比亞迪開放的座艙生態與通義大模型的多模態能力(如Qwen-VL視覺識別),實現對螢幕內容的智能感知、任務規劃及UI操作決策。該系統無需針對不同App單獨適配,具備跨場景、跨裝置的強泛化能力,覆蓋購票、外賣、社交、娛樂等高頻需求。此外,比亞迪已在多個業務場景落地通義大模型:智能座艙:騰勢車型推出“AI壁紙”功能,使用者語音生成個性化壁紙,並隨時間自動調節色調;心理伴聊:基於通義星塵技術,提供情感陪伴服務,緩解駕駛疲勞;行銷服務:通過通義千問最佳化客服對話質量監控,提升服務效率。雙方表示,未來將進一步拓展車載AI應用場景,例如結合高精度地圖實現“車內預訂目的地周邊餐廳”等深度服務。當前,智能汽車正從“工具屬性”向“服務生態”轉型。比亞迪與阿里的合作,標誌著車載互動邁入“多模態指令+場景化服務”的新階段。技術驅動:通義大模型的多模態能力(語音、視覺、文字融合)解決了傳統語音助手的侷限性。例如,Mobile-Agent通過視覺識別精準定位螢幕功能入口,避免了“誤喚醒”和“重複確認”的痛點。生態整合:阿里雲依託支付寶、淘寶、微博等生態資源,為比亞迪提供豐富的服務入口。這種“車企硬體+網際網路服務”的模式,建構了從需求識別到服務落地的閉環。行業趨勢:據麥肯錫預測,2026年全球車載AI市場規模將突破千億美元。特斯拉、小鵬等車企雖在自動駕駛領域領先,但在“車內服務生態”上仍依賴第三方應用,而比亞迪通過開放生態與AI結合,率先搶佔使用者高頻場景。比亞迪與阿里雲的合作並非偶然,而是雙方長期戰略佈局的必然結果。合作基礎技術互補:比亞迪擁有全球領先的電池技術與整車製造能力,而阿里雲在雲端運算、AI大模型領域積累深厚。2023年起,雙方已在車機系統最佳化、使用者畫像分析等場景試點合作。生態協同:阿里通過支付寶、高德地圖等建構車載服務生態,比亞迪則通過“迪粉匯”等平台積累超2000萬使用者資料,雙方資料融合後能精準預測使用者需求。行業轉折點2024年,比亞迪推出“天神之眼”高階智駕系統,但使用者反饋“互動體驗單一”;此次接入通義大模型後,其座艙從“指令執行工具”升級為“需求理解夥伴”,差異化競爭力顯著提升。對比華為鴻蒙OS(依賴自家硬體)和特斯拉純視覺方案,比亞迪選擇開放生態+多模態AI,更易實現規模化落地。競爭對手對比:生態整合成決勝關鍵本質差異:比亞迪與阿里的合作聚焦“使用者需求直達”,通過AI打破App壁壘;而特斯拉、華為更側重技術自研與生態控制權。未來競爭將圍繞“服務顆粒度”與“生態開放性”展開。比亞迪接入阿里通義大模型,不僅是技術升級,更是對“人車關係”的重新定義。通過多模態互動與場景化服務,汽車從“移動工具”進化為“需求預測者”和“服務執行者”。這一變革背後,是車企從“製造”向“服務營運”的深層轉型。比亞迪借助阿里的AI能力,以較低成本實現了服務生態的快速擴展;而阿里則通過車企場景反哺大模型迭代,形成雙向賦能。然而,挑戰依然存在:如何平衡個性化服務與使用者隱私?如何避免生態封閉導致的“資料孤島”?這些問題的解決,將決定智能座艙能否真正成為使用者生活的“延伸”。可以預見,2025年將是“車內AI服務”爆發之年,而比亞迪與阿里的組合,已然搶佔了先發優勢。 (智創獅)