#NEXT
美股財經週報 2026.4.19伊朗再關閉霍姆茲海峽,4/21 美東晚間為美伊停火協議截止時間,週日巴基斯坦徵用上次舉辦美伊首次會談的酒店,預期第二輪談判舉辦在即,週二參議院銀行委員會將進行 Fed 新任主席提名人 Warsh 的聽證會,谷歌將在週三~五舉辦 Google Cloud Next 大會 ...週二 Fed 主席提名人 Warsh 聽證會除聚焦降息利率政策外,其主張結合大幅縮減 Fed 資產負債表與降息的方式將是觀察重點 ...Bloomberg 報導蓋洛普 2 月下旬的調查顯示,美國 Z 世代對 AI 越來越不感興趣,對 AI 憤怒的情緒攀升 …債券投資人已將戰爭風險拋諸腦後,JPMorgan 統計 4 月上半月投資人淨買入 5 億美元最低投資等級債券 ...FactSet 統計,華爾街預測科技 7 巨頭 Q1 EPS 年增率為 22.8%,但排除 Nvidia 後大幅下降至 6.4% …財報季開始一週,S&P 500 成分股已有 40 家下調業績指引,創下 2025 年 Q2 對等關稅以來最高水平 ...散戶強勢回歸,巴克萊散戶資金流監測指標自 4 月初觸底後急遽攀升,高盛最受散戶青睞的股票指數自 3 月底大幅反彈 22% ...
當姚順雨的巨臉降臨中國AGI
1月10日,AGI-NEXT前沿峰會的主會場大廳裡擠滿了人。這是由清華大學基礎模型北京市重點實驗室發起的前沿峰會。三個小時的議程,四個演講和一個pannel,總計六個嘉賓,幾乎每一個都是時下關注的熱門人物:比如,剛剛登陸港股的智譜創始人唐傑、不太愛出門參加活動的Kimi創始人楊植麟、正在向C端Super App發起衝鋒的阿里巴巴Qwen負責人林俊暘,以及近期在官宣加入騰訊後首次露面的前OpenAI研究員姚順雨。其中前三位分別做了技術報告分享,而姚順雨則參加了隨後的AGI-Next圓桌對話。在會議邀請函裡,姚順雨的名字出現在了一個不那麼起眼的角落裡:沒有主題報告,名字被悄悄放在了楊強、唐傑和林俊暘後面。但很快許多人都立刻意識到,這將是這位剛剛官宣加盟騰訊的前OpenAI研究員、網傳各種版本天價薪酬的合肥天才少年,作為中國估值最高的網際網路公司的AI一號位,在回國後的首次公開露面。從一開始,會場上的觀眾席裡彷彿就有一種默契。主持人開始介紹嘉賓,在一眾領導之後,不少人都伸長了脖子張望,但都沒有聽到那個期待中的名字。有人開始疑惑,但好像有些嘉賓的名字也沒有被提及,所以懷疑他可能是和其他人一同待在貴賓室裡。當然,或者可能乾脆未必真的會來——畢竟誰沒見過在活動當天爽約的“大佬”呢?這種懷疑在圓桌開始的那一刻幾乎被坐實了。圓桌原本有五個人,但舞台只搬上了四張沙發。LED大螢幕上還打出了姚順雨的銘牌,但他的頭像下卻空空如也。加拿大皇家科學院院士和工程院院士楊強、智譜創始人唐傑、Qwen負責人林俊暘和主持人、拾象科技創始人李廣密在台上一一落座。然後主持人開始對嘉賓講話。坐在我側前方的中年大哥說了一句,“哦,沒來啊。”主持人還沒提完問題,姚順雨巨大的騰訊會議頭像框就突然“閃現”在了三個嘉賓大佬的頭頂。那是滿滿一整屏的LED,把他的頭塑造得如此之大,以至於沒有一個嘉賓的高度能超過他的鼻尖。唐傑、楊強、林俊暘我上一次看到這樣的“奇景”,還是在《1984》。沒有觀眾能接受這樣戲劇性的一幕,於是會場爆發出了一陣熱烈的笑聲。剛才那位扼腕的大哥又說,“果然是YaoShunYu啊。”姚順雨似乎在視訊裡比照片更好看。他臉上堆滿了1998年生年輕人該有的膠原蛋白,發量充沛,笑起來很有鄰家大男孩的親和力——尤其在小紅書裡,大量的女性使用者湧入評論區稱讚他是“Hot Nerd”、“理想型之理想型”、“像許嵩”、“大臥蠶狗狗眼”,並為其“英年早婚”而深感惋惜。可能是看到了現場的情況,姚順雨頭顱左右轉動、眼神裡夾雜著一些迷茫。我當時看著那場面,心想那簡直就是過去半年時間裡,他本人在中國AGI江湖傳說的最佳側寫:這個年輕人以不置可否的網路傳聞方式,猝不及防地出現在了AI江湖裡,掌控了一家市值約等於字節跳動(3500億美金)和阿里巴巴(3600億美金)之和的超級網際網路公司(5.5兆港幣)的AI部門,最後無意間將那些年齡上能做他爺爺輩的研究者置於一種略顯尷尬的場面裡。而這背後巨大的故事張力,又在AI圈外塑造了一種遠遠超出技術與商業本身的爽文敘事。至於他本人的反應——他的理性非常清楚地知道自己的形象將處在一個巨大的會議廳裡,但身體的反應卻完全沒有處於嘈雜人群中的實感。面對身後的龐然大物,主持人選擇話頭扔給姚順雨。姚順雨此時像是反應過來,然後笑著問所有人,“我現在是不是一張巨大的臉在(螢幕上)”。所有人聽完又再笑。而這就是1998年出生的騰訊AI一號位,在中國頂級舞台首發亮相的第一分鐘。其樂融融。姚順雨講了麼?人們對姚順雨充滿好奇,除了對於年齡和網傳誇張年薪的反差感外,自然還包含了對騰訊接下來AI動向的好奇。正如Qwen林俊暘在回答主持人問題時,拿姚順雨打趣說:“一代一代的人塑造了這些公司,比如說今天順雨到騰訊之後,可能騰訊變成一個有著順雨基因的公司。”姚順雨在回答問題時,有時顯得很謹慎,說話比任何人都慢,會字斟句酌地吐出幾個同義詞。但我想,我們依然能夠通過這次對談,瞥見未來姚順雨乃至騰訊AI未來的審美偏好和發力方向。以下是對姚順雨相關表態的整理和分析:(一)“騰訊肯定還是一家To C基因更強的公司。”(1)我們會思考,怎麼樣能夠讓今天的大模型或者說AI的發展給使用者提供更多價值——很多時候是額外的Context。比如,今天我想去吃什麼?這個事情不需要更大的模型能力,而是需要額外的Context,比如今天特別冷,需要吃暖和的。我和老婆聊了很多天,可以把聊天記錄轉發給元寶。(2)對於To C來說,大部分人大部分時候不需要用到這麼強的智能,可能今天用ChatGPT和去年相比,寫成交代數和伽羅瓦理論的能力變強的,但是大部分人大部分時候感受不到。To C的問題是DAU等指標和模型智能不相關,甚至相反。(二)“ToB 在中國很難。”(1)生產力的革命,包括很多中國的公司做Coding Agent,需要打很多海外市場。我們會思考怎麼把自己先服務好。大公司本身就已經有各種各樣的應用場景、各種各樣需要生產力變得更好的地方。(2)“To B 的智能越高,代表生產力越高,值錢的也越來越多,大部分時候很多人就願意用最強的模型——強的模型和稍微差點,或者弱的模型它的分化會越來越明顯。(3)to B 的垂直整合未必成立,因為模型層和應用層需要的能力還是挺不一樣(比如ChatGPT Agent 相比於Manus);但 to C 的垂直可能還是成立的,無論是ChatGPT還是豆包,模型和產品是非常強耦合去緊密迭代的。(4)Anthropic不做什麼創新,老老實實把事情做好,就會有價值;(5)即便所有的模型訓練全部停止,to B也可以有很大的空間,為GDP提供5-10%的(正面)影響。(三)“自主學習在矽谷是一個共識”(回答下一個範式的問題)(1)自主學習不是一種方法論,而是資料或者任務,本質是討論基於什麼樣的獎勵函數;(2)ChatGPT在利用使用者的資料不斷彌合人聊天的風格;Claude 寫了Claude 項目95%的程式碼,這可能都是一種自我學習;(四)“中國對於刷榜和數字看得更重一些”(1)DeepSeek做得比較好;Claude在榜單不是很高,但是大家都知道這個東西好用。(五)“對於中國從跟隨者變引領者,我還是挺樂觀的”(1)任何一個事情一旦被發現,中國就很快會復現;(2)核心(變數之一)在於光刻機能否突破來解決算力優勢;林俊暘疑似對姚順雨部分觀點的不同意見:(一)關於自學習範式:人類不能通過互動讓AI變得更厲害,只會讓它上下文變得越來越長,AI變得越來越笨。自動化AI未必需要自主學習,AI訓練AI就會很強,但持續理解使用者會很重要。AI自主性可能導致安全風險,“比如說今天主動產生一些想法,往會場裡面扔一顆炸彈”。拿我們自己獻醜,我們自己的Memory看起來知道我過去幹了什麼,但是只是記起來過去事情,每次叫一遍我的名字,其實並不顯得你很聰明(未來是否實現還要看更多時間和技術觀測)(二)關於to B“垂直整合”邏輯未必成立:當然Manus確實很成功,套殼是不是未來,這本身也是個話題。今天到這個環節,我比較同意“模型即產品”。我們現在Agent已經變的託管式的Agent,而不是我要不斷給你來來回回互動的那種形式。從這個角度來說,它對模型的要求是很高的——模型就是這是這個Agent本身,Agent就是這個產品本身,如果它們都是一體化的話,今天做基礎模型本身,其實也就是在做產品。總結如果從姚順雨的發言,可以(不負責任地)大概猜到騰訊接下來的AI戰略:第一,騰訊會發力圍繞社交應用做Agent,重視上下文工程和自進化的主打C端市場。第二,B端市場繼續保守。第三,不會太去沖榜。姚順雨被官宣是他在騰訊漫長Landing的一個里程碑。但在如何把他的基因放進騰訊之前,可能先要想好,如何把騰訊的基因融進自己的身體裡。而相比於姚順雨的降臨,我們大概更期待他能給騰訊龐大生態帶來嶄新的變化。用姚順雨那篇知名的部落格的話說,我們正處在AI的中場休息——所以,“歡迎來到下半場”。姚順雨和他的騰訊AI會成為那個開球人嗎? (矽星人Pro)
中國最大企業比特幣持有者擬募資5億美元增持比特幣
中國持有比特幣的最大上市公司——Next Technology Holding(以下簡稱“Next科技”)宣佈,計畫發售至多5億美元的普通股。此次募資所得資金將用於購買更多比特幣,並為公司營運提供支援。目前,該公司持有5,833枚比特幣,市值約6.718億美元,躋身全球企業比特幣庫儲存備量前20名。若此次新增資金的大部分用於增持比特幣,其持倉量有望突破8,000枚。在向美國證券交易委員會(SEC)提交的檔案中,Next科技表示,股票發行所獲淨收益將用於一般企業用途,其中包括收購比特幣。不過該公司也澄清說,尚未設定比特幣增持的固定目標,後續將根據市場情況評估後再決定是否進一步購買。這一舉措與當前的大趨勢相符——越來越多上市公司將比特幣視為戰略性儲備資產。資料顯示,2025年持有比特幣的上市公司數量已接近翻倍。目前這些公司持有的比特幣總量超過100萬枚,佔比特幣總供應量的5%以上。儘管有著長期佈局,但短期內Next科技的股價卻出現負面反應。該公司股票以“NXTT”為交易程式碼,在提交檔案當日的常規交易時段下跌約4.76%,盤後交易時段又進一步下跌7.43%。不過,該公司仍處於有利地位,因為其持有的大部分比特幣是在遠低於當前的價格水平購入的。從Next科技的增持歷史來看,該公司曾在2023年12月購入833枚比特幣,隨後在2025年3月又以每枚31,386美元的平均價格額外購入5,000枚。2025年9月,比特幣交易價格接近每枚11.5萬美元,該公司因此獲得了超過266%的帳面收益。儘管Next科技尚未披露比特幣儲備的長期目標,但其最新舉措凸顯出全球企業對在資產負債表中持有數位資產的信心正不斷增強。分析師認為,隨著更多企業採用這一策略,企業需求可能會對本就有限的比特幣供應量形成進一步上行壓力,進而影響加密貨幣市場的未來走向。 (Blockwind)
阿里Qwen3-Next商用:開啟mamba架構時代,訓練便宜10倍推理快10倍!
底層架構換代升級大模型開始彎道超車9月12日,阿里通義千問發表了全新大模型Qwen3-Next系列以及系列首款模型Qwen3-Next-80B-A3B。這是一款開放原始碼的超稀疏MoE模型,也是全球第一款將mamba線性注意力架構從科學研究領域帶入大眾市場的大模型,可望直接開啟大模型底層架構市場的全面變革。新模型最突出的就是在長上下文應用中的極高效率和速度,Qwen3-Next-80B-A3B總共擁有80B參數,但每個token僅啟動3.9B參數,相比Qwen3-32B這種更小的模型,訓練便宜10倍,推理快10倍。尤其是在32K+上下文中,這種成本和效率價值更加突出。千問官方表示:Qwen3-Next-80B-A3B-Instruct接近自家235B參數旗艦模型產品。 Qwen3-Next-80B-A3B-Thinking表現優於Gemini-2.5-Flash-Thinking。目前使用者可在anycoder平台體驗兩款模型的Vibe Coding能力,也可在Qwen Chat中直接使用。不過由於是全新大模型底層框架,與Transformer長期累積下來的技術堆疊相容性未知,需要開源社區進一步運作,才能真正形成技術變革。架構基礎資訊根據官方資訊,Qwen3-Next-80B-A3B 採用了混合Transformer-Mamba 架構,結合了以下關鍵技術創新:混合注意力機制(Hybrid Attention):模型將傳統Transformer 的注意力機制取代為3個Gated DeltaNet全新mamba線性注意力層(平行)與1個Gated Attention傳統softmax指數注意力層的組合。這種混合機制解決了大模型隨著輸入資料量增加算力消耗呈指數型增長的問題,最佳化了超長上下文建模的效率,支援高達256K 令牌的上下文長度,相對於傳統Transformer 模型在處理長序列時的高計算複雜度,顯著降低了計算成本。這也是新模型框架中「線性」和「指數性」的含義。高稀疏性混合專家(MoE)架構:Qwen3-Next-80B-A3B 使用了高稀疏性的Mixture-of-Experts(MoE)架構,512名專家,10名路由+1名共享,總計80B 參數,但每次推理僅啟動3.9B 參數。這種設計透過選擇性地啟動部分專家網路,極大地減少了每token的計算量(FLOPs),從而提升推理速度和效率。例如,在處理超過32K 令牌的上下文時,推理吞吐量是Qwen3-32B-Base 的10 倍,同時訓練成本僅為後者的10%。穩定性最佳化:模型引入了零中心化和權重衰減的層歸一化(LayerNorm)等技術,以增強預訓練和後訓練的穩定性。此外,多token預測(Multi-Token Prediction, MTP)技術進一步提升了預訓練效能與推理速度。支援多語言和複雜任務:Qwen3-Next-80B-A3B 支援119 種語言,擅長工具呼叫和複雜推理任務,效能在某些基準測試中可媲美Qwen3-235B-A22B-Instruct-2507。什麼是Mamba線性架構?Qwen3-Next-80B-A3B明確採用了Mamba 架構,作為其混合Transformer-Mamba 架構的一部分。具體來說:Mamba 架構簡介:Mamba 是一種基於狀態空間模型(State Space Models, SSMs)的架構,最初由Gu 和Dao 等人提出(參考arXiv:2312.00752)。與Transformer 的二次複雜度(O(n²))注意力機制不同,Mamba 使用線性複雜度(O(n))的計算方式,透過結構化狀態空間序列(Structured State Space Sequence, S4)來高效處理長序列資料。 Mamba 的核心優勢在於其高效的上下文建模能力和較低的記憶體佔用,特別適合超長上下文任務。但容易遺失海量資料中的長期關係,因此主流操作都是與Transformer混合使用。這也是未來大模型底層架構技術的重要發展方向。Qwen3-Next-80B-A3B 中的Mamba 實現:根據官方描述,Qwen3-Next-80B-A3B 的混合注意力機制中,Gated DeltaNet是Mamba 架構的關鍵組成部分。 Gated DeltaNet 結合了門控機制(Gating)和Mamba 的狀態空間模型,透過動態選擇性地處理輸入序列,最佳化了長上下文的建模效率。這種機制與傳統Transformer 的全域注意力不同,Mamba 的線性複雜度使得模型在處理長序列時能顯著減少計算資源需求。在具體實現上,Gated DeltaNet 和Gated Attention 的結合可能透過以下方式實現:Gated DeltaNet:基於Mamba 的狀態空間模型,使用門控機制動態調整狀態轉移的權重,以更好地捕捉序列中的長期依賴關係。Gated Attention:在局部或特定場景下補充Transformer 風格的注意力機制,增強模型在短距離依賴或複雜推理任務中的表現。這種混合設計允許模型在保持Mamba 高效性的同時,保留Transformer 在某些任務上的優勢。Mamba 在MoE 架構中的作用:Mamba 的線性複雜度與高稀疏性MoE 架構結合,進一步降低了計算量。 MoE 架構透過選擇性地啟動少量專家(3.9B 參數),而Mamba 的高效序列處理能力確保了即使在超長上下文下,模型也能快速完成推理。例如,官方資料表明,Qwen3-Next-80B-A3B 在處理32K 以上令牌時,推理吞吐量顯著優於傳統密集模型。如何實現Mamba 線性架構?Mamba 線性架構在Qwen3-Next-80B-A3B 中的實現可以從以下幾個方面進行推測和分析:狀態空間模型(SSM)核心:Mamba 的核心是基於狀態空間模型的序列建模,其數學形式可以簡化為:[h_t = A h_{t-1} + B x_t, \quad y_t = C h_t]其中( h_t ) 是隱狀態,( x_t ) 是輸入,( A )、( B ) 是可學習的參數、參數或可學習的參數。 Qwen3-Next-80B-A3B 的Gated DeltaNet 可能透過門控機制動態調整( A ) 和( B ),以增強模型對不同情境的適應性。門控機制增強:Gated DeltaNet 可能藉鑑了Mamba 的改進版本(如Mamba-2),透過引入門控單元(如類似LSTM 的門控結構)來控制資訊流,從而在保持線性複雜度的同時提升模型的表現力。與Transformer 的混合:混合架構的實現可能透過分層設計完成。例如,模型可能在較低層級使用Mamba 的Gated DeltaNet 處理長距離依賴,在較高層引入Gated Attention 進行局部精細化建模。這種分層策略平衡了效率和效能。穩定性最佳化:為確保Mamba 和MoE 的穩定性,Qwen3-Next-80B-A3B 可能採用了專門的訓練技巧,如GSPO(Gradient-based Sparse Parameter Optimization),以解決混合注意力機制和高稀疏性MoE 在強化學習(RL)訓練中的穩定性挑戰。性能與優勢透過結合Mamba 的線性架構和MoE 的稀疏性,Qwen3-Next-80B-A3B 實現了以下優勢:高效率的長上下文處理:支援256K token的上下文長度,推理吞吐量高,適合檔案總結、長對話等任務。低訓練和推理成本:相較於Qwen3-32B-Base,訓練成本降低至10%,推理效率提升10 倍。強大的任務表現:在複雜推理和工具呼叫任務中表現出色,與更大規模的模型(如Qwen3-235B)表現相當。 (AI頓悟湧現時)
阿里深夜幹了件大事,成本暴降90%!
32B尺寸比肩235B性能,兩大新模型已開源。智東西9月12日報導,今天凌晨,阿里通義實驗室正式發佈下一代基礎模型架構Qwen3-Next,並訓練了基於該架構的Qwen3-Next-80B-A3B-Base模型,該模型擁有800億個參數,僅啟動30億個參數。Base模型在Qwen3預訓練資料的子集上訓練,包含15T tokens訓練資料,僅需Qwen3-32B 9.3%的GPU計算資源,針對超過32k的上下文,推理吞吐量可達到Qwen3-32B的10倍以上。同時,基於Base模型,阿里開源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思維模型(Thinking),模型支援原生262144個token上下文長度,可擴展至1010000個token。其中,Qwen3-Next-80B-A3B-Instruct僅支援指令(非思考)模式,其輸出中不生成<think></think>塊;Qwen3-Next-80B-A3B-Thinking僅支援思考模式,為了強制模型進行思考,默認聊天範本自動包含<think>。指令模型的性能表現與參數規模更大的Qwen3-235B-A22B-Instruct-2507相當,思維模型優於Google閉源模型Gemini-2.5-Flash-Thinking。▲指令模型測試基準▲思維模型測試基準在架構升級方面,相比阿里4月底的Qwen3 MoE模型,新增了混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的最佳化,以及提升推理效率的多Token預測(MTP)機制等。新模型已在魔搭社區和Hugging Face開源,開發者也可通過Qwen Chat或阿里雲百煉、NVIDIA API Catalog體驗Qwen3-Next。開發者在Qwen的X評論區稱讚其新增的多Token預測(MTP)機制,稱這是最令人印象深刻的部分。Qwen Chat地址:https://chat.qwen.aiHugging Face地址:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d魔搭社區:https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a阿里雲百煉:https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen301.指令模型接近235B旗艦模型思維模型超Gemini-2.5總的來看在性能方面,指令模型接近阿里參數規模235B的旗艦模型,思維模型表現優於Gemini-2.5-Flash-Thinking。其基座模型為Qwen3-Next-80B-A3B-Base,僅使用1/10的Non-Embedding啟動參數,在大多數基準測試中,性能表現與Qwen3-32B-Base相近。但其總訓練成本為Qwen3-32B-Base的10%不到。得益於其新的混合模型架構,Qwen3-Next在推理效率方面,與Qwen3-32B相比,Qwen3-Next-80B-A3B在預填充(prefill)階段,在4k tokens的上下文長度下,吞吐量接近前者的7倍,當上下文長度超過32k時,吞吐量提升達到10倍以上。在解碼(decode)階段,該模型在4k上下文下實現近4倍的吞吐量提升,在超過32k的長上下文場景中能保持10倍以上的吞吐優勢。具體來看,其指令模型表現優於Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,並取得了幾乎與參數規模更大的Qwen3-235B-A22B-Instruct-2507模型相近的結果。只有在面向大模型的綜合性評測基準、高難度數學推理基準AIME25中,指令模型的表現略遜色於Qwen3-235B-A22B-Instruct-2507,在程式設計、複雜問答與長對話的評測中表現更好。Qwen3-Next-80B-A3B-Instruct在RULER上所有長度的表現明顯優於層數相同、注意力層數更多的Qwen3-30B-A3B-Instruct-2507,甚至在256k範圍內都超過了層數更多的Qwen3-235B-A22B-Instruct-2507。思維模型的表現優於預訓練成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking,全面超過Google的閉源模型Gemini-2.5-Flash-Thinking,並在部分指標上接近阿里最新旗艦模型Qwen3-235B-A22B-Thinking-2507。02.混合注意力、MoE、穩定最佳化多Token預測加持研究人員在部落格中提到,Qwen3-Next是針對大模型在上下文長度和總參數兩方面不斷擴展的未來趨勢而設計。Qwen3-Next採用的是Qwen3 36T預訓練語料的均勻採樣子集,包含15T tokens的訓練資料,其訓練所消耗的GPU Hours不到Qwen3-30A-3B的80%;與Qwen3-32B相比,僅需9.3%的GPU計算資源,即可實現更優的模型性能。這一模型結構相較其4月底推出的Qwen3的MoE模型,新增了多種新技術並進行了核心改進,包括混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的最佳化,以及提升推理效率的多Token預測(MTP)機制等。混合注意力機制:用Gated DeltaNet(線性注意力)和Gated Attention(門控注意力)的組合替換標準注意力,實現超長上下文長度的有效上下文建模。研究人員發現Gated DeltaNet相比常用的滑動窗口注意力(Sliding Window Attention)和Mamba2有更強的上下文學習能力, 並在3:1的混合比例下,即75%層使用Gated DeltaNet,25%層保留標準注意力,能一致超過超越單一架構,實現性能與效率的雙重最佳化。同時在保留的標準注意力中,研究人員進一步引入多項增強設計,包括沿用先前工作的輸出門控機制,緩解注意力中的低秩問題,將單個注意力頭維度從128擴展至256,僅對注意力頭前25%的位置維度加入旋轉位置編碼,提高長度外推效果。高稀疏度混合專家(MoE):在MoE層中實現極低的啟動比率,大幅減少每個token的FLOPS,同時保留模型容量。研究人員的實驗表明,在使用全域負載平衡後,當啟動專家固定時,持續增加專家總參數可帶來訓練loss的穩定下降。此前,Qwen3系列的MoE專家啟動比約為1比16,Qwen3-Next實現了1比50的啟動比。穩定性最佳化:包括零中心化和權重衰減LayerNorm等技術,以及其他增強穩定性以實現魯棒的預訓練和後訓練。研究人員發現,注意力輸出門控機制能消除注意力池與極大啟動等現象,保證模型各部分的數值穩定。多Token預測(MTP):提升預訓練模型性能並加速推理,Qwen3-Next特別最佳化了MTP多步推理性能,通過訓練推理一致的多步訓練,進一步提高了實用場景下的投機採樣(Speculative Decoding)接受率。03.結語:3B啟動參數對標旗艦模型!阿里憑架構創新為模型降本提速Qwen3-Next的突破點在於同時實現了大規模參數容量、低啟動開銷、長上下文處理與平行推理加速。此外結合注意力機制、MoE設計等方面的多項架構創新,阿里通義此次實現僅啟動3B參數模型就能對標規模更大模型的性能,使得模型在性能與效率之間找到更佳平衡點,同時為降低模型訓練、推理成本提供了有效路徑。研究人員在部落格提到,未來他們將持續最佳化這一架構並開發Qwen3.5。與此同時近期阿里通義已經推出數個不同領域的模型,如超兆參數的Qwen3-Max-Preview、文生圖及編輯模型Qwen-Image-edit、語音識別模型Qwen3-ASR-Flash等。隨著其多領域模型的持續落地與開源,阿里通義在開源社區的技術影響力正逐步增強。 (智東西)
中國軍隊裝備已經Next Level!(你等的詳解來了)
今天上午,紀念中國人民抗日戰爭暨世界反法西斯戰爭勝利80周年大會在北京天安門廣場隆重舉行。作為受閱裝備方陣的壓軸巨陣,戰略打擊群由巡航導彈方隊、高超聲速導彈方隊、核導彈第一方隊、核導彈第二方隊組成,以威武陣容展現戰略軍種的強軍風采,彰顯保衛祖國安全和維護世界和平的強大能力。網友紛紛感嘆:“中國軍隊裝備已經Next Level!”巡航導彈方隊長纓在手 敢縛蒼龍拉開戰略打擊群序幕的是巡航導彈方隊,方隊首次採取海軍、空軍、火箭軍聯合編組模式。參閱的火箭軍長劍-1000巡航導彈,具有打擊精度高的特點。在長劍家族中,從長劍-10到長劍-100,再到長劍-1000,從亞聲速到超聲速,再到高超聲速,長劍系列導彈的成長軌跡也體現了我軍巡航導彈的迭代更新。巡航導彈方隊的周明傑介紹,長劍-1000是中國首型高超聲速巡航導彈,具備靈活機動、強力突破、即時發射等特點,可對陸、海、空體系節點目標實施精確打擊。高超聲速導彈方隊以快制強 極速打擊戰略打擊群的第二個方隊是高超聲速導彈方隊,受閱的鷹擊-21、東風-17、東風-26D導彈以聯合編組模式通過天安門,向世人展示大國長劍的銳利刀鋒。這次受閱的鷹擊-21、東風-17、東風-26D導彈,都是高超聲速導彈武器家族的重要力量,集中展現了我軍高超聲速精確打擊能力。從外觀看,東風-17導彈具有彈頭尖、彈身橢圓的特點,這種獨特的彈頭形狀設計,可以有效增強導彈的突防能力。東風-26D導彈是東風-26導彈家族的新成員,在適應複雜戰場環境和體系對抗的能力上有進一步的提升。高超聲速導彈方隊的張洪軍介紹,這三型導彈,飛行速度快,突防能力強,命中精度高,是具備全天候作戰能力的新型殺手鐧武器。核導彈第一方隊國之重器 壓艙基石核導彈第一方隊由多個軍種混編組成,集中展示我軍“三位一體”戰略核力量,是守護國家安全的堅實後盾,受閱裝備依次為 “驚雷-1”空基遠端導彈、“巨浪-3”潛射洲際導彈、“東風-61”陸基洲際導彈和“東風-31”新型陸基洲際導彈。核導彈第一方隊的馬少軍說,方隊所屬四型裝備作為“三位一體”戰略核力量的重要組成部分,列裝部隊後讓官兵保家衛國的底氣更足、強軍興軍的信心更強。核導彈第二方隊東風浩蕩 威震寰宇最後一個出場的方隊,是由12台受閱裝備車搭載著4枚東風-5C液體洲際戰略核導彈組成的核導彈第二方隊,東風浩蕩、雷霆萬鈞,展現了大國重器的威武雄姿。東風-5C液體洲際戰略核導彈由三台特種裝備車分段搭載,其中,彈頭部分獨立展示,它採用的是圓錐形的設計。核導彈第二方隊王黎明介紹,東風-5C液體洲際戰略核導彈亮相,打擊範圍覆蓋全球,是此次戰略打擊群最後亮相的戰略重拳。(央視財經)
《Next Gen NYC》何以成為全美真人秀收視冠軍?
中國短劇拚命反轉、戀綜拚命修羅場,但當下的年輕人真的只需要「爽感」嗎?《Next Gen NYC》用一部「無爽點真人劇」,給出了不一樣的答案。它沒有劇本,也沒有設定懸念,只有10個年輕人最普通卻最真實的紐約日常;首播35天便收穫540萬觀眾,成為平檯曆史最強開局。這部「無劇本但比劇本更真」的真人劇,或許正在為我們提示一個全新的「爆款密碼」Bravo最新真人秀《Next Gen NYC》6月3日首播,截至35天後全平台累計收視達540萬,成為Bravo歷史上MP+35(多平台35日收視累計)最高的劇集首播和季度首播。在Peacock平台,該片也成為35日內觀看量最高的Bravo單集劇集。首播當天恰逢《Love Island USA》第七季回歸,NBCU稱約三分之一觀看《Love Island USA》的使用者也收看了《Next Gen NYC》。該劇觀眾年齡中位數為39歲,其中36%為18-34歲人群,是Bravo在TikTok上觀看和互動最多的新劇。《Next Gen NYC》由9th Degree Productions製作,記錄Ariana Biermann、Riley Burruss、Ava Dash等10位年輕人在紐約生活與身份探索的日常。第一季大結局將於周二晚9點播出,次日登陸Peacock。中國內容市場中,關於Z世代的內容似乎總離不開「擺爛」「厭世」「上岸」,而在《Next Gen NYC》裡,Z世代卻成為最能撬動收視的王牌。這背後,或許藏著兩個值得我們深思的趨勢。第一,Z世代渴望看到「像自己但更好一點」的同齡人。《Next Gen NYC》並不塑造完美人設,而是將年輕人的野心、困惑、脆弱、爭吵與和解赤裸呈現。它沒有強行輸出價值觀,也不以階層碾壓製造看客爽感,而是讓觀眾看見「這就是我周圍的世界」,繼而產生最強代入感。在國內,短劇與戀綜始終在「極端化」與「爽感化」的路徑裡打轉,殊不知,恰到好處的共鳴,比千篇一律的狗血更有黏性。第二,串流媒體真人秀正加速「去傳統劇集化」。《Next Gen NYC》35%的觀眾來自18-34歲區間,這意味著這批原本在刷短影片、看Twitch、逛Reddit的使用者,願意為這樣一部「無劇情結構、無昇華命題、無劇本感」的內容停留半小時以上。國內短劇平台們執著於一分鐘反轉、真人秀製作方沉迷於互撕場面,但事實證明:當代觀眾對「日常感」的渴望,可能比任何爽劇、神劇都更強烈。《Next Gen NYC》成功的真正密碼,是對年輕觀眾觀看習慣和內容心理的精準捕捉:當「故事」已經無感時,「人」本身就是最大的故事。在演算法與爽點之外,我們還敢不敢拍「真實」? (傳媒1號)