#新模型
美股財經週報 2025.12.7市場預期 FOMC 週三降息一碼,關鍵為釋出的利率點陣圖對明年降息的預測、鮑威爾記者會的立場,週二 OpenAI 可能提前發布 ChatGPT-5.2,週三盤後 Oracle、週四盤後 Broadcom 財報可能影響短線市場對 AI 敘事邏輯的看法根據 X 上流傳、未經證實的性能對比,ChatGPT-5.2 幾乎全面碾壓 Google 的 Gemini 3 Pro、Anthropic 的 Claude Sonnet 4.5 …美銀策略師 Hartnett 警告若週三鮑威爾立場偏鴿、聯準會對美國經濟抱持謹慎態度,將危及美股年底行情,因為 ...Bloomberg 報導美股百年道氏理論預告美股將繼續上漲,代表支撐美國經濟的商品和服務的卡車運輸、貨運、航空和鐵路公司的道瓊運輸指數 ...造市商 Citadel 的 Rubner 週五預計美股在年底到 2026 年初將繼續上漲,除 12 月下半月是一年中上漲機率次高的 2 週外 (圖 1-6),更多股票參與了上漲行情 ...華爾街對 2026 年美股預測出爐,美銀首席美股及量化策略師 Subramanian 認為儘管 S&P 500 獲利將成長 2 位數,但 2026 年底目標價僅為 7,100 點、距離週二收盤的 6,829 點只有 4% ...
DeepSeek新模型開源,新架構亮了!國產AI晶片集體狂歡
DeepSeek離下一代架構,又近了一步!智東西9月30日報導,昨日,DeepSeek宣佈開源DeepSeek-V3.2-Exp實驗版模型。該模型首次引入了DeepSeek Sparse Attention稀疏注意力機制,並在幾乎不影響模型輸出效果的前提下,大幅度提升了長文字訓練和推理效率,被DeepSeek定義為“邁向新一代架構的中間步驟”。HuggingFace地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp魔搭社區地址:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Exp這一改進還降低了DeepSeek新模型的服務成本,DeepSeek因此執行了新的價格政策,讓開發者呼叫DeepSeek API的成本降低50%以上。降價幅度最大的為輸出token的價格:DeepSeek-V3.2-Exp模型輸出100萬個token的價格僅為3元,為DeepSeek-V3.1系列模型的1/4。截至9月30日上午6點,華為雲、PPIO派歐雲、優刻得等雲平台已宣佈上線DeepSeek-V3.2-Exp,華為、寒武紀、海光資訊等AI晶片廠商已經宣佈適配DeepSeek-V3.2-Exp。DeepSeek-V3.2-Exp是在DeepSeek-V3.1-Terminus的基礎上打造的。在各領域的公開評測集上,兩款模型的表現基本一致,不過,DeepSeek-V3.2-Exp完成任務使用的token量大幅度減少。目前,DeepSeek App、網頁端與小程序均已同步上線了DeepSeek-V3.2-Exp模型。DeepSeek也臨時保留了DeepSeek-V3.1-Terminus的API介面,方便開發者進行對比驗證。除模型本體外,DeepSeek還開源了相關技術報告及程式碼,並提供TileLang與CUDA雙版本GPU算子,以便研究者在不同層級進行實驗和最佳化。技術報告地址:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdfDeepSeek還補充道,作為一個實驗性的版本,DeepSeek-V3.2-Exp雖然已經在公開評測集上得到了有效性驗證,但仍然需要在使用者的真實使用場景中進行範圍更廣、規模更大的測試,以排除在某些場景下效果欠佳的可能。01.華為、海光、寒武紀光速適配,網友直呼第二個DeepSeek時刻要來了DeepSeek-V3.2-Exp一經推出,便在產業界與開發者圈子裡引發熱烈反響,不少國內企業紛紛第一時間宣佈完成DeepSeek-V3.2-Exp的適配和上線。華為計算公眾號發文宣佈,昇騰已快速基於vLLM/SGLang等推理框架完成適配部署,實現DeepSeek-V3.2-Exp Day 0(第零天)支援,並面向開發者開源所有推理程式碼和算子實現。DeepSeek-V3.2-Exp在昇騰裝置上128K長序列輸出,能夠保持TTFT(首token輸出耗時)低於2秒、TPOT(每token輸出耗時)低於30毫秒的推理生成速度。華為雲則首發上線了DeepSeek-V3.2-Exp,還使用CloudMatrix 384超節點為該模型提供推理服務。在DeepSeek發文宣佈DeepSeek-V3.2-Exp模型開源後的4分鐘,寒武紀也發文稱其已同步實現對該模型的Day 0適配,並開源大模型推理引擎vLLM-MLU原始碼。寒武紀通過Triton算子開發實現了快速適配,利用BangC融合算子開發實現了性能最佳化,並基於計算與通訊的平行策略,達成了較高的計算效率水平。DeepSeek-V3.2-Exp模型的尺寸達671GB,僅下載就可能需要數小時。這種時隔4分鐘的Day 0適配,或許意味著寒武紀和DeepSeek兩家企業在模型發佈前就已經啟動適配工作。據經濟觀察網報導,海光資訊的DCU(深度計算處理器)率先實現了對DeepSeek-V3.2-Exp的Day 0級高效適配與最佳化,確保大模型算力“零等待”部署。在DeepSeek官宣DeepSeek-V3.2-Exp開放原始碼的推文中,有不少網友分享了對模型的使用體驗和感受。有位網友稱,自己在10萬個token的程式碼庫上測試了DeepSeek-V3.2-Exp,速度提升非常明顯。有網友感嘆,DeepSeek API現在幾乎等同於免費了。更有網友認為,這一模型的推出,或許意味著第二個DeepSeek時刻即將到來。Hugging Face上,DeepSeek-V3.2-Exp的社區類股也有不少討論,不過,關注度最高的一條帖子,是來自中國網友的“吐槽”:“咱這個模型是非得國慶前更新嗎?”還有網友列出了DeepSeek每次更新模型的時間,幾乎都卡在節假日的前幾天。02.一手體驗DeepSeek-V3.2-Exp架構創新或許比性能提升更重要DeepSeek-V3.2-Exp在使用體驗上,究竟與此前的DeepSeek-V3.1-Terminus有何不同?在程式設計方面,DeepSeek-V3.2-Exp撰寫的程式碼明顯更為簡短了,相同的任務下,其輸出的程式碼行數要少於DeepSeek-V3.1-Terminus。不過,這在某種程度上也影響了模型的性能。DeepSeek-V3.2-Exp編寫的小球彈跳動畫程式碼未能正常運行,小球直接飛出了六邊形的範圍。DeepSeek-V3.1-Terminus在智東西此前的測試中完美地完成了這一任務。智東西還讓DeepSeek-V3.2-Exp完成了一項資訊檢索任務,要求它推薦幾種適合新手在陽台盆栽的、生長快、果子能直接生吃的植物,並且要保證對小孩絕對安全,最好能附上簡單的播種技巧。與DeepSeek-V3.1-Terminus(左)相比,DeepSeek-V3.2-Exp(右)的生成結果更為簡短,用詞也比較“樸素”。並且,DeepSeek-V3.2-Exp推薦的無花果、百香果等植物,需要進行扦插、高頻率養護等操作,並不符合提示詞要求的新手友好。▲DeepSeek-V3.1-Terminus(左)與DeepSeek-V3.2-Exp(右)在資訊檢索任務上的表現(圖源:智東西)總體而言,DeepSeek-V3.2-Exp確實在推理效率上實現提升,但卻在能力上做出了一定的讓步。知乎博主@toyama nao也在測評中發現了類似的問題。他認為,DeepSeek-V3.2-Exp在工作記憶、計算精度穩定性等方面存在明顯短板,還容易有偷懶傾向和陷入死循環的可能。▲知乎博主@toyama nao對DeepSeek-V3.2-Exp的評價這也得到了其他網友觀點的印證,例如,這位網友便在x平台發貼稱,並沒在這款模型上看到改進,並提出質疑:我們為什麼要使用能力降級的模型呢?作為一款實驗模型,DeepSeek-V3.2-Exp更大的貢獻或許在於理論層面。DeepSeek稱,與DeepSeek-V3.1-Terminus相比,DeepSeek-V3.2-Exp在架構上的唯一修改,就是通過繼續訓練引入了DeepSeek Sparse Attention。目前的DSA機制還處在原型期,主要由兩個元件構成:一個Lightning Indexer(閃電索引器)和一個細粒度的token選擇機制。▲DeepSeek-V3.2-Exp架構圖Lightning Indexer能夠快速評估查詢token與歷史token的相關性,從選擇機制只挑選最相關的一部分上下文進入注意力計算,這讓複雜度從傳統的二次方降到了近似線性水平,大幅降低了訓練和推理的成本。在訓練上,DeepSeek-V3.2-Exp採用了“繼續預訓練+後訓練”的方式。繼續預訓練分為兩個階段:首先在稠密模式下短暫訓練indexer,讓它的輸出和標準注意力保持一致;隨後引入稀疏選擇機制,逐漸讓模型適應新的計算方式。完成預訓練後,DeepSeek-V3.2-Exp又通過專家蒸餾和混合強化學習進行後訓練。專家蒸餾的思路是針對數學、程式設計、推理等不同領域訓練專門的專家模型,然後將這些模型的知識壓縮排通用模型。混合強化學習則將推理、智能體能力和人類對齊訓練統一在一個RL階段中,避免了傳統多階段方法容易出現的遺忘問題。技術報告顯示,DeepSeek-V3.2-Exp在大多數評測任務上的表現與前代基本持平,個別推理相關的測試分數略有下降,但主要原因是生成的推理token更少,如果使用中間檢查點,差距則會縮小。相比之下,效率的提升尤為顯著。在H800 GPU的測試環境中,長序列推理的開銷明顯降低,證明DSA在真實部署中有很強的實用性。同時,訓練曲線與前代模型保持相似的穩定性,也表明這種架構在收斂性上並沒有額外風險。03.結語:DeepSeek邁向新一代架構正如其名字內的Exp(實驗版)所言,DeepSeek-V3.2-Exp的推出,本身並不是一次性能爆表的升級,而更像是一場架構實驗,展示了一種在長文字處理中兼顧性能和效率的新路徑。作為技術原型,DeepSeek-V3.2-Exp背後的DSA機制或許很快就會得到進一步完善。隨著相關技術的持續最佳化和更多企業、研究者參與驗證,DeepSeek有望在不久的未來交出更令人驚喜的成果。 (智東西)
馬斯克新模型背後演算法來自輝達???
Grok-4-fast最近在降本增效上的表現堪稱一騎絕塵,連有「路由器」傍身的GPT5都給干趴下了。面對如此驚豔的推理效率,很多人第一反應就是:堆卡式的算力scaling又一次大顯神威了。實際上,Grok的背後確實有輝達的影子。但這次立功的,或許不是老黃的顯示卡,而是演算法。沒錯,Grok-4-fast的秘密武器,被和一篇輝達的演算法論文關聯在了一起。讓LLM快53倍的火箭發動機正如Grok-4-fast所表現出來的一樣,這篇論文解決了困擾行業已久的推理成本問題。一味的硬體Scaling只會讓模型廠商帳單上的數字越來越長,使用者耐心也在漫長的推理時間中逐漸被消耗殆盡。為此,輝達研究團隊推出了一種全新「混合結構」模型——Jet-Nemotron。經過一系列全面的基準測試,發現Jet-Nemotron-2B的表現與Qwen3、Qwen2.5、Gemma3和Llama3.2等頂尖開源模型不相上下,還能實現約53倍的速度提升。例如在MMLU-Pro上,Jet-Nemotron-2B不僅精準率比Qwen3-1.7B-Base更高,就連生成速度也要快上47倍。此外,Jet-Nemotron-2B即便遇上參數更大的模型也絲毫不虛,它在MMLU和MMLU-Pro上的精準率甚至可以超過DeepSeek-V3-Small和Moonlight(總參數量15B,啟動參數量2.2B)。改變這一切的關鍵,在於一個叫PortNAS的新框架。不同於以往的方法,PostNAS不是從零開始訓練,而是以一個預訓練的全注意力模型為起點,並凍結其MLP權重,只探索注意力機制的改進。這樣一來,不僅能讓訓練成本直接降低幾個數量級,還能有更多精力用於全面探索模型結構。其流程包括四個核心部分:全注意力層放置、選擇最優的線性注意力模組、設計更優的線性注意力模組、硬體感知架構搜尋。全注意力層放置大多數團隊會在模型的所有層裡統一使用全注意力,但這會浪費算力資源。因此,輝達團隊希望保留少量關鍵的全注意力層,以維持複雜任務的精準性,同時剔除冗餘層以提升效率。PostNAS的做法是:先建構一個同時包含兩種注意力機制的超級網路,再通過特徵蒸餾來訓練子網路,最後用beam search找到最優的注意力層放置方案。事實證明,的確並非所有注意力層都重要,不同任務依賴不同層,少量關鍵層即可覆蓋大部分任務需求。實驗結果顯示,PostNAS優於均勻放置策略——在只使用2層全注意力的情況下,PostNAS的精準率約49%,而均勻放置的精準率約40%。選擇最優的線性注意力模組在確定了全注意力層後,輝達團隊開始進行注意力模組搜尋,旨在找到目前最優的線性注意力模組。論文評估了六種當前最先進的線性注意力模組,包括RWKV7、RetNet、Mamba2、GLA、DeltaNet和Gated DeltaNet。這六個之中,Gated DeltaNet的精準率最高,這主要歸功於兩個因素:1、資料依賴門控機制(Data-Dependent Gating Mechanism):可以理解成一個路由器。模型會根據輸入的內容,決定是更重視新資訊,還是之前的歷史狀態,從而在不同任務裡找到平衡。2、Delta規則(Delta Rule):不是每次都把記憶裡的東西全部覆蓋,而是只更新新變化的部分。這樣能減少不必要的重複儲存,節省記憶體,同時保持資訊的連續性。更優解:JetBlock不過,輝達並不打算止步於Gated DeltaNet,而是設計了一款比它更強的線性注意力模組——JetBlock。摺積對線性注意力模組的精準率至關重要,然而,以往方法大多使用的是靜態摺積核,它們無法根據輸入自動調整特徵提取方式。相比之下,JetBlock使用動態摺積,通過線上性注意力中引入一個摺積核生成器模組,JetBlock能根據輸入特徵動態地產生摺積核。結果顯示,JetBlock在數學推理和檢索任務上的精準率優於Gated DeltaNet,而且仍然保持了不錯的生成效率。要是跟表現最差的Mamba2比起來,JetBlock的優勢就更明顯了。硬體感知架構搜尋在確定了宏觀架構以及選擇了線性注意力模組之後,輝達團隊進一步進行了硬體感知架構搜尋,用於最佳化核心超參數(key/value的維度、注意力頭的數量…)。過去,參數規模通常被作為衡量模型效率的主要指標,用來指導架構設計。但輝達團隊認為這種方法並不理想,因為參數量並不能直接反映真實硬體上的效率。對此,他們改進的方法是:以生成吞吐量作為直接目標來選擇超參數。輝達團隊發現,相比起參數量,KV快取大小才是影響長上下文和長文字生成吞吐量的最關鍵因素。而當KV快取大小固定時,不同參數規模的模型,其生成吞吐量表現相似。基於此,輝達團隊選擇保持KV快取大小與原始設計一致,然後在key維度、value維度和注意力頭數上進行小規模網格搜尋。實驗證明,最佳化後的版本在保持吞吐量不變的情況下,參數量增加(1.84億 vs 1.7億),同時數學精準率得到提升(34.8% vs 32.8%)(藍色行代表實驗組,灰色行代表對照組。)綜上,PortNAS有望為目前的AI行業帶來三點影響。1、推理階段GPU使用時長減少47倍,這讓LLM能夠以更快的速度完成高品質任務。2、更小的記憶體需求,這使得更廉價的硬體部署成為可能。3、更高吞吐量,意味著模型廠商可在現有基礎設施規模下服務更多使用者。而且,PostNAS提供低成本、高效率的架構探索方式,適用於任何預訓練Transformer。所以基本上,任何廠商都可以在不重新訓練模型的情況下嵌入PortNAS,模型的成本可以大幅降低,同時精準率幾乎不會受到影響。此外,Jet-Nemotron居然還是開放原始碼的。通訊作者Han Cai在Github上表示Jet-Nemotron的程式碼和預訓練模型將在法律審查完成後發佈。感興趣的朋友可以查看文末的連結~Grok-4-fast的背後是輝達?同時看到Grok-4-fast和Jet-Nemotron二者同樣驚豔且高度相似的表現,很難不讓人懷疑老馬和老黃這一次是不是聯手了。在Reddit上,有網友推測Grok-4-Fast應該就是基於Jet-Nemotron創造的。Jet-Nemotron可以在不犧牲模型性能的情況下,大幅減少推理所需的計算量,這與Grok-4-fast所展現出來的能力高度相似。這一觀點能從資料上得到支撐——從Grok-4-fast的定價來看,其價格下降水平與NVIDIA對這種架構模型的預測相符(論文預計會便宜20倍到50倍)。更重要的是,如果Jet-Nemotron能夠應用於Grok,那它同樣能被OpenAI、Anthropic、Google等公司部署。也有網友不同意這種說法,認為Grok此次的降價也許只是一種行銷手段,並不能從中推斷出xAI是否採用了什麼新技術。他們可能只是在燒錢獲取市場份額,我不認為你可以從中推斷出是採用了某種特定架構。但是,即便Grok-4-fast沒有採用輝達的技術,這篇論文也是極有價值的,因為Jet-Nemotron同樣可以被用來進一步降低成本。而且,xAI也不太可能在這麼短時間研究出來了另一種和Jet-Nemotron一樣效果顯著的技術。當然,也可能是其他演算法上的突破。如果真是這樣,那仍然是極具突破性的,因為Jet-Nemotron也可以被用來進一步降低成本。但說實話,XAI真的又發現了一個能讓價格再下降20倍以上的演算法改進的可能性有多大呢?不過,上述觀點都只是猜測,目前這些說法都未得到xAI驗證… (量子位)
馬斯克入局AI程式設計!xAI新模型限時免費用:256K上下文,主打一個速度快
剛剛,馬斯克xAI加入Coding戰局:推出智能程式設計模型Grok Code Fast 1。Fast寫進名字裡,新模型主打的就是快速、經濟,且支援256K上下文,可在GitHub Copilot、Cursor、Cline、Kilo Code、Roo Code、opencode和Windsurf上使用,還限時7天免費!不僅性能比肩Claude Sonnet 4和GPT-5,價格更是只有它們的十分之一。已經有網友在Cursor上用Grok Code Fast 1製作了一個模擬戰鬥的小遊戲,可實現持續互動。目前,Grok Code Fast 1在ToyBench上的整體排名為第5名,僅次於GPT-5、Claude Opus 4、Gemini 2.5 Pro和DeepSeek Reasoner。近期,各家發佈的新產品可不少,讓人感嘆:AI發展太快了……能力如何?先來看一波網友實測。首先,第一感受就是確實快,思考時長基本在幾秒之內。在VS Code開源免費的擴展Cline中即可使用。還有人將Grok Code Fast 1加入到聊天機器人中,只需要簡單的prompt:展示真正優秀的pygame。就得到了如下隨機的多媒體效果,看上去也非常絲滑~不只遊戲模擬器,Grok Code Fast 1對UI設計也手拿把掐。在多指令下建構的時間晶體的細節展示也很到位。確實,不少體驗者都表示,這個新模型在指令遵循方面表現很優秀。看完實測案例,再來看看模型情況。兼具速度與性價比根據官方透露出的消息,Grok Code Fast 1從零開始搭建了全新的模型架構,使用專門的程式碼語料庫進行預訓練,並利用真實世界拉取請求與編碼任務資料進行微調。另外,還與GitHub Copilot、Cursor、Roo Code等平台深度合作,讓模型能夠在IDE中快速理解開發者指令,完成如grep、終端和檔案編輯等常用工具的使用。借助推理加速和提示快取最佳化,模型能在你還沒讀完思維流程第一段文字時,就已經執行了數十種工具呼叫。指令快取命中率更是超過90%,使用者體驗將會極度順暢,讓響應毫無卡頓的感覺。除了快,Grok Code Fast 1還具有很強的通用性,無論是TypeScript、Python、Java,還是Rust、C++、Go,它都可以輕鬆完成,從建立項目到點對點的bug修復,而無需人工監督。在內部基準測試SWE-Bench-Verified的完整子集上,grok-code-fast-1成績可達70.8%,在其餘一眾程式設計模型中,性能也處於較為領先的程度。除了傳統基準,測試過程中還額外加入了開發者主觀評估與自動化行為監控,確保模型快速可靠,滿足日常編碼任務。支援256K的上下文窗口,每分鐘最多請求數是480,每分鐘可處理約200萬token。對於日常高頻編碼使用者,這個價格可以說是相當友好了,在性能上也不輸其他程式設計模型。另外,官方也和Grok 4做了對比,Grok 4更適合單次問答類場景,如複雜概念解析或深度偵錯,需要事先提供充足上下文。而Grok Code Fast 1作為輕量級智能編碼模型,更適用於多步驟、工具呼叫密集的複雜自動化任務,是兼具速度和效率的AI程式碼助手。此次更新中,最亮眼的莫過於Grok Code Fast 1超高的性價比。每1M輸入tokens只需要0.2美元(折合人民幣約1.4元),輸出tokens需要1.5美元(約10.7元),快取呼叫tokens更是僅需0.02美元(約0.14元)。與Claude Sonnet 4和GPT-5相比,相當於是只有別人的10%。現在更是7天內可以免費使用……所以已經用過的朋友,快來說說馬斯克家的AI coding體驗夠不夠地道? (量子位)
不用等R2了!第三方給新版DeepSeek V3加入深度思考,推理101秒破解7米甘蔗過2米門
DeepSeek即將發佈R2??坊間傳聞越來越多了,且難辨真假。1.2T兆參數,5.2PB訓練資料,高效利用華為晶片……只能說如果有一半是真的都很牛了。HuggingFace創始人此時推薦“以不變應萬變”,打開官方認證帳號的更新提醒,就能第一時間獲取通知。拋開具體洩露資料是否精準,大家似乎有一個共識:如果真的有R2,它的基礎模型會是新版DeepSeek V3-0324。之所以有很多人相信R2會在4月底發佈,有一部分原因也是出於R1與V3之間相隔了一個月左右。現在,等不及DeepSeek官方,開源社區已經開始自己動手給V3-0324加入深度思考了。新模型DeepSeek-R1T-Chimera,能力與原版R1相當,但速度更快,輸出token減少40%,也是基於MIT協議開放權重。相當於擁有接近R1的能力和接近V3-0324的速度,結合了兩者的優點。而且做到這一點,不是靠微調或蒸餾,而是DeepSeek V3-0324和R1兩個模型融合而成。R1+V3融合模型新模型R1T-Chimera並非DeepSeek官方出品,而是來自德國團隊TNG Technology Consulting。該團隊此前也探索過可調專家混合(MoTE)方法, 讓DeepSeek-R1在推理部署時可以改變行為。新的R1T-Chimera模型權重可在HuggingFace下載,也可以在OpenRouter免費線上試玩。目前已知是選用了V3-0324的共享專家+R1與V3-0324的路由專家的混合體融合而來。TNG團隊表示最終結果令人驚訝,不僅沒有表現出融合模型的缺陷,相反,思考過程還比原版R1更緊湊有序。暫沒有技術報告或更詳細的模型融合方法公佈,要驗證它是否符合描述,就只能拉出來試一試了。我們選用最新折磨AI的難題“7米長的甘蔗如何通過2米高1米寬的門?”。原版R1思考了13秒就下了結論;R1T Chimera在這裡卻足足思考了101秒,最終計算出可以通過。雖然還是無法像人類一樣直觀的理解三維空間,讓甘蔗與門的平面垂直就可通過,但依然通過計算夾角與投影得出了結論。在這100秒時間裡R1T-Chimera如何一步步思考出答案呢?展開推理token可以發現,在簡單計算二維方案不可行後,它就已經想到了三維方案。後面依然陷入了各種誤區,在旋轉甘蔗、彎曲甘蔗、計算“門的厚度”上走了彎路。最終通過“揣摩出題人心理”走進正確的路線。最終給出的答案非常嚴謹了。雖然人類直覺上就能想出把甘蔗垂直起來通過這個方法,但仔細一想,題目中確實沒有給出“門後有多少空間這個條件”。細還是AI細。關於R1T-Chimera的更多細節,大家還在等TNG團隊消息和更多第三方基準測試結果。不過也有人注意到,KIMI K1.5技術報告中也探索了模型融合方法。不過在實驗中,這種簡單融合方法表現並不如這篇論文中提出的Long2short強化學習方法。另一個在模型融合上有經驗的團隊是Transformer作者Llion Jones創辦的Sakana AI。早在24年初就結合進化演算法提出以block為單位融合的方法。隨著更多團隊跟進這一路線,模型融合會不會成為2025年大模型的一大技術趨勢呢? (量子位)