#推理
梁文鋒署名新論文深夜炸場!DeepSeek-V4 新架構曝光:提出新的稀疏化方向,與MoE互補,長上下文能力顯著擴展,推理程式碼能力更強了
一覺醒來,DeepSeek又發新論文了!仔細一看作者,梁文鋒的名字也赫然出現在其中。這篇論文題為《通過可擴展尋找實現的條件記憶:大型語言模型稀疏性的新維度》,重點在於提出了 Engram ——這是一種條件記憶模組,旨在通過將靜態模式儲存與動態計算在結構上分離,來增強 Transformer 骨幹網路。論文的給出的實驗資料也相當驚豔:1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著性能提升,均超過純MoE模型。2、存在U形擴展規律:純 MoE性能次優,將 20–25% 的稀疏參數分配給 Engram,效果最佳。3、長上下文能力提升明顯,能釋放注意力用於全域模式和複雜推理。程式碼和論文全文均已開源:論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf程式碼地址:https://github.com/deepseek-ai/Engram為什麼大語言模型需要 Engram ?稀疏性(sparsity)一直是智能系統的核心設計原則,無論是生物大腦的神經回路,還是現代大語言模型都在用它來“省資源”。在 AI 裡,這個思想最常見的體現就是混合專家模型(MoE)——也就是通過“條件計算”讓模型只啟動部分參數,從而在不增加太多計算量的情況下,把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一,DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也採用了先進的 MoE 方法進行擴展訓練。但 MoE 也有其侷限性。語言本身非常複雜,至少包含兩類截然不同的任務:組合式推理:需要深層、動態的神經計算,比如理解複雜句子結構或推理問題;知識檢索:大量文字都是高度固定、重複的內容,比如命名實體、固定表達、程式化模式。論文中提出,經典的𝑁-gram 模型已經證明,處理這種局部、重複的語言規律,用“查表”效率最高,幾乎不需要動深層神經網路。然而現在的 Transformer 並沒有這種原生“查表能力”,所以模型每次要識別一個常見的多 token 實體,都要消耗好幾層注意力和前饋網路,這就像在執行階段重複重建一個靜態字典,既浪費計算,又佔用模型的“序列深度”,原本可以用來做更高級的推理。Engram是如何實現的?為瞭解決上述問題,DeepSeek提出了一個新的稀疏化方向——條件記憶,專門用來儲存和尋找固定知識。它和 MoE 的條件計算完全互補:MoE 負責動態推理和組合邏輯;Engram 負責靜態知識,直接查表就行。Engram是神經科學中的一個核心概念,意為“記憶痕跡”,它是一個可擴展、可尋找的記憶模組,用於語言模型在推理過程中過去可能已經見過的模式或片段。在具體實現上,Engram模組通過 O(1) 的尋找複雜度將靜態模式儲存從動態計算中分離出來,採用了四項核心技術:現代化的雜湊 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。具體來看:1、分詞器壓縮:預先計算對應函數,將語義等價但 ID 不同的詞項(如 "Apple" 和 "apple")折疊為統一識別碼,將有效詞表大小減少了 23%。· 多頭2、雜湊檢索:利用局部上下文(N-grams)作為鍵,通過雜湊函數在巨大的嵌入表中檢索靜態向量。3、上下文感知門控:這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query,與檢索到的記憶體進行語義匹配。如果檢索內容與上下文矛盾,門控值會趨近於零,從而抑制雜湊衝突帶來的噪聲。4、混合分枝整合:專門針對多分枝架構(如 mHC)進行了最佳化,通過參數共享策略(共享 Embedding 表和 Value 投影,保持獨立 Key 投影)平衡了表達能力與計算效率。Engram 通常會插在 Transformer 的前期層,比如 Layer 2 或 Layer 6。這樣做的好處是:一方面可以把靜態模式的重建工作解除安裝掉,減輕骨幹網路的負擔;另一方面又能保留足夠的上下文資訊,讓門控機制更聰明地判斷那些記憶該用,那些該忽略。Engram 的記憶容量並不是越大越好,它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation(稀疏性分配)法則,合理劃分兩者比例,既保證大模型的參數利用率,又最大化計算效率——簡單來說,就是讓每一份記憶和每一位專家都發揮最大作用。實驗結果很驚豔:推理、程式碼、長上下文能力顯著提升論文把 Engram 擴展到 270 億參數,嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示:知識密集型任務(MMLU、CMMLU、MMLU-Pro):性能提升 1.8–4.0 分不等;通用推理任務(BBH、ARC-Challenge、DROP):提升更明顯,最高 +5 分;程式碼和數學能力(HumanEval、MATH、GSM8K):平均提升 2–3 分。值得注意的是,Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀:它把靜態模式的記憶交給了高效的尋找機制,而不是每次都用神經網路“重算”,減少了淺層的重複計算。更重要的是,Engram也顯著擴展了長上下文能力,在長文字任務(如 LongPPL、RULER)表現突出,尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0,Variable Tracking 從 77.0 提升到 89.0。原因是 Engram 處理了大量局部、靜態的依賴,釋放了注意力機制去處理全域上下文,從而在長序列中更穩、更準。此外,團隊還發現了 MoE 和 Engram 容量分配中的U形擴展規律:當 Engram 記憶容量太小或太大時,性能都不理想將 20–25% 的稀疏參數分配給 Engram,效果最佳網友:Engram 可能是 DeepSeek-V4 型號的基礎技術!在Reddit、X等平台上,DeepSeek的新論文也立刻引發了網友的熱烈討論。其中最廣泛的一個猜測就是:Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。很多網友認為,Engram這個方法很有趣,其特點在於讓模型架構處理“記憶模式尋找”和“神經計算推理”兩塊職責分離,從而開啟了新的稀疏性方向。也有網友表示,這種方法比線性注意力機制要好得多。DeepSeek的深夜放大招,也讓部分網友直言:中國大模型團隊的創新性真令人害怕。 (51CTO技術堆疊)
梁文鋒署名!DeepSeek再發炸裂論文:提出“條件記憶”新範式,徹底打破GPU推理視訊記憶體牆
當業界紛紛湧入MoE(Mixture-of-Experts)架構以實現高效擴容時,一個根本性的低效問題卻始終存在:強大的Transformer模型,本質上缺乏一種原生的“知識尋找”機制。它們被迫通過複雜的“動態計算”來模擬簡單的“靜態檢索”過程。例如,為了識別“戴安娜王妃”這樣的實體,模型需要消耗多層注意力與前饋網路資源,逐步建構其內部表徵。這無異於用高射炮打蚊子,浪費了寶貴的計算深度來自DeepSeek 的最新論文,為解決這一難題提出了一個全新的稀疏性維度:條件記憶(Conditional Memory)他們推出名為Engram的新模組,它以O(1)的恆定時間複雜度實現了可擴展的知識尋找,作為對MoE“條件計算”的有力補充。通過系統性研究,團隊揭示了一條指導兩種稀疏性權衡的U形縮放定律。依據該定律,他們建構了一個270億參數的Engram模型,在總參數量與計算量(FLOPs)完全相同的情況下,其性能全面超越了純MoE基線。令人矚目的是,這種提升不僅體現在知識密集型任務上(MMLU +3.4),更在通用推理(BBH +5.0)、程式碼(HumanEval +3.0)和數學(MATH +2.4)等領域取得了更大的收益。機理分析表明,Engram通過接管早期層的靜態模式重構任務,有效“加深”了網路,為複雜推理釋放了更多計算資源。同時,它將局部依賴關係的處理委託給尋找操作,從而解放了注意力機制,使其能更專注於全域上下文,極大地提升了模型的長文字處理能力(如Multi-Query NIAH任務得分從84.2提升至97.0)。更重要的是,Engram的設計充分考慮了系統效率。其確定性的尋找機制支援在執行階段從低速的主機記憶體預取資料,幾乎不產生額外開銷,從而打破了GPU視訊記憶體的瓶頸。論文地址:https://github.com/deepseek-ai/Engram語言模型的雙重任務:計算與檢索語言建模包含兩種性質截然不同的子任務:一是需要深度動態計算的組合推理,二是對本地、靜態、高度模式化的文字片段(如命名實體、慣用語)的知識檢索。經典的N-gram模型證明了,後一種任務通過廉價的尋找操作就能高效完成。然而,當前的LLM架構缺少這種原生尋找功能,導致它們必須通過計算來模擬檢索,造成了資源浪費。為了讓模型架構與語言訊號的這種二元性對齊,DeepSeek提出了“條件記憶”這一新的稀疏軸,與MoE的“條件計算”形成互補。• 條件計算 (MoE):稀疏啟動參數,處理動態邏輯。• 條件記憶 (Engram):稀疏尋找操作,檢索靜態知識。研究團隊提出的Engram模組,正是這一理念的具體實現。它以經典的N-gram結構為基礎,並融入了分詞器壓縮、多頭雜湊、上下文門控和多分支整合等現代化改造。Engram架構:兩階段實現高效尋找與融合Engram作為一個條件記憶模組,旨在將靜態模式儲存與動態計算在結構上分離。其工作流程分為兩個核心階段:檢索與融合1. 稀疏檢索:通過雜湊N-grams定位記憶首先,模組需要將局部上下文對應到靜態記憶條目。這包括兩個步驟:分詞器壓縮 (Tokenizer Compression):標準的分詞器常為語義等價的詞分配不同ID(如Apple vs. apple)。為提升語義密度,Engram首先通過一個預計算的對應函數,將原始Token ID壓縮為規範化的ID。多頭雜湊 (Multi-Head Hashing):直接參數化所有N-gram組合是不現實的。Engram採用基於雜湊的方法,為每個N-gram階數(如2-gram, 3-gram)配備K個獨立的雜湊頭,將上下文雜湊到不同嵌入表中的索引,以降低衝突。最終,所有檢索到的嵌入向量被拼接成一個記憶向量et。2. 上下文感知門控與融合檢索到的記憶向量et是靜態的、上下文無關的先驗知識,可能存在雜湊衝突或歧義。為瞭解決這個問題,Engram引入了受注意力機制啟發的上下文感知門控它將當前層的隱藏狀態ht(已聚合了全域資訊)作為Query,將記憶向量et投影為Key和Value。通過計算Query與Key的相似度,生成一個門控標量αt。這個標量決定了檢索到的資訊與當前上下文的匹配程度:如果匹配度低,門控值趨近於0,有效抑制噪聲。最後,通過門控的Value向量會經過一個輕量級的深度因果摺積,以擴大感受野並增強非線性。最終的輸出通過殘差連接融入到Transformer主幹網路中核心發現:稀疏性分配的U形定律為了量化MoE(計算)與Engram(記憶)之間的協同作用,研究人員提出了稀疏性分配問題:在固定的總參數和計算預算下,應如何在這兩者之間分配“稀疏容量”?他們定義了一個分配比例ρ,其中ρ=1代表純MoE模型,ρ<1則代表將一部分原用於MoE專家的參數轉而分配給Engram的嵌入表。實驗在兩個不同的計算規模(2e20和6e20 FLOPs)下進行,結果揭示了一條清晰的U形縮放定律:MoE主導 (ρ → 100%):模型缺乏專門的記憶模組,被迫低效地通過計算重構靜態模式Engram主導 (ρ → 0%):模型喪失了條件計算能力,無法處理需要動態、上下文相關推理的任務最佳平衡點:將大約20%-25%的稀疏參數預算分配給Engram時,模型性能達到最優。這一穩定的U形關係證明了條件計算和條件記憶在結構上的互補性。此外,在“無限記憶體”設定下,單獨增加Engram的記憶槽數量,模型性能也呈現出可預測的對數線性提升,證明了Engram是一個有效的、可獨立擴展的性能提升手段。大規模預訓練:性能全面超越,推理提升更顯著基於上述定律,研究團隊訓練了一系列模型,並與嚴格對等的基線進行比較。所有模型均在262B Tokens上訓練,並保持啟動參數量(3.8B)一致。Engram-27B:總參數26.7B,與MoE-27B基線相同。它將MoE專家的數量從72個減少到55個,並將節約的參數(5.7B)用於建構Engram記憶模組。Engram-40B:在Engram-27B基礎上,進一步將Engram記憶擴展至18.5B參數,總參數達到39.5B。實驗結果(Table 1)表明:1.稀疏模型優於密集模型:所有稀疏變體(MoE與Engram)均顯著優於同等計算量的Dense-4B模型2.Engram全面超越MoE:在參數和計算量完全匹配的情況下,Engram-27B在所有評估維度上都優於MoE-27B3.推理與程式碼數學領域增益尤為突出:雖然Engram在知識任務(如MMLU +3.4, CMMLU +4.0)上表現出色,但其在通用推理(BBH +5.0, ARC-Challenge +3.7)和程式碼數學(HumanEval +3.0, MATH +2.4)上的優勢更為顯著這證明了引入專用的知識尋找原語,能夠極大地提升模型的表徵效率,其益處遠不止於知識檢索本身。Engram如何工作?機理分析揭示“有效深度”增加為了探究Engram的內部工作機制,研究團隊使用了LogitLens和CKA(中心核對齊)兩種可解釋性工具。加速預測收斂:LogitLens分析顯示,與MoE基線相比,Engram模型的淺層網路就能生成更接近最終預測結果的表徵(KL散度更低)。這表明,通過直接尋找知識,Engram減少了模型逐步建構特徵所需的計算步驟提升有效深度:CKA分析則揭示了Engram模型與MoE模型之間的層間表徵相似性。結果顯示,Engram模型的淺層(如第5層)在功能上等價於MoE模型的深層(如第12層)結論很明確:Engram通過顯式尋找繞過了早期的特徵組合階段,在功能上等價於增加了模型的有效深度系統效率:解耦計算與儲存,打破GPU視訊記憶體牆Engram的一個關鍵優勢在於其系統設計。與依賴執行階段隱藏狀態進行動態路由的MoE不同,Engram的尋找索引完全由輸入Token序列決定,具有嚴格的確定性這一特性使得在推理時可以實現高效的 預取-重疊(prefetch-and-overlap) 策略:系統可以在GPU計算前序Transformer塊的同時,非同步地從大容量、低成本的主機記憶體(DRAM)甚至NVMe SSD中預取後續Engram層所需的嵌入。實驗在一個1000億參數的Engram層上進行了驗證。結果顯示,將整個嵌入表解除安裝到主機記憶體,所帶來的吞吐量懲罰峰值僅為2.8%,幾乎可以忽略不計。這證明了Engram能夠有效繞過GPU視訊記憶體限制,以極小的開銷實現參數規模的激進擴展。這意味著可以用較少/較低配的GPU(視訊記憶體有限)來運行一個總參數量極大的模型。這大大降低了模型的部署和使用成本寫在最後DeepSeek AI的Engram工作,為大模型稀疏化設計開闢了一個全新的、與MoE互補的軸線——條件記憶。通過將靜態知識檢索從動態計算中剝離,Engram不僅在知識任務上取得優勢,更在推理、程式碼、數學等複雜任務上實現了超預期的性能提升。這項研究的核心貢獻包括:1. 提出Engram模組:一個可擴展、系統高效的條件記憶實現。2. 發現稀疏分配的U形定律:為平衡計算與記憶提供了理論指導。3. 驗證了架構優勢:在同等參數和計算成本下,混合模型全面超越純MoE模型。4. 揭示了工作機理:Engram通過提升模型的“有效深度”來最佳化表徵效率。研究人員認為,條件記憶應成為下一代稀疏大模型不可或缺的建模原語,為建構更強大、更高效的智能系統鋪平了道路。我彷彿已經看到了v4的影子 (AI寒武紀)
Google Gemini和蘋果的頂級華人科學家離職創業,劍指AGI
【新智元導讀】Google Gemini 資料聯合負責人 Andrew Dai 聯手蘋果首席研究科學家 Yinfei Yang,隱身創辦 AI 新秀 Elorian。首輪將融資 5000 萬美元,劍指「視覺推理」這個下一代大模型的核心問題。矽谷的 AI 創業熱潮中,最昂貴的籌碼永遠押注在最資深的「大腦」上。曾在Google DeepMind 效力長達 14 年的資深研究員 Andrew Dai,正在籌建一家名為 Elorian 的 AI 初創公司。這家尚不為人所知的公司,種子輪融資目標即高達 5000 萬美元。與 Andrew Dai 聯手的,是剛於去年 12 月離職的蘋果研究科學家 Yinfei Yang。這兩位分別來自Google和蘋果的技術老兵,正在試圖解決大模型領域的下一個核心問題:視覺推理(Visual Reasoning)。領投這輪融資的,極有可能是由前 CRV 普通合夥人 Max Gazor 創立的 Striker Venture Partners。如果交易達成,這將是矽谷近期最受矚目的早期融資之一,也再次印證了資本市場對於「Google畢業生」的瘋狂追捧。14 年,從 BERT 早期到 Gemini 幕後在 AI 研究圈,Andrew Dai 這個名字代表著一種「長期主義」。不同於那些在 Transformer 浪潮爆發後才匆匆入局的創業者,Andrew Dai 在Google的工號可以追溯到 2012 年。這意味著他完整經歷了深度學習從邊緣學科走向世界中心的整個周期。在他的 LinkedIn 履歷中,最引人注目的是他作為 Gemini 模型預訓練(Pre-training)資料工作的聯合負責人。在當前的大模型戰爭中,資料質量和預訓練策略被認為是決定模型智商上限的關鍵因素。能夠在這個核心環節擔任負責人,足以證明他在Google內部的權重。Andrew Dai 的學術貢獻不僅限於此。他曾與Google首席科學家 Jeff Dean 以及 Quoc V. Le(Google Brain 的傳奇人物)共同撰寫過多篇論文。早在 2015 年,他發表的一篇關於半監督序列學習(Semi-supervised Sequence Learning)的論文,就被認為對後來 OpenAI 的 GPT 系列模型產生了深遠的啟發。https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf一位熟悉 Andrew Dai 的人士評價道:「他是語言模型的先驅之一,過去二十年一直專注於預訓練相關的研究。他最擅長的,就是如何從海量、嘈雜的資料來源中提煉出高品質的“知識”。」如果說 Andrew Dai 代表了Google在巨量資料處理上的暴力美學,那麼聯合創始人 Yinfei Yang 則帶來了蘋果係的精緻與多模態視角。Yinfei Yang 此前在蘋果機器學習團隊擔任首席研究科學家(Principal Research Scientist),主要參與蘋果自研 AI 模型的開發。在加入蘋果之前,他也曾在 Google Research 工作過四年,專注於多模態表示學習。他在圖像-文字共嵌入(Image-text Co-embedding)領域的專長,恰好填補了單純語言模型的感知短板。視覺推理不只是「看見」,更要「理解」Elorian 究竟想做什麼?根據 Andrew Dai 的說法,Elorian 並不是要再造一個 ChatGPT,而是要建構一個能夠「同時理解和處理文字、圖像、視訊和音訊」的原生多模態模型。目前的 AI 模型大多是基於文字訓練,再通過「補丁」的方式接入視覺能力。而 Elorian 的願景是建構一個天生的「通感者」。這種模型不再是將圖片轉化為文字標籤,而是像人類一樣,通過視覺直接感知物理世界的邏輯。「視覺推理」被認為是通向 AGI 的必經之路。Andrew Dai 提到,機器人將是 Elorian 技術的一個潛在應用場景,但他強調公司的願景遠不止於此。在矽谷的投資人眼中,這通常意味著 Elorian 瞄準的是 AI 智能體的廣闊市場——一個能夠像人類一樣看著電腦螢幕、理解圖形使用者介面(GUI)、處理退貨流程、稽核法律檔案、操作其他軟體的超級助手。它不需要你通過 API 喂給它資料,而是直接像你一樣「看」著 Excel 表格、「聽」著電話錄音,同時「讀」懂螢幕上的郵件,並即時做出決策。這就是 Elorian 試圖建構的未來。資本的邏輯為「血統」買單5000 萬美元的種子輪融資,在幾年前聽起來像是天方夜譚,但在今天的 AI 泡沫中,這似乎成了頂級團隊的「入場費」。正在與 Elorian 洽談領投的 Striker Venture Partners,本身也是一家極具話題性的新銳基金。其創始人 Max Gazor 曾是老牌風投 CRV 的合夥人,以眼光毒辣著稱。他在去年 10 月剛剛自立門戶,Elorian 很可能是該基金成立後的首批標誌性賭注之一。對於 Max Gazor 這樣的投資人來說,他們賭的不僅僅是技術路徑,更是「Google DeepMind + 蘋果」這種稀缺的基因組合。Google提供了大規模訓練基礎設施的經驗,而蘋果則有著將 AI 落地到具體產品的務實文化。Elorian 的出現,也折射出大模型戰場的轉移。第一階段的戰爭是關於「文字生成」,OpenAI 憑藉 ChatGPT 拔得頭籌;第二階段的戰爭則是關於「多模態理解」和「物理世界互動」。在這個新戰場上,無論是 Gemini 還是 GPT,都在瘋狂補課視覺能力。Elorian 作為一個初創公司,想要在巨頭的夾縫中生存,唯一的籌碼就是技術上的代差,或者在垂直場景(如複雜的視覺 Agent)上做到極致。在矽谷,每一個從巨頭出走的頂級研究員,都懷揣著一個「反叛」的夢想:用更小的團隊、更聚焦的資源,去顛覆老東家龐大而遲緩的官僚體系。Andrew Dai 離開了效力 14 年的Google,Yinfei Yang 離開了發佈 Apple 智能的蘋果。他們選擇了一條最艱難的路——試圖教會機器不僅「看見」世界,還要「看懂」世界。這讓人想起電腦視覺領域的一句老話:「攝影機只是眼睛,演算法才是靈魂。」而在 AI 的洪流中,真正稀缺的永遠不是算力,而是那些能夠透過資料的迷霧,看清未來方向的眼睛。 (新智元)
【CES 2026】黃仁勳的推理戰爭-AI推理成本暴跌90%
上一會還在沉浸在機器人,車機在 CES 的震撼(見當科技停止講故事,開始拼執行力:從 CES 2026,看全球科技進入“現即時代”),下一秒拉斯維加斯的CES展會剛結束,那個永遠穿黑色皮衣的老黃——黃仁勳,又讓整個科技圈坐不住了。這次他沒有再站在台上喊"我們的算力有多強",而是拋出了一個更實在的問題:"用AI太貴了,得降價。"聽起來有點像淘寶商家的思路?但這次不一樣。當大家還在為搶到NVIDIA上一代晶片擠破頭時,他直接甩出了下一代平台——Rubin。更關鍵的是,他喊出了一句話:訓練AI的戰爭結束了,接下來打的是推理戰爭。(圖片來源@dotey)01 什麼是"推理戰爭"?先說個簡單的例子。想像你在學開車。"訓練"就是駕校教練一遍遍教你的過程,需要時間和教練的精力。AI公司這幾年就是這麼幹的——砸錢買幾萬塊GPU,沒日沒夜地訓練模型。"推理"就是你自己開車上路,每次看到紅綠燈做判斷、遇到行人踩剎車。這才是AI真正被使用的時候。過去三年,科技巨頭們瘋狂干的事就是"訓練"——花大錢、用成千上萬塊GPU,把ChatGPT、Claude這些模型訓練得越來越聰明。但問題來了:模型是聰明了,真正用的時候太貴了。就像你花100萬請了個世界冠軍教你開車,結果每次出門還得再付100塊"使用費"。出門一趟兩趟還好,天天誰受得了?這就是黃仁勳要解決的問題:讓AI真正用得起。這次CES上,他沒再吹"我們的晶片有多牛",而是一直在講"怎麼把成本打下來"。Rubin平台這次能做到什麼程度?同樣的AI任務,成本只要原來的十分之一。以前花1美元能做的事,現在10美分就夠了。什麼概念?就像你原來打一次車要100塊,現在降到10塊,原本偶爾打打車,現在可能天天打都無所謂。只有算力便宜到這個份上,AI應用才能真正爆發。02 Rubin是怎麼做到的?NVIDIA這次玩了個新花樣。以前顯示卡時代,大家都想著怎麼把單塊顯示卡做更強。有點像小時候搭積木,總想著搭個最高的塔。但黃仁勳說:單塊積木再高也有限制,不如搭個"團隊"。所以Rubin平台一口氣放出了6塊不同的晶片:Rubin GPU:負責"計算"的大腦Vera CPU:負責調度的管家NVLink 6:連接所有晶片的高速公路還有其他幾塊專門負責網路、資料流動的晶片這6塊晶片不是隨便湊一起,而是像一支配合默契的足球隊——前鋒、中場、後衛、守門員各司其職,比一個人單打獨鬥強多了。最終結果呢?整個平台的推理性能達到上一代的5倍。成本反而降到了1/10。這就是"團隊作戰"的威力。特別要說一下NVLink 6。精準地說:NVLink 6是連接多塊GPU的"高速公路",頻寬達到3.6TB/s。它讓多塊GPU能像一塊一樣協同工作,是實現相較於上一代有"5倍性能提升"的關鍵一環,但不是唯一因素。整個5倍提升是6塊晶片一起發力的結果。有點像裝修房子:NVLink 6是寬敞的走廊,讓各房間連接順暢但房子好不好用,還得看客廳、臥室、廚房怎麼配合03 讓AI學會"思考"光有便宜的算力還不夠,AI還得"聰明"。之前很多自動駕駛AI像什麼?像只會條件反射的蟲子。看到紅燈停,看到綠燈行,遇到沒見過的情況就懵了。NVIDIA這次開放原始碼的Alpamayo模型,想教AI學會"思考"。什麼意思?想像你在開車,突然遇到一個壞掉的紅綠燈——既不紅也不綠,就那麼黃燈閃啊閃的。條件反射式的AI會怎麼做?可能直接卡住,因為"題庫"裡沒這題。但真正會"思考"的AI會琢磨:周圍的車在幹嘛?大家都在慢慢通過,看來可以走。但要小心點,隨時準備剎車。這種"琢磨"的過程,就是Alpamayo想教給AI的能力。它加入了"思維鏈"功能,讓AI不再是死記硬背,而是學會像人一樣推理。有人說得挺形象:以前的AI是背題庫,Alpamayo是教機器解題的方法。更關鍵的是,NVIDIA把這個模型開源了——相當於把解題思路免費公開,讓誰都能拿去用。為何這麼做?用黃仁勳的話說:軟體都免費了,開發者想用好,自然就得買NVIDIA的硬體來跑它。這招挺聰明的。就像印表機廠家把印表機賣得很便宜,靠賣墨盒賺錢。NVIDIA是把"墨盒"免費了,但你要用還得買它的"印表機"。04 這對普通人意味著什麼?說了這麼多,跟普通人有啥關係?如果你是個使用者:以後你用的AI應用可能會更便宜。因為算力成本降了,那些靠AI生成的圖片、視訊、客服聊天,價格都可能跟著降。如果你是個開發者:搭AI應用的成本會大幅降低。以前可能因為太貴不敢做的項目,現在可以試試了。而且NVIDIA開源了Alpamayo,你可以直接拿去用,不用從零開始。如果你是投資者:NVIDIA在賭下一個大方向:AI從"實驗室"走向"真實世界"。你看它這次和奔馳合作,直接把整套自動駕駛系統裝到2026年上市的CLA車型上。還在往人形機器人領域使勁。ChatGPT只是AI的開始,真正的大市場是那些能跑、能跳、能幹活的機器。總之,AI可能真的要從"昂貴的高科技玩具"變成"像水電一樣的基礎設施"了。至於這一天什麼時候真正到來?那就看Rubin平台2026年下半年正式出貨後的表現了。05 摩爾定律慢下來了,黃仁勳沒有摩爾定律說的是晶片性能每18個月翻一番。但現在這個定律已經明顯慢下來了——物理快到極限了。但黃仁勳沒有等。從Hopper到Blackwell,再到現在的Rubin,NVIDIA的節奏從來不是等摩爾定律來推自己,而是自己去推摩爾定律。這次CES傳達的訊號很明確:造更聰明的AI時代過去了,接下來要讓AI用得起。這才是AI真正走進千家萬戶的開始。 (白羊武士弗拉明戈)
黃仁勳談 2026:推理變強了,AI 也更會賺錢了
當AI 圈還在爭論有沒有泡沫,黃仁勳已經在算“推理(Reasoning)”能賺多少錢。2026 年 1 月 8 日,播客 No Priors 上,他這樣說:就算 ChatGPT 沒出現,NVIDIA也會贏。這份自信,源於對計算產業的真實判斷。過去十年,摩爾定律逐漸失效,算力不再自動變便宜。所以加速計算從高端選項變成了“產業標配”。當主持人問起 “2025 年 AI 最讓你驚訝”的進展,黃仁勳沒講多模態、也沒講大模型,答案是:模型推理能力的進化,和它如何成為一門可以定價、可以收費的生意。這意味著,AI 的戰場已經從做大模型轉向了賣推理能力。推理到底怎麼賺錢?誰在為推理付費?這個窗口還能開多久?第一節|推理開始能定價,OpenEvidence毛利率90%過去,AI 的強,主要指兩個方向:會寫、會說。從 ChatGPT 到各種聊天機器人,只要能輸出連貫、像人寫的內容,就算是好模型。但到了企業場景,標準變了。他們不在乎會不會聊天,在乎的是:這個 AI 能給我省多少錢、賺多少錢?要讓 AI 輸出值錢,黃仁勳的回答是:推理能力。這個能力不是模型參數再翻幾倍,而是:根據上下文找準問題,在資料不全時推出合理結論,給出能被醫生、律師、工程師放心使用的答案。有了這種能力,AI 給出的結果就能明碼標價了。他舉了幾個例子:OpenEvidence 做醫療搜尋,推理Token的毛利率達到了90%;Harvey 為律師事務所服務,已經在多個大型律所落地使用;甚至 Claude 企業版,企業也願意為它付費。這說明什麼?過去 AI 輸出不穩定,企業不敢付高價;現在推理讓答案可控,按結果收費成為可能。這個變化有兩個訊號值得特別注意:模型本身不再是唯一賣點。會寫文章、會對話只是起點,能推理、能接任務、能給出可驗證的答案,才是企業考慮是否付費的關鍵。企業願意為推理質量付更高的價。OpenEvidence的高毛利率不是靠壓低成本,而是因為醫生真的把它當可信賴資源在用。當AI從助手變成專業工具,定價邏輯就變了。在這個過程中,最早跑出來的不是消費級產品,而是高度專業場景。醫療、法律、科研、工程……這些地方對答案質量要求極高,恰好讓推理有了明確價格。我們第一次看到,推理從模型的一個小能力,變成了能單獨收費的產品。第二節|真正賺錢的是AI工廠,電工工資翻倍了推理能收費了,但這些能賣錢的Token,是怎麼產出來的?黃仁勳把這個生產場所叫作:AI 工廠。這些工廠 24 小時不停地運算、生成推理結果。但要讓 Token 持續產出,背後得有三樣東西支撐:晶片廠:造出最關鍵的計算晶片超級計算中心:搭建大模型運行需要的硬體AI資料中心:一天24小時不停地產生推理結果這三類工廠,正在美國各地大量建設。而建設這些工廠,需要的不只是技術,更是人。黃仁勳說,他第一次看到電工、技術員、水管工的需求漲得這麼快。電工資格證成了熱門證書。有人專門接 AI 工廠的活,一出差就是一個月。建築工人也被拉到這些新工地,很多州開始出現搶人的現象。這是實實在在的變化: 不是模型參數增長,不是論文數量增長, 而是資料中心大量開工、光纜加速鋪設、電費暴漲、崗位激增。AI 不再只是程式碼和演算法,而是開始像傳統工業一樣,有產線、有工人、有產能指標。這場基礎設施建設確實在創造大量就業。但隨之而來的問題是:當AI真正投入使用後,會不會反過來取代人的工作?黃仁勳認為恰恰相反。他舉了放射科醫生的例子:“八年前,AI 教父 Hinton 預言 AI 會徹底改變放射學,放射科醫生將不再被需要。他說對了一半,現在 100% 的放射學應用都是 AI 驅動的。但放射科醫生的數量不減反增。”原因在於:AI 接管的是任務(研究掃描片),但放射科醫生的目的是診斷疾病、做研究、服務更多病人。當 AI 幫他們更快看完掃描片,他們就能接更多病例、做更深入的研究,醫院效率提高了,反而需要雇更多放射科醫生。這個邏輯不只適用於醫生,也適用於所有使用 AI 推理能力的行業:律師用 AI 處理合同,能接更多案子;工程師用 AI 寫程式碼,能開發更多產品;企業用 AI 做決策,能拓展更多業務。所以 AI 提高了效率,但也釋放了需求。不是 AI 取代人,而是 AI 讓人能做更多以前做不了的事。這也是為什麼基礎設施建設本身,就是 2026 年最確定的商業機會之一。而對於那些想用 AI 做應用的人來說,真正的問題是:推理能收費了,接下來該怎麼做?第三節|成本每年降10倍,小公司也有機會既然推理能賣錢,那誰能抓住這個機會?這聽起來像只有大公司才做得到的事。但黃仁勳指出:“生成推理的成本,每年下降10倍。”“落後 6 個月也不怕,成本降了就能趕上。”於是出現了兩種玩法:一方面,大公司還在籌建下一批超算叢集,爭奪供應鏈;另一方面,小公司已經在開源模型上搭建出垂直服務,開始接單賺錢。比如:生物領域有公司在做端到端分子設計工業領域有公司在做機器人抓取放置系統材料科學有公司在做化學構象預測這些小公司都不做萬能助手,而是只解決一類人的剛需問題。黃仁勳形容這是“在一個小池塘裡先做到極致”。這種專注一個場景做到能收錢的方式,才是接下來五年裡,大多數AI創業者最現實的路徑。而讓這條路徑成為可能的,是開源。黃仁勳說:“沒有開源,初創公司、教育、研究都沒法做。傳統企業也做不了AI 轉型。”他甚至說,中國 AI 公司 DeepSeek 去年開放原始碼的訓練方法,是“對美國AI最大的單一貢獻”。因為它讓矽谷所有初創公司都能學到最前沿的技術,大幅降低了進入門檻。降低門檻意味著:不需要從頭訓練大模型,在開源基礎上做垂直最佳化就夠了;不需要燒掉幾億美元,用更小的成本就能驗證需求。但能做,不等於能做成。關鍵在於:你得知道推理在你的場景裡值多少錢,你得願意去一個小市場快速驗證、快速迭代。不是沒模型就做不了AI,而是你得想清楚:你要解決誰的問題?你怎麼把推理包裝成一個值得付費、值得信賴的數字員工?如果還不確定方向,黃仁勳提到了 2026 年三個值得關注的領域:第一,數字生物學將迎來它的 ChatGPT 時刻。蛋白質理解、多蛋白質生成、化學構象……這些領域正在匯聚合成資料、多模態、推理三大能力。Nvidia 最近開放原始碼的模型就是為多蛋白質理解設計的。第二,汽車不再只是感知加規劃,而是會變成推理汽車。當車遇到從未見過的情況時,它能把複雜場景分解成已知情況,通過推理系統導航通過。Nvidia的自動駕駛堆疊剛剛拿到安全評級第一名。第三,人形機器人或多具身機器人將有巨大突破。黃仁勳說“我們開始得太早了”,自動駕駛經歷了四個時代,而機器人正在用現成的端到端模型加推理系統起步,可能不需要10年就能落地。這三個方向的共同點是:推理能力已經成熟,接下來就是誰先把它變成產品。你不需要幾億美元,但你需要找對一個細分場景,一個真實的痛點。窗口期很短,但機會還在。結語|模型再強,不如結果能賣過去講 AI,是講性能、講模型、講誰更像人。現在講 AI,有個很清楚的衡量標準:能不能讓人願意付錢?推理開始值錢,標誌著三個轉變:模型不再只是看起來厲害,而是能落地、能計價;企業不再只問能不能用,而是問值不值錢;創業者不能再幻想做通用助手,得先做個實用工具。AI 行業的競爭重點變了。模型再強,不如結果好賣。 (AI深度研究員)
【CES 2026】輝達發佈新一代Rubin平台,推理成本較Blackwell降10倍,擬下半年出貨
Rubin平台的訓練性能是Blackwell的3.5倍,運行AI軟體的性能則提升5倍,訓練混合專家模型所需GPU數量減少4倍。黃仁勳稱,全部六款Rubin晶片已通過顯示其可按計畫部署的關鍵測試。輝達稱該平台已全面投產,亞馬遜AWS、Google雲、微軟和甲骨文雲等雲服務商將率先部署。輝達在CES展會推出新一代Rubin AI平台,標誌著其在人工智慧(AI)晶片領域保持年度更新節奏。該平台通過六款新晶片的整合設計,在推理成本和訓練效率上實現大幅躍升,將於2026年下半年交付首批客戶。美東時間5日周一,輝達CEO黃仁勳在拉斯維加斯表示,六款Rubin晶片已從合作製造方處回廠,並已通過部分關鍵測試,正按計畫推進。他指出"AI競賽已經開始,所有人都在努力達到下一個水平"。輝達強調,基於Rubin的系統運行成本將低於Blackwell版本,因為它們用更少元件即可實現相同結果。微軟和其他大型雲端運算提供商將成為下半年首批部署新硬體的客戶。微軟的下一代Fairwater AI超級工廠將配備輝達Vera Rubin NVL72機架級系統,規模可擴展至數十萬顆輝達Vera Rubin超級晶片。CoreWeave也將是首批提供Rubin系統的供應商之一。該平台的推出正值華爾街部分人士擔憂輝達面臨競爭加劇,並懷疑AI領域的支出能否維持當前速度。但輝達保持長期看漲預測,認為總市場規模可達數兆美元。性能提升瞄準新一代AI需求據輝達公告,Rubin平台的訓練性能是前代Blackwell的3.5倍,運行AI軟體的性能則提升5倍。與Blackwell平台相比,Rubin可將推理token生成成本降低至多10倍,訓練混合專家模型(MoE)所需GPU數量減少4倍。新平台配備的Vera CPU擁有88個核心,性能是其替代產品的兩倍。這款CPU專為代理推理設計,是大規模AI工廠中能效最高的處理器,採用88個定製Olympus核心、完整Armv9.2相容性和超快NVLink-C2C連接。Rubin GPU配備第三代Transformer引擎,具備硬體加速自適應壓縮功能,可提供50 petaflops的NVFP4計算能力用於AI推理。每個GPU提供3.6TB/s的頻寬,而Vera Rubin NVL72機架則提供260TB/s頻寬。晶片測試進展順利黃仁勳披露,全部六款Rubin晶片已從製造合作夥伴處返回,並已通過顯示其可按計畫部署的關鍵測試。這一表態表明輝達正維持其作為AI加速器領先製造商的優勢地位。該平台包含五大創新技術:第六代NVLink互連技術、Transformer引擎、機密計算、RAS引擎以及Vera CPU。其中第三代機密計算技術使Vera Rubin NVL72成為首個提供跨CPU、GPU和NVLink域資料安全保護的機架級平台。第二代RAS引擎橫跨GPU、CPU和NVLink,具備即時健康檢查、容錯和主動維護功能,以最大化系統生產力。機架採用模組化、無線纜托盤設計,組裝和維護速度比Blackwell快18倍。廣泛生態系統支援輝達表示,包括亞馬遜的AWS、Google雲、微軟和甲骨文雲在2026年將率先部署基於Vera Rubin的實例,雲合作夥伴CoreWeave、Lambda、Nebius和Nscale也將跟進。OpenAI CEO Sam Altman表示:“智能隨計算擴展。當我們增加更多計算時,模型變得更強大,能解決更難的問題,為人們帶來更大影響。輝達Rubin平台幫助我們持續擴展這一進展。”Anthropic聯合創始人兼CEO Dario Amodei稱,輝達“Rubin平台的效率提升代表了能夠實現更長記憶、更好推理和更可靠輸出的基礎設施進步”。Meta CEO祖克柏表示,輝達的“Rubin平台有望帶來性能和效率的階躍式變化,這是將最先進模型部署給數十億人所需要的”。輝達還稱,思科、戴爾、惠普企業、聯想和超微預計將推出基於Rubin產品的各類伺服器。包括Anthropic、Cohere、Meta、Mistral AI、OpenAI和xAI等AI實驗室正期待利用Rubin平台訓練更大型、更強大的模型。提前公佈產品細節評論稱,輝達今年比往年更早披露新產品的細節,這是該司保持行業依賴其硬體的舉措之一。因為輝達通常在每年春季加州聖何塞舉行的GTC活動上深入介紹產品細節。對黃仁勳而言,CES只是其馬拉松式出席活動的又一站。他要在各類活動中宣佈產品、合作和投資,均旨在為AI系統部署增添動力。輝達公佈的新硬體還包括網路和連接元件,將成為DGX SuperPod超級電腦的一部分,同時也可作為單獨產品供客戶以更模組化的方式使用。這一性能提升是必需的,因為AI已轉向更專業化的模型網路,不僅要篩選海量輸入,還需通過多階段流程解決特定問題。輝達正在推動面向整個經濟領域的AI應用,包括機器人、醫療保健和重工業。作為這一努力的一部分,輝達宣佈了一系列旨在加速自動駕駛汽車和機器人開發的工具。目前,基於輝達的電腦支出大部分來自少數客戶的資本支出預算,包括微軟、Alphabet旗下的Google雲和亞馬遜旗下的AWS。 (invest wallstreet)
【CES 2026】黃仁勳炸場:全新Rubin平台量產,AI推理成本降至十分之一,發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作
黃仁勳 CES 2026主題演講:全新Rubin平台正式量產,AI推理成本降至十分之一,推進機器人和自動駕駛生態,發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作1. Nvidia與奔馳合作推出Level 2自動駕駛系統,2026年大規模商用要點一:舊金山路測表現出色,可與特斯拉FSD競爭Nvidia在CES 2026上展示了其全新的點對點Level 2駕駛輔助系統,在舊金山約40分鐘的實際道路測試中,該系統搭載在2026款奔馳CLA轎車上,成功應對了複雜的城市交通場景,包括交通訊號燈、四向停車標誌、雙排停車車輛和無保護左轉等情況。Nvidia汽車部門負責人Xinzhou Wu透露,該系統在城市駕駛中的人工接管次數與特斯拉FSD相當,但特斯拉用了約8年才實現城市駕駛功能,而Nvidia預計在約1年內就能達成同樣目標。The Verge要點二:2026年分階段推出,2027-2028年推進L4自動駕駛根據Nvidia的產品路線圖,2026年上半年將發佈支援高速公路和城市駕駛的Level 2系統,包括自動變道、停車標誌和交通訊號識別等功能;下半年將增加自動泊車能力,年底前將覆蓋整個美國。該系統基於Drive AGX Orin晶片,2026年計畫開展小規模L4等級試點,2027年將實現合作夥伴機器人計程車部署,2028年將進入個人擁有的自動駕駛汽車。奔馳CEO Ola Kallenius表示,與Nvidia合作的核心在於安全性,強調"駕駛一個重達4000磅、時速50英里的物體,抱歉是不夠的,必須要有更高的確定性和安全性。"The Verge2. Nvidia發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作要點一:推出業內首個開源推理型自動駕駛AI模型Nvidia在CES 2026上宣佈推出Alpamayo系列自動駕駛AI模型、工具和資料集,這是專為Level 4自動駕駛設計的推理型視覺-語言-行動(VLA)模型,能夠讓車輛像人類一樣感知、推理和行動。該系列包括Alpamayo-1(一個擁有100億參數的鏈式思考VLA模型,已在Hugging Face開源)、AlpaSim(開源端到端模擬框架)以及超過1,700小時駕駛資料的物理AI開放資料集。該模型不僅能接收感測器輸入並控制方向盤、剎車和加速,還能對即將採取的行動進行推理。Constellation Research要點二:奔馳成為首個商用合作夥伴,2026年一季度上路Nvidia CEO黃仁勳宣佈,搭載Alpamayo的首款乘用車將是全新奔馳CLA,該車將採用Nvidia DRIVE全端自動駕駛平台,預計2026年第一季度在美國道路上推出。這一合作歷時至少5年,投入數千名工程師,建構了完整的垂直整合系統。奔馳CLA最近獲得了EuroNCAP五星安全評級。黃仁勳表示:"Nvidia將長期支援這些模型和自動駕駛系統,因為自動駕駛工作是通向機器人技術的橋樑。"此外,Lucid、捷豹路虎、Uber和伯克利DeepDrive也對Alpamayo表示出濃厚興趣。Nvidia Blog | Constellation Research3. 波士頓動力與GoogleDeepMind達成AI合作,Gemini機器人模型將整合至Atlas人形機器人要點一:雙方聯合研發,提升人形機器人物體操控和工業任務能力波士頓動力和GoogleDeepMind在CES 2026上宣佈建立新的AI合作夥伴關係,旨在將DeepMind的Gemini Robotics基礎模型整合到波士頓動力的新一代Atlas人形機器人中。該合作將結合波士頓動力的運動智能與DeepMind的基礎AI能力,重點使人形機器人能夠完成各種工業任務,預計將成為製造業轉型的驅動力,首先從汽車行業開始。聯合研究工作預計將在未來幾個月內在兩家公司同時展開。Boston Dynamics要點二:利用多模態基礎模型,讓機器人具備感知、推理和人機互動能力波士頓動力Atlas項目機器人行為總監Alberto Rodriguez表示:"我們正在打造世界上最強大的人形機器人,我們需要一個能夠幫助我們建立新型視覺-語言-行動模型的合作夥伴,用於這些複雜的機器人。在全世界範圍內,沒有人比DeepMind更適合建構可以安全、高效地部署在各種任務和行業的可靠、可擴展模型。"DeepMind機器人技術高級總監Carolina Parada表示,Gemini Robotics模型基於大規模多模態Gemini模型建構,旨在讓任何形狀和大小的機器人都能感知、推理、使用工具並與人類互動。該合作由波士頓動力的大股東現代汽車集團支援。Boston Dynamics4. Nvidia CES 2026主題演講:發佈Rubin平台,AI算力提升5倍,推進機器人和自動駕駛生態要點一:全新Rubin平台正式量產,AI推理成本降至十分之一Nvidia CEO黃仁勳在CES 2026主題演講中宣佈,公司首個極致協同設計的六晶片AI平台Rubin已進入全面量產。該平台包括Rubin GPU(提供50 petaflops的NVFP4推理性能)、Vera CPU(專為資料移動和智能體處理設計)、NVLink 6擴展網路、Spectrum-X乙太網路光子學、ConnectX-9 SuperNIC和BlueField-4 DPU。Rubin平台承諾將AI token成本降低到原來的十分之一,訓練混合專家模型所需的GPU數量減少至四分之一,並推出AI原生儲存平台,將長上下文推理的每秒token數提高5倍。黃仁勳強調:"你訓練AI模型越快,就能越快將下一代前沿技術推向世界。這關乎你的上市時間,這關乎技術領導力。"Nvidia Blog要點二:發佈Cosmos世界基礎模型和開源物理AI生態系統黃仁勳展示了Nvidia Cosmos開放世界基礎模型,該模型在視訊、機器人資料和模擬資料上訓練,能夠從單張圖像生成逼真視訊、合成多攝影機駕駛場景、從場景提示建模邊緣案例環境,並執行物理推理和軌跡預測。演講中還展示了個人AI智能體在Nvidia DGX Spark桌面超級電腦上本地運行,並通過Reachy Mini機器人具身化的演示。黃仁勳宣佈Nvidia在六個領域建構開源前沿AI模型:Clara(醫療健康)、Earth-2(氣候科學)、Nemotron(推理和多模態AI)、Cosmos(機器人和模擬)、GR00T(具身智能)和Alpamayo(自動駕駛),並強調與西門子擴大合作,將Nvidia全端與西門子工業軟體整合。Nvidia Blog5. 阿里巴巴高德地圖推出AI 3D餐廳展示工具,對標美團爭奪本地生活市場要點一:基於通義萬相視覺模型,餐廳上傳照片或視訊即可生成3D圖像據彭博社報導,阿里巴巴旗下地圖和本地生活服務部門高德地圖即將推出一項AI功能,允許餐廳通過上傳視訊或照片來渲染3D圖像。該技術基於阿里巴巴的通義萬相(Wan)視覺模型,旨在降低商戶的行銷和推廣成本。熟悉該事項的人士透露,阿里巴巴計畫向部分商家免費提供這項技術一段時間。這一舉措是阿里巴巴在中國餐飲和外賣領域與美團競爭的更廣泛努力的一部分。Bloomberg要點二:強化本地生活服務佈局,挑戰美團市場主導地位此次推出3D餐廳展示工具,是阿里巴巴利用AI技術加強與美團在本地生活服務市場競爭的最新動作。美團目前在中國外賣市場、餐廳預訂和本地服務領域佔據主導地位。通過提供更具視覺吸引力的餐廳展示方式,高德地圖希望吸引更多商戶和使用者,擴大其在本地生活服務領域的市場份額。這一策略體現了阿里巴巴將AI技術應用於實際商業場景,以技術創新推動業務增長的思路。Bloomberg6. MiniMax香港IPO定價觸頂至21美元,AI熱潮推動估值達65億美元要點一:定價HK$165觸及區間上限,提前一天停止接受訂單據彭博社報導,上海AI初創公司MiniMax計畫將其香港IPO定價定在每股HK約美元達到其營銷區間的頂部151-HK。知情人士透露該公司通知投資者將以165的價格出售股票,並計畫在當地時間下午5點停止接受機構投資者的訂單,比預期提前一天。MiniMax於2025年12月31日啟動IPO路演,計畫發行2,538.92萬股新股。按最高定價計算,此次IPO將籌集至少42億港元(約5.38億美元),對MiniMax的估值約為65億美元。Bloomberg | Reuters要點二:獲阿里巴巴和騰訊支援,AI熱潮下需求強勁MiniMax得到了阿里巴巴集團和騰訊控股的支援,在AI熱潮的推動下,其IPO展現出強勁的訂單勢頭。該公司專注於生成式AI技術,提供包括文字生成、對話系統等多項AI服務。此次頂格定價和提前停止認購,反映出投資者對中國AI企業的強烈興趣。分析師指出,MiniMax的成功上市將為香港資本市場帶來活力,也體現了全球投資者對中國AI創新能力的認可。該IPO預計將於2026年1月初完成定價。Seeking Alpha7. 富士康Q4營收同比增長22%至827億美元,AI和雲端運算需求強勁創紀錄要點一:Q4營收超預期,12月單月營收同比增長32%創歷史新高台灣富士康(鴻海精密)於2026年1月5日公佈,2025年第四季度營收達到新台幣2.6兆元(約827億美元),同比增長22.07%,環比增長26.51%,創下季度營收歷史新高,超過路孚特SmartEstimate預測的2.418兆新台幣。12月單月營收達到新台幣8,628.6億元(約274.2億美元),同比增長31.77%,創下該月份歷史紀錄。富士康表示,第四季度營收增長顯著超出預期,為2026年第一季度創造了較高的對比基數。Reuters要點二:雲端運算和網路產品業務強勁,AI伺服器需求持續旺盛富士康稱,增長主要由雲端運算和網路產品部門的強勁表現驅動,這得益於AI產品需求的激增。作為輝達最大的伺服器製造商和蘋果最大的iPhone組裝商,富士康2025年全年銷售額首次突破新台幣8兆元大關。該公司表示,儘管2026年第一季度資訊通訊技術產品將進入季節性放緩期,但AI伺服器機架產品的強勁需求預計將使業績處於過去五年區間的高端。富士康還指出,智能消費電子產品部門(包括iPhone)由於匯率不利影響,營收出現小幅下降。Reuters8. 阿里巴巴PANDA AI工具助力醫院發現24例胰腺癌,自2024年11月分析超18萬例CT掃描要點一:AI在常規CT掃描中發現早期胰腺癌,提前挽救患者生命據《紐約時報》報導,中國寧波大學附屬人民醫院自2024年11月作為臨床試驗開始使用阿里巴巴達摩院開發的PANDA(Pancreatic Cancer Detection with Artificial Intelligence,胰腺癌人工智慧檢測)AI工具以來,已分析超過18萬例腹部或胸部CT掃描,幫助醫生檢測出約24例胰腺癌病例,其中14例處於早期階段。該院胰腺科主任朱克雷醫生表示:"我認為可以百分之百地說,AI拯救了他們的生命。"PANDA工具被訓練用於在非對比CT掃描中尋找胰腺癌,這些患者最初因腹脹或噁心等症狀就診,並未直接看胰腺專科醫生,部分CT掃描在被AI工具標記之前並未引起警報。New York Times要點二:通過深度學習突破非對比CT侷限,獲FDA突破性裝置認證PANDA工具利用深度學習技術,通過演算法將2000多名已知胰腺癌患者的對比CT掃描中的病灶位置對應到同一患者的非對比CT掃描上,訓練AI模型在清晰度較低的圖像中檢測潛在癌症。在超過2萬例非對比CT掃描的測試中,該工具正確識別了93%的胰腺病變患者,研究結果發表在2023年《自然醫學》雜誌上。2025年4月,阿里巴巴宣佈PANDA獲得美國FDA"突破性裝置"認證,意味著其審查將被加速以幫助其進入市場。胰腺癌是最致命的癌症之一,五年生存率約為10%,早期檢測極其困難。在寧波醫院,非對比CT檢查費用約為25美元(保險前),該系統正在分析醫生已為其他原因訂購的掃描,因此不會給醫院或患者增加額外檢查成本。New York Times9. Instagram Reels年化收入達500億美元,成為Meta最大增長引擎要點一:五年從零到500億,超越可口可樂和耐克年收入據《華爾街日報》報導,Meta旗下Instagram的短影片功能Reels在2025年第三季度實現了超過500億美元的年化收入營運率(annual run rate)。Meta CEO馬克·祖克柏在2025年10月的財報電話會議上表示:"隨著視訊在我們的應用中持續增長,Reels現在的年化收入已超過500億美元。"這一數字令人震驚,因為Reels於2020年推出時僅是對TikTok的模仿,當時沒有任何收入。五年後,其收入規模已經接近可口可樂和耐克的年收入水平,成為Meta最重要的增長業務之一。WSJ要點二:使用者參與度超越YouTube Shorts,AI推薦系統功不可沒報導指出,Instagram使用者在Reels上花費的時間已經超過YouTube Shorts的觀眾觀看時長。Meta第三季度總營收為512.4億美元,同比增長26%,其中Family of Apps(應用家族)收入達到508億美元,Reels的貢獻佔比可觀。祖克柏將Reels的成功歸功於推薦系統的改進和AI技術的應用,這些技術提高了內容的相關性和使用者參與度。分析師認為,Reels已經從簡單的TikTok複製品轉變為Meta的戰略性AI資產,推動了整個平台的廣告收入增長。創作者經濟的蓬勃發展和AI驅動的變現能力是Reels取得成功的關鍵因素。AInvest10. DeepSeek為聊天機器人新增"交錯思考"功能,月活使用者激增90%至1.315億要點一:推出"交錯思考"深度研究模式,提升複雜查詢處理能力據《南華早報》報導,總部位於杭州的AI初創公司DeepSeek對其旗艦聊天機器人的使用者介面進行了更新,新增了名為"交錯思考"(interleaved thinking)的高級功能。這一功能類似於OpenAI的深度研究(Deep Research)產品,可以執行多步驟研究,在整個過程中穿插"思考"步驟。此前,聊天機器人在生成響應之前會"思考"使用者提供的提示,而"交錯思考"允許模型在每個操作之間進行"思考",增強其研究能力。例如,在打開網頁後,模型可能需要"思考"所讀資訊的可信度,然後決定是否查閱另一份檔案來驗證發現。這一過程對於處理複雜查詢至關重要。South China Morning Post要點二:12月月活使用者暴增90%,新一代模型備受期待報導指出,DeepSeek在2025年12月的月活躍使用者數激增90%,達到近1.315億。《南華早報》測試顯示,DeepSeek的聊天機器人並非總是部署"深度研究"模式,除非收到複雜的查詢提示。一旦該功能被啟動,使用者能夠看到"交錯思考"過程的每一步。這些升級標誌著DeepSeek在消費端的罕見改進,正值業界對其下一代模型的期待不斷升溫之際。分析師指出,隨著DeepSeek在AI模型性能和使用者體驗上的持續最佳化,該公司正在中國AI市場中鞏固其領先地位,並對國際競爭對手構成越來越大的挑戰。South China Morning Post11. 中國量化基金幻方推出iQuest-Coder AI模型,僅400億參數擊敗GPT-5.1和Claude Sonnet 4.5要點一:開放原始碼AI模型在多項基準測試中超越美國競爭對手據《南華早報》報導,總部位於北京的量化交易公司幻方量化(Ubiquant)於2026年1月初發佈了一系列開放原始碼專注型大語言模型iQuest-Coder-V1系列,該系列模型在多項基準測試中聲稱能夠匹敵甚至超越美國競爭對手如OpenAI的GPT-5.1和Anthropic的Claude Sonnet 4.5,儘管使用的參數數量遠少於後者。iQuest-Coder-V1系列專為程式碼智能設計,擅長自動程式設計、偵錯和程式碼解釋等任務,包括70億、140億和400億參數的模型,遠小於GPT-5.1和Claude Sonnet 4.5等領先閉源系統的參數規模(通常在4000億至8000億參數之間)。South China Morning Post要點二:基準測試成績亮眼,400億參數模型比肩國際頂尖水平根據自報資料,iQuest-Coder-V1-40B-Loop-Instruct在SWE-bench Verified基準測試中得分76.2%,接近Claude Sonnet 4.5的77.2%和GPT-5.1的76.3%。該基準測試衡量AI模型解決真實世界軟體工程問題的能力。在BigCodeBench測試中(該測試評估LLM在解決實際且具有挑戰性的程式設計任務方面的表現,不存在污染),該模型得分49.9%,超過Gemini 3 Pro Preview的47.1%和GPT-5.1的46.8%。此外,在LiveCodeBench v6測試中,該模型也展現出色表現。幻方量化繼DeepSeek之後成為中國量化基金進軍AI領域的又一案例,展示了中國金融科技公司在AI研發方面的強大實力和創新能力。South China Morning Post (AI Daily Insights)
輝達仍是王者!GB200貴一倍卻暴省15倍,AMD輸得徹底
AI推理遊戲規則,正悄然改變。一份最新報告揭示了關鍵轉折:如今決定勝負的,不再是單純的晶片性能或GPU數量,而是 「每一美元能輸出多少智能」。AI推理,現已不只看算力硬指標了!Signal65一份最新報告中,輝達GB200 NVL72是AMD MI350X吞吐量28倍。而且,在高互動場景在,DeepSeek R1每Token成本還能低到15倍。GB200每小時單價大概是貴一倍左右,但這根本不重要。因為機櫃級NVLink互聯+軟體調度能力,徹底改變了成本結構。頂級投資人Ben Pouladian稱,「目前的關鍵不再是算力或GPU數量,而是每一美元能買到多少智能輸出」。如今,輝達仍是王者。其他競爭對手根本做不到這種互動水平,這就是護城河。最關鍵的是,這還沒有整合200億刀買入Groq的推理能力。這裡,再mark下老黃至理名言——The more you buy, the more you save!AI推理重心:一美元輸出多少智能?這篇萬字報告,探索了從稠密模型(Dense)到混合專家模型(MoE)推理背後的一些本質現象。傳統的「稠密模型」架構要求:在生成每個Token時都啟動模型裡的全部參數。這就意味著:模型越大,運行越慢、成本越高,同時還會帶來相應的記憶體需求增長等問題。MoE架構,正是為了釋放更高水平的智能而生——在每個Token上只啟動最相關的「專家」。摟一眼Artificial Analysis排行榜即可發現,全球TOP 10開源LLM,全部都是MoE推理模型。它們會在推理階段額外「加算力」來提高精準性:LLM不會立刻吐出答案,而是先生成中間的推理Token,再輸出,相當於先把請求和解法「想一遍」。前16名裡有12個是MoE模型這些推理Token往往遠多於最終回覆,而且可能完全不會展示出來。能否既快又便宜地生成Token,對推理部署來說就變得至關重要。那麼,MoE方法的主要約束在那裡?一個核心限制在於「通訊瓶頸」。當不同專家分佈在多塊GPU上時,任何GPU之間通訊的延遲,都會讓GPU空閒等待資料。OpenRouter一份近期報告,超50%的Token會被路由到推理模型上這些「空轉時間」(idle time)代表著被浪費的、低效的算力,並且會直接體現在服務提供商的成本底線上。當評估AI基礎設施的「經濟性」時,一般會聚焦在三個方面:性能(吞吐量與互動性)能效(在既定功耗預算下,可生成的Token數)總體擁有成本(通常以Token/每百萬的成本衡量)基於公開可用的基準測試資料,Signal65對不同LLM架構下AI基礎設施方案進行了對比分析。分析中,團隊採用第三方基準測試所提供的性能資料,來估算相對的Token經濟性。具體來說,他們選取了B200、GB200 NVL72,以及AMD MI355X部分結果,用以對比它們在不同模型場景下的真實性能表現及相應的TCO估算。結果顯示,在稠密架構以及較小規模的MoE中,B200性能優於AMD MI355X。當模型擴展到像DeepSeek-R1這樣需跨越單節點的前沿級規模時,GB200 NVL72性能最高可達到MI355X的28倍。在高互動性的推理工作負載中,NVL72的單位Token成本最低,可降至其他方案的約1/15。儘管GB200 NVL72的單GPU小時價格幾乎是這些競爭平台的2倍,但其機架級能力——從NVLink高速互連,到覆蓋72塊GPU的軟體編排——共同推動了這種顯著更優的單位經濟性。價值評估的重心,正在從單純的原始FLOPs,轉向「每一美元所獲得的總體智能」。這一結論非常明確:隨著MoE模型和推理工作負載帶來的複雜性與規模持續上升,行業已無法僅依賴晶片層面的性能提升。能夠在系統層面實現峰值性能的端到端平台設計,已經成為實現低成本、高響應AI服務的關鍵槓桿。「稠密模型」推理,輝達領先Signal65選擇了Llama 3.3 70B作為稠密模型的性能基準,結果如下所示:帕累托曲線清晰顯示出,HGX B200-TRT方案在整個吞吐量與互動性區間內,都具備持續的性能優勢。具體到基線互動性水平,B200的性能大約是MI355X的1.8倍,這為互動式應用部署,以及更高的單GPU並行密度提供了顯著余量。再來看,當互動性提升至110 tokens/sec/user時,這一優勢進一步被放大:B200吞吐量超過MI355X的6倍。整體上,在Llama 3.3 70B測試中,AMD MI355X在單位成本性能方面確實具備一定吸引力。但這種優勢並不能代表更現代的推理技術堆疊,尤其是以MoE架構和高強度推理工作負載建構的系統。MoE推理,輝達領先那麼,在MoE架構上,輝達和AMD表現又如何?中等規模推理:gpt-oss-120BSignal65認為,OpenAI gpt-oss-120B是理解MoE部署特性的一個理想「橋樑案例」。它足夠大,可以把MoE的複雜性暴露出來;但規模又沒有大到離譜,仍然是很多團隊能現實部署並調優的範圍。它處在一個很有用的中間地帶:介於稠密的70B級模型,與市場正在快速轉向的、更前沿的推理型MoE架構之間。在10月下旬資料裡,當目標是100 tokens/sec/user時,B200大約比MI355X快1.4倍;但當目標提高到250 tokens/sec/user時,差距會擴大到約3.5倍,說明越追求「更快的互動」,平台差異越容易被放大。不過,12月上旬的資料則呈現出不同局面。得益於軟體最佳化,兩邊平台的絕對性能都明顯提升:輝達單GPU峰值吞吐從大約7,000 tokens/sec提升到超過14,000;AMD也從約6,000提升到大約8,500。前沿推理:DeepSeek-R1在DeepSeek-R1推理上,測試結果正如開篇所介紹那樣,輝達GB200 NVL72大幅領先。更多資料如下圖所示:基準測試資料展示了一個被重塑的格局:GB200 NVL72讓「超過8塊GPU的張量平行配置」也能進入帕累托前沿,達到單節點平台根本無法匹敵的性能。在25 tokens/sec/user互動性目標下,GB200 NVL72單GPU性能大約是H200的10倍,並且超過MI325X單GPU性能的16倍。這類性能差距,正是能為AI服務提供商帶來「斷崖式」TCO改善的那種差距。當互動性目標提高到60 tokens/sec/user時,GB200 NVL72相比H200帶來了超24倍的代際提升,同時也接近MI355X的11.5倍性能。在同樣25 tokens/sec/user下,GB200 NVL72單GPU性能大約是B200的2倍、是MI355X的5.9倍;而到60 tokens/sec/user時,這些優勢進一步擴大:相對單節點B200達到5.3倍、相對MI355X達到11.5倍。GPU越貴,token成本越低輝達從Hopper過渡到Blackwell,並推出GB200 NVL72時,不僅提升了每GPU算力、記憶體頻寬以及NVLink互連頻寬,還對底層系統架構做了重新設計。從8-GPU風冷HGX伺服器轉向全液冷的機架級系統,並把72塊GPU連接在同一個域內,系統成本和複雜度顯然都上升了。據CoreWeave公佈的目錄價,按單GPU口徑,GB200 NVL72價格大約比H200貴1.7倍。不過,每一代新技術的目標之一,就是壓低「每Token成本」。對推理而言,具體就是:實際交付的Token吞吐提升幅度,要超過底層基礎設施成本的提升幅度。而從公開的性能資料來看,這正是GB200 NVL72相比Hopper所呈現出的結果。Signal65把本次的tokenomics(Token經濟學)分析,錨定在前文建立的DeepSeek-R1性能差距上:在25 tokens/sec/user時,GB200 NVL72單GPU性能大約是H200的10倍;在更高的互動點位上,這個差距會更大(24倍)。下表總結了成本歸一化,以及由此得到的「每美元性能」計算:這些結果一開始可能有點反直覺:更「貴」的GPU反而更省錢——因為它帶來的性能提升遠大於價格差異,使得它能以更低成本生成Token。與AMD相比,輝達系統在推理token成本上的一些資料對比:按單GPU口徑,MI355X價格大約只有GB200 NVL72配置的一半;但由於GB200 NVL72單GPU性能優勢從低端接近6倍,到高互動性時高達28倍不等,輝達仍然能提供最高15倍的每美元性能優勢。換句話說,輝達能實現相對每Token成本僅為競爭對手的1/15。結論前沿AI模型的未來,會是更大、更複雜的MoE。隨著模型更深地走向MoE與推理架構,最終效果將不再只取決於原始GPU性能或記憶體容量。平台級設計會成為決定性因素——包括互連與通訊效率、多節點擴展特性、軟體棧成熟度、生態支援與編排能力,以及在並行與混合負載下維持高利用率的能力。從當前趨勢看,來自OpenAI、Meta、Anthropic等前沿公司的旗艦模型,很可能會繼續沿著MoE與推理方向演進。如果這一軌跡成立,輝達將維持關鍵的性能與經濟性優勢。GoogleTPU這類架構也提供機架級方案,但它們對非自家模型的適用性與性能表現仍不明確。本文記錄的性能差異,能夠直接轉化為可量化的商業結果:在既定互動性閾值下,每部署一塊GPU能服務更多使用者,就能降低每個「有用Token」的生成成本,提高每機架的收入潛力(通過規模化交付更高價值的體驗),最終AI企業和部署AI的企業獲得更好的TCO。一個具體例子足以說明量級:當一個平台在某個互動性目標下,能提供28倍的單GPU吞吐提升時,它可以在不需要線性擴大硬體規模的情況下,解鎖新的產品檔位以及更複雜的功能。這就是AI推理「經濟學」,而它會更偏向那些從底層就為MoE與推理時代而設計的平台。 (新智元)