#推理
AI行業拐點已至?推理算力成新風口
當OpenAI官宣下調千億級算力投資預算,市場一度嘩然:AI產業要踩剎車了?答案恰恰相反——這場看似的“收縮”,實則是行業從瘋狂燒錢的算力軍備競賽,邁入回歸商業本質、聚焦盈利的新階段。而隨著AI應用加速落地,算力需求的結構重構正在上演,推理算力成為新的增長風口,國產AI晶片更是借此迎來了前所未有的發展機遇。OpenAI的“預算下調”,實則是理性的戰略聚焦。此前其提出的2030年前1.4兆美元基建投入,是涵蓋晶片、電力、資料中心等的全產業鏈廣義規劃;而此次調整為6000億美元純算力專項支出,精準聚焦晶片採購與租賃,更與2030年2800億美元的營收目標相契合。這並非算力投入的降溫,而是從“盲目擴張”轉向“投入產出匹配”,就連高盛等機構也直言,這一調整讓訂單確定性更強,更利於行業長期發展。與此同時,全球算力產業鏈的高景氣度並未消退。Meta與輝達達成數十億美元晶片採購協議,大手筆拿下數百萬片最新AI加速晶片,還首次引入輝達CPU部署大模型;OpenAI仍在推進超千億美元融資,90%資金來自輝達、軟銀等頭部戰略投資者。北美雲廠與AI企業的資本開支援續增長,印證了算力需求的底層邏輯依舊堅挺,只是行業發展的重心,正悄然發生轉移。行業的核心變化,在於從“重訓練”到“訓練+推理並重”,推理算力成為新的增長引擎。如果說訓練算力是為大模型“打地基”,需要極致高端的算力支撐,那麼推理算力就是大模型落地應用的“毛細血管”,支撐著每一次使用者互動、每一個場景呼叫。隨著AI應用商業化拐點臨近,推理算力的需求爆發式增長,其市場規模更是被業內看好:2030年全球AI訓練算力市場規模約1兆美元,而推理算力市場將達到4-5兆美元,增速和規模均遠超訓練算力。更關鍵的是,推理算力的需求特性,為國產晶片打開了全新的發展空間。與訓練算力對高端GPU的高度依賴不同,推理算力更講究性價比,注重成本、效率與系統能力的平衡,定製化AI晶片成為破局關鍵。這恰恰是國產晶片的優勢所在——借助ASIC、全端最佳化等技術,國產晶片能在推理賽道建立獨特的競爭壁壘。市場的反饋已經給出答案:國內AI ASIC龍頭芯原股份2025年末在手訂單達50.75億元,較三季度大增54.45%,連續九個季度高位運行;寒武紀、摩爾線程等國產晶片企業紛紛登陸資本市場,壁仞科技、燧原科技加速IPO處理程序,百度崑崙芯也計畫分拆上市;海光資訊憑藉“DCU+CPU”晶片組合,與中科曙光形成產業鏈協同優勢,成為推理算力賽道的重要玩家。就連海外初創公司Taalas的ASIC晶片也印證了這一趨勢,其專為輕量級大模型最佳化的產品,能效較傳統GPU提升50倍,成本僅為1/20,讓定製化晶片的價值愈發凸顯。AI應用的商業化落地,更是為推理算力需求添上了一把火。這個春節,千問“一句話下單”近2億次,日活使用者達7352萬,僅用3個月就追上豆包3年的使用者規模;“AI+醫療”“AI+行銷”“AI+企服”等細分賽道加速落地,利歐集團等企業已打造專屬AI智能體矩陣,推動AI與主業深度融合。當大模型從“實驗室”走向“生活場”,從單一超大模型向“多模型+專用模型+MoE”演進,對推理算力的需求將滲透到千行百業,成為行業增長的核心驅動力。這場行業變革中,真正的機遇早已不再是單純的算力堆砌,而是能匹配商業需求、兼具性價比與實用性的算力解決方案。而推理算力的風口,不僅重構了算力產業鏈的競爭格局,更讓國產晶片擺脫了在高端訓練算力領域的被動局面,憑藉定製化、高性價比的優勢,在全球AI產業中搶佔了屬於自己的賽道。AI行業從未停下腳步,只是換了更務實的前行方式。當回歸商業本質成為主旋律,推理算力的爆發式增長已然開啟,而國產AI晶片,正站在這場變革的黃金風口上,迎來屬於自己的發展春天。 (元宇宙與人工智慧三十人論壇)
Gemini 3.1 Pro突襲:推理能力翻倍,Google打響AI"小步快跑"第一槍
引言當行業還在期待GPT-5.3時,Google用一場".1"版本號革命重新定義了AI迭代節奏。2026年2月24日凌晨,Google突然發佈Gemini 3.1 Pro大模型,這是其首次採用".1"小版本號,但升級幅度卻遠超預期。在ARC-AGI-2基準測試中,Gemini 3.1 Pro得分77.1%,是Gemini 3 Pro(31.1%)的2倍還多。這一突破不僅刷新了Google自身的技術紀錄,更標誌著大模型行業正式進入"高頻小步快跑"的新時代。更關鍵的是定價策略:每百萬token輸入僅2美元,輸出10美元,這一價格直接對標Anthropic Sonnet 4.6,在保持性能領先的同時實現了成本的大幅最佳化。Google用行動證明,AI競爭不再是"參數軍備競賽",而是"效率與速度的比拚"。01 技術突破:推理能力的量子躍遷Gemini 3.1 Pro最引人注目的突破在於推理能力的翻倍提升。傳統大模型升級往往聚焦於參數規模或多模態能力,而Google此次選擇了更艱難的路徑——從根本上提升模型的邏輯推理和問題解決能力。ARC-AGI-2基準測試的77.1%得分意味著什麼?這一測試專門評估AI系統的抽象推理能力,要求模型從有限示例中歸納出通用規則,並應用於全新場景。77.1%的得分不僅超越了所有前代Gemini模型,更接近了人類專家的表現水平。對比之下,GPT-5.2在同一測試中的得分為68.3%,Claude Opus 4.6為72.8%。多模態能力的全面進化同樣令人印象深刻。Gemini 3.1 Pro支援100萬token超長上下文窗口,能夠一次性處理整本書等級的文件或大型程式碼庫。在創意程式設計方面,模型能夠直接生成3D版"椋鳥群飛"動畫,並支援手勢追蹤互動,實現了從靜態內容生成到動態互動體驗的跨越。vibe coding能力的同步增強為開發者帶來了全新體驗。模型能夠更好地理解程式碼背後的設計意圖和架構邏輯,而不僅僅是語法正確性。實測資料顯示,在處理複雜演算法重構、架構最佳化等任務時,Gemini 3.1 Pro的精準率比前代提升45%。02 行業意義:從"整數版本"到".1迭代"的範式轉變Google首次採用".1"小版本號,這一看似微小的變化背後,是AI行業發展邏輯的根本性轉變。高頻小步快跑成為新常態。傳統上,大模型迭代以整數版本為單位,升級周期長達數月甚至半年。Gemini 3.1 Pro的發佈預示著,未來AI能力的進化將更加頻繁、更加精細。預計未來6個月內,我們將看到更多".1"、".2"等級的快速迭代,而非傳統的整數版本更新。企業應用更新機製麵臨重構。對於依賴AI服務的企業而言,這意味著需要建立更敏捷的AI應用更新機制。傳統"一年一升級"的節奏將被打破,企業需要能夠快速適配模型能力的持續最佳化,保持競爭優勢。技術競爭維度更加多元。當版本迭代頻率提升,競爭不再侷限於"誰先發佈大版本",而是"誰能持續提供最優體驗"。這要求廠商在模型最佳化、工程效率、生態建設等多個維度保持領先。使用者受益程度顯著提升。更頻繁的迭代意味著使用者能夠更快享受到技術進步帶來的價值。無論是開發者工具的增強,還是消費級應用的體驗最佳化,都將以更快的節奏呈現給終端使用者。03 定價策略:性能領先下的成本最佳化Gemini 3.1 Pro的定價策略同樣體現了Google的戰略思考。每百萬token輸入2美元、輸出10美元的價格,在保持性能領先的同時,實現了對競品的成本優勢。對比分析顯示:相比Anthropic Sonnet 4.6(輸入3美元、輸出15美元),Gemini 3.1 Pro便宜33%相比OpenAI GPT-5.2 Turbo(輸入5美元、輸出15美元),成本優勢更加明顯在相同預算下,企業可以處理更多token量,實現更高的投入產出比中小企業市場成為重點。傳統高性能AI服務主要被大型企業壟斷,而Gemini 3.1 Pro的親民定價,意味著更多中小企業能夠負擔得起頂尖AI能力。這對於加速AI技術普惠、推動行業數位化轉型具有重要意義。開發者生態的吸引力增強。對於個人開發者和初創團隊而言,成本是選擇AI服務的關鍵考量。Gemini 3.1 Pro的性價比優勢,將吸引更多開發者加入Google生態,推動應用創新的繁榮。04 生態佈局:從模型到應用的全鏈路最佳化Gemini 3.1 Pro的發佈不是孤立事件,而是GoogleAI生態戰略的重要一環。Gemini App已全面上線。普通使用者可以通過Gemini App直接體驗新模型,享受比前代更精準的複雜問題解答能力。實測顯示,在處理數學證明、邏輯推理、專業諮詢等任務時,新模型的精準率和響應速度均有顯著提升。API服務的全面升級。開發者可以通過Gemini API快速接入新模型,享受推理能力翻倍帶來的效率提升。Google同時最佳化了API的穩定性和響應速度,確保企業級應用的高可用性。多模態創作工具鏈完善。結合Gemini 3.1 Pro強大的多模態能力,Google推出了全新的創意工具套件,支援"文生視訊+互動"的新型內容形式。這對於內容創作者、教育工作者、行銷人員等群體具有重要價值。企業級解決方案深化。針對金融、醫療、法律等垂直行業,Google提供了基於Gemini 3.1 Pro的定製化解決方案,幫助企業在保持資料安全的前提下,享受AI技術帶來的效率提升。05 競爭格局:三巨頭技術路線的分化Gemini 3.1 Pro的發佈,進一步凸顯了AI三巨頭技術路線的分化。Google的"推理優先"路線。通過持續最佳化模型的邏輯推理能力,Google正在建構差異化的技術優勢。在需要複雜問題解決、專業諮詢、科學計算等場景中,Gemini系列的表現日益突出。OpenAI的"通用能力"路線。GPT系列繼續強化其通用性和適應性,在保持各方面能力均衡的同時,通過規模效應降低成本。但整數版本迭代周期較長,可能面臨敏捷性挑戰。Anthropic的"安全與專業"路線。Claude系列在AI安全、專業任務處理上持續深耕,特別是在程式碼安全、法律合規等垂直領域建立了獨特優勢。但定價相對較高,可能限制其規模化應用。國產大模型的追趕壓力。雖然DeepSeek、智譜GLM-5等國產模型在特定領域表現出色,但在推理能力的系統性提升上仍需追趕。Gemini 3.1 Pro的發佈,為國產模型提供了重要的技術參考和競爭標竿。06 實測體驗:從"工具"到"思維夥伴"的進化對於一線使用者而言,Gemini 3.1 Pro帶來的體驗升級是實實在在的。複雜問題處理能力顯著提升。在測試中,模型能夠準確解答研究生等級的數學證明題,理解複雜的法律條文邏輯,提供專業的醫療諮詢建議。這種能力的提升,讓AI從簡單的資訊檢索工具,進化為真正的"思維夥伴"。長文件理解更加精準。得益於100萬token的上下文窗口,模型能夠準確理解整本書、大型程式碼庫、複雜研究報告的內容。在處理學術論文審稿、程式碼架構評審等任務時,表現接近人類專家水平。創意表達更加豐富。在內容創作測試中,模型不僅能夠生成高品質的文字內容,還能夠創作互動式動畫、設計複雜的資料可視化圖表、製作專業的簡報。這種多模態創作能力,為創意工作者提供了全新的工具。響應速度持續最佳化。官方資料顯示,Gemini 3.1 Pro的響應時間相比前代縮短30%,在處理複雜推理任務時,使用者能夠感受到明顯的流暢度提升。也看到了Gemini新增的製作音樂模組(終於有人挑戰suno了),試了一下做一首30秒的武俠歌曲,完成度也很不錯。gemini給我做的國風武俠電影主題曲07 未來展望:AI發展的新節奏與新挑戰Gemini 3.1 Pro的發佈,不僅是一個產品的升級,更預示著AI行業發展的新節奏。技術迭代的加速度。".1"版本號的出現,意味著技術進步的顆粒度更加精細,迭代頻率更加密集。這要求整個行業建立更加敏捷的研發體系、更加靈活的部署架構、更加智能的測試方法。應用創新的新機遇。更強大的推理能力,將催生更多創新應用場景。從智能教育輔導到專業諮詢服務,從科學計算輔助到複雜決策支援,AI的應用邊界將持續擴展。人才需求的結構性變化。隨著AI能力的快速進化,對AI人才的需求將從"模型訓練專家"向"應用創新專家"轉變。能夠將AI能力與行業需求深度結合的人才,將成為市場的新寵。倫理治理的緊迫性。更強大的推理能力,也帶來了新的倫理挑戰。如何確保AI系統的決策透明、公平、可控,將成為行業必須面對的重要課題。結語Google的這次".1版本突襲",表面上是技術升級,深層則是行業競爭邏輯的根本性轉變。當AI發展從"整數版本躍進"轉向"小數版本迭代",整個行業的節奏、格局、規則都將被重新定義。推理能力的翻倍提升,不僅僅是技術參數的最佳化,更是AI從"資訊處理工具"向"智能思維夥伴"進化的重要里程碑。在這個AI重新定義一切的時代,能夠率先突破推理瓶頸、建構持續最佳化能力的企業,將掌握下一個階段的發展主動權。真正的競爭才剛剛開始。技術優勢需要轉化為生態優勢,單點突破需要擴展為系統領先。對於全球AI產業而言,Gemini 3.1 Pro的發佈既是挑戰,也是機遇。在這個AI從"炫技"走向"實用"的關鍵轉折點,能夠平衡技術創新與商業落地的企業,將引領行業進入更加成熟、務實的新階段。當矽谷醒來時,會發現AI競爭的規則已經改變。這場始於".1版本號"的技術革命,或許將開啟全球AI發展的新篇章——一個更加注重實用性、可及性和可持續性的新篇章。 (遊戲AI說)
DeepMind 掌門人預判 AGI 將於 5-10 年內降臨
最近,Google DeepMind 掌門人德米斯·哈薩比斯(Demis Hassabis)接受 CNBC 專訪。他難得敞開心扉,直言不諱地評價了全球 AI 格局,尤其是中國 AI 的追趕速度和創新現狀。“中國團隊的追趕速度極快,只落後幾個月,但在原創性上,他們還沒拿出 Transformer 級的東西。”以 DeepSeek、阿里為代表的中國 AI 團隊,在工程效率、推理最佳化、成本控制上,展現了恐怖的實力。“一篇新論文出來,他們往往能以驚人的速度復現,甚至在某些方面做得更好。”換句話說,在 “把已知路徑做到極致” 這件事上,中國團隊已經證明了自己是全球頂級玩家。也正因為如此,矽谷過去那種“領先一代”的技術安全感,正在被一點點消耗掉。不是按年,而是按月縮水。要知道,過去很長一段時間美國尤其是矽谷派的主流觀點是:中國在 AI 上還遠遠落後,大概是幾年的差距。根據史丹佛大學《2025 年人工智慧指數報告》,中國在 AI 論文發表和專利申請總量上持續領先。且像 DeepSeek、智譜等機構發佈的模型,在國際基準測試中已與第一梯隊產品表現相當。以 DeepSeek V3.2 為例,在公開的推理類基準測試中,它已經能夠全面對標 GPT-5,僅略低於 Gemini 3 Pro。然而,他也指出原創性依然是中國團隊的短板。Transformer 或 AlphaGo 那樣從零到一的技術突破,目前在中國尚未出現。換句話說,中國團隊可以“開車飛馳在既有軌道上”,但鋪設全新軌道的能力仍需時間和積累。哈薩比斯強調,這並非能力不足,而是原創性突破往往需要長期科研積累、實驗失敗和探索精神的結合。不過哈薩比斯也看到了中國 AI 獨有的潛力,他認為當工程最佳化達到一定高度,往往會催生質變。中國憑藉廣闊的應用場景、迅速的市場反應和持續投入,很可能從別出心裁的角度,斬出那一刀改變格局的創新。在談到通向 AGI 的挑戰時,哈薩比斯強調,現有大模型存在“鋸齒狀智能”(jagged intelligence)。這是指模型在某些任務上表現非常出色,但面對複雜因果鏈條、多步驟邏輯推理或現實世界常識時,能力不穩定甚至可能出錯。這說明通用智能不僅需要強大的處理能力,還要在多個維度上保持穩定和一致。除此之外,現有系統無法持續線上學習,也難以自發產生原創性想法,通向 AGI 仍需克服這些根本性限制。在這一背景下,哈薩比斯談到 Scaling Law(規模定律)及其作用。他認為,雖然模型增大、算力增加和資料擴充的回報增速有所放緩,但總體進展依然非常好,能力提升仍值得投入。然而,要真正實現 AGI,僅靠 Scaling Law 仍不夠,還需要一兩個像 Transformer 那樣的重大範式突破。哈薩比斯保持謹慎樂觀,預計 AGI 很可能在五到十年內實現,同時指出算力問題最終歸結於能源,因此未來能源將成為“智能的貨幣”。他還進一步提到“世界模型”概念,作為通向 AGI 的核心手段。與 LLM 主要處理文字不同,世界模型能夠理解因果關係和長期後果,在腦中模擬世界、驗證假設,實現規劃和預測。未來 AGI 很可能是 LLM 與世界模型的融合體。DeepMind 已在 Genie、視訊生成 Veo 和機器人模擬中佈局早期世界模型,讓 AI 在虛擬環境中練習、犯錯、成長,真正具備“理解”和“預測”能力。在應用層面,哈薩比斯看好端側 AI,即將高效、輕量的模型運行在手機、可穿戴裝置和智能眼鏡等終端上。Google計畫通過 Project Aura 智能眼鏡以及機器人領域的探索,讓 AI 不僅會“說”,還能實際“做事”,並行揮實用價值。過去兩三年,DeepMind 也回歸“創業公司狀態”,快速迭代 Gemini 模型並落地到 Google 核心產品,包括搜尋、Workspace 和智能眼鏡等場景,使Google在算力、模型規模和應用落地上都保持競爭優勢。總體來看,哈薩比斯認為,中國 AI 已憑實力贏得了頂級牌桌的入場券,但未來幾十年的格局,將取決於誰能率先鋪設無人區的軌道。速度固然重要,但方向選擇才是關鍵。真正的競爭,不只是算力之爭,更是敢於探索未知、率先開闢全新路徑的勇氣與能力。在這個意義上,2026 年不僅可能見證端側 AI、agent 系統和機器人領域的突破,也將考驗誰能在通向 AGI 的道路上,把工程能力與原創性創新結合,率先鋪出未來的新軌跡。 (科技狐)
梁文鋒署名新論文深夜炸場!DeepSeek-V4 新架構曝光:提出新的稀疏化方向,與MoE互補,長上下文能力顯著擴展,推理程式碼能力更強了
一覺醒來,DeepSeek又發新論文了!仔細一看作者,梁文鋒的名字也赫然出現在其中。這篇論文題為《通過可擴展尋找實現的條件記憶:大型語言模型稀疏性的新維度》,重點在於提出了 Engram ——這是一種條件記憶模組,旨在通過將靜態模式儲存與動態計算在結構上分離,來增強 Transformer 骨幹網路。論文的給出的實驗資料也相當驚豔:1、Engram 在知識、推理、程式碼和數學任務上能夠帶來顯著性能提升,均超過純MoE模型。2、存在U形擴展規律:純 MoE性能次優,將 20–25% 的稀疏參數分配給 Engram,效果最佳。3、長上下文能力提升明顯,能釋放注意力用於全域模式和複雜推理。程式碼和論文全文均已開源:論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf程式碼地址:https://github.com/deepseek-ai/Engram為什麼大語言模型需要 Engram ?稀疏性(sparsity)一直是智能系統的核心設計原則,無論是生物大腦的神經回路,還是現代大語言模型都在用它來“省資源”。在 AI 裡,這個思想最常見的體現就是混合專家模型(MoE)——也就是通過“條件計算”讓模型只啟動部分參數,從而在不增加太多計算量的情況下,把模型容量放大好幾倍。MoE 是目前推進參數規模和能力擴展的關鍵技術之一,DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也採用了先進的 MoE 方法進行擴展訓練。但 MoE 也有其侷限性。語言本身非常複雜,至少包含兩類截然不同的任務:組合式推理:需要深層、動態的神經計算,比如理解複雜句子結構或推理問題;知識檢索:大量文字都是高度固定、重複的內容,比如命名實體、固定表達、程式化模式。論文中提出,經典的𝑁-gram 模型已經證明,處理這種局部、重複的語言規律,用“查表”效率最高,幾乎不需要動深層神經網路。然而現在的 Transformer 並沒有這種原生“查表能力”,所以模型每次要識別一個常見的多 token 實體,都要消耗好幾層注意力和前饋網路,這就像在執行階段重複重建一個靜態字典,既浪費計算,又佔用模型的“序列深度”,原本可以用來做更高級的推理。Engram是如何實現的?為瞭解決上述問題,DeepSeek提出了一個新的稀疏化方向——條件記憶,專門用來儲存和尋找固定知識。它和 MoE 的條件計算完全互補:MoE 負責動態推理和組合邏輯;Engram 負責靜態知識,直接查表就行。Engram是神經科學中的一個核心概念,意為“記憶痕跡”,它是一個可擴展、可尋找的記憶模組,用於語言模型在推理過程中過去可能已經見過的模式或片段。在具體實現上,Engram模組通過 O(1) 的尋找複雜度將靜態模式儲存從動態計算中分離出來,採用了四項核心技術:現代化的雜湊 N-gram 嵌入、分詞器壓縮、上下文門控以及多分支融合技術。具體來看:1、分詞器壓縮:預先計算對應函數,將語義等價但 ID 不同的詞項(如 "Apple" 和 "apple")折疊為統一識別碼,將有效詞表大小減少了 23%。· 多頭2、雜湊檢索:利用局部上下文(N-grams)作為鍵,通過雜湊函數在巨大的嵌入表中檢索靜態向量。3、上下文感知門控:這是 Engram 的關鍵創新。利用當前層的隱藏狀態作為 Query,與檢索到的記憶體進行語義匹配。如果檢索內容與上下文矛盾,門控值會趨近於零,從而抑制雜湊衝突帶來的噪聲。4、混合分枝整合:專門針對多分枝架構(如 mHC)進行了最佳化,通過參數共享策略(共享 Embedding 表和 Value 投影,保持獨立 Key 投影)平衡了表達能力與計算效率。Engram 通常會插在 Transformer 的前期層,比如 Layer 2 或 Layer 6。這樣做的好處是:一方面可以把靜態模式的重建工作解除安裝掉,減輕骨幹網路的負擔;另一方面又能保留足夠的上下文資訊,讓門控機制更聰明地判斷那些記憶該用,那些該忽略。Engram 的記憶容量並不是越大越好,它需要和 MoE 專家容量精心配比。按照 Sparsity Allocation(稀疏性分配)法則,合理劃分兩者比例,既保證大模型的參數利用率,又最大化計算效率——簡單來說,就是讓每一份記憶和每一位專家都發揮最大作用。實驗結果很驚豔:推理、程式碼、長上下文能力顯著提升論文把 Engram 擴展到 270 億參數,嚴格對齊 MoE 基線的參數和 FLOPs。結果顯示:知識密集型任務(MMLU、CMMLU、MMLU-Pro):性能提升 1.8–4.0 分不等;通用推理任務(BBH、ARC-Challenge、DROP):提升更明顯,最高 +5 分;程式碼和數學能力(HumanEval、MATH、GSM8K):平均提升 2–3 分。值得注意的是,Engram 在知識密集型任務中明顯優於純 MoE 模型。原因很直觀:它把靜態模式的記憶交給了高效的尋找機制,而不是每次都用神經網路“重算”,減少了淺層的重複計算。更重要的是,Engram也顯著擴展了長上下文能力,在長文字任務(如 LongPPL、RULER)表現突出,尤其是在多跳檢索、鏈式推理等場景中。例如 Multi-Query NIAH 指標從 84.2 提升到 97.0,Variable Tracking 從 77.0 提升到 89.0。原因是 Engram 處理了大量局部、靜態的依賴,釋放了注意力機制去處理全域上下文,從而在長序列中更穩、更準。此外,團隊還發現了 MoE 和 Engram 容量分配中的U形擴展規律:當 Engram 記憶容量太小或太大時,性能都不理想將 20–25% 的稀疏參數分配給 Engram,效果最佳網友:Engram 可能是 DeepSeek-V4 型號的基礎技術!在Reddit、X等平台上,DeepSeek的新論文也立刻引發了網友的熱烈討論。其中最廣泛的一個猜測就是:Engram 可能是即將推出的 DeepSeek-V4 的基礎技術。很多網友認為,Engram這個方法很有趣,其特點在於讓模型架構處理“記憶模式尋找”和“神經計算推理”兩塊職責分離,從而開啟了新的稀疏性方向。也有網友表示,這種方法比線性注意力機制要好得多。DeepSeek的深夜放大招,也讓部分網友直言:中國大模型團隊的創新性真令人害怕。 (51CTO技術堆疊)
梁文鋒署名!DeepSeek再發炸裂論文:提出“條件記憶”新範式,徹底打破GPU推理視訊記憶體牆
當業界紛紛湧入MoE(Mixture-of-Experts)架構以實現高效擴容時,一個根本性的低效問題卻始終存在:強大的Transformer模型,本質上缺乏一種原生的“知識尋找”機制。它們被迫通過複雜的“動態計算”來模擬簡單的“靜態檢索”過程。例如,為了識別“戴安娜王妃”這樣的實體,模型需要消耗多層注意力與前饋網路資源,逐步建構其內部表徵。這無異於用高射炮打蚊子,浪費了寶貴的計算深度來自DeepSeek 的最新論文,為解決這一難題提出了一個全新的稀疏性維度:條件記憶(Conditional Memory)他們推出名為Engram的新模組,它以O(1)的恆定時間複雜度實現了可擴展的知識尋找,作為對MoE“條件計算”的有力補充。通過系統性研究,團隊揭示了一條指導兩種稀疏性權衡的U形縮放定律。依據該定律,他們建構了一個270億參數的Engram模型,在總參數量與計算量(FLOPs)完全相同的情況下,其性能全面超越了純MoE基線。令人矚目的是,這種提升不僅體現在知識密集型任務上(MMLU +3.4),更在通用推理(BBH +5.0)、程式碼(HumanEval +3.0)和數學(MATH +2.4)等領域取得了更大的收益。機理分析表明,Engram通過接管早期層的靜態模式重構任務,有效“加深”了網路,為複雜推理釋放了更多計算資源。同時,它將局部依賴關係的處理委託給尋找操作,從而解放了注意力機制,使其能更專注於全域上下文,極大地提升了模型的長文字處理能力(如Multi-Query NIAH任務得分從84.2提升至97.0)。更重要的是,Engram的設計充分考慮了系統效率。其確定性的尋找機制支援在執行階段從低速的主機記憶體預取資料,幾乎不產生額外開銷,從而打破了GPU視訊記憶體的瓶頸。論文地址:https://github.com/deepseek-ai/Engram語言模型的雙重任務:計算與檢索語言建模包含兩種性質截然不同的子任務:一是需要深度動態計算的組合推理,二是對本地、靜態、高度模式化的文字片段(如命名實體、慣用語)的知識檢索。經典的N-gram模型證明了,後一種任務通過廉價的尋找操作就能高效完成。然而,當前的LLM架構缺少這種原生尋找功能,導致它們必須通過計算來模擬檢索,造成了資源浪費。為了讓模型架構與語言訊號的這種二元性對齊,DeepSeek提出了“條件記憶”這一新的稀疏軸,與MoE的“條件計算”形成互補。• 條件計算 (MoE):稀疏啟動參數,處理動態邏輯。• 條件記憶 (Engram):稀疏尋找操作,檢索靜態知識。研究團隊提出的Engram模組,正是這一理念的具體實現。它以經典的N-gram結構為基礎,並融入了分詞器壓縮、多頭雜湊、上下文門控和多分支整合等現代化改造。Engram架構:兩階段實現高效尋找與融合Engram作為一個條件記憶模組,旨在將靜態模式儲存與動態計算在結構上分離。其工作流程分為兩個核心階段:檢索與融合1. 稀疏檢索:通過雜湊N-grams定位記憶首先,模組需要將局部上下文對應到靜態記憶條目。這包括兩個步驟:分詞器壓縮 (Tokenizer Compression):標準的分詞器常為語義等價的詞分配不同ID(如Apple vs. apple)。為提升語義密度,Engram首先通過一個預計算的對應函數,將原始Token ID壓縮為規範化的ID。多頭雜湊 (Multi-Head Hashing):直接參數化所有N-gram組合是不現實的。Engram採用基於雜湊的方法,為每個N-gram階數(如2-gram, 3-gram)配備K個獨立的雜湊頭,將上下文雜湊到不同嵌入表中的索引,以降低衝突。最終,所有檢索到的嵌入向量被拼接成一個記憶向量et。2. 上下文感知門控與融合檢索到的記憶向量et是靜態的、上下文無關的先驗知識,可能存在雜湊衝突或歧義。為瞭解決這個問題,Engram引入了受注意力機制啟發的上下文感知門控它將當前層的隱藏狀態ht(已聚合了全域資訊)作為Query,將記憶向量et投影為Key和Value。通過計算Query與Key的相似度,生成一個門控標量αt。這個標量決定了檢索到的資訊與當前上下文的匹配程度:如果匹配度低,門控值趨近於0,有效抑制噪聲。最後,通過門控的Value向量會經過一個輕量級的深度因果摺積,以擴大感受野並增強非線性。最終的輸出通過殘差連接融入到Transformer主幹網路中核心發現:稀疏性分配的U形定律為了量化MoE(計算)與Engram(記憶)之間的協同作用,研究人員提出了稀疏性分配問題:在固定的總參數和計算預算下,應如何在這兩者之間分配“稀疏容量”?他們定義了一個分配比例ρ,其中ρ=1代表純MoE模型,ρ<1則代表將一部分原用於MoE專家的參數轉而分配給Engram的嵌入表。實驗在兩個不同的計算規模(2e20和6e20 FLOPs)下進行,結果揭示了一條清晰的U形縮放定律:MoE主導 (ρ → 100%):模型缺乏專門的記憶模組,被迫低效地通過計算重構靜態模式Engram主導 (ρ → 0%):模型喪失了條件計算能力,無法處理需要動態、上下文相關推理的任務最佳平衡點:將大約20%-25%的稀疏參數預算分配給Engram時,模型性能達到最優。這一穩定的U形關係證明了條件計算和條件記憶在結構上的互補性。此外,在“無限記憶體”設定下,單獨增加Engram的記憶槽數量,模型性能也呈現出可預測的對數線性提升,證明了Engram是一個有效的、可獨立擴展的性能提升手段。大規模預訓練:性能全面超越,推理提升更顯著基於上述定律,研究團隊訓練了一系列模型,並與嚴格對等的基線進行比較。所有模型均在262B Tokens上訓練,並保持啟動參數量(3.8B)一致。Engram-27B:總參數26.7B,與MoE-27B基線相同。它將MoE專家的數量從72個減少到55個,並將節約的參數(5.7B)用於建構Engram記憶模組。Engram-40B:在Engram-27B基礎上,進一步將Engram記憶擴展至18.5B參數,總參數達到39.5B。實驗結果(Table 1)表明:1.稀疏模型優於密集模型:所有稀疏變體(MoE與Engram)均顯著優於同等計算量的Dense-4B模型2.Engram全面超越MoE:在參數和計算量完全匹配的情況下,Engram-27B在所有評估維度上都優於MoE-27B3.推理與程式碼數學領域增益尤為突出:雖然Engram在知識任務(如MMLU +3.4, CMMLU +4.0)上表現出色,但其在通用推理(BBH +5.0, ARC-Challenge +3.7)和程式碼數學(HumanEval +3.0, MATH +2.4)上的優勢更為顯著這證明了引入專用的知識尋找原語,能夠極大地提升模型的表徵效率,其益處遠不止於知識檢索本身。Engram如何工作?機理分析揭示“有效深度”增加為了探究Engram的內部工作機制,研究團隊使用了LogitLens和CKA(中心核對齊)兩種可解釋性工具。加速預測收斂:LogitLens分析顯示,與MoE基線相比,Engram模型的淺層網路就能生成更接近最終預測結果的表徵(KL散度更低)。這表明,通過直接尋找知識,Engram減少了模型逐步建構特徵所需的計算步驟提升有效深度:CKA分析則揭示了Engram模型與MoE模型之間的層間表徵相似性。結果顯示,Engram模型的淺層(如第5層)在功能上等價於MoE模型的深層(如第12層)結論很明確:Engram通過顯式尋找繞過了早期的特徵組合階段,在功能上等價於增加了模型的有效深度系統效率:解耦計算與儲存,打破GPU視訊記憶體牆Engram的一個關鍵優勢在於其系統設計。與依賴執行階段隱藏狀態進行動態路由的MoE不同,Engram的尋找索引完全由輸入Token序列決定,具有嚴格的確定性這一特性使得在推理時可以實現高效的 預取-重疊(prefetch-and-overlap) 策略:系統可以在GPU計算前序Transformer塊的同時,非同步地從大容量、低成本的主機記憶體(DRAM)甚至NVMe SSD中預取後續Engram層所需的嵌入。實驗在一個1000億參數的Engram層上進行了驗證。結果顯示,將整個嵌入表解除安裝到主機記憶體,所帶來的吞吐量懲罰峰值僅為2.8%,幾乎可以忽略不計。這證明了Engram能夠有效繞過GPU視訊記憶體限制,以極小的開銷實現參數規模的激進擴展。這意味著可以用較少/較低配的GPU(視訊記憶體有限)來運行一個總參數量極大的模型。這大大降低了模型的部署和使用成本寫在最後DeepSeek AI的Engram工作,為大模型稀疏化設計開闢了一個全新的、與MoE互補的軸線——條件記憶。通過將靜態知識檢索從動態計算中剝離,Engram不僅在知識任務上取得優勢,更在推理、程式碼、數學等複雜任務上實現了超預期的性能提升。這項研究的核心貢獻包括:1. 提出Engram模組:一個可擴展、系統高效的條件記憶實現。2. 發現稀疏分配的U形定律:為平衡計算與記憶提供了理論指導。3. 驗證了架構優勢:在同等參數和計算成本下,混合模型全面超越純MoE模型。4. 揭示了工作機理:Engram通過提升模型的“有效深度”來最佳化表徵效率。研究人員認為,條件記憶應成為下一代稀疏大模型不可或缺的建模原語,為建構更強大、更高效的智能系統鋪平了道路。我彷彿已經看到了v4的影子 (AI寒武紀)
Google Gemini和蘋果的頂級華人科學家離職創業,劍指AGI
【新智元導讀】Google Gemini 資料聯合負責人 Andrew Dai 聯手蘋果首席研究科學家 Yinfei Yang,隱身創辦 AI 新秀 Elorian。首輪將融資 5000 萬美元,劍指「視覺推理」這個下一代大模型的核心問題。矽谷的 AI 創業熱潮中,最昂貴的籌碼永遠押注在最資深的「大腦」上。曾在Google DeepMind 效力長達 14 年的資深研究員 Andrew Dai,正在籌建一家名為 Elorian 的 AI 初創公司。這家尚不為人所知的公司,種子輪融資目標即高達 5000 萬美元。與 Andrew Dai 聯手的,是剛於去年 12 月離職的蘋果研究科學家 Yinfei Yang。這兩位分別來自Google和蘋果的技術老兵,正在試圖解決大模型領域的下一個核心問題:視覺推理(Visual Reasoning)。領投這輪融資的,極有可能是由前 CRV 普通合夥人 Max Gazor 創立的 Striker Venture Partners。如果交易達成,這將是矽谷近期最受矚目的早期融資之一,也再次印證了資本市場對於「Google畢業生」的瘋狂追捧。14 年,從 BERT 早期到 Gemini 幕後在 AI 研究圈,Andrew Dai 這個名字代表著一種「長期主義」。不同於那些在 Transformer 浪潮爆發後才匆匆入局的創業者,Andrew Dai 在Google的工號可以追溯到 2012 年。這意味著他完整經歷了深度學習從邊緣學科走向世界中心的整個周期。在他的 LinkedIn 履歷中,最引人注目的是他作為 Gemini 模型預訓練(Pre-training)資料工作的聯合負責人。在當前的大模型戰爭中,資料質量和預訓練策略被認為是決定模型智商上限的關鍵因素。能夠在這個核心環節擔任負責人,足以證明他在Google內部的權重。Andrew Dai 的學術貢獻不僅限於此。他曾與Google首席科學家 Jeff Dean 以及 Quoc V. Le(Google Brain 的傳奇人物)共同撰寫過多篇論文。早在 2015 年,他發表的一篇關於半監督序列學習(Semi-supervised Sequence Learning)的論文,就被認為對後來 OpenAI 的 GPT 系列模型產生了深遠的啟發。https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf一位熟悉 Andrew Dai 的人士評價道:「他是語言模型的先驅之一,過去二十年一直專注於預訓練相關的研究。他最擅長的,就是如何從海量、嘈雜的資料來源中提煉出高品質的“知識”。」如果說 Andrew Dai 代表了Google在巨量資料處理上的暴力美學,那麼聯合創始人 Yinfei Yang 則帶來了蘋果係的精緻與多模態視角。Yinfei Yang 此前在蘋果機器學習團隊擔任首席研究科學家(Principal Research Scientist),主要參與蘋果自研 AI 模型的開發。在加入蘋果之前,他也曾在 Google Research 工作過四年,專注於多模態表示學習。他在圖像-文字共嵌入(Image-text Co-embedding)領域的專長,恰好填補了單純語言模型的感知短板。視覺推理不只是「看見」,更要「理解」Elorian 究竟想做什麼?根據 Andrew Dai 的說法,Elorian 並不是要再造一個 ChatGPT,而是要建構一個能夠「同時理解和處理文字、圖像、視訊和音訊」的原生多模態模型。目前的 AI 模型大多是基於文字訓練,再通過「補丁」的方式接入視覺能力。而 Elorian 的願景是建構一個天生的「通感者」。這種模型不再是將圖片轉化為文字標籤,而是像人類一樣,通過視覺直接感知物理世界的邏輯。「視覺推理」被認為是通向 AGI 的必經之路。Andrew Dai 提到,機器人將是 Elorian 技術的一個潛在應用場景,但他強調公司的願景遠不止於此。在矽谷的投資人眼中,這通常意味著 Elorian 瞄準的是 AI 智能體的廣闊市場——一個能夠像人類一樣看著電腦螢幕、理解圖形使用者介面(GUI)、處理退貨流程、稽核法律檔案、操作其他軟體的超級助手。它不需要你通過 API 喂給它資料,而是直接像你一樣「看」著 Excel 表格、「聽」著電話錄音,同時「讀」懂螢幕上的郵件,並即時做出決策。這就是 Elorian 試圖建構的未來。資本的邏輯為「血統」買單5000 萬美元的種子輪融資,在幾年前聽起來像是天方夜譚,但在今天的 AI 泡沫中,這似乎成了頂級團隊的「入場費」。正在與 Elorian 洽談領投的 Striker Venture Partners,本身也是一家極具話題性的新銳基金。其創始人 Max Gazor 曾是老牌風投 CRV 的合夥人,以眼光毒辣著稱。他在去年 10 月剛剛自立門戶,Elorian 很可能是該基金成立後的首批標誌性賭注之一。對於 Max Gazor 這樣的投資人來說,他們賭的不僅僅是技術路徑,更是「Google DeepMind + 蘋果」這種稀缺的基因組合。Google提供了大規模訓練基礎設施的經驗,而蘋果則有著將 AI 落地到具體產品的務實文化。Elorian 的出現,也折射出大模型戰場的轉移。第一階段的戰爭是關於「文字生成」,OpenAI 憑藉 ChatGPT 拔得頭籌;第二階段的戰爭則是關於「多模態理解」和「物理世界互動」。在這個新戰場上,無論是 Gemini 還是 GPT,都在瘋狂補課視覺能力。Elorian 作為一個初創公司,想要在巨頭的夾縫中生存,唯一的籌碼就是技術上的代差,或者在垂直場景(如複雜的視覺 Agent)上做到極致。在矽谷,每一個從巨頭出走的頂級研究員,都懷揣著一個「反叛」的夢想:用更小的團隊、更聚焦的資源,去顛覆老東家龐大而遲緩的官僚體系。Andrew Dai 離開了效力 14 年的Google,Yinfei Yang 離開了發佈 Apple 智能的蘋果。他們選擇了一條最艱難的路——試圖教會機器不僅「看見」世界,還要「看懂」世界。這讓人想起電腦視覺領域的一句老話:「攝影機只是眼睛,演算法才是靈魂。」而在 AI 的洪流中,真正稀缺的永遠不是算力,而是那些能夠透過資料的迷霧,看清未來方向的眼睛。 (新智元)
【CES 2026】黃仁勳的推理戰爭-AI推理成本暴跌90%
上一會還在沉浸在機器人,車機在 CES 的震撼(見當科技停止講故事,開始拼執行力:從 CES 2026,看全球科技進入“現即時代”),下一秒拉斯維加斯的CES展會剛結束,那個永遠穿黑色皮衣的老黃——黃仁勳,又讓整個科技圈坐不住了。這次他沒有再站在台上喊"我們的算力有多強",而是拋出了一個更實在的問題:"用AI太貴了,得降價。"聽起來有點像淘寶商家的思路?但這次不一樣。當大家還在為搶到NVIDIA上一代晶片擠破頭時,他直接甩出了下一代平台——Rubin。更關鍵的是,他喊出了一句話:訓練AI的戰爭結束了,接下來打的是推理戰爭。(圖片來源@dotey)01 什麼是"推理戰爭"?先說個簡單的例子。想像你在學開車。"訓練"就是駕校教練一遍遍教你的過程,需要時間和教練的精力。AI公司這幾年就是這麼幹的——砸錢買幾萬塊GPU,沒日沒夜地訓練模型。"推理"就是你自己開車上路,每次看到紅綠燈做判斷、遇到行人踩剎車。這才是AI真正被使用的時候。過去三年,科技巨頭們瘋狂干的事就是"訓練"——花大錢、用成千上萬塊GPU,把ChatGPT、Claude這些模型訓練得越來越聰明。但問題來了:模型是聰明了,真正用的時候太貴了。就像你花100萬請了個世界冠軍教你開車,結果每次出門還得再付100塊"使用費"。出門一趟兩趟還好,天天誰受得了?這就是黃仁勳要解決的問題:讓AI真正用得起。這次CES上,他沒再吹"我們的晶片有多牛",而是一直在講"怎麼把成本打下來"。Rubin平台這次能做到什麼程度?同樣的AI任務,成本只要原來的十分之一。以前花1美元能做的事,現在10美分就夠了。什麼概念?就像你原來打一次車要100塊,現在降到10塊,原本偶爾打打車,現在可能天天打都無所謂。只有算力便宜到這個份上,AI應用才能真正爆發。02 Rubin是怎麼做到的?NVIDIA這次玩了個新花樣。以前顯示卡時代,大家都想著怎麼把單塊顯示卡做更強。有點像小時候搭積木,總想著搭個最高的塔。但黃仁勳說:單塊積木再高也有限制,不如搭個"團隊"。所以Rubin平台一口氣放出了6塊不同的晶片:Rubin GPU:負責"計算"的大腦Vera CPU:負責調度的管家NVLink 6:連接所有晶片的高速公路還有其他幾塊專門負責網路、資料流動的晶片這6塊晶片不是隨便湊一起,而是像一支配合默契的足球隊——前鋒、中場、後衛、守門員各司其職,比一個人單打獨鬥強多了。最終結果呢?整個平台的推理性能達到上一代的5倍。成本反而降到了1/10。這就是"團隊作戰"的威力。特別要說一下NVLink 6。精準地說:NVLink 6是連接多塊GPU的"高速公路",頻寬達到3.6TB/s。它讓多塊GPU能像一塊一樣協同工作,是實現相較於上一代有"5倍性能提升"的關鍵一環,但不是唯一因素。整個5倍提升是6塊晶片一起發力的結果。有點像裝修房子:NVLink 6是寬敞的走廊,讓各房間連接順暢但房子好不好用,還得看客廳、臥室、廚房怎麼配合03 讓AI學會"思考"光有便宜的算力還不夠,AI還得"聰明"。之前很多自動駕駛AI像什麼?像只會條件反射的蟲子。看到紅燈停,看到綠燈行,遇到沒見過的情況就懵了。NVIDIA這次開放原始碼的Alpamayo模型,想教AI學會"思考"。什麼意思?想像你在開車,突然遇到一個壞掉的紅綠燈——既不紅也不綠,就那麼黃燈閃啊閃的。條件反射式的AI會怎麼做?可能直接卡住,因為"題庫"裡沒這題。但真正會"思考"的AI會琢磨:周圍的車在幹嘛?大家都在慢慢通過,看來可以走。但要小心點,隨時準備剎車。這種"琢磨"的過程,就是Alpamayo想教給AI的能力。它加入了"思維鏈"功能,讓AI不再是死記硬背,而是學會像人一樣推理。有人說得挺形象:以前的AI是背題庫,Alpamayo是教機器解題的方法。更關鍵的是,NVIDIA把這個模型開源了——相當於把解題思路免費公開,讓誰都能拿去用。為何這麼做?用黃仁勳的話說:軟體都免費了,開發者想用好,自然就得買NVIDIA的硬體來跑它。這招挺聰明的。就像印表機廠家把印表機賣得很便宜,靠賣墨盒賺錢。NVIDIA是把"墨盒"免費了,但你要用還得買它的"印表機"。04 這對普通人意味著什麼?說了這麼多,跟普通人有啥關係?如果你是個使用者:以後你用的AI應用可能會更便宜。因為算力成本降了,那些靠AI生成的圖片、視訊、客服聊天,價格都可能跟著降。如果你是個開發者:搭AI應用的成本會大幅降低。以前可能因為太貴不敢做的項目,現在可以試試了。而且NVIDIA開源了Alpamayo,你可以直接拿去用,不用從零開始。如果你是投資者:NVIDIA在賭下一個大方向:AI從"實驗室"走向"真實世界"。你看它這次和奔馳合作,直接把整套自動駕駛系統裝到2026年上市的CLA車型上。還在往人形機器人領域使勁。ChatGPT只是AI的開始,真正的大市場是那些能跑、能跳、能幹活的機器。總之,AI可能真的要從"昂貴的高科技玩具"變成"像水電一樣的基礎設施"了。至於這一天什麼時候真正到來?那就看Rubin平台2026年下半年正式出貨後的表現了。05 摩爾定律慢下來了,黃仁勳沒有摩爾定律說的是晶片性能每18個月翻一番。但現在這個定律已經明顯慢下來了——物理快到極限了。但黃仁勳沒有等。從Hopper到Blackwell,再到現在的Rubin,NVIDIA的節奏從來不是等摩爾定律來推自己,而是自己去推摩爾定律。這次CES傳達的訊號很明確:造更聰明的AI時代過去了,接下來要讓AI用得起。這才是AI真正走進千家萬戶的開始。 (白羊武士弗拉明戈)
黃仁勳談 2026:推理變強了,AI 也更會賺錢了
當AI 圈還在爭論有沒有泡沫,黃仁勳已經在算“推理(Reasoning)”能賺多少錢。2026 年 1 月 8 日,播客 No Priors 上,他這樣說:就算 ChatGPT 沒出現,NVIDIA也會贏。這份自信,源於對計算產業的真實判斷。過去十年,摩爾定律逐漸失效,算力不再自動變便宜。所以加速計算從高端選項變成了“產業標配”。當主持人問起 “2025 年 AI 最讓你驚訝”的進展,黃仁勳沒講多模態、也沒講大模型,答案是:模型推理能力的進化,和它如何成為一門可以定價、可以收費的生意。這意味著,AI 的戰場已經從做大模型轉向了賣推理能力。推理到底怎麼賺錢?誰在為推理付費?這個窗口還能開多久?第一節|推理開始能定價,OpenEvidence毛利率90%過去,AI 的強,主要指兩個方向:會寫、會說。從 ChatGPT 到各種聊天機器人,只要能輸出連貫、像人寫的內容,就算是好模型。但到了企業場景,標準變了。他們不在乎會不會聊天,在乎的是:這個 AI 能給我省多少錢、賺多少錢?要讓 AI 輸出值錢,黃仁勳的回答是:推理能力。這個能力不是模型參數再翻幾倍,而是:根據上下文找準問題,在資料不全時推出合理結論,給出能被醫生、律師、工程師放心使用的答案。有了這種能力,AI 給出的結果就能明碼標價了。他舉了幾個例子:OpenEvidence 做醫療搜尋,推理Token的毛利率達到了90%;Harvey 為律師事務所服務,已經在多個大型律所落地使用;甚至 Claude 企業版,企業也願意為它付費。這說明什麼?過去 AI 輸出不穩定,企業不敢付高價;現在推理讓答案可控,按結果收費成為可能。這個變化有兩個訊號值得特別注意:模型本身不再是唯一賣點。會寫文章、會對話只是起點,能推理、能接任務、能給出可驗證的答案,才是企業考慮是否付費的關鍵。企業願意為推理質量付更高的價。OpenEvidence的高毛利率不是靠壓低成本,而是因為醫生真的把它當可信賴資源在用。當AI從助手變成專業工具,定價邏輯就變了。在這個過程中,最早跑出來的不是消費級產品,而是高度專業場景。醫療、法律、科研、工程……這些地方對答案質量要求極高,恰好讓推理有了明確價格。我們第一次看到,推理從模型的一個小能力,變成了能單獨收費的產品。第二節|真正賺錢的是AI工廠,電工工資翻倍了推理能收費了,但這些能賣錢的Token,是怎麼產出來的?黃仁勳把這個生產場所叫作:AI 工廠。這些工廠 24 小時不停地運算、生成推理結果。但要讓 Token 持續產出,背後得有三樣東西支撐:晶片廠:造出最關鍵的計算晶片超級計算中心:搭建大模型運行需要的硬體AI資料中心:一天24小時不停地產生推理結果這三類工廠,正在美國各地大量建設。而建設這些工廠,需要的不只是技術,更是人。黃仁勳說,他第一次看到電工、技術員、水管工的需求漲得這麼快。電工資格證成了熱門證書。有人專門接 AI 工廠的活,一出差就是一個月。建築工人也被拉到這些新工地,很多州開始出現搶人的現象。這是實實在在的變化: 不是模型參數增長,不是論文數量增長, 而是資料中心大量開工、光纜加速鋪設、電費暴漲、崗位激增。AI 不再只是程式碼和演算法,而是開始像傳統工業一樣,有產線、有工人、有產能指標。這場基礎設施建設確實在創造大量就業。但隨之而來的問題是:當AI真正投入使用後,會不會反過來取代人的工作?黃仁勳認為恰恰相反。他舉了放射科醫生的例子:“八年前,AI 教父 Hinton 預言 AI 會徹底改變放射學,放射科醫生將不再被需要。他說對了一半,現在 100% 的放射學應用都是 AI 驅動的。但放射科醫生的數量不減反增。”原因在於:AI 接管的是任務(研究掃描片),但放射科醫生的目的是診斷疾病、做研究、服務更多病人。當 AI 幫他們更快看完掃描片,他們就能接更多病例、做更深入的研究,醫院效率提高了,反而需要雇更多放射科醫生。這個邏輯不只適用於醫生,也適用於所有使用 AI 推理能力的行業:律師用 AI 處理合同,能接更多案子;工程師用 AI 寫程式碼,能開發更多產品;企業用 AI 做決策,能拓展更多業務。所以 AI 提高了效率,但也釋放了需求。不是 AI 取代人,而是 AI 讓人能做更多以前做不了的事。這也是為什麼基礎設施建設本身,就是 2026 年最確定的商業機會之一。而對於那些想用 AI 做應用的人來說,真正的問題是:推理能收費了,接下來該怎麼做?第三節|成本每年降10倍,小公司也有機會既然推理能賣錢,那誰能抓住這個機會?這聽起來像只有大公司才做得到的事。但黃仁勳指出:“生成推理的成本,每年下降10倍。”“落後 6 個月也不怕,成本降了就能趕上。”於是出現了兩種玩法:一方面,大公司還在籌建下一批超算叢集,爭奪供應鏈;另一方面,小公司已經在開源模型上搭建出垂直服務,開始接單賺錢。比如:生物領域有公司在做端到端分子設計工業領域有公司在做機器人抓取放置系統材料科學有公司在做化學構象預測這些小公司都不做萬能助手,而是只解決一類人的剛需問題。黃仁勳形容這是“在一個小池塘裡先做到極致”。這種專注一個場景做到能收錢的方式,才是接下來五年裡,大多數AI創業者最現實的路徑。而讓這條路徑成為可能的,是開源。黃仁勳說:“沒有開源,初創公司、教育、研究都沒法做。傳統企業也做不了AI 轉型。”他甚至說,中國 AI 公司 DeepSeek 去年開放原始碼的訓練方法,是“對美國AI最大的單一貢獻”。因為它讓矽谷所有初創公司都能學到最前沿的技術,大幅降低了進入門檻。降低門檻意味著:不需要從頭訓練大模型,在開源基礎上做垂直最佳化就夠了;不需要燒掉幾億美元,用更小的成本就能驗證需求。但能做,不等於能做成。關鍵在於:你得知道推理在你的場景裡值多少錢,你得願意去一個小市場快速驗證、快速迭代。不是沒模型就做不了AI,而是你得想清楚:你要解決誰的問題?你怎麼把推理包裝成一個值得付費、值得信賴的數字員工?如果還不確定方向,黃仁勳提到了 2026 年三個值得關注的領域:第一,數字生物學將迎來它的 ChatGPT 時刻。蛋白質理解、多蛋白質生成、化學構象……這些領域正在匯聚合成資料、多模態、推理三大能力。Nvidia 最近開放原始碼的模型就是為多蛋白質理解設計的。第二,汽車不再只是感知加規劃,而是會變成推理汽車。當車遇到從未見過的情況時,它能把複雜場景分解成已知情況,通過推理系統導航通過。Nvidia的自動駕駛堆疊剛剛拿到安全評級第一名。第三,人形機器人或多具身機器人將有巨大突破。黃仁勳說“我們開始得太早了”,自動駕駛經歷了四個時代,而機器人正在用現成的端到端模型加推理系統起步,可能不需要10年就能落地。這三個方向的共同點是:推理能力已經成熟,接下來就是誰先把它變成產品。你不需要幾億美元,但你需要找對一個細分場景,一個真實的痛點。窗口期很短,但機會還在。結語|模型再強,不如結果能賣過去講 AI,是講性能、講模型、講誰更像人。現在講 AI,有個很清楚的衡量標準:能不能讓人願意付錢?推理開始值錢,標誌著三個轉變:模型不再只是看起來厲害,而是能落地、能計價;企業不再只問能不能用,而是問值不值錢;創業者不能再幻想做通用助手,得先做個實用工具。AI 行業的競爭重點變了。模型再強,不如結果好賣。 (AI深度研究員)