#AI 推理 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#AI 推理

【北京車展】2026北京車展：座艙AI進入決戰期，火山引擎給出新解法

什麼才是車企願意深度合作、使用者日常高頻使用的座艙AI？4月24日，2026 北京車展正式拉開大幕。經過多年新能源汽車賽道的飛速發展，整車外觀、三電動力、硬體配置的內卷早已漸漸降溫，智能座艙AI成為本屆車展最熱鬧、最核心的必爭賽道。曾有不少從業者向雷峰網坦言，“車展上，你到處可以見到各式各樣的‘龍蝦’。”以“龍蝦”為代表的新一代Agent開始進入車內，代表著AI從“功能控制”轉向“情感陪伴”與“主動服務”。熱鬧之餘，一個最樸素、最本質的問題一直擺在整個行業面前：什麼才是車企願意深度合作、使用者日常高頻使用的座艙AI？PART 1 座艙AI賽道的困局座艙AI並不是一個新概念，至少在大模型問世之前，座艙的互動感和體驗感還遠遠不夠。大模型到來後，讓座艙AI上了一個台階並走出兩條不同的發展路線：通用大模型跨界上車、部分車企自研模型。首先，通用大模型跨界玩家，底層AI功底十分紮實。依託海量網際網路資料訓練，它們在日常聊天、知識問答、長文字理解、多輪對話上能力出眾，雲端算力、語義理解基礎十分強大，能快速搭建起車機基礎語音互動，介面呼叫方便，上線速度快。但問題也很明顯：通用能力很強，可偏偏缺少汽車專屬的行業功底。這類模型日常處理網際網路資訊得心應手，訓練資料大多是百科、資訊、生活常識，對於汽車內部複雜的整車邏輯、細微的車控細節、車內專屬場景、行車過程中的各類專屬需求，瞭解得並不深入。很多用車裡的細碎需求就能直接暴露短板，比如大家日常高頻用到的空調出風口調節、出風角度、座椅精細調節、氛圍燈分區控制等等。使用者隨口說一句 “別讓空調風直吹臉”“只開腳部出風口，關掉側面風口”，很多通用大模型上車方案都沒法精準聽懂，更沒法精準控制硬體。而另一邊是車企自研座艙模型。車企深耕汽車行業多年，整車製造、底盤調校、車身底層權限、車輛全周期資料都是自家優勢，汽車內部所有硬體邏輯、車控協議、功能細節，所有關於車的“know how”，都是沉澱多年的經驗。但想要從零搭建頂級大模型底座難度極高、投入巨大、周期漫長，模型更新速度遠遠趕不上網際網路 AI 的迭代節奏。而且自研模型大多隻適配自家車型，體系相對封閉，想要拓展外部生態、跨車型通用適配，難度不小。簡單總結就是：通用大模型缺車載深度，車企自研缺AI底層上限。行業需要兼有頂級AI底座，又能吃透汽車場景、打通全域智能、能大規模裝車落地的第三條路線。PART 2 如何打造一個可用、好用的座艙AI?2023年左右，業界在探索大模型上車時，火山引擎做的最核心的一件事就是用function call去替換傳統的“意圖分域 + 多 Agent”的語音助手架構。火山引擎副總裁楊立偉火山引擎副總裁楊立偉表示，“在‘車’這麼一個封閉場景裡，有諸多的AI應用彼此獨立，沒有反思、沒有總結、任務不能連貫，手機端和車端不能互聯，是非常不好的體驗。AI，一定要是One Brain（一個大腦聯動整車）的AI。”當時，火山引擎的這一想法十分激進。很多同行直言，“讓一個模型去呼叫1000個外部工具基本做不到。”但這種死磕的做法，也讓火山積累了很多經驗。而第二件事則是，火山引擎開始引入環境變數，知道這些工具在不同的狀態下應該如何用。到了2024年，火山引擎做的主要工作是基於端狀態的車控。例如，窗戶有縫隙或者座椅加熱時，車內的溫度應該如何調整，這裡面就涉及到很多與車廠、車型配置的“know-how”。楊立偉表示，“想讓模型很好的使用所有原子能力，就要給模型比較清晰的定義，讓模型能真正理解它。識別訊號燈顏色、控制空調風速大小，這些能力都需要一起和車廠共同碰撞和共創。”基於海量真實車載場景資料、行車資料、車控指令、車內互動場景，火山引擎對模型做了專門的汽車專項訓練和端側輕量化最佳化。小到空調出風口風向、座椅細微調節、車內各類精細功能控制，大到行車場景、道路環境、駕乘習慣，全部做了深度適配打磨，具備了聯動智駕功能的能力，幫助駕駛Agent更好地理解使用者需求和環境變化。經過數年的打磨，4月24日，北京車展開幕首日，火山引擎發佈基於Agentic AI架構的新一代汽車AI解決方案，將對話推理引擎、目標驅動引擎、學習成長引擎三大引擎融入統一的“汽車大腦”，通過一個AI大腦深度聯動整車，打通車控、智駕、導航、座艙等關鍵功能域，實現“感知 - 推理 - 執行 - 記憶 - 學習”一體化閉環。我們可以設想一個場景：在傳統的座艙AI裡，我們說“後排的孩子是不是睡了”，車機助手會回答“睡了”，沒有後續動作，顯得非常機械。但是，在“基於目標的持續任務”能力加持下，火山引擎的座艙AI助手會做這麼幾件事：首先，AI助手會識別孩子的狀態，如果睡著了，會自主降低空調風速、關閉車窗、調節燈光並放低座椅角度，這就涉及到一些跨域打通的事情，真正像人一樣去做事，把複雜、多步驟、跨場景的事情從頭到尾幫你辦完。其次，如果孩子睡醒了哭鬧，AI助手會根據後排孩子的狀態，選用合適的方式進行陪伴：唱歌、放他最喜歡的動畫片、講故事、做遊戲，想媽媽了模仿媽媽的口吻安撫他。考慮到使用者駕駛狀態，火山引擎的座艙AI助手還會通過生成式UI渲染寶寶的可視化狀態，讓使用者一眼明白。最後，在學習成長引擎的支援下，AI助手會記住並且能在“哄娃”這一個任務執行的過程中沉澱經驗，形成可復用的技能。等到下一次出現“孩子睡覺”和“睡醒哭鬧”的場景時，還會持續記住並保持照顧寶寶的目標。在三大引擎的支撐下，火山引擎的座艙AI更像是一個有智商、有感情、有持續學習能力的“類人”體。值得注意的是，本次車展的“含蝦量”很高，各種座艙AI公司和晶片公司都推出自己的專屬龍蝦。在這股潮流下，火山引擎如何將AI能力輸送給行業？楊立偉表示，火山引擎將以Agentic AI技術為核心提供多元化的合作方案，主要包括AI座艙套件方案、豆包座艙助手方案兩大解決方案。前者可以根據車企需求靈活輸出能力：既可以輸出豆包大模型底層能力，也可以無縫對接整車功能呼叫與全品類知識，還可以輸出火山引擎的互動、工具、生態類的Agent。這就有點類似於樂高積木，大家可以根據需求搭建自己的智能體。後者則是完整的產品級交付，以統一的汽車“大腦”深入聯動整車能力，並與手機豆包APP互聯互通、能力共同進化，年內將有合作車型量產落地。在一些業內人士看來，火山引擎的兩種模式具備更大的“開放性”——頭部車企可以做深度聯合定製，打通全系統能力；中小車企可以輕量化快速接入，低成本完成智能化升級，無需複雜二次開發。楊立偉表示，“兩種方案聚焦做好產品體驗，暫不考慮商業模式與複製問題，而且還會投入高密度的人才持續打磨。”目前，100%主流車企都已攜手火山引擎佈局 AI 創新，能力不侷限於座艙，更是覆蓋座艙、智駕、整車研發、品牌行銷、使用者服務、企業數位化全流程，全方位幫車企做智能化升級。從資料來看，搭載豆包大模型的智能汽車已經突破 700 萬台，覆蓋超 50 個汽車品牌、145 款量產車型，豆包大模型智能車搭載量穩居行業第一，跨品牌適配能力經過大量市場驗證。更關鍵的是真的有人用、高頻在用，豆包大模型日均完成超3000萬次座艙互動和服務閉環。本屆車展期間，梅賽德斯-奔馳純電GLC、上汽奧迪E7X、上汽大眾 ID. ERA 9X、奇瑞星途EX7、一汽紅旗HS6 PHEV、別克至境E7、榮威家越等多款搭載豆包大模型的重磅新車亮相，帶來全新的智能體驗。PART 3 座艙AI行業終將回歸“實用”本質2026年，座艙AI將會是“去魅之年”，從演示泡沫走向實用落地。有調研顯示，智能座艙在購車決策中僅排第9位，這並不表示使用者不重視座艙，而是上一個時代的座艙不夠智能、不夠好用。但隨著汽車智能化程度越來越高，智能座艙的關注度持續升高。擺在我們眼前的一個現實問題：什麼才是車企和使用者真正想要的座艙AI？答案其實很簡單——座艙AI一定要是一個更聰明、更鮮活、更普適的“出行助手”。作為首次登陸北京車展整車館的獨立參展方，火山引擎從以往幕後技術賦能，走到台前完整展示全端能力。站在整個行業視角來看，本屆北京車展也是座艙AI賽道的分水嶺和新的起點。座艙AI終將不再是整車錦上添花的附加功能，慢慢變成汽車與生俱來的核心能力。回望智能汽車產業的迭代之路，從傳統燃油車的“三大件”到新能源時代的智能化升級，行業的核心競爭力早已完成迭代躍遷。如今，一個清晰的行業共識正在形成：智能車的“新三大件”，已然定格為寧德的電池、華為的智駕、火山引擎的智能座艙，三者共同構築起智能汽車的核心競爭力底座，形成了“能量供給-安全駕駛-智能互動”的閉環。未來，隨著“新三大件”成為行業標配，智能汽車將真正擺脫參數內卷，步入“體驗為王”的全新階段。直擊「2026北京車展」車展，是當下全球汽車工業最激烈的競速場。在這裡，不僅僅是新車的更迭，更是智駕晶片、液態電池、大模型上車等前沿技術的秀場。它是技術信徒的朝聖地，也是未來出行方式的預演地。2026北京車展，雷峰網《新智駕》將以專業的視角、及時的訊息，為你拆解每一次技術脈動。20+ 頂級車企動態（華為、小米、比亞迪、蔚來、小鵬、理想...)，1個專題深度搞定。 (新智駕)

爆了！1分鐘養上龍蝦

一覺醒來，身邊的人都在養龍蝦？僅僅不到一周，OpenClaw在中文網際網路世界快速吸引了一波關注，前有上門安裝龍蝦爆賺幾十萬，公司樓下大排長龍，接著大廠們相繼發力推出競品，各省市甚至親自下場送補貼。股市情緒稍微好轉，AI鏈相關產業徹底漲瘋了，雲服務、算力租賃類股連續強勢。港股MiniMax漲超20%，市值再創新高，智譜漲超10%，剛推出WorkBuddy的騰訊因為訪問量太大，算力一下子承受不住還要緊急擴容，盤中一度漲超7%...OpenClaw，難道要複製一把去年DeepSeek？01 全線反彈戲劇性反轉主導了隔夜市場和今天的反彈行情，總結一句話就是：美國總統川普暗示戰事或將結束，這番表態迅速壓制了市場對中東衝突的恐慌預期。油價跌了，納指、歐洲股指全線反彈。亞太更誇張，早盤日經強勁拉升超3%，韓國KOSPI指數飆漲逾6%。期指因盤中漲幅突破5%而觸發熔斷。A股市場也順勢迎來集體高開，風險偏好有所回升。類股方面，光纖、PCB等AI科技成長股集體大漲，早前因避險情緒高漲的石油天然氣與能源裝置類股，則隨著油價回落而集體走弱。與此同時因為OpenClaw走紅，推動算力租賃、雲端運算類股繼續走強，優刻得漲超10%，科華資料、寧波建工漲停，網宿科技、順網科技、青雲科技、金開新能、彩訊股份跟漲。消息面上，今天OpenClaw生態又迎來重磅產品。大模型公司智譜發佈AutoClaw，中文暱稱「澳龍」，直接把OpenClaw打包成一鍵安裝的桌面應用。下載、連按兩下、登錄，1分鐘搞定，直接終結原來大排長龍，甚至花高價養龍蝦的局面。OpenClaw的火爆也傳導至A股公司，目前萬興科技、優刻得-W、順網科技、中科創達、拓維資訊、瑞芯微等公司紛紛公開披露有關OpenClaw的業務動態。在OpenClaw的身上，散戶們彷彿看到了去年DeepSeek的影子。02 OpenClaw 蝴蝶效應OpenClaw（曾用名 Clawdbot、Moltbot）是一款開源AI智能體，因圖示為紅色龍蝦而得名“龍蝦”。（tbbbk）與對話式的大模型產品截然不同，它是一款開源、本地優先的AI Agent框架，通過整合多管道通訊能力與大語言模型，支援在雲端和本地部署。很多人體驗龍蝦的目的，就是為了建構一款自動化的AI個人助手，把需要的權限開放給他，他就能全權接管幫你幹活，符合絕大多數人心目中未來AGI的樣子。發佈僅四個多月，OpenClaw便創造了最快登頂GitHub星標榜的歷史——以超過24.8萬的GitHub星標數，超越Linux成為GitHub平台上最受歡迎的開放原始碼專案。可以說，這是一款具備殺手級應用潛質的產品。Agent框架的實現，讓大模型徹底跳出聊天窗口，擁有自動化執行的能力。和前兩年我們還得在大模型對話窗口上傳檔案和提示詞完全不是一個層次，現在它自己就可以呼叫需要的任何檔案。因為支援在本地儲存配置資料和互動歷史，從而擁有較持久的記憶能力，想要嘗鮮的網友都想要在本地部署，一度把蘋果家的Mac Mini搶斷貨了。這，還只是OpenClaw蝴蝶效應掀起的一點漣漪。但真正讓OpenClaw在中國爆火的，是中國從“Token出海”（算力-電力），大廠親自下場部署、各省市真金白銀政策支援，一周內一系列動態疊加引發了海嘯般的轟動。首先，政策跟進速度快得難以置信。3月7日，深圳龍崗區發佈專項措施，稱為“龍蝦十條”，鼓勵提供免費OpenClaw部署服務，會選出一些應用項目進行獎勵補貼，還將於3月14日下午舉辦“千人龍蝦大會”。大會由龍崗區聯合Kimi共同打造，除Kimi工程師團隊為使用者免費安裝OpenClaw，並行放Kimi Claw免費體驗資格外，Kimi還將上線API龍蝦專屬優惠，提供最高40%的充值返券補貼，助力企業部署龍蝦應用。深圳龍崗之後，無錫、寧波、合肥、常州等市紛紛跟進，也推出了類似的“養龍蝦”政策，鼓勵企業和個人開發者部署。其次，面對這一超級流量入口，網際網路大廠展開了激烈的入口爭奪戰。騰訊雲通過輕量應用伺服器Lighthouse推出5分鐘一鍵部署範本，甚至線上下“擺攤”獲客，引發使用者排隊安裝，據悉雲上“養蝦人”規模迅速突破10萬並持續上升。阿里雲、移動雲、天翼雲、京東雲、火山引擎、百度智能雲在內的中國雲廠商紛紛接入。賦能雲業務顯然未能滿足大廠的目標，它們都能在自己的生態內搭建類似的Agent工具，在模型服務上進行延伸。僅一周，騰訊、字節、阿里、小米火速宣佈推出各自的"小龍蝦"產品。有大模型和算力加持的騰訊WorkBuddy繫結了企業微信，同時無縫接入QQ、飛書、釘釘等工具，中國版可以切換Hunyuan、DeepSeek、GLM、Kimi、MiniMax等大模型。這意味著，那怕你在外通勤，只需掏出手機發條語音，它就能在你的辦公電腦上自動查資料、寫推文，直接交付可驗收的結果。據說，WorkBuddy上線訪問量遠超預期，導致核心服務瞬時壓力過大，公司致歉已緊急擴容10倍。但要說最有參與感的，還是現在的大模型公司。首先在OpenClaw的帶動下，中國國產模型呼叫量在全球平台OpenRouter上交替登頂。“龍蝦”幹活的底層邏輯還是在燒token。而OpenClaw對token的巨額消耗也放大了中國國產模型能力、成本的綜合優勢，帶動中國國產大模型在海外市場的規模化呼叫。除了前面的智譜，MINIMAX也推出了MaxClaw，Kimi推出了KimiClaw，都是主打一個快速部署，以OpenClaw生態接入的先發優勢推動模型的呼叫與使用。03 DeepSeek時刻重演？Token消耗的誇張程度，令到模型公司的算力資源都一度承壓，被市場寄予拉動算力需求的預期，A股算力租賃類股連漲兩日。其中，“Token出海”的敘事引來很大關注。我們在《賽道牛股頻出，下一個千億龍頭是它？》提到過，中國AI模型呼叫量的異軍突起，背後不僅僅是簡單的模型競爭力在贏，背後必須依託龐大且低成本的國家能源基礎設施，向全球AI社區進行著價值輸出。未來決定AI 商業可行性的，並非模型越大越好，而是看推理電效——每一瓦時電力能產出多少推理結果。政策給出了新的解題思路，2026年政府工作報告首提“算電協同”，明確“實施超大規模智算叢集、算電協同等新基建工程”，成為新型基礎設施建設的重要方向。其核心邏輯是通過算力最佳化電力調度、通過電力保障算力需求，實現兩者深度融合。據機構測算，千兆級全球日均token用量對中國電量和電力或有10%等級彈性，對綠證價格、容量電價甚至電量電價的拉動顯著。低估值的綠電，有望充分受益於AIDC清潔能耗需求；根據測算，中國2026-2030年綠電需求增厚4%-33%，利多本就折價的綠證價格。因此，電力類股持續發酵，韶能股份、銀星能源、協鑫能科、國南電瑞、中國西電等表現都很強勢。話又說回來，對於普通使用者來說，養龍蝦可能不會太花電費，但給龍蝦喂token是要花上不少錢的，這是很明顯感受得到的。Token的爆發式增長背後是實打實的算力需求。輝達CEO黃仁勳指出，智能體僅需一系列提示詞，就能執行原本需要大量時間和專業知識的任務，這導致token消耗量激增了約1000倍，直接製造了一個“算力真空”。這個預判基礎建立在，通常情況下，問答類Chatbot每輪對話僅消耗數百Token，但是OpenClaw則需要持續在後台執行任務，包括資訊檢索、文件生成、程式碼編寫、偵錯與最佳化等等，每一步都伴隨著大量的Token消耗。有使用者反映，搜尋資訊、寫一篇2000字文件可燒掉700萬Token；運行一個簡單爬蟲測試竟耗費2900萬Token；單日燒掉5000萬Token的案例屢見不鮮。龍蝦對飼料的需求太大了，模型廠推出的這些定價策略，包月服務也給了優惠，每月提供數萬次的api請求服務看似海量，實際幾天之內就能見底。這一幕的推演，跟2025年年初的DeepSeek如出一轍。便宜的推理成本，雲廠商搶著部署，算力租賃的生意越做越火。但是，OpenClaw並非毫無缺陷，我們現在看到的算力需求暫時是被放大的。迭代至今不到四個月，OpenClaw在Token消耗與實際產出之間的效率比仍有巨大最佳化空間。但我們只是看到了它的成功案例，可能忽視掉絕大多數不成熟的使用體驗，譬如任務執行過程中可能莫名中斷；記憶功能不穩定，有時會“忘記”之前的偏好。更嚴重的，OpenClaw的安全防護機制遠沒有跟上能力擴張的步伐，海外科技大廠已相繼在內部封禁OpenClaw。許多人應該都在猶豫要不要養龍蝦，借OpenClaw的創始人Peter Steinberger的話來說：“如果你不懂命令列，這個項目對你來說風險太大。”總的來說，隨著OpenClaw生態的進一步完善，算力需求的量級躍遷從長期來看很有可能會實現，但短期我們看到的是一個夾雜著許多噪音，過分“神話”的新概念，切勿因FOMO管不住錢包，包括股市。 (格隆匯APP)

AI行業拐點已至？推理算力成新風口

當OpenAI官宣下調千億級算力投資預算，市場一度嘩然：AI產業要踩剎車了？答案恰恰相反——這場看似的“收縮”，實則是行業從瘋狂燒錢的算力軍備競賽，邁入回歸商業本質、聚焦盈利的新階段。而隨著AI應用加速落地，算力需求的結構重構正在上演，推理算力成為新的增長風口，國產AI晶片更是借此迎來了前所未有的發展機遇。OpenAI的“預算下調”，實則是理性的戰略聚焦。此前其提出的2030年前1.4兆美元基建投入，是涵蓋晶片、電力、資料中心等的全產業鏈廣義規劃；而此次調整為6000億美元純算力專項支出，精準聚焦晶片採購與租賃，更與2030年2800億美元的營收目標相契合。這並非算力投入的降溫，而是從“盲目擴張”轉向“投入產出匹配”，就連高盛等機構也直言，這一調整讓訂單確定性更強，更利於行業長期發展。與此同時，全球算力產業鏈的高景氣度並未消退。Meta與輝達達成數十億美元晶片採購協議，大手筆拿下數百萬片最新AI加速晶片，還首次引入輝達CPU部署大模型；OpenAI仍在推進超千億美元融資，90%資金來自輝達、軟銀等頭部戰略投資者。北美雲廠與AI企業的資本開支援續增長，印證了算力需求的底層邏輯依舊堅挺，只是行業發展的重心，正悄然發生轉移。行業的核心變化，在於從“重訓練”到“訓練+推理並重”，推理算力成為新的增長引擎。如果說訓練算力是為大模型“打地基”，需要極致高端的算力支撐，那麼推理算力就是大模型落地應用的“毛細血管”，支撐著每一次使用者互動、每一個場景呼叫。隨著AI應用商業化拐點臨近，推理算力的需求爆發式增長，其市場規模更是被業內看好：2030年全球AI訓練算力市場規模約1兆美元，而推理算力市場將達到4-5兆美元，增速和規模均遠超訓練算力。更關鍵的是，推理算力的需求特性，為國產晶片打開了全新的發展空間。與訓練算力對高端GPU的高度依賴不同，推理算力更講究性價比，注重成本、效率與系統能力的平衡，定製化AI晶片成為破局關鍵。這恰恰是國產晶片的優勢所在——借助ASIC、全端最佳化等技術，國產晶片能在推理賽道建立獨特的競爭壁壘。市場的反饋已經給出答案：國內AI ASIC龍頭芯原股份2025年末在手訂單達50.75億元，較三季度大增54.45%，連續九個季度高位運行；寒武紀、摩爾線程等國產晶片企業紛紛登陸資本市場，壁仞科技、燧原科技加速IPO處理程序，百度崑崙芯也計畫分拆上市；海光資訊憑藉“DCU+CPU”晶片組合，與中科曙光形成產業鏈協同優勢，成為推理算力賽道的重要玩家。就連海外初創公司Taalas的ASIC晶片也印證了這一趨勢，其專為輕量級大模型最佳化的產品，能效較傳統GPU提升50倍，成本僅為1/20，讓定製化晶片的價值愈發凸顯。AI應用的商業化落地，更是為推理算力需求添上了一把火。這個春節，千問“一句話下單”近2億次，日活使用者達7352萬，僅用3個月就追上豆包3年的使用者規模；“AI+醫療”“AI+行銷”“AI+企服”等細分賽道加速落地，利歐集團等企業已打造專屬AI智能體矩陣，推動AI與主業深度融合。當大模型從“實驗室”走向“生活場”，從單一超大模型向“多模型+專用模型+MoE”演進，對推理算力的需求將滲透到千行百業，成為行業增長的核心驅動力。這場行業變革中，真正的機遇早已不再是單純的算力堆砌，而是能匹配商業需求、兼具性價比與實用性的算力解決方案。而推理算力的風口，不僅重構了算力產業鏈的競爭格局，更讓國產晶片擺脫了在高端訓練算力領域的被動局面，憑藉定製化、高性價比的優勢，在全球AI產業中搶佔了屬於自己的賽道。AI行業從未停下腳步，只是換了更務實的前行方式。當回歸商業本質成為主旋律，推理算力的爆發式增長已然開啟，而國產AI晶片，正站在這場變革的黃金風口上，迎來屬於自己的發展春天。 (元宇宙與人工智慧三十人論壇)

Gemini 3.1 Pro突襲：推理能力翻倍，Google打響AI"小步快跑"第一槍

引言當行業還在期待GPT-5.3時，Google用一場".1"版本號革命重新定義了AI迭代節奏。2026年2月24日凌晨，Google突然發佈Gemini 3.1 Pro大模型，這是其首次採用".1"小版本號，但升級幅度卻遠超預期。在ARC-AGI-2基準測試中，Gemini 3.1 Pro得分77.1%，是Gemini 3 Pro（31.1%）的2倍還多。這一突破不僅刷新了Google自身的技術紀錄，更標誌著大模型行業正式進入"高頻小步快跑"的新時代。更關鍵的是定價策略：每百萬token輸入僅2美元，輸出10美元，這一價格直接對標Anthropic Sonnet 4.6，在保持性能領先的同時實現了成本的大幅最佳化。Google用行動證明，AI競爭不再是"參數軍備競賽"，而是"效率與速度的比拚"。01 技術突破：推理能力的量子躍遷Gemini 3.1 Pro最引人注目的突破在於推理能力的翻倍提升。傳統大模型升級往往聚焦於參數規模或多模態能力，而Google此次選擇了更艱難的路徑——從根本上提升模型的邏輯推理和問題解決能力。ARC-AGI-2基準測試的77.1%得分意味著什麼？這一測試專門評估AI系統的抽象推理能力，要求模型從有限示例中歸納出通用規則，並應用於全新場景。77.1%的得分不僅超越了所有前代Gemini模型，更接近了人類專家的表現水平。對比之下，GPT-5.2在同一測試中的得分為68.3%，Claude Opus 4.6為72.8%。多模態能力的全面進化同樣令人印象深刻。Gemini 3.1 Pro支援100萬token超長上下文窗口，能夠一次性處理整本書等級的文件或大型程式碼庫。在創意程式設計方面，模型能夠直接生成3D版"椋鳥群飛"動畫，並支援手勢追蹤互動，實現了從靜態內容生成到動態互動體驗的跨越。vibe coding能力的同步增強為開發者帶來了全新體驗。模型能夠更好地理解程式碼背後的設計意圖和架構邏輯，而不僅僅是語法正確性。實測資料顯示，在處理複雜演算法重構、架構最佳化等任務時，Gemini 3.1 Pro的精準率比前代提升45%。02 行業意義：從"整數版本"到".1迭代"的範式轉變Google首次採用".1"小版本號，這一看似微小的變化背後，是AI行業發展邏輯的根本性轉變。高頻小步快跑成為新常態。傳統上，大模型迭代以整數版本為單位，升級周期長達數月甚至半年。Gemini 3.1 Pro的發佈預示著，未來AI能力的進化將更加頻繁、更加精細。預計未來6個月內，我們將看到更多".1"、".2"等級的快速迭代，而非傳統的整數版本更新。企業應用更新機製麵臨重構。對於依賴AI服務的企業而言，這意味著需要建立更敏捷的AI應用更新機制。傳統"一年一升級"的節奏將被打破，企業需要能夠快速適配模型能力的持續最佳化，保持競爭優勢。技術競爭維度更加多元。當版本迭代頻率提升，競爭不再侷限於"誰先發佈大版本"，而是"誰能持續提供最優體驗"。這要求廠商在模型最佳化、工程效率、生態建設等多個維度保持領先。使用者受益程度顯著提升。更頻繁的迭代意味著使用者能夠更快享受到技術進步帶來的價值。無論是開發者工具的增強，還是消費級應用的體驗最佳化，都將以更快的節奏呈現給終端使用者。03 定價策略：性能領先下的成本最佳化Gemini 3.1 Pro的定價策略同樣體現了Google的戰略思考。每百萬token輸入2美元、輸出10美元的價格，在保持性能領先的同時，實現了對競品的成本優勢。對比分析顯示：相比Anthropic Sonnet 4.6（輸入3美元、輸出15美元），Gemini 3.1 Pro便宜33%相比OpenAI GPT-5.2 Turbo（輸入5美元、輸出15美元），成本優勢更加明顯在相同預算下，企業可以處理更多token量，實現更高的投入產出比中小企業市場成為重點。傳統高性能AI服務主要被大型企業壟斷，而Gemini 3.1 Pro的親民定價，意味著更多中小企業能夠負擔得起頂尖AI能力。這對於加速AI技術普惠、推動行業數位化轉型具有重要意義。開發者生態的吸引力增強。對於個人開發者和初創團隊而言，成本是選擇AI服務的關鍵考量。Gemini 3.1 Pro的性價比優勢，將吸引更多開發者加入Google生態，推動應用創新的繁榮。04 生態佈局：從模型到應用的全鏈路最佳化Gemini 3.1 Pro的發佈不是孤立事件，而是GoogleAI生態戰略的重要一環。Gemini App已全面上線。普通使用者可以通過Gemini App直接體驗新模型，享受比前代更精準的複雜問題解答能力。實測顯示，在處理數學證明、邏輯推理、專業諮詢等任務時，新模型的精準率和響應速度均有顯著提升。API服務的全面升級。開發者可以通過Gemini API快速接入新模型，享受推理能力翻倍帶來的效率提升。Google同時最佳化了API的穩定性和響應速度，確保企業級應用的高可用性。多模態創作工具鏈完善。結合Gemini 3.1 Pro強大的多模態能力，Google推出了全新的創意工具套件，支援"文生視訊+互動"的新型內容形式。這對於內容創作者、教育工作者、行銷人員等群體具有重要價值。企業級解決方案深化。針對金融、醫療、法律等垂直行業，Google提供了基於Gemini 3.1 Pro的定製化解決方案，幫助企業在保持資料安全的前提下，享受AI技術帶來的效率提升。05 競爭格局：三巨頭技術路線的分化Gemini 3.1 Pro的發佈，進一步凸顯了AI三巨頭技術路線的分化。Google的"推理優先"路線。通過持續最佳化模型的邏輯推理能力，Google正在建構差異化的技術優勢。在需要複雜問題解決、專業諮詢、科學計算等場景中，Gemini系列的表現日益突出。OpenAI的"通用能力"路線。GPT系列繼續強化其通用性和適應性，在保持各方面能力均衡的同時，通過規模效應降低成本。但整數版本迭代周期較長，可能面臨敏捷性挑戰。Anthropic的"安全與專業"路線。Claude系列在AI安全、專業任務處理上持續深耕，特別是在程式碼安全、法律合規等垂直領域建立了獨特優勢。但定價相對較高，可能限制其規模化應用。國產大模型的追趕壓力。雖然DeepSeek、智譜GLM-5等國產模型在特定領域表現出色，但在推理能力的系統性提升上仍需追趕。Gemini 3.1 Pro的發佈，為國產模型提供了重要的技術參考和競爭標竿。06 實測體驗：從"工具"到"思維夥伴"的進化對於一線使用者而言，Gemini 3.1 Pro帶來的體驗升級是實實在在的。複雜問題處理能力顯著提升。在測試中，模型能夠準確解答研究生等級的數學證明題，理解複雜的法律條文邏輯，提供專業的醫療諮詢建議。這種能力的提升，讓AI從簡單的資訊檢索工具，進化為真正的"思維夥伴"。長文件理解更加精準。得益於100萬token的上下文窗口，模型能夠準確理解整本書、大型程式碼庫、複雜研究報告的內容。在處理學術論文審稿、程式碼架構評審等任務時，表現接近人類專家水平。創意表達更加豐富。在內容創作測試中，模型不僅能夠生成高品質的文字內容，還能夠創作互動式動畫、設計複雜的資料可視化圖表、製作專業的簡報。這種多模態創作能力，為創意工作者提供了全新的工具。響應速度持續最佳化。官方資料顯示，Gemini 3.1 Pro的響應時間相比前代縮短30%，在處理複雜推理任務時，使用者能夠感受到明顯的流暢度提升。也看到了Gemini新增的製作音樂模組（終於有人挑戰suno了），試了一下做一首30秒的武俠歌曲，完成度也很不錯。gemini給我做的國風武俠電影主題曲07 未來展望：AI發展的新節奏與新挑戰Gemini 3.1 Pro的發佈，不僅是一個產品的升級，更預示著AI行業發展的新節奏。技術迭代的加速度。".1"版本號的出現，意味著技術進步的顆粒度更加精細，迭代頻率更加密集。這要求整個行業建立更加敏捷的研發體系、更加靈活的部署架構、更加智能的測試方法。應用創新的新機遇。更強大的推理能力，將催生更多創新應用場景。從智能教育輔導到專業諮詢服務，從科學計算輔助到複雜決策支援，AI的應用邊界將持續擴展。人才需求的結構性變化。隨著AI能力的快速進化，對AI人才的需求將從"模型訓練專家"向"應用創新專家"轉變。能夠將AI能力與行業需求深度結合的人才，將成為市場的新寵。倫理治理的緊迫性。更強大的推理能力，也帶來了新的倫理挑戰。如何確保AI系統的決策透明、公平、可控，將成為行業必須面對的重要課題。結語Google的這次".1版本突襲"，表面上是技術升級，深層則是行業競爭邏輯的根本性轉變。當AI發展從"整數版本躍進"轉向"小數版本迭代"，整個行業的節奏、格局、規則都將被重新定義。推理能力的翻倍提升，不僅僅是技術參數的最佳化，更是AI從"資訊處理工具"向"智能思維夥伴"進化的重要里程碑。在這個AI重新定義一切的時代，能夠率先突破推理瓶頸、建構持續最佳化能力的企業，將掌握下一個階段的發展主動權。真正的競爭才剛剛開始。技術優勢需要轉化為生態優勢，單點突破需要擴展為系統領先。對於全球AI產業而言，Gemini 3.1 Pro的發佈既是挑戰，也是機遇。在這個AI從"炫技"走向"實用"的關鍵轉折點，能夠平衡技術創新與商業落地的企業，將引領行業進入更加成熟、務實的新階段。當矽谷醒來時，會發現AI競爭的規則已經改變。這場始於".1版本號"的技術革命，或許將開啟全球AI發展的新篇章——一個更加注重實用性、可及性和可持續性的新篇章。 (遊戲AI說)

【CES 2026】黃仁勳的推理戰爭-AI推理成本暴跌90%

上一會還在沉浸在機器人，車機在 CES 的震撼（見當科技停止講故事，開始拼執行力：從 CES 2026，看全球科技進入“現即時代”），下一秒拉斯維加斯的CES展會剛結束，那個永遠穿黑色皮衣的老黃——黃仁勳，又讓整個科技圈坐不住了。這次他沒有再站在台上喊"我們的算力有多強"，而是拋出了一個更實在的問題："用AI太貴了，得降價。"聽起來有點像淘寶商家的思路？但這次不一樣。當大家還在為搶到NVIDIA上一代晶片擠破頭時，他直接甩出了下一代平台——Rubin。更關鍵的是，他喊出了一句話：訓練AI的戰爭結束了，接下來打的是推理戰爭。（圖片來源@dotey）01 什麼是"推理戰爭"？先說個簡單的例子。想像你在學開車。"訓練"就是駕校教練一遍遍教你的過程，需要時間和教練的精力。AI公司這幾年就是這麼幹的——砸錢買幾萬塊GPU，沒日沒夜地訓練模型。"推理"就是你自己開車上路，每次看到紅綠燈做判斷、遇到行人踩剎車。這才是AI真正被使用的時候。過去三年，科技巨頭們瘋狂干的事就是"訓練"——花大錢、用成千上萬塊GPU，把ChatGPT、Claude這些模型訓練得越來越聰明。但問題來了：模型是聰明了，真正用的時候太貴了。就像你花100萬請了個世界冠軍教你開車，結果每次出門還得再付100塊"使用費"。出門一趟兩趟還好，天天誰受得了？這就是黃仁勳要解決的問題：讓AI真正用得起。這次CES上，他沒再吹"我們的晶片有多牛"，而是一直在講"怎麼把成本打下來"。Rubin平台這次能做到什麼程度？同樣的AI任務，成本只要原來的十分之一。以前花1美元能做的事，現在10美分就夠了。什麼概念？就像你原來打一次車要100塊，現在降到10塊，原本偶爾打打車，現在可能天天打都無所謂。只有算力便宜到這個份上，AI應用才能真正爆發。02 Rubin是怎麼做到的？NVIDIA這次玩了個新花樣。以前顯示卡時代，大家都想著怎麼把單塊顯示卡做更強。有點像小時候搭積木，總想著搭個最高的塔。但黃仁勳說：單塊積木再高也有限制，不如搭個"團隊"。所以Rubin平台一口氣放出了6塊不同的晶片：Rubin GPU：負責"計算"的大腦Vera CPU：負責調度的管家NVLink 6：連接所有晶片的高速公路還有其他幾塊專門負責網路、資料流動的晶片這6塊晶片不是隨便湊一起，而是像一支配合默契的足球隊——前鋒、中場、後衛、守門員各司其職，比一個人單打獨鬥強多了。最終結果呢？整個平台的推理性能達到上一代的5倍。成本反而降到了1/10。這就是"團隊作戰"的威力。特別要說一下NVLink 6。精準地說：NVLink 6是連接多塊GPU的"高速公路"，頻寬達到3.6TB/s。它讓多塊GPU能像一塊一樣協同工作，是實現相較於上一代有"5倍性能提升"的關鍵一環，但不是唯一因素。整個5倍提升是6塊晶片一起發力的結果。有點像裝修房子：NVLink 6是寬敞的走廊，讓各房間連接順暢但房子好不好用，還得看客廳、臥室、廚房怎麼配合03 讓AI學會"思考"光有便宜的算力還不夠，AI還得"聰明"。之前很多自動駕駛AI像什麼？像只會條件反射的蟲子。看到紅燈停，看到綠燈行，遇到沒見過的情況就懵了。NVIDIA這次開放原始碼的Alpamayo模型，想教AI學會"思考"。什麼意思？想像你在開車，突然遇到一個壞掉的紅綠燈——既不紅也不綠，就那麼黃燈閃啊閃的。條件反射式的AI會怎麼做？可能直接卡住，因為"題庫"裡沒這題。但真正會"思考"的AI會琢磨：周圍的車在幹嘛？大家都在慢慢通過，看來可以走。但要小心點，隨時準備剎車。這種"琢磨"的過程，就是Alpamayo想教給AI的能力。它加入了"思維鏈"功能，讓AI不再是死記硬背，而是學會像人一樣推理。有人說得挺形象：以前的AI是背題庫，Alpamayo是教機器解題的方法。更關鍵的是，NVIDIA把這個模型開源了——相當於把解題思路免費公開，讓誰都能拿去用。為何這麼做？用黃仁勳的話說：軟體都免費了，開發者想用好，自然就得買NVIDIA的硬體來跑它。這招挺聰明的。就像印表機廠家把印表機賣得很便宜，靠賣墨盒賺錢。NVIDIA是把"墨盒"免費了，但你要用還得買它的"印表機"。04 這對普通人意味著什麼？說了這麼多，跟普通人有啥關係？如果你是個使用者：以後你用的AI應用可能會更便宜。因為算力成本降了，那些靠AI生成的圖片、視訊、客服聊天，價格都可能跟著降。如果你是個開發者：搭AI應用的成本會大幅降低。以前可能因為太貴不敢做的項目，現在可以試試了。而且NVIDIA開源了Alpamayo，你可以直接拿去用，不用從零開始。如果你是投資者：NVIDIA在賭下一個大方向：AI從"實驗室"走向"真實世界"。你看它這次和奔馳合作，直接把整套自動駕駛系統裝到2026年上市的CLA車型上。還在往人形機器人領域使勁。ChatGPT只是AI的開始，真正的大市場是那些能跑、能跳、能幹活的機器。總之，AI可能真的要從"昂貴的高科技玩具"變成"像水電一樣的基礎設施"了。至於這一天什麼時候真正到來？那就看Rubin平台2026年下半年正式出貨後的表現了。05 摩爾定律慢下來了，黃仁勳沒有摩爾定律說的是晶片性能每18個月翻一番。但現在這個定律已經明顯慢下來了——物理快到極限了。但黃仁勳沒有等。從Hopper到Blackwell，再到現在的Rubin，NVIDIA的節奏從來不是等摩爾定律來推自己，而是自己去推摩爾定律。這次CES傳達的訊號很明確：造更聰明的AI時代過去了，接下來要讓AI用得起。這才是AI真正走進千家萬戶的開始。 (白羊武士弗拉明戈)

黃仁勳談 2026：推理變強了，AI 也更會賺錢了

當AI 圈還在爭論有沒有泡沫，黃仁勳已經在算“推理（Reasoning）”能賺多少錢。2026 年 1 月 8 日，播客 No Priors 上，他這樣說：就算 ChatGPT 沒出現，NVIDIA也會贏。這份自信，源於對計算產業的真實判斷。過去十年，摩爾定律逐漸失效，算力不再自動變便宜。所以加速計算從高端選項變成了“產業標配”。當主持人問起 “2025 年 AI 最讓你驚訝”的進展，黃仁勳沒講多模態、也沒講大模型，答案是：模型推理能力的進化，和它如何成為一門可以定價、可以收費的生意。這意味著，AI 的戰場已經從做大模型轉向了賣推理能力。推理到底怎麼賺錢？誰在為推理付費？這個窗口還能開多久？第一節｜推理開始能定價，OpenEvidence毛利率90%過去，AI 的強，主要指兩個方向：會寫、會說。從 ChatGPT 到各種聊天機器人，只要能輸出連貫、像人寫的內容，就算是好模型。但到了企業場景，標準變了。他們不在乎會不會聊天，在乎的是：這個 AI 能給我省多少錢、賺多少錢？要讓 AI 輸出值錢，黃仁勳的回答是：推理能力。這個能力不是模型參數再翻幾倍，而是：根據上下文找準問題，在資料不全時推出合理結論，給出能被醫生、律師、工程師放心使用的答案。有了這種能力，AI 給出的結果就能明碼標價了。他舉了幾個例子：OpenEvidence 做醫療搜尋，推理Token的毛利率達到了90%；Harvey 為律師事務所服務，已經在多個大型律所落地使用；甚至 Claude 企業版，企業也願意為它付費。這說明什麼？過去 AI 輸出不穩定，企業不敢付高價；現在推理讓答案可控，按結果收費成為可能。這個變化有兩個訊號值得特別注意：模型本身不再是唯一賣點。會寫文章、會對話只是起點，能推理、能接任務、能給出可驗證的答案，才是企業考慮是否付費的關鍵。企業願意為推理質量付更高的價。OpenEvidence的高毛利率不是靠壓低成本，而是因為醫生真的把它當可信賴資源在用。當AI從助手變成專業工具，定價邏輯就變了。在這個過程中，最早跑出來的不是消費級產品，而是高度專業場景。醫療、法律、科研、工程……這些地方對答案質量要求極高，恰好讓推理有了明確價格。我們第一次看到，推理從模型的一個小能力，變成了能單獨收費的產品。第二節｜真正賺錢的是AI工廠，電工工資翻倍了推理能收費了，但這些能賣錢的Token，是怎麼產出來的？黃仁勳把這個生產場所叫作：AI 工廠。這些工廠 24 小時不停地運算、生成推理結果。但要讓 Token 持續產出，背後得有三樣東西支撐：晶片廠：造出最關鍵的計算晶片超級計算中心：搭建大模型運行需要的硬體AI資料中心：一天24小時不停地產生推理結果這三類工廠，正在美國各地大量建設。而建設這些工廠，需要的不只是技術，更是人。黃仁勳說，他第一次看到電工、技術員、水管工的需求漲得這麼快。電工資格證成了熱門證書。有人專門接 AI 工廠的活，一出差就是一個月。建築工人也被拉到這些新工地，很多州開始出現搶人的現象。這是實實在在的變化：不是模型參數增長，不是論文數量增長，而是資料中心大量開工、光纜加速鋪設、電費暴漲、崗位激增。AI 不再只是程式碼和演算法，而是開始像傳統工業一樣，有產線、有工人、有產能指標。這場基礎設施建設確實在創造大量就業。但隨之而來的問題是：當AI真正投入使用後，會不會反過來取代人的工作？黃仁勳認為恰恰相反。他舉了放射科醫生的例子：“八年前，AI 教父 Hinton 預言 AI 會徹底改變放射學，放射科醫生將不再被需要。他說對了一半，現在 100% 的放射學應用都是 AI 驅動的。但放射科醫生的數量不減反增。”原因在於：AI 接管的是任務（研究掃描片），但放射科醫生的目的是診斷疾病、做研究、服務更多病人。當 AI 幫他們更快看完掃描片，他們就能接更多病例、做更深入的研究，醫院效率提高了，反而需要雇更多放射科醫生。這個邏輯不只適用於醫生，也適用於所有使用 AI 推理能力的行業：律師用 AI 處理合同，能接更多案子；工程師用 AI 寫程式碼，能開發更多產品；企業用 AI 做決策，能拓展更多業務。所以 AI 提高了效率，但也釋放了需求。不是 AI 取代人，而是 AI 讓人能做更多以前做不了的事。這也是為什麼基礎設施建設本身，就是 2026 年最確定的商業機會之一。而對於那些想用 AI 做應用的人來說，真正的問題是：推理能收費了，接下來該怎麼做？第三節｜成本每年降10倍，小公司也有機會既然推理能賣錢，那誰能抓住這個機會？這聽起來像只有大公司才做得到的事。但黃仁勳指出：“生成推理的成本，每年下降10倍。”“落後 6 個月也不怕，成本降了就能趕上。”於是出現了兩種玩法：一方面，大公司還在籌建下一批超算叢集，爭奪供應鏈；另一方面，小公司已經在開源模型上搭建出垂直服務，開始接單賺錢。比如：生物領域有公司在做端到端分子設計工業領域有公司在做機器人抓取放置系統材料科學有公司在做化學構象預測這些小公司都不做萬能助手，而是只解決一類人的剛需問題。黃仁勳形容這是“在一個小池塘裡先做到極致”。這種專注一個場景做到能收錢的方式，才是接下來五年裡，大多數AI創業者最現實的路徑。而讓這條路徑成為可能的，是開源。黃仁勳說：“沒有開源，初創公司、教育、研究都沒法做。傳統企業也做不了AI 轉型。”他甚至說，中國 AI 公司 DeepSeek 去年開放原始碼的訓練方法，是“對美國AI最大的單一貢獻”。因為它讓矽谷所有初創公司都能學到最前沿的技術，大幅降低了進入門檻。降低門檻意味著：不需要從頭訓練大模型，在開源基礎上做垂直最佳化就夠了；不需要燒掉幾億美元，用更小的成本就能驗證需求。但能做，不等於能做成。關鍵在於：你得知道推理在你的場景裡值多少錢，你得願意去一個小市場快速驗證、快速迭代。不是沒模型就做不了AI，而是你得想清楚：你要解決誰的問題？你怎麼把推理包裝成一個值得付費、值得信賴的數字員工？如果還不確定方向，黃仁勳提到了 2026 年三個值得關注的領域：第一，數字生物學將迎來它的 ChatGPT 時刻。蛋白質理解、多蛋白質生成、化學構象……這些領域正在匯聚合成資料、多模態、推理三大能力。Nvidia 最近開放原始碼的模型就是為多蛋白質理解設計的。第二，汽車不再只是感知加規劃，而是會變成推理汽車。當車遇到從未見過的情況時，它能把複雜場景分解成已知情況，通過推理系統導航通過。Nvidia的自動駕駛堆疊剛剛拿到安全評級第一名。第三，人形機器人或多具身機器人將有巨大突破。黃仁勳說“我們開始得太早了”，自動駕駛經歷了四個時代，而機器人正在用現成的端到端模型加推理系統起步，可能不需要10年就能落地。這三個方向的共同點是：推理能力已經成熟，接下來就是誰先把它變成產品。你不需要幾億美元，但你需要找對一個細分場景，一個真實的痛點。窗口期很短，但機會還在。結語｜模型再強，不如結果能賣過去講 AI，是講性能、講模型、講誰更像人。現在講 AI，有個很清楚的衡量標準：能不能讓人願意付錢？推理開始值錢，標誌著三個轉變：模型不再只是看起來厲害，而是能落地、能計價；企業不再只問能不能用，而是問值不值錢；創業者不能再幻想做通用助手，得先做個實用工具。AI 行業的競爭重點變了。模型再強，不如結果好賣。 (AI深度研究員)

【CES 2026】黃仁勳炸場：全新Rubin平台量產，AI推理成本降至十分之一，發佈Alpamayo自動駕駛AI模型家族，與奔馳開展首個全端自動駕駛合作

黃仁勳 CES 2026主題演講：全新Rubin平台正式量產，AI推理成本降至十分之一，推進機器人和自動駕駛生態，發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作1. Nvidia與奔馳合作推出Level 2自動駕駛系統,2026年大規模商用要點一:舊金山路測表現出色,可與特斯拉FSD競爭Nvidia在CES 2026上展示了其全新的點對點Level 2駕駛輔助系統,在舊金山約40分鐘的實際道路測試中,該系統搭載在2026款奔馳CLA轎車上,成功應對了複雜的城市交通場景,包括交通訊號燈、四向停車標誌、雙排停車車輛和無保護左轉等情況。Nvidia汽車部門負責人Xinzhou Wu透露,該系統在城市駕駛中的人工接管次數與特斯拉FSD相當,但特斯拉用了約8年才實現城市駕駛功能,而Nvidia預計在約1年內就能達成同樣目標。The Verge要點二:2026年分階段推出,2027-2028年推進L4自動駕駛根據Nvidia的產品路線圖,2026年上半年將發佈支援高速公路和城市駕駛的Level 2系統,包括自動變道、停車標誌和交通訊號識別等功能;下半年將增加自動泊車能力,年底前將覆蓋整個美國。該系統基於Drive AGX Orin晶片,2026年計畫開展小規模L4等級試點,2027年將實現合作夥伴機器人計程車部署,2028年將進入個人擁有的自動駕駛汽車。奔馳CEO Ola Kallenius表示,與Nvidia合作的核心在於安全性,強調"駕駛一個重達4000磅、時速50英里的物體,抱歉是不夠的,必須要有更高的確定性和安全性。"The Verge2. Nvidia發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作要點一:推出業內首個開源推理型自動駕駛AI模型Nvidia在CES 2026上宣佈推出Alpamayo系列自動駕駛AI模型、工具和資料集,這是專為Level 4自動駕駛設計的推理型視覺-語言-行動(VLA)模型,能夠讓車輛像人類一樣感知、推理和行動。該系列包括Alpamayo-1(一個擁有100億參數的鏈式思考VLA模型,已在Hugging Face開源)、AlpaSim(開源端到端模擬框架)以及超過1,700小時駕駛資料的物理AI開放資料集。該模型不僅能接收感測器輸入並控制方向盤、剎車和加速,還能對即將採取的行動進行推理。Constellation Research要點二:奔馳成為首個商用合作夥伴,2026年一季度上路Nvidia CEO黃仁勳宣佈,搭載Alpamayo的首款乘用車將是全新奔馳CLA,該車將採用Nvidia DRIVE全端自動駕駛平台,預計2026年第一季度在美國道路上推出。這一合作歷時至少5年,投入數千名工程師,建構了完整的垂直整合系統。奔馳CLA最近獲得了EuroNCAP五星安全評級。黃仁勳表示:"Nvidia將長期支援這些模型和自動駕駛系統,因為自動駕駛工作是通向機器人技術的橋樑。"此外,Lucid、捷豹路虎、Uber和伯克利DeepDrive也對Alpamayo表示出濃厚興趣。Nvidia Blog | Constellation Research3. 波士頓動力與GoogleDeepMind達成AI合作,Gemini機器人模型將整合至Atlas人形機器人要點一:雙方聯合研發,提升人形機器人物體操控和工業任務能力波士頓動力和GoogleDeepMind在CES 2026上宣佈建立新的AI合作夥伴關係,旨在將DeepMind的Gemini Robotics基礎模型整合到波士頓動力的新一代Atlas人形機器人中。該合作將結合波士頓動力的運動智能與DeepMind的基礎AI能力,重點使人形機器人能夠完成各種工業任務,預計將成為製造業轉型的驅動力,首先從汽車行業開始。聯合研究工作預計將在未來幾個月內在兩家公司同時展開。Boston Dynamics要點二:利用多模態基礎模型,讓機器人具備感知、推理和人機互動能力波士頓動力Atlas項目機器人行為總監Alberto Rodriguez表示:"我們正在打造世界上最強大的人形機器人,我們需要一個能夠幫助我們建立新型視覺-語言-行動模型的合作夥伴,用於這些複雜的機器人。在全世界範圍內,沒有人比DeepMind更適合建構可以安全、高效地部署在各種任務和行業的可靠、可擴展模型。"DeepMind機器人技術高級總監Carolina Parada表示,Gemini Robotics模型基於大規模多模態Gemini模型建構,旨在讓任何形狀和大小的機器人都能感知、推理、使用工具並與人類互動。該合作由波士頓動力的大股東現代汽車集團支援。Boston Dynamics4. Nvidia CES 2026主題演講:發佈Rubin平台,AI算力提升5倍,推進機器人和自動駕駛生態要點一:全新Rubin平台正式量產,AI推理成本降至十分之一Nvidia CEO黃仁勳在CES 2026主題演講中宣佈,公司首個極致協同設計的六晶片AI平台Rubin已進入全面量產。該平台包括Rubin GPU(提供50 petaflops的NVFP4推理性能)、Vera CPU(專為資料移動和智能體處理設計)、NVLink 6擴展網路、Spectrum-X乙太網路光子學、ConnectX-9 SuperNIC和BlueField-4 DPU。Rubin平台承諾將AI token成本降低到原來的十分之一,訓練混合專家模型所需的GPU數量減少至四分之一,並推出AI原生儲存平台,將長上下文推理的每秒token數提高5倍。黃仁勳強調:"你訓練AI模型越快,就能越快將下一代前沿技術推向世界。這關乎你的上市時間,這關乎技術領導力。"Nvidia Blog要點二:發佈Cosmos世界基礎模型和開源物理AI生態系統黃仁勳展示了Nvidia Cosmos開放世界基礎模型,該模型在視訊、機器人資料和模擬資料上訓練,能夠從單張圖像生成逼真視訊、合成多攝影機駕駛場景、從場景提示建模邊緣案例環境,並執行物理推理和軌跡預測。演講中還展示了個人AI智能體在Nvidia DGX Spark桌面超級電腦上本地運行,並通過Reachy Mini機器人具身化的演示。黃仁勳宣佈Nvidia在六個領域建構開源前沿AI模型:Clara(醫療健康)、Earth-2(氣候科學)、Nemotron(推理和多模態AI)、Cosmos(機器人和模擬)、GR00T(具身智能)和Alpamayo(自動駕駛),並強調與西門子擴大合作,將Nvidia全端與西門子工業軟體整合。Nvidia Blog5. 阿里巴巴高德地圖推出AI 3D餐廳展示工具,對標美團爭奪本地生活市場要點一:基於通義萬相視覺模型,餐廳上傳照片或視訊即可生成3D圖像據彭博社報導,阿里巴巴旗下地圖和本地生活服務部門高德地圖即將推出一項AI功能,允許餐廳通過上傳視訊或照片來渲染3D圖像。該技術基於阿里巴巴的通義萬相(Wan)視覺模型,旨在降低商戶的行銷和推廣成本。熟悉該事項的人士透露,阿里巴巴計畫向部分商家免費提供這項技術一段時間。這一舉措是阿里巴巴在中國餐飲和外賣領域與美團競爭的更廣泛努力的一部分。Bloomberg要點二:強化本地生活服務佈局,挑戰美團市場主導地位此次推出3D餐廳展示工具,是阿里巴巴利用AI技術加強與美團在本地生活服務市場競爭的最新動作。美團目前在中國外賣市場、餐廳預訂和本地服務領域佔據主導地位。通過提供更具視覺吸引力的餐廳展示方式,高德地圖希望吸引更多商戶和使用者,擴大其在本地生活服務領域的市場份額。這一策略體現了阿里巴巴將AI技術應用於實際商業場景,以技術創新推動業務增長的思路。Bloomberg6. MiniMax香港IPO定價觸頂至21美元,AI熱潮推動估值達65億美元要點一:定價HK$165觸及區間上限,提前一天停止接受訂單據彭博社報導,上海AI初創公司MiniMax計畫將其香港IPO定價定在每股HK約美元達到其營銷區間的頂部151-HK。知情人士透露該公司通知投資者將以165的價格出售股票,並計畫在當地時間下午5點停止接受機構投資者的訂單,比預期提前一天。MiniMax於2025年12月31日啟動IPO路演,計畫發行2,538.92萬股新股。按最高定價計算,此次IPO將籌集至少42億港元(約5.38億美元),對MiniMax的估值約為65億美元。Bloomberg | Reuters要點二:獲阿里巴巴和騰訊支援,AI熱潮下需求強勁MiniMax得到了阿里巴巴集團和騰訊控股的支援,在AI熱潮的推動下,其IPO展現出強勁的訂單勢頭。該公司專注於生成式AI技術,提供包括文字生成、對話系統等多項AI服務。此次頂格定價和提前停止認購,反映出投資者對中國AI企業的強烈興趣。分析師指出,MiniMax的成功上市將為香港資本市場帶來活力,也體現了全球投資者對中國AI創新能力的認可。該IPO預計將於2026年1月初完成定價。Seeking Alpha7. 富士康Q4營收同比增長22%至827億美元,AI和雲端運算需求強勁創紀錄要點一:Q4營收超預期,12月單月營收同比增長32%創歷史新高台灣富士康(鴻海精密)於2026年1月5日公佈,2025年第四季度營收達到新台幣2.6兆元(約827億美元),同比增長22.07%,環比增長26.51%,創下季度營收歷史新高,超過路孚特SmartEstimate預測的2.418兆新台幣。12月單月營收達到新台幣8,628.6億元(約274.2億美元),同比增長31.77%,創下該月份歷史紀錄。富士康表示,第四季度營收增長顯著超出預期,為2026年第一季度創造了較高的對比基數。Reuters要點二:雲端運算和網路產品業務強勁,AI伺服器需求持續旺盛富士康稱,增長主要由雲端運算和網路產品部門的強勁表現驅動,這得益於AI產品需求的激增。作為輝達最大的伺服器製造商和蘋果最大的iPhone組裝商,富士康2025年全年銷售額首次突破新台幣8兆元大關。該公司表示,儘管2026年第一季度資訊通訊技術產品將進入季節性放緩期,但AI伺服器機架產品的強勁需求預計將使業績處於過去五年區間的高端。富士康還指出,智能消費電子產品部門(包括iPhone)由於匯率不利影響,營收出現小幅下降。Reuters8. 阿里巴巴PANDA AI工具助力醫院發現24例胰腺癌,自2024年11月分析超18萬例CT掃描要點一:AI在常規CT掃描中發現早期胰腺癌,提前挽救患者生命據《紐約時報》報導,中國寧波大學附屬人民醫院自2024年11月作為臨床試驗開始使用阿里巴巴達摩院開發的PANDA(Pancreatic Cancer Detection with Artificial Intelligence,胰腺癌人工智慧檢測)AI工具以來,已分析超過18萬例腹部或胸部CT掃描,幫助醫生檢測出約24例胰腺癌病例,其中14例處於早期階段。該院胰腺科主任朱克雷醫生表示:"我認為可以百分之百地說,AI拯救了他們的生命。"PANDA工具被訓練用於在非對比CT掃描中尋找胰腺癌,這些患者最初因腹脹或噁心等症狀就診,並未直接看胰腺專科醫生,部分CT掃描在被AI工具標記之前並未引起警報。New York Times要點二:通過深度學習突破非對比CT侷限,獲FDA突破性裝置認證PANDA工具利用深度學習技術,通過演算法將2000多名已知胰腺癌患者的對比CT掃描中的病灶位置對應到同一患者的非對比CT掃描上,訓練AI模型在清晰度較低的圖像中檢測潛在癌症。在超過2萬例非對比CT掃描的測試中,該工具正確識別了93%的胰腺病變患者,研究結果發表在2023年《自然醫學》雜誌上。2025年4月,阿里巴巴宣佈PANDA獲得美國FDA"突破性裝置"認證,意味著其審查將被加速以幫助其進入市場。胰腺癌是最致命的癌症之一,五年生存率約為10%,早期檢測極其困難。在寧波醫院,非對比CT檢查費用約為25美元(保險前),該系統正在分析醫生已為其他原因訂購的掃描,因此不會給醫院或患者增加額外檢查成本。New York Times9. Instagram Reels年化收入達500億美元,成為Meta最大增長引擎要點一:五年從零到500億,超越可口可樂和耐克年收入據《華爾街日報》報導,Meta旗下Instagram的短影片功能Reels在2025年第三季度實現了超過500億美元的年化收入營運率(annual run rate)。Meta CEO馬克·祖克柏在2025年10月的財報電話會議上表示:"隨著視訊在我們的應用中持續增長,Reels現在的年化收入已超過500億美元。"這一數字令人震驚,因為Reels於2020年推出時僅是對TikTok的模仿,當時沒有任何收入。五年後,其收入規模已經接近可口可樂和耐克的年收入水平,成為Meta最重要的增長業務之一。WSJ要點二:使用者參與度超越YouTube Shorts,AI推薦系統功不可沒報導指出,Instagram使用者在Reels上花費的時間已經超過YouTube Shorts的觀眾觀看時長。Meta第三季度總營收為512.4億美元,同比增長26%,其中Family of Apps(應用家族)收入達到508億美元,Reels的貢獻佔比可觀。祖克柏將Reels的成功歸功於推薦系統的改進和AI技術的應用,這些技術提高了內容的相關性和使用者參與度。分析師認為,Reels已經從簡單的TikTok複製品轉變為Meta的戰略性AI資產,推動了整個平台的廣告收入增長。創作者經濟的蓬勃發展和AI驅動的變現能力是Reels取得成功的關鍵因素。AInvest10. DeepSeek為聊天機器人新增"交錯思考"功能,月活使用者激增90%至1.315億要點一:推出"交錯思考"深度研究模式,提升複雜查詢處理能力據《南華早報》報導,總部位於杭州的AI初創公司DeepSeek對其旗艦聊天機器人的使用者介面進行了更新,新增了名為"交錯思考"(interleaved thinking)的高級功能。這一功能類似於OpenAI的深度研究(Deep Research)產品,可以執行多步驟研究,在整個過程中穿插"思考"步驟。此前,聊天機器人在生成響應之前會"思考"使用者提供的提示,而"交錯思考"允許模型在每個操作之間進行"思考",增強其研究能力。例如,在打開網頁後,模型可能需要"思考"所讀資訊的可信度,然後決定是否查閱另一份檔案來驗證發現。這一過程對於處理複雜查詢至關重要。South China Morning Post要點二:12月月活使用者暴增90%,新一代模型備受期待報導指出,DeepSeek在2025年12月的月活躍使用者數激增90%,達到近1.315億。《南華早報》測試顯示,DeepSeek的聊天機器人並非總是部署"深度研究"模式,除非收到複雜的查詢提示。一旦該功能被啟動,使用者能夠看到"交錯思考"過程的每一步。這些升級標誌著DeepSeek在消費端的罕見改進,正值業界對其下一代模型的期待不斷升溫之際。分析師指出,隨著DeepSeek在AI模型性能和使用者體驗上的持續最佳化,該公司正在中國AI市場中鞏固其領先地位,並對國際競爭對手構成越來越大的挑戰。South China Morning Post11. 中國量化基金幻方推出iQuest-Coder AI模型,僅400億參數擊敗GPT-5.1和Claude Sonnet 4.5要點一:開放原始碼AI模型在多項基準測試中超越美國競爭對手據《南華早報》報導,總部位於北京的量化交易公司幻方量化(Ubiquant)於2026年1月初發佈了一系列開放原始碼專注型大語言模型iQuest-Coder-V1系列,該系列模型在多項基準測試中聲稱能夠匹敵甚至超越美國競爭對手如OpenAI的GPT-5.1和Anthropic的Claude Sonnet 4.5,儘管使用的參數數量遠少於後者。iQuest-Coder-V1系列專為程式碼智能設計,擅長自動程式設計、偵錯和程式碼解釋等任務,包括70億、140億和400億參數的模型,遠小於GPT-5.1和Claude Sonnet 4.5等領先閉源系統的參數規模(通常在4000億至8000億參數之間)。South China Morning Post要點二:基準測試成績亮眼,400億參數模型比肩國際頂尖水平根據自報資料,iQuest-Coder-V1-40B-Loop-Instruct在SWE-bench Verified基準測試中得分76.2%,接近Claude Sonnet 4.5的77.2%和GPT-5.1的76.3%。該基準測試衡量AI模型解決真實世界軟體工程問題的能力。在BigCodeBench測試中(該測試評估LLM在解決實際且具有挑戰性的程式設計任務方面的表現,不存在污染),該模型得分49.9%,超過Gemini 3 Pro Preview的47.1%和GPT-5.1的46.8%。此外,在LiveCodeBench v6測試中,該模型也展現出色表現。幻方量化繼DeepSeek之後成為中國量化基金進軍AI領域的又一案例,展示了中國金融科技公司在AI研發方面的強大實力和創新能力。South China Morning Post (AI Daily Insights)

輝達仍是王者！GB200貴一倍卻暴省15倍，AMD輸得徹底

AI推理遊戲規則，正悄然改變。一份最新報告揭示了關鍵轉折：如今決定勝負的，不再是單純的晶片性能或GPU數量，而是「每一美元能輸出多少智能」。AI推理，現已不只看算力硬指標了！Signal65一份最新報告中，輝達GB200 NVL72是AMD MI350X吞吐量28倍。而且，在高互動場景在，DeepSeek R1每Token成本還能低到15倍。GB200每小時單價大概是貴一倍左右，但這根本不重要。因為機櫃級NVLink互聯+軟體調度能力，徹底改變了成本結構。頂級投資人Ben Pouladian稱，「目前的關鍵不再是算力或GPU數量，而是每一美元能買到多少智能輸出」。如今，輝達仍是王者。其他競爭對手根本做不到這種互動水平，這就是護城河。最關鍵的是，這還沒有整合200億刀買入Groq的推理能力。這裡，再mark下老黃至理名言——The more you buy, the more you save！AI推理重心：一美元輸出多少智能？這篇萬字報告，探索了從稠密模型（Dense）到混合專家模型（MoE）推理背後的一些本質現象。傳統的「稠密模型」架構要求：在生成每個Token時都啟動模型裡的全部參數。這就意味著：模型越大，運行越慢、成本越高，同時還會帶來相應的記憶體需求增長等問題。MoE架構，正是為了釋放更高水平的智能而生——在每個Token上只啟動最相關的「專家」。摟一眼Artificial Analysis排行榜即可發現，全球TOP 10開源LLM，全部都是MoE推理模型。它們會在推理階段額外「加算力」來提高精準性：LLM不會立刻吐出答案，而是先生成中間的推理Token，再輸出，相當於先把請求和解法「想一遍」。前16名裡有12個是MoE模型這些推理Token往往遠多於最終回覆，而且可能完全不會展示出來。能否既快又便宜地生成Token，對推理部署來說就變得至關重要。那麼，MoE方法的主要約束在那裡？一個核心限制在於「通訊瓶頸」。當不同專家分佈在多塊GPU上時，任何GPU之間通訊的延遲，都會讓GPU空閒等待資料。OpenRouter一份近期報告，超50%的Token會被路由到推理模型上這些「空轉時間」（idle time）代表著被浪費的、低效的算力，並且會直接體現在服務提供商的成本底線上。當評估AI基礎設施的「經濟性」時，一般會聚焦在三個方面：性能（吞吐量與互動性）能效（在既定功耗預算下，可生成的Token數）總體擁有成本（通常以Token/每百萬的成本衡量）基於公開可用的基準測試資料，Signal65對不同LLM架構下AI基礎設施方案進行了對比分析。分析中，團隊採用第三方基準測試所提供的性能資料，來估算相對的Token經濟性。具體來說，他們選取了B200、GB200 NVL72，以及AMD MI355X部分結果，用以對比它們在不同模型場景下的真實性能表現及相應的TCO估算。結果顯示，在稠密架構以及較小規模的MoE中，B200性能優於AMD MI355X。當模型擴展到像DeepSeek-R1這樣需跨越單節點的前沿級規模時，GB200 NVL72性能最高可達到MI355X的28倍。在高互動性的推理工作負載中，NVL72的單位Token成本最低，可降至其他方案的約1/15。儘管GB200 NVL72的單GPU小時價格幾乎是這些競爭平台的2倍，但其機架級能力——從NVLink高速互連，到覆蓋72塊GPU的軟體編排——共同推動了這種顯著更優的單位經濟性。價值評估的重心，正在從單純的原始FLOPs，轉向「每一美元所獲得的總體智能」。這一結論非常明確：隨著MoE模型和推理工作負載帶來的複雜性與規模持續上升，行業已無法僅依賴晶片層面的性能提升。能夠在系統層面實現峰值性能的端到端平台設計，已經成為實現低成本、高響應AI服務的關鍵槓桿。「稠密模型」推理，輝達領先Signal65選擇了Llama 3.3 70B作為稠密模型的性能基準，結果如下所示：帕累托曲線清晰顯示出，HGX B200-TRT方案在整個吞吐量與互動性區間內，都具備持續的性能優勢。具體到基線互動性水平，B200的性能大約是MI355X的1.8倍，這為互動式應用部署，以及更高的單GPU並行密度提供了顯著余量。再來看，當互動性提升至110 tokens/sec/user時，這一優勢進一步被放大：B200吞吐量超過MI355X的6倍。整體上，在Llama 3.3 70B測試中，AMD MI355X在單位成本性能方面確實具備一定吸引力。但這種優勢並不能代表更現代的推理技術堆疊，尤其是以MoE架構和高強度推理工作負載建構的系統。MoE推理，輝達領先那麼，在MoE架構上，輝達和AMD表現又如何？中等規模推理：gpt-oss-120BSignal65認為，OpenAI gpt-oss-120B是理解MoE部署特性的一個理想「橋樑案例」。它足夠大，可以把MoE的複雜性暴露出來；但規模又沒有大到離譜，仍然是很多團隊能現實部署並調優的範圍。它處在一個很有用的中間地帶：介於稠密的70B級模型，與市場正在快速轉向的、更前沿的推理型MoE架構之間。在10月下旬資料裡，當目標是100 tokens/sec/user時，B200大約比MI355X快1.4倍；但當目標提高到250 tokens/sec/user時，差距會擴大到約3.5倍，說明越追求「更快的互動」，平台差異越容易被放大。不過，12月上旬的資料則呈現出不同局面。得益於軟體最佳化，兩邊平台的絕對性能都明顯提升：輝達單GPU峰值吞吐從大約7,000 tokens/sec提升到超過14,000；AMD也從約6,000提升到大約8,500。前沿推理：DeepSeek-R1在DeepSeek-R1推理上，測試結果正如開篇所介紹那樣，輝達GB200 NVL72大幅領先。更多資料如下圖所示：基準測試資料展示了一個被重塑的格局：GB200 NVL72讓「超過8塊GPU的張量平行配置」也能進入帕累托前沿，達到單節點平台根本無法匹敵的性能。在25 tokens/sec/user互動性目標下，GB200 NVL72單GPU性能大約是H200的10倍，並且超過MI325X單GPU性能的16倍。這類性能差距，正是能為AI服務提供商帶來「斷崖式」TCO改善的那種差距。當互動性目標提高到60 tokens/sec/user時，GB200 NVL72相比H200帶來了超24倍的代際提升，同時也接近MI355X的11.5倍性能。在同樣25 tokens/sec/user下，GB200 NVL72單GPU性能大約是B200的2倍、是MI355X的5.9倍；而到60 tokens/sec/user時，這些優勢進一步擴大：相對單節點B200達到5.3倍、相對MI355X達到11.5倍。GPU越貴，token成本越低輝達從Hopper過渡到Blackwell，並推出GB200 NVL72時，不僅提升了每GPU算力、記憶體頻寬以及NVLink互連頻寬，還對底層系統架構做了重新設計。從8-GPU風冷HGX伺服器轉向全液冷的機架級系統，並把72塊GPU連接在同一個域內，系統成本和複雜度顯然都上升了。據CoreWeave公佈的目錄價，按單GPU口徑，GB200 NVL72價格大約比H200貴1.7倍。不過，每一代新技術的目標之一，就是壓低「每Token成本」。對推理而言，具體就是：實際交付的Token吞吐提升幅度，要超過底層基礎設施成本的提升幅度。而從公開的性能資料來看，這正是GB200 NVL72相比Hopper所呈現出的結果。Signal65把本次的tokenomics（Token經濟學）分析，錨定在前文建立的DeepSeek-R1性能差距上：在25 tokens/sec/user時，GB200 NVL72單GPU性能大約是H200的10倍；在更高的互動點位上，這個差距會更大（24倍）。下表總結了成本歸一化，以及由此得到的「每美元性能」計算：這些結果一開始可能有點反直覺：更「貴」的GPU反而更省錢——因為它帶來的性能提升遠大於價格差異，使得它能以更低成本生成Token。與AMD相比，輝達系統在推理token成本上的一些資料對比：按單GPU口徑，MI355X價格大約只有GB200 NVL72配置的一半；但由於GB200 NVL72單GPU性能優勢從低端接近6倍，到高互動性時高達28倍不等，輝達仍然能提供最高15倍的每美元性能優勢。換句話說，輝達能實現相對每Token成本僅為競爭對手的1/15。結論前沿AI模型的未來，會是更大、更複雜的MoE。隨著模型更深地走向MoE與推理架構，最終效果將不再只取決於原始GPU性能或記憶體容量。平台級設計會成為決定性因素——包括互連與通訊效率、多節點擴展特性、軟體棧成熟度、生態支援與編排能力，以及在並行與混合負載下維持高利用率的能力。從當前趨勢看，來自OpenAI、Meta、Anthropic等前沿公司的旗艦模型，很可能會繼續沿著MoE與推理方向演進。如果這一軌跡成立，輝達將維持關鍵的性能與經濟性優勢。GoogleTPU這類架構也提供機架級方案，但它們對非自家模型的適用性與性能表現仍不明確。本文記錄的性能差異，能夠直接轉化為可量化的商業結果：在既定互動性閾值下，每部署一塊GPU能服務更多使用者，就能降低每個「有用Token」的生成成本，提高每機架的收入潛力（通過規模化交付更高價值的體驗），最終AI企業和部署AI的企業獲得更好的TCO。一個具體例子足以說明量級：當一個平台在某個互動性目標下，能提供28倍的單GPU吞吐提升時，它可以在不需要線性擴大硬體規模的情況下，解鎖新的產品檔位以及更複雜的功能。這就是AI推理「經濟學」，而它會更偏向那些從底層就為MoE與推理時代而設計的平台。 (新智元)