#推理成本
【CES 2026】輝達發佈新一代Rubin平台,推理成本較Blackwell降10倍,擬下半年出貨
Rubin平台的訓練性能是Blackwell的3.5倍,運行AI軟體的性能則提升5倍,訓練混合專家模型所需GPU數量減少4倍。黃仁勳稱,全部六款Rubin晶片已通過顯示其可按計畫部署的關鍵測試。輝達稱該平台已全面投產,亞馬遜AWS、Google雲、微軟和甲骨文雲等雲服務商將率先部署。輝達在CES展會推出新一代Rubin AI平台,標誌著其在人工智慧(AI)晶片領域保持年度更新節奏。該平台通過六款新晶片的整合設計,在推理成本和訓練效率上實現大幅躍升,將於2026年下半年交付首批客戶。美東時間5日周一,輝達CEO黃仁勳在拉斯維加斯表示,六款Rubin晶片已從合作製造方處回廠,並已通過部分關鍵測試,正按計畫推進。他指出"AI競賽已經開始,所有人都在努力達到下一個水平"。輝達強調,基於Rubin的系統運行成本將低於Blackwell版本,因為它們用更少元件即可實現相同結果。微軟和其他大型雲端運算提供商將成為下半年首批部署新硬體的客戶。微軟的下一代Fairwater AI超級工廠將配備輝達Vera Rubin NVL72機架級系統,規模可擴展至數十萬顆輝達Vera Rubin超級晶片。CoreWeave也將是首批提供Rubin系統的供應商之一。該平台的推出正值華爾街部分人士擔憂輝達面臨競爭加劇,並懷疑AI領域的支出能否維持當前速度。但輝達保持長期看漲預測,認為總市場規模可達數兆美元。性能提升瞄準新一代AI需求據輝達公告,Rubin平台的訓練性能是前代Blackwell的3.5倍,運行AI軟體的性能則提升5倍。與Blackwell平台相比,Rubin可將推理token生成成本降低至多10倍,訓練混合專家模型(MoE)所需GPU數量減少4倍。新平台配備的Vera CPU擁有88個核心,性能是其替代產品的兩倍。這款CPU專為代理推理設計,是大規模AI工廠中能效最高的處理器,採用88個定製Olympus核心、完整Armv9.2相容性和超快NVLink-C2C連接。Rubin GPU配備第三代Transformer引擎,具備硬體加速自適應壓縮功能,可提供50 petaflops的NVFP4計算能力用於AI推理。每個GPU提供3.6TB/s的頻寬,而Vera Rubin NVL72機架則提供260TB/s頻寬。晶片測試進展順利黃仁勳披露,全部六款Rubin晶片已從製造合作夥伴處返回,並已通過顯示其可按計畫部署的關鍵測試。這一表態表明輝達正維持其作為AI加速器領先製造商的優勢地位。該平台包含五大創新技術:第六代NVLink互連技術、Transformer引擎、機密計算、RAS引擎以及Vera CPU。其中第三代機密計算技術使Vera Rubin NVL72成為首個提供跨CPU、GPU和NVLink域資料安全保護的機架級平台。第二代RAS引擎橫跨GPU、CPU和NVLink,具備即時健康檢查、容錯和主動維護功能,以最大化系統生產力。機架採用模組化、無線纜托盤設計,組裝和維護速度比Blackwell快18倍。廣泛生態系統支援輝達表示,包括亞馬遜的AWS、Google雲、微軟和甲骨文雲在2026年將率先部署基於Vera Rubin的實例,雲合作夥伴CoreWeave、Lambda、Nebius和Nscale也將跟進。OpenAI CEO Sam Altman表示:“智能隨計算擴展。當我們增加更多計算時,模型變得更強大,能解決更難的問題,為人們帶來更大影響。輝達Rubin平台幫助我們持續擴展這一進展。”Anthropic聯合創始人兼CEO Dario Amodei稱,輝達“Rubin平台的效率提升代表了能夠實現更長記憶、更好推理和更可靠輸出的基礎設施進步”。Meta CEO祖克柏表示,輝達的“Rubin平台有望帶來性能和效率的階躍式變化,這是將最先進模型部署給數十億人所需要的”。輝達還稱,思科、戴爾、惠普企業、聯想和超微預計將推出基於Rubin產品的各類伺服器。包括Anthropic、Cohere、Meta、Mistral AI、OpenAI和xAI等AI實驗室正期待利用Rubin平台訓練更大型、更強大的模型。提前公佈產品細節評論稱,輝達今年比往年更早披露新產品的細節,這是該司保持行業依賴其硬體的舉措之一。因為輝達通常在每年春季加州聖何塞舉行的GTC活動上深入介紹產品細節。對黃仁勳而言,CES只是其馬拉松式出席活動的又一站。他要在各類活動中宣佈產品、合作和投資,均旨在為AI系統部署增添動力。輝達公佈的新硬體還包括網路和連接元件,將成為DGX SuperPod超級電腦的一部分,同時也可作為單獨產品供客戶以更模組化的方式使用。這一性能提升是必需的,因為AI已轉向更專業化的模型網路,不僅要篩選海量輸入,還需通過多階段流程解決特定問題。輝達正在推動面向整個經濟領域的AI應用,包括機器人、醫療保健和重工業。作為這一努力的一部分,輝達宣佈了一系列旨在加速自動駕駛汽車和機器人開發的工具。目前,基於輝達的電腦支出大部分來自少數客戶的資本支出預算,包括微軟、Alphabet旗下的Google雲和亞馬遜旗下的AWS。 (invest wallstreet)
話題討論 | 獨家深扒:OpenAI 真實帳本曝光!推理成本其實是天價,收入或被嚴重注水?
最近,一份內部檔案揭示了 OpenAI 在微軟 Azure 上的真實推理支出,以及支付給微軟的收入分成。結論令人咋舌:OpenAI 的燒錢速度可能遠超想像,而其實際收入可能遠低於外界的瘋狂預測。在深入資料之前,我們需要先瞭解一個關鍵背景:微軟拿走 OpenAI 20% 的收入。這意味著,如果我們知道了微軟分到了多少錢,就能倒推出 OpenAI 的真實收入底牌。雖然由於公司架構重組(轉為盈利性公司),協議細節有所微調,但 20% 這個核心比例依然是計算的基石。更可怕的是,本次資料僅包含“推理成本”(Inference Spend),也就是模型生成回答的成本,甚至還沒算上那數以億計的“訓練成本”。讓我們看看這份被洩露的真實帳單,到底有多驚人。2024年的糊塗帳:消失的12億美金根據洩露檔案,OpenAI 在 2024 年的資料與媒體大肆報導的版本存在巨大出入。推理成本內部資料:全年花費 37.6 億美元。外界報導:The Information 曾報導該數字僅為 20 億美元左右。真相:真實成本幾乎翻倍!營收收入微軟分帳推算:微軟分走了 4.938 億美元。這意味著 OpenAI 全年實際營收約為 24.7 億美元。外界報導:媒體普遍引用的是 37 億美元,甚至有預測高達 40 億美元。真相:實際收入比報導少了約 12 億美元。外界以為它賺得多花得少,實際上它賺得少花得多。2025年上半場:失控的成本曲線時間來到 2025 年,資料變得更加觸目驚心。OpenAI 的推理成本正在呈指數級爆炸,而收入增長似乎沒能跑贏成本。僅在 2025年上半年(1月-6月):推理成本:狂燒 50.2 億美元。(注意:此前媒體報導的成本僅為25億美元。現實又是翻倍的打擊。)隱含收入:約為 22.7 億美元。(對比:此前 The Information 報導稱其上半年營收達 43 億美元。)這裡有個恐怖的數學題:上半年花了 50 億做推理,只賺回了 22 億。這還沒算員工工資、辦公室租金,以及那個吞金獸般的“模型訓練費”。截至 2025 年 9 月,OpenAI 在推理上的總支出已經達到了 86.7 億美元。按照這個速度,這恐怕是人類歷史上最“重資產”的初創公司了。Sam Altman 的“數學魔術”?Sam Altman 曾公開表示,OpenAI 的年收入“遠超” 130 億美元(年化)。但在看過這些檔案後,真的無法理解這個數字是怎麼來的。這裡可能存在一種典型的矽谷創投圈的“口徑魔術”:所謂的“年化收入”(Annualized Revenue / ARR):並沒有嚴格的法律定義。. 你可以取過去30天的收入乘以12;. 你甚至可以取公司歷史上業績最好的某30天乘以12。如果按照微軟實打實收到的分成反推,OpenAI 的收入遠遠達不到 Altman 吹噓的量級。除非微軟也在陪著演戲,或者有一些極其隱秘的收入來源完全避開了微軟的協議(但這在商業邏輯上很難解釋)。行業啟示:AI 的商業模式跑通了嗎?再這裡,我們不想討論 OpenAI 什麼時候破產(畢竟它背後有金主爸爸),但這些資料揭示了一個全行業都需要警惕的訊號:推理成本極其昂貴過去 18 個月,OpenAI 的推理成本從 37 億飆升到近百億。這似乎不是一個隨著規模擴大會“邊際成本遞減”的生意,反而像是線性甚至指數級增長。定價過低?如果 OpenAI 這種體量的巨頭,花 50 億成本只能換來 20 多億收入,說明目前的 API 和會員定價可能完全無法覆蓋成本。未來漲價或許是必然。毛利危機如果連 OpenAI 的毛利都如此難看(甚至可能是負數),那麼其他依賴 OpenAI 模型套殼,或者自己訓練模型的“小巨頭”們,日子的艱難程度可想而知。 (GD梯度下降)
如果deepseek R2定價繼續通縮
API通縮之路也是應用放量之路各種網傳版本,對於deepseek R2發佈預熱拉滿,具體參數、演算法細節只有等發佈才真正知道,但毫無疑問有一點可以明確的是,R2的定價一定會繼續走低,API token通縮的路是必由之路。OpenAI的很多模型的價格與上一代模型相比已經大幅度下跌,未來API的通縮之路還在途中。價格到底降了多少?——從 GPT-4(2023) → o3 / 4.1 mini / 4.1 nano 的對比三年內高階模型輸入單價從 $30 → $2,下跌 93 %;中檔模型甚至壓進 $0.10 區間,逼近傳統全文檢索 API 成本。價格雪崩背後是技術與規模的雙向飛輪,只要 MoE + FP8 + 高 PUE 機房等變數仍有改進空間,$M/token 還會被繼續壓。OpenAI 最新價表只是再次佐證算力正在商品化,API 單價有望逼近雲函數等級。“Token 通縮” 不是口號,而是一條物理+產業雙重驅動的必由之路規律:推理單價 ≈ 電費+攤銷+維運硬體效率×模型稀疏度×負載率\dfrac{電費 + 攤銷 + 維運}{硬體效率 × 模型稀疏度 × 負載率}。任何能讓分母增大或讓分子降低的技術和營運改進都會繼續把 $/token 往下壓。結合過去 36 個月的價降斜率,若 R2 以 $ 0.5–1 /M tokens 發佈並不意外;再往後 12 – 18 個月觸及 $ 0.1 /M 也有物理空間。未來 12-18 個月,贏家將是——掌握獨家資料 + 深嵌行業流程 + 能把 Token 成本與業務成果緊耦合 的應用層公司。開發者和投資者都需要把視角 從 GPU → Data → Workflow,才能在“Token 通縮”浪潮裡捕獲下一段 Alpha。硬體浪潮:供需剪刀差已在股價充分兌現兩年漲幅高β已見頂:GPU 與資料中心基礎設施龍頭的股價在 2023-24 經歷“產能滯後 + ASP 抬升”連按兩下——Nvidia 2023 股價翻了三倍、2024 再翻一倍,累計約 5-6 倍 ;液冷/UPS 代表 Vertiv 兩年上漲 10×。估值擴張已透支:半導體鏈龍頭的 EV/EBITDA 由 25× 抬升至 50×+,對應的新增訂單增速卻在 2025Q1 出現環比放緩跡象。未來邊際驅動力將更多來自服務化收入,而非純硬體 ASP。推理成本雪崩:應用浪潮的底層邏輯,“通縮型 AI”成為董事會新 KPI成本-優先的預算組態,關稅推高投入品價格、利率維持高位,CFO/審計委員會要求“以技術換毛利”,優先批 AI/自動化項目。ServiceNow 把“AI=降本”講成了可量化指標(Pro Plus ×4 收單),搶佔了 Narrative 高地。從serviceNOW的財報可以看到,將功能打包 → 減少採購行數(line-item consolidation),平台與整合成本可核算 → CFO 最容易批。為何“通縮型 AI”會晉陞為董事會級 KPI?49 %的技術領袖已將 AI “深度嵌入核心業務策略”,CFO 調研中 52 % 將“成本削減”列為引入 GenAI 的首要動機。 (2025 AI Business Predictions - PwC, More Than 40% of Companies Are Experimenting With GenAI, CFO Survey Shows)ServiceNow 案例:如何把“AI = 降本”講成能落地的財務故事?來源:ServiceNow ’25Q1 電話會Narrative 把握:管理層在 call 中 9 次提到 “deflation(ary)” 與 “cost-takeout”,明確把 AI 推向 CFO 的 P/L 改善 維度,而非模糊的創新願景。“成本-優先”預算的新採購邏輯是什麼?ROI 決策門檻,12 個月回本:與租賃、融資租賃的平均報酬期持平。ΔGross Margin ≥ +200 bp或 ΔOperating Margin ≥ +150 bp。Line-Item Consolidation,每減少 1 個 SKU,可降低 3-6 % 合規與審批時間(內部審計資料顯示)。打包後使 IT、財務、營運預算可一次性核銷,縮短 CAPEX-to-OPEX 轉換流程。平台可核算,內建 TCO Dashboards:自動拉取工單工時、雲實例用量、重工率,即時對應到“已驗證節省($)”—— CFO 審計最看重的欄位。對於SaaS公司要不斷調整產品以匹配當前CXO等級的核心訴求銷售 Demo 中即預填行業基準,現場調參數 → 直接得出 ΔGross Margin、ΔFCF → CFO 當場拍板。Narrative 是武器:把 AI 明確定位為 “Deflation Engine” 而非“增收玩具”,讓 CFO/董事會在價值鏈最左端(成本)就看見硬指標。產品層面:少 SKU、多 ROI;把“省錢”寫進合約,再用即時儀表盤證明;並提供漸進式 Outcome-based 計費以鎖定中長期黏性。組織層面:採購思維從“功能買單”轉向“財務成果買單”;產品必須自帶測量、驗證與迭代閉環,否則 Narrative 難長期站得住。這樣,才能真正搶佔下一輪 IT 預算分配的 “通縮型 AI” 高地。“API 單價雪崩”對應用層的四重影響DeepSeek-R2(1.2 T MoE,總啟動 78 B)傳言訓練+推理成本較 GPT-4 再低 97%,本質上只是將既有 “LLMflation” 曲線再向下壓一個量級:過去 3 年推理單價已呈 ≈10×/年 的跌速,很多 A16Z 報告把它比作新的 “摩爾定律”  (Welcome to LLMflation - LLM inference cost is going down fast ⬇️, GenAI costs follow a Moore's Law-style curve, VC claims - The Stack)。不論 R2 真偽,這種加速的價格下行對上層產品意味著:架構層:多檔模型棧成為默認選擇動態路由:先用低成本模型做 MPT(“Minimal Passing Task”),僅在置信度不足時提升到高階模型;快取 + 檢索:Embedding 檢索命中率提升 10 %,即省下 10 % 高階模型呼叫費。商業模式層:Seat → Usage 的遷移加速成本、收入對齊:當 API 單價 <0.5 $/M tokens 時,按席位打包的溢價空間被壓縮;客戶更願意“用多少算多少”。波動性治理:Usage 模式易導致 MRR/SaaS 報表波動;主流做法是 “Hybrid 定價”:基礎訂閱費(鎖定最低 ARPU) + AI Token 錢包(按量自動充值) (AI is changing how software companies charge customers. Welcome to the pay-as-you-go future.)競爭格局層:Infra 毛利向“私域資料 + 縱深工作流”搬遷往下遊走:把 LLM 變成“發動機”而非“整車”;價值捆綁在任務完成(為什麼要往下遊走,具體參見前期文章:OpenAI的社交媒體與消費網際網路之夢)。守護專屬資料:當模型廉價且同質化,專有資料資產成為Alpha 之源。產品/體驗層:高頻、長上下文、即時場景正式可行當基礎推理成本以幾何級數下墜,應用端的護城河將不再是“會調模型”,而是“掌握獨特資料 + 深嵌業務流程 + 對結果計價”。 現在就要把“模型成本敏感度”寫進產品 KPI,把“資料-工作流-收益”三件事擰成一體,才能在 API 價格雪崩時代佔得先機。估值範式切換:從 EBITDA → 資料+留存自 2H25 起,市場對應用類公司很有可能給 10-15× ARR,一旦 Rule of 40 >50% 有望拓到 20×;同時需對 token 成本做動態敏感性壓力測試。所以:硬體估值已 Price-in 供需剪刀差,進一步 β 收益有限;價值重心正加速向“掌握專有資料+深嵌工作流”的應用層遷移;投資框架必須從 EBITDA 轉向 ARR 留存與資料飛輪強度。抓住“精而深”的垂直 SaaS、AI 代理與多模型路由整合者,才可能在第二波浪潮中繼續享受 Alpha。 (貝葉斯之美)