#推理成本
話題討論 | 獨家深扒:OpenAI 真實帳本曝光!推理成本其實是天價,收入或被嚴重注水?
最近,一份內部檔案揭示了 OpenAI 在微軟 Azure 上的真實推理支出,以及支付給微軟的收入分成。結論令人咋舌:OpenAI 的燒錢速度可能遠超想像,而其實際收入可能遠低於外界的瘋狂預測。在深入資料之前,我們需要先瞭解一個關鍵背景:微軟拿走 OpenAI 20% 的收入。這意味著,如果我們知道了微軟分到了多少錢,就能倒推出 OpenAI 的真實收入底牌。雖然由於公司架構重組(轉為盈利性公司),協議細節有所微調,但 20% 這個核心比例依然是計算的基石。更可怕的是,本次資料僅包含“推理成本”(Inference Spend),也就是模型生成回答的成本,甚至還沒算上那數以億計的“訓練成本”。讓我們看看這份被洩露的真實帳單,到底有多驚人。2024年的糊塗帳:消失的12億美金根據洩露檔案,OpenAI 在 2024 年的資料與媒體大肆報導的版本存在巨大出入。推理成本內部資料:全年花費 37.6 億美元。外界報導:The Information 曾報導該數字僅為 20 億美元左右。真相:真實成本幾乎翻倍!營收收入微軟分帳推算:微軟分走了 4.938 億美元。這意味著 OpenAI 全年實際營收約為 24.7 億美元。外界報導:媒體普遍引用的是 37 億美元,甚至有預測高達 40 億美元。真相:實際收入比報導少了約 12 億美元。外界以為它賺得多花得少,實際上它賺得少花得多。2025年上半場:失控的成本曲線時間來到 2025 年,資料變得更加觸目驚心。OpenAI 的推理成本正在呈指數級爆炸,而收入增長似乎沒能跑贏成本。僅在 2025年上半年(1月-6月):推理成本:狂燒 50.2 億美元。(注意:此前媒體報導的成本僅為25億美元。現實又是翻倍的打擊。)隱含收入:約為 22.7 億美元。(對比:此前 The Information 報導稱其上半年營收達 43 億美元。)這裡有個恐怖的數學題:上半年花了 50 億做推理,只賺回了 22 億。這還沒算員工工資、辦公室租金,以及那個吞金獸般的“模型訓練費”。截至 2025 年 9 月,OpenAI 在推理上的總支出已經達到了 86.7 億美元。按照這個速度,這恐怕是人類歷史上最“重資產”的初創公司了。Sam Altman 的“數學魔術”?Sam Altman 曾公開表示,OpenAI 的年收入“遠超” 130 億美元(年化)。但在看過這些檔案後,真的無法理解這個數字是怎麼來的。這裡可能存在一種典型的矽谷創投圈的“口徑魔術”:所謂的“年化收入”(Annualized Revenue / ARR):並沒有嚴格的法律定義。. 你可以取過去30天的收入乘以12;. 你甚至可以取公司歷史上業績最好的某30天乘以12。如果按照微軟實打實收到的分成反推,OpenAI 的收入遠遠達不到 Altman 吹噓的量級。除非微軟也在陪著演戲,或者有一些極其隱秘的收入來源完全避開了微軟的協議(但這在商業邏輯上很難解釋)。行業啟示:AI 的商業模式跑通了嗎?再這裡,我們不想討論 OpenAI 什麼時候破產(畢竟它背後有金主爸爸),但這些資料揭示了一個全行業都需要警惕的訊號:推理成本極其昂貴過去 18 個月,OpenAI 的推理成本從 37 億飆升到近百億。這似乎不是一個隨著規模擴大會“邊際成本遞減”的生意,反而像是線性甚至指數級增長。定價過低?如果 OpenAI 這種體量的巨頭,花 50 億成本只能換來 20 多億收入,說明目前的 API 和會員定價可能完全無法覆蓋成本。未來漲價或許是必然。毛利危機如果連 OpenAI 的毛利都如此難看(甚至可能是負數),那麼其他依賴 OpenAI 模型套殼,或者自己訓練模型的“小巨頭”們,日子的艱難程度可想而知。 (GD梯度下降)
如果deepseek R2定價繼續通縮
API通縮之路也是應用放量之路各種網傳版本,對於deepseek R2發佈預熱拉滿,具體參數、演算法細節只有等發佈才真正知道,但毫無疑問有一點可以明確的是,R2的定價一定會繼續走低,API token通縮的路是必由之路。OpenAI的很多模型的價格與上一代模型相比已經大幅度下跌,未來API的通縮之路還在途中。價格到底降了多少?——從 GPT-4(2023) → o3 / 4.1 mini / 4.1 nano 的對比三年內高階模型輸入單價從 $30 → $2,下跌 93 %;中檔模型甚至壓進 $0.10 區間,逼近傳統全文檢索 API 成本。價格雪崩背後是技術與規模的雙向飛輪,只要 MoE + FP8 + 高 PUE 機房等變數仍有改進空間,$M/token 還會被繼續壓。OpenAI 最新價表只是再次佐證算力正在商品化,API 單價有望逼近雲函數等級。“Token 通縮” 不是口號,而是一條物理+產業雙重驅動的必由之路規律:推理單價 ≈ 電費+攤銷+維運硬體效率×模型稀疏度×負載率\dfrac{電費 + 攤銷 + 維運}{硬體效率 × 模型稀疏度 × 負載率}。任何能讓分母增大或讓分子降低的技術和營運改進都會繼續把 $/token 往下壓。結合過去 36 個月的價降斜率,若 R2 以 $ 0.5–1 /M tokens 發佈並不意外;再往後 12 – 18 個月觸及 $ 0.1 /M 也有物理空間。未來 12-18 個月,贏家將是——掌握獨家資料 + 深嵌行業流程 + 能把 Token 成本與業務成果緊耦合 的應用層公司。開發者和投資者都需要把視角 從 GPU → Data → Workflow,才能在“Token 通縮”浪潮裡捕獲下一段 Alpha。硬體浪潮:供需剪刀差已在股價充分兌現兩年漲幅高β已見頂:GPU 與資料中心基礎設施龍頭的股價在 2023-24 經歷“產能滯後 + ASP 抬升”連按兩下——Nvidia 2023 股價翻了三倍、2024 再翻一倍,累計約 5-6 倍 ;液冷/UPS 代表 Vertiv 兩年上漲 10×。估值擴張已透支:半導體鏈龍頭的 EV/EBITDA 由 25× 抬升至 50×+,對應的新增訂單增速卻在 2025Q1 出現環比放緩跡象。未來邊際驅動力將更多來自服務化收入,而非純硬體 ASP。推理成本雪崩:應用浪潮的底層邏輯,“通縮型 AI”成為董事會新 KPI成本-優先的預算組態,關稅推高投入品價格、利率維持高位,CFO/審計委員會要求“以技術換毛利”,優先批 AI/自動化項目。ServiceNow 把“AI=降本”講成了可量化指標(Pro Plus ×4 收單),搶佔了 Narrative 高地。從serviceNOW的財報可以看到,將功能打包 → 減少採購行數(line-item consolidation),平台與整合成本可核算 → CFO 最容易批。為何“通縮型 AI”會晉陞為董事會級 KPI?49 %的技術領袖已將 AI “深度嵌入核心業務策略”,CFO 調研中 52 % 將“成本削減”列為引入 GenAI 的首要動機。 (2025 AI Business Predictions - PwC, More Than 40% of Companies Are Experimenting With GenAI, CFO Survey Shows)ServiceNow 案例:如何把“AI = 降本”講成能落地的財務故事?來源:ServiceNow ’25Q1 電話會Narrative 把握:管理層在 call 中 9 次提到 “deflation(ary)” 與 “cost-takeout”,明確把 AI 推向 CFO 的 P/L 改善 維度,而非模糊的創新願景。“成本-優先”預算的新採購邏輯是什麼?ROI 決策門檻,12 個月回本:與租賃、融資租賃的平均報酬期持平。ΔGross Margin ≥ +200 bp或 ΔOperating Margin ≥ +150 bp。Line-Item Consolidation,每減少 1 個 SKU,可降低 3-6 % 合規與審批時間(內部審計資料顯示)。打包後使 IT、財務、營運預算可一次性核銷,縮短 CAPEX-to-OPEX 轉換流程。平台可核算,內建 TCO Dashboards:自動拉取工單工時、雲實例用量、重工率,即時對應到“已驗證節省($)”—— CFO 審計最看重的欄位。對於SaaS公司要不斷調整產品以匹配當前CXO等級的核心訴求銷售 Demo 中即預填行業基準,現場調參數 → 直接得出 ΔGross Margin、ΔFCF → CFO 當場拍板。Narrative 是武器:把 AI 明確定位為 “Deflation Engine” 而非“增收玩具”,讓 CFO/董事會在價值鏈最左端(成本)就看見硬指標。產品層面:少 SKU、多 ROI;把“省錢”寫進合約,再用即時儀表盤證明;並提供漸進式 Outcome-based 計費以鎖定中長期黏性。組織層面:採購思維從“功能買單”轉向“財務成果買單”;產品必須自帶測量、驗證與迭代閉環,否則 Narrative 難長期站得住。這樣,才能真正搶佔下一輪 IT 預算分配的 “通縮型 AI” 高地。“API 單價雪崩”對應用層的四重影響DeepSeek-R2(1.2 T MoE,總啟動 78 B)傳言訓練+推理成本較 GPT-4 再低 97%,本質上只是將既有 “LLMflation” 曲線再向下壓一個量級:過去 3 年推理單價已呈 ≈10×/年 的跌速,很多 A16Z 報告把它比作新的 “摩爾定律”  (Welcome to LLMflation - LLM inference cost is going down fast ⬇️, GenAI costs follow a Moore's Law-style curve, VC claims - The Stack)。不論 R2 真偽,這種加速的價格下行對上層產品意味著:架構層:多檔模型棧成為默認選擇動態路由:先用低成本模型做 MPT(“Minimal Passing Task”),僅在置信度不足時提升到高階模型;快取 + 檢索:Embedding 檢索命中率提升 10 %,即省下 10 % 高階模型呼叫費。商業模式層:Seat → Usage 的遷移加速成本、收入對齊:當 API 單價 <0.5 $/M tokens 時,按席位打包的溢價空間被壓縮;客戶更願意“用多少算多少”。波動性治理:Usage 模式易導致 MRR/SaaS 報表波動;主流做法是 “Hybrid 定價”:基礎訂閱費(鎖定最低 ARPU) + AI Token 錢包(按量自動充值) (AI is changing how software companies charge customers. Welcome to the pay-as-you-go future.)競爭格局層:Infra 毛利向“私域資料 + 縱深工作流”搬遷往下遊走:把 LLM 變成“發動機”而非“整車”;價值捆綁在任務完成(為什麼要往下遊走,具體參見前期文章:OpenAI的社交媒體與消費網際網路之夢)。守護專屬資料:當模型廉價且同質化,專有資料資產成為Alpha 之源。產品/體驗層:高頻、長上下文、即時場景正式可行當基礎推理成本以幾何級數下墜,應用端的護城河將不再是“會調模型”,而是“掌握獨特資料 + 深嵌業務流程 + 對結果計價”。 現在就要把“模型成本敏感度”寫進產品 KPI,把“資料-工作流-收益”三件事擰成一體,才能在 API 價格雪崩時代佔得先機。估值範式切換:從 EBITDA → 資料+留存自 2H25 起,市場對應用類公司很有可能給 10-15× ARR,一旦 Rule of 40 >50% 有望拓到 20×;同時需對 token 成本做動態敏感性壓力測試。所以:硬體估值已 Price-in 供需剪刀差,進一步 β 收益有限;價值重心正加速向“掌握專有資料+深嵌工作流”的應用層遷移;投資框架必須從 EBITDA 轉向 ARR 留存與資料飛輪強度。抓住“精而深”的垂直 SaaS、AI 代理與多模型路由整合者,才可能在第二波浪潮中繼續享受 Alpha。 (貝葉斯之美)