各種網傳版本,對於deepseek R2發佈預熱拉滿,具體參數、演算法細節只有等發佈才真正知道,但毫無疑問有一點可以明確的是,R2的定價一定會繼續走低,API token通縮的路是必由之路。
OpenAI的很多模型的價格與上一代模型相比已經大幅度下跌,未來API的通縮之路還在途中。價格到底降了多少?——從 GPT-4(2023) → o3 / 4.1 mini / 4.1 nano 的對比
三年內高階模型輸入單價從 $30 → $2,下跌 93 %;中檔模型甚至壓進 $0.10 區間,逼近傳統全文檢索 API 成本。
價格雪崩背後是技術與規模的雙向飛輪,只要 MoE + FP8 + 高 PUE 機房等變數仍有改進空間,$M/token 還會被繼續壓。OpenAI 最新價表只是再次佐證算力正在商品化,API 單價有望逼近雲函數等級。
“Token 通縮” 不是口號,而是一條物理+產業雙重驅動的必由之路
規律:推理單價 ≈ 電費+攤銷+維運硬體效率×模型稀疏度×負載率\dfrac{電費 + 攤銷 + 維運}{硬體效率 × 模型稀疏度 × 負載率}。
任何能讓分母增大或讓分子降低的技術和營運改進都會繼續把 $/token 往下壓。
結合過去 36 個月的價降斜率,若 R2 以 $ 0.5–1 /M tokens 發佈並不意外;再往後 12 – 18 個月觸及 $ 0.1 /M 也有物理空間。
未來 12-18 個月,贏家將是——掌握獨家資料 + 深嵌行業流程 + 能把 Token 成本與業務成果緊耦合 的應用層公司。開發者和投資者都需要把視角 從 GPU → Data → Workflow,才能在“Token 通縮”浪潮裡捕獲下一段 Alpha。
硬體浪潮:供需剪刀差已在股價充分兌現
兩年漲幅高β已見頂:GPU 與資料中心基礎設施龍頭的股價在 2023-24 經歷“產能滯後 + ASP 抬升”連按兩下——Nvidia 2023 股價翻了三倍、2024 再翻一倍,累計約 5-6 倍 ;液冷/UPS 代表 Vertiv 兩年上漲 10×。
估值擴張已透支:半導體鏈龍頭的 EV/EBITDA 由 25× 抬升至 50×+,對應的新增訂單增速卻在 2025Q1 出現環比放緩跡象。未來邊際驅動力將更多來自服務化收入,而非純硬體 ASP。
推理成本雪崩:應用浪潮的底層邏輯,“通縮型 AI”成為董事會新 KPI
成本-優先的預算組態,關稅推高投入品價格、利率維持高位,CFO/審計委員會要求“以技術換毛利”,優先批 AI/自動化項目。ServiceNow 把“AI=降本”講成了可量化指標(Pro Plus ×4 收單),搶佔了 Narrative 高地。
從serviceNOW的財報可以看到,將功能打包 → 減少採購行數(line-item consolidation),平台與整合成本可核算 → CFO 最容易批。
49 %的技術領袖已將 AI “深度嵌入核心業務策略”,CFO 調研中 52 % 將“成本削減”列為引入 GenAI 的首要動機。 (2025 AI Business Predictions - PwC, More Than 40% of Companies Are Experimenting With GenAI, CFO Survey Shows)
Narrative 把握:管理層在 call 中 9 次提到 “deflation(ary)” 與 “cost-takeout”,明確把 AI 推向 CFO 的 P/L 改善 維度,而非模糊的創新願景。
“成本-優先”預算的新採購邏輯是什麼?
對於SaaS公司要不斷調整產品以匹配當前CXO等級的核心訴求
銷售 Demo 中即預填行業基準,現場調參數 → 直接得出 ΔGross Margin、ΔFCF → CFO 當場拍板。
商業模式層:Seat → Usage 的遷移加速
競爭格局層:Infra 毛利向“私域資料 + 縱深工作流”搬遷
產品/體驗層:高頻、長上下文、即時場景正式可行
估值範式切換:從 EBITDA → 資料+留存
自 2H25 起,市場對應用類公司很有可能給 10-15× ARR,一旦 Rule of 40 >50% 有望拓到 20×;同時需對 token 成本做動態敏感性壓力測試。
所以: