#推理成本
爆了!1分鐘養上龍蝦
一覺醒來,身邊的人都在養龍蝦?僅僅不到一周,OpenClaw在中文網際網路世界快速吸引了一波關注,前有上門安裝龍蝦爆賺幾十萬,公司樓下大排長龍,接著大廠們相繼發力推出競品,各省市甚至親自下場送補貼。股市情緒稍微好轉,AI鏈相關產業徹底漲瘋了,雲服務、算力租賃類股連續強勢。港股MiniMax漲超20%,市值再創新高,智譜漲超10%,剛推出WorkBuddy的騰訊因為訪問量太大,算力一下子承受不住還要緊急擴容,盤中一度漲超7%...OpenClaw,難道要複製一把去年DeepSeek?01 全線反彈戲劇性反轉主導了隔夜市場和今天的反彈行情,總結一句話就是:美國總統川普暗示戰事或將結束,這番表態迅速壓制了市場對中東衝突的恐慌預期。油價跌了,納指、歐洲股指全線反彈。亞太更誇張,早盤日經強勁拉升超3%,韓國KOSPI指數飆漲逾6%。期指因盤中漲幅突破5%而觸發熔斷。A股市場也順勢迎來集體高開,風險偏好有所回升。類股方面,光纖、PCB等AI科技成長股集體大漲,早前因避險情緒高漲的石油天然氣與能源裝置類股,則隨著油價回落而集體走弱。與此同時因為OpenClaw走紅,推動算力租賃、雲端運算類股繼續走強,優刻得漲超10%,科華資料、寧波建工漲停,網宿科技、順網科技、青雲科技、金開新能、彩訊股份跟漲。消息面上,今天OpenClaw生態又迎來重磅產品。大模型公司智譜發佈AutoClaw,中文暱稱「澳龍」,直接把OpenClaw打包成一鍵安裝的桌面應用。下載、連按兩下、登錄,1分鐘搞定,直接終結原來大排長龍,甚至花高價養龍蝦的局面。OpenClaw的火爆也傳導至A股公司,目前萬興科技、優刻得-W、順網科技、中科創達、拓維資訊、瑞芯微等公司紛紛公開披露有關OpenClaw的業務動態。在OpenClaw的身上,散戶們彷彿看到了去年DeepSeek的影子。02 OpenClaw 蝴蝶效應OpenClaw(曾用名 Clawdbot、Moltbot)是一款開源AI智能體,因圖示為紅色龍蝦而得名“龍蝦”。(tbbbk)與對話式的大模型產品截然不同,它是一款開源、本地優先的AI Agent框架,通過整合多管道通訊能力與大語言模型,支援在雲端和本地部署。很多人體驗龍蝦的目的,就是為了建構一款自動化的AI個人助手,把需要的權限開放給他,他就能全權接管幫你幹活,符合絕大多數人心目中未來AGI的樣子。發佈僅四個多月,OpenClaw便創造了最快登頂GitHub星標榜的歷史——以超過24.8萬的GitHub星標數,超越Linux成為GitHub平台上最受歡迎的開放原始碼專案。可以說,這是一款具備殺手級應用潛質的產品。Agent框架的實現,讓大模型徹底跳出聊天窗口,擁有自動化執行的能力。和前兩年我們還得在大模型對話窗口上傳檔案和提示詞完全不是一個層次,現在它自己就可以呼叫需要的任何檔案。因為支援在本地儲存配置資料和互動歷史,從而擁有較持久的記憶能力,想要嘗鮮的網友都想要在本地部署,一度把蘋果家的Mac Mini搶斷貨了。這,還只是OpenClaw蝴蝶效應掀起的一點漣漪。但真正讓OpenClaw在中國爆火的,是中國從“Token出海”(算力-電力),大廠親自下場部署、各省市真金白銀政策支援,一周內一系列動態疊加引發了海嘯般的轟動。首先,政策跟進速度快得難以置信。3月7日,深圳龍崗區發佈專項措施,稱為“龍蝦十條”,鼓勵提供免費OpenClaw部署服務,會選出一些應用項目進行獎勵補貼,還將於3月14日下午舉辦“千人龍蝦大會”。大會由龍崗區聯合Kimi共同打造,除Kimi工程師團隊為使用者免費安裝OpenClaw,並行放Kimi Claw免費體驗資格外,Kimi還將上線API龍蝦專屬優惠,提供最高40%的充值返券補貼,助力企業部署龍蝦應用。深圳龍崗之後,無錫、寧波、合肥、常州等市紛紛跟進,也推出了類似的“養龍蝦”政策,鼓勵企業和個人開發者部署。其次,面對這一超級流量入口,網際網路大廠展開了激烈的入口爭奪戰。騰訊雲通過輕量應用伺服器Lighthouse推出5分鐘一鍵部署範本,甚至線上下“擺攤”獲客,引發使用者排隊安裝,據悉雲上“養蝦人”規模迅速突破10萬並持續上升。阿里雲、移動雲、天翼雲、京東雲、火山引擎、百度智能雲在內的中國雲廠商紛紛接入。賦能雲業務顯然未能滿足大廠的目標,它們都能在自己的生態內搭建類似的Agent工具,在模型服務上進行延伸。僅一周,騰訊、字節、阿里、小米火速宣佈推出各自的"小龍蝦"產品。有大模型和算力加持的騰訊WorkBuddy繫結了企業微信,同時無縫接入QQ、飛書、釘釘等工具,中國版可以切換Hunyuan、DeepSeek、GLM、Kimi、MiniMax等大模型。這意味著,那怕你在外通勤,只需掏出手機發條語音,它就能在你的辦公電腦上自動查資料、寫推文,直接交付可驗收的結果。據說,WorkBuddy上線訪問量遠超預期,導致核心服務瞬時壓力過大,公司致歉已緊急擴容10倍。但要說最有參與感的,還是現在的大模型公司。首先在OpenClaw的帶動下,中國國產模型呼叫量在全球平台OpenRouter上交替登頂。“龍蝦”幹活的底層邏輯還是在燒token。而OpenClaw對token的巨額消耗也放大了中國國產模型能力、成本的綜合優勢,帶動中國國產大模型在海外市場的規模化呼叫。除了前面的智譜,MINIMAX也推出了MaxClaw,Kimi推出了KimiClaw,都是主打一個快速部署,以OpenClaw生態接入的先發優勢推動模型的呼叫與使用。03 DeepSeek時刻重演?Token消耗的誇張程度,令到模型公司的算力資源都一度承壓,被市場寄予拉動算力需求的預期,A股算力租賃類股連漲兩日。其中,“Token出海”的敘事引來很大關注。我們在《賽道牛股頻出,下一個千億龍頭是它?》提到過,中國AI模型呼叫量的異軍突起,背後不僅僅是簡單的模型競爭力在贏,背後必須依託龐大且低成本的國家能源基礎設施,向全球AI社區進行著價值輸出。未來決定AI 商業可行性的,並非模型越大越好,而是看推理電效——每一瓦時電力能產出多少推理結果。政策給出了新的解題思路,2026年政府工作報告首提“算電協同”,明確“實施超大規模智算叢集、算電協同等新基建工程”,成為新型基礎設施建設的重要方向。其核心邏輯是通過算力最佳化電力調度、通過電力保障算力需求,實現兩者深度融合。據機構測算,千兆級全球日均token用量對中國電量和電力或有10%等級彈性,對綠證價格、容量電價甚至電量電價的拉動顯著。低估值的綠電,有望充分受益於AIDC清潔能耗需求;根據測算,中國2026-2030年綠電需求增厚4%-33%,利多本就折價的綠證價格。因此,電力類股持續發酵,韶能股份、銀星能源、協鑫能科、國南電瑞、中國西電等表現都很強勢。話又說回來,對於普通使用者來說,養龍蝦可能不會太花電費,但給龍蝦喂token是要花上不少錢的,這是很明顯感受得到的。Token的爆發式增長背後是實打實的算力需求。輝達CEO黃仁勳指出,智能體僅需一系列提示詞,就能執行原本需要大量時間和專業知識的任務,這導致token消耗量激增了約1000倍,直接製造了一個“算力真空”。這個預判基礎建立在,通常情況下,問答類Chatbot每輪對話僅消耗數百Token,但是OpenClaw則需要持續在後台執行任務,包括資訊檢索、文件生成、程式碼編寫、偵錯與最佳化等等,每一步都伴隨著大量的Token消耗。有使用者反映,搜尋資訊、寫一篇2000字文件可燒掉700萬Token;運行一個簡單爬蟲測試竟耗費2900萬Token;單日燒掉5000萬Token的案例屢見不鮮。龍蝦對飼料的需求太大了,模型廠推出的這些定價策略,包月服務也給了優惠,每月提供數萬次的api請求服務看似海量,實際幾天之內就能見底。這一幕的推演,跟2025年年初的DeepSeek如出一轍。便宜的推理成本,雲廠商搶著部署,算力租賃的生意越做越火。但是,OpenClaw並非毫無缺陷,我們現在看到的算力需求暫時是被放大的。迭代至今不到四個月,OpenClaw在Token消耗與實際產出之間的效率比仍有巨大最佳化空間。但我們只是看到了它的成功案例,可能忽視掉絕大多數不成熟的使用體驗,譬如任務執行過程中可能莫名中斷;記憶功能不穩定,有時會“忘記”之前的偏好。更嚴重的,OpenClaw的安全防護機制遠沒有跟上能力擴張的步伐,海外科技大廠已相繼在內部封禁OpenClaw。許多人應該都在猶豫要不要養龍蝦,借OpenClaw的創始人Peter Steinberger的話來說:“如果你不懂命令列,這個項目對你來說風險太大。”總的來說,隨著OpenClaw生態的進一步完善,算力需求的量級躍遷從長期來看很有可能會實現,但短期我們看到的是一個夾雜著許多噪音,過分“神話”的新概念,切勿因FOMO管不住錢包,包括股市。 (格隆匯APP)
【CES 2026】輝達發佈新一代Rubin平台,推理成本較Blackwell降10倍,擬下半年出貨
Rubin平台的訓練性能是Blackwell的3.5倍,運行AI軟體的性能則提升5倍,訓練混合專家模型所需GPU數量減少4倍。黃仁勳稱,全部六款Rubin晶片已通過顯示其可按計畫部署的關鍵測試。輝達稱該平台已全面投產,亞馬遜AWS、Google雲、微軟和甲骨文雲等雲服務商將率先部署。輝達在CES展會推出新一代Rubin AI平台,標誌著其在人工智慧(AI)晶片領域保持年度更新節奏。該平台通過六款新晶片的整合設計,在推理成本和訓練效率上實現大幅躍升,將於2026年下半年交付首批客戶。美東時間5日周一,輝達CEO黃仁勳在拉斯維加斯表示,六款Rubin晶片已從合作製造方處回廠,並已通過部分關鍵測試,正按計畫推進。他指出"AI競賽已經開始,所有人都在努力達到下一個水平"。輝達強調,基於Rubin的系統運行成本將低於Blackwell版本,因為它們用更少元件即可實現相同結果。微軟和其他大型雲端運算提供商將成為下半年首批部署新硬體的客戶。微軟的下一代Fairwater AI超級工廠將配備輝達Vera Rubin NVL72機架級系統,規模可擴展至數十萬顆輝達Vera Rubin超級晶片。CoreWeave也將是首批提供Rubin系統的供應商之一。該平台的推出正值華爾街部分人士擔憂輝達面臨競爭加劇,並懷疑AI領域的支出能否維持當前速度。但輝達保持長期看漲預測,認為總市場規模可達數兆美元。性能提升瞄準新一代AI需求據輝達公告,Rubin平台的訓練性能是前代Blackwell的3.5倍,運行AI軟體的性能則提升5倍。與Blackwell平台相比,Rubin可將推理token生成成本降低至多10倍,訓練混合專家模型(MoE)所需GPU數量減少4倍。新平台配備的Vera CPU擁有88個核心,性能是其替代產品的兩倍。這款CPU專為代理推理設計,是大規模AI工廠中能效最高的處理器,採用88個定製Olympus核心、完整Armv9.2相容性和超快NVLink-C2C連接。Rubin GPU配備第三代Transformer引擎,具備硬體加速自適應壓縮功能,可提供50 petaflops的NVFP4計算能力用於AI推理。每個GPU提供3.6TB/s的頻寬,而Vera Rubin NVL72機架則提供260TB/s頻寬。晶片測試進展順利黃仁勳披露,全部六款Rubin晶片已從製造合作夥伴處返回,並已通過顯示其可按計畫部署的關鍵測試。這一表態表明輝達正維持其作為AI加速器領先製造商的優勢地位。該平台包含五大創新技術:第六代NVLink互連技術、Transformer引擎、機密計算、RAS引擎以及Vera CPU。其中第三代機密計算技術使Vera Rubin NVL72成為首個提供跨CPU、GPU和NVLink域資料安全保護的機架級平台。第二代RAS引擎橫跨GPU、CPU和NVLink,具備即時健康檢查、容錯和主動維護功能,以最大化系統生產力。機架採用模組化、無線纜托盤設計,組裝和維護速度比Blackwell快18倍。廣泛生態系統支援輝達表示,包括亞馬遜的AWS、Google雲、微軟和甲骨文雲在2026年將率先部署基於Vera Rubin的實例,雲合作夥伴CoreWeave、Lambda、Nebius和Nscale也將跟進。OpenAI CEO Sam Altman表示:“智能隨計算擴展。當我們增加更多計算時,模型變得更強大,能解決更難的問題,為人們帶來更大影響。輝達Rubin平台幫助我們持續擴展這一進展。”Anthropic聯合創始人兼CEO Dario Amodei稱,輝達“Rubin平台的效率提升代表了能夠實現更長記憶、更好推理和更可靠輸出的基礎設施進步”。Meta CEO祖克柏表示,輝達的“Rubin平台有望帶來性能和效率的階躍式變化,這是將最先進模型部署給數十億人所需要的”。輝達還稱,思科、戴爾、惠普企業、聯想和超微預計將推出基於Rubin產品的各類伺服器。包括Anthropic、Cohere、Meta、Mistral AI、OpenAI和xAI等AI實驗室正期待利用Rubin平台訓練更大型、更強大的模型。提前公佈產品細節評論稱,輝達今年比往年更早披露新產品的細節,這是該司保持行業依賴其硬體的舉措之一。因為輝達通常在每年春季加州聖何塞舉行的GTC活動上深入介紹產品細節。對黃仁勳而言,CES只是其馬拉松式出席活動的又一站。他要在各類活動中宣佈產品、合作和投資,均旨在為AI系統部署增添動力。輝達公佈的新硬體還包括網路和連接元件,將成為DGX SuperPod超級電腦的一部分,同時也可作為單獨產品供客戶以更模組化的方式使用。這一性能提升是必需的,因為AI已轉向更專業化的模型網路,不僅要篩選海量輸入,還需通過多階段流程解決特定問題。輝達正在推動面向整個經濟領域的AI應用,包括機器人、醫療保健和重工業。作為這一努力的一部分,輝達宣佈了一系列旨在加速自動駕駛汽車和機器人開發的工具。目前,基於輝達的電腦支出大部分來自少數客戶的資本支出預算,包括微軟、Alphabet旗下的Google雲和亞馬遜旗下的AWS。 (invest wallstreet)
話題討論 | 獨家深扒:OpenAI 真實帳本曝光!推理成本其實是天價,收入或被嚴重注水?
最近,一份內部檔案揭示了 OpenAI 在微軟 Azure 上的真實推理支出,以及支付給微軟的收入分成。結論令人咋舌:OpenAI 的燒錢速度可能遠超想像,而其實際收入可能遠低於外界的瘋狂預測。在深入資料之前,我們需要先瞭解一個關鍵背景:微軟拿走 OpenAI 20% 的收入。這意味著,如果我們知道了微軟分到了多少錢,就能倒推出 OpenAI 的真實收入底牌。雖然由於公司架構重組(轉為盈利性公司),協議細節有所微調,但 20% 這個核心比例依然是計算的基石。更可怕的是,本次資料僅包含“推理成本”(Inference Spend),也就是模型生成回答的成本,甚至還沒算上那數以億計的“訓練成本”。讓我們看看這份被洩露的真實帳單,到底有多驚人。2024年的糊塗帳:消失的12億美金根據洩露檔案,OpenAI 在 2024 年的資料與媒體大肆報導的版本存在巨大出入。推理成本內部資料:全年花費 37.6 億美元。外界報導:The Information 曾報導該數字僅為 20 億美元左右。真相:真實成本幾乎翻倍!營收收入微軟分帳推算:微軟分走了 4.938 億美元。這意味著 OpenAI 全年實際營收約為 24.7 億美元。外界報導:媒體普遍引用的是 37 億美元,甚至有預測高達 40 億美元。真相:實際收入比報導少了約 12 億美元。外界以為它賺得多花得少,實際上它賺得少花得多。2025年上半場:失控的成本曲線時間來到 2025 年,資料變得更加觸目驚心。OpenAI 的推理成本正在呈指數級爆炸,而收入增長似乎沒能跑贏成本。僅在 2025年上半年(1月-6月):推理成本:狂燒 50.2 億美元。(注意:此前媒體報導的成本僅為25億美元。現實又是翻倍的打擊。)隱含收入:約為 22.7 億美元。(對比:此前 The Information 報導稱其上半年營收達 43 億美元。)這裡有個恐怖的數學題:上半年花了 50 億做推理,只賺回了 22 億。這還沒算員工工資、辦公室租金,以及那個吞金獸般的“模型訓練費”。截至 2025 年 9 月,OpenAI 在推理上的總支出已經達到了 86.7 億美元。按照這個速度,這恐怕是人類歷史上最“重資產”的初創公司了。Sam Altman 的“數學魔術”?Sam Altman 曾公開表示,OpenAI 的年收入“遠超” 130 億美元(年化)。但在看過這些檔案後,真的無法理解這個數字是怎麼來的。這裡可能存在一種典型的矽谷創投圈的“口徑魔術”:所謂的“年化收入”(Annualized Revenue / ARR):並沒有嚴格的法律定義。. 你可以取過去30天的收入乘以12;. 你甚至可以取公司歷史上業績最好的某30天乘以12。如果按照微軟實打實收到的分成反推,OpenAI 的收入遠遠達不到 Altman 吹噓的量級。除非微軟也在陪著演戲,或者有一些極其隱秘的收入來源完全避開了微軟的協議(但這在商業邏輯上很難解釋)。行業啟示:AI 的商業模式跑通了嗎?再這裡,我們不想討論 OpenAI 什麼時候破產(畢竟它背後有金主爸爸),但這些資料揭示了一個全行業都需要警惕的訊號:推理成本極其昂貴過去 18 個月,OpenAI 的推理成本從 37 億飆升到近百億。這似乎不是一個隨著規模擴大會“邊際成本遞減”的生意,反而像是線性甚至指數級增長。定價過低?如果 OpenAI 這種體量的巨頭,花 50 億成本只能換來 20 多億收入,說明目前的 API 和會員定價可能完全無法覆蓋成本。未來漲價或許是必然。毛利危機如果連 OpenAI 的毛利都如此難看(甚至可能是負數),那麼其他依賴 OpenAI 模型套殼,或者自己訓練模型的“小巨頭”們,日子的艱難程度可想而知。 (GD梯度下降)
如果deepseek R2定價繼續通縮
API通縮之路也是應用放量之路各種網傳版本,對於deepseek R2發佈預熱拉滿,具體參數、演算法細節只有等發佈才真正知道,但毫無疑問有一點可以明確的是,R2的定價一定會繼續走低,API token通縮的路是必由之路。OpenAI的很多模型的價格與上一代模型相比已經大幅度下跌,未來API的通縮之路還在途中。價格到底降了多少?——從 GPT-4(2023) → o3 / 4.1 mini / 4.1 nano 的對比三年內高階模型輸入單價從 $30 → $2,下跌 93 %;中檔模型甚至壓進 $0.10 區間,逼近傳統全文檢索 API 成本。價格雪崩背後是技術與規模的雙向飛輪,只要 MoE + FP8 + 高 PUE 機房等變數仍有改進空間,$M/token 還會被繼續壓。OpenAI 最新價表只是再次佐證算力正在商品化,API 單價有望逼近雲函數等級。“Token 通縮” 不是口號,而是一條物理+產業雙重驅動的必由之路規律:推理單價 ≈ 電費+攤銷+維運硬體效率×模型稀疏度×負載率\dfrac{電費 + 攤銷 + 維運}{硬體效率 × 模型稀疏度 × 負載率}。任何能讓分母增大或讓分子降低的技術和營運改進都會繼續把 $/token 往下壓。結合過去 36 個月的價降斜率,若 R2 以 $ 0.5–1 /M tokens 發佈並不意外;再往後 12 – 18 個月觸及 $ 0.1 /M 也有物理空間。未來 12-18 個月,贏家將是——掌握獨家資料 + 深嵌行業流程 + 能把 Token 成本與業務成果緊耦合 的應用層公司。開發者和投資者都需要把視角 從 GPU → Data → Workflow,才能在“Token 通縮”浪潮裡捕獲下一段 Alpha。硬體浪潮:供需剪刀差已在股價充分兌現兩年漲幅高β已見頂:GPU 與資料中心基礎設施龍頭的股價在 2023-24 經歷“產能滯後 + ASP 抬升”連按兩下——Nvidia 2023 股價翻了三倍、2024 再翻一倍,累計約 5-6 倍 ;液冷/UPS 代表 Vertiv 兩年上漲 10×。估值擴張已透支:半導體鏈龍頭的 EV/EBITDA 由 25× 抬升至 50×+,對應的新增訂單增速卻在 2025Q1 出現環比放緩跡象。未來邊際驅動力將更多來自服務化收入,而非純硬體 ASP。推理成本雪崩:應用浪潮的底層邏輯,“通縮型 AI”成為董事會新 KPI成本-優先的預算組態,關稅推高投入品價格、利率維持高位,CFO/審計委員會要求“以技術換毛利”,優先批 AI/自動化項目。ServiceNow 把“AI=降本”講成了可量化指標(Pro Plus ×4 收單),搶佔了 Narrative 高地。從serviceNOW的財報可以看到,將功能打包 → 減少採購行數(line-item consolidation),平台與整合成本可核算 → CFO 最容易批。為何“通縮型 AI”會晉陞為董事會級 KPI?49 %的技術領袖已將 AI “深度嵌入核心業務策略”,CFO 調研中 52 % 將“成本削減”列為引入 GenAI 的首要動機。 (2025 AI Business Predictions - PwC, More Than 40% of Companies Are Experimenting With GenAI, CFO Survey Shows)ServiceNow 案例:如何把“AI = 降本”講成能落地的財務故事?來源:ServiceNow ’25Q1 電話會Narrative 把握:管理層在 call 中 9 次提到 “deflation(ary)” 與 “cost-takeout”,明確把 AI 推向 CFO 的 P/L 改善 維度,而非模糊的創新願景。“成本-優先”預算的新採購邏輯是什麼?ROI 決策門檻,12 個月回本:與租賃、融資租賃的平均報酬期持平。ΔGross Margin ≥ +200 bp或 ΔOperating Margin ≥ +150 bp。Line-Item Consolidation,每減少 1 個 SKU,可降低 3-6 % 合規與審批時間(內部審計資料顯示)。打包後使 IT、財務、營運預算可一次性核銷,縮短 CAPEX-to-OPEX 轉換流程。平台可核算,內建 TCO Dashboards:自動拉取工單工時、雲實例用量、重工率,即時對應到“已驗證節省($)”—— CFO 審計最看重的欄位。對於SaaS公司要不斷調整產品以匹配當前CXO等級的核心訴求銷售 Demo 中即預填行業基準,現場調參數 → 直接得出 ΔGross Margin、ΔFCF → CFO 當場拍板。Narrative 是武器:把 AI 明確定位為 “Deflation Engine” 而非“增收玩具”,讓 CFO/董事會在價值鏈最左端(成本)就看見硬指標。產品層面:少 SKU、多 ROI;把“省錢”寫進合約,再用即時儀表盤證明;並提供漸進式 Outcome-based 計費以鎖定中長期黏性。組織層面:採購思維從“功能買單”轉向“財務成果買單”;產品必須自帶測量、驗證與迭代閉環,否則 Narrative 難長期站得住。這樣,才能真正搶佔下一輪 IT 預算分配的 “通縮型 AI” 高地。“API 單價雪崩”對應用層的四重影響DeepSeek-R2(1.2 T MoE,總啟動 78 B)傳言訓練+推理成本較 GPT-4 再低 97%,本質上只是將既有 “LLMflation” 曲線再向下壓一個量級:過去 3 年推理單價已呈 ≈10×/年 的跌速,很多 A16Z 報告把它比作新的 “摩爾定律”  (Welcome to LLMflation - LLM inference cost is going down fast ⬇️, GenAI costs follow a Moore's Law-style curve, VC claims - The Stack)。不論 R2 真偽,這種加速的價格下行對上層產品意味著:架構層:多檔模型棧成為默認選擇動態路由:先用低成本模型做 MPT(“Minimal Passing Task”),僅在置信度不足時提升到高階模型;快取 + 檢索:Embedding 檢索命中率提升 10 %,即省下 10 % 高階模型呼叫費。商業模式層:Seat → Usage 的遷移加速成本、收入對齊:當 API 單價 <0.5 $/M tokens 時,按席位打包的溢價空間被壓縮;客戶更願意“用多少算多少”。波動性治理:Usage 模式易導致 MRR/SaaS 報表波動;主流做法是 “Hybrid 定價”:基礎訂閱費(鎖定最低 ARPU) + AI Token 錢包(按量自動充值) (AI is changing how software companies charge customers. Welcome to the pay-as-you-go future.)競爭格局層:Infra 毛利向“私域資料 + 縱深工作流”搬遷往下遊走:把 LLM 變成“發動機”而非“整車”;價值捆綁在任務完成(為什麼要往下遊走,具體參見前期文章:OpenAI的社交媒體與消費網際網路之夢)。守護專屬資料:當模型廉價且同質化,專有資料資產成為Alpha 之源。產品/體驗層:高頻、長上下文、即時場景正式可行當基礎推理成本以幾何級數下墜,應用端的護城河將不再是“會調模型”,而是“掌握獨特資料 + 深嵌業務流程 + 對結果計價”。 現在就要把“模型成本敏感度”寫進產品 KPI,把“資料-工作流-收益”三件事擰成一體,才能在 API 價格雪崩時代佔得先機。估值範式切換:從 EBITDA → 資料+留存自 2H25 起,市場對應用類公司很有可能給 10-15× ARR,一旦 Rule of 40 >50% 有望拓到 20×;同時需對 token 成本做動態敏感性壓力測試。所以:硬體估值已 Price-in 供需剪刀差,進一步 β 收益有限;價值重心正加速向“掌握專有資料+深嵌工作流”的應用層遷移;投資框架必須從 EBITDA 轉向 ARR 留存與資料飛輪強度。抓住“精而深”的垂直 SaaS、AI 代理與多模型路由整合者,才可能在第二波浪潮中繼續享受 Alpha。 (貝葉斯之美)