這場討論的核心,其實不是“AI 需求還在不在”,而是更細的一層:當企業開始管理 Token 預算、把不同任務分流到不同模型時,AI 算力需求到底是在被削弱,還是進入更成熟的使用階段。
摩根士丹利主題研究主管、AI電力領域專家Stephen Byrd,討論近期圍繞“Token超額使用”的爭議:市場上陸續出現一些評論,稱 Uber、Meta、Amazon、Microsoft 等大型客戶過去在 Token 上投入過猛,現在正試圖削減、最佳化或重新分配相關支出。與此同時,OpenRouter 等資料也顯示,中國開源模型和低成本模型正在獲得更多呼叫份額。這個邏輯之所以棘手,是因為它不像傳統的“需求放緩”那麼直白,而是直指 AI 產業鏈的核心假設:如果 Token 價格下降、模型路由更高效,超大規模雲廠商的資本開支還會繼續上行嗎?
Stephen Byrd 的回答相對清楚:短期看,這更像是傑文斯悖論的正常展開,而不是 AI 需求見頂。單位成本下降之後,企業會使用更多 AI;同時,企業也會把高端任務留給前沿模型,把低價值、低複雜度任務交給便宜模型。真正需要警惕的,不是預算最佳化本身,而是低成本模型能否通過編排層拼接出前沿模型的能力。如果這一點被證明成立,價值分配才可能發生實質變化。
先說結論:這不是 AI CapEx 被證偽,更像是 Token 使用進入精細化階段
為什麼“Token 都一樣”是誤解:高端模型的價值在複雜任務裡最明顯
討論一開始,Stephen Byrd 先承認了風險:企業確實會開始管理 Token 支出,模型路由也確實會把一部分任務導向更便宜的模型。但他反覆強調,不能把所有 Token 都視為同一種商品。不同模型生成的 Token 背後,是不同等級的推理能力、創造性、可靠性和錯誤率。
他舉了一個非常直觀的案例:摩根士丹利研究部門一位程式設計師使用美國程式設計工具,生成了一個約 6,000 行程式碼的程序,總成本為 58 美元,相當於每 100 行程式碼約 1 美元。如果完全由人來寫,可能需要數天,企業成本則是數千美元。這裡真正重要的不是 58 美元能否再降到 20 美元,而是模型生成的結果是否足夠可靠、能否減少人工排查、能否真正交付業務價值。
這也解釋了為什麼高端模型仍有定價空間。對於關鍵任務而言,低品質輸出並不是“便宜一點”的問題,而是可能導致返工、錯誤判斷甚至業務風險。換句話說,當模型成本只佔最終價值的一小部分時,企業不會單純為了省幾美元而犧牲任務質量。
因此,本輪 Token 預算討論的第一層結論是:模型分層會發生,但高端模型並不會因為低成本模型出現而自動失去價值。真正的高價值任務,仍會願意為更強的模型能力付費。
企業智能體 ROI:一邊是 2—3 美元成本,一邊是 55 美元價值
在“Token 工廠”模型中,Stephen 從兩個角度測算投資回報率:一個是企業採用者,另一個是超大規模雲廠商。
從企業端看,一家大型美國 AI 實驗室曾覆蓋不同企業用例做過研究。雖然場景差異很大,但單次 AI 使用平均可以為企業創造約 55 美元的收益或成本節省。若一次使用需要幾十萬個 Token,而優秀美國模型按每 100 萬 Token 約 5 美元計算,則一次任務大致消耗三分之一到二分之一個百萬 Token,成本只有 2—3 美元。
這組帳的含義很直接:只要企業用 2—3 美元的 Token 成本,能夠換來幾十美元乃至更高的業務價值,企業就還有動力繼續增加使用。即便換用更便宜的中國模型可以把成本壓到 1 美元以下,企業也需要權衡模型質量、錯誤率和可用性。
從雲廠商角度看,若把資料中心建設、運行、折舊、晶片和能源成本納入測算,當前 Token 定價下的投資回報仍然相當不錯。再疊加算力供給仍然緊張,說明算力銷售方並非完全沒有定價權。
所以,這裡的關鍵不是“企業會不會最佳化成本”——一定會;關鍵是“最佳化之後,需求是否消失”——目前看並沒有。相反,ROI 足夠高的場景會繼續擴大,企業只是開始把不同任務放到不同價格帶的模型上。
中國低成本模型與傑文斯悖論:份額變化不等於需求坍塌
DeepSeek 之後,市場曾經擔心更便宜的模型會壓低 AI 產業鏈價值。但過去一段時間的實際情況,更符合傑文斯悖論:單位使用成本下降,反而刺激更多場景被開發出來,Token 用量和算力需求繼續增長。
現在的問題變得更細:如果美國 AI 實驗室的份額被中國開源模型和低成本模型分流,而中國廠商又因為算力受限而採用更節省計算資源的方法,這會不會削弱傑文斯悖論?Stephen 的判斷是,市場整體仍在大幅擴張。根本原因是企業能用模型完成的工作正在快速增加。
例如,前文提到的 6,000 行程式碼案例,本質上不是“用 AI 替代原本一定會發生的人工作業”,而是讓原本沒有時間完成的任務變得可行。這類新增任務會不斷出現。隨著 AI 能承擔更多經濟活動,整體算力和工具需求仍會爆發式增長。
不過,他也提示了兩類風險。第一,如果美國前沿模型受到使用限制,導致其對外可用性下降,中國模型獲得更長追趕窗口,這對美國相關股票會構成壓力,對中國相關股票則可能形成利多。第二,如果編排層能夠用低成本模型拼出高端模型效果,前沿模型的價值錨就會被削弱。
現階段,低成本模型分走一部分用量,仍屬於預期內的效率最佳化;只有當它們開始系統性替代高價值前沿任務時,才構成真正的看空證據。
編排層是最大變數:路由是效率工具,也可能改變價值分配
雲廠商正在調整敘事:最重要的未必是誰擁有最強模型,而是誰掌握模型編排層和路由層。也就是說,針對不同任務選擇最合適的模型,而不是所有任務都呼叫最貴的前沿模型。
Stephen 對編排層本身並不反感。簡單任務使用低成本模型,複雜任務使用高端模型,這有助於企業提高 ROI,也有助於 AI 應用擴散。問題在於,編排層是否能把兩三個甚至四個低成本模型組合起來,達到一個前沿模型的效果。OpenRouter 的 Fusion 工具已經顯示出一些這種方向的跡象。
如果前沿模型仍然保持明顯差異化,比如在生命科學、網路安全、複雜程式設計、法律策略等領域擁有獨特能力,那麼價值仍會留在模型開發商手中。Demis Hassabis 提到在通用模型內部開發高度專業化生命科學模型,就是前沿模型差異化的一種方向。
反過來,如果未來不同前沿模型能力逐步收斂,低成本模型又能通過路由組合逼近高端模型結果,那麼價值就可能從模型實驗室轉向雲廠商、路由平台和應用層。這是本場討論中最需要持續跟蹤的風險。
除程式設計以外,那些場景仍需要“藍寶堅尼級”模型?
市場上的一個常見看空邏輯是:程式設計是首個大規模 AI 用例,也許確實需要最強模型,因為 6,000 行程式碼只要一行出錯就很麻煩;但當 AI 擴散到更廣泛經濟活動中,是否還有足夠多工需要最高等級模型?
Stephen 的回答偏樂觀。他認為,很多職業本質上都與程式設計類似,都包含大量高智力、非機械化、需要判斷和創造性的工作。比如一位訴訟律師使用前沿模型,不是為了做簡單檢索,而是把律所過往全部材料輸入模型,讓模型在訴訟策略、表達方式和案件推進上提供高品質建議。
在這個場景中,模型扮演的是同事、合夥人和顧問,而不是一個低成本問答工具。這類任務對質量、上下文理解、推理和表達都有較高要求,因此天然更適合前沿模型。
當然,同一家企業內部也會有大量不需要前沿模型的任務。律師事務所的計費、行政、資料歸檔等工作,完全可以交給更便宜的模型。未來企業的 AI 使用大機率會形成分層:高價值工作用強模型,流程化工作用低成本模型。這不是需求消失,而是需求結構成熟。
“Apple 與 Android”式格局:開源模型拿用量,前沿模型拿價值?
討論中提出了一個有意思的類比:Token 市場最終是否會形成類似 Apple 與 Android 的格局?西方前沿模型獲取更高價格和更大價值份額,開源模型及中國模型獲取更大呼叫份額。
Stephen 大體認同這個框架,但他並不認為低成本模型一定會佔據更多 Token 用量。原因在於,高端任務本身也可能消耗大量 Token。企業把複雜研發、法律、策略、程式設計和多步驟智能體任務交給前沿模型時,單次呼叫可能比簡單任務消耗更多算力。
此外,晶片代際演進也會持續降低前沿模型的 Token 成本。從 Blackwell 到 Rubin,再到 Feynman,按交流中的測算,生產 Token 的成本可能下降約 75%。這意味著,即便是高端、重 Token 任務,單位成本也會不斷下降。
所以,不能簡單說“開放權重模型更便宜,因此一定消耗更多 Token”。如果按收入、利潤和資本投入衡量,市場可能仍然明顯偏向前沿模型;如果按呼叫次數或低複雜度任務數量衡量,開源和低成本模型會佔有重要位置。
企業使用中國模型的安全顧慮:美國更謹慎,全球市場更分化
調研中有人提到,一些非上市廠商正在用中國模型替代昂貴的西方模型;部分上市公司則試用更便宜的西方模型,以避免使用中國模型帶來的安全風險。
Stephen 的反饋是:在美國,企業確實存在明顯顧慮。安全、資料、合規和供應鏈信任,都會影響企業是否願意直接使用中國模型。尤其是關鍵業務場景,企業往往更傾向於使用美國或受信任託管環境中的模型。
但美國並不代表全球。歐洲企業擔心未來可能無法持續使用美國前沿模型,因此會考慮中國模型、Mistral 或本地模型。印度以及部分全球南方國家,則更傾向開放權重模型,不希望依賴專有模型。
這說明,中國模型的全球機會並不只取決於價格,還取決於地緣政治、主權 AI、資料安全和本地可控等因素。與此同時,低成本和高效率也不是中國模型獨有,美國模型開發商同樣在推出更便宜的模型架構,使用者也可以被路由至低價美國模型。
中國模型追趕、算力約束與遞迴式自我改進
關於中國模型追趕速度,市場有兩種說法。一種認為,算力受限反而倒逼中國廠商以更少資源實現更高效率,差距已經縮短到 30—60 天。另一種認為,中國模型更多依賴蒸餾西方模型。Stephen 對此保持謹慎:外部很難確認真實機制,但他不同意“最好中國模型只落後美國模型 30—60 天”的判斷。
他認為,美國前沿模型正在發生的進展,比市場意識到的更令人興奮,部分能力提升還沒有完全反映在公開基準測試中。與此同時,中國確實擁有豐富能源資源和強大的 AI 研發人才,但算力相對不足仍是重要約束。美國也有能源瓶頸,但在算力上仍具備明顯優勢。
長期真正不確定的變數,是遞迴式模型自我改進。中國廠商也在做這一點,而這種方法可能顯著提高模型迭代效率。如果某一兩家模型開發商率先實現強自我改進,能力快速躍升,市場可能重新擔心其他模型開發商是否會削減資本開支。
也就是說,中美競爭尚未定局。算力、能源、人才、演算法效率、模型自我改進路徑,都會影響最終格局。對投資而言,這意味著模型能力分化仍可能帶來較大波動。
企業 AI 滲透率仍極低:預算紀律不等於需求見頂
最後一個重要討論,是企業 AI 的真實滲透階段。Ramp 的資料給出了一個有代表性的視角:企業 AI 滲透率仍不足 1%;從 1 月到 5 月,單家企業 Token 支出增長到原來的 15 倍;即使市場開始強調成本紀律,最近一個月仍環比增長 14%。在 AI 採用程度最高的四分之一企業中,AI 支出也只佔企業總支出的 1%,若剔除薪酬,也只佔 2%。
Stephen 對這一判斷基本認同。他認為企業採用 AI 還處在極早期,甚至還沒到棒球比賽的第一局。現在的典型現像是:企業內部少數真正理解 AI 能做什麼的員工,會迅速增加使用量,導致局部支出很高。隨後企業開始反思那些任務需要前沿模型、那些任務可以下放給低層級模型。
這其實是健康訊號。它說明企業已經看到了真實價值,然後才開始做預算管理和模型分配。真正的看空風險,是低層級模型未來能夠完成早期前沿模型已經證明價值的同類任務;而不是企業發現員工花得太快,於是適度收緊預算。
如果未來美國企業真的把每名員工每月數千美元的 AI 預算都用到上限,那反而會是“幸福的煩惱”。在這個階段,零散的 Token 支出合理化案例,不足以說明 AI 總需求已經見頂。
後續最值得跟蹤的幾個變數
- 前沿模型與低成本模型之間的能力差距是否繼續存在,尤其是在複雜程式設計、法律、生命科學、網路安全等高價值任務中。
- 模型編排層是否只是做成本最佳化,還是能夠真正用多個便宜模型拼出前沿模型能力。
- 企業 AI 支出從早期試用走向常態化後,單員工 AI 預算上限、實際使用率和 ROI 是否繼續提升。
- 美國、中國、歐洲、印度等不同地區對模型安全、主權 AI 和開放權重模型的偏好如何演變。
- 晶片代際演進帶來的 Token 成本下降,能否繼續刺激更多高價值、高 Token 消耗場景出現。
- 模型開發商的遞迴式自我改進進展,是否會導致前沿模型能力重新拉開差距。
總結:看空邏輯更精細了,但尚未擊穿 AI 算力主線
這場討論最有價值的地方在於,它沒有簡單否認風險。Token 預算最佳化、模型分流、中國低成本模型崛起、編排層價值上升,這些都是真實發生的變化。問題在於,這些變化目前更像是 AI 產業進入精細化使用階段,而不是需求被證偽。
真正能夠打破 AI 算力主線的證據,應當是低成本模型系統性替代前沿模型高價值任務,或者企業在廣泛部署之後發現 ROI 不成立。目前看到的則相反:大量企業仍處於極早期採用階段,少數早期使用者已經證明了高 ROI,於是企業開始做更細的模型分配。
因此,對產業鏈而言,短期更合理的判斷是:Token 需求會分層,模型價值會分化,路由層重要性會上升,但高端模型和高端算力仍然有存在基礎。真正的分水嶺,可能不是 2026 年企業開始管預算,而是未來低成本模型能否持續逼近前沿模型的高價值任務能力。 (大行投研)
