2026年5月5日,高盛發佈了一份重磅研究報告,標題為《Decoding the Agentic Economy:The Coming Inflection in AI Usage and Margins 解碼Agent經濟:AI使用量與利潤率的即將拐點》。
這份報告試圖回答一個市場最關心的問題:AI的大規模基礎設施投入,究竟什麼時候能開始賺錢?
答案可能比大多數人預想的更近。
核心判斷:Token經濟學正在迎來拐點
過去兩年,市場對AI的主流敘事是燒錢。更多的推理負載意味著更多的加速晶片、更大的電力消耗,以及更高的資本支出。
但高盛在這份報告中指出,這個邏輯正在發生根本性變化。
關鍵在於兩條曲線的走勢分化。
一方面,主流大模型的Token定價在經歷了長期的快速下降後,已經開始趨於穩定,部分場景甚至出現價格上調。
另一方面,基於輝達、AMD、GoogleTPU和Trainium等晶片平台的底層算力成本,仍在以每年60%-70%的速度持續下降。
當價格走穩而成本繼續下降,一個簡單但意義重大的經濟學結論浮出水面:Token的邊際利潤率正在改善。
高盛預計,這一正向的毛利率拐點很可能在2026年上半年內出現。
這意味著接下來AI使用量的爆發式增長,不再只是一個收入故事,更是一個利潤故事。
超大規模雲廠商和模型提供商的經濟模型正在從推理虧損走向推理獲利,而這將使整個行業的資本支出變得更加可持續。
Agent:不是更好的聊天機器人,而是全新的使用範式
報告的核心研究對像是Agentic AI(智能體AI)。
與傳統的聊天機器人不同,Agent不只是回答問題,而是能夠自主地規劃、執行、監控和迭代完成複雜任務。
高盛將其分為兩大類:消費級Agent和企業級Agent,並分別做了深入的量化分析。
消費級Agent:從“問一句答一句”到“永遠線上”
今天大多數消費者使用AI的方式仍然是對話式的,也就是提一個問題,得到一個回答,然後關閉窗口。
高盛的資料顯示,2025年平均每次AI查詢消耗約1,715個Token,大致相當於3-5分鐘的對話。
但這種使用模式正在發生根本性轉變。高盛將消費級Agent分為兩種模型:
按需型Agent(On-Demand):使用者主動發起任務,Agent負責規劃和執行。例如,使用者說“幫我訂一張下周去東京的機票”,Agent隨即進行航班搜尋、價格比較、行程組合、可行性驗證等一系列操作。
高盛建構的模擬旅行預訂Agent顯示,即使是一次簡單的旅行規劃,也需要經過意圖解析、缺失資訊補充、多輪搜尋篩選、使用者反饋整合、預訂前驗證等十多個步驟,Token消耗量遠超一次普通對話。
常駐型Agent(Always-On):這是消費級Agent中Token消耗量最大的類別。這類Agent不需要使用者主動觸發,而是持續在背景執行,比如監控信箱、管理日程、追蹤價格變動、自動整理資訊。
高盛建構的郵件監控Agent模擬顯示,一個全天運行的郵件助手每天需要消耗超過10萬個Token,是傳統聊天對話的近百倍。
高盛預計,到2030年,全球每天的AI查詢量將從2025年的約50億次增長到約230億次,其中高達30%可能由Agent處理。
消費級Agent工作負載將推動全球Token消耗量較當前水平增長約12倍,每月新增約60千兆個Token。
企業級Agent:更複雜、更精確、更耗Token
如果說消費級Agent的核心驅動力是便利性,那麼企業級Agent的核心驅動力則是精確性。
一個消費級Agent給出差不多的答案往往就夠了,但企業級Agent需要經過多輪推理、驗證、糾錯和審計,才能輸出可用於真實業務流程的結果。
高盛的方法論頗具說服力。
他們沒有停留在抽象的崗位替代率層面,而是針對AI暴露度最高的職業,基於Anthropic的實際使用資料,逐一建構了模擬Agent,將每個工作流程拆解為具體的步驟、模型呼叫、工具呼叫、驗證循環和重試邏輯,從而估算出最低Token消耗量。
結果揭示了一個重要的不對稱性:Token消耗量和實際API成本並不總是成正比。
以程式設計Agent為例,它每天需要消耗約700萬個Token,但由於工作流程以文字為主,每天的API成本僅約13美元,這也解釋了為什麼軟體開發是目前Agent採用速度最快的領域。
相比之下,呼叫中心Agent每天只消耗約200萬個Token,但如果依賴即時語音處理,每天的API成本可能高達92美元,遠超目前外包人工客服的成本(約90美元/天)。
資料錄入Agent則處於另一個極端:每天消耗高達2,500萬個Token,成本約60美元/天,低於對應的人工成本(約80美元/天),屬於Token密集但經濟上可行的場景。
這意味著Agent的採用不會均勻地發生在所有崗位上。
高盛認為,採用速度將取決於四個變數:Token消耗量、API成本、多模態需求和實施複雜度。
文字密集型且工具生態成熟的工作流程將率先規模化;語音密集型或深度整合的後台流程可能需要更長時間。
從歷史中尋找採用曲線的線索
為了預測Agent的採用節奏,高盛做了一件有趣的事。
他們借鑑了經濟學家Comin和Hobijn的歷史技術擴散資料庫,涵蓋161個國家、101種技術、跨度200年的資料,從中提取企業級技術的採用規律。
歷史告訴我們幾件事。
第一,不同技術從發明到滲透率達峰的時間差異巨大,鐵路和固定電話花了100多年,ATM和微創手術技術只用了不到20年,中位數為29年。
第二,採用曲線的形態不盡相同。有的呈J型(網際網路在1990年代的爆發),有的呈S型(電報、居家透析),有的則近似線性(郵政、電力)。
第三,新技術的峰值往往高於舊技術,因為它們往往是在擴大總盤子,而非簡單替代。
高盛據此做出兩個基線假設:企業級Agent的採用將呈S型曲線,從目前的試驗期到2030年前後進入加速擴散階段;達到峰值滲透率的時間約為15年,快於歷史中位數。
在峰值狀態下(約2040年),全球知識工作者中約37%的工作流程將由Agent處理,屆時全球Token消耗量將達到當前水平的55倍。
到2030年,消費級和企業級Agent合計將推動全球Token消耗量達到當前的24倍以上,即每月約120千兆個Token。
一個自我強化的飛輪
高盛在報告中描繪了一個頗具說服力的正反饋循環。
算力成本下降,使得更複雜的Agent在經濟上變得可行;更複雜的Agent消耗更多Token(更長的上下文、更多的循環、更多的驗證、更持續的監控);更高的使用率改善了AI基礎設施的經濟性;更好的經濟性又為模型質量和分發能力的持續投入提供了空間。
這個飛輪的意義在於,它與此前市場的主流擔憂形成了鮮明對比。
此前的敘事是AI使用量越大,虧損越多,而現在的邏輯是AI使用量越大,單位利潤越高。
當然,高盛也提醒,這一正向拐點並非對所有AI工作負載都成立。競爭可能迫使某些標準化聊天產品的Token價格繼續下降,快於成本的降幅。
投資啟示與重點標的
基於上述分析框架,高盛在三條主線上給出了投資建議。
在半導體領域,首選博通(Broadcom)、輝達(Nvidia)和AMD。
邏輯是,Token成本的持續下降將使更多Token密集型場景在經濟上可行,從而擴大可定址的算力市場。
更重要的是,下遊客戶(雲廠商和模型廠商)利潤率的改善,將為持續的資本支出創造更多空間。
在網際網路與雲端運算領域,首選Google母公司Alphabet、亞馬遜和Meta。
這三家公司分別在雲端運算、電商和數字廣告領域擁有強大的分發能力,同時也是AI算力的最大買家和部署者。
高盛特別指出,亞馬遜AWS的營收增速已重新加速至同比28%,Google雲增速達到63%,Alphabet的營收積壓訂單接近4,600億美元。
在軟體與IT服務領域,首選微軟、Cloudflare和埃森哲。
微軟的Copilot反饋持續改善,E7升級周期有望進一步加速Microsoft 365的增長。Cloudflare憑藉其網路架構和隔離技術的優勢,有望在AI推理工作負載中獲取超額份額。埃森哲則將受益於企業從AI試點向規模化Agent部署轉型過程中對整合、工作流再設計和變革管理的巨大需求。
幾個值得關注的訊號
報告中還有幾個細節值得投資者關注。
一是BaseTen在高盛私有公司會議上提到,推理算力的供需失衡比大多數行業參與者感知的要嚴重得多。
一些公司的工程推理成本已經從初始預算超支了數個量級,目前約占人員成本的10%,但按照當前軌跡,可能在幾個季度內與人員成本持平。
二是軟體公司的定價模式正在發生根本性變化。
越來越多的公司開始按工作單元而非席位定價。調查資料顯示,企業願意為通用智能Agent支付每年2,400美元,作為參考,微軟365中間檔E5的年費約為680美元,而程式設計工具的ARPU已經增長了25倍。
三是關於採用節奏的一個反直覺發現。
那些被認為最容易被AI替代的崗位,未必是最先被Agent滲透的崗位。真正決定採用速度的,不是能不能做,而是做起來劃不划算。
結語
高盛這份報告最核心的投資邏輯可以濃縮為一句話:Agent經濟不是簡單地將今天的聊天機器人使用量外推到未來,而是一個使用量與利潤率同步改善的新階段。
當Token消耗量以24倍的速度增長,而單位Token的利潤率同時在擴張時,這對於整個AI價值鏈的含義是深遠的。
當然,所有預測都基於一系列假設,現實中的路徑必然曲折。
但至少有一點是清楚的:AI從概念驗證到規模化盈利的距離,正在以比市場預期更快的速度縮短。 (灣仔策略)
