Token,Token,還是Token。
在12月18日的FORCE原動力大會上,火山引擎總裁譚待半小時的開場演講裡提了18次“Token”,而“雲”則只出現了7次。
火山也再次更新了備受矚目的豆包大模型最新日均Token呼叫量:
50兆。
這一指標從發佈至今實現了417 倍增長,相比去年 12 月則是超 10 倍增長。作為對比,Google10月最新公佈的月均Token直接換算為日均量的資料是43兆。豆包大模型的呼叫量已經是中國第一、全球第三。
而根據IDC的報告,火山引擎在中國的公有雲大模型的服務呼叫量上也是穩居第一,MaaS市場份額從2024年的46.4%進一步提升到了今年的49.2%。
“也就是說,在中國公有雲上每產生的兩個Tokens就有一個是火山引擎生產的。”譚待在當天面對台下5000名觀眾說道。
在當天的發佈中,一如既往由火山來更新了字節最新模型的進展。
豆包大模型1.8正式亮相,它在多項指標上顯著提升,繼續走All-in-One的技術路線,文字、程式碼、Agent、音訊,圖視訊等能力,全部在同一個基礎模型裡演進;而專門為視訊生成服務的Seedance 1.5 pro也同步推出,在音畫同步、中文及方言處理上做到了“世界領先水平”。
字節要傳達的資訊明顯:豆包大模型創造著Token,且它的進化方向也正對應著今天Token消耗的結構性變化——從“推理取代訓練”推動Token消耗,到今天多模態+Agent成為Token的絕對大頭,這些需求都可以被火山提供的服務滿足。
這一切迅猛增長的背後,火山引擎正在建立起一套它自己的Token經濟學。
Token,是大模型處理資訊的基本單位。無論是文字、圖像還是視訊,在模型中都在被轉換為Token序列進行計算。本質上,Token就是人們對AI的呼叫量。
但這背後存在一個問題:由於Token的計算方式基於長度,所以一篇文章和一段關鍵的程式碼可能消耗相似的Token數量。那麼,純粹的以Token數量來衡量,能否真實反映AI創造的價值?
火山引擎的演算法人員在和我們的交流中回憶,其實曾經火山內部也有過類似爭論,但最終的結論是:Token量一定是對的指標。
“AI要在實際場景產生價值,大家肯定要把它用起來,不管單位價值有大有小,但實際上一定是跟Token用量正相關的。可能你最終的那個關鍵決策對應的只是‘是’或者‘否’,一個Token,但得出這個結論必然已經用掉了大量Token。”
所以火山內部最終明確,更多的Token就是代表更多智能。
而今天Token的增長,其內在結構也在悄然變化。火山引擎智能演算法負責人吳迪提供了一個演化路徑:
“可能到了2027,2028年,一個普通的C端使用者從AI助手得到的很多的訊號就是視覺的,你不會看到大段大段的文字了。那麼,到時候LLM會以coding和agent的形式下沉到整個數字世界的底層運行邏輯裡。”
換言之,Token會分層,LLM會向下成為底座,多模態的視覺、互動Token將在上層湧現。
這就會讓Token成為一個持續增長的指標,也是一個有效指標。吳迪預測,到2030年,國內市場的Token消耗量將是現在的百倍以上。屆時,衡量企業智能化程度的核心指標,將從其擁有的GPU數量轉變為消耗的Token總量,因為它是唯一能同時穿透“模型能力、使用頻率和真實需求”的統一指標。
更多Token意味更多智能,那麼如何讓企業客戶更好生成它們需要的Token,就是火山作為從字節內部走出的“AI雲原生”基礎設施的任務。
過往雲端運算所習慣的一整套體系也因此出現“不適”,它更多是一個圍繞算力設計的體系,而火山認為新的需求註定是圍繞模型的。
“傳統 IaaS、PaaS、SaaS分層規劃的IT架構不再有效,以模型為中心的AI雲原生架構正在形成。”譚待說。
此次的一整套體系也由此誕生。
火山推出了“推理代工”,企業可將訓練好的模型託管至火山,按實際Token消耗付費,無需自建推理叢集;
Agent開髮套件(ADK) 全面升級,支援動態執行階段、多會話共享、強身份傳遞與內建工具鏈;
智能端點(Endpoint) 支援模型路由,可根據效果、成本等策略自動分流至豆包、DeepSeek、Kimi等多模型後端;
方舟平台進一步升級,支援客戶在自有場景中做RL 強化學習等的微調。
而且這一系列產品裡的很多細節,都體現出很多根本性差異。
例如,Agent開髮套件(ADK) 的動態執行階段設計,直接挑戰了行業慣例。AWS AgentCore為每個會話啟動一個獨立執行階段,而火山採用多會話共享模式。
火山引擎雲基礎產品負責人田濤濤直言,這是一個行業慣性的問題,AgentCore為每個session起一個Runtime,過去可以,但進入模型時代就太奢侈了,而火山對成本敏感,字節自己內部就一直有不同的更AI原生的需求,因此本就有不同的設計,現在可以推廣給更多模型使用者。
在火山看來,人們最終會“躍過”對算力的關注,最終直接衝著模型而來。
“你很難想像五年後新的創業者還會去雲上租GPU、開資料庫。到時候在他們創業的第一天,他們會直接向雲服務商‘要Token’,直接要的就是呼叫模型和配套工具。”吳迪說。
“我們已經把像Response API、分佈式的KV Cache、良好的P/D分離、一大堆高品質的內建Tools組裝好了,等著你把你的一個齒輪裝上來,這輛車就能跑。”
火山還配套改進了模型服務的定價模式,推出了一個“AI節省計畫”,讓企業達到模型使用成本的全域最優解。
“客戶只需要為用了的Token付錢。”
現在我們可以來看看字節和火山今天已經有了什麼:
這種全端系統能力是今天最重要AI玩家必備的能力,橫向對比,可以把目前的玩家分為三種路線:
OpenAI + 微軟路線:模型自己的,雲設施是戰略夥伴的。
這裡面,字節的路線很像Google。
豆包就對應著Gemini,一個大一統的多模態agent模型。Seedance 1.5緊跟Veo3,甚至超過了對方。這一切的技術基礎也和Google類似,都長在自己的以AI為核心的機器學習平台和雲服務上,然後這些“Gemini同款”和“豆包同款”細化成產品再提供給外界。
而尚未被太多關注到的另一個“相似”,則是對待模型技術的方式上。
Google在Gemini 3的“翻身仗”後分享了很多內部復盤,其中最重要一個因素就是模型、研發、產品和需求的統一打通。而字節如何訓練模型此前並未被外界瞭解,它與大多模型公司一個非常大的不同是,它把真實市場需求直接一桿子打通到了模型訓練層面。
火山引擎作為模型對外統一的出口,也有自己的演算法人員,他們和字節的模型部門Seed緊密合作,甚至是“混合辦公”和各種靈活的配合方式,而火山引擎團隊所獲取到的市場需求情況,可以直接影響模型研發方向和決策。
火山的模型策略團隊會把市場上的需求反饋收集和抽象出來,直接影響到模型的重要功能和研發方向。
這都直接體現在豆包大模型的身上:
豆包之所以是一個大一統的模型,除了技術路線的選擇,也是從客戶體驗出發:火山的客戶們認為模型版本太多了,甚至字節內部的“使用者”都搞不清楚各方面的區別,所以這個模型必須all in one來降低選擇成本。
字節認為,今天訓練模型最重要的是評估體系,而它絕對不應該只是公開的benchmark,必須用真實業務價值來衡量模型能力。字節內部已經為B端建設了大量benchmark,模型開發成果必須真正符合實際的經濟價值要求。
於是Seedance會在模型層面增加一個Draft樣片的能力,讓使用者不是抽卡,而是提前做預覽判斷;豆包模型在建設工具呼叫能力之外,直接在配套API中就配套做了許多built in的工具。128k上下文這種看起來能用來炫技但事實上實際需求並不高的能力,就會被去掉。
“在25年,有超過100萬家企業和個人使用了火山引擎的大模型服務,覆蓋了100多個行業,我們也對他們在火山方舟上的用量進行了匿名統計,我們發現,有超過100家企業在火山引擎累計Tokens使用量超過了1兆。”譚待在發佈會上說。
這可能是比市場份額增長更值得玩味的一組資料。 它最能體現字節這種用需求指引模型發展的方式所帶來的收益。
所以,如果我們來拆解一下,字節的Token經濟學就是:
1. 越多的Token意味越高智能
Token是智能的度量衡,其增長與結構變化指引技術演進。
2. 服務AI的雲必須以模型為中心重構
傳統雲廠商的慣性已經太大,而火山服務的最大客戶就是字節自己,字節就是一個長在AI和模型上的公司,火山解決的一直是AI的需求,現在這些需求變成外界的廣泛需求,它的技術思路就可以用來重構整個雲行業的方案。
3. Agent的普及會讓Token從原材料變為更高級的智能單元,進而帶來更大價值
譚待曾經形容,目前基於Token的商業模式還很原始,而今天他認為,隨著Agent的進步和在企業裡的普及,Token最終會走出今天“原材料”的定位。
Agent 可將模型串聯,雲平台和中介軟體進一步把Tokens組裝成Agents,並實現Agent和現有工作流、Agent和Agent之間的智能互通,以 API 或完整 Agent 的方式提供服務,從更高抽象層次創造價值。
“今天討論Token,是從底層作業系統角度看,是在 IT 預算環節考慮;而抽象成 Agent 後,可從 BPO (業務流程外包)角度看待,那麼它就是在擴大整個市場的規模了。”譚待說。
“人們常說的10兆Agent市場,核心就是這個邏輯。” (矽星人Pro)