過去兩年,Token的生產成本一直在下降,但售價卻一直漲。
看起來前後矛盾的事,背後是一筆基於Token商業模式逐漸成熟而成立的生意。
硬體和模型,這幾年不斷最佳化迭代,幾乎都指向同一個方向:更便宜的推理、更低廉的算力。
但另一面,是逐漸成熟的智能體以及已經閉環的業務。“真正靠AI賺到錢的人,根本不會被價格勸退,只會默默想辦法降本。”夏立雪說,他幾乎沒有任何思考時間就下了這個判斷,似乎是已經提前看明白了這個問題。他是無問芯穹的聯合創始人兼CEO。這家2023年成立的、與清華大學電子工程系有深厚淵源的公司,做的一部分事情,在行業裡有一個越來越流行的說法:Token工廠。
可能很難在市場上找到對標無問芯穹模式的公司,其卡住了一個此前未被發現的場景,或是長在了隨著AI需求拉動而新誕生的結構洞上的創新模式。它不研發通用大模型,不做晶片,也不做面向C端的應用,它坐在晶片和模型之間,把供不應求的算力資源進行調度、匹配、最佳化,更高效地轉化為Token,晶片廠商、模型廠商、應用廠商等各方都需要在無問芯穹的Agentic Infra體繫上整合,由無問芯穹進行調度和分配,這是一種由技術領先的軟體與演算法定義的商業模式。
這種特殊的模式讓無問芯穹比任何一個在Token產業鏈上的公司都能率先感知始於青萍之末的變化。
我在上海模速空間無問芯穹的會議室見到夏立雪,黑色的公司文化衫,語速極快,說到技術問題,似乎進入一種“心流”狀態。模速空間是上海AI創新的核心,以無問芯穹為圓心的2公里,產業鏈的上下游在此匯聚。
據公司今年5月披露,去年12月到今年4月底,無問芯穹的Agentic MaaS業務中,Token呼叫量增速超過20倍,這是過去從未有過的增長。
這個數字背後,是一件已經成為現實的事:推理,正在成為比訓練大得多的市場。
過去三年,AI產業的敘事主線是訓練。誰有更多GPU,誰訓練出更大的模型,誰就站在食物鏈頂端。算力競賽的邏輯清晰粗暴:堆卡、堆電力、堆錢。輝達的H100在黑市上賣到六位數美元,甚至要靠提前囤貨。
但2025年底開始,這個邏輯變了。2026年推理的資料量首次超過了訓練。根據國際資料機構統計,2026年全球企業在推理基礎設施上的資本支出預計達680億美元,而訓練基礎設施支出為450億美元。
當AI不再只是回答一個問題,而是要完成一項複雜的任務:寫完整的程式碼、審閱一份合同、持續跟進一個項目,它消耗的Token數量是聊天場景的幾十倍甚至上百倍。無問芯穹的資料是,在其 Agentic MaaS 平台呼叫的 Token 中,95%以上都是智能體場景。
推理需求的爆發,正在把AI產業鏈的價值重心往下移。晶片製造商、模型公司、雲服務商,每一層都在重新定價,而位處中樞的基礎設施服務商,正在從“管道”變成“工廠”,又從工廠變為在價值鏈擁有更大影響力的Token生產力轉化。
衡量這個工廠運轉得好不好,無問芯穹內部有一個指標:每月能產出多少有價值的兆參數級模型的Token。這個指標拆開來看,有兩個衡量標準,一個是效率:單位時間的token產出量;另一半是穩定性,系統能不能連續不當機地跑下去。兩個指標,在兆參數大模型場景下,無問芯穹過去一兩年實現了5到10倍的性價比提升。
在無問芯穹,有一個公式:AI生產力=智能規模*Token生產效率*Token價值轉化。
當Token業務在產業中能實現商業化閉環的時候,就能為市場提供更充沛、更穩定、更高性價比的優質Token,進而在產業內獲得口碑,吸引更多使用者使用。
拿到更多需求之後,也能提煉出更好的最佳化空間,一方面是接觸到更多真實場景,可以明確不同最佳化技術在場景中的價值;另一方面是需求足夠多的情況下,資源分配的調整空間更大,需求種類越豐富,和非同質化資源的適配可能性就越多,M 種模型乘以N種晶片的最佳化空間也會越來越大。
這也解釋了為什麼agent的崛起對無問芯穹是一個乘數效應,而非加法。
在這套公式下,飛輪正在轉動。
推理需求爆發,國產晶片和解決方案正在迎來全新的機會,這件事與曾經在這個領域常見的國產替代敘事截然不同。中國晶片廠商對成本的敏感和工程化的能力,正在為這個產業鏈帶來在全球市場角逐的競爭力。
AI算力市場的現實是:晶片種類越來越多,但沒有那一張晶片能高效跑所有任務;模型規模越來越大,單機八卡早就存不下兆參數的模型,需要叢集協作;不同的推理任務,對延遲、吞吐量、精度的要求截然不同。這一切疊加在一起,讓“把算力用好”這件事,變成了一個極其複雜的系統工程問題。當然,這也是中國工程化能力優勢的體現。
這個判斷在推理側,prefill和decode的分離上得到了具體驗證。大模型推理分為兩個階段:prefill負責理解輸入、建構上下文,計算密集;decode負責逐步生成輸出,通訊密集、對延遲更敏感。兩種任務對晶片的要求完全不同。這是AI算力精細化需求下爆發出的新的場景。
依託團隊長期在軟硬協同等方面的技術積累,無問芯穹很早就開始深度研究P/D分離,把兩類任務分配給更適合的晶片——國產晶片在prefill場景已經可以落地,這意味著供不應求的市場裡,國產算力有了真實的著力點,不再是非黑即白的“能不能用”,而是“在那裡用最合適”,甚至是“用好”。
無問芯穹以token作為其AI生產力公式的核心變數之一,是在2026年,這意味著整個公司的最佳化目標,變為在“怎麼把晶片用滿”的基礎上,還要解決“怎麼讓每一個Token產生最大價值”——技術最佳化節省的成本,直接轉化為毛利,再投入下一輪研發,形成正向循環。Token,正在成為AI產業裡最接近貨幣的單位。它可以被生產、被消耗、被定價、被交易。
更大的判斷,夏立雪用了一個類比:Token的爆發,像極了移動網際網路從3G到4G的階段。
但他補了一句,4G時代最重要的“應用”不是微信,也不是淘寶,而是那些充分使用流量、敢於在流量便宜之後重新設計組織的公司。到了token時代,真正改變產業格局的未必是某一款殺手級AI應用,而是那些用AI重構內部分工、讓人和AI真正協作起來的小型組織——十人、二十人,甚至一兩個人,但生產效率遠超傳統同規模團隊。
這類組織已經在出現了。“現在不用擔心沒有應用場景,核心是我們能不能接得住這麼多需求。”
這句話引出了無問芯穹正在做的下一步:跳出純token工廠的邊界,開始介入Token的生產力轉化環節。
結構洞上長出的創新模式
虎嗅:當華為、中興等這些系統廠商他們也在用叢集的方式提高Token的性價比,無問芯穹這個模式的壁壘在那裡?
夏立雪:表層的壁壘是我們在軟硬協同領域有充足的積累和成熟成果。我們是基於系統演算法做硬體適配最佳化,不針對單一硬體廠商或單一模型,能力可以覆蓋產業全生態,是中立的第三方,技術適配性強,在各類場景下都可以使用。
其次,我們的視野是面向整個供不應求的產業做佈局,把市場上所有晶片產能都作為最佳化的輸入變數,最終實現讓整個生態中所有現有主體都發揮最大價值。這不是單點的一對一最佳化,當產業生態複雜度提升——比如出現多種模型、多種晶片並存的情況,我們這種大體系資源最佳化能力就會形成生態層面的壁壘。
我們團隊內在的核心壁壘是始終跟進業界最新的發展變化。此前做稠密模型和MoE最佳化,之後又針對兆參數模型難以在單一硬體上規模化擴展的問題,很早就開始深度研究P/D分離和半分離相關技術,目前也在研發可以差異化體現國產晶片能力的相關技術。
我們的壁壘不是單點的技術領先,而是系統化的、滾動式的持續創新。
虎嗅:從晶片到模型之間存在中間最佳化的空間,針對Token經濟學,不同廠商也提出了不同的解決方案,例如華為和一些晶片廠商提出的“超節點”的方法,以叢集能力應對單卡算力不足,從無問芯穹的立場,如何建立中間的最佳化層?
夏立雪:現在是演算法牽引系統、硬體和叢集建設的時代,我們和晶片廠商有共同的目標,就是要實現真實的產業落地,只要各方能對接上、跑通業務,就是好的生態。晶片廠商最核心的是要做好自己的“產品說明書”,而怎麼把晶片這個複雜精密的硬體用好,是我們作為行業專家要做的事。現在國內各種各樣的晶片都有類似CUDA的層,有CAN、SUCA、MARCA等不同的架構,我們的生態就是把這些架構統一接入、調度、精細化管理和資源分配,保證服務穩定,最終實現商業化閉環。
虎嗅:有沒有具體的數字說明客戶選擇你們的方案,在同等推理任務和同等效果下,Token成本下降了多少?穩定性達到了什麼程度?
夏立雪:比如在兆參數規模的大模型場景下,我們實現的token每秒產能對應的性價比和一兩年前相比已經做到了五到十倍的下降,這是軟硬協同最佳化帶來的運行成本下降。
Token產能有兩個核心維度,一個是微觀運行層面的生產效率,也就是單位時間內的Token產出量;另一個是宏觀層面的穩定性,避免頻繁停機維護導致實際產能下降。我們在這兩個指標上都取得了很好的成果,最直接的證明就是客戶都在持續使用我們的服務。
虎嗅:內部最看重的核心指標是什麼?
夏立雪:本質上最終都會歸攏到單位時間內的Token產出量,這是檢驗最佳化效果的唯一指標。我們核心關注的是無問芯穹每月能夠產生多少有價值的兆參數大模型的Token。
這個指標下涵蓋兩個部分:一個是Token每秒的生產效率,另一個是可參與生產的資源規模。軟硬協同最佳化中也包含大規模系統穩定性的最佳化,這點常常被忽略,但非常重要。
因為當我們從小而美的技術團隊轉向系統服務商時,需要為客戶交付大規模持續穩定的業務,規模的擴張必須以穩定性作為支撐。
虎嗅:2026年被認為是推理大年,你們那條業務線有明顯增速?
夏立雪:以公司 Agentic MaaS 平台為例,從2025年年底到今年5月,Token呼叫量增速在20倍以上。而且這種增長是健康的結構化增長,是多種需求同時存在、有分層結構的增長,並非難以持續的單點增長。
現在整個模型產業的發展類似金字塔從底部向上突破,尖端應用在不斷拓展新的需求領域,AI已經可以實現寫程式碼、做設計、做行銷,未來還可能覆蓋法律等場景。推理需求的快速增長帶動了全產業鏈的健康發展,覆蓋模型公司、應用公司、基礎設施服務商甚至晶片公司。
從這一年的經驗來看,全鏈路都完成數位化、所有訊號都可以在數字世界閉環的任務和組織,會更快進入自我閉環的迭代,也會最優先吃到 AI 進化帶來的紅利乃至利潤增長。人工智慧本身擅長自我迭代,類似AlphaGo可以通過自我對弈實現快速進化。
虎嗅:這些場景具體都是那些?能舉幾個例子嗎?
夏立雪:比如程式碼生成場景最早爆發,一方面是研發人工智慧的程式設計師本身最熟悉程式碼場景,另一方面是程式碼的提交、評審全流程都有數位化記錄,類似的還有線上行銷場景,相關流程都有數字世界的記錄。整體來看,上一波數位化轉型做得好的、或者網際網路時代原生的場景,需求增長都非常快。
如果按需求複雜度劃分,我們公司95%的需求都來自智能體場景,也就是由AI完成完整可交付的任務,而非簡單的聊天需求,使用者更願意為生產力和最終結果付費,這是產業落地的良性趨勢。現在在程式碼生成這類賽道,已經可以實現AI團隊協作,不同的AI分別承擔程式碼編寫、質量保障的工作,形成最簡單的協作模式,這類場景已經跑通,後續也會在其他行業逐步落地,當前人工智慧落地的節奏非常好,我們作為產業中資源打通的主體也會獲得對應的價值。
虎嗅:這是年初OpenClaw出現之後帶來的拐點?
夏立雪:在OpenClaw推出之前相關需求就已經出現了,OpenClaw是產業發展到一定階段孕育出的產品之一。核心原因是人工智慧的智能性突破了臨界點——當AI的智能性達到可以完成子任務、具備長上下文記憶能力的臨界點之後,才具備作為"大腦"指揮子任務完成管理工作的基礎。後續還會有更多針對不同場景的同類產品出現。
一個token工廠的生意飛輪
虎嗅:無問芯穹有一個公式:AI生產力=智能規模×Token生產效率×Token價值轉化,從無問芯穹的角度,這幾個變數裡可以怎麼賺到錢?無問在這個公式裡,飛輪怎麼轉起來?
夏立雪:Token業務在商業化能閉環的產業裡,是非常好的模式。當自身最佳化能力足夠強的時候,就能為市場提供更充沛、更穩定、更高性價比的優質Token,進而在產業內獲得口碑,吸引更多使用者使用。
拿到更多需求之後,也能提煉出更好的最佳化空間,一方面是接觸到更多真實場景,可以明確不同最佳化技術在場景中的價值;另一方面是需求足夠多的情況下,資源分配的調整空間更大,需求種類越豐富,和非同質化資源的適配可能性就越多,M種模型乘N種晶片的最佳化空間也會越來越大。
這兩點會使得接到的需求越多、可使用的資源能支撐的需求越多,最佳化能力就越強,最佳化能力越強又能反過來提供更穩定、更便宜、更充沛的服務,吸引更多需求,飛輪就此轉動。
虎嗅:這種算力精細化需求下催生的模式,無問芯穹的商業模式是按結果收費還是case by case?
夏立雪:目前Token工廠的模式已經比此前成熟很多,有更偏向結果的定價方式,就是按照Token計費,Token本身也有差異化,類似廣告行業的CPM計費。現在Token已經是非常貼近業務的定價指標,使用者可以直觀感知到token對應的價值,不用關心底層用了什麼晶片。
以Token作為結算維度有很多好處:一方面能讓整個賽道更關注AI產生的價值,而不是單純的資源,我們所有技術最佳化節省的成本,都會提升公司的毛利率水平,可以再投入到新的技術研發裡,形成正向的循環;另一方面Token作為結算指標也能很好地相容跨行業的差異化,不用每個行業都做一套獨立的計價方式,更利於產業結構的擴展。
虎嗅:推理大年裡,國產晶片的機會大嗎?
夏立雪:2026年行業內大家都很看好,國產晶片的機會非常大。市場是健康的,各類需求都有缺口。現在的任務就是先把能填上的缺口填上。
虎嗅:推理需求進一步分化,分為Prefill(預填充)和Decode(解碼),國產晶片的優勢在這個細分需求裡有差異嗎?
夏立雪:國產晶片已經越過了“能不能用”的非黑即白,進入了“好不好用”的性能較量階段。
其實現在的算力需求非常多樣化。比如,應用端有對延時極度敏感的,也有相對包容的;模型端有兆參數等級的極限挑戰,也有千億參數就能高效解決的場景。
回到 Prefill 和 Decode 的細分。相對來說,Prefill 更契合當下國產晶片的能力狀態。因為它是計算密集型任務;而 Decode階段不僅是訪存密集型,還對卡間通訊頻寬、以及晶片底層的整體軟硬體生態提出了苛刻得多的要求。
虎嗅:如果拋開國產化敘事,無問芯穹的業務依然能增長這麼好嗎?
夏立雪:到了2026年這個時間點,中國市場和海外市場沒有根本的區別,整體都是健康的產業分配狀態,也同時面臨著資源不夠用的現狀,並且在未來相當長的時間,仍會供不應求。我們公司所處的賽道核心,恰好是如何解決供不應求的問題。
Token進入5G階段,可能出現真正的AI型組織
虎嗅:你之前把Token的增長比成手機流量從3G到4G的階段。移動網際網路時代的流量爆發帶來了微信或電商這樣的模式,進入Token 4G甚至5G階段,最有可能爆發的AI應用會是什麼?
夏立雪:我覺得對應的不是單一的業務,而是AI型的組織。OPC是最近比較火的極致概念,一人公司大規模出現難度比較大,但十人、二十人或者幾個人的小公司,這類充分使用AI、人和AI充分合作的組織會大量爆發,這才是Token流量進入4G階段真正產生的核心“應用”。
4G、5G時代的移動應用特點是大量使用流量,是基於流量充足的前提誕生的和以往不同的產品。對應到AI領域,不是某類應用會大量使用AI,而是某類組織會大量使用AI並創造出好的新作品。已經完成數位化的賽道,會更早誕生這類原生 AI化的機構和組織。
虎嗅:這類AI智能組織現在已經出現了嗎?
夏立雪:已經有很多了,有很多很有趣的組織產生,大家會把AI用在工作的方方面面,而且這些組織裡使用的不同AI之間還會互動,形成人與AI共生的組織形態,這些組織創造的產品就是AI 4G時代最有趣的新興產品。
虎嗅:隨著AI快速發展,對無問芯穹來說最大的挑戰是什麼?如果未來出現競爭對手,有可能是那一類公司?
夏立雪:從人工智慧整體發展來看,核心問題還是資源限制。表面看有兩個限制,一個是模型能不能突破到下一個範式,目前距離真正的AGI還有大概一到兩個範式的差距,而範式突破需要大量的訓練資源和人員投入,最終還是回到資源問題。
我們認為短期內AI範式不會有根本性的突破,但目前AI已經突破了可用的臨界點,正在不斷拓展新的應用場景,核心問題變成我們能不能接得住這麼多需求。這取決於資源是否夠用、資源效率是否足夠高。
關於競爭對手,我認為現在是需求大於供給的市場,遠遠沒到零和博弈階段。產業鏈有上下游分配,不同主體有不同的資源稟賦,橫向縱向都可以找到自己的市場空間,只要創造價值就能獲得收益,核心產業層面的競爭其實很稀薄,企業自身的發展才是最重要的。
虎嗅:如果AI進入了下一個範式,當前的商業模式依然成立嗎?
夏立雪:AI範式不會出現跳變,就像5G出來之後4G技術依然有應用場景,會有一個過渡的節奏。如果範式突破帶來新的基礎設施變化,反而會產生新的機會和發展空間,我們不怕事情難——無問芯穹的技術團隊從一開始就是奔著解決最難的技術問題去的,並且找到了很好的 TMF(技術-市場適配)。
虎嗅:Token相關產業什麼時候能迎來類似通訊領域5G的拐點?
夏立雪:用通訊領域4G、5G的劃分來類比AI產業不是特別合適,下一個時代的跳變有兩種可能性。一種是模型真的發生範式變化,但這種變化是什麼目前沒有人能夠預測。第二種是模型的成本降到足夠低,現在計費方式已經從千Token多少錢降到百萬Token多少錢,如果成本再下降一到兩個數量級,就會出現類似流量包、包月的概念,屆時整個產業的付費模式會發生質變。
成本下降1-2個數量級是有可行路徑的,核心是更深層次的軟硬體結合,對模型結構、模型組合和硬體結構都進行調整,提升兩者的匹配度,還有1-2個量級的最佳化空間。我們一方面會在成本下降1-2個數量級的過程中創造價值,另一方面也在提前做佈局,推出匹配未來新的生產關係和商業模式的新產品和新能力。 (虎嗅APP)
