#Token
【GTC 2026】兆美金後的新霸主:黃仁勳GTC 2026全解讀,AI正式進入“Token工廠”時代
台北時間2026年3月17日凌晨2點,沒有絲毫意外,全球科技圈的目光再次聚焦於那個穿著皮衣的男人身上。輝達GTC 2026大會如約而至。如果你還以為這只是一場關於顯示卡參數的發佈會,那你可能已經掉隊了。今年的GTC,黃仁勳不再僅僅談論晶片,而是拋出了一個震撼行業的全新定義:輝達已經從一家“晶片公司”徹底蛻變為一家“AI基礎設施和工廠公司”。這場長達兩小時的演講,資訊密度極高。從CUDA生態的飛輪效應,到Token成本的極致壓縮;從Vera Rubin平台的量產,到Feynman架構的前瞻;再到那個讓全場沸騰的“龍蝦”NemoClaw。黃仁勳用無可辯駁的資料和路線圖,向世界展示了AI推理時代的宏大圖景。01 20年的飛輪:CUDA的護城河比想像中更深演講伊始,黃仁勳並沒有急於拋出新的硬體參數,而是花了近十分鐘回溯CUDA架構誕生20年的歷程。這不僅是對過去的致敬,更是對護城河的宣示。螢幕上展示著“20 YEARS CUDA FLYWHEEL”(20年CUDA飛輪)的巨大循環圖,這不僅是技術的循環,更是商業的邏輯。“二十年來,我們一直致力於這種革命性架構——單指令多線程(SIMT)。”黃仁勳回憶道。CUDA的真正壁壘,在於底層的安裝基數。這是一個經典的飛輪效應:安裝基數:全球數億塊運行CUDA的GPU構成了龐大的底座。開發者:龐大的底座吸引開發者創造新演算法。突破:新演算法帶來技術突破(如深度學習)。生態:技術突破催生新市場,吸引更多公司加入,進一步擴大安裝基數。“CUDA真正融入了每一個生態系統。”黃仁勳指著那張描述其媒體戰略的幻燈片說道。這種軟硬一體的生態壁壘,讓NVIDIA的架構應用範圍不斷擴展,計算成本持續降低。正如他所強調的,加速計算不僅帶來初期的性能躍升,還能在生命周期內持續最佳化軟體,讓算力成本不斷下降。02 資料革命:結構化與非結構化資料的全面加速在本次演講中,黃仁勳著重介紹了輝達為資料處理打造的核心軟體庫,並稱其為“本場演講最重要的一張圖”。隨著AI的爆發,全球資料處理體系正面臨結構性變革。螢幕上展示了一張複雜的圖表,標題為“Structured Data is the Ground Truth of AI”(結構化資料是AI的“真相”),這是一個價值1200億美元的生態系統。過去,企業計算建立在結構化資料之上。但未來,AI智能體將直接訪問和使用這些資料庫。與此同時,全球每年產生的資料中約90%是非結構化資料。AI的多模態能力正在將這些“死資料”轉化為可計算的資訊。為此,NVIDIA推出了兩項關鍵技術:cuDF:加速資料框計算,面向結構化資料。cuVS:面向向量儲存和語義資料,處理非結構化資料。黃仁勳透露,SQL的發明者IBM正在利用cuDF加速其watsonx.data平台。這標誌著AI正在重塑整個資料處理基礎設施。03 推理拐點:Token成本全球最低“去年我說營收將達5000億美元,你們可能沒覺得驚豔。但今天,我預見通過2027年的營收將至少達到1兆美元。”黃仁勳的這句話引爆了全場。支撐這一驚人預測的,是AI計算需求的爆發式增長。螢幕上清晰地標示著“Inference Inflection Arrives”(推理拐點到來)黃仁勳指出,過去兩年,計算需求增長了約10,000倍。這背後是三件大事的發生:ChatGPT開啟生成式AI時代:計算從“檢索”轉向“生成”。推理AI(o1/o3)的出現:AI開始思考、規劃,Token使用量爆炸。Claude Code開啟代理時代:首個代理模型革新了軟體工程。“推理既是最困難的環節,也是最關鍵的商業環節。”黃仁勳強調。在資料中心層面,衡量效率的關鍵指標是“每瓦特生成多少Token”。評測結果顯示,NVIDIA在AI推理性能和效率上保持絕對領先。從Hopper H200到Grace Blackwell NVLink 72架構,每瓦特性能提升約35倍,分析師甚至認為接近50倍。螢幕上打出了“NVIDIA Token Cost is Untouchable”(NVIDIA Token成本不可觸碰)的字樣。黃仁勳放出豪言:“即便競爭對手的架構是免費的,它也不夠便宜。” 因為建立一個1GW的工廠,即便什麼都不放,15年的攤銷成本也高達400億美元。只有運行最強的電腦系統,才能獲得最低的Token生產成本。04 Vera Rubin:為智能體AI而生的超級電腦演講的高潮之一,是Vera Rubin超級AI平台的亮相。這是一個由七款晶片組成的全新計算平台,涵蓋計算、網路和儲存三大功能。螢幕上展示的“NVIDIA Vera Rubin”字樣下,赫然寫著“40,000,000X - 10 years”(10年4000萬倍性能提升),震撼人心。 該平台包含40個機架、1.2千兆個電晶體、近2萬個NVIDIA晶片、1152個Rubin GPU,擁有60 exaflops的運算能力。這是一個完全縱向整合的計算平台,專門為智能體AI(Agentic AI)設計。隨著大模型處理更長上下文,系統需要更高頻寬的記憶體和儲存訪問能力,因此NVIDIA對整個系統架構進行了重新設計。硬體層面,全新的NVIDIA Vera CPU開始單獨銷售,有望成為一項數十億美元級業務。系統設計方面,採用100%液冷架構,通過45°C熱水散熱,大幅降低製冷成本,整機安裝時間從兩天縮短至兩小時。更引人注目的是,NVIDIA推出了全球首個CPO(光電共封裝)乙太網路交換機,將光模組直接整合到晶片封裝中,顯著提升頻寬與能效。針對光互聯技術,黃仁勳展示了全球首款量產的共封裝光學(CPO)交換機Spectrum X,並平息了市場對於“銅退光進”的路線之爭。黃仁勳說我們需要更多的銅纜產能,更多的光晶片產能,更多的CPO產能。而在未來的版圖中,Rubin Ultra和Feynman架構也已提上日程。螢幕上展示的路線圖清晰地標示著從2024年Blackwell到2028年Feynman的演進路徑,每一次迭代都涉及晶片、CPU、網路交換機等關鍵元件的全面升級 Feynman架構將採用定製化HBM技術,搭載全新的Rosa CPU,標誌著計算、儲存和封裝的深度耦合。05 “龍蝦”創造歷史:SaaS將消失整場演講中,對軟體開發者影響最深遠的,莫過於對“龍蝦”現象的評論。螢幕上展示了一張Star History圖,紅色的openclaw/openclaw曲線在2024-2026年間急劇飆升,遠超Linux和React,其增長速度“極其深遠” 黃仁勳宣佈,NVIDIA將正式支援這一項目。OpenClaw被黃仁勳定義為一種智能體電腦的作業系統。它連接大模型,管理資源,調度任務,類似於Linux之於PC,Kubernetes之於雲,HTML之於網際網路。“未來所有科技公司都會面臨一個問題——你的OpenClaw戰略是什麼?”黃仁勳的這句話擲地有聲。他認為,未來幾乎所有SaaS公司都將演變為AaaS(Agentic as a Service)——即以智能體為核心的服務平台。針對智能體進入企業網路帶來的安全挑戰,NVIDIA推出了NVIDIA NemoClaw參考架構。螢幕上演示了簡單的安裝命令:curl -fsSL https://nvidia.com/nemoclaw.sh | bash,顯示出NVIDIA推動這一生態落地的決心。NemoClaw在OpenClaw基礎上加入了安全元件,確保企業能安全部署智能體系統。甚至未來工程師招聘,除了薪資,公司還會提供“Token配額”,因為算力將直接決定生產效率。06 物理AI與數字孿生:AI工廠的作業系統AI的未來不僅在數字世界,更在物理世界。黃仁勳介紹了面向“AI工廠”的基礎設施平台——NVIDIA DSX在資料中心建設階段,系統通過工程模擬工具進行驗證,實現“虛擬偵錯”;投入運行後,數字孿生系統成為基礎設施的“作業系統”,AI智能體即時監控冷卻、電力和網路,動態最佳化效率。在物理AI方面,NVIDIA的觸角已延伸至自動駕駛和機器人。螢幕上展示的“NVIDIA Space-1 Vera Rubin Module”暗示了其向太空計算領域的拓展。自動駕駛領域,基於NVIDIA Drive AV,車輛已具備推理能力。NVIDIA宣佈了新的Robotaxi合作夥伴,包括BYD、Hyundai、Nissan和Geely,並與Uber合作部署自動駕駛計程車網路。機器人產業方面,正與ABB、KUKA等企業合作,將物理AI模型用於工業自動化。結語:跨越“推理鴻溝”,中國AI產業的破局之路演講的最後,黃仁勳站在巨大的“NVIDIA Vera Rubin”標識前,背後是醒目的“40,000,000X - 10 years”。這一刻,我們看到的不再是單一的晶片迭代,而是一場宏大的生態進化。從底層的CUDA飛輪,到算力成本的極致壓縮;從智能體作業系統NemoClaw的推出,到SaaS向AaaS的範式轉移;從資料中心向AI工廠的蛻變,到物理AI的全面覺醒。黃仁勳用這場演講證明:AI推理的拐點已經到來。未來的競爭,不再僅僅是算力的競爭,更是Token生產效率、智能體生態和物理世界融合能力的全方位競爭。面對輝達如此強勁的實力與深不見底的護城河,中國AI產業該如何趕上?這或許是每個從業者看完這場演講後最深刻的思考。首先,必須正視“軟體生態”的斷層。 黃仁勳反覆強調,CUDA的安裝基數才是飛輪加速的原因,這不僅是硬體的勝利,更是二十年軟體生態的積累。中國產業界往往重硬輕軟,但在AI時代,軟體棧(如cuDF、cuVS等核心庫)才是連接應用與算力的橋樑。我們不僅需要造出“卡”,更需要打磨出能承載萬行程式碼、適配千行場景的“軟底座”。其次,要從“單一產品”思維轉向“系統級整合”。 Vera Rubin平台的成功在於其垂直整合能力——從Vera CPU到NVLink互連,再到液冷機架,這是一個整體的“超級電腦”。中國廠商不能只盯著單點突破,而應致力於建構從晶片、網路到液冷散熱的整體系統解決方案,追求每瓦特性能的極致最佳化。最後,要抓住“智能體”與“物理AI”的新範式窗口。 當SaaS轉向AaaS,當OpenClaw成為新的作業系統入口,這意味著軟體開發的底層邏輯正在重構。這是彎道超車的機會。中國企業應積極擁抱開源生態,在智能體安全、垂直行業大模型、以及物理AI(如機器人、自動駕駛)的落地場景中尋找差異化優勢,建構屬於自己的“主權AI”。在這場通往未來的競賽中,輝達已經鋪好了最堅實的鐵軌,但列車駛向何方,依然取決於我們如何握緊手中的方向盤。 (算力與科技茶館)
【GTC 2026】黃仁勳的Token經濟學
黃仁勳的這場演講值得仔細看的地方不在於兆美元這個數字本身,而在於他用兩個小時講了一套新的商業邏輯:資料中心正在從訓練模型的地方,變成生產Token的工廠。素有AI行業年度風向標之稱的輝達GTC大會,今年3月16日至19日在美國加利福尼亞州聖何塞舉行。當地時間3月16日上午11點,也就是台北時間3月17日凌晨2點,輝達CEO黃仁勳在聖何塞SAP中心發表了超過兩小時的主題演講。黃仁勳在演講中預測,到2027年全球AI基礎設施相關需求將達到1兆美元。他還說,實際需求可能會比1兆美元高得多,輝達的產品甚至會供不應求。這個數字發佈後,輝達美股股價瞬時跳漲超過4%。但幾個小時後A股開盤,算力產業鏈股票集體下跌,天孚通訊(300394.SZ)收盤跌幅超10%,長光華芯(688048.SH)收盤跌幅亦達9.72%,多數龍頭股回吐了近5日漲幅。一邊是兆美元預期,一邊是產業鏈股票大跌,落差來自時間尺度。黃仁勳講的是未來的需求預期,而他預告的下一代Feynman晶片架構要到2028年才上市。另外,萬聯證券在3月16日發佈的研報中指出,A股電子類股截至3月15日的平均市盈率約為82倍,市場或在擔心“高處不勝寒”。但黃仁勳的這場演講值得仔細看的地方不在於兆美元這個數字本身,而在於他用兩個小時講了一套新的商業邏輯:資料中心正在從訓練模型的地方,變成生產Token的工廠。01 Token工廠Token是大語言模型處理資訊的基本單位,可以粗略理解為AI處理或生成的文字片段,一個漢字大約對應一到兩個Token。過去兩年,Token的消耗量發生了幾次量級上的跳躍。黃仁勳在演講中把這件事追溯到了三個節點:2022年底ChatGPT上線,AI學會了生成內容,開始大量消耗Token;ChatGPT o1模型出現後,AI學會了推理和反思,為了思考,它要在內部生成大量Token給自己看;Claude Code(Anthropic公司開發的AI程式設計工具)發佈後,AI能讀取檔案、編寫程式碼、編譯測試,每完成一個任務消耗的Token比簡單對話多出好幾個數量級。黃仁勳提到,輝達所有的軟體工程師都在用AI輔助程式設計。AI的工作分兩個階段:訓練是讓模型變聰明的過程,需要花一次大錢把模型練出來;推理是模型幹活的過程,每天都在發生,需求也越來越大。過去全球買GPU(圖形處理器,目前AI計算的核心硬體)主要是為了訓練,現在重心已經在向推理轉移。黃仁勳說,推理服務商的業務規模過去一年增長了100倍。IDC中國分析師杜昀龍也告訴經濟觀察報記者,目前國內推理伺服器不論增速還是佔比均已超過訓練,從伺服器出貨金額來看,推理佔比已接近60%。推理的需求在爆發,但Token還沒有形成市場定價體系。黃仁勳在演講中給出了他認為未來會出現的五檔價格:免費層,Token產出量大但響應速度慢;中等層,每百萬Token約3美元;高級層,每百萬Token約6美元;高速層,每百萬Token約45美元;頂級層,每百萬Token約150美元。模型越大、上下文越長、響應速度越快,Token就越貴。他以頂級層舉了個例子:一個研究團隊每天用5000萬Token,按每百萬Token150美元來算也就只有7500美元,對企業來說不算什麼。上下文窗口從32K個Token拉到400K個Token之後,AI能一次性讀完一整份合同或一整個程式碼庫,價格對應的是此前做不了的事情。有了分層定價,資料中心的經濟模型就變了。黃仁勳說,每一座資料中心都受電力限制,一座1GW(吉瓦,一種電力計量單位)的資料中心永遠不會變成2GW,這是電力和土地決定的。在固定功率下,誰消耗每瓦電力能產出的Token最多,誰的生產成本就最低。也就是說,同樣耗一度電,誰能生產更多Token,誰就能賺得更多。他在演講時展示了一組數字:同一個1GW資料中心,假設把算力分配給不同價格層級,使用輝達當前的Blackwell架構年營收約300億美元,換成新一代Vera Rubin約1500億美元,再加上Groq LPU推理加速器約3000億美元。同一座資料中心,換一套裝置,營收可以相差10倍。輝達2026財年全年營收2159億美元,資料中心業務貢獻了其中的1937億美元。按黃仁勳的邏輯,客戶現有的資料中心還沒有被充分利用,換上新一代裝置,同樣的電力條件下收入可以翻好幾倍。兆美元預期就是這麼來的,不是晶片漲價,是同樣的電力能生產出更多、更貴的Token。黃仁勳說,未來每一位CEO都會盯著自己Token工廠的效能,因為那直接就是收入。他還描述了一個正在矽谷出現的變化:現在越來越多工程師日常用AI寫程式碼、做研究、處理文件,這些操作都要消耗Token,企業需要為員工使用AI的開銷買單。黃仁勳預測這筆開銷會大到需要單獨列預算,就像企業給員工配電腦和軟體一樣。他還說,未來每個工程師入職時都會拿到一份年度Token預算,金額大約相當於基礎薪資的一半。02 兩種晶片黃仁勳的這套Token經濟學對應的硬體,是GTC上正式發佈的Vera Rubin平台。黃仁勳在演講中說,過去談Hopper架構的時候他會舉起一塊晶片,但Vera Rubin不是一塊晶片的事,它是一整個系統。這套系統做到了百分之百的液冷,安裝時間從過去的兩天壓縮到了兩個小時。Vera Rubin由七款晶片組成。核心機架NVL72整合72顆Rubin GPU和36顆Vera CPU,通過NVLink 6(輝達自研的晶片間高速互連技術)相連。與上一代Blackwell相比,每瓦推理吞吐量最高提升10倍,單Token成本降至十分之一。輝達同時發佈了全新88核Vera CPU,為AI智能體場景下的工具呼叫和資料處理做了專門最佳化。黃仁勳在演講中稱,微軟CEO納德拉已向他確認,首批Vera Rubin機架已在Azure(微軟的雲端運算平台)上運行。但Vera Rubin有一個短板,黃仁勳在演講時說,當每個使用者每秒需要生成超過400個Token時,NVL72的頻寬就不夠用了。補上這個缺口的,是Groq這家成立於2016年的美國AI加速晶片公司。輝達此前收購了Groq的技術授權和核心團隊。Groq的LPU(語言處理單元)和GPU是完全不同的兩種晶片。GPU記憶體大、算力強,單顆Rubin GPU有288GB記憶體,適合處理複雜計算。LPU記憶體小但讀寫速度極快,單顆只有500MB儲存,裝不下大模型的完整參數,但生成Token的速度和延遲遠優於GPU。輝達通過一套叫Dynamo的推理調度軟體,把推理過程拆成了兩步:需要大量算力和記憶體的上下文理解交給Vera Rubin處理,對延遲敏感的Token生成交給Groq LPU。兩者通過乙太網路高速連接協同工作,延遲減少約一半。黃仁勳管這種方式叫解耦推理(即把推理過程拆分給不同晶片處理),核心想法是承認高吞吐和低延遲天然矛盾,不如讓兩種晶片各幹各擅長的事。他說,這套組合在45美元和150美元的高價格層級實現了相比上一代35倍的性能提升。從更長的時間維度看,同一個1GW的資料中心,兩年時間,Token生成速率可以從每秒2200萬提升到7億。黃仁勳給客戶的建議是,如果工作以高吞吐的批次推理為主,就完全用Vera Rubin;如果有大量程式設計、即時互動等需求,可以拿出25%的資料中心算力配Groq LPU。黃仁勳表示,Groq 3 LPU由三星代工,已在量產,預計今年三季度出貨。軟體方面,輝達發佈了企業級智能體平台NemoClaw,支援近期火爆的開放原始碼專案OpenClaw。OpenClaw在幾周之內成為GitHub(全球最大的開放原始碼託管平台)上增長最快的開放原始碼專案,黃仁勳把它的地位抬到和Linux同一等級,說它是智能體電腦的作業系統。但企業環境下直接用開放原始碼的OpenClaw有安全風險,因為智能體可以訪問公司的敏感資料、執行程式碼和外部通訊。NemoClaw就是輝達給OpenClaw加上的企業安全層。Adobe、Salesforce、SAP等17家企業軟體公司已宣佈採用輝達的Agent Toolkit(智能體開發工具包)。路線圖方面,輝達預告了2028年上市的下一代Feynman架構,首次同時支援銅纜和CPO(將光通訊元件直接整合到晶片上的技術)兩種互連方式。今年也是CUDA(輝達開發的GPU通用計算平台,被視為輝達軟體生態的基石)誕生20周年。據黃仁勳在演講中介紹,輝達目前60%的業務來自全球前五大雲服務商,另外40%分佈在主權AI、企業、工業、機器人等各個領域。在本次GTC大會上,輝達還宣佈了與Uber、比亞迪、吉利、現代、日產、五十鈴在自動駕駛領域的合作。受此消息推動,港股汽車類股17日集體走強,吉利汽車(00175.HK)盤中一度漲超5%,最終收漲4.55%。 (經濟觀察報)
阿里的“DeepMind時刻”:吳泳銘親征,Token帝國的黎明
“當下正處於AGI爆發前夜。大量數位化工作將由數以百億計的AI Agent來支撐,而這些Agent將由模型產生的Token支撐運行。”3月16日,阿里巴巴CEO吳泳銘在全員內部信中寫下這句犀利判斷的同時,也宣佈了一個同樣犀利的架構重塑:成立Alibaba Token Hub(ATH)事業群,並將通義實驗室、MaaS業務線、千問事業部、全新曝光的悟空事業部及AI創新部悉數納入麾下,由其本人直接掛帥。這個以“創造Token、輸送Token、應用Token”為使命的新組織,覆蓋了從基礎模型研發、模型服務平台到C端和B端AI應用的完整鏈條。這,也是全球科技巨頭中,第一家徹底摒棄“按產品線劃分”的傳統網際網路邏輯,轉而以“Token流轉”為核心組織原則重構AI版圖的組織重構。三年前,Google做過一件類似的事——將內部競爭多年的Google Brain和DeepMind合併為一個統一組織。18個月後,整合後的團隊不僅交出了驚豔的Gemini 3.0,更直接推動Alphabet市值一度沖上4兆美元,超越蘋果重返全球第二。那麼,阿里能否複製這一“整合-加速-價值重估”的軌跡?01 Token風暴——當AI Agent吞噬一切全球的Token消耗量,正在經歷一場“寒武紀大爆發”。驅動力來自AI Agent。當AI從“聊天”轉向“辦事”,Token消耗結構發生了根本性變化——推理模型每次查詢的Token消耗比普通模型高17倍以上,Agent工作流更是傳統聊天的100倍。2025年10月,GoogleCEO皮查伊在財報電話會上透露,Google每月處理的Token數量已達1.3千兆個,較一年前暴增約130倍。阿里各AI條線的資料,也在說明Token需求端的爆發力。今年1月,阿里雲推出百煉的Coding Plan訂閱服務,因完美契合高頻的Agent和程式設計場景,上線僅兩個月左右,就因需求持續快速暴漲超出了預期,而被迫暫停首購優惠。與此同時,根據去年公佈的資料,百煉MaaS平台的API呼叫量一年增長接近100倍,要知道,這個增長資料還未統計到最近幾個月Agent爆發的階段,可以推測,這將是一個更高數量級的增速;另一方面,在開源生態端,千問模型全球下載量突破10億次,並在OpenRouter全球市場份額中以超12.3%的佔比超越OpenAI和Llama系列。更為大眾熟知的千問App,自去年11月公測起,3個月內月活躍使用者突破2.03億。當Token的生產、分發和消耗都在以百倍速度膨脹,組織架構就必須跟上。過去,阿里的模型團隊、平台團隊和應用團隊分佈在不同業務線,各有各的節奏和優先順序。而ATH的做法是以Token為主線,將這些原本分散的力量整合進同一個組織:通義實驗室負責創造Token,百煉MaaS平台負責輸送Token,千問和悟空事業部負責在C端和B端將Token轉化為使用者價值。如此,團隊之間的協同將更加緊密,從模型到應用每一環都將產生新的化學反應——模型側的效率提升可以即時傳導為平台側的成本最佳化,應用側的需求訊號可以直接回傳指導模型迭代方向。這也解釋了ATH為什麼不叫“AI事業群”或“智能事業群”,而叫“Token Hub”。它精確地描述了這個組織的核心使命:做AI時代的Token中樞。02 DeepMind先例:整合如何釋放AI加速度完成整合,究竟能釋放出多大的能量?大洋彼岸的Google,是一個走完全程的先例。2023年4月,ChatGPT的衝擊波讓Google內部拉響了警報。彼時Google擁有全球最強的AI研究團隊,卻打不出有力的回擊——Google Brain和DeepMind兩支隊伍各自為戰多年,Brain偏向商業化落地,DeepMind專注基礎科研,重疊的研究方向造成資源浪費,而協調成本又拖慢了產品迭代。巨大競爭恐慌下,皮查伊做出了Google AI歷史上最艱難的決定:將長期各自為戰、資源內耗的Google Brain與DeepMind合併,由DeepMind創始人Demis Hassabis統帥。接下來發生的事,成了科技史上組織整合釋放創新動能的經典案例。合併後僅8個月,Gemini 1.0系列模型發佈,次日Alphabet股價漲5.3%。2024年2月,Gemini 1.5以MoE架構突破100萬Token上下文窗口。同年8月,Google以約27億美元的授權協議從Character.AI請回了Transformer共同發明人Noam Shazeer——這位關鍵人才回歸後發現並修復了Gemini的一個深層訓練缺陷,直接促成了Gemini 3的突破。2024年10月,皮查伊再進一步,將Gemini App團隊也併入DeepMind,實現了“模型+應用”的終極合體。這種緊密的反饋循環,直接催生了2025年底至2026年初Gemini 3系列在原生多模態和複雜推理上的全面爆發。到2026年1月,Gemini的市場份額從一年前的約5.7%躍升至2026年1月的21.5%,全球月活使用者達到7.5億。在資本市場,Alphabet在2026年1月8日超越蘋果重返全球市值第二,並於1月12日歷史性地突破4兆美元大關。從合併重組到市值巔峰,耗時不到3年。當下,阿里面對著相似的局面。ATH與Google DeepMind的核心邏輯高度一致:兩者都是在外部強敵環伺和內部協調摩擦的雙重擠壓下,將分散的AI力量收攏到最高層直管的統一組織中。且ATH的整合版本甚至更加領先——Google DeepMind的整合以“實驗室”為核心,先合併研究團隊,再逐步納入應用團隊,前後經歷了約18個月;而由CEO吳泳銘親自掛帥的ATH則一步到位,將模型研發、MaaS平台、C端應用和B端應用全部整合進同一個組織,整合範圍覆蓋了Token的完整生命周期。尤其值得投資者關注的,是首次亮相的悟空事業部——定位B端AI原生工作平台,要將模型能力深度融入企業工作流。有媒體披露,ATH還將監管釘釘和夸克品牌下的裝置(包括智能眼鏡)。當前,釘釘在中國企業市場擁有超過7億使用者,如果悟空事業部能有效利用這一分發基礎,阿里在B端AI應用上的起步位置可能遠遠領先於市場認知。03 邁向AGI時代的最佳陣容拉長時間線看,ATH並非一個突發決策,而是阿里過去兩年AI戰略演進的必然結果。從2023年9月上任三天就確立了“AI驅動”的戰略重心,到2025年2月拋出震撼業界的3800億元人民幣天價資本開支(CAPEX)計畫,再到雲棲大會明確“AGI到ASI”的演進路線,最後到今天ATH事業群的落地,吳泳銘領導下的阿里,打出了一個極其清晰的“戰略宣言→資本配置→組織重塑”的閉環。在AI Agent浪潮席捲而來之際,阿里已經率先完成了從“單點技術比拚”向“模型、平台、應用協同作戰”的陣型切換。然而,商業世界沒有無風險的坦途。ATH能否真正成為阿里的“DeepMind時刻”,仍取決於三個核心變數:第一,能否持續吸引人才;第二,大模型的迭代速度,能否跟上這台龐大組織機器運轉的節奏;第三,被寄予厚望的悟空事業部,能否在B端真正跑通AI原生工作流的商業化閉環。如果參考Google DeepMind的“18個月效應”,市場大機率將在2027年年中之前,看到ATH重組帶來的第一波決定性成果。而短期的試金石近在眼前——3月19日的財報,將直接檢驗阿里雲連續9季度三位數增長的AI營收能否延續,以及華爾街普遍給出的200美金以上的目標價是否具備堅實的業績支撐。對阿里巴巴而言,這已經是其目前能排出的、邁向AGI時代的最佳陣容。而對整個中國乃至全球的AI產業而言,ATH的成立宣告了一個殘酷的事實:當AI戰爭從 “模型軍備競賽”正式進入“Token供應鏈之爭”,誰能率先完成從底層算力到頂層應用的全鏈條整合,誰,或許就握住了下一個十年的定價權。 (華爾街見聞)
Token能力:人工智慧核心競爭力
我們在《人工智慧應用中,token到底應如何翻譯?》中,認為對於token翻譯需要一個兼具價值基本單位、計算基本尺度和基礎構成單位,三者於一體的表述,據此認為token最好的翻譯是“籌”。之所以如此關注這個問題,是因為token已經在一定程度上成為人工智慧應用能力的關鍵詞,我們將進一步論述token是資訊單位、算力單位、貨幣單位,已經成為衡量人工智慧應用水平的尺度。從“字節”到“Token”,已經形成了認知的躍遷。在電腦科學的傳統語境中,“字節”(Byte)是資訊儲存和傳輸的基本計量單位。無論是硬碟容量、網路頻寬還是記憶體大小,我們都習慣於用字節來衡量。然而,當我們將目光轉向人工智慧領域,尤其是大語言模型的世界,另一個單位悄然成為核心度量衡——Token(籌)。Token究竟是什麼?它與字節有何關係?為什麼DeepSeek、OpenAI、Anthropic等AI廠商無一例外地選擇用Token來定價、限制對話長度、衡量算力消耗?更進一步,為什麼Token的消耗量和使用效率,正在成為評判AI模型能力強弱的核心標尺?本文將從Token與字節的技術關係出發,深入剖析Token為何成為AI經濟的“一般等價物”,並論證一個核心觀點:Token能力,即模型用儘可能少的Token實現儘可能高價值任務的能力,正在成為人工智慧的核心競爭力。一、字節與Token:從物理儲存到語義理解的跨越要理解Token的意義,首先需要釐清它與字節的本質區別。字節是電腦物理層面的儲存單位,1字節等於8位元,代表一個0-255之間的數值。在純文字檔中,一個英文字母通常佔用1字節,一個中文字元在UTF-8編碼下通常佔用3字節。字節的計量是機械的、均勻的、與語義無關的——無論這個字元是“的”還是“量子”,無論它在句子中扮演什麼角色,在字節層面它們只是冰冷的數字。Token則完全不同。Token是大語言模型處理文字的基本單元,是將連續文字序列離散化後可計算的最小語義單位。它既不是字元,也不是固定的字節塊,而是通過分詞演算法(如字節對編碼BPE)從訓練資料中統計得到的語義碎片。舉例來說,英文單詞”unbelievable”可能被分成”un”、”believe”、”able”三個Token,因為從統計上看,這些子詞單元能更好地組合出新詞;中文句子“人工智慧很強大”可能被分成“人工”、“智能”、“很”、“強大”四個Token,而非逐字分割。根據統計,英文中平均每個Token對應3-4個字元,約0.75個單詞;中文則因編碼效率不同,平均每字約0.5-2個Token。字節和Token的關係,折射出兩種截然不同的世界觀:字節計量的是“儲存了什麼”,它忠實記錄每一個位元,無論資訊有無意義;Token計量的是“模型看到了什麼”,它反映的是模型理解語言的基本粒度,是語義世界的最小公倍數。字節是物理世界的計量,Token是語義世界的計量。當電腦從計算走向理解,計量單位也必須從物理躍遷到語義——這正是Token取代字節成為AI核心單位的底層邏輯。二、Token是資訊單位:智能思考的細胞為什麼人工智慧應用的最基礎單位不是字節,而是token呢?這是理解AI所有問題的基礎。究其原因,從根本上說這是因為模型根本不是按“字節/字元”理解文字的,它只認token。而且算力、成本、長度,全都跟 token 強繫結,跟字節無關。模型是怎麼“讀”資訊的?比如你看到的是“我喜歡人工智慧”,而電腦(字節)看到的是一堆 0101 二進制,按字節存。但大模型看到的,是先把文字切成一段“小碎片”這就是token,比如:我 / 喜歡 / 人工 / 智能。模型不認識字,只認識編號。每一個token,模型都要做一次巨大的矩陣計算。那為什麼不能按“字節”收費/算長度? 一是因為同樣長度字節,token可能差很遠;同樣是 100 字節,英文可能切成25個token,而中文可能切成30~40 個token。而程式碼、符號、特殊表情:可能1個字元=1個token。字節相同,模型計算量天差地別。二是模型算力=跟token 數量成正比。每進1個token,模型要做一次完整推理計算, 進1000token,計算量×1000。上下文越長(比如 128k token),算力爆炸式增長。算力成本≈token數量,而跟字節幾乎無關。三是字元/字節沒法衡量“模型理解難度”。一個生僻詞可能佔1個字元,卻切成 3 個 token,一個常用詞可參3個字元,只切成 1 個 token。模型理解成本、計算成本,只由 token 決定。總之,字節是存檔案的單位,而token是模型思考的單位。API 收費、長度限制、算力消耗,本質都是在收模型“思考”的錢,不是存檔案的錢。 所以必須按token算,而不能按 字節/字元算。三、Token是算力單位:智能效率的標尺理解了Token的本質,就不難解釋為什麼AI廠商的API定價、對話長度限制、算力消耗估算都不約而同地選擇Token而非字節。這背後有著深刻的技術和經濟原因。Token是計算的基本單元。在大模型的推理過程中,Token是計算的基本單位。模型對每個Token的處理都需要執行嵌入層查詢、注意力計算和前饋網路運算,處理的Token數量越多,計算量呈平方級增長。更重要的是,不同Token消耗的算力並不相同。Google最新的研究發現,模型生成的Token其實可以分為兩類:一類是“功能性詞彙”,如“和”“是”“的”這類詞,模型在淺層網路就快速確定了,不需要深度思考;另一類是“深度思考詞”,如“運算結果是10”“選項為A”,這類詞在深層網路中還會被反覆修正,體現模型真正在琢磨問題。如果用字節計費,意味著要求使用者為“的”“了”“嗎”這些廉價Token支付和核心推理Token同樣的價格——這顯然無法反映真實的計算成本。而Token作為模型處理的基本單元,天然地與計算量掛鉤,因此成為更公平的計量基準。Token是輸入/輸出的雙向成本結構。當前主流API均採用“輸入Token+輸出Token”的復合計價模式。這一設計的精妙之處在於,它精準反映了NLP任務中“思考過程”(輸入處理)與“結果生成”(輸出)的不同資源消耗。以DeepSeek為例,其計費模型中輸入和輸出價格不同,輸出通常更貴,因為生成過程需要逐個Token地自回歸計算,無法平行。如果按字節計費,這種成本結構的差異將無法體現——同樣是1KB資料,作為使用者提問傳送和作為模型答案生成,背後消耗的算力可能相差數倍。Token是語義容量的衡量尺度。另一個關鍵概念是上下文窗口(Context Window),即模型單次處理的最大文字長度。GPT-4支援32K Token,Claude 3支援200K Token,DeepSeek企業版支援32K Token。為什麼不用字節來定義上下文窗口?因為模型真正“看到”的是Token序列,而非字節流。Transformer架構的注意力機製作用於Token之間,其計算複雜度和記憶體佔用與序列長度的平方成正比。一個200K Token的窗口,對應的是模型能夠同時“關注”的語義單元數量,而非物理儲存空間。用Token定義窗口,才是對模型能力邊界的真實刻畫。四、Token是貨幣單位:智能商業的壁壘如果說Token消耗量反映了模型的效率,那麼單位Token創造價值的能力則是模型商業價值和技術能力的終極體現。一個反直覺但日益成為共識的結論是:對於同一個意思,Token使用量越少,說明模型處理能力越強。最高級的智能,恰恰在於知道什麼時候該停止思考。 能夠用更短的思維鏈、更少的Token精準解決問題的模型,才是真正聰明的模型。Token消耗量,正在成為衡量模型“思考效率”的核心指標。Token的貨幣化:AI經濟的計量單位。當前,全球AI廠商的營收正與其Token呼叫量呈現顯著同步的高增趨勢。OpenRouter平台的周度Token呼叫量在2026年3月達到14.8兆,兩個月內增長約160%。Token已經成為衡量AI應用滲透的“硬指標”。在這一背景下,單位Token的經濟產出成為區分模型優劣的關鍵。同樣是處理一個企業客服請求,模型A消耗5000 Token,模型B消耗2000 Token但達到相同的解決率,後者就具備了5倍的成本優勢。中國模型之所以能在全球市場持續提升份額,核心優勢正是“性能與成本效益”——即更高的Token價值化能力。Token的價值化:AI技術的演進標尺。Token價值化能力的提升,正在成為各大廠商技術競賽的主戰場。一方面,通過演算法創新壓縮冗餘Token。字節跳動的SAGE-RL演算法能在保持精準率的同時,將推理Token消耗壓縮約1/3;Google的Think@n策略通過早期識別低品質推理樣本,在多款模型上實現算力成本砍半。另一方面,通過架構創新提升Token的語義密度。字節Seed的DLCM將推理單位從Token推向“概念”,在壓縮後的語義空間進行深度推理,實現計算資源的自適應分配。這一突破意味著,未來的模型可能不再逐字“思考”,而是在概念層面直接推理,用更少的步驟解決更複雜的問題。Token價值化水平:AI應用的商業壁壘。對於AI廠商而言,Token價值化能力正在成為核心的商業壁壘。表面上看,增加Token輸出似乎能增加API收入。但頭部廠商深知,降低冗餘Token消耗帶來的長期價值遠高於短期收益。能讓伺服器接收更多並行請求、降低響應延遲、提升使用者體驗,這些帶來的市場份額增長,遠比讓單個請求多說幾句廢話要划算。DeepSeek之所以能在開源模型中脫穎而出,不僅因為技術先進,更因為“把推理成本打到了不可思議的低價”。這種成本優勢的背後,正是對每一個Token價值的極致挖掘——讓每個Token都用在刀刃上,不浪費算力,不拖延時間。五、Token能力,人工智慧應用核心競爭力的尺度從字節到Token,計量單位的躍遷折射出人工智慧從“計算”走向“理解”的範式革命。Token是人工智慧語義的最小單元,是算力的計價單位,也是AI經濟的“一般等價物”。它連接著底層的算力消耗、中層的API定價、頂層的模型能力。Token的數量決定模型的視野範圍,Token的效率決定模型的思考深度,Token的價值化能力決定模型的商業競爭力。展望未來,隨著多模態模型、AI Agent、長上下文處理的普及,Token的含義還將不斷演化。字節跳動已經在探索“概念”級推理,Google在量化“深度思考”Token,擴散模型在挑戰自回歸的Token生成範式。Token這個單元本身,或許會有不斷進化,不斷包括更高級的語義。不斷提升Token能力,或許是人工智慧永不停歇的進化方向。 (數字新財報)
從“無所不能”到“一文不值”,龍蝦Agent跌落神壇了?
01在商業世界裡,有一件極其有趣跟現實的規律:我們對待一項新事物的態度,往往是從一個極端,迅速走向另一個極端。在上周,我們在單仁行裡聊了火爆全網的“龍蝦智能體(OpenClaw)”。那個時候,全網都還在熱捧龍蝦,吹噓它無所不能,好像只要說一句話,龍蝦就能幫我們把所有的活全幹了。所以,在那篇文章裡,我們是非常早,並且花了大量篇幅告訴大家,龍蝦有著極高的使用門檻跟安全風險,它是一個缺乏常識,容易撞南牆的實習生,我們要克服那些難點,掌握什麼樣的能力,注意那些環節,才能真正用好龍蝦。結果,這才過了多久,輿論就出現了極其魔幻的反轉。從無腦吹捧,人人都可以輕鬆上手,到今天各大平台,各個專家突然就開始罵起龍蝦了,出了大量痛罵龍蝦的內容跟視訊。說它連個簡單的網頁都打不開,token燒的飛快,費用猛猛上跳,簡直就是一個只知道燒錢的人工智障。這一下,龍蝦就從神壇跌落下來,從“無所不能”的智能體,變成了“一文不值”的智能廢物。那麼,為什麼會出現這種極端的反轉?龍蝦這樣的智能體到底有沒有用?今天,我們不聊技術跟程式碼,我們就從商業邏輯跟人性的角度來拆解一下。02輿論對於龍蝦看法的反轉,其實是一場非常經典的“達克效應”的集體展演。達克效應告訴我們,當一個人對某個領域瞭解很少的時候,他往往會產生一種虛幻的自信,覺得自己什麼都懂,這就是所謂的“愚昧之巔”。所以,當一些人用精心剪輯的視訊,展示龍蝦如何行雲流水地訂機票、做報表的時候,很多人就被推上了這個“愚昧之巔”。大家潛意識裡把龍蝦當成了一顆靈丹妙藥,看著視訊覺得它很簡單,小白都能幹,只要把它裝進電腦,它就會自己幹活了,自己就能躺著把錢賺了。這是自信心爆棚的高點,因為大家瞭解得太少,所以根本不知道這件事情的邊界跟難度在那裡。但就像我們在之前單仁行裡拆解過的,龍蝦並不是靈丹妙藥,它更像是一台極其硬核的健身器材。它確實能讓你變強,但前提是你得懂規則、懂拆解、還要每天流汗去訓練跟教會它。所以,處於“愚昧之巔”的人,第一次試圖讓龍蝦去幹極其複雜的非標任務,結果龍蝦在後台燒光了Token、甚至搞崩潰了電腦的時候。好了,馬上就跌入了達克效應的第二個階段“絕望之谷”。他們發現龍蝦不是神奇的魔法棒,而是一把需要自己組裝,用力揮舞的鐵錘的時候,他們不會去反思自己缺乏臂力,不會去思考自己要去學什麼,只會大罵這把錘子太難用,把它一腳踢開。然後,就告訴所有人,龍蝦沒用,把它貶的一文不值。這就是今天龍蝦被全網群嘲的根本原因,人們懶惰的預期,被技術門檻無情擊碎了,然後開始懷疑,這個工具壓根就沒什麼用。03那麼,既然現在進入到“絕望之谷”,是不是意味著Agent智能體這條路就走不通了呢?當然不是。矽谷有一個著名的“阿瑪拉定律”:人們總是高估一項新技術的短期爆發力,卻又大大低估它的長期破壞力。我們要明白,接下來Agent的發展不會停止,而是會持續的進步。正是因為發現了巨大難點的存在,才會給難點的解決,帶來豐厚的回報。商業怕的,從來不是有問題,而是找不到問題。但是,Agent接下來絕對不是造出一個無所不能的“數字上帝”。那種指望一句話就能讓Agent打天下的想法,在真實的商業環境裡是不成立的。Agent未來的真正形態,是走向“多智能體協同(Multi-Agent System)”。什麼意思呢?一百多年前,亨利·福特是怎麼把汽車成本降下來的?他不是發明了一個能包攬所有造車工序的全能機器,而是發明了標準化、分工明確的流水線。同樣的邏輯,Agent接下來會逐步降低使用的門檻,然後細分成不同的應用,去對應不同的應用場景。像騰訊現在就已經在這樣做了,開始打造Agent矩陣。這就意味著,我們未來不僅要去學習跟使用Agent,而且,我們要面對的一定不只是一個龍蝦。比如說我們可能要用Agent A專門負責盯著信箱、工作軟體,接受資訊,分門歸類,A就只幹這一件事,做到極其精準。Agent B就負責把歸類後的資訊做篩選跟排序,區分出這些資訊那些是緊急重要,那些是值得注意,但不是馬上就要做的事。Agent C就負責檢查跟校驗,提醒使用者,給出具體的執行建議。這其實就是技術發展的規律,真正的工業革命,靠的不是包攬一切的全能超人,而是逐漸演化出細分、垂直的標準化流水線。04那麼,面對這種正在演進的趨勢,我們的企業跟個人,應該怎麼正確對待智能體呢?我想給大家的建議只有四個字:向內生長。什麼意思呢?Agent現在正在經歷最讓人痛苦,也是淘汰率最高的絕望之谷。在這個階段,絕大多數跟風者、好奇者,都會死在這個谷底,他們會放棄探索,轉而去尋找下一個“能讓人一夜暴富,不用幹活”的愚昧之巔。這個時候,我希望大家不要被情緒的鐘擺所左右,不要在它火的時候去神化它,更不要在它低谷的時候拋棄它,而是要找到方法,逼著自己去學習。因為達克效應並不是只有“愚昧之巔”跟“絕望之谷”這兩個階段,它還有後來的“開悟之坡”跟“平穩高原”。我們不要幻想一口吃成個胖子,而是要敬畏常識,尊重規律,向內生長。我們現在打開公司的業務流程、獲客話術、銷售動作跟轉化路徑,看看有沒有一份能夠讓人類員工看懂的標準執行流程?而且,你的每一個節點有沒有精準清晰的資料,維度是不是足夠?當這些準備好的時候,Agent工作就變得容易了。如果你發現公司決策全靠老闆拍腦袋,銷售全靠老師傅帶徒弟的口口相傳,業務資料跟邏輯本身就是一團亂麻的時候。那你引進任何Agent,那都是一場災難,它只會放大你的混亂。所以,今天靜下心來,借助自己的經驗跟數位化工具,把企業的每一個業務動作,拆解成極其清晰、沒有歧義的SOP;把企業沉澱下來的各種資料,包括客戶資料,各種維度、產品賣點、關鍵詞、業務邏輯整理好。然後,把它們放入到我們現有,成熟的,馬上就能用的AI工具中,它可以是你最熟悉的AI大模型,也可以是垂直領域的AI應用,比如說我們的文思子牙專業行銷AI系統,嘗試用它輸出符合企業特徵跟需求的行銷內容。重要的是動起來,開始去有目的地進行訓練、輸出、調整、再訓練。這一步就是檢驗跟提高AI與企業實際業務結合的契合度,同時,訓練我們如何把一個大目標,拆解為一步步精準指令的人機協作能力。這就是“開悟之坡”,走在這個階段的人,不會再有狂熱的情緒,而是一次次的學習-使用,再學習,再使用...直到逐漸做出結果。所有的長期主義者,都是在這條坡道上默默攀爬的苦行僧。等到我們的業務、資料、流程實現了高度的標準化,我們知道怎麼給AI下達精準、有效的指令。未來降低了技術門檻的Agent,才能真正給我們插上自動化的翅膀,走進平穩高原。因為人機協作已經內化為我們的肌肉記憶跟本能,用好Agent也就是一種理所當然的事情了。 (單仁行)
OpenClaw,"窮人"就別玩了
OpenClaw現在最大的問題,是帳單太嚇人。(1)一個群裡電商老闆說:“太燒token了,我有點燒不起。”(2)另一個做教育的老闆更絕,他說一天消耗217刀,差不多1500人民幣。(3)這還不是最慘的。Reddit上有個老外想搞自動化SaaS。AI卡進死循環:讀檔案、改程式碼、調API、再讀檔案……72小時帳單 57.76美元,差不多400多元。(4)還有狠人,直接用頂級模型Opus 4.6跑。只問了15個問題,15美金(差不多 100 多塊沒了)。平均一個問題7塊錢。 這那是問AI?這是在吞金條。AI很猛,但帳單更猛有人算過一筆帳,越算越心驚:一個重度使用者,一個月 Token 消耗 1.8億。帳單接近:3600美元。但真正讓人害怕是死循環。無限讀取、無限呼叫、無限執行。有開發者反饋:一天就燒掉了200美元。很多人不是不用OpenClaw,是不敢一直開著,生怕半夜醒來,房子沒了。更尷尬的是:很多人連燒錢的機會都沒有你以為有錢就能玩?更尷尬的是:你連跑都跑不起來。甚至有騰訊工程師直接在大會現場擺攤,免費幫人裝OpenClaw。為什麼?因為太難了。很多人想試試AI Agent。結果第一步就卡住了:伺服器環境、依賴安裝、模型配置、API接入,折騰半天,任務還沒跑。折騰了三天三夜,任務還沒跑起來,人就沒耐心了。有人開始用“外掛”玩了!現在很多團隊已經算過一筆帳:如果一個AI Agent每天消耗500萬Token一個月就是:1.5億Token。成本可能接近:2萬人民幣。但最近,我發現一群聰明人換了個玩法。他們不自己部署了。直接用已經裝好的伺服器。伺服器一開,OpenClaw直接跑。更離譜的是:有些平台,居然還送Token。很多人一算帳:成本直接被打下來一大截。原來還能這麼玩?七牛雲的新玩法:開機即跑這群聰明人用的,就是七牛雲。最近有開發者在用的一種方案是:直接用已經預裝 OpenClaw 的伺服器。環境都配好了:Python環境、依賴庫、模型介面開機就能跑。比如七牛雲最近推出的AI Agent 部署方案。別人折騰幾天的環境,這裡幾分鐘搞定。但這還不是最關鍵的。最關鍵的是:它把Token成本,按在地上摩擦。Token快取,才是關鍵大家可能都知道,大模型API是輸入和輸出分開計費。在很多場景下(比如程式設計和Agent處理任務),傳統呼叫大模型API:每次輸入請求都會重新計算Token,全量計費。比如一個任務:傳統:100 次 × 1000 Token = 10 萬 Token 計費,但有快取後,一切就變得不一樣了。快取命中後:1 次正常寫入 + 99 次 × 0.1 價格讀取,理論上約節省 90% 左右七牛雲快取:在一定時間內,你傳送請求中包含的靜態內容(比如大段的提示詞、文件,工具定義),它直接呼叫“記憶”(並不是真的記憶,而是之前計算過的快取結果),對於命中的部分直接跳過計算,可以大幅節省算力和時間,以 Claude 4.6 Sonnent為例,命中快取的輸入價格是未命中快取價格的1/10 !對於小龍蝦這種對上下文利用效率不高,經常反覆讀取上下文的Agent框架,在有快取的機制下,Token消耗通常能直接降低 70% 左右。別人燒錢跑一天,你在七牛雲上能跑上十天半個月。這一層最佳化,七牛雲直接在底層幫你做了。你不用懂程式碼,省錢是自動的。我用Claude 4.6 Sonnet實測下來,在OpenClaw場景的快取命中率差不多能在 60% -70% 左右。雖然第一次建快取會貴一點,但綜合算下來,整體相當於打了個6折。124 款頂級模型,一次性全部給你!這次七牛雲給OpenClaw 使用者準備了四樣東西:伺服器、Token、沙箱、拉新獎勵。① 66元一年伺服器:2核2G,20G系統盤、200M頻寬,關鍵是:已經預裝好 OpenClaw。而且新加坡 / 東京 / 香港 / 國內節點都能選。② 106元兩台伺服器:企業使用者可以再領200元無門檻券,可以直接用50元拿下一台2核4G的伺服器,疊加上面那個66元活動,可也就是說106元拿兩台伺服器。③ 500元Token券:七牛雲還送 500元 Token券,換算成七牛雲的Token資源包差不多相當於2.8億 MiniMax Token。基本夠公司跑一個月了。④ 168小時AI沙箱:你可以讓 OpenClaw 在裡面執行任務。比如自動寫程式碼、自動跑任務,那怕失控,也不會燒你電腦。⑤ 如果Token 還是喂不飽你的小龍蝦,七牛雲去年年底的拉新送百億Token的獎勵,還可以再給你續一波。如果你正準備折騰 AI Agent,這波其實挺香。寫在最後:說到底,OpenClaw的問題,不是技術。而是成本。如果每一次任務,帳單都在往上跳。很多人自然就不會玩了。但如果成本被打下來,AI Agent這種東西,可能真的會開始進入,普通開發者的工具箱。但前提只有一個,帳單得先降下來。 (盧鬆鬆)
AI爆發前夜:全球日均Token消耗量暴增300倍
你發現沒?最近關於AI泡沫的爭論,悄悄變少了。去年這時候,還到處是“AI泡沫”“炒概念”“沒場景”的聲音。可今年,大家好像突然閉嘴了。因為一組資料,實在太硬了——全球AI模型日均Token消耗量,過去一年漲了300倍。(Token就是AI理解語言時用的“小碎片”——你說的話、它回的話,都要拆成一個個Token來算,就像發簡訊按字數計費一樣。)不是30%,不是3倍,是300倍。01. 300倍,是個什麼概念?這麼說吧:如果把2025年初的AI呼叫量比作你家門口的小溪,那今天,它已經是長江了。你每一次用ChatGPT寫周報、用Midjourney做海報、用豆包查菜譜——都在給這條江加水。幾個數字,讓你感受下這水流有多猛:ChatGPT周活使用者破了8億——一年漲了200%多,相當於地球上每10個人裡就有1個在用企業級API呼叫量直接起飛——有朋友跟我說,他們公司去年每月AI帳單才幾千美金,現在奔著幾十萬去了開源模型下載量瘋漲——像Llama、Qwen這種開源模型,下載量直接翻5倍還不止資料不騙人:AI早就不是極客的玩具,它成了所有人的水電煤。02. 為什麼突然就爆了?三股風撞在一起,把火吹旺了。第一,能用的地方,太多了。最開始就是聊天解悶,現在呢?寫程式碼、剪視訊、做客服、查資料、畫圖、做PPT……你能想到的每一個數字角落,AI都在往裡鑽。每多一個場景,就多一批人離不開它。第二,它真的越來越聰明。GPT-4o、Claude 3.5、GLM-5……名字記不住沒關係,你只要知道:現在的模型,比去年靠譜太多了。你願意把更多活交給它,它幹得越好,你越願意用——這循環一旦轉起來,就停不下來。第三,它變便宜了。你看,我們用的量翻了300倍,可API單價反而跌到了去年的三分之一。便宜,就更捨得用;用得越多,攤得越薄——一個完美的正向螺旋。03. 產業鏈:訂單接到手軟上游那幫人,現在什麼狀態?就是:訂單排到明年,產線24小時連軸轉,做夢都在擴產能。華工科技:AI高速光模組訂單爆滿,全年無休,工人三班倒輝達:資料中心收入又雙叒創新高,H100/H200還是一卡難求台積電:CoWoS封裝產能拉滿,所有AI晶片產線全線飄紅,想插隊?沒門一個做晶片的朋友苦笑:“以前愁客戶,現在愁產能。這感覺,又爽又焦慮。”04. 說點實在的:這和你有什麼關係?我知道你可能在想:他們賺他們的,關我啥事?講真的,關係比你想像的大。如果你是程式設計師——AI程式設計現在就是硬通貨。我用Cursor寫程式碼,效率起碼是以前的3倍。你不會?那只能看著別人準時下班。如果你是營運、市場、產品——AI寫文案、做分析、一鍵生成PPT,這些技能正在重新定義“競爭力”。早一天用上,你就比別人多一雙手。那怕你只是個普通使用者——試試新出的AI工具,看看趨勢,跟朋友聊聊。不為別的,就為了時代轉彎的時候,你還站在車上,不是被甩下去。05. 寫在最後300倍的增長,不是終點,是起跑線。按照現在的勢頭,再翻10倍、100倍,可能也就兩三年的事。模型會更聰明,成本會更低,場景會更野——這趟車,只會越來越快。我們正站在AI爆發的前夜。唯一的問題是——你上車了嗎? (一帆智量)